代码 | 名称 | 当前价 | 涨跌幅 | 最高价 | 最低价 | 成交量(万) |
---|
今日,字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL ,向更优智能体迈步 。
据介绍,Seed1.5-VL在超过3Ttokens的多模态数据上进行预训练,具备更强的通用多模态理解和推理能力,且推理成本显著降低。
目前在多模态大模型领域 ,谷歌最新推出的大模型Gemini 2.5 Pro表现出色,已支持图像 、视频、音频与代码的统一理解,且在多个基准测试(如MME、Math Bench)中领先于GPT-4.0。
字节团队表示 ,尽管Seed1.5-VL的激活参数仅有20B,但其性能可达到与Gemini 2.5 Pro相当的水平,在60个公开评测基准中的38个上取得SOTA(最新最优性能 ,state-of-the-art performance)表现,包括19项视频基准测试中的14项,以及7项GUI代理任务中的3项:
1、视觉能力突出
Seed 1.5-VL在视觉推理 、图像问答、图表理解与问答、视觉定位/计数 、视频理解、GUI智能体等任务中均表现突出。其中 ,在以Agent(智能体)为中心的任务(如GUI控制和游戏)中,Seed 1.5-VL在7个GUI智能体任务中的3个取得了SOTA成绩 。
2、交互性更强
精简的架构设计显著降低了推理成本和计算需求,使模型更适合交互式应用。比如该模型增强了GUI(图形用户界面)定位性能 ,可在PC端 、手机端等不同环境中完成复杂交互任务,包括收集处理信息、在开放游戏中推理和行动等。
字节团队表示,Seed 1.5-VL进一步提升了视觉理解和推理能力,并向VLM(视觉语言模型)的通用性能力更近一步 。但仍存在一定的局限性。
首先 ,在细粒度视觉感知方面,模型在处理目标计数、图像差异识别以及复杂空间关系解释时仍面临挑战,主要在目标排列不规则 、颜色相似或部分遮挡等极端情况下;其次 ,在高层次推理任务中,如解决华容道谜题、导航迷宫或遵循复杂指令时,有时模型会引入无根据的假设或产生不完整的响应 ,表现仍有提升空间。此外,在视频推理方面,模型尚难以准确识别动作的先后顺序或从物体的前后状态推断顺序 。
目前 ,Seed 1.5-VL已在火山引擎上开放API供用户体验。
多模态指的是能够处理和理解来自多种不同来源和形式的信息的系统,如文本、图像 、音频、视频等。多模态技术使机器学习模型能够更全面地理解和表达复杂的真实世界场景,国内大模型厂商纷纷竞逐多模态 。
5月6日谷歌DeepMind团队发布多模态大语言模型Gemini 2.5 Pro ,在多个指标上登顶AI排行榜LMArena。
北京时间4月17日,OpenAI发布o系列多模态推理大模型o3与o4-mini。该系列模型在大规模强化学习与图像思维链整合技术的加持下,多模态推理能力显著增强,工具应用能力大幅提升 。
应用方面 ,近期多款大厂的AI应用实现多模态功能更新,如文小言升级语音大模型、图片问答能力;腾讯元宝上线10张图片同时处理的功能;豆包文生图功能实现升级,新版深度思考开启测试。
平安证券称 ,近期包括OpenAI、豆包在内发布的新模型,解题思路在此前思维链CoT基础上,更多体现对模型原生Agent能力(即工具使用)以及多模态推理能力的重视。全球大模型领域的竞争依然白热化 ,坚定看好AI主题的投资机会,当前Agent在企业端落地进度较为靠前,AI应用建议关注OA/ERP/编程/办公等领域;算力方面 ,Agent将带来更多的推理端应用需求,从而拉动推理端算力乃至整体算力需求向上。
开源证券日前发布研报称,国产模型近期在多模态 、推理能力上持续突破 ,多款达到全球顶尖水平,加之头部模型开源,大模型厂商持续发力Agent,将继续推动AI应用深入落地 ,拉动推理算力需求,建议继续布局AI 。
股票配资交流论坛:哪个配资平台比较正规-豆包使用成本“卷”至1/3 火山引擎瞄准智能体“爆发” 催生智算一体机新需求
恒指配资开户:国内平台配资-使用成本降至三分之一!字节大模型重磅更新!
投查查配资平台:股票杠杆交易平台哪个好-售价11.98万元起 小鹏新车上市1小时大定12566台!何小鹏:智能辅助驾驶能力比肩行业50万级旗舰车型
股票配资免费平台:我要配资网炒股配资开户-世界模型成AGI关键 算力成本、数据质量成两大桎梏
配资优秀配资门户:股票配资正规平台-人形机器人批量进厂“实习” 资本加码投入具身智能商业化落地
专业炒股配资平台:全国最好股票配资平台-华为加码布局具身智能!深耕工业、能源等垂直场景 多家上市公司参与
还没有评论,快来说点什么吧~