近期,OpenAI 推出o4-mini 和满血版o3 模型,工具使用能力提升有望实现模型在复杂场景下的任务处理,而谷歌发布一系列多模态模型更新,跨模态能力提升有望大幅延伸AI 应用场景;在生态侧,近期国内外多家厂商宣布接入MCP 协议,谷歌也推出A2A 协议旨在构建多智能体协同应用生态,通用大模型以及产品型AI 应用厂商有望深度受益。 OpenAI 推出o4-mini 和满血版o3 模型,多模态能力及智能水平大幅提升o4-mini 和o3 是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent 智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像),工具使用能力的实现使得模型能够处理更加复杂的任务场景,而不仅仅局限于简单的文本生成。 在可用性方面,除了ChatGPT Plus、Pro 和Team 用户可以调用模型外,满血o3和o4-mini 也通过 Chat Completions API 和 Responses API 向开发者开放。 Responses API 支持推理摘要功能,能够在函数调用时保留推理标记以提升性能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。 谷歌发布一系列多模态模型更新,跨模态能力大幅提升近期,谷歌在Google Cloud Next 25 大会上发布一系列AI 重大更新,跨模态能力再次实现大幅迭代,有望大幅拓展AI 应用场景并满足用户不同需求,其中: (1)视频生成模型Veo 2:现在Veo 2 模型支持P 视频、关键帧生成视频、扩展画面、镜头控制等特性; (2)音频理解与生成模型Chirp 3:Chirp 3 提供了超过35 种语言(含中文)的自然逼真语音,模型可通过10 秒的短录音就生成非常逼真的自定义语音,并且可以区分音频中的说话人身份、提升音频转文本的易用性;(3)音乐生成模型Lyria:可制作高保真音频,精准捕捉细微差别,并呈现丰富细腻的音乐作品,涵盖各种音乐类型,可帮助企业提升品牌体验并简化内容创作。 (4)图像生成模型Imagen 3:模型提升了编辑/修复功能效果,能够快速移除、重绘图像中不需要的对象或瑕疵。 MCP+A2A 协议有望推动Agent 应用生态繁荣,关注价值链投资机遇MCP 允许AI 模型从业务工具、软件、数据库以及应用开发环境等来源中获取数据完成任务。自去年11 月Anthropic 将MCP 服务协议开源后,至今年2 月已有超过1000 个由社区构建的MCP 服务器可供使用。近期,OpenAI 宣布其 Agents SDK 支持MCP 服务协议(ChatGPT 桌面应用和Responses API 很快也将支持);而国内,近日阿里云百炼上线业界首个全生命周期MCP 服务,无需用户管理资源、开发部署、工程运维等工作,5 分钟即可快速搭建一个连接MCP服务的Agent(智能体),同时腾讯云也迅速跟进,正式发布“AI 开发套件”,支持MCP 插件托管服务,帮助开发者最快 5 分钟搭建业务型AI Agent。 4 月10 日,谷歌在Google Cloud Next 25 大会上开源了首个标准智能体交互协议——Agent2Agent Protocol(简称A2A),A2A 有望打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Intuit、MongoDB、Salesforce、SAP、ServiceNow 和Workday 等主流企业应用平台。在实际应用中,客户端Agent 负责制定和传达任务,而远程Agent 则根据这些任务采取行动,以提供正确的信息或执行相应的操作,同时Agent 可以相互发送消息(可以包含上下文信息、回复或者用户指令),使其能够更好地协同工作,共同完成复杂的任务。 建议关注标的 我们认为,在大模型各方面性能加速迭代,叠加MCP 和A2A 等数据和执行层协议的完善和应用厂商的加入,AI 智能体应用生态有望加速构建,关注通用大模型及产品型应用厂商的投资机遇: Agent 应用:科大讯飞、焦点科技、光云科技、税友股份、鼎捷数智、卓易信息、彩讯股份、迈富时、泛微网络; AI 垂类应用:金山办公、福昕软件、万兴科技、合合信息、昆仑万维、虹软科技、润达医疗、美图公司、商汤-W; 风险提示 1、AI 技术迭代不及预期的风险;2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险; |