【背景】大模型技术经过前期快速发展,2025年进入多模态深度融合和实际应用落地的关键时期。视觉、语言、代码等多种模态的融合成为提升模型能力的重要方向,同时AI从虚拟世界向物理世界渗透,具身智能成为各大科技公司竞相布局的新赛道。
【事件】2025年10月,DeepSeek开源名为DeepSeek-OCR的3B参数模型,创新性地通过视觉模态实现文本信息的无损压缩。该模型利用图像Token高效压缩文本,在10倍压缩率下解码精度达97%,20倍压缩率下仍保持约60%的准确率,为长上下文压缩和LLM记忆优化提供了新路径。谷歌Gemini 3.0 Pro在A/B测试中展现出突破性代码生成能力,仅通过单次提示词即在2分钟内生成功能完整的网页版操作系统,支持macOS、Windows和Linux界面,生成系统以单一HTML文件实现,包含文本编辑器、文件管理器、绘图工具、视频编辑器等基础应用。阿里巴巴通义千问团队宣布内部成立具身智能小分队,由技术负责人林俊旸亲自组建并领导,此举被视为阿里在物理AI系统领域最明确的探索,标志着其正式加入OpenAI、Google等巨头竞逐的具身智能赛道。
【反应】技术社区对DeepSeek-OCR的创新思路高度认可,认为其突破了传统OCR的Token效率瓶颈,为LLM的长上下文处理提供了新范式。谷歌Gemini 3.0的代码生成能力引发广泛讨论,博主ChetasLua公开的演示视频在海外平台获超140万浏览。阿里入局具身智能被视为行业重要动向,林俊旸强调,多模态模型正从“理解世界”转向“参与世界”,通过强化学习、工具调用与长时序推理能力,推动AI从虚拟走向现实。
【展望】多模态融合技术将继续深化,视觉、语言、代码等模态的有机结合将极大扩展AI应用场景。具身智能将成为AI发展的重要方向,通过强化学习、工具调用与长时序推理能力,推动AI从虚拟世界走向物理世界。斯坦福大学提出的ACE方法预示着模型优化可能从参数层面转向上下文层面,为AI适配提供新范式。蚂蚁集团开源的万亿参数模型Ling-1T采用高效MoE架构,标志着大模型行业从“参数竞赛”转向“效能竞赛”的关键节点。