2025年6月6日,第七届“北京智源大会”在中关村展示中心开幕拍摄项目
技术需求:多机位讯道拍摄+摇臂摄像+照片直播+视频直播+导播+活动跟拍
项目时间:20256.6-7
项目地点:中关村会议中心
北京智源大会是智源研究院主办的“AI内行学术盛会”,以“全球视野、思想碰撞、前沿引领”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton,图灵奖得主Joseph Sifakis、姚期智,Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金会等国际明星机构与技术团队代表,华为、百度、字节跳动、腾讯、阿里等互联网大厂以及智谱、宇树科技、生数科技、面壁等30余位AI公司创始人、CEO,同时,大会还汇聚了100余位全球青年科学家、200余位人工智能顶尖学者和产业专家,围绕多模态、深度推理、下一代AI路径、Agent智能体、具身智能、AI4S、AI产业、AI安全、AI开源展开精彩演讲和前瞻性对话。
开幕式由智源研究院理事长黄铁军主持。
智源研究院院长王仲远做2025研究进展报告,发布智源研究院在大模型前沿技术路径的探索成果和开源生态建设的最新动态。
在通用人工智能的探索之路上,智源研究院以"悟道"系列大模型为起点,开启了中国的大模型时代。
2021年3月推出的悟道1.0,作为中国首个超大规模信息智能模型,填补了中文超大预训练模型生态的空白;同年6月发布的悟道2.0,以1.75万亿参数规模登顶全球最大预训练模型,在知识推理、多语言生成等9项核心任务上实现国际领先;2023年全面开源的悟道3.0,在通用视觉与多模态的六大技术维度取得突破性进展。
大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。
Part.01
智源“悟界”系列大模型:解码生命本质 驱动机器智能 拓展AI与物理交互边界
在2025北京智源大会上,继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型,其中,“悟道”的“道”代表智源对大语言模型系统化方法和路径的探索,“悟界”的“界”代表虚实世界边界的不断突破。“悟界”系列大模型承载的是智源对人工智能从数字世界迈向物理世界的技术趋势的判断。
“悟界”大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。
从微观生命体到具身智能体,'悟界'系列大模型试图揭示生命机理本质规律,构建人工智能与物理世界交互基座。
1. 原生多模态世界模型Emu3
原生多模态世界模型Emu3基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。Emu3支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。
2. 脑科学多模态通用基础模型见微Brainμ
基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。
Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为脑科学的 “AlphaFold”模型。
作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新SOTA表现。作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。
智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。
3. 跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0
跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。
在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10。
相较于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。