银河通用联合创始人兼大模型负责人张直政,千寻智能联席首席科学家解浚源,自变量机器人创始人兼CEO王潜,清华大学助理教授、星海图首席科学家赵行,傅利叶智能创始人兼首席执行官顾捷,加速进化副总裁赵维晨,北京人形机器人创新中心CTO唐剑……
当人形机器人领域的这些活跃人物,出现在云栖大会同一场活动——2025阿里云具身智能行业论坛,气氛变得微妙起来。
一方面,他们对一个终极愿景抱有高度共识:让机器人能在家庭和工业场景中自如完成各类任务,最终迈向通用人工智能的“圣杯”。
然而,当话题转向“如何抵达”这一现实路径时,瞬间呈现出紧张感,各家的尝试天马行空,甚至互不兼容。
有人认为仿真数据能解决99%的问题,也有人直言最核心的数据必须源于现实世界;有人推崇端到端的统一模型,也有人主张分层系统更为实际,还有人试图跳出非此即彼的框架:“别争了,其实可以整合到一起。”
就连并未参会的王兴兴,也因不久前在另一场大会上提出的争议观点,被“请”到了台前。
这其实是一件很有意思且极为重要的事。技术路径的分化,标志着一个更具深度的探索阶段的到来。而在这个过程中出现的每一条岔路,都可能藏着通向终极答案的钥匙。
数据之争
真机数据还是仿真合成数据?
与文本、图像等可轻松抓取的互联网数据不同,具身智能依赖的是机器人与物理世界交互的行为数据。
这类数据天然稀缺、获取门槛极高,已成为行业共识,但如何破解这一瓶颈成了“非共识”的问题。于是,便有了“真机数据采集”与“仿真数据生成”之争。
第一位上台分享的银河通用张直政,坚定地站在仿真合成数据一方——这两天湖滨步行街开出的杭州首家机器人售卖店,便是这家公司的商业化尝试。他认为以仿真数据为主导的路线,不仅能实现千倍训练效率的提升,长期来看也更具可行性与性价比优势。
银河通用机器人货架取商品
年初,银河通用就已发布完全基于仿真合成大数据进行预训练的具身大模型,目前生产出10亿级别的仿真合成数据,据说内部已经进一步将数量级扩大至百亿和千亿级别。
没有对上一位演讲嘉宾的直接反驳,PPT一放,千寻智能解浚源的立场已不言自明:其中一页的标题写着:“唯有高质量的真实数据才能训练出世界领先的模型。”
这家带有浙大+清华基因的公司,构建了一套三级训练体系:先用海量互联网视频预训练为系统注入先验认知,再通过真实机器人采集的模仿学习数据进行动作映射,最后通过强化学习将完成度推向接近完美。
真实数据从哪里来?解浚源展示了其中两种采集方式:一是遥操作(量小但质量高),二是自研可穿戴机械臂(更灵活,成本仅遥操1/20)。
千寻机器人Moz1展示S型压弯
同样坚持真机数据为主导路线的,还有星海图。这家公司新近发布的G0模型,便是基于100%开放的真实世界数据进行训练:机器人被放在汉庭、如家、711、罗森等真实场景,自主采集人类行为数据,并完成一系列复杂任务。
真机数据>互联网数据>仿真数据,赵行现场还给数据价值排了个序。
一场论坛远不足以平息这场持续已久的数据之争。什么样的“数据配方”才是最理想的虚实比例?只有等待后续实践去揭晓了。
模型之问
大模型如何赋能具身智能?
具身智能的“智”,究竟要怎么衡量?
解读的维度很多:比如空间智能(对位置、距离和环境的精准感知),时间智能(记忆过去、预测未来),又比如执行智能(拆解复杂任务并自主执行),泛化能力(将所学迁移到新场景),等等。
当下一个热门的解决方案,就是VLA(视觉-语言-动作)端到端模型。它试图让机器人通过摄像头“看见”世界,通过自然语言“听懂”人的指令,并直接执行相应“动作”,从而构建起“感知-理解-决策-执行”的闭环。
“除此之外,还有大小脑分层架构、世界模型,目前技术路线尚未收敛,并行探索。”北京大学计算机学院研究员仉尚航现场对这三类主流算法路径,做了一个梳理。
大脑+小脑分层路线,采用多模态大模型作为“大脑”负责高层决策与推理,配以专门的“小脑”模型处理底层运动控制,通过分层协作实现更强的任务处理能力。世界模型路线,则代表更前沿的探索,旨在构建对物理世界的完整建模,通过预测未来状态来优化动作决策。
现场的自变量和星海图,恰好分别代表了端到端与分层模型两种方向。前者将视觉、语言、触觉、动作等所有模态信息,纳入一个模型处理;后者则采用“大脑”+“小脑”,一方面减轻算法负担,另一方面也更符合人体结构。
星海图机器人叠被子
并未参会的王兴兴,因此前在2025世界机器人大会上的观点,在圆桌环节意外被cue。当时,他在公开演讲中表示,机器人数据被过分关注了,“现在最大的问题是模型,并不是数据问题。”同时,他对大热门的VLA持较为怀疑态度,认为这就是一个“相对傻瓜式的架构”,在和真实世界交互时,数据质量、能采集的数据都不太够用。
有趣的是,刚才还在为端到端与分层路线交锋的嘉宾,此时却立场一致,或委婉或直接地表达了对这一观点的不认同。
炒股配资代理提示:文章来自网络,不代表本站观点。