huatihuiAPPxiazai

内容详情 你的位置: 首页 > 华体会体育 > 华体会APP下载
百亿具身智能CEO对话:模型才两岁不急于华体会- 华体会体育官方网站- 体育APP下载世界杯指定平台进厂“打童工”|直击智源大会

类别:华体会APP下载 发布时间:2026-06-15 23:29:45 浏览:

  华体会,华体会体育,华体会体育最新登录网址,华体会体育官网,华体会靠谱吗,华体会APP下载,华体会官网,华体会官方网站,华体会网址,世界杯

百亿具身智能CEO对话:模型才两岁不急于华体会- 华体会体育官方网站- 华体会体育APP下载- 世界杯指定平台进厂“打童工”|直击智源大会

  “制约具身智能机器人能否大规模落地的核心点在于,部署成本有多高,我们现在用模型去做一个demo,成本没办法支撑规模化落地。所以,至少要把具身模型做到大学生、高中生水平吧。但现在

  这是6月13日上午,第八届北京智源大会具身智能CEO论坛上,举行的百亿估值具身智能企业CEO圆桌对话中,千寻智能创始人、CEO韩峰涛说的一句话。

  韩峰涛鲜明反对当前机器人大规模落地,认为具身智能智商不够、成本太高,现在只能打“童工”。他认为,要等到模型达到大学生或高中生水平,才能低成本批量落地,这大概需要两年以上。

  我回看这场“华山论剑”对话,相当精彩,明枪暗箭、争夺第一、反对评测、识、反落地等话题,这几位具身智能公司CEO们都给出了鲜明的答案。

  这些公司当中,千寻智能主要做本体和大脑;许华哲的破壳机器人主要做家庭场景,和自变量属于同一赛道;蚂蚁灵波之前主要做世界和具身模型,接下来要做本体,今年可能发布原生物理AI模型和;灵心巧手主要做灵巧手;星源智不做本体、只做大脑和操作交互。

  1、融资热:韩峰涛认为当前融资主要是储备弹药,因为具身智能将进入大规模预训练阶段,烧钱厉害,今年是抢身位、积粮草的关键年,若没拿到头部资金,明年可能失去做基础模型的机会;

  许华哲说,融资是为了买一张通往未来的门票,让机器人实现通用和智能,这需要大量资金支持,因为世界模型消耗资源更大。

  刘东指出,融资中70%用于储备资金,30%可用于商业化落地。具身智能不限于人形,可以用模型赋能现有自动化设备,已在尝试落地。

  2、机器人发展。韩峰涛认为,如果以完美人形机器人为100分,当前机械臂约50分,灵巧手约5分,AI约3分。但大模型让AI能快速提升,赋能硬件,因此在此阶段硬件是成熟的,可产生巨大市场空间。

  其中,许华哲表示反对,认为只有真正能卖出去才是核心验证标准。比赛有操作空间,第三方评测难以公正,尤其物理世界中环境稍有变化就会影响结果;

  朱兴同意,但有前提,认为如果评测定义科学且测试公允,就有用。例如从人类双臂操作技能视角定义原子技能维度的基准,对模型迭代有帮助。但真正验证还得靠落地。

  而未来一年,刘东称,将成为机器人规模化落地应用的元年。过去行业重心集中在基础模型训练与数据采集,大批机器人产品并未真正走入实景场景开展作业。而从今年起,海量机器人将逐步落地各类真实环境投入实操。端侧模型直接搭载于机器人本体,摆脱人工远程操控,可自主完成场景内 80%-90% 的工作任务。

  这场圆桌大家可以确实多拍几张照片,因为也许过几年这里面都是身家千亿以上的,所以到时候再想邀请各位嘉宾可能也不那么容易了。

  当然,这些头部公司企业的掌门人、CEO,都是智源的好朋友,来一起探讨一下咱们现在具身智能领域里最热门的一些问题。大致上我们也会围绕像资本、本体数据,包括模型场景等几个方面来展开。

  今年上半年,整个具身智能领域的融资非常火热,像咱们千寻也创造了很多的记录,三个月内其实融资已经将近50个亿。

  星源智成立不到一年,也融了十个亿的规模。灵心巧手也在半年内顺利收获了B轮、B+轮,现在的估值还是非常高的。

  还有破壳机器人,一个月内就完成了数千万美元的天使轮,当然还有背靠资金非常雄厚的蚂蚁集团全力支持的蚂蚁灵波。

  所以我想请问一下各位嘉宾,怎么看待当下咱们具身智能产业的融资热潮?是已经找到了商业化模式,还是实际上是储备粮草准备打持久战?

  我觉得现在大家融资首先肯定是先储备弹药,就是刚才王院长也说找到了商业模式,可能商业模式还要稍微往后一点。

  但整个行业的节奏,实际上大家已经找到了,就是我们具身智能马上就要进入到大规模预训练这个阶段。大家都知道,搞大模型很烧钱,所以大家都在抢身位和储备弹药,如果今年你还没有搞到行业头部的资金量和估值,可能明年就很难了。

  所以至少在第一波具身智能创业的浪潮里面,应该没有再做foundation model的机会了。

  今年实际上是积粮草、抢身位,然后大家去争那几个头部上桌的机会。2026年是最关键的一年,对。

  第一个,就是具身智能和机器人,肯定是跟自动驾驶一样,要穿越一个漫长周期,里面肯定是有高有低,你要说当前阶段,我认为肯定是非常初期的阶段,而且这个阶段的初期性,主要还是由于技术阶段的初期性决定的。

  第二点,经过过去两年的硬件供应链,包括我们说模型的一些进展,我们认为可能在今年开始,陆续特定场景、非常小规模的商业试点,应该可以模糊地看见。明年的话,在类似场景应该肯定能加速的。

  谢谢朱兴。华哲,你怎么想到又要开始一次全新的创业,而且一来就瞄准最具有挑战性的家庭场景啊。

  对,我觉得我们重新开始,也就是刚刚提到融资,我们也都在做。其实大家更多的是想买一张通往未来的门票。

  我们都知道,机器人就物理世界和数字世界。数字世界那部分没有完全解决,但是解决了相当多大家在电脑里面的事情,小龙虾可以帮你干很多。

  那在物理世界,大家更多的是为什么愿意把钱给我们?更多是相信我们可以让机器人真正意义上变得通用、变得智能,甚至变得超越人类在干的一些杂活。

  那我觉得,整个地方要花的资金量也是相当多的。因为我们都知道,最近,产业又从VLA升级到世界模型,世界模型消耗的资源量其实比VLA还要更大,那现实上面也确实需要这个资金量支持。

  举个例子,我认为现在这个估值,可能是建立在头部厂商出货量在10000台基础上的。

  如果对比其他产业,无论是芯片,还有之前的新能源车,还有比如说国内的大模型产业,还是横向对比海外的,我认为未来资金体量应该是先如果有厂商到十万台,每年未来的资金体量应该是现在的十倍。

  再比如说,之前一个二线的汽车厂商哪吒汽车,他可能一轮融资额是200亿元;包括宁德时代之前的几轮融资额。

  所以,我认为目前国内可能是一轮是十几亿,但看欧洲公司,它的融资额是14亿美金。

  我认为今年那个融资热潮肯定是大家都看得见。 我们认为储备资金跟商业化落地占的比例应该是七三开,70%是为了储备资金,30%可以用于一些商业化落地。

  其实是刚才像许老师说的,已经有一些工业自动化设备、机械臂完全可以用我们的具身模型去赋能它,让它在更加泛化的场景、更加泛化的任务上去执行各种各样的动作。

  所以,我们认为具身的落地可以赋能到任何的自动化设备上,我们已经开始在这方面的落地尝试了。

  下面聊本体,我们也看到咱们今年春晚宇树机器人表演非常惊艳,其他公司表演也有一些,去年11月智源研究院也用宇树G1做了二十几个后空翻、侧空翻这样一些表演,包括我们用G1 35kg的一个机器人,拉动1.4吨的汽车,那当然代表了全身控制和平衡。所以我们可以看到,确实在全身控制运控上已经达到了一个非常成熟的阶段,比前两年又有更多的进步。当然,像今年半马,荣耀机器人速度超越了人类。

  所以,我来做第一个小的调研。各位嘉宾也都可以看到旁边有三个牌子,有同意、中立以及反对三个选项。

  这是一个很有价值的问题,也让大家产生了不同看法。判断一项技术是否成熟,首先要看参照标准是什么。

  拿新能源车举例:如果以固态电池为标杆,那当下的新能源车显然不算成熟 —— 目前电池体积大、充电耗时久,固态电池尚未落地。人形机器人也是同理。业内公认特斯拉 Optimus 的硬件方案最为激进,但哪怕它实现量产,距离理想状态依旧有不小差距:无论是灵巧手、仿生肌肉、电子皮肤,还是各类触觉传感器,都还达不到成熟水平。所以成熟本身是相对的,要看所处发展阶段。

  我常和投资同事分享一个比喻:假设完美形态的人形机器人综合能力是 100 分,如今各部件的发展水平差异很大。工业机械臂、手术机器人相对成熟,大概能拿到 50 分;轮式底盘约 40 分;四足机器人 30 分;双足机器人只有 15 分;而灵巧手目前仅 5 分。配套的 AI 能力分数更低,大概只有 3 分。

  不过大模型带来了技术变革,原本 3 分的 AI,如今有机会提升到 30 分甚至 50 分。当 AI 能力跃升后,就能反向赋能灵巧手、双足机器人、机械臂等各类硬件。

  综合来看,我认同 “成熟具有阶段性” 这个观点。站在当下这个发展阶段,现有硬件已经具备落地条件,背后蕴藏着巨大的市场潜力。

  韩总的三分,让我们做AI的人非常扎心啊。虽然我认为是处在一个很早期的阶段。

  昨天开幕式上我们也一直在讲这个,包括过去这一段时间也在讲,整个具身智能还处在早期阶段。虽然各方面技术进步还是非常显著的,但我们还是要客观地来看待这一块发展。

  我该补充一下王院长说的话,三分确实是个扎心的事实,但是为什么具身现在发展速度很快,为什么千寻融资我们发展的很好?是因为有了大模型之后,3分到50分的差距可以非常快的弥补上来,这个赛道发展速度很快。

  因为过去两年,我们看到肯定是围绕小脑、运控、硬件,都取得了非常关键的进展。不然的话,今天我们也不会谈论大脑开始尝试落地的问题。

  我们下个阶段干嘛?其实硬件本身不只要配合小脑,还要配合大脑。当大脑的智能往上走的时候,它肯定会对硬件提出很多要求。

  我觉得往前走非常大的一个主脉络就是AI重新定义硬件,所以从这个角度来讲,我是持一个中立态度。

  谢谢朱兴总。因为华哲和刘东都是做模型的,我想做模型的人觉得硬件不成熟,我非常能理解,所以我就不问你们俩了。

  我倒是对周永总讲的这个感兴趣,因为你毕竟做灵巧手嘛,而且我看到咱们这个灵心巧手还是很具有代表性的创业公司。但为啥你也觉得,现在硬件还不成熟?

  是不是你也赞同韩总说的在机器人的各个零部件上,灵巧手是最不成熟的一块啊。

  第一点,成熟是一个相对概念。比如说手机,之前富士康一天生产四十万台手机。因为我们大家都在AI时代,我把成熟分成三个阶段。

  第一个阶段,我认为成熟的阶段应该是机器人能够造机器人,就是本体。因为现在本体是手搓的,它的一致性不一定很好。如果机器人造机器人,可能它的成本会大幅度下降。

  如果做到这一点,我认为1.0可以了,可能也就是说本体成熟度可以是60分。

  然后呢,我认为2.0,本体就是相当于是机器人自己设计机器人,也就是说Agent接触用户的需求,然后AI自己设计,机器人把它做出来,整个全程没有人参与。

  再过一些年,我们达到100分是,这是什么概念,就是比如说,机器人它能够很模块化,自己更换皮肤、电机,能够快速响应,这种可能是95分。

  其实周永总讲了一个非常有意思的发展脉络,在数字世界,AI正在发生AI创造AI的阶段,甚至我们也希望或者说有出现AI提升AI的这种可能性。所以这些脉络和过程,又有可能在物理世界重新发生一遍。

  先从韩总聊起吧。上次我们在千寻看到近千台真正的数采设备,散发到全国各地,在真实的场景中去采这些数据。

  千寻目前是国内采用分布式方式采集高质量场景数据,采样规模最大的团队。我们在全国布局了三十多万个采集点位,专职采集人员超千人。

  刚才王院长提到数据的重要性,这点毋庸置疑。AI 模型本身就是数据驱动型的,数据的核心地位不言而喻。

  借此我补充几句。其实从 2024 年初千寻成立之初,我们就确立了数据优先的核心思路。

  当下算力并不稀缺,各类模型架构、世界模型相关技术也层出不穷,但如果数据供给跟不上,再优秀的架构也难以发挥价值。在我们看来,数据才是目前行业真正的核心瓶颈。

  朱兴总。上次过去交流的时候,我知道咱们蚂蚁灵波能够花那么多钱买数据,其实挺羡慕的。所以,你怎么看数据这块?而且确实花大金额在市场上买数据。

  去年我们重点投入资源,主攻三大泛化能力难题。首先是共性泛化,这一阶段我们选择依托真机开展研究,将海量真机数据投入模型预训练。

  后续我们推出 1.0 版本时,对外公布使用了约两万小时数据,但实际上这只是从体量大得多的原始数据中筛选出的优质内容。目前整个行业都普遍存在真机数据大量重复的问题,这一现象尤为突出。

  其次再聊聊自动驾驶,刚才王院长也提到了相关内容。自动驾驶领域数据迭代陷入瓶颈,核心原因在于其任务场景相对单一,数据同质化、重复度极高,继续扩充数据的实际价值十分有限。

  但具身智能不一样,现阶段无论是 VLA、WAM 相关方案,还是预计明后年问世的物理原生基础模型,本质都依靠数据训练驱动。所以我认为,当前具身智能的能力上限,归根结底还是被数据所制约。

  华哲,你们选了一个最难的场景,因为家庭里面其实任务种类特别多,比如从厨房、卫生间、家庭卧室,要采集的数据非常多,你怎么看数据这个问题?

  过去两三年,行业内都清楚数据的重要性,但大家一直受限于数据采集方式。以往基本都靠人工操控真机采集,难点主要有三点:

  而现在,我们更看好五米、MI 这类新型数据形态,以及穿戴式采集方案。如今只需给人员配备数据采集手套,或是在头部加装小型摄像头,就能完成数据收集。

  这种模式彻底解决了过往的难题:我们可以在一座城市里招募参与者,每月提供补贴,邀请大家参与采集。

  哪怕是居家人群、自媒体从业者、全职家长,闲暇时都能兼职采集,既能获得额外收入,我们也得以快速拿到高质量、大体量的数据,采集效率得到质的提升。

  所以我们具身智能产业很可能又会创造一个新的业态,创造了一个新的职业、一份新收入的可能性。

  前段时间千寻在海外刷榜第一名,领先英伟达。我之前还有疑惑说中国公司为什么这样,现在看主要也是数据的功劳,有这么多的数据。

  我其实很自豪,我们现在也在做触觉手套,提供一些精确操作。我们希望跟各个厂商合作,一方面是现有的具身公司,另一方面就像许老师说的,如果有头戴的数据,还有触觉手套或者手环,就能够在原本工作的时候采到很多数据。

  我们还做了一个新的项目,想用新的方式来改变这个行业,就是目前全球还是有很多残障人士,他们买一双仿生手,可能15-25万,但你想,25万对他们来说还是负担很重的,我们可能希望把它做到5000元以内,同时给他提供一个数采员的职业,让他有一份有尊严的职业,能够有持续的收入。

  我觉得数据肯定非常重要,这一点毋庸置疑。但是现在大家把数据混成了一个大类,就是一共需要多少万小时的一个数据。

  你比如说,物流场景、家庭场景,所收集的数据种类是完全不一样的。我们是希望将来在收集数据的时候,针对一些垂直可落地场景,收集更高质量的数据,然后把这一个场景打透。整个模型落地才会更加快。

  我们十分看好具身智能未来的落地与发展,这份判断和不少企业有所不同,信心主要来源于大语言模型、自动驾驶两大领域的发展经验。

  常有投资人提出质疑,认为当下大语言模型并不理解物理世界。我也常在活动现场和观众互动:如今大模型能力出众,大家觉得我们已经实现 AGI 了吗?现场举手认同的人寥寥无几,基本不超过五位。

  其实不难理解,AI 在虚拟领域已经取得了巨大突破。比如向多模态模型询问麻婆豆腐的做法,它不仅能生成高保真实操视频,就算中途提出改动条件,像改变豆腐切法、调大火焰,它也能准确判断并提示食材会炒糊。

  而具身智能的核心目标,就是把 AI 的能力从虚拟世界延伸到物理世界。再回到模型发展的核心逻辑,当下我们最欠缺的还是数据。数据决定智能形态:海量文本催生语言智能,海量图像、视频分别对应视觉、视频智能;想要打造具备物理认知的智能,就必须依托大量物理场景数据。

  基于此我们有两点判断:第一,依托大模型技术,现有模型能力能够快速从现阶段水平提升至更高层级,而高质量、可规模化的数据,就是实现这一跨越的核心瓶颈,这也是我们当前的首要发力方向。千寻也是国内布局高质量数据态度最坚决、走在行业前列的团队。

  第二,目前全行业都面临高质量数据短缺的问题,但即便在这样的环境下,千寻的模型依旧稳居全球第一梯队。前段时间英伟达 Cosmos 模型刚发布,我们的模型就实现了对标超越,业内对此也多有讨论。目前我们和 Cosmos、Pi、谷歌等主流产品同台竞技,能处在第一梯队,离不开高阳所带领的顶尖算法团队。

  朱兴总,这个我印象还挺深的。前几个月,当时蚂蚁灵波发模型的时候,正好咱们正在交流,然后就看着你们要发这个世界模型,后来接下来几天就是各种刷屏。

  我们小伙伴们在给我汇报我们模型进展的时候,全部都拿灵波的这个模型来做对标来做这个研究。所以说明这个模型确实还是很强的。也很想看看听听你对于这个模型的看法。

  不过我还有一点不同观点:想要推动具身智能发展,必须依托数据打造物理原生基础模型,而非单纯依靠数字领域的能力来迁移牵引。物理世界,就需要适配自身的原生基座模型,这一点至关重要。

  这也就是我们所说的面向物理世界的专用模型。它并不是简单把 VLE 和世界动作模型做拼接融合。说到底,没有充足的数据作为支撑,模型融合根本无从谈起,讨论融合也就失去了意义,核心问题终究还是数据。

  结合刚才周总的分享,我认为未来数据还有一个重要趋势:多模态会愈发丰富。人类在物理世界活动,本就依赖多种感知模态,原生多模态数据能够更好地辅助智能体完成思考与执行。

  此前 5 米数据形态热度很高,而我认为下一阶段,结合相关采集方案,再搭配高精度、易携带的触觉手套,同步补齐视觉与力觉数据,是当下急需落地的方向。这套组合能够完成多模态数据对齐,也是未来高质量数据建设的关键。

  当下模型技术一直在迭代,但我们发现一个现状:不少团队都宣称自家模型实力出众,却始终没能落地公开使用。

  为什么会这样?像 GPT、DeepSeek 这类大模型,大家能直接在电脑上体验,好坏一试便知。

  但具身智能模型不一样,普通家庭普遍没有配套机器人,使用链路没有打通,即便模型对外发布,用户也没法像使用通用大模型一样上手体验。只有当机器人真正走入千家万户,行业才能迎来公平对比的环境。

  另外,很多产品都宣传具备零样本泛化等能力,但大多停留在纸面数据和演示视频阶段。这也是我们今年想突破的方向:把产品真正落地,让大家现场上手实测。靠实际使用体验说话,而非单纯比拼跑分、展示演示视频,这会成为行业下一阶段竞争的核心。

  对,因为模型好和坏,是骡子是马,一定要拉出来溜溜。不是存在文章里,一定要存在大家亲身体验和使用里。那么,周总对于现在模型的状况怎么看?

  我认为行业亟需建立统一的模型评测标准。Anthropic 就提出了一个思路:以智能体自主运行时长,作为衡量 Agent 能力的核心指标。

  结合实际落地经验,我认为还有一个关键评判维度 ——新场景、新项目的部署周期。以往落地一个项目,从零开发代码往往要耗时半年到一年;借助模型与强化学习微调后,如今周期能压缩至一两个月。在我看来,一周内完成部署会是一个重要分水岭,达到这个水平,多数企业就无需依赖大量专职实施人员或第三方团队。而对于搬运、分拣这类成熟场景,理想状态下应当做到单日即可完成部署。

  基于这套评判标准,说说我们当下的布局。首先,我们认同蚂蚁的发展方向,这也是国内相较海外形成优势的关键。一方面,我们愿意对外输出多模态数据,并配套相关采集能力;另一方面,我们计划打造物理基座。

  像 π0.5 这类模型,本身物理属性偏弱。任务能否顺利完成,核心在于手与物体交互的精准度。不少模型虽然能预判整体运动轨迹,但在手指精细动作的把控上仍有明显短板。我们品牌取名 Linkker,正是因为手部是人类对接物理世界的关键支点,这个交互支点的稳定性,直接决定了整体动作的完成率。

  模型测试还有大量工作要推进。正如许老师所说,不少模型榜单成绩亮眼,却经不起实际落地验证。我认为核心有两大评判要点:

  第一,面向机器人的具身模型,必须支持端侧独立部署,不能依赖云端算力和网络传指令。机器人作业时常处于无网环境,能否脱离云端、本地运行,是一项关键指标。

  今天下午三点的世界模型论坛上,我们将正式发布具身交互世界模型,这款模型目前是全球运行速度最快的端侧具身世界模型,同时内置动作交互反思闭环,既能预判物理状态,也能自主反思、择优执行动作。

  过往很多具身智能演示案例都难以落地,大多依靠云端运行,网络延迟等问题,让产品只能停留在演示视频里。而我们的预控方案,已经实现模型真机端侧部署。

  目前我们相关产品出货量位居全球首位。基于英伟达芯片,我们已和全球七成头部具身企业达成合作,配套的底层软件、基座模型均可无缝对接使用,在落地落地层面我们走在了行业前列。现场不少同行也早已是我们的合作客户。

  下面问题是,大家认为现在具身智能机器人以及模型是不是要赶紧进入到场景落地部署?韩峰涛总,又是唯一的一个反对,三个中立,一个同意。您认为,不要那么着急进场景?

  对,现阶段不必急于大规模落地场景,但可以先开展场景探索,和客户共同梳理需求、加深场景理解,以此反哺硬件迭代与数据链路建设,这一步很有必要,但切忌全面铺开。

  举个例子,如今主流都是通用基础大模型,而非过去的细分垂类小模型。大语言模型的能力已经发展到类似“研究生”水准,能够实现低成本落地。

  正如周总所说,部署成本是机器人规模化落地的核心阻碍。目前基于现有模型制作演示方案,还要额外做后训练与微调,往往耗时一两个月,这样的成本根本撑不起规模化应用。

  反观当下的具身模型,能力还十分稚嫩,大概只相当于一两岁孩童的认知水平。即便不求达到研究生水准,至少也要成长到初高中阶段,才有条件实现低成本批量落地。

  现阶段更应该专注预训练打磨模型,就像让孩子安心学习成长,而不是“打童工”。

  我们会持续加码具身基础模型的大规模训练,保守判断,行业真正迎来规模化落地,大概还要等待两年时间。

  我们认为,训练基座模型的同时,必须同步挖掘可落地的场景。现实场景复杂多样,实验室环境往往简化了各类外部条件,这就导致不少模型在内部测试表现优异,落地实景后却问题频发。

  模型从实验室走向真实应用,通常需要一到两年的磨合周期。因此提早开展实景试点,既能优化训练思路,也能规避技术路线走偏。

  这也是我们在做自动驾驶时踩过的大坑:早年行业都全力冲刺 L4、L5 高阶自动驾驶,反而是主打 L2 方案的企业落地更快,市场收益也更高。这也再次说明,研发基座模型,离不开真实场景的测试与验证。

  所以刘东总的意思就是不要纸上谈兵,赶紧进去验证一下。就算踩了坑,至少有一些反馈。

  确实,最近我们经常看到各种具身模型霸榜了第一名。但另外一方面,我们也看得眼花缭乱,以至于需要进一步的研究和部署,才能够知道哪个模型稍微靠谱一些、哪个模型可能下载下来无法部署,所以这是我们现在整个行业里的痛点。

  那智源作为一个中立、非盈利性的科研机构,与学术界和产业界都走得非常近。那我也很想知道各位嘉宾的观点。我们需不需要一个第三方中立的评测、赛事,能够真的让整个行业在一个公平的舞台上比拼?

  说到底,一款产品能不能商业化、能不能卖出去,才是最核心的检验标准。各类评测赛事固然有参考价值,但比赛总有技巧和取巧的空间。这就好比考试,考前针对性复习就能拿到高分,可分数高不代表综合能力就一定最强,只能说明应试能力突出。

  放到机器人这类物理产品上,体会会更深:哪怕只是一颗螺丝安装偏移,设备运行成功率都会大幅下降,有时还会误以为是模型出了问题,把零件复位后一切又恢复正常。

  第三方评测也常会遇到这类状况。即便评测方主观上力求公平,但受各类客观细节影响,很容易在无形中造成评判偏差,想要做到绝对精准、公允并不容易。

  没错,具身智能的评测本身难度极高。依托仿真环境做测试虽然简便,但和真实应用场景存在明显差距;换成真机实测,又会面临新问题:场景还原度、不同设备硬件差异等,都会影响评测的公平性与客观性。

  我认为要结合行业当前发展阶段来看。首先有两个核心前提:基准评测(Benchmark)的设定必须科学,测试过程也要保证公允,其中评测标准的科学性尤为关键。目前市面上的机器人,实际能落地的大多还是简单任务。

  去年我们推出VLA 模型前,梳理对比了市面上各类评测体系,最终委托上海交大李永禄教授,从人类双臂基础操作能力出发,搭建了一套基于原子技能维度的评测标准。这套体系具备结构性迁移能力,对模型尤其是基础模型的迭代优化,能起到实实在在的助力。

  其次,我也认同许华哲老师的观点:技术终究要走出去落地。即便做真机测试、验证环境泛化能力,当下的测试场景和真实复杂环境依然存在巨大差距。

  后续我们也不会过多参与各类行业评测活动,重心会逐步转移。我们更关注自身技术的环比提升,同时随着产品逐步具备落地条件,选择在真实应用场景中去检验技术实力。

  我想听一下刘东的意见。你刚才也是同意这个要评测吧?对自己的模型非常有信心。

  在我看来,模型无论在各类虚拟榜单上表现多亮眼,最终都要落地到真实物理场景中接受检验。

  像展示的药店货品拣选场景,就很有参考价值。评测不必限定机器人本体与模型类型,只要能把拣选任务做好,就是过硬的实力。

  因此我建议,后续可以多搭建这类实际业务场景作为评测载体。商业场景本身有着清晰、客观的考核指标,比如每小时拣选数量、任务成功率等。能把这类场景做扎实、做到位,就足以证明方案的实力。

  因为时间关系,我们就最后一个问题了。也想请各位CEO,我们展望一下未来一年在具身智能方向上,技术或产业最有可能突破,或者最有可能的变化是什么?

  从千寻的布局来看,我们现阶段核心聚焦具身模型的大规模预训练与能力提升。放眼海外,谷歌 Generalist AI、OpenAI 等头部企业也纷纷组建机器人团队,行业共识已经形成:今年起,大家都会发力数据建设与模型预训练。

  2026 至 2027 年,会类似 GPT-2 迭代到 GPT-3 的阶段,进入规模扩张(scaling)周期。今年行业最明显的变化就是:手握海量数据、完成大规模预训练的企业,模型实力会拉开明显差距。而学术机构受数据储备限制,模型表现会相对弱势。

  先谈谈我们的看法。从蚂蚁灵波的实践和我个人角度来看,以人为中心、无需依托实体机器人本体的多模态对齐数据,价值十分突出。这类数据具备很强的规模化拓展能力,只要体量、质量与数据多样性达标,我相信未来一年内,行业有望催生出物理原生基础模型,我们更期待在今年年底就能落地。

  我们目前也正在开展相关训练工作,目标节点定为今年年底,最晚不迟于明年六月。

  我主要有两大预期。第一,打造开箱即用的机器人模型,大幅精简交互流程。目前物理场景里的设备部署、环境调试耗时很长,我们希望把这部分准备时间压缩至零,机器人部署到位就能直接开展工作。

  第二,依托模型泛化能力的提升,结合智能体(Agent)机制,让机器人可以连贯执行长周期任务。任务流程变长难免出现小问题,我们希望借助 Agent 串联各个环节,支撑机器人完成全天不间断、内容不重复的作业。

  网络上虽有不少相关演示视频,但让模型真正落地实现全天候自主作业,正是我们接下来的核心目标。

  我判断未来一到两年,具身智能领域会诞生对标 GPT-3、GPT-3.5 级别的模型,风格上会更贴近 DeepSeek-R1。

  第一是自动化数据流水线,可持续完成数据标注与格式转换,源源不断产出适配模型的训练数据;

  第二是具备物理引擎能力,能够预测三维形态、接触作用力,并遵循各类物理规则与因果约束;

  整套体系和 DeepSeek-R1 的逻辑相近,相信业内同仁都有机会打造出来。不过模型落地各类场景,依然离不开智能体(Agent)。目前我们也在搭建 Agent 框架,目标是进一步缩短模型部署落地的耗时。

  我认为未来一年行业会迎来三大变化。第一是数据采集模式,和朱兴总看法一致,行业会逐步从操控机器人采数,转向以人为中心的采集方案。

  第二是模型范式迭代。去年业内主流研发 VLA 模型,受数据模式转变影响,今年大家基本全面转向具身世界模型。

  而接下来一年,大量机器人会走进各类真实场景开展作业,模型直接端侧部署、脱离人工遥控,多数场景任务的完成度能达到八成至九成,这也会成为行业主流探索方向。

  非常感谢各位嘉宾带来的精彩分享,听下来意犹未尽。由于时间关系,本场圆桌到此告一段落,也由衷感谢现场每一位观众。

  一上午的交流里,不少朋友全程站立聆听,这份热情,足以印证具身智能产业的热度,以及各位嘉宾分享内容的十足吸引力。最后也和各位 CEO 开个玩笑:正所谓 “苟富贵,勿相忘”,未来各位企业发展蒸蒸日上时,也欢迎多多支持智源大会。我们期待持续获得大家的赞助与助力,让这场行业盛会一年比一年精彩。

Copyright © 2012-2026 华体会- 华体会体育官方网站- 华体会体育APP下载| 世界杯指定平台公司 版权所有 非商用版本 备案号: