具身智能大模型初创企业“X Square”近期连续完成了由联想之星投资的数千万元人民币的天使轮融资,和由九合创投领投的数千万元人民币的天使+轮融资,一苇资本担任X Square独家财务顾问。
成立于2023年12月,X Square聚焦于“通用具身大模型”的研发,为机器人提供通用大模型底座。公司的目标是为机器人构建一个通用的大脑-小脑系统,提供从感知到动作的端到端能力。
在AI的发展历史中,人们发现了一种与直觉相悖的现象:越是人类认为的高阶智慧能力例如棋类运动和数学越容易被AI实现;但越是无意识的技能和直觉却越难以用AI模拟。
这个被称为“莫拉维克悖论”的现象在具身智能领域体现得淋漓尽致:感知环境、操作物体是人类最为本能和基础的能力,但从实现难度上来说,却可以被认为是所有AI领域的巅峰。这也正是为什么在ChatGPT等大模型在部分高级认知能力上已经接近甚至超越人类的今天,AI仍然无法在“低级的”体力劳动中取代人类的原因。
一些迹象表露,适配具身智能的通用大模型,将成为AI赛道的一个重点。谷歌曾表示,AI机器人很强大,但通用性很差,比如一款扫地机器人要根据特定的环境、动作、障碍、反馈等数据进行长期训练和反复测试。2023年10月,谷歌DeepMind发布了全球最大的机器人通用模型RT-X。RT-X在无需训练或者极少训练的情况下,就能执行一些特定任务。
2024年3月19日,英伟达发布了人形机器人通用基础模型Project GR00T,“AI教父”黄仁勋评价:“开发通用人形机器人基础模型是当今AI领域中最令人兴奋的课题之一。”
此前对具身智能的研究,很长一段时间都发展相对缓慢。X Square创始人兼CEO William Wang认为,其原因在于机器人任务非常复杂,“一个部分是对周围环境的感知、推理和任务规划等high level能力,另一部分是类似运动皮层和小脑对运动进行直接控制的low level能力”。
“单从硬件层面来说,即使是最复杂的操作,当前市面上的硬件水平也已经可以支持,而卡点在于智能本身。”William表示。
由于缺乏智能涌现和通用性,传统Robotics Learning的范式难以为机器人提供复杂精确操作的能力,如处理可变形的物体和复杂随机的摩擦。直到2020年后,Transformer结构在机器人模型上的应用以及Imitation Learning(模仿学习)、Offline Reinforcement Learning(离线强化学习)等新的训练方式的成熟,才让机器人在操作任务的端到端运动控制上有了新的突破。同时多模态的能力使得机器人的high level能力得到突破性进展,William表示,“莫拉维克悖论”终于到了可以被挑战的临界点。
传统切分场景的方法难以提高模型的通用性,因此X Square将机器人的任务流程分成两大部分:
根据人类指令和意图,多模态大语言模型进行高层次的推理和规划;
机器人通用模型依据规划的指令端到端生成执行动作。X Square依靠软硬一体的研发能力和对大模型的理解,将物理世界的交互与模型训练相结合,推动模型通用操作能力的发展。
简而言之,X Square自研的机器人通用模型平台,是多模态大模型、机器人控制大模型(Large Manipulation Model)、机器人本体的结合。
据X Square介绍,目前团队自研的基础模型已经达到世界先进水平,可以训练机器人完成复杂而精细的物理操作。比如公司已经能够实现面对表面不规则或光滑的物体,例如蔬菜、香肠等,进行精细化的切割;机器人也可以完成饮料的冲泡,包括拿起勺子,从罐子里舀出果汁粉放入杯中,再倒入水冲果汁。
△以上均为大模型自主推理,图源:X Square
X Square CTO Hao Wang介绍,机器人通用模型的核心,仍是训练数据,“LLM和物理世界无关,数据可以充分利用全球外包,但机器人需要软硬一体、数据-模型一体的能力”。他认为,作为世界硬件中心的中国具有天然优势,“中国开始做LLM的时间晚于美国,但具身智能基础模型与美国更接近同一起跑线”。
在商业化层面,X Square在B、C两端均有布局。William认为,具身智能可以投入现实使用的实现时间要快于大部分人的预期,3-5年的时间应该就能有初步商业化落地。
X Square团队既有来自Robot Learning顶级实验室的的成员,也有LLM方面的专家,同时有软硬一体开发与系统优化的能力。不到三个月的时间内,团队已经能够通过大模型让机器人自主完成数十种复杂任务。
创始人兼CEO William是全球最早在神经网络中引入注意力机制的学者之一,并在美国顶级机器人实验室参与了多项机器人学习项目。
CTO Hao出身IDEA研究院,曾担任封神榜大模型团队算法负责人,开发了包括文生图模型“太乙”、通用大模型“姜子牙”系列等,开源模型累计下载超百万。
联想之星认为:将预训练模型应用在机器人领域,使机器人完成通用性复杂任务成为可能,也让机器人有可能真正理解物体概念和任务,从而深入的理解世界,进而实现具身智能。具身智能是划时代的技术进步,有望实现机器人行业整体升级。X Square团队,机器人、大模型等领域研究、工程经验完备,是本领域不可多得的团队。联想之星一直以来重点布局机器人领域,投资了一批创新型优秀机器人公司。在新技术代际迭代的当下,愿意陪伴新一代团队成长,共同探索具身智能的未来。
九合创投认为:具身智能方向长期将带来巨大的市场机会和机器人服务的变革。X Square团队关注具身智能模型能力的持续迭代,团队从模型侧发力,不断提升智能化水平,早期模型在执行复杂任务上表现出了竞争力。期待X Square团队不断带来更好的模型效果,带来具身智能的“涌现时刻”。
一苇资本合伙人林文欣认为:X Square团队在机器人与大模型方面均具备极强的技术实力与技术前瞻性,在不到三个月的时间内即完成了技术架构的搭建和早期模型的训练,成长速度超乎预期。一苇非常荣幸见证和陪伴X Square团队的成长,期待X Square引领具身智能走入千家万户的一天。
本文来源:36氪