首页 BET9官方 >新闻资讯 校园风采 BET9手机版
模拟大脑的大脑功能!北京大学和香港中国人很快
2025-07-16

快速实施和缓慢的思考:在机器人操纵领域,实现高频响应和复杂推理的统一始终是一个基本的技术挑战。最近,北京大学和香港中国大学共同发布了一种新的名为Fast-In-Slow(FI-VLA)的双层语言行动二元系统的新模型。 VLA的快速和慢系统的各种先前方法需要启动/介绍一个全新的模块,通过将快速实现模块嵌入预轭视觉模型(VLM)中,从而实现了快速和慢速系统的集成设计师。同时,针对双重系统设计了异源模式输入和异步操作频率的策略,因此FA-VLA不仅可以实现动作的快速代理,而且还具有缓慢思考的能力。该方法在许多模拟和真实的机器平台中都取得了出色的性能。最值得注意的是,fihla-7b可以实现控制f要求最高为117.7Hz,此前是现有的主要解决方案,并显示了广泛的实用应用潜力。论文链接:https://arxiv.org/pdf/2506.01953 HomePage项目:https://gast-in-slow.github.io/code链接:https://github.com/chen-h01/fast-in-slowpku hmi hmi hmi hmi实验室Homepage: https://pku-hmi-lab.github.io/hmi-web/index.html研究和挑战的背景:机器人操作系统的目的是在复杂环境中基于传感器输入和语言指令生成准确有效的控制信号。尽管近年来在野外训练的训练能力上引入了大型视力模型(VLM),但它们的大型模型参数和较慢的理解速度限制了他们使用高频控制活动的实用性。因此,一些研究介绍了卡尼曼的“双重系统理论”:系统1代表了一个快速,易于理解的决策系统,系统2代表NTS是一个缓慢而深层的推理系统。受这个理论的启发,有一些现有的技术试图开发双系统结构,即使用VLM作为系统2来理解工作水平,然后使用其他策略标头(系统1)进行行动预测。但是,现有设计中的两个系统相对独立,无法完全共享系统2的预训练Kaaflesh,导致协调不佳。系统1缺乏系统结果的语义结果的全部使用。Fi-Cole VLA(如何在慢速系统中多样化实现模块多样化)FI-VLA提出了一种创新的结构,该结构直接重建了系统实施模式中VLM中VLM变形金刚的VLM变压器的终端层。系统2流程2D图像和语言低频繁说明,输出指南功能;系统1响应高频的实时感知输入(状态,图像和点云),以实现良好的作用。此外,FI-VLA采用了一个双重系统,该系统被称为同事培训方法。在Banda中,它使用扩散建模来增强系统1生成动作的能力,另一方面,它保持了对系统2确保完成理解总体实现的能力的高维语义理解。该模型在大型机器人中进行了预训练,该机器人具有超过860,000个轨迹,并且在许多现实生活活动中进行了精致和优化,这显着提高了任务的完成率和控制频率。 1。架构设计:FI-VLA基于VLM Prismatic体系结构,主要包括在以下模块中:视觉编码器(结合两个视觉编码器,雪茄和Dinov2),光3D令牌(处理点云和共享视觉编码器)捕获了Modal Fusiuse fusiuse的最后一个特征(用于模型的最后一个特征)和Diff(用于模型)和Diff(for Modal fff)和Diff and diff and diff and diff and diff。系统1直接嵌入H系统2中的表示表示空间,以便它可以继承前训练的知识并实现高频的实现。整个系统生成了一个合作,该协作“快速,缓慢,缓慢且快速”。 2。双重系统合作:FI-VLA结构由两个组成部分组成:一个慢系统和快速系统1。此设计灵感来自Kahneman提出的双重系统的理论。在FI-VLA中,System 2过程进行了与视觉观察(例如图像)和语言指令有关的观察结果,并将它们更改为源自大语言模型(LLM)中层层的高维特征。 FI-VLA利用“动作阻塞”方法,意识到,时间步骤t可以在以后的几个步骤中为动作生成提供指导,因此FI-VLA将System 2的中间层输出作为潜在的条件信号,在下一个H-Step System 1中为动作生成提供了限制。相反,相反,相反,系统1的重点是在每个时间步骤中运行的实时动作生成,都会收到当前的感知输入和输出,同时还使用定期从系统2中的语义理解。这种行为模式类似于人类直观的响应,使系统模块1成为高生命的频率动作模块。为了将两个系统一起组合在一起,FI-VLA研究了它们之间的工作频率比并在消融实验上测试了不同的作用领域,重要的是要探索每个操作应继续运行多少个系统1的步骤。在训练阶段,FI-VLA使用异步采样来控制系统2的工作频率,以便系统1可以保持动作生成过程的一致性。此外,FI-VLA采用了异质模态输入设计。由于系统1,与系统2相比,FA-VLA设计指定异源输入Modes。主要是对工作和语义推理的理解的系统2。作为以前在Internet上使用大规模预训练的图形和文本数据训练的模型,它最适合接收语言说明和2D图像,以极大地刺激语义建模功能。系统1用于实时产生机器人动作,因此它应接收全面的,低效率的输入感知信息,包括当前时刻的2D iMane,机器人自己的状态(例如关节,位置等)以及通过摄像机参数从深度地图中返回的3D点信息。特别是,3D信息对于确定空间关系和实施良好的操作很重要。最后,系统1将通过System 2融合输入模式,并将动作作为输入条件融合。 3。fi-VLA双系统训练合作:系统1将扩散的建模作为BOU的基本和注射措施噪声作为可变练习,以实现持续的动作; System 2采用了自回旋预测来维持识别能力,这两个目标练习是共同优化的AOF FI-VLA。训练采用了跨平台大规模轨迹数据(约860k轨迹),并引入了子任务语言指令,以在微调阶段提高灵活性。准确性,速度,概括! 1。仿真测试:RLBENCH模拟活动中FI-VLA的平均成功率为69%,明显好于COGACT(61%)和π0(55%),在先前排名的10个任务中,有8个。就控制频率而言,当动作块大小为1时,它达到21.9Hz,是COGACT的两倍以上。 2。真正的机器测试:在实际机器人平台(Agilex和Alphabot)中,FI-VLA在8个活动中的平均成功率分别为68%和74%,大于基线。在诸如“pouring water", "blackboard wiping", and "NatiFold towels ". 3. Generalization of Generalization: In the test of generalization, the accuracy of the FIF-VLA decreases lower than π0 in front of no objects, complex backgrounds and lighting changes, FI-VLA accuracy is less than π0, proving the stability of the dual-system architectality in visual in agreement. Ablation: Ablation experiments show that more共享的变压器不是共享的。真实的机器实验:FI-VLA通过嵌入实现mod实现了高频,高精度和强大的整体机器人控制功能ULE在推理和控制的统一VLM和创新整合中。讨论的是,如果共享结构和合作频率专门用于未来,它将提高实际活动的灵活性和稳定性。

Copyright © 2024 BET9官方APP_BET9手机版下载 版权所有

网站地图

鄂ICP备36659856号

友情链接: