Vision-Language-Action Models

RT-1

概述

image-20250326170857873

模型架构

image-20250326171118137Instruction and Image Tokenization(16M):
6 幅300×300的图像输入预训练EfficientNet-B3进行tokenize ,利用最终卷积层输出的9×9×512的空间特征图,形成81个tokens

TokenLearner
将81个视觉令牌子采样为8个最终令牌,然后传递给Transformer层

Transformer(19M)
将每个图像的这8个令牌与其他图像连接起来,形成总共48个令牌(添加了位置编码),馈送到RT-1的Transformer骨干中

Action Tokenization
RT-1中的每个动作维度都被离散化为256个bins,每个bin在对应变量的边界内均匀分布

Loss
标准分类交叉熵熵和causal masking

表现

image-20250327091207599

image-20250327092236149

image-20250327092202737

 

RT-2

概述

注:Close-Loop Control将控制系统输出量的一部分或全部,通过一定方法和装置反送回系统的输入端,然后将反馈信息与原输入信息进行比较,再将比较的结果施加于系统进行控制,避免系统偏离预定目标。

image-20250326170926104

模型架构

image-20250327103434640

 

表现

image-20250327104722393

例如:将草莓放入正确的碗中 / 拿起即将掉下桌子的袋子

image-20250327105636088image-20250327105817536

image-20250327110050744

image-20250327110556847

 

OpenVLA

与 RT-2 比较

概述

image-20250326170836893

模型架构

表现

与SOTA的对比

image-20250327161527093image-20250327161615246
Bridge V2 WidowX EvaluationGoogle Robot Evaluation

对新机器人的适用性

Data-Efficient Adaptation to New Robot Setups

image-20250327162428444image-20250327162047025
The DROID Robot PlatformData-Efficient Adaptation Results

高效微调

image-20250327164812704

高效推理

image-20250327164828748image-20250327164850926
Performance with Quantized InferenceOpenVLA Inference Speed for Various GPUs