VLA & VLM
视觉-语言-动作和视觉-语言模型 - 语言条件机器人控制。
什么是 VLA 和 VLM?
VLM(视觉语言模型) — 能够理解图像和文本的多模态模型。 用于字幕、VQA 和接地。
VLA(视觉-语言-行动) — VLM 扩展到输出机器人动作。 拍摄图像+语言指令,输出控制命令(例如关节位置、夹具)。 启用“拾取红色块”样式控制。
主要型号
- 开放VLA — 7B 开源 VLA,970K 演示
- RT-2 / RT-X — Google 的 VLA 系列
- 奥克托 — 带有语言调节的扩散策略
- 机器人火烈鸟 — 基于 OpenFlamingo 的机器人 VLM
相关资源
- 开源 VLA 和 VLM 模型 — 带链接的完整目录
- 数据集 — 语言标记的操作数据