机器人术语表：60 多个术语解释

A

ACT （变形金刚的动作分块）

ACT 是 Tony Zhu 等人提出的模仿学习算法。（2023）训练基于变压器的策略来预测未来动作的固定长度块，而不是每个时间步的单个动作。通过一次性预测动作序列，ACT 减少了逐步行为克隆中典型的复合误差，并产生时间一致的运动。该架构通过 CVAE 式编码器对 RGB 观察结果和本体感受状态进行编码，并使用转换器对动作块进行解码。 ACT 已在 ALOHA 双手平台，在开袋、转移鸡蛋等任务上表现强劲。参见：动作分块（深入）.

政策变压器模仿学习

行动空间

动作空间是机器人策略在每个时间步可以产生的完整输出集。对于机器人手臂，它通常包括关节位置、关节速度或末端执行器位姿（笛卡尔位置+四元数）；对于移动机器人，它包括车轮速度或转向命令。动作空间被描述为离散（有限的动作菜单）或连续（实值向量）。动作空间的维度和表示强烈影响训练稳定策略的难易程度：末端执行器三角位姿空间通常更容易进行模仿学习，而关节扭矩空间提供更精细的力控制，但需要更仔细的标准化。

政策控制

ALOHA （用于双手遥控的低成本开源硬件系统）

ALOHA 是斯坦福大学开发的开源双手遥控系统，由两个 ViperX 300 机械臂和两个 WidowX 250 主臂组成，安装在带有集成腕式摄像头的共享框架上。它旨在以低成本收集高质量的演示数据（原始构建成本低于 20,000 美元），并支持 ACT 政策实验。 Mobile ALOHA 通过轮式底座扩展了平台，可实现烹饪和清洁等全身机械操作任务。 ALOHA 数据集是公开的，并已成为双手操作研究事实上的基准。了解更多信息，请访问 SVRC数据服务.

硬件远程操作双手

AMR （自主移动机器人）

自主移动机器人使用机载传感器（激光雷达、摄像头、IMU）与 SLAM、路径规划和避障算法相结合，在没有固定轨道或人工指导的环境中导航。与遵循磁条的 AGV（自动导引车）不同，AMR 可以实时构建和更新地图，并在人员和物体周围动态重新规划路线。 Boston Dynamics、Locus Robotics 和 6 River Systems 等公司的现代仓库 AMR 推动了物流领域的广泛采用。 AMR 通常与机械臂结合使用来创建 移动机械手 能够大规模拾放。

移动机器人导航SLAM

B

行为克隆（公元前）

行为克隆是最简单的形式模仿学习：一个监督回归问题，其中通过最小化策略输出与专家在每个观察状态下的行为之间的预测误差，训练策略来模仿专家演示。 BC 很容易实现并且可以很好地扩展数据，但存在以下问题 分配转移 - 因为它永远不会收到纠正反馈，所以小错误会导致机器人访问训练数据中不存在的状态，这可能会导致任务失败。 DAgger（数据集聚合）和 GAIL 等技术是专门为解决 BC 的复合错误问题而开发的。

模仿学习监督学习

双手操作

双手操作是指需要两个机器人手臂协调工作的任务，类似于人类同时使用双手的方式。例如折叠衣物、打结、打开罐子和组装零件，这些操作必须用一只手稳定，而另一只手执行精细操作。双手任务比单臂任务要困难得多，因为该策略必须协调两个高维动作流，同时尊重手臂之间的物理约束。这 ALOHA 平台是专门为收集双手演示而构建的，并且 ACT 是双手控制的领先政策之一。

操纵硬件

BOM （物料清单）

在机器人硬件中，BOM 列出了构建系统所需的每个组件、子组件、零件号、数量和单位成本。准确的 BOM 对于生产规模扩大、采购、供应链风险管理和成本建模至关重要。对于 OpenArm 或 ALOHA 等开源机器人平台，发布的 BOM 允许外部团队在没有专有依赖项的情况下重现硬件。评估机器人部署的企业团队通常会要求 BOM 将总拥有成本与租赁或机器人即服务替代方案进行比较 - 比较 SVRC 租赁选项.

硬件制造业

C

笛卡尔空间（任务空间）

笛卡尔空间（也称为任务空间或操作空间）根据其末端执行器相对于世界或基础框架的位置和方向来描述机器人的配置，通常表示为（x，y，z，滚动，俯仰，偏航）或（x，y，z，四元数）。在笛卡尔空间中控制机器人对于模仿学习来说通常更直观，因为人类演示自然地映射到末端执行器轨迹。转型从关节间隙笛卡尔空间称为正向运动学; 其倒数是逆运动学.

运动学控制

联合培训

机器人技术中的协同训练是指同时对来自多个机器人实施例、任务或环境的数据进行单一策略的训练。假设是，不同的数据源教导政策强大的视觉和行为表征，从而更好地转移到新的环境中。这开放X实施例数据集专门用于支持超过 22 种机器人类型的协同训练。 RT-2 和 OpenVLA 等大型基础模型依赖于互联网规模视觉语言数据和机器人演示数据的协同训练来引导泛化。

训练概括基础模型

丰富的接触操作

接触丰富的操作任务是指机器人与环境之间有目的地、持续的接触对于任务成功至关重要的任务，例如插入孔中、拧紧螺栓、折叠织物或揉捏面团。这些任务具有挑战性，因为小的位置误差会产生大的力峰值，而僵硬的位置控制器可能会损坏零件或使机器人不稳定。成功的方法结合了顺从控制（阻抗或导纳控制），力-扭矩传感，并学习了预测和利用接触的策略。

操纵控制力感应

连续控制

连续控制是指输出实值动作向量（例如关节扭矩、速度或笛卡尔增量）的机器人策略，而不是从一组离散的动作中进行选择。大多数物理机器人操作任务都需要连续控制，因为有限的动作菜单无法充分表示平滑、精确的运动。用于连续控制的标准深度 RL 算法包括 DDPG、TD3 和 SAC；用于模仿学习、行为克隆和扩散政策通常用于连续动作空间。

控制强化学习

D

数据增强（对于机器人）

机器人学习中的数据增强将随机转换应用于训练观察，以提高策略的稳健性，而无需收集额外的演示。常见的图像增强包括随机裁剪、颜色抖动、高斯模糊和剪切。更复杂的增强功能可以覆盖分散注意力的背景、改变照明条件或注入传感器噪声，以防止过度拟合训练环境中的特定视觉特征。一些方法也增强了动作——例如，向关节轨迹添加噪声以教导策略从扰动中恢复。当训练数据昂贵时（每次演示都需要人类操作员时间），增强尤其重要。

训练鲁棒性数据

自由度（自由度）

自由度描述了指定机械系统配置所需的独立参数的数量。具有六个旋转关节的机器人手臂有 6 个自由度，足以在其可到达的工作空间内任意定位和定向其末端执行器（除非存在奇点）。 7 自由度手臂增加了一个冗余关节，可实现零空间优化，以避障或舒适姿势。人类手臂在肩-肘-腕链处大约有 7 个自由度，这使得 7 自由度机器人成为拟人化操作的自然选择。移动底座增加 2-3 个自由度；完整的人形机器人超过 30 个自由度。

运动学硬件

示范

演示（在模仿学习环境中也称为轨迹或情节）是由人类或专家控制器提供的记录的观察和动作序列，说明如何执行任务。演示是行为克隆和其他模仿学习算法的主要数据源。它们可以通过以下方式收集远程操作, 动觉教学，或动作捕捉。数据质量——平稳的运动、一致的任务执行、任务状态空间的充分覆盖——对下游策略性能的影响与数量一样重要。 SVRC 通过我们的网站收集生产质量的机器人演示数据服务.

数据模仿学习

扩散政策

扩散政策，由 Chi 等人提出。 (2023)，将机器人动作生成公式化为去噪扩散过程——与图像生成中使用的生成模型相同。在推理时，该策略使用学习的评分网络（通常是 CNN 或 Transformer）迭代地将高斯噪声样本细化为以当前观察为条件的一系列动作。与确定性行为克隆相比，扩散策略自然代表 多式联运 动作分布（执行任务的多种有效方法）并在接触丰富的操作基准上取得了最先进的结果。请参阅详细文章.

政策生成模型模仿学习

灵巧的操控

灵巧操作是指精细的、多手指的操作任务，充分利用机器人手的运动学和感官能力——用手重新抓握、在指尖滚动物体、发牌、手术缝合和类似的任务。敏捷性要求高DOF 末端执行器（5 个以上的手指，每个手指有 3 个以上的关节）、密集的触觉传感以及能够推理复杂接触几何形状的策略。在模拟中训练的强化学习（例如 OpenAI 的 Dactyl）和最近基于扩散的策略已经推动了前沿，但人类水平可靠性的灵巧操纵仍然是一个开放的研究问题。

操纵硬件研究前沿

E

体现人工智能

嵌入式人工智能是指通过现实世界中的身体进行感知和行动的人工智能系统，而不是纯粹孤立地对文本或图像进行操作。体现假设认为，真正的智能需要感觉运动基础——通过交互学习，而不仅仅是静态数据集上的模式匹配。在实践中，具体人工智能研究包括机器人学习、 VLA型号、模拟到真实的转换以及物理基础模型。 Google DeepMind（RT 系列）、Physical Intelligence (pi0) 和 NVIDIA (GR00T) 等公司是主要的工业驱动力。 SVRC自己的数据平台专为具体人工智能数据工作流程而构建。

基础模型物理人工智能

末端执行器

末端执行器是位于机器人手臂远端的直接与环境交互的装置。它可以是平行爪夹具、吸盘、多指手、焊枪、油漆喷嘴或任何特定于任务的工具。末端执行器的姿态——它在空间中的位置和方向——是大多数操纵策略的主要控制输出。工具中心点 (TCP) 是用于笛卡尔控制的末端执行器上的参考点。选择正确的末端执行器是一项关键的部署决策：针对某一类物体（例如刚性盒子）进行优化的夹具可能会在柔软或不规则的物体上失败。浏览 SVRC 硬件选项.

硬件操纵

插曲

一个episode是对一项任务的一次完整的尝试——从初始状态到任务成功、失败或超时。在强化学习中，代理与环境交互一集，积累奖励，然后重置环境。在模仿学习中，每个录制的演示构成一个情节。情节是机器人学习数据集的基本单位：1,000 个情节的数据集包含 1,000 次任务尝试以及相关的观察、操作和结果。必须精确定义剧集长度、重置条件和成功标准，以确保数据收集的一致性。

数据强化学习模仿学习

外在因素（相机）

相机外参定义相机相对于参考系（通常是机器人底座或末端执行器）的位置和方向（6-DOF 位姿）。与内在参数（焦距、主点、镜头畸变）一起，外在参数允许将 3D 世界点投影到图像平面上，反之，将 2D 检测提升到 3D 空间。准确的外在校准对于视觉运动策略至关重要，视觉运动策略必须将视觉观察映射到一致坐标系中的机器人动作。更换末端执行器或相机时，手眼（腕式）相机需要重新校准。

洞察力校准

F

力扭矩传感器（FT传感器）

力-扭矩传感器测量施加在机器人手腕或末端执行器上的六轴扳手（三个力 Fx、Fy、Fz 和三个扭矩 Tx、Ty、Tz）。 FT 传感器对于接触丰富的装配任务至关重要，在这些任务中，纯粹的位置控制要么会错过接触，要么会施加过大的力。它们启用阻抗和导纳控制回路，检测滑动和碰撞，并为学习策略提供丰富的感官输入。 ATI 和 Robotiq 的高精度 FT 传感器是研究实验室的标准配置；基于 MEMS 的低成本传感器越来越适合生产部署。

硬件传感控制

基础模型（机器人）

基础模型是一个在广泛、多样化的数据上进行预训练的大型神经网络，可以通过微调或提示来适应许多下游任务。在机器人技术中，基础模型通常是大型视觉语言模型（VLM），通过动作输出进行扩展以形成 VLA，或在跨实体数据集上训练的大型视觉运动策略。示例包括 RT-2（Google DeepMind）、OpenVLA、Octo 和 pi0（物理智能）。机器人技术的基础模型很有吸引力，因为它们可以利用互联网规模的预训练，支持语言调节，并且可以跨任务进行泛化，而无需从头开始对每个任务进行重新训练。看 SVRC型号目录.

VLA预训练概括

正向运动学（氟）

给定机器人的关节角度（或棱柱关节的位移），正向运动学计算笛卡尔空间中末端执行器的位姿。对于串行链机器人，FK 是通过乘以一系列齐次变换矩阵（每个关节一个）来计算的，通常源自 Denavit-Hartenberg (DH) 参数或 URDF 描述。 FK 总是有一个唯一的解决方案 - 给定关节角度，恰好有一个末端执行器姿势 - 与逆问题不同（IK），可能有零个、一个或多个解。 FK 用于仿真、碰撞检查、可视化和实时机器人状态监控。

运动学控制

G

概括（机器人政策）

泛化衡量机器人策略在训练期间未见过的对象、场景或任务上的执行情况。这是机器人学习的核心挑战：记住训练演示但在新实例上失败的策略没有实际价值。研究人员区分对象泛化（已知类别的新实例）、类别泛化（全新的对象类）和任务泛化（新的指令短语或目标配置）。提高泛化能力通常需要更大、更多样化的训练数据、与互联网数据的协同训练、模拟中的域随机化以及基础模型先验。

政策研究前沿

抓握姿势

抓取姿势指定机器人手或夹具相对于物体的 6-DOF 位置和方向，以便夹具可以闭合并牢固地握住物体。抓取姿势估计通常是使用分析方法（例如对映抓取采样）或学习检测器（例如 GraspNet-1Billion、GQ-CNN 或 AnyGrasp）根据深度或点云数据完成的。机器人必须能够达到有效的抓取姿势，在接近过程中不会发生碰撞，并且在预期的任务负载下保持稳定。抓取质量指标包括力闭合、接触稳定性和特定任务的扳手阻力。

操纵洞察力

夹爪

夹具是最常见的机器人类别末端执行器，设计用于抓取和握住物体。平行爪夹持器是最简单且使用最广泛的，具有由电机或气动装置驱动的两个相对的手指。吸盘利用真空来拾取光滑、平坦的表面。软夹具使用顺应性材料（硅胶、织物）来贴合不规则物体。多指手（3-5 个手指）启用灵巧的操控但更难控制且更昂贵。夹具的选择主要取决于物体的几何形状、表面特性、所需的有效负载以及是否需要手动重新定向。

硬件末端执行器

H

HDF5 （分层数据格式 v5）

HDF5 是一种二进制文件格式和库，用于高效存储和访问大型结构化科学数据集。在机器人技术中，HDF5 是机器人演示数据集的标准容器：单个文件存储同步相机图像、关节角度、夹具状态、力读数和分层组中的元数据，并通过分块 I/O 在训练期间实现快速随机访问。乐机器人和ALOHA生态系统都原生使用HDF5。另一种选择扎尔格式提供云原生分块存储，更好地支持并发写入。 SVRC的数据收集管道默认输出HDF5。

数据贮存工程

人形机器人

人形机器人的身体结构与人类大致相似，通常是躯干、两条腿、两条手臂和一个头部，使其能够在专为人类设计的环境中运行并使用人类工具。著名的类人机器人包括 Boston Dynamics Atlas、Agility Robotics Digit、Figure 01 和 Tesla Optimus。类人机器人面临着极端的工程挑战：双足运动需要实时平衡控制，并协调 30 多个自由度来满足运动操纵任务的需求全身控制。尽管存在这种复杂性，类人机器人仍然吸引了大量投资，因为它们的外形尺寸可以在不同的工作场所中通用，而无需改变基础设施。

硬件运动双手

人机交互（人类研究所）

人机交互是一个跨学科领域，研究人与机器人如何有效、安全地沟通、协作和共享物理空间。 HRI 研究涵盖安全标准（协作机器人的 ISO/TS 15066）、远程操作的用户界面设计、自然语言指令、清晰的机器人运动（使旁观者能够理解机器人意图）和社交机器人（使用凝视、手势和语音进行非语言交流）。在工业协作机器人部署中，HRI 直接决定工人是否接受并有效地使用机器人。良好的 HRI 设计可减少事故、提高吞吐量并减轻人员的培训负担。

安全合作

I

模仿学习（伊利诺伊州）

模仿学习是一系列机器学习方法，它们通过人类演示而不是通过设计的奖励函数来训练机器人策略。最简单的形式是行为克隆（状态-动作对的监督回归）。更高级的变体——DAgger（迭代校正）、GAIL（对抗性模仿）和 IRL（恢复奖励函数）——解决了困扰纯 BC 的分配转移和奖励规范问题。 IL 已成为教授灵巧操作的主导范例，因为复杂操作的奖励工程极其困难，而收集人类演示则可以通过以下方式进行大规模处理：远程操作。请参阅完整的深入文章.

核心理念政策数据

逆运动学（我）

逆运动学求解将机器人末端执行器置于所需笛卡尔位姿的关节角度。不像正向运动学、IK 可能有零个、一个或无限多个解，具体取决于机器人的运动结构和目标位姿。解析 IK 解算器适用于标准 6-DOF 配置；数值方法（雅可比伪逆、牛顿-拉夫逊、基于优化）处理任意几何形状和冗余机器人。 IK 用于运动规划、远程操作映射（将操作员手势转换为关节命令）和任何笛卡尔空间控制器。 KDL、IKFast 和 track-ik 等库常用于 ROS 环境。

运动学控制规划

艾萨克·辛

NVIDIA Isaac Sim 是一个基于 Omniverse USD 框架构建的机器人模拟平台，提供高保真物理（通过 PhysX 5）、逼真渲染（通过 RTX 路径跟踪）和开箱即用的 ROS 2 集成。它专为生成合成训练数据、测试机器人策略以及模拟到真实的迁移研究而构建。 Isaac Sim 支持大规模纹理、光照和对象姿势的域随机化，并与 NVIDIA 的 Isaac Lab 强化学习框架集成。其 GPU 加速物理功能允许使用数千个并行模拟实例来训练强化学习策略。了解更多信息，请访问 SVRC Isaac Sim 资源页面.

模拟综合数据工具

J

联合空间（配置空间）

关节空间（也称为配置空间或 C 空间）是机器人所有可能的关节角度向量的空间。关节空间中的一个点唯一地指定了机器人的完整配置。 RRT 和 PRM 等运动规划算法在关节空间中工作，以查找配置之间的无碰撞路径，因为碰撞检查在关节空间中比在笛卡尔空间中更直接。许多强化学习策略直接在关节空间中输出关节位置或速度，而模仿学习策略通常在关节空间中运行笛卡尔空间以便更容易地进行人类与演示者的协调。请参阅联合空间文章.

运动学规划

关节扭矩

关节扭矩是电机在机器人关节处施加的旋转力，以牛顿米 (Nm) 为单位测量。扭矩控制机器人（与位置控制机器人相反）可以直接调节接触力，从而实现合规行为，例如推动时屈服和精确控制装配力。每个关节的扭矩感应是 Franka Panda、Universal Robots UR 系列和 Kuka iiwa 等协作机器人 (cobots) 的一个关键功能，可实现安全的人机协作和全身合规控制。输出关节扭矩而不是位置的学习策略需要仔细训练以避免不稳定的振荡。

控制硬件力量

K

运动链

运动链是一系列通过关节连接的刚体连杆，它们共同形成机器人的机械结构。一条开链（串行机器人手臂）有一个自由端（末端执行器），使 FK 变得简单。闭合链（并联机器人、六足机器人）具有多个环路，可提供更高的刚度和速度，但需要更复杂的运动学。运动链决定机器人的工作空间、奇点以及用于笛卡尔控制的雅可比矩阵。 URDF 文件将运动链描述为仿真和控制软件的链接和关节树。

运动学力学

动觉教学

动觉教学（也称为引导或直接引导）是一种机器人编程方法，其中人类物理抓住机器人手臂并将其移动通过所需的运动路径，同时机器人记录轨迹。它要求机器人可反向驱动（低关节摩擦力和顺从性），以便操作员可以轻松移动它。动觉教学很直观，不需要外部硬件，但它仅限于操作员可以物理演示的任务，并且它只产生本体感觉数据（没有腕式摄像机观察），除非摄像机共同记录。 Franka Panda 等扭矩控制机器人的重力补偿模式使动觉教学变得实用。

数据收集模仿学习

L

语言条件政策

语言条件策略采用自然语言指令（例如，“拿起红色杯子并将其放在托盘上”）作为视觉观察的附加输入，使单个策略网络能够执行在运行时选择的多个任务，而无需重新训练。语言调节通常是通过使用预训练语言模型（CLIP、T5、PaLM）对指令进行编码并将所得嵌入与图像特征融合来实现的。 VLA型号 RT-2、OpenVLA 和 pi0 等在设计上都是以语言为条件的。这种方法减少了为每个任务训练单独策略的需要，并支持对新颖指令短语的零样本泛化。

VLA基础模型概括

潜在空间

潜在空间是神经网络学习的数据的压缩、低维表示——编码器的输出，捕获观察中与任务最相关的特征。在机器人学习中，潜在空间在 VAE（变分自动编码器）中用于学习视觉场景的结构化表示，在世界模型中用于预测未来状态，在基于 CVAE 的策略（如 ACT）中用于编码多模态动作分布。结构良好的潜在空间将语义相似的观察结果紧密地放置在一起，从而能够在潜在域而不是原始像素空间中进行插值、规划和数据增强。

表征学习政策

乐机器人

LeRobot是Hugging Face的机器人学习开源库，提供模仿学习算法的标准化实现（ACT, 扩散政策、TDMPC）、统一的数据集格式、可视化工具和预训练的模型权重。它旨在通过提供一个类似于 Transformers 为 NLP 所做的单一内聚框架来降低机器人学习研究的进入门槛。 LeRobot 与 Hugging Face Hub 集成以实现数据集和模型共享，并支持模拟（体育馆机器人、MuJoCo）和物理机器人环境。配套的 SO-100 低成本机器人套件也随之发布。

工具开源模仿学习

乐机器人高频数据集

LeRobot 数据集格式是 Hugging Face Hub 上托管的机器人演示数据的标准化模式。每个数据集由 Parquet 文件（用于标量时间序列：关节位置、动作、奖励、完成标志）以及相机流的压缩 MP4 视频块组成，所有数据都按剧集和帧进行索引。一个 meta/info.json 文件描述了摄像机名称、机器人类型、fps 和用于标准化的数据统计信息。这种格式允许任何 LeRobot 兼容算法使用一行代码加载任何已发布的数据集，从而实现快速的跨数据集实验。数十个操纵和移动操纵数据集已经以这种格式发布。

数据标准开源

M

操纵

操纵是指与物体有目的的物理交互——拾取、放置、组装、折叠、插入、倾倒和类似的任务。机器人操控是实体人工智能领域最活跃的研究领域之一，因为即使是简单的日常任务（装洗碗机、打开包裹）也需要丰富的感知、精确的运动控制和强大的抓取规划。操作难度从在固定设置中对已知物体进行简单的拾取和放置，到接触丰富的组装，再到在非结构化场景中对新物体进行完全灵巧的手动重新定向。 SVRC的数据服务专门收集操作演示用于培训和评估。

核心理念任务

移动它

MoveIt 是最广泛使用的机器人手臂开源运动规划框架，最初由 Willow Garage 开发，现在由 PickNik Robotics 维护。 MoveIt 2 在 ROS 2 上运行，并提供规划器（OMPL、CHOMP、PILZ）、笛卡尔轨迹规划、针对 MoveIt 规划场景的碰撞检查、运动学插件（KDL、IKFast、TracIK）以及抓取规划集成。它是机器人学习策略（输出所需的末端执行器姿势或路径点）和在物理机器人上执行平滑、无碰撞轨迹的低级关节控制器之间的标准中间件层。

工具规划ROS

多任务学习

多任务学习同时训练来自多个不同任务的演示的单一策略，期望跨任务学习的共享表示可以提高每个单独任务的性能并能够泛化到新任务。在机器人技术中，这通常意味着对数百个具有不同对象、目标和环境的任务进行训练。关键的挑战是平衡不同任务的梯度贡献（梯度干扰），并确保策略可以在推理时区分任务——通常通过语言调节或单热任务标识符。多任务策略是通用机器人助手的先决条件。

政策概括训练

N

神经政策

神经策略是由神经网络参数化的机器人控制策略，将观察结果（图像、本体感觉、语言）直接映射到动作（关节位置、笛卡尔增量、夹具命令）。与经典的运动规划管道相比，神经策略从数据中学习端到端的映射，而无需手工设计的中间表示。现代神经策略使用卷积编码器进行视觉，使用转换器进行序列建模，并使用 ACT、扩散策略或 VLA 主干等架构来生成动作。神经策略的一个关键特性是它们可以通过演示或奖励信号进行训练，使它们能够处理对于手动编码控制器来说过于复杂的任务。

政策深度学习

非抓握式操纵

非抓握操纵是指在不抓住物体的情况下操纵物体，而是使用推、滚动、旋转、翻转、倾斜或其他利用重力和表面摩擦力的接触策略。例如，将一个盒子推到桌子上以将其定位，或者在抓住它之前将其推到直立位置。非抓取策略可以将对象移动到可抓取的配置中，重新定位太大而无法抓取的项目，或者在抓取方法不可行的杂乱场景中工作。规划非抓取动作需要对准静态或动态物体力学和接触物理进行建模，这使其成为操纵和运动规划交叉领域的一个活跃的研究课题。

操纵规划

O

观察空间

观察空间定义了机器人策略在每个时间步可用的所有传感器输入。常见的模式包括来自手腕或头顶摄像头的 RGB 图像、来自结构光或立体传感器的深度图、本体感觉状态（关节位置、速度、扭矩）、夹具状态、末端执行器姿势、触觉读数和任务规范输入（例如语言嵌入或目标图像）。观察空间设计深刻影响策略性能和泛化：更丰富的观察携带更多信息，但会增加模型复杂性、训练时间以及过度拟合不相关视觉特征的风险。

洞察力政策

开环控制

开环控制执行预先计划的轨迹，在执行过程中不使用传感器反馈——机器人只是遵循命令的位置或速度，而不管实际发生的情况。这适用于受控环境中高度可重复的任务，例如 CNC 加工或固定传送带上的拾放。开环控制快速且简单，但在发生干扰时会失败，因为没有采取纠正措施。相比之下，闭环（反馈）控制不断将实际状态与期望状态进行比较并应用纠正命令，使其在可变环境中的机器人学习更加稳健。

控制

开放X实施例

Open X-Embodiment (OXE) 是由 Google DeepMind 和 33 个研究机构组装的大规模机器人演示数据集，包含来自 22 个不同机器人实施例的超过 100 万个机器人场景和超过 527 种技能。它的创建是为了启用共同培训跨实施例——假设不同的机器人经验比单独的单个机器人数据集教导更丰富的操作表示。 RT-X 是在 OXE 上训练的模型，与单实施例基线相比，证明了跨实施例的正迁移，并提高了保留任务的性能。 OXE 数据是公开的，并催生了一波跨实体机器人研究浪潮。

数据集基础模型多实施例

P

有效载荷

有效负载是机器人手臂在保持其额定位置精度和动态性能的同时可以承载的最大质量（包括任何末端执行器和工具的重量）。有效负载规格通常范围从协作研究机器人的 1 公斤以下（WidowX 250：250 克）到大型工业手臂的 500 公斤以上。重要的是，额定有效负载通常是在手臂完全伸展的情况下引用的；在更近的距离和更有利的姿势下，机器人通常可以处理更多的事情。超过有效负载限制会降低精度、加速磨损，并可能引发安全故障或物理损坏。 SVRC的硬件目录列出每个机器人的有效负载。

硬件规格

政策（机器人）

在机器人学习中，策略（表示为 π）是将观察结果映射到动作的函数：π(o) → a。该策略是机器人的学习“大脑”，根据它的感知确定每个时间步要做什么。策略可以表示为神经网络（神经策略）、决策树、高斯过程或查找表。它们可以是确定性的（每个观察一个动作）或随机的（动作的分布）。政策质量是通过不同条件下的任务成功率来衡量的，而不仅仅是培训演示。机器人学习的核心挑战是训练策略能够可靠地推广到其训练分布之外。

核心理念深度学习

政策推出

策略推出是在机器人上（或在模拟中）执行经过训练的策略从初始状态到任务完成或超时的单个事件。推出用于评估策略性能、收集新数据以进行进一步训练（如 DAgger 或 RL 微调）以及调试故障模式。可靠的性能估计所需的推出次数取决于任务可变性 - 高方差任务可能需要 50 次以上的推出才能获得稳定的成功率估计。在研究中，推出通常按初始条件（分布内与分布外对象/场景）进行分类，以表征泛化。

评估政策

预训练

预训练是模型开发的阶段，在该阶段中，神经网络在针对特定任务的微调之前在大型、多样化的数据集上进行训练。对于机器人基础模型，预训练可能发生在互联网规模的视觉语言数据（图像、视频、文本）、跨实施例机器人数据集（Open X-Embodiment）、合成模拟数据或组合上。预训练模型可以学习对象、动作和概念的丰富通用表示，这些表示可以转移到下游机器人任务，而演示次数比从头开始训练要少得多。预训练是 RT-2 等 VLA 模型成功背后的机制，它受益于机器人和互联网规模的预训练。

基础模型训练迁移学习

Q

Q函数（行动-价值函数）

Q 函数 Q(s, a) 估计智能体通过在状态 s 中采取操作 a 然后遵循给定策略将获得的预期累积折扣奖励。 Q 函数是强化学习算法的核心，例如 DQN（离散动作）以及 SAC、TD3 和 DDPG（连续动作）。在机器人强化学习中，学习用于长视野操作任务的精确 Q 函数具有挑战性，因为奖励稀疏且状态动作空间高维。最近离线 RL（IQL、CQL）方面的工作使用 Q 函数从固定数据集中提取策略，无需在线交互，从而弥合了模仿学习和 RL 之间的差距。

强化学习价值函数

准静态操纵

准静态操纵假设运动足够慢，惯性力和动态力可以忽略不计——系统在每个瞬间都有效地处于静态平衡。这种简化使得易于处理的接触力学建模能够用于规划推动、滑动、旋转和手动重新抓取动作。许多机器人操作基准（包括大多数桌面拾放任务）在准静态状态下运行。当任务涉及快速投掷、动态捕捉或高速组装时，准静态假设就会失效，需要具有接触模拟的完整刚体动力学（例如 MuJoCo、Isaac Sim）。

操纵力学

R

真实卡传输

真实到模拟传输（补充模拟到真实）涉及构建或校准模拟以尽可能接近现实世界——本质上是构建真实条件的数字孪生。这用于在模拟中重放真实的故障案例，生成与真实传感器特征匹配的附加合成训练数据，并在部署之前安全地测试策略更新。技术包括摄影测量场景重建、物理参数识别（系统识别）和神经渲染方法（NeRF、3D Gaussian Splatting）以匹配相机外观。准确的真实到模拟管道极大地减少了策略迭代所需的物理实验数量。

模拟数字孪生数据

抵达

到达范围是从机器人手臂的底座到其末端执行器在其工作空间内可以到达的任何点的最大距离。对于串行臂，最大范围等于所有链接长度的总和。部署中的有效范围较小——考虑到关节限制、避免自碰撞以及从多个方向接近物体的需要。范围决定了哪些工作站布局和对象放置是可行的。在为任务选择机器人时，工程师必须确认所需的工作空间（包括抓取的所有接近方向）以可接受的精度落在机器人的可到达范围内。

硬件规格运动学

重放缓冲区

重播缓冲区（或体验重播内存）是 RL 代理在环境交互期间收集的过去（状态、动作、奖励、下一个状态、完成）转换的数据集。在每个训练步骤中，都会从缓冲区中采样随机小批量来训练价值函数或策略，从而打破会破坏梯度更新稳定性的时间相关性。在离线强化学习和机器人学习中，重播缓冲区被人类演示或之前收集的展示的固定数据集取代。优先经验回放通过时间差误差对采样进行加权，以将训练集中在信息转换上。

强化学习数据

奖励功能

奖励函数定义了强化学习智能体的学习目标：它将标量奖励信号 r(s, a, s') 分配给每个（状态、动作、下一个状态）转换，告诉智能体其动作有多好或多坏。奖励函数设计是将 RL 应用到机器人技术中最困难的部分之一：稀疏奖励（成功时为 1，否则为 0）很干净，但会导致学习速度缓慢；密集的奖励（例如，与目标的负距离）可以指导学习，但可以以意想不到的方式进行游戏（奖励黑客）。替代方案包括从演示中进行奖励学习（IRL、RLHF）、特定于任务的模拟指标和学习偏好模型。模仿学习完全通过直接从演示中学习来回避奖励设计问题。

强化学习核心理念

S

模拟到真实的传输

模拟到真实的迁移是完全或主要在模拟中训练机器人策略，然后将其部署在物理机器人上的过程，其目标是该策略在没有（或最少）额外现实世界数据的情况下发挥作用。核心挑战是 现实差距 — 模拟与现实世界之间的物理保真度、视觉外观、传感器噪声和未建模动力学方面的差异。关键的缓解技术包括域随机化（在训练期间随机化模拟参数）、系统识别（校准模拟以匹配真实硬件）以及对少量真实数据的自适应微调。请参阅详细文章.

迁移学习模拟部署

状态空间

状态空间是机器人及其环境所处的完整配置集。在强化学习中，马尔可夫状态对预测未来奖励和状态转换所需的所有信息进行编码——理想情况下是对世界的完整描述。在实践中，代理只能访问可能无法完全捕获状态的部分观察结果（图像、关节角度）（例如，被遮挡的物体、未知的物理参数）。设计一个很好地近似马尔可夫状态同时保持计算上易于处理的观察空间是机器人学习系统设计中的一个关键挑战。

强化学习控制

手术机器人

外科机器人技术将机器人系统应用于医疗程序，最著名的是通过 Intuitive Surgical 的达芬奇平台进行微创腹腔镜手术。手术机器人提供运动缩放（将操作员的大动作转换为亚毫米器械运动）、震颤过滤和增强的患者体内可视化功能。新兴研究探索自主手术子任务（缝合、组织牵开）、人工智能辅助引导和低延迟 5G 链路上的远程手术。监管批准（美国 FDA 510(k) 或 PMA）增加了大量的验证负担。手术机器人技术处于交叉点远程操作, HRI，和丰富的接触操纵.

医疗的远程操作应用

T

任务参数化学习

任务参数化学习对与多个坐标系或任务参数（例如，对象的姿势、目标位置、障碍物框架）相关的演示进行编码，而不是在固定的世界框架中。执行时，策略会自动适应新的对象和目标配置，无需重新训练，因为它已经学习了相对于任务相关参考的运动。任务参数化高斯混合模型（TP-GMM）和核化运动原语是经典的实现。这种方法为结构化拾放任务提供了强大的几何概括，尽管它需要在运行时识别和跟踪任务框架。

模仿学习概括政策

远程操作

远程操作是人类操作员对机器人的远程控制，既用于直接执行任务（手术机器人、太空机器人、炸弹处理），又作为收集高质量模仿学习演示的主要方法。在机器人学习中，常见的设置使用领导者-跟随者架构：操作员移动轻型领导者手臂，机器人（跟随者）实时跟踪领导者。基于 VR 的远程操作系统（使用手部跟踪或控制器）越来越受欢迎，因为它们更符合人体工程学并且允许更高的数据吞吐量。 SVRC提供专业的远程操作数据收集服务适合企业机器人学习团队。

数据收集模仿学习硬件

弹道

轨迹是机器人状态（关节角度或笛卡尔位姿）的时间参数化序列，描述机器人如何从起始配置移动到目标。轨迹可以由运动规划器（规划无碰撞路径，然后对其进行时间参数化以实现平稳执行）、通过远程操作记录（以固定频率捕获操作员的运动）来生成，也可以通过神经策略直接预测。轨迹平滑度和速度连续性对于机器人的物理安全非常重要——突然的不连续性会导致机械应力并可能触发安全停止。轨迹表示包括样条线、动态运动基元 (DMP) 和离散航路点序列。

规划控制数据

迁移学习

机器人技术中的迁移学习涉及采用在一个领域（例如互联网视觉语言数据、模拟或不同的机器人）上预训练的模型，并使其适应目标任务或具有有限附加数据的机器人。最常见的方法是根据机器人演示数据对预训练主干网的最后几层进行微调；当有足够的机器人数据可用时，使用完全微调所有权重。迁移学习是使基础模型对于机器人技术来说很实用——仅使用机器人数据从头开始训练的替代方案将需要数百万次演示。参见预训练, 模拟到真实的传输.

基础模型训练

U

URDF （统一机器人描述格式）

URDF 是一种基于 XML 的文件格式，用于描述机器人的运动学和动态属性：链接（具有质量、惯性和视觉/碰撞网格的刚体）和关节（链接之间的连接，具有类型、轴、限制和阻尼参数）。 URDF 是 ROS 中的标准机器人描述格式，并受到所有主要仿真平台（Isaac Sim、MuJoCo、Gazebo、PyBullet）的支持。它可以将机器人的运动学加载到 MoveIt 等运动规划器中，在 RViz 中可视化机器人，并实例化物理模拟模型。 XACRO（XML 宏语言）通常用于对复杂机器人的 URDF 文件进行参数化和模块化。 OpenArm 和大多数 SVRC 硬件都有公开可用的 URDF 模型。

工具标准模拟

V

VLA （视觉-语言-行动模型）

视觉-语言-动作模型是一种神经网络，它联合处理视觉观察（RGB 图像）、自然语言指令和机器人本体感觉以产生动作输出。 VLA 通过添加动作头来扩展大型视觉语言模型（VLM，例如 PaLM-E、LLaVA 或 Gemini）——训练模型输出机器人关节位置或末端执行器增量及其语言预测。值得注意的 VLA 包括 RT-2（将操作标记为文本标记并微调 VLM）、OpenVLA（开源、7B 参数，在 Open X-Embodiment 上进行训练）和 pi0（Physical Intelligence 的流匹配 VLA）。请参阅 VLA 和 VLM 文章和 SVRC型号目录.

基础模型语言核心理念

蝰蛇X

ViperX是Trossen Robotics制造的一系列六自由度机械臂，由于其低成本、ROS支持以及与DYNAMIXEL伺服生态系统的兼容性而广泛应用于学术机器人学习研究。 ViperX 300（工作范围为 300 毫米）和 ViperX 300-S 是模仿学习设置中最常见的研究臂，也是原始设备中的从动臂 ALOHA 系统。与工业机器人相比，ViperX 手臂的有效负载（约 750 克）和精度适中，但为操纵研究提供了一个可访问的切入点。浏览 SVRC 五金店的可用性。

硬件研究机器人

视觉服务

视觉伺服使用闭环控制器中的相机反馈来引导机器人朝着图像空间（基于图像的视觉伺服，IBVS）或根据图像估计的 3D 空间（基于位置的视觉伺服，PBVS）中定义的目标前进。在 IBVS 中，控制器最大限度地减少检测到的图像特征（关键点、对象边界框）与其在图像平面中的所需位置之间的误差，而无需显式计算 3D 位姿。视觉伺服很有吸引力，因为它可以直接补偿校准误差和相机机器人未对准。现代深度学习变体训练神经网络直接从原始图像输出伺服速度命令，从而实现对新物体的稳健对齐。

控制洞察力闭环

W

航路点

路径点是机器人的轨迹从起点到目标的过程中必须经过的中间配置（关节角度或笛卡尔位姿）。路径点允许程序员和规划人员通过特定姿势引导机器人的路径，例如，避开障碍物、从安全方向接近物体或按顺序完成多步骤组装程序。在机器人学习中，高层策略有时会输出路点，低层运动规划器将其插值到平滑的关节轨迹中，将学习策略的泛化优势与经典规划的安全保证结合起来。

规划弹道

全身控制 (白细胞)

全身控制同时协调腿式或人形机器人的所有关节，以满足多个相互竞争的目标——保持平衡、跟踪末端执行器目标、避免关节限制和管理接触力——作为实时约束优化问题（通常是 QP）来解决。 WBC 对于类人机器人和腿式机械臂至关重要，因为底座不固定：手臂运动会改变质心，必须通过腿部和躯干调整来补偿。 Drake、Pinocchio 和 OCS2 等 WBC 框架常用于人形研究。 Mobile ALOHA 平台和波士顿动力 Atlas 依靠全身控制器进行局部操纵。看 WBC文章.

控制人形运动

工作空间

机器人的工作空间是在给定机器人的运动结构和关节限制的情况下末端执行器可以到达的所有位置（和方向）的集合。这 可达工作空间 是末端执行器在至少一个方向上可以到达的所有位置；这 灵巧的工作空间 是在每个方向上可到达的较小子集——对于需要任意接近角度的操作任务来说最有用的区域。工作空间分析可告知单元布局（机器人和零件应相距多远）、机器人选择（匹配任务布局的范围）和运动规划（识别工作空间中的无奇点路径）。

运动学硬件规划

Z

扎尔（数据格式）

Zarr 是一种开源格式，用于以分块、压缩的形式存储 n 维数组，专为云原生和并行 I/O 工作负载而设计。在机器人技术中，Zarr 用于存储大型机器人演示数据集（图像、关节状态、动作），其格式可以从对象存储（S3、GCS）中有效读取，而无需下载整个文件。不像 HDF5，Zarr支持并发写入，使其适合分布式数据收集管道。 Zarr v3 标准化了格式并增加了对分片的支持（将许多小块组合成更少的大文件），从而提高了云存储效率。 LeRobot 等项目和多个自动驾驶汽车数据集已采用 Zarr 进行大规模数据集托管。