Robix: Унифицированная модель для взаимодействия, рассуждений и планирования роботов
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
Авторы: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
Аннотация
Мы представляем Robix — унифицированную модель, которая интегрирует роботизированное рассуждение, планирование задач и взаимодействие на естественном языке в рамках единой архитектуры, объединяющей зрение и язык. Выступая в качестве высокоуровневого когнитивного слоя в иерархической системе робота, Robix динамически генерирует атомарные команды для низкоуровневого контроллера и вербальные ответы для взаимодействия с человеком, что позволяет роботам следовать сложным инструкциям, планировать долгосрочные задачи и естественно взаимодействовать с человеком в рамках сквозной архитектуры. Robix также вводит новые возможности, такие как проактивный диалог, обработка прерываний в реальном времени и контекстно-зависимое здравомыслящее рассуждение во время выполнения задач. В основе Robix лежит цепочка рассуждений (chain-of-thought reasoning) и применяется трехэтапная стратегия обучения: (1) продолженное предварительное обучение для улучшения базовых способностей к воплощенному рассуждению, включая понимание трехмерного пространства, визуальное заземление и рассуждение, ориентированное на задачи; (2) контролируемая тонкая настройка для моделирования взаимодействия человека и робота и планирования задач как единой последовательности рассуждений и действий; и (3) обучение с подкреплением для повышения согласованности рассуждений и действий и согласованности долгосрочных задач. Многочисленные эксперименты демонстрируют, что Robix превосходит как открытые, так и коммерческие базовые модели (например, GPT-4o и Gemini 2.5 Pro) в интерактивном выполнении задач, показывая сильную обобщаемость для различных типов инструкций (например, открытых, многоэтапных, ограниченных, недействительных и прерванных) и различных задач с участием пользователя, таких как уборка столов, покупка продуктов и фильтрация по диетическим предпочтениям.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.