Robix: Um Modelo Unificado para Interação, Raciocínio e Planejamento de Robôs
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
Autores: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
Resumo
Apresentamos o Robix, um modelo unificado que integra raciocínio robótico, planejamento de tarefas e interação em linguagem natural dentro de uma única arquitetura visão-linguagem. Atuando como a camada cognitiva de alto nível em um sistema robótico hierárquico, o Robix gera dinamicamente comandos atômicos para o controlador de baixo nível e respostas verbais para interação humana, permitindo que robôs sigam instruções complexas, planejem tarefas de longo prazo e interajam naturalmente com humanos em um framework end-to-end. O Robix ainda introduz novas capacidades, como diálogo proativo, tratamento de interrupções em tempo real e raciocínio de senso comum contextualizado durante a execução de tarefas. Em sua essência, o Robix aproveita o raciocínio em cadeia de pensamento e adota uma estratégia de treinamento em três estágios: (1) pré-treinamento contínuo para aprimorar habilidades fundamentais de raciocínio incorporado, incluindo compreensão espacial 3D, fundamentação visual e raciocínio centrado em tarefas; (2) ajuste fino supervisionado para modelar a interação humano-robô e o planejamento de tarefas como uma sequência unificada de raciocínio-ação; e (3) aprendizado por reforço para melhorar a consistência raciocínio-ação e a coerência em tarefas de longo prazo. Experimentos extensivos demonstram que o Robix supera tanto baselines de código aberto quanto comerciais (por exemplo, GPT-4o e Gemini 2.5 Pro) na execução interativa de tarefas, mostrando forte generalização em diversos tipos de instruções (por exemplo, abertas, multiestágio, restritas, inválidas e interrompidas) e em várias tarefas envolvendo usuários, como organização de mesas, compras de supermercado e filtragem dietética.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.