Robix: Un Modelo Unificado para la Interacción, Razonamiento y Planificación de Robots
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
Autores: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
Resumen
Presentamos Robix, un modelo unificado que integra el razonamiento robótico, la planificación de tareas y la interacción en lenguaje natural dentro de una única arquitectura visión-lenguaje. Funcionando como la capa cognitiva de alto nivel en un sistema robótico jerárquico, Robix genera dinámicamente comandos atómicos para el controlador de bajo nivel y respuestas verbales para la interacción humana, permitiendo que los robots sigan instrucciones complejas, planifiquen tareas a largo plazo e interactúen de manera natural con los humanos dentro de un marco de extremo a extremo. Robix introduce además capacidades novedosas como el diálogo proactivo, el manejo de interrupciones en tiempo real y el razonamiento de sentido común contextual durante la ejecución de tareas. En su núcleo, Robix aprovecha el razonamiento en cadena de pensamiento y adopta una estrategia de entrenamiento en tres etapas: (1) preentrenamiento continuo para mejorar las habilidades fundamentales de razonamiento encarnado, incluyendo la comprensión espacial 3D, el anclaje visual y el razonamiento centrado en tareas; (2) ajuste fino supervisado para modelar la interacción humano-robot y la planificación de tareas como una secuencia unificada de razonamiento-acción; y (3) aprendizaje por refuerzo para mejorar la consistencia entre razonamiento y acción, así como la coherencia en tareas a largo plazo. Experimentos exhaustivos demuestran que Robix supera tanto a líneas base de código abierto como comerciales (por ejemplo, GPT-4o y Gemini 2.5 Pro) en la ejecución interactiva de tareas, mostrando una fuerte generalización en diversos tipos de instrucciones (por ejemplo, abiertas, multi-etapa, restringidas, inválidas e interrumpidas) y en varias tareas que involucran al usuario, como la limpieza de mesas, la compra de comestibles y el filtrado dietético.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.