Robix : Un modèle unifié pour l'interaction, le raisonnement et la planification robotiques
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
papers.authors: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
papers.abstract
Nous présentons Robix, un modèle unifié qui intègre le raisonnement robotique, la planification de tâches et l'interaction en langage naturel au sein d'une architecture unique vision-langage. Agissant comme la couche cognitive de haut niveau dans un système robotique hiérarchique, Robix génère dynamiquement des commandes atomiques pour le contrôleur de bas niveau et des réponses verbales pour l'interaction humaine, permettant ainsi aux robots de suivre des instructions complexes, de planifier des tâches à long terme et d'interagir naturellement avec les humains dans un cadre end-to-end. Robix introduit également de nouvelles capacités telles que le dialogue proactif, la gestion des interruptions en temps réel et le raisonnement de bon sens contextuel pendant l'exécution des tâches. Au cœur de Robix se trouve un raisonnement en chaîne de pensée et une stratégie d'entraînement en trois étapes : (1) un pré-entraînement continu pour renforcer les capacités de raisonnement incarné fondamentales, notamment la compréhension spatiale 3D, l'ancrage visuel et le raisonnement centré sur les tâches ; (2) un affinage supervisé pour modéliser l'interaction humain-robot et la planification de tâches comme une séquence unifiée de raisonnement-action ; et (3) un apprentissage par renforcement pour améliorer la cohérence raisonnement-action et la cohérence des tâches à long terme. Des expériences approfondies démontrent que Robix surpasse à la fois les bases de référence open-source et commerciales (par exemple, GPT-4o et Gemini 2.5 Pro) dans l'exécution interactive de tâches, montrant une forte généralisation à travers divers types d'instructions (par exemple, ouvertes, multi-étapes, contraintes, invalides et interrompues) et diverses tâches impliquant l'utilisateur telles que le débarrassage de table, les courses alimentaires et le filtrage diététique.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.