Robix : Un modèle unifié pour l'interaction, le raisonnement et la planification robotiques

papers.abstract

Nous présentons Robix, un modèle unifié qui intègre le raisonnement robotique, la planification de tâches et l'interaction en langage naturel au sein d'une architecture unique vision-langage. Agissant comme la couche cognitive de haut niveau dans un système robotique hiérarchique, Robix génère dynamiquement des commandes atomiques pour le contrôleur de bas niveau et des réponses verbales pour l'interaction humaine, permettant ainsi aux robots de suivre des instructions complexes, de planifier des tâches à long terme et d'interagir naturellement avec les humains dans un cadre end-to-end. Robix introduit également de nouvelles capacités telles que le dialogue proactif, la gestion des interruptions en temps réel et le raisonnement de bon sens contextuel pendant l'exécution des tâches. Au cœur de Robix se trouve un raisonnement en chaîne de pensée et une stratégie d'entraînement en trois étapes : (1) un pré-entraînement continu pour renforcer les capacités de raisonnement incarné fondamentales, notamment la compréhension spatiale 3D, l'ancrage visuel et le raisonnement centré sur les tâches ; (2) un affinage supervisé pour modéliser l'interaction humain-robot et la planification de tâches comme une séquence unifiée de raisonnement-action ; et (3) un apprentissage par renforcement pour améliorer la cohérence raisonnement-action et la cohérence des tâches à long terme. Des expériences approfondies démontrent que Robix surpasse à la fois les bases de référence open-source et commerciales (par exemple, GPT-4o et Gemini 2.5 Pro) dans l'exécution interactive de tâches, montrant une forte généralisation à travers divers types d'instructions (par exemple, ouvertes, multi-étapes, contraintes, invalides et interrompues) et diverses tâches impliquant l'utilisateur telles que le débarrassage de table, les courses alimentaires et le filtrage diététique.

English

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix further introduces novel capabilities such as proactive dialogue, real-time interruption handling, and context-aware commonsense reasoning during task execution. At its core, Robix leverages chain-of-thought reasoning and adopts a three-stage training strategy: (1) continued pretraining to enhance foundational embodied reasoning abilities including 3D spatial understanding, visual grounding, and task-centric reasoning; (2) supervised finetuning to model human-robot interaction and task planning as a unified reasoning-action sequence; and (3) reinforcement learning to improve reasoning-action consistency and long-horizon task coherence. Extensive experiments demonstrate that Robix outperforms both open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in interactive task execution, demonstrating strong generalization across diverse instruction types (e.g., open-ended, multi-stage, constrained, invalid, and interrupted) and various user-involved tasks such as table bussing, grocery shopping, and dietary filtering.

Robix : Un modèle unifié pour l'interaction, le raisonnement et la planification robotiques

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

papers.abstract

Support