Robix: Un Modello Unificato per Interazione, Ragionamento e Pianificazione Robotica
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
Autori: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
Abstract
Presentiamo Robix, un modello unificato che integra il ragionamento robotico, la pianificazione delle attività e l'interazione in linguaggio naturale all'interno di un'unica architettura visione-linguaggio. Agendo come strato cognitivo di alto livello in un sistema robotico gerarchico, Robix genera dinamicamente comandi atomici per il controller di basso livello e risposte verbali per l'interazione umana, consentendo ai robot di seguire istruzioni complesse, pianificare attività a lungo termine e interagire naturalmente con gli esseri umani in un framework end-to-end. Robix introduce inoltre nuove capacità come il dialogo proattivo, la gestione delle interruzioni in tempo reale e il ragionamento di buon senso contestuale durante l'esecuzione delle attività. Nel suo nucleo, Robix sfrutta il ragionamento a catena di pensiero e adotta una strategia di addestramento in tre fasi: (1) pretraining continuato per potenziare le capacità di ragionamento incarnato di base, inclusa la comprensione spaziale 3D, il grounding visivo e il ragionamento centrato sulle attività; (2) fine-tuning supervisionato per modellare l'interazione uomo-robot e la pianificazione delle attività come una sequenza unificata di ragionamento-azione; e (3) apprendimento per rinforzo per migliorare la coerenza tra ragionamento e azione e la coerenza delle attività a lungo termine. Esperimenti estensivi dimostrano che Robix supera sia le baseline open-source che quelle commerciali (ad esempio, GPT-4o e Gemini 2.5 Pro) nell'esecuzione interattiva delle attività, mostrando una forte generalizzazione su diversi tipi di istruzioni (ad esempio, aperte, multi-stadio, vincolate, non valide e interrotte) e su varie attività che coinvolgono l'utente come il riordino dei tavoli, la spesa al supermercato e il filtraggio dietetico.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.