Robix: Un Modello Unificato per Interazione, Ragionamento e Pianificazione Robotica

Abstract

Presentiamo Robix, un modello unificato che integra il ragionamento robotico, la pianificazione delle attività e l'interazione in linguaggio naturale all'interno di un'unica architettura visione-linguaggio. Agendo come strato cognitivo di alto livello in un sistema robotico gerarchico, Robix genera dinamicamente comandi atomici per il controller di basso livello e risposte verbali per l'interazione umana, consentendo ai robot di seguire istruzioni complesse, pianificare attività a lungo termine e interagire naturalmente con gli esseri umani in un framework end-to-end. Robix introduce inoltre nuove capacità come il dialogo proattivo, la gestione delle interruzioni in tempo reale e il ragionamento di buon senso contestuale durante l'esecuzione delle attività. Nel suo nucleo, Robix sfrutta il ragionamento a catena di pensiero e adotta una strategia di addestramento in tre fasi: (1) pretraining continuato per potenziare le capacità di ragionamento incarnato di base, inclusa la comprensione spaziale 3D, il grounding visivo e il ragionamento centrato sulle attività; (2) fine-tuning supervisionato per modellare l'interazione uomo-robot e la pianificazione delle attività come una sequenza unificata di ragionamento-azione; e (3) apprendimento per rinforzo per migliorare la coerenza tra ragionamento e azione e la coerenza delle attività a lungo termine. Esperimenti estensivi dimostrano che Robix supera sia le baseline open-source che quelle commerciali (ad esempio, GPT-4o e Gemini 2.5 Pro) nell'esecuzione interattiva delle attività, mostrando una forte generalizzazione su diversi tipi di istruzioni (ad esempio, aperte, multi-stadio, vincolate, non valide e interrotte) e su varie attività che coinvolgono l'utente come il riordino dei tavoli, la spesa al supermercato e il filtraggio dietetico.

English

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix further introduces novel capabilities such as proactive dialogue, real-time interruption handling, and context-aware commonsense reasoning during task execution. At its core, Robix leverages chain-of-thought reasoning and adopts a three-stage training strategy: (1) continued pretraining to enhance foundational embodied reasoning abilities including 3D spatial understanding, visual grounding, and task-centric reasoning; (2) supervised finetuning to model human-robot interaction and task planning as a unified reasoning-action sequence; and (3) reinforcement learning to improve reasoning-action consistency and long-horizon task coherence. Extensive experiments demonstrate that Robix outperforms both open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in interactive task execution, demonstrating strong generalization across diverse instruction types (e.g., open-ended, multi-stage, constrained, invalid, and interrupted) and various user-involved tasks such as table bussing, grocery shopping, and dietary filtering.

Robix: Un Modello Unificato per Interazione, Ragionamento e Pianificazione Robotica

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

Abstract

Support