Robix: Een Geïntegreerd Model voor Robotinteractie, Redeneren en Planning
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
Auteurs: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
Samenvatting
We introduceren Robix, een geïntegreerd model dat robotredenering, taakplanning en natuurlijke taalinteractie combineert binnen een enkele visie-taalarchitectuur. Als de hoogste cognitieve laag in een hiërarchisch robotsysteem genereert Robix dynamisch atomische commando's voor de laag-niveau controller en verbale reacties voor menselijke interactie, waardoor robots complexe instructies kunnen volgen, langetermijntaken kunnen plannen en natuurlijk kunnen communiceren met mensen binnen een end-to-end framework. Robix introduceert verder nieuwe mogelijkheden zoals proactieve dialoog, real-time onderbrekingsafhandeling en contextbewust gezond verstand tijdens taakuitvoering. In de kern maakt Robix gebruik van chain-of-thought redenering en volgt een drietraps trainingsstrategie: (1) voortgezette pretraining om fundamentele embodied redeneervaardigheden te versterken, waaronder 3D-ruimtelijk begrip, visuele verankering en taakgerichte redenering; (2) supervised finetuning om mens-robotinteractie en taakplanning te modelleren als een geïntegreerde redeneer-actievolgorde; en (3) reinforcement learning om de consistentie van redeneer-acties en de samenhang van langetermijntaken te verbeteren. Uitgebreide experimenten tonen aan dat Robix zowel open-source als commerciële referentiemodellen (bijv. GPT-4o en Gemini 2.5 Pro) overtreft in interactieve taakuitvoering, met sterke generalisatie over diverse instructietypen (bijv. open-ended, multi-stage, beperkt, ongeldig en onderbroken) en verschillende gebruikersgerelateerde taken zoals tafelafruimen, boodschappen doen en dieetfiltering.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.