Robix: Een Geïntegreerd Model voor Robotinteractie, Redeneren en Planning

Samenvatting

We introduceren Robix, een geïntegreerd model dat robotredenering, taakplanning en natuurlijke taalinteractie combineert binnen een enkele visie-taalarchitectuur. Als de hoogste cognitieve laag in een hiërarchisch robotsysteem genereert Robix dynamisch atomische commando's voor de laag-niveau controller en verbale reacties voor menselijke interactie, waardoor robots complexe instructies kunnen volgen, langetermijntaken kunnen plannen en natuurlijk kunnen communiceren met mensen binnen een end-to-end framework. Robix introduceert verder nieuwe mogelijkheden zoals proactieve dialoog, real-time onderbrekingsafhandeling en contextbewust gezond verstand tijdens taakuitvoering. In de kern maakt Robix gebruik van chain-of-thought redenering en volgt een drietraps trainingsstrategie: (1) voortgezette pretraining om fundamentele embodied redeneervaardigheden te versterken, waaronder 3D-ruimtelijk begrip, visuele verankering en taakgerichte redenering; (2) supervised finetuning om mens-robotinteractie en taakplanning te modelleren als een geïntegreerde redeneer-actievolgorde; en (3) reinforcement learning om de consistentie van redeneer-acties en de samenhang van langetermijntaken te verbeteren. Uitgebreide experimenten tonen aan dat Robix zowel open-source als commerciële referentiemodellen (bijv. GPT-4o en Gemini 2.5 Pro) overtreft in interactieve taakuitvoering, met sterke generalisatie over diverse instructietypen (bijv. open-ended, multi-stage, beperkt, ongeldig en onderbroken) en verschillende gebruikersgerelateerde taken zoals tafelafruimen, boodschappen doen en dieetfiltering.

English

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix further introduces novel capabilities such as proactive dialogue, real-time interruption handling, and context-aware commonsense reasoning during task execution. At its core, Robix leverages chain-of-thought reasoning and adopts a three-stage training strategy: (1) continued pretraining to enhance foundational embodied reasoning abilities including 3D spatial understanding, visual grounding, and task-centric reasoning; (2) supervised finetuning to model human-robot interaction and task planning as a unified reasoning-action sequence; and (3) reinforcement learning to improve reasoning-action consistency and long-horizon task coherence. Extensive experiments demonstrate that Robix outperforms both open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in interactive task execution, demonstrating strong generalization across diverse instruction types (e.g., open-ended, multi-stage, constrained, invalid, and interrupted) and various user-involved tasks such as table bussing, grocery shopping, and dietary filtering.

Robix: Een Geïntegreerd Model voor Robotinteractie, Redeneren en Planning

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

Samenvatting

Support