Robix: Ein einheitliches Modell für Robotik-Interaktion, logisches Denken und Planung
Robix: A Unified Model for Robot Interaction, Reasoning and Planning
September 1, 2025
papers.authors: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
cs.AI
papers.abstract
Wir stellen Robix vor, ein einheitliches Modell, das Robotik-Argumentation, Aufgabenplanung und natürliche Sprachinteraktion in einer einzigen Vision-Sprache-Architektur integriert. Als kognitive Ebene auf hoher Ebene in einem hierarchischen Robotersystem generiert Robix dynamisch atomare Befehle für den Low-Level-Controller und verbale Antworten für die menschliche Interaktion, wodurch Roboter in der Lage sind, komplexe Anweisungen zu befolgen, langfristige Aufgaben zu planen und natürlich mit Menschen innerhalb eines End-to-End-Frameworks zu interagieren. Robix führt zudem neuartige Fähigkeiten ein, wie proaktive Dialoge, Echtzeit-Unterbrechungsbehandlung und kontextbewusstes Alltagsverständnis während der Aufgabenausführung. Im Kern nutzt Robix Chain-of-Thought-Argumentation und verfolgt eine dreistufige Trainingsstrategie: (1) fortgesetztes Vortraining zur Verbesserung grundlegender verkörperter Argumentationsfähigkeiten, einschließlich 3D-räumlichem Verständnis, visueller Verankerung und aufgabenbezogener Argumentation; (2) überwachtes Feinabstimmen, um Mensch-Roboter-Interaktion und Aufgabenplanung als eine einheitliche Argumentations-Aktionssequenz zu modellieren; und (3) Verstärkungslernen, um die Konsistenz zwischen Argumentation und Aktion sowie die Kohärenz langfristiger Aufgaben zu verbessern. Umfangreiche Experimente zeigen, dass Robix sowohl Open-Source- als auch kommerzielle Baselines (z. B. GPT-4o und Gemini 2.5 Pro) in der interaktiven Aufgabenausführung übertrifft und eine starke Generalisierung über verschiedene Anweisungstypen (z. B. offene, mehrstufige, eingeschränkte, ungültige und unterbrochene) sowie verschiedene benutzerbezogene Aufgaben wie Tischabräumen, Einkaufen und Ernährungsfilterung demonstriert.
English
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix further introduces novel
capabilities such as proactive dialogue, real-time interruption handling, and
context-aware commonsense reasoning during task execution. At its core, Robix
leverages chain-of-thought reasoning and adopts a three-stage training
strategy: (1) continued pretraining to enhance foundational embodied reasoning
abilities including 3D spatial understanding, visual grounding, and
task-centric reasoning; (2) supervised finetuning to model human-robot
interaction and task planning as a unified reasoning-action sequence; and (3)
reinforcement learning to improve reasoning-action consistency and long-horizon
task coherence. Extensive experiments demonstrate that Robix outperforms both
open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in
interactive task execution, demonstrating strong generalization across diverse
instruction types (e.g., open-ended, multi-stage, constrained, invalid, and
interrupted) and various user-involved tasks such as table bussing, grocery
shopping, and dietary filtering.