VITA-E: Natuurlijke Belichaamde Interactie met Gelijktijdig Zien, Horen, Spreken en Handelen

Samenvatting

Huidige Vision-Language-Action (VLA)-modellen worden vaak beperkt door een rigide, statisch interactieparadigma, waarbij het vermogen ontbreekt om gelijktijdig te zien, horen, spreken en handelen, evenals om realtime gebruikersinterrupties dynamisch te verwerken. Dit belemmert naadloze embodied samenwerking, wat resulteert in een inflexibele en niet-responsieve gebruikerservaring. Om deze beperkingen aan te pakken, introduceren we VITA-E, een nieuw embodied interactieraamwerk ontworpen voor zowel gedragsgelijktijdigheid als bijna realtime interruptie. De kern van onze aanpak is een dual-model architectuur waarin twee parallelle VLA-instanties functioneren als een "Actief Model" en een "Standby Model", waardoor de embodied agent zijn omgeving kan observeren, naar gebruikersspraak kan luisteren, verbale reacties kan geven en acties kan uitvoeren, allemaal gelijktijdig en onderbreekbaar, wat mensachtige multitasking-capaciteiten nabootst. We stellen verder een "model-as-controller"-paradigma voor, waarbij we het VLM fine-tunen om speciale tokens te genereren die dienen als directe systeemniveau-commando's, waardoor de redenering van het model wordt gekoppeld aan het gedrag van het systeem. Experimenten uitgevoerd op een fysiek humanoïde platform tonen aan dat VITA-E complexe interactieve scenario's betrouwbaar kan afhandelen. Ons raamwerk is compatibel met verschillende dual-system VLA-modellen en behaalt een extreem hoge slagingspercentage voor noodstops en spraakinterrupties, terwijl het ook gelijktijdige spraak en actie succesvol uitvoert. Dit vertegenwoordigt een significante stap richting natuurlijkere en capabelere embodied assistenten.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Natuurlijke Belichaamde Interactie met Gelijktijdig Zien, Horen, Spreken en Handelen

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Samenvatting

Support