VITA-E: Natuurlijke Belichaamde Interactie met Gelijktijdig Zien, Horen, Spreken en Handelen
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
October 21, 2025
Auteurs: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI
Samenvatting
Huidige Vision-Language-Action (VLA)-modellen worden vaak beperkt door een rigide, statisch interactieparadigma, waarbij het vermogen ontbreekt om gelijktijdig te zien, horen, spreken en handelen, evenals om realtime gebruikersinterrupties dynamisch te verwerken. Dit belemmert naadloze embodied samenwerking, wat resulteert in een inflexibele en niet-responsieve gebruikerservaring. Om deze beperkingen aan te pakken, introduceren we VITA-E, een nieuw embodied interactieraamwerk ontworpen voor zowel gedragsgelijktijdigheid als bijna realtime interruptie. De kern van onze aanpak is een dual-model architectuur waarin twee parallelle VLA-instanties functioneren als een "Actief Model" en een "Standby Model", waardoor de embodied agent zijn omgeving kan observeren, naar gebruikersspraak kan luisteren, verbale reacties kan geven en acties kan uitvoeren, allemaal gelijktijdig en onderbreekbaar, wat mensachtige multitasking-capaciteiten nabootst. We stellen verder een "model-as-controller"-paradigma voor, waarbij we het VLM fine-tunen om speciale tokens te genereren die dienen als directe systeemniveau-commando's, waardoor de redenering van het model wordt gekoppeld aan het gedrag van het systeem. Experimenten uitgevoerd op een fysiek humanoïde platform tonen aan dat VITA-E complexe interactieve scenario's betrouwbaar kan afhandelen. Ons raamwerk is compatibel met verschillende dual-system VLA-modellen en behaalt een extreem hoge slagingspercentage voor noodstops en spraakinterrupties, terwijl het ook gelijktijdige spraak en actie succesvol uitvoert. Dit vertegenwoordigt een significante stap richting natuurlijkere en capabelere embodied assistenten.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid,
static interaction paradigm, which lacks the ability to see, hear, speak, and
act concurrently as well as handle real-time user interruptions dynamically.
This hinders seamless embodied collaboration, resulting in an inflexible and
unresponsive user experience. To address these limitations, we introduce
VITA-E, a novel embodied interaction framework designed for both behavioral
concurrency and nearly real-time interruption. The core of our approach is a
dual-model architecture where two parallel VLA instances operate as an ``Active
Model'' and a ``Standby Model'', allowing the embodied agent to observe its
environment, listen to user speech, provide verbal responses, and execute
actions, all concurrently and interruptibly, mimicking human-like multitasking
capabilities. We further propose a ``model-as-controller'' paradigm, where we
fine-tune the VLM to generate special tokens that serve as direct system-level
commands, coupling the model's reasoning with the system's behavior.
Experiments conducted on a physical humanoid platform demonstrate that VITA-E
can reliably handle complex interactive scenarios. Our framework is compatible
with various dual-system VLA models, achieving an extremely high success rate
on emergency stops and speech interruptions while also successfully performing
concurrent speech and action. This represents a significant step towards more
natural and capable embodied assistants.