VITA-E : Interaction naturelle incarnée avec vision, audition, parole et action simultanées
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
October 21, 2025
papers.authors: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) actuels sont souvent limités par un paradigme d'interaction rigide et statique, qui ne permet pas de voir, d'entendre, de parler et d'agir de manière concurrente, ni de gérer dynamiquement les interruptions utilisateur en temps réel. Cela entrave la collaboration incarnée fluide, conduisant à une expérience utilisateur inflexible et peu réactive. Pour résoudre ces limitations, nous présentons VITA-E, un nouveau cadre d'interaction incarnée conçu pour la concurrence comportementale et les interruptions quasi-temps réel. Le cœur de notre approche est une architecture à double modèle où deux instances VLA parallèles fonctionnent comme un « Modèle Actif » et un « Modèle En Veille », permettant à l'agent incarné d'observer son environnement, d'écouter la parole de l'utilisateur, de fournir des réponses verbales et d'exécuter des actions, le tout de manière concurrente et interruptible, imitant les capacités multitâches humaines. Nous proposons en outre un paradigme de « modèle-en-tant-que-contrôleur », où nous affinons le VLM pour générer des tokens spéciaux servant de commandes directes au niveau du système, couplant le raisonnement du modèle avec le comportement du système. Les expériences menées sur une plateforme humanoïde physique démontrent que VITA-E peut gérer de manière fiable des scénarios interactifs complexes. Notre cadre est compatible avec divers modèles VLA à double système, atteignant un taux de réussite extrêmement élevé pour les arrêts d'urgence et les interruptions vocales, tout en réalisant avec succès la parole et l'action concurrentes. Cela représente une avancée significative vers des assistants incarnés plus naturels et performants.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid,
static interaction paradigm, which lacks the ability to see, hear, speak, and
act concurrently as well as handle real-time user interruptions dynamically.
This hinders seamless embodied collaboration, resulting in an inflexible and
unresponsive user experience. To address these limitations, we introduce
VITA-E, a novel embodied interaction framework designed for both behavioral
concurrency and nearly real-time interruption. The core of our approach is a
dual-model architecture where two parallel VLA instances operate as an ``Active
Model'' and a ``Standby Model'', allowing the embodied agent to observe its
environment, listen to user speech, provide verbal responses, and execute
actions, all concurrently and interruptibly, mimicking human-like multitasking
capabilities. We further propose a ``model-as-controller'' paradigm, where we
fine-tune the VLM to generate special tokens that serve as direct system-level
commands, coupling the model's reasoning with the system's behavior.
Experiments conducted on a physical humanoid platform demonstrate that VITA-E
can reliably handle complex interactive scenarios. Our framework is compatible
with various dual-system VLA models, achieving an extremely high success rate
on emergency stops and speech interruptions while also successfully performing
concurrent speech and action. This represents a significant step towards more
natural and capable embodied assistants.