VITA-E : Interaction naturelle incarnée avec vision, audition, parole et action simultanées

papers.abstract

Les modèles Vision-Langage-Action (VLA) actuels sont souvent limités par un paradigme d'interaction rigide et statique, qui ne permet pas de voir, d'entendre, de parler et d'agir de manière concurrente, ni de gérer dynamiquement les interruptions utilisateur en temps réel. Cela entrave la collaboration incarnée fluide, conduisant à une expérience utilisateur inflexible et peu réactive. Pour résoudre ces limitations, nous présentons VITA-E, un nouveau cadre d'interaction incarnée conçu pour la concurrence comportementale et les interruptions quasi-temps réel. Le cœur de notre approche est une architecture à double modèle où deux instances VLA parallèles fonctionnent comme un « Modèle Actif » et un « Modèle En Veille », permettant à l'agent incarné d'observer son environnement, d'écouter la parole de l'utilisateur, de fournir des réponses verbales et d'exécuter des actions, le tout de manière concurrente et interruptible, imitant les capacités multitâches humaines. Nous proposons en outre un paradigme de « modèle-en-tant-que-contrôleur », où nous affinons le VLM pour générer des tokens spéciaux servant de commandes directes au niveau du système, couplant le raisonnement du modèle avec le comportement du système. Les expériences menées sur une plateforme humanoïde physique démontrent que VITA-E peut gérer de manière fiable des scénarios interactifs complexes. Notre cadre est compatible avec divers modèles VLA à double système, atteignant un taux de réussite extrêmement élevé pour les arrêts d'urgence et les interruptions vocales, tout en réalisant avec succès la parole et l'action concurrentes. Cela représente une avancée significative vers des assistants incarnés plus naturels et performants.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E : Interaction naturelle incarnée avec vision, audition, parole et action simultanées

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

papers.abstract

Support