VITA-E: Interazione Naturale Incorporata con Visione, Udito, Parlato e Azione Simultanei

Abstract

Gli attuali modelli Visione-Linguaggio-Azione (VLA) sono spesso limitati da un paradigma di interazione rigido e statico, che non permette di vedere, ascoltare, parlare e agire in modo concorrente né di gestire dinamicamente le interruzioni dell'utente in tempo reale. Ciò ostacola una collaborazione incarnata senza soluzione di continuità, determinando un'esperienza utente inflessibile e poco reattiva. Per superare questi limiti, introduciamo VITA-E, un nuovo framework di interazione incarnata progettato per la concorrenza comportamentale e le interruzioni quasi in tempo reale. Il cuore del nostro approccio è un'architettura a doppio modello in cui due istanze VLA parallele operano come "Modello Attivo" e "Modello di Standby", consentendo all'agente incarnato di osservare l'ambiente, ascoltare il parlato dell'utente, fornire risposte verbali ed eseguire azioni, tutto in modo concorrente e interrompibile, imitando le capacità umane di multitasking. Proponiamo inoltre un paradigma "modello come controllore", in cui addestriamo il VLM per generare token speciali che fungono da comandi diretti a livello di sistema, accoppiando il ragionamento del modello con il comportamento del sistema. Esperimenti condotti su una piattaforma umanoide fisica dimostrano che VITA-E può gestire in modo affidabile scenari interattivi complessi. Il nostro framework è compatibile con vari modelli VLA a doppio sistema, raggiungendo un tasso di successo estremamente elevato nelle fermate di emergenza e nelle interruzioni vocali, oltre a eseguire con successo azioni e linguaggio in concorrenza. Questo rappresenta un passo significativo verso assistenti incarnati più naturali e capaci.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Interazione Naturale Incorporata con Visione, Udito, Parlato e Azione Simultanei

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Abstract

Support