ChatPaper.aiChatPaper

VITA-E: Interazione Naturale Incorporata con Visione, Udito, Parlato e Azione Simultanei

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

October 21, 2025
Autori: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI

Abstract

Gli attuali modelli Visione-Linguaggio-Azione (VLA) sono spesso limitati da un paradigma di interazione rigido e statico, che non permette di vedere, ascoltare, parlare e agire in modo concorrente né di gestire dinamicamente le interruzioni dell'utente in tempo reale. Ciò ostacola una collaborazione incarnata senza soluzione di continuità, determinando un'esperienza utente inflessibile e poco reattiva. Per superare questi limiti, introduciamo VITA-E, un nuovo framework di interazione incarnata progettato per la concorrenza comportamentale e le interruzioni quasi in tempo reale. Il cuore del nostro approccio è un'architettura a doppio modello in cui due istanze VLA parallele operano come "Modello Attivo" e "Modello di Standby", consentendo all'agente incarnato di osservare l'ambiente, ascoltare il parlato dell'utente, fornire risposte verbali ed eseguire azioni, tutto in modo concorrente e interrompibile, imitando le capacità umane di multitasking. Proponiamo inoltre un paradigma "modello come controllore", in cui addestriamo il VLM per generare token speciali che fungono da comandi diretti a livello di sistema, accoppiando il ragionamento del modello con il comportamento del sistema. Esperimenti condotti su una piattaforma umanoide fisica dimostrano che VITA-E può gestire in modo affidabile scenari interattivi complessi. Il nostro framework è compatibile con vari modelli VLA a doppio sistema, raggiungendo un tasso di successo estremamente elevato nelle fermate di emergenza e nelle interruzioni vocali, oltre a eseguire con successo azioni e linguaggio in concorrenza. Questo rappresenta un passo significativo verso assistenti incarnati più naturali e capaci.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.
PDF412December 3, 2025