VITA-E: Interação Embutida Natural com Visão, Audição, Fala e Ação Concorrentes
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
October 21, 2025
Autores: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI
Resumo
Os modelos atuais de Visão-Linguagem-Ação (VLA) são frequentemente limitados por um paradigma de interação rígido e estático, que carece da capacidade de ver, ouvir, falar e agir de forma concorrente, bem como de lidar dinamicamente com interrupções do usuário em tempo real. Isso dificulta uma colaboração incorporada perfeita, resultando em uma experiência de usuário inflexível e pouco responsiva. Para superar essas limitações, apresentamos o VITA-E, uma nova estrutura de interação incorporada projetada para concorrência comportamental e interrupção em tempo quase real. O cerne de nossa abordagem é uma arquitetura de modelo duplo na qual duas instâncias VLA paralelas operam como um "Modelo Ativo" e um "Modelo em Espera", permitindo que o agente incorporado observe seu ambiente, ouça a fala do usuário, forneça respostas verbais e execute ações, tudo de forma concorrente e interruptível, mimetizando capacidades humanas de multitarefa. Propomos ainda um paradigma de "modelo-como-controlador", no qual afinamos o Modelo de Linguagem de Visão (VLM) para gerar tokens especiais que funcionam como comandos diretos a nível de sistema, acoplando o raciocínio do modelo ao comportamento do sistema. Experimentos conduzidos em uma plataforma humanóide física demonstram que o VITA-E pode lidar de forma confiável com cenários interativos complexos. Nossa estrutura é compatível com vários modelos VLA de sistema duplo, alcançando uma taxa de sucesso extremamente alta em paradas de emergência e interrupções de fala, além de realizar com sucesso fala e ação concorrentes. Isso representa um passo significativo rumo a assistentes incorporados mais naturais e capazes.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid,
static interaction paradigm, which lacks the ability to see, hear, speak, and
act concurrently as well as handle real-time user interruptions dynamically.
This hinders seamless embodied collaboration, resulting in an inflexible and
unresponsive user experience. To address these limitations, we introduce
VITA-E, a novel embodied interaction framework designed for both behavioral
concurrency and nearly real-time interruption. The core of our approach is a
dual-model architecture where two parallel VLA instances operate as an ``Active
Model'' and a ``Standby Model'', allowing the embodied agent to observe its
environment, listen to user speech, provide verbal responses, and execute
actions, all concurrently and interruptibly, mimicking human-like multitasking
capabilities. We further propose a ``model-as-controller'' paradigm, where we
fine-tune the VLM to generate special tokens that serve as direct system-level
commands, coupling the model's reasoning with the system's behavior.
Experiments conducted on a physical humanoid platform demonstrate that VITA-E
can reliably handle complex interactive scenarios. Our framework is compatible
with various dual-system VLA models, achieving an extremely high success rate
on emergency stops and speech interruptions while also successfully performing
concurrent speech and action. This represents a significant step towards more
natural and capable embodied assistants.