VITA-E: Interação Embutida Natural com Visão, Audição, Fala e Ação Concorrentes

Resumo

Os modelos atuais de Visão-Linguagem-Ação (VLA) são frequentemente limitados por um paradigma de interação rígido e estático, que carece da capacidade de ver, ouvir, falar e agir de forma concorrente, bem como de lidar dinamicamente com interrupções do usuário em tempo real. Isso dificulta uma colaboração incorporada perfeita, resultando em uma experiência de usuário inflexível e pouco responsiva. Para superar essas limitações, apresentamos o VITA-E, uma nova estrutura de interação incorporada projetada para concorrência comportamental e interrupção em tempo quase real. O cerne de nossa abordagem é uma arquitetura de modelo duplo na qual duas instâncias VLA paralelas operam como um "Modelo Ativo" e um "Modelo em Espera", permitindo que o agente incorporado observe seu ambiente, ouça a fala do usuário, forneça respostas verbais e execute ações, tudo de forma concorrente e interruptível, mimetizando capacidades humanas de multitarefa. Propomos ainda um paradigma de "modelo-como-controlador", no qual afinamos o Modelo de Linguagem de Visão (VLM) para gerar tokens especiais que funcionam como comandos diretos a nível de sistema, acoplando o raciocínio do modelo ao comportamento do sistema. Experimentos conduzidos em uma plataforma humanóide física demonstram que o VITA-E pode lidar de forma confiável com cenários interativos complexos. Nossa estrutura é compatível com vários modelos VLA de sistema duplo, alcançando uma taxa de sucesso extremamente alta em paradas de emergência e interrupções de fala, além de realizar com sucesso fala e ação concorrentes. Isso representa um passo significativo rumo a assistentes incorporados mais naturais e capazes.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Interação Embutida Natural com Visão, Audição, Fala e Ação Concorrentes

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Resumo

Support