VITA-E: Interacción Natural Embodada con Visión, Audición, Habla y Acción Concurrentes

Resumen

Los modelos actuales de Visión-Lenguaje-Acción (VLA) suelen estar limitados por un paradigma de interacción rígido y estático, que carece de la capacidad de ver, oír, hablar y actuar de forma concurrente, así como de manejar interrupciones de usuario en tiempo real de manera dinámica. Esto dificulta la colaboración encarnada fluida, lo que resulta en una experiencia de usuario inflexible y con poca capacidad de respuesta. Para abordar estas limitaciones, presentamos VITA-E, un novedoso marco de interacción encarnada diseñado tanto para la concurrencia conductual como para la interrupción en tiempo casi real. El núcleo de nuestro enfoque es una arquitectura de doble modelo donde dos instancias VLA paralelas funcionan como un "Modelo Activo" y un "Modelo en Espera", permitiendo que el agente encarnado observe su entorno, escuche el habla del usuario, proporcione respuestas verbales y ejecute acciones, todo de forma concurrente e interrumpible, imitando las capacidades multitarea humanas. Además, proponemos un paradigma de "modelo como controlador", donde ajustamos el Modelo de Lenguaje Visual (VLM) para generar tokens especiales que funcionan como comandos directos a nivel del sistema, acoplando el razonamiento del modelo con el comportamiento del sistema. Los experimentos realizados en una plataforma humanoide física demuestran que VITA-E puede manejar de forma confiable escenarios interactivos complejos. Nuestro marco es compatible con varios modelos VLA de sistema dual, logrando una tasa de éxito extremadamente alta en paradas de emergencia e interrupciones de habla, al mismo tiempo que realiza con éxito habla y acción concurrentes. Esto representa un paso significativo hacia asistentes encarnados más naturales y capaces.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Interacción Natural Embodada con Visión, Audición, Habla y Acción Concurrentes

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Resumen

Support