VITA-E: Естественное воплощенное взаимодействие с одновременным зрением, слухом, речью и действиями

Аннотация

Современные модели "Vision-Language-Action" (VLA) часто ограничены жесткой, статичной парадигмой взаимодействия, которая не способна обеспечить одновременное визуальное восприятие, слуховое восприятие, речь и действия, а также динамично обрабатывать прерывания от пользователя в реальном времени. Это препятствует seamless-взаимодействию с воплощенным агентом, приводя к негибкому и медленно реагирующему пользовательскому опыту. Для преодоления этих ограничений мы представляем VITA-E — новую framework для воплощенного взаимодействия, разработанную для обеспечения поведенческой параллельности и почти мгновенной реакции на прерывания. Основой нашего подхода является архитектура с двумя моделями, где два параллельных экземпляра VLA функционируют как «Активная модель» и «Резервная модель», позволяя агенту одновременно и с возможностью прерывания наблюдать за окружающей средой, воспринимать пользовательскую речь, давать вербальные ответы и выполнять действия, имитируя человеческие способности к многозадачности. Мы также предлагаем парадигму «модель-как-контроллер», в рамках которой дообучаем VLM для генерации специальных токенов, служащих прямыми системными командами, связывая рассуждения модели с поведением системы. Эксперименты, проведенные на физической гуманоидной платформе, демонстрируют, что VITA-E надежно справляется со сложными интерактивными сценариями. Наша framework совместима с различными VLA-моделями для двойных систем, достигая чрезвычайно высокого процента успеха при экстренных остановках и речевых прерываниях, а также успешно выполняя параллельную речь и действия. Это представляет собой значительный шаг к созданию более естественных и эффективных воплощенных ассистентов.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Естественное воплощенное взаимодействие с одновременным зрением, слухом, речью и действиями

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Аннотация

Support