ChatPaper.aiChatPaper

VITA-E: Естественное воплощенное взаимодействие с одновременным зрением, слухом, речью и действиями

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

October 21, 2025
Авторы: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI

Аннотация

Современные модели "Vision-Language-Action" (VLA) часто ограничены жесткой, статичной парадигмой взаимодействия, которая не способна обеспечить одновременное визуальное восприятие, слуховое восприятие, речь и действия, а также динамично обрабатывать прерывания от пользователя в реальном времени. Это препятствует seamless-взаимодействию с воплощенным агентом, приводя к негибкому и медленно реагирующему пользовательскому опыту. Для преодоления этих ограничений мы представляем VITA-E — новую framework для воплощенного взаимодействия, разработанную для обеспечения поведенческой параллельности и почти мгновенной реакции на прерывания. Основой нашего подхода является архитектура с двумя моделями, где два параллельных экземпляра VLA функционируют как «Активная модель» и «Резервная модель», позволяя агенту одновременно и с возможностью прерывания наблюдать за окружающей средой, воспринимать пользовательскую речь, давать вербальные ответы и выполнять действия, имитируя человеческие способности к многозадачности. Мы также предлагаем парадигму «модель-как-контроллер», в рамках которой дообучаем VLM для генерации специальных токенов, служащих прямыми системными командами, связывая рассуждения модели с поведением системы. Эксперименты, проведенные на физической гуманоидной платформе, демонстрируют, что VITA-E надежно справляется со сложными интерактивными сценариями. Наша framework совместима с различными VLA-моделями для двойных систем, достигая чрезвычайно высокого процента успеха при экстренных остановках и речевых прерываниях, а также успешно выполняя параллельную речь и действия. Это представляет собой значительный шаг к созданию более естественных и эффективных воплощенных ассистентов.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.
PDF412December 31, 2025