VITA-E: Natürliche verkörperte Interaktion mit gleichzeitigem Sehen, Hören, Sprechen und Handeln
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
October 21, 2025
papers.authors: Xiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He
cs.AI
papers.abstract
Aktuelle Vision-Language-Action (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das nicht in der Lage ist, gleichzeitig zu sehen, zu hören, zu sprechen und zu handeln sowie Echtzeit-Unterbrechungen durch Benutzer dynamisch zu verarbeiten. Dies behindert eine nahtlose verkörperte Zusammenarbeit und führt zu einer unflexiblen und nicht reaktionsschnellen Benutzererfahrung. Um diese Einschränkungen zu überwinden, stellen wir VITA-E vor, ein neuartiges Framework für verkörperte Interaktion, das sowohl Verhaltensparallelität als auch nahezu Echtzeit-Unterbrechbarkeit ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Aktives Modell“ und „Standby-Modell“ agieren. Dies ermöglicht es dem verkörperten Agenten, seine Umgebung zu beobachten, Benutzersprache zu verarbeiten, verbale Antworten zu geben und Aktionen auszuführen – alles gleichzeitig und unterbrechbar, ähnlich menschlichen Multitasking-Fähigkeiten. Wir schlagen weiterhin ein „Model-as-Controller“-Paradigma vor, bei dem das VLM feinabgestimmt wird, um spezielle Tokens zu erzeugen, die als direkte Systembefehle dienen und die Modelllogik mit dem Systemverhalten koppeln. Experimente auf einer humanoiden Roboterplattform demonstrieren, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Notstopps und Sprachunterbrechungen, während es gleichzeitig parallele Sprach- und Aktionsausführung erfolgreich durchführt. Dies stellt einen bedeutenden Schritt hin zu natürlicheren und leistungsfähigeren verkörperten Assistenten dar.
English
Current Vision-Language-Action (VLA) models are often constrained by a rigid,
static interaction paradigm, which lacks the ability to see, hear, speak, and
act concurrently as well as handle real-time user interruptions dynamically.
This hinders seamless embodied collaboration, resulting in an inflexible and
unresponsive user experience. To address these limitations, we introduce
VITA-E, a novel embodied interaction framework designed for both behavioral
concurrency and nearly real-time interruption. The core of our approach is a
dual-model architecture where two parallel VLA instances operate as an ``Active
Model'' and a ``Standby Model'', allowing the embodied agent to observe its
environment, listen to user speech, provide verbal responses, and execute
actions, all concurrently and interruptibly, mimicking human-like multitasking
capabilities. We further propose a ``model-as-controller'' paradigm, where we
fine-tune the VLM to generate special tokens that serve as direct system-level
commands, coupling the model's reasoning with the system's behavior.
Experiments conducted on a physical humanoid platform demonstrate that VITA-E
can reliably handle complex interactive scenarios. Our framework is compatible
with various dual-system VLA models, achieving an extremely high success rate
on emergency stops and speech interruptions while also successfully performing
concurrent speech and action. This represents a significant step towards more
natural and capable embodied assistants.