VITA-E: Natürliche verkörperte Interaktion mit gleichzeitigem Sehen, Hören, Sprechen und Handeln

papers.abstract

Aktuelle Vision-Language-Action (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das nicht in der Lage ist, gleichzeitig zu sehen, zu hören, zu sprechen und zu handeln sowie Echtzeit-Unterbrechungen durch Benutzer dynamisch zu verarbeiten. Dies behindert eine nahtlose verkörperte Zusammenarbeit und führt zu einer unflexiblen und nicht reaktionsschnellen Benutzererfahrung. Um diese Einschränkungen zu überwinden, stellen wir VITA-E vor, ein neuartiges Framework für verkörperte Interaktion, das sowohl Verhaltensparallelität als auch nahezu Echtzeit-Unterbrechbarkeit ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Aktives Modell“ und „Standby-Modell“ agieren. Dies ermöglicht es dem verkörperten Agenten, seine Umgebung zu beobachten, Benutzersprache zu verarbeiten, verbale Antworten zu geben und Aktionen auszuführen – alles gleichzeitig und unterbrechbar, ähnlich menschlichen Multitasking-Fähigkeiten. Wir schlagen weiterhin ein „Model-as-Controller“-Paradigma vor, bei dem das VLM feinabgestimmt wird, um spezielle Tokens zu erzeugen, die als direkte Systembefehle dienen und die Modelllogik mit dem Systemverhalten koppeln. Experimente auf einer humanoiden Roboterplattform demonstrieren, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Notstopps und Sprachunterbrechungen, während es gleichzeitig parallele Sprach- und Aktionsausführung erfolgreich durchführt. Dies stellt einen bedeutenden Schritt hin zu natürlicheren und leistungsfähigeren verkörperten Assistenten dar.

English

Current Vision-Language-Action (VLA) models are often constrained by a rigid, static interaction paradigm, which lacks the ability to see, hear, speak, and act concurrently as well as handle real-time user interruptions dynamically. This hinders seamless embodied collaboration, resulting in an inflexible and unresponsive user experience. To address these limitations, we introduce VITA-E, a novel embodied interaction framework designed for both behavioral concurrency and nearly real-time interruption. The core of our approach is a dual-model architecture where two parallel VLA instances operate as an ``Active Model'' and a ``Standby Model'', allowing the embodied agent to observe its environment, listen to user speech, provide verbal responses, and execute actions, all concurrently and interruptibly, mimicking human-like multitasking capabilities. We further propose a ``model-as-controller'' paradigm, where we fine-tune the VLM to generate special tokens that serve as direct system-level commands, coupling the model's reasoning with the system's behavior. Experiments conducted on a physical humanoid platform demonstrate that VITA-E can reliably handle complex interactive scenarios. Our framework is compatible with various dual-system VLA models, achieving an extremely high success rate on emergency stops and speech interruptions while also successfully performing concurrent speech and action. This represents a significant step towards more natural and capable embodied assistants.

VITA-E: Natürliche verkörperte Interaktion mit gleichzeitigem Sehen, Hören, Sprechen und Handeln

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

papers.abstract

Support