RoboOmni: Proaktive Robotermanipulation in omni-modalen Kontexten
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
October 27, 2025
papers.authors: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben rasche Entwicklungen bei Vision-Language-Action (VLA)-Modellen für die Robotermanipulation vorangetrieben. Obwohl in vielen Szenarien effektiv, stützen sich aktuelle Ansätze weitgehend auf explizite Anweisungen, während in realen Interaktionen Menschen selten direkt Anweisungen erteilen. Eine effektive Zusammenarbeit erfordert, dass Roboter Benutzerabsichten proaktiv ableiten. In dieser Arbeit führen wir kontextuelle cross-modale Anweisungen ein, eine neue Rahmenbedingung, in der Absichten aus gesprochenen Dialogen, Umgebungsgeräuschen und visuellen Hinweisen anstelle expliziter Befehle abgeleitet werden. Um diese neue Rahmenbedingung zu adressieren, präsentieren wir RoboOmni, ein Perceiver-Thinker-Talker-Executor-Framework auf Basis end-to-end omni-modaler LLMs, das Absichtserkennung, Interaktionsbestätigung und Aktionsausführung vereint. RoboOmni fusioniert auditorische und visuelle Signale räumlich-zeitlich für eine robuste Absichtserkennung und unterstützt zugleich direkte Sprachinteraktion. Um den Mangel an Trainingsdaten für proaktive Absichtserkennung in der Robotermanipulation zu beheben, erstellen wir OmniAction, bestehend aus 140.000 Episoden, über 5.000 Sprechern, 2.400 Ereignisgeräuschen, 640 Hintergründen und sechs kontextuellen Anweisungstypen. Experimente in Simulation und realen Umgebungen zeigen, dass RoboOmni text- und ASR-basierte Baseline-Methoden in Erfolgsquote, Inferenzgeschwindigkeit, Absichtserkennung und proaktiver Unterstützung übertrifft.
English
Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid
progress in Vision-Language-Action (VLA) models for robotic manipulation.
Although effective in many scenarios, current approaches largely rely on
explicit instructions, whereas in real-world interactions, humans rarely issue
instructions directly. Effective collaboration requires robots to infer user
intentions proactively. In this work, we introduce cross-modal contextual
instructions, a new setting where intent is derived from spoken dialogue,
environmental sounds, and visual cues rather than explicit commands. To address
this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor
framework based on end-to-end omni-modal LLMs that unifies intention
recognition, interaction confirmation, and action execution. RoboOmni fuses
auditory and visual signals spatiotemporally for robust intention recognition,
while supporting direct speech interaction. To address the absence of training
data for proactive intention recognition in robotic manipulation, we build
OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640
backgrounds, and six contextual instruction types. Experiments in simulation
and real-world settings show that RoboOmni surpasses text- and ASR-based
baselines in success rate, inference speed, intention recognition, and
proactive assistance.