RoboOmni: Manipolazione Robotica Proattiva in Contesti Omni-modali
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
October 27, 2025
Autori: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici Multimodali (MLLM) hanno favorito rapidi sviluppi nei modelli Visione-Linguaggio-Azione (VLA) per la manipolazione robotica. Sebbene efficaci in molti scenari, gli approcci attuali si basano largamente su istruzioni esplicite, mentre nelle interazioni del mondo reale gli esseri umani raramente forniscono istruzioni dirette. Una collaborazione efficace richiede che i robot deducano proattivamente le intenzioni dell'utente. In questo lavoro, introduciamo le istruzioni contestuali cross-modali, un nuovo scenario in cui l'intenzione è derivata dal dialogo parlato, dai suoni ambientali e dagli indizi visivi piuttosto che da comandi espliciti. Per affrontare questo nuovo scenario, presentiamo RoboOmni, un framework Percettore-Pensatore-Parlatore-Esecutore basato su LLM omni-modali end-to-end che unifica il riconoscimento dell'intenzione, la conferma dell'interazione e l'esecuzione dell'azione. RoboOmni fonde spaziotemporalmente i segnali uditivi e visivi per un riconoscimento dell'intenzione robusto, supportando al contempo l'interazione vocale diretta. Per ovviare alla mancanza di dati di addestramento per il riconoscimento proattivo dell'intenzione nella manipolazione robotica, abbiamo creato OmniAction, comprendente 140k episodi, oltre 5k parlanti, 2.4k suoni di eventi, 640 ambienti e sei tipi di istruzioni contestuali. Esperimenti in ambienti simulati e reali dimostrano che RoboOmni supera i baseline basati su testo e ASR in termini di tasso di successo, velocità di inferenza, riconoscimento dell'intenzione e assistenza proattiva.
English
Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid
progress in Vision-Language-Action (VLA) models for robotic manipulation.
Although effective in many scenarios, current approaches largely rely on
explicit instructions, whereas in real-world interactions, humans rarely issue
instructions directly. Effective collaboration requires robots to infer user
intentions proactively. In this work, we introduce cross-modal contextual
instructions, a new setting where intent is derived from spoken dialogue,
environmental sounds, and visual cues rather than explicit commands. To address
this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor
framework based on end-to-end omni-modal LLMs that unifies intention
recognition, interaction confirmation, and action execution. RoboOmni fuses
auditory and visual signals spatiotemporally for robust intention recognition,
while supporting direct speech interaction. To address the absence of training
data for proactive intention recognition in robotic manipulation, we build
OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640
backgrounds, and six contextual instruction types. Experiments in simulation
and real-world settings show that RoboOmni surpasses text- and ASR-based
baselines in success rate, inference speed, intention recognition, and
proactive assistance.