RoboOmni:オムニモーダル環境における能動的ロボットマニピュレーション
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
October 27, 2025
著者: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLM)の進展に伴い、ロボット操作のための視覚・言語・行動(VLA)モデルが急速に発展している。既存手法は多くの場面で有効であるものの、現状では明示的な指示への依存度が高く、現実世界の人間同士の相互作用では直接的な指示が稀であることを考慮すると不十分である。効果的な協働には、ロボットが能動的に人間の意図を推論する能力が不可欠だ。本研究では、明示的な命令ではなく、音声対話・環境音・視覚的手がかりから意図を推定する新たな設定「クロスモーダル文脈指示」を提案する。この課題に対処するため、エンドツーエンドの全モーダルLLMに基づくPerceiver-Thinker-Talker-Executorフレームワーク「RoboOmni」を開発した。本枠組みは意図認識・対話確認・行動実行を統合し、聴覚信号と視覚信号を時空間的に融合して頑健な意図認識を実現するとともに、直接音声対話を可能にする。ロボット操作における能動的意図認識の訓練データ不足に対応するため、14万エピソード・5,000人以上の話者・2,400種のイベント音・640背景・6種類の文脈指示を含むデータセット「OmniAction」を構築した。シミュレーションと実世界環境での実験により、RoboOmniがテキストベース及び自動音声認識(ASR)ベースのベースラインを成功率・推論速度・意図認識精度・能動的支援の面で凌駕することを実証した。
English
Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid
progress in Vision-Language-Action (VLA) models for robotic manipulation.
Although effective in many scenarios, current approaches largely rely on
explicit instructions, whereas in real-world interactions, humans rarely issue
instructions directly. Effective collaboration requires robots to infer user
intentions proactively. In this work, we introduce cross-modal contextual
instructions, a new setting where intent is derived from spoken dialogue,
environmental sounds, and visual cues rather than explicit commands. To address
this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor
framework based on end-to-end omni-modal LLMs that unifies intention
recognition, interaction confirmation, and action execution. RoboOmni fuses
auditory and visual signals spatiotemporally for robust intention recognition,
while supporting direct speech interaction. To address the absence of training
data for proactive intention recognition in robotic manipulation, we build
OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640
backgrounds, and six contextual instruction types. Experiments in simulation
and real-world settings show that RoboOmni surpasses text- and ASR-based
baselines in success rate, inference speed, intention recognition, and
proactive assistance.