로보옴니: 전모달 컨텍스트에서의 능동적 로봇 매니플레이션
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
October 27, 2025
저자: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)의 최근 발전은 로봇 매니픽레이션을 위한 시각-언어-행동(VLA) 모델의 급속한 진전을 이끌었습니다. 많은 시나리오에서 효과적이지만, 현재의 접근법은 주로 명시적 지시에 의존하는 반면, 실제 상호작용에서 인간은 직접적인 지시를 거의 내리지 않습니다. 효과적인 협력은 로봇이 사용자의 의도를 능동적으로 추론할 것을 요구합니다. 본 연구에서는 의도가 명시적 명령이 아닌 구어 대화, 환경 음향 및 시각적 단서에서 도출되는 새로운 설정인 크로스모달 상황적 지시를 소개합니다. 이 새로운 설정을 해결하기 위해 우리는 의도 인식, 상호작용 확인 및 행동 실행을 통합한 end-to-end 올니모달 LLM 기반의 Perceiver-Thinker-Talker-Executor 프레임워크인 RoboOmni를 제시합니다. RoboOmni는 강건한 의도 인식을 위해 청각 및 시각 신호를 시공간적으로 융합하면서 직접 음성 상호작용을 지원합니다. 로봇 매니픽레이션에서 능동적 의도 인식을 위한 훈련 데이터 부족 문제를 해결하기 위해 우리는 14만 개의 에피소드, 5,000명 이상의 화자, 2,400개의 사건 음향, 640개의 배경, 6가지 유형의 상황적 지시로 구성된 OmniAction 데이터셋을 구축했습니다. 시뮬레이션 및 실제 환경에서의 실험 결과, RoboOmni는 성공률, 추론 속도, 의도 인식 및 능동적 지원 측면에서 텍스트 및 ASR 기반 베이스라인을 능가하는 것으로 나타났습니다.
English
Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid
progress in Vision-Language-Action (VLA) models for robotic manipulation.
Although effective in many scenarios, current approaches largely rely on
explicit instructions, whereas in real-world interactions, humans rarely issue
instructions directly. Effective collaboration requires robots to infer user
intentions proactively. In this work, we introduce cross-modal contextual
instructions, a new setting where intent is derived from spoken dialogue,
environmental sounds, and visual cues rather than explicit commands. To address
this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor
framework based on end-to-end omni-modal LLMs that unifies intention
recognition, interaction confirmation, and action execution. RoboOmni fuses
auditory and visual signals spatiotemporally for robust intention recognition,
while supporting direct speech interaction. To address the absence of training
data for proactive intention recognition in robotic manipulation, we build
OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640
backgrounds, and six contextual instruction types. Experiments in simulation
and real-world settings show that RoboOmni surpasses text- and ASR-based
baselines in success rate, inference speed, intention recognition, and
proactive assistance.