RoboOmni: Manipulación Robótica Proactiva en Contexto Omnimodal
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
October 27, 2025
Autores: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu
cs.AI
Resumen
Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLM) han impulsado un rápido progreso en los modelos Visión-Lenguaje-Acción (VLA) para la manipulación robótica. Aunque son efectivos en muchos escenarios, los enfoques actuales dependen en gran medida de instrucciones explícitas, mientras que en las interacciones del mundo real, los humanos rara vez emiten instrucciones directamente. La colaboración efectiva requiere que los robots infieran las intenciones del usuario de manera proactiva. En este trabajo, presentamos las instrucciones contextuales multimodales, un nuevo escenario en el que la intención se deriva del diálogo hablado, los sonidos ambientales y las señales visuales en lugar de comandos explícitos. Para abordar este nuevo escenario, presentamos RoboOmni, un marco Perceptor-Pensador-Hablador-Ejecutor basado en LLM omnimodales de extremo a extremo que unifica el reconocimiento de intenciones, la confirmación de interacción y la ejecución de acciones. RoboOmni fusiona señales auditivas y visuales espaciotemporalmente para un reconocimiento de intenciones robusto, mientras admite interacción por voz directa. Para abordar la falta de datos de entrenamiento para el reconocimiento proactivo de intenciones en la manipulación robótica, construimos OmniAction, que comprende 140k episodios, más de 5k hablantes, 2.4k sonidos de eventos, 640 fondos y seis tipos de instrucciones contextuales. Los experimentos en entornos de simulación y del mundo real muestran que RoboOmni supera a los baselines basados en texto y ASR en tasa de éxito, velocidad de inferencia, reconocimiento de intenciones y asistencia proactiva.
English
Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid
progress in Vision-Language-Action (VLA) models for robotic manipulation.
Although effective in many scenarios, current approaches largely rely on
explicit instructions, whereas in real-world interactions, humans rarely issue
instructions directly. Effective collaboration requires robots to infer user
intentions proactively. In this work, we introduce cross-modal contextual
instructions, a new setting where intent is derived from spoken dialogue,
environmental sounds, and visual cues rather than explicit commands. To address
this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor
framework based on end-to-end omni-modal LLMs that unifies intention
recognition, interaction confirmation, and action execution. RoboOmni fuses
auditory and visual signals spatiotemporally for robust intention recognition,
while supporting direct speech interaction. To address the absence of training
data for proactive intention recognition in robotic manipulation, we build
OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640
backgrounds, and six contextual instruction types. Experiments in simulation
and real-world settings show that RoboOmni surpasses text- and ASR-based
baselines in success rate, inference speed, intention recognition, and
proactive assistance.