ChatPaper.aiChatPaper

Omni-R1: Aprendizaje por Refuerzo para el Razonamiento Omnimodal mediante la Colaboración de Dos Sistemas

Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

May 26, 2025
Autores: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI

Resumen

El razonamiento audiovisual a largo plazo y la comprensión detallada a nivel de píxel imponen requisitos conflictivos en los modelos omnimodales: la cobertura temporal densa demanda muchos fotogramas de baja resolución, mientras que el anclaje preciso requiere entradas de alta resolución. Abordamos este equilibrio con una arquitectura de dos sistemas: un Sistema de Razonamiento Global selecciona fotogramas clave informativos y reformula la tarea con un bajo costo espacial, mientras que un Sistema de Comprensión Detallada realiza el anclaje a nivel de píxel en los fragmentos seleccionados de alta resolución. Dado que la selección y reformulación de fotogramas clave "óptimos" son ambiguas y difíciles de supervisar, las formulamos como un problema de aprendizaje por refuerzo (RL) y presentamos Omni-R1, un marco de RL de extremo a extremo basado en la Optimización de Políticas Relativas por Grupos. Omni-R1 entrena el Sistema de Razonamiento Global mediante recompensas jerárquicas obtenidas a través de la colaboración en línea con el Sistema de Comprensión Detallada, requiriendo solo una época de RL en divisiones pequeñas de la tarea. Los experimentos en dos puntos de referencia desafiantes, la Segmentación Audiovisual Referencial (RefAVS) y la Segmentación de Objetos en Video con Razonamiento (REVOS), muestran que Omni-R1 no solo supera a las líneas base supervisadas sólidas, sino que también supera a los modelos especializados de última generación, al tiempo que mejora sustancialmente la generalización fuera del dominio y mitiga la alucinación multimodal. Nuestros resultados demuestran la primera aplicación exitosa de RL al razonamiento omnimodal a gran escala y destacan un camino escalable hacia modelos de base universales.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding impose conflicting requirements on omnimodal models: dense temporal coverage demands many low-resolution frames, whereas precise grounding calls for high-resolution inputs. We tackle this trade-off with a two-system architecture: a Global Reasoning System selects informative keyframes and rewrites the task at low spatial cost, while a Detail Understanding System performs pixel-level grounding on the selected high-resolution snippets. Because ``optimal'' keyframe selection and reformulation are ambiguous and hard to supervise, we formulate them as a reinforcement learning (RL) problem and present Omni-R1, an end-to-end RL framework built on Group Relative Policy Optimization. Omni-R1 trains the Global Reasoning System through hierarchical rewards obtained via online collaboration with the Detail Understanding System, requiring only one epoch of RL on small task splits. Experiments on two challenging benchmarks, namely Referring Audio-Visual Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show that Omni-R1 not only surpasses strong supervised baselines but also outperforms specialized state-of-the-art models, while substantially improving out-of-domain generalization and mitigating multimodal hallucination. Our results demonstrate the first successful application of RL to large-scale omnimodal reasoning and highlight a scalable path toward universally foundation models.

Summary

AI-Generated Summary

PDF161May 27, 2025