Omni-R1: Aprendizado por Reforço para Raciocínio Omnimodal via Colaboração de Dois Sistemas
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Autores: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Resumo
O raciocínio de longo prazo em vídeo-áudio e a compreensão detalhada em nível de pixel impõem requisitos conflitantes em modelos omnimodais: a cobertura temporal densa exige muitos quadros de baixa resolução, enquanto o enquadramento preciso demanda entradas de alta resolução. Abordamos esse dilema com uma arquitetura de dois sistemas: um Sistema de Raciocínio Global seleciona quadros-chave informativos e reformula a tarefa com baixo custo espacial, enquanto um Sistema de Compreensão Detalhada realiza o enquadramento em nível de pixel nos trechos selecionados de alta resolução. Como a seleção e reformulação de quadros-chave "ótimos" são ambíguas e difíceis de supervisionar, as formulamos como um problema de aprendizado por reforço (RL) e apresentamos o Omni-R1, um framework RL de ponta a ponta construído sobre a Otimização de Política Relativa em Grupo. O Omni-R1 treina o Sistema de Raciocínio Global por meio de recompensas hierárquicas obtidas via colaboração online com o Sistema de Compreensão Detalhada, exigindo apenas uma época de RL em divisões pequenas de tarefas.
Experimentos em dois benchmarks desafiadores, a Segmentação Áudio-Visual Referencial (RefAVS) e a Segmentação de Objetos em Vídeo com Raciocínio (REVOS), mostram que o Omni-R1 não apenas supera baselines supervisionados robustos, mas também supera modelos especializados de última geração, enquanto melhora substancialmente a generalização fora do domínio e mitiga a alucinação multimodal. Nossos resultados demonstram a primeira aplicação bem-sucedida de RL em raciocínio omnimodal em larga escala e destacam um caminho escalável em direção a modelos de base universais.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.