Omni-R1: Обучение с подкреплением для омнимодального рассуждения через совместную работу двух систем
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
May 26, 2025
Авторы: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
cs.AI
Аннотация
Долгосрочное видео-аудио рассуждение и детальное понимание на уровне пикселей накладывают противоречивые требования на омнимодальные модели: плотное временное покрытие требует множества кадров низкого разрешения, тогда как точное заземление требует входных данных высокого разрешения. Мы решаем этот компромисс с помощью двухуровневой архитектуры: Глобальная система рассуждений выбирает информативные ключевые кадры и переформулирует задачу с низкими пространственными затратами, в то время как Система детального понимания выполняет заземление на уровне пикселей на выбранных фрагментах высокого разрешения. Поскольку «оптимальный» выбор ключевых кадров и их переформулировка являются неоднозначными и сложными для контроля, мы формулируем их как задачу обучения с подкреплением (RL) и представляем Omni-R1, сквозную RL-структуру, построенную на основе Group Relative Policy Optimization. Omni-R1 обучает Глобальную систему рассуждений через иерархические награды, полученные в результате онлайн-сотрудничества с Системой детального понимания, требуя всего одной эпохи RL на небольших частях задачи.
Эксперименты на двух сложных бенчмарках, а именно Referring Audio-Visual Segmentation (RefAVS) и Reasoning Video Object Segmentation (REVOS), показывают, что Omni-R1 не только превосходит сильные контролируемые базовые модели, но и опережает специализированные современные модели, одновременно значительно улучшая обобщение вне домена и снижая мультимодальные галлюцинации. Наши результаты демонстрируют первое успешное применение RL к крупномасштабному омнимодальному рассуждению и указывают на масштабируемый путь к универсальным фундаментальным моделям.
English
Long-horizon video-audio reasoning and fine-grained pixel understanding
impose conflicting requirements on omnimodal models: dense temporal coverage
demands many low-resolution frames, whereas precise grounding calls for
high-resolution inputs. We tackle this trade-off with a two-system
architecture: a Global Reasoning System selects informative keyframes and
rewrites the task at low spatial cost, while a Detail Understanding System
performs pixel-level grounding on the selected high-resolution snippets.
Because ``optimal'' keyframe selection and reformulation are ambiguous and hard
to supervise, we formulate them as a reinforcement learning (RL) problem and
present Omni-R1, an end-to-end RL framework built on Group Relative Policy
Optimization. Omni-R1 trains the Global Reasoning System through hierarchical
rewards obtained via online collaboration with the Detail Understanding System,
requiring only one epoch of RL on small task splits.
Experiments on two challenging benchmarks, namely Referring Audio-Visual
Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show
that Omni-R1 not only surpasses strong supervised baselines but also
outperforms specialized state-of-the-art models, while substantially improving
out-of-domain generalization and mitigating multimodal hallucination. Our
results demonstrate the first successful application of RL to large-scale
omnimodal reasoning and highlight a scalable path toward universally foundation
models.Summary
AI-Generated Summary