OmniVerifier-M1: Мультимодальный мета-верификатор с явной структурированной перекалибровкой

Аннотация

Визуальные результаты становятся все более центральными для мультимодальных больших языковых моделей, что делает надежную и детальную верификацию необходимой для масштабирования фундаментальных моделей общего назначения. В данной работе мы исследуем мультимодальную мета-верификацию, которая использует обоснования, генерируемые верификатором, а не только сигналы принятия решений, и изучаем, как эффективно интегрировать обратную связь мета-верификации в обучение мультимодального верификатора. Мы выявляем два ключевых вывода. Во-первых, символьные выходные данные верификатора (например, ограничивающие рамки) превосходят текстовые объяснения в качестве обоснований мета-верификации, позволяя получать эффективные вознаграждения на основе правил в подкрепляющем обучении, избегая при этом зависимости от вознаграждений на основе модели со стороны вспомогательных моделей-судей. Во-вторых, разделение целей подкрепляющего обучения для бинарного суждения и мета-верификации значительно превосходит совместную оптимизацию вознаграждения из-за внутренних различий в структуре вывода и динамике обучения. Основываясь на этих выводах, мы обучаем OmniVerifier-M1 — универсальный визуальный верификатор, использующий символьную мета-верификацию и разделенное подкрепляющее обучение. OmniVerifier-M1 обеспечивает надежную верификацию и детальную локализацию ошибок, а также позволяет реализовать M1-TTS — систему агентной генерации, управляемую верификатором, которая достигает динамической самокоррекции на уровне областей. Данный подход открывает путь к более надежной, интерпретируемой и детальной мультимодальной верификации, поддерживая более безопасное и контролируемое развертывание фундаментальных моделей.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.