OmniVerifier-M1: Мультимодальный мета-верификатор с явной структурированной перекалибровкой
OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
May 27, 2026
Авторы: Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang
cs.AI
Аннотация
Визуальные результаты становятся все более центральными для мультимодальных больших языковых моделей, что делает надежную и детальную верификацию необходимой для масштабирования фундаментальных моделей общего назначения. В данной работе мы исследуем мультимодальную мета-верификацию, которая использует обоснования, генерируемые верификатором, а не только сигналы принятия решений, и изучаем, как эффективно интегрировать обратную связь мета-верификации в обучение мультимодального верификатора. Мы выявляем два ключевых вывода. Во-первых, символьные выходные данные верификатора (например, ограничивающие рамки) превосходят текстовые объяснения в качестве обоснований мета-верификации, позволяя получать эффективные вознаграждения на основе правил в подкрепляющем обучении, избегая при этом зависимости от вознаграждений на основе модели со стороны вспомогательных моделей-судей. Во-вторых, разделение целей подкрепляющего обучения для бинарного суждения и мета-верификации значительно превосходит совместную оптимизацию вознаграждения из-за внутренних различий в структуре вывода и динамике обучения. Основываясь на этих выводах, мы обучаем OmniVerifier-M1 — универсальный визуальный верификатор, использующий символьную мета-верификацию и разделенное подкрепляющее обучение. OmniVerifier-M1 обеспечивает надежную верификацию и детальную локализацию ошибок, а также позволяет реализовать M1-TTS — систему агентной генерации, управляемую верификатором, которая достигает динамической самокоррекции на уровне областей. Данный подход открывает путь к более надежной, интерпретируемой и детальной мультимодальной верификации, поддерживая более безопасное и контролируемое развертывание фундаментальных моделей.
English
Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.