OmniVerifier-M1: 明示的構造化再校正を伴うマルチモーダルメタ検証器
OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
May 27, 2026
著者: Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang
cs.AI
要旨
視覚的なアウトプットはマルチモーダル大規模言語モデルにおいてますます中心的な役割を果たしており、汎用的な基盤モデルのスケーリングには信頼性が高く細粒度の検証が不可欠となっている。本研究では、決定信号のみに頼るのではなく検証器が生成する根拠を活用するマルチモーダルメタ検証を調査し、メタ検証フィードバックをマルチモーダル検証器の訓練に効果的に組み込む方法を探求する。我々は2つの重要な知見を特定した。第一に、記号的な検証器出力(例:バウンディングボックス)はテキスト説明よりもメタ検証の根拠として優れており、補助的な評価モデルからのモデルベース報酬への依存を回避しつつ、効率的なルールベースの強化学習報酬を可能にする。第二に、二値判断とメタ検証のための強化学習目的を分離することで、出力構造と学習ダイナミクスの本質的な違いにより、共同報酬最適化を大幅に上回る性能が得られる。これらの知見に基づき、記号的メタ検証と分離型強化学習を活用した汎用視覚検証器OmniVerifier-M1を訓練する。OmniVerifier-M1は頑健な検証と細粒度のエラー位置特定を提供し、さらに検証器駆動型のエージェント的生成システムであるM1-TTSを実現し、動的な領域レベルの自己修正を達成する。このアプローチは、より信頼性が高く、解釈可能で、細粒度なマルチモーダル検証への道を開き、より安全で制御可能な基盤モデルの展開を支援する。
English
Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.