OmniVerifier-M1: Multimodaler Meta-Verifier mit expliziter strukturierter Rekalibrierung

Zusammenfassung

Visuelle Ergebnisse werden zunehmend zentral für multimodale große Sprachmodelle, wodurch zuverlässige und feinkörnige Verifikation für die Skalierung generalistischer Grundlagenmodelle unerlässlich wird. In dieser Arbeit untersuchen wir die multimodale Meta-Verifikation, die vom Verifizierer generierte Begründungen anstelle von reinen Entscheidungssignalen nutzt, und erforschen, wie Meta-Verifikationsfeedback effektiv in das Training multimodaler Verifizierer integriert werden kann. Wir identifizieren zwei zentrale Erkenntnisse. Erstens: Symbolische Verifiziererausgaben (z. B. Begrenzungsrahmen) übertreffen textuelle Erklärungen als Meta-Verifikationsbegründungen, da sie effiziente regelbasierte Verstärkungslern-Belohnungen ermöglichen, während die Abhängigkeit von modellbasierten Belohnungen durch zusätzliche Bewertungsmodelle vermieden wird. Zweitens: Die Entkopplung der Verstärkungslernziele für binäre Beurteilung und Meta-Verifikation übertrifft die gemeinsame Belohnungsoptimierung deutlich, bedingt durch inhärente Unterschiede in der Ausgabestruktur und den Lerndynamiken. Basierend auf diesen Erkenntnissen trainieren wir OmniVerifier-M1, einen generalistischen visuellen Verifizierer, der symbolische Meta-Verifikation und entkoppeltes Verstärkungslernen nutzt. OmniVerifier-M1 bietet robuste Verifikation und feinkörnige Fehlerlokalisierung und ermöglicht darüber hinaus M1-TTS, ein verifizierergesteuertes agentisches Generierungssystem, das dynamische regionsspezifische Selbstkorrektur erreicht. Dieser Ansatz ebnet den Weg für zuverlässigere, interpretierbarere und feinkörnigere multimodale Verifikation und unterstützt einen sichereren und kontrollierbareren Einsatz von Grundlagenmodellen.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.