OmniVerifier-M1: Multimodale meta-verificateur met expliciete gestructureerde herkalibratie

Samenvatting

Visuele uitkomsten worden steeds centraler in multimodale grote taalmodellen, waardoor betrouwbare en fijnmazige verificatie essentieel wordt voor het opschalen van generalistische funderingsmodellen. In dit werk onderzoeken we multimodale meta-verificatie, die gebruikmaakt van door verifier gegenereerde rationale in plaats van alleen-beslissingssignalen, en verkennen we hoe meta-verificatiefeedback effectief kan worden geïntegreerd in multimodale verifiertraining. We identificeren twee belangrijke bevindingen. Ten eerste presteren symbolische verifier-outputs (bijv. begrenzingskaders) beter dan tekstuele uitleg als meta-verificatierationale, waardoor efficiënte op regels gebaseerde reinforcement learning-beloningen mogelijk worden en afhankelijkheid van modelgebaseerde beloningen van hulprechtermodellen wordt vermeden. Ten tweede presteert ontkoppeling van reinforcement learning-doelstellingen voor binaire beoordeling en meta-verificatie aanzienlijk beter dan gezamenlijke beloningsoptimalisatie, vanwege intrinsieke verschillen in uitvoerstructuur en leerdynamiek. Op basis van deze inzichten trainen we OmniVerifier-M1, een generalistische visuele verifier die gebruikmaakt van symbolische meta-verificatie en ontkoppelde reinforcement learning. OmniVerifier-M1 biedt robuuste verificatie en fijnmazige foutlokalisatie, en maakt verder M1-TTS mogelijk, een door verifier aangestuurd agentisch generatiesysteem dat dynamische zelfcorrectie op regiogebied bereikt. Deze aanpak baant de weg voor betrouwbaardere, interpreteerbare en fijnmazigere multimodale verificatie, ter ondersteuning van veiligere en beter beheersbare inzet van funderingsmodellen.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.