OmniVerifier-M1 : Méta-vérificateur multimodal avec recalibrage structuré explicite

Résumé

Les résultats visuels occupent une place de plus en plus centrale dans les grands modèles de langage multimodaux, rendant une vérification fiable et à grain fin essentielle pour le passage à l'échelle des modèles de fondation généralistes. Dans ce travail, nous étudions la méta-vérification multimodale, qui exploite les justifications générées par le vérificateur plutôt que les seuls signaux de décision, et explorons comment intégrer efficacement le retour de méta-vérification dans l'entraînement du vérificateur multimodal. Nous identifions deux résultats clés. Premièrement, les sorties symboliques du vérificateur (par exemple, les boîtes englobantes) surpassent les explications textuelles en tant que justifications de méta-vérification, permettant des récompenses d'apprentissage par renforcement basées sur des règles efficaces tout en évitant de dépendre de récompenses basées sur des modèles provenant de modèles juges auxiliaires. Deuxièmement, le découplage des objectifs d'apprentissage par renforcement pour le jugement binaire et la méta-vérification surpasse largement l'optimisation conjointe des récompenses, en raison des différences intrinsèques dans la structure des sorties et la dynamique d'apprentissage. Sur la base de ces observations, nous entraînons OmniVerifier-M1, un vérificateur visuel généraliste exploitant la méta-vérification symbolique et l'apprentissage par renforcement découplé. OmniVerifier-M1 fournit une vérification robuste et une localisation fine des erreurs, et permet en outre M1-TTS, un système de génération agentique piloté par vérificateur réalisant une auto-correction dynamique au niveau des régions. Cette approche ouvre la voie à une vérification multimodale plus fiable, interprétable et à grain fin, soutenant un déploiement plus sûr et plus contrôlable des modèles de fondation.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.