OmniVerifier-M1: Meta-verificador Multimodal con Recalibración Estructurada Explícita

Resumen

Los resultados visuales son cada vez más centrales en los modelos de lenguaje grandes multimodales, lo que hace que una verificación fiable y de grano fino sea esencial para escalar modelos fundacionales generalistas. En este trabajo, investigamos la meta-verificación multimodal, que aprovecha razonamientos generados por el verificador en lugar de señales de solo decisión, y exploramos cómo incorporar eficazmente la retroalimentación de meta-verificación en el entrenamiento del verificador multimodal. Identificamos dos hallazgos clave. Primero, las salidas simbólicas del verificador (por ejemplo, cajas delimitadoras) superan a las explicaciones textuales como razonamientos de meta-verificación, lo que permite recompensas eficientes de aprendizaje por refuerzo basado en reglas, evitando la dependencia de recompensas basadas en modelos de modelos evaluadores auxiliares. Segundo, desacoplar los objetivos de aprendizaje por refuerzo para el juicio binario y la meta-verificación supera sustancialmente la optimización conjunta de recompensas, debido a diferencias intrínsecas en la estructura de salida y las dinámicas de aprendizaje. Basándonos en estas ideas, entrenamos OmniVerifier-M1, un verificador visual generalista que aprovecha la meta-verificación simbólica y el aprendizaje por refuerzo desacoplado. OmniVerifier-M1 proporciona una verificación robusta y una localización de errores de grano fino, y además habilita M1-TTS, un sistema de generación agente impulsado por verificador que logra autocorrección dinámica a nivel de región. Este enfoque allana el camino para una verificación multimodal más fiable, interpretable y de grano fino, apoyando un despliegue de modelos fundacionales más seguro y controlable.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.