OmniVerifier-M1: Meta-Verificador Multimodal com Requalificação Estruturada Explícita

Resumo

Os resultados visuais estão cada vez mais centrais para os modelos de linguagem grandes multimodais, tornando a verificação confiável e refinada essencial para escalar modelos fundacionais generalistas. Neste trabalho, investigamos a meta-verificação multimodal, que utiliza justificativas geradas pelo verificador em vez de sinais de decisão apenas, e exploramos como incorporar efetivamente o feedback de meta-verificação no treinamento do verificador multimodal. Identificamos duas descobertas principais. Primeiro, saídas simbólicas do verificador (por exemplo, caixas delimitadoras) superam explicações textuais como justificativas de meta-verificação, permitindo recompensas eficientes de aprendizado por reforço baseado em regras, ao mesmo tempo que evitam a dependência de recompensas baseadas em modelos provenientes de modelos juízes auxiliares. Segundo, desacoplar os objetivos de aprendizado por reforço para julgamento binário e meta-verificação supera substancialmente a otimização conjunta de recompensas, devido a diferenças intrínsecas na estrutura de saída e na dinâmica de aprendizado. Com base nessas percepções, treinamos o OmniVerifier-M1, um verificador visual generalista que utiliza meta-verificação simbólica e aprendizado por reforço desacoplado. O OmniVerifier-M1 fornece verificação robusta e localização refinada de erros, e ainda possibilita o M1-TTS, um sistema de geração agentiva orientado por verificador que alcança autocorreção dinâmica a nível de região. Essa abordagem abre caminho para uma verificação multimodal mais confiável, interpretável e refinada, apoiando uma implantação mais segura e controlável de modelos fundacionais.

English

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.