ChatPaper.aiChatPaper

OmniVerifier-M1: Meta-Verificador Multimodal com Requalificação Estruturada Explícita

OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

May 27, 2026
Autores: Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang
cs.AI

Resumo

Os resultados visuais estão cada vez mais centrais para os modelos de linguagem grandes multimodais, tornando a verificação confiável e refinada essencial para escalar modelos fundacionais generalistas. Neste trabalho, investigamos a meta-verificação multimodal, que utiliza justificativas geradas pelo verificador em vez de sinais de decisão apenas, e exploramos como incorporar efetivamente o feedback de meta-verificação no treinamento do verificador multimodal. Identificamos duas descobertas principais. Primeiro, saídas simbólicas do verificador (por exemplo, caixas delimitadoras) superam explicações textuais como justificativas de meta-verificação, permitindo recompensas eficientes de aprendizado por reforço baseado em regras, ao mesmo tempo que evitam a dependência de recompensas baseadas em modelos provenientes de modelos juízes auxiliares. Segundo, desacoplar os objetivos de aprendizado por reforço para julgamento binário e meta-verificação supera substancialmente a otimização conjunta de recompensas, devido a diferenças intrínsecas na estrutura de saída e na dinâmica de aprendizado. Com base nessas percepções, treinamos o OmniVerifier-M1, um verificador visual generalista que utiliza meta-verificação simbólica e aprendizado por reforço desacoplado. O OmniVerifier-M1 fornece verificação robusta e localização refinada de erros, e ainda possibilita o M1-TTS, um sistema de geração agentiva orientado por verificador que alcança autocorreção dinâmica a nível de região. Essa abordagem abre caminho para uma verificação multimodal mais confiável, interpretável e refinada, apoiando uma implantação mais segura e controlável de modelos fundacionais.
English
Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.