Verificador Universal Generativo como Meta-Raciocinador Multimodal
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
Autores: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
Resumo
Apresentamos o Verificador Universal Generativo, um conceito e plugin inovador projetado para a próxima geração de raciocínio multimodal em modelos de visão e linguagem e modelos multimodais unificados, fornecendo a capacidade fundamental de reflexão e refinamento de resultados visuais durante o processo de raciocínio e geração. Este trabalho faz três contribuições principais: (1) Construímos o ViVerBench, um benchmark abrangente que abrange 16 categorias de tarefas críticas para avaliar resultados visuais no raciocínio multimodal. Os resultados mostram que os VLMs existentes consistentemente têm desempenho inferior nessas tarefas, destacando uma lacuna substancial em relação à capacidade humana em verificação visual confiável. (2) Projetamos dois pipelines automatizados para construir dados de verificação visual em larga escala e treinar o OmniVerifier-7B, o primeiro verificador generativo omnicapaz treinado para verificação visual universal, que alcança ganhos notáveis no ViVerBench (+8,3). Através do treinamento, identificamos três capacidades atômicas na verificação visual e demonstramos como elas se generalizam e interagem sinergicamente. (3) Propomos o OmniVerifier-TTS, um paradigma de escalonamento sequencial em tempo de teste que aproveita o verificador universal para unir geração e edição de imagens em modelos unificados, aprimorando o limite superior da capacidade generativa por meio de otimização iterativa e granular. Além da geração, estendemos o verificador universal para cenários mais amplos de raciocínio intercalado com modelagem de mundo. Empiricamente, o OmniVerifier-TTS alcança melhorias no T2I-ReasonBench (+3,7) e no GenEval++ (+4,3), superando métodos existentes de escalonamento em tempo de teste, como Best-of-N. Ao dotar o raciocínio multimodal com verificação visual confiável, o OmniVerifier avança tanto a reflexão confiável durante a geração quanto o refinamento escalável em tempo de teste, marcando um passo em direção a sistemas de raciocínio de próxima geração mais confiáveis e controláveis.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.