Verificatore Universale Generativo come Meta-Ragionatore Multimodale
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
Autori: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
Abstract
Introduciamo il Verificatore Universale Generativo, un concetto e plugin innovativo progettato per il ragionamento multimodale di prossima generazione nei modelli visione-linguaggio e nei modelli multimodali unificati, fornendo la capacità fondamentale di riflessione e affinamento sui risultati visivi durante il processo di ragionamento e generazione. Questo lavoro apporta tre contributi principali: (1) Costruiamo ViVerBench, un benchmark completo che copre 16 categorie di task critici per la valutazione dei risultati visivi nel ragionamento multimodale. I risultati mostrano che gli attuali modelli visione-linguaggio (VLMs) hanno prestazioni costantemente inferiori in questi task, evidenziando un divario significativo rispetto alle capacità umane nella verifica visiva affidabile. (2) Progettiamo due pipeline automatizzate per costruire dati su larga scala per la verifica visiva e addestrare OmniVerifier-7B, il primo verificatore generativo onnicapace addestrato per la verifica visiva universale, che ottiene miglioramenti significativi su ViVerBench(+8.3). Attraverso l'addestramento, identifichiamo tre capacità atomiche nella verifica visiva e dimostriamo come si generalizzano e interagiscono sinergicamente. (3) Proponiamo OmniVerifier-TTS, un paradigma sequenziale di scalabilità al tempo di test che sfrutta il verificatore universale per collegare la generazione e l'editing di immagini all'interno di modelli unificati, migliorando il limite superiore della capacità generativa attraverso un'ottimizzazione iterativa e granulare. Oltre alla generazione, estendiamo il verificatore universale a scenari più ampi di ragionamento intervallato nella modellazione del mondo. Empiricamente, OmniVerifier-TTS ottiene miglioramenti su T2I-ReasonBench(+3.7) e GenEval++(+4.3), superando i metodi esistenti di scalabilità al tempo di test in parallelo, come Best-of-N. Dotando il ragionamento multimodale di una verifica visiva affidabile, OmniVerifier avanza sia nella riflessione affidabile durante la generazione che nell'affinamento scalabile al tempo di test, segnando un passo verso sistemi di ragionamento di prossima generazione più affidabili e controllabili.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.