Generatieve Universele Verificateur als Multimodale Meta-Redeneerder
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
Auteurs: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
Samenvatting
We introduceren Generative Universal Verifier, een nieuw concept en plugin ontworpen voor next-generation multimodale redenering in vision-language modellen en geünificeerde multimodale modellen, die de fundamentele mogelijkheid biedt tot reflectie en verfijning van visuele uitkomsten tijdens het redeneer- en generatieproces. Dit werk levert drie belangrijke bijdragen: (1) We bouwen ViVerBench, een uitgebreide benchmark die 16 categorieën van kritieke taken omvat voor het evalueren van visuele uitkomsten in multimodale redenering. Resultaten tonen aan dat bestaande VLMs consistent onderpresteren op deze taken, wat een aanzienlijke kloof met menselijk niveau in betrouwbare visuele verificatie benadrukt. (2) We ontwerpen twee geautomatiseerde pipelines om grootschalige visuele verificatiedata te construeren en trainen OmniVerifier-7B, de eerste alomvattende generatieve verifier getraind voor universele visuele verificatie, die aanzienlijke verbeteringen behaalt op ViVerBench(+8.3). Door de training identificeren we drie atomische capaciteiten in visuele verificatie en demonstreren we hoe deze generaliseren en synergetisch interacteren. (3) We stellen OmniVerifier-TTS voor, een sequentieel test-time scaling paradigma dat de universele verifier benut om beeldgeneratie en -bewerking binnen geünificeerde modellen te verbinden, waardoor de bovengrens van generatieve mogelijkheden wordt verhoogd door iteratieve fijnmazige optimalisatie. Naast generatie breiden we de universele verifier uit naar bredere wereldmodellerende interleaved redeneerscenario's. Empirisch behaalt OmniVerifier-TTS verbeteringen op T2I-ReasonBench(+3.7) en GenEval++(+4.3), en overtreft het bestaande parallelle test-time scaling methoden, zoals Best-of-N. Door multimodale redenering te voorzien van betrouwbare visuele verificatie, bevordert OmniVerifier zowel betrouwbare reflectie tijdens generatie als schaalbare test-time verfijning, wat een stap markeert naar meer betrouwbare en controleerbare next-generation redeneersystemen.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.