ChatPaper.aiChatPaper

Vérificateur Universel Génératif en tant que Méta-Raisonneur Multimodal

Generative Universal Verifier as Multimodal Meta-Reasoner

October 15, 2025
papers.authors: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI

papers.abstract

Nous présentons Generative Universal Verifier, un concept et un plugin novateurs conçus pour le raisonnement multimodal de nouvelle génération dans les modèles vision-langage et les modèles multimodaux unifiés, offrant la capacité fondamentale de réflexion et d'affinement des résultats visuels durant le processus de raisonnement et de génération. Ce travail apporte trois contributions principales : (1) Nous construisons ViVerBench, un benchmark complet couvrant 16 catégories de tâches critiques pour évaluer les résultats visuels dans le raisonnement multimodal. Les résultats montrent que les modèles vision-langage existants sous-performent systématiquement sur ces tâches, révélant un écart significatif par rapport aux capacités humaines en matière de vérification visuelle fiable. (2) Nous concevons deux pipelines automatisés pour construire des données de vérification visuelle à grande échelle et entraîner OmniVerifier-7B, le premier vérificateur génératif omni-capable formé pour la vérification visuelle universelle, qui obtient des gains notables sur ViVerBench (+8,3). À travers l'entraînement, nous identifions trois capacités atomiques dans la vérification visuelle et démontrons comment elles se généralisent et interagissent de manière synergique. (3) Nous proposons OmniVerifier-TTS, un paradigme de mise à l'échelle séquentielle au moment du test qui exploite le vérificateur universel pour relier la génération et l'édition d'images au sein de modèles unifiés, améliorant la limite supérieure des capacités génératives grâce à une optimisation itérative fine. Au-delà de la génération, nous étendons le vérificateur universel à des scénarios de raisonnement imbriqués plus larges dans la modélisation du monde. Empiriquement, OmniVerifier-TTS réalise des améliorations sur T2I-ReasonBench (+3,7) et GenEval++ (+4,3), surpassant les méthodes de mise à l'échelle parallèles au moment du test, comme Best-of-N. En dotant le raisonnement multimodal d'une vérification visuelle fiable, OmniVerifier fait progresser à la fois la réflexion fiable durant la génération et l'affinement scalable au moment du test, marquant une étape vers des systèmes de raisonnement de nouvelle génération plus fiables et contrôlables.
English
We introduce Generative Universal Verifier, a novel concept and plugin designed for next-generation multimodal reasoning in vision-language models and unified multimodal models, providing the fundamental capability of reflection and refinement on visual outcomes during the reasoning and generation process. This work makes three main contributions: (1) We build ViVerBench, a comprehensive benchmark spanning 16 categories of critical tasks for evaluating visual outcomes in multimodal reasoning. Results show that existing VLMs consistently underperform across these tasks, underscoring a substantial gap from human-level capability in reliable visual verification. (2) We design two automated pipelines to construct large-scale visual verification data and train OmniVerifier-7B, the first omni-capable generative verifier trained for universal visual verification and achieves notable gains on ViVerBench(+8.3). Through training, we identify three atomic capabilities in visual verification and demonstrate how they generalize and interact synergistically. (3) We propose OmniVerifier-TTS, a sequential test-time scaling paradigm that leverages the universal verifier to bridge image generation and editing within unified models, enhancing the upper bound of generative ability through iterative fine-grained optimization. Beyond generation, we extend universal verifier to broader world-modeling interleaved reasoning scenarios. Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7), and GenEval++(+4.3), outperforming existing parallel test-time scaling methods, such as Best-of-N. By endowing multimodal reasoning with reliable visual verification, OmniVerifier advances both reliable reflection during generation and scalable test-time refinement, marking a step toward more trustworthy and controllable next-generation reasoning systems.
PDF242October 16, 2025