ChatPaper.aiChatPaper

Generativer Universeller Verifizierer als Multimodaler Meta-Rationalisierer

Generative Universal Verifier as Multimodal Meta-Reasoner

October 15, 2025
papers.authors: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI

papers.abstract

Wir stellen Generative Universal Verifier vor, ein neuartiges Konzept und Plugin, das für die nächste Generation multimodaler Reasoning in Vision-Language-Modellen und vereinheitlichten multimodalen Modellen entwickelt wurde. Es bietet die grundlegende Fähigkeit zur Reflexion und Verfeinerung visueller Ergebnisse während des Reasoning- und Generierungsprozesses. Diese Arbeit leistet drei Hauptbeiträge: (1) Wir entwickeln ViVerBench, einen umfassenden Benchmark, der 16 Kategorien kritischer Aufgaben zur Bewertung visueller Ergebnisse im multimodalen Reasoning abdeckt. Die Ergebnisse zeigen, dass bestehende VLMs durchweg in diesen Aufgaben unterperformen, was eine erhebliche Lücke zur menschlichen Fähigkeit in der zuverlässigen visuellen Verifikation aufzeigt. (2) Wir entwerfen zwei automatisierte Pipelines zur Konstruktion groß angelegter visueller Verifikationsdaten und trainieren OmniVerifier-7B, den ersten omni-fähigen generativen Verifikator, der für universelle visuelle Verifikation trainiert wurde und bemerkenswerte Verbesserungen auf ViVerBench (+8,3) erzielt. Durch das Training identifizieren wir drei atomare Fähigkeiten in der visuellen Verifikation und demonstrieren, wie sie sich verallgemeinern und synergetisch interagieren. (3) Wir schlagen OmniVerifier-TTS vor, ein sequenzielles Test-Time-Scaling-Paradigma, das den universellen Verifikator nutzt, um Bildgenerierung und -bearbeitung innerhalb vereinheitlichter Modelle zu verbinden und die Obergrenze der generativen Fähigkeit durch iterative fein abgestimmte Optimierung zu erhöhen. Über die Generierung hinaus erweitern wir den universellen Verifikator auf breitere Szenarien der verschachtelten Weltmodellierung. Empirisch erzielt OmniVerifier-TTS Verbesserungen auf T2I-ReasonBench (+3,7) und GenEval++ (+4,3) und übertrifft bestehende parallele Test-Time-Scaling-Methoden wie Best-of-N. Durch die Ausstattung des multimodalen Reasoning mit zuverlässiger visueller Verifikation fördert OmniVerifier sowohl die zuverlässige Reflexion während der Generierung als auch die skalierbare Test-Time-Verfeinerung und markiert einen Schritt hin zu vertrauenswürdigeren und kontrollierbaren Reasoning-Systemen der nächsten Generation.
English
We introduce Generative Universal Verifier, a novel concept and plugin designed for next-generation multimodal reasoning in vision-language models and unified multimodal models, providing the fundamental capability of reflection and refinement on visual outcomes during the reasoning and generation process. This work makes three main contributions: (1) We build ViVerBench, a comprehensive benchmark spanning 16 categories of critical tasks for evaluating visual outcomes in multimodal reasoning. Results show that existing VLMs consistently underperform across these tasks, underscoring a substantial gap from human-level capability in reliable visual verification. (2) We design two automated pipelines to construct large-scale visual verification data and train OmniVerifier-7B, the first omni-capable generative verifier trained for universal visual verification and achieves notable gains on ViVerBench(+8.3). Through training, we identify three atomic capabilities in visual verification and demonstrate how they generalize and interact synergistically. (3) We propose OmniVerifier-TTS, a sequential test-time scaling paradigm that leverages the universal verifier to bridge image generation and editing within unified models, enhancing the upper bound of generative ability through iterative fine-grained optimization. Beyond generation, we extend universal verifier to broader world-modeling interleaved reasoning scenarios. Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7), and GenEval++(+4.3), outperforming existing parallel test-time scaling methods, such as Best-of-N. By endowing multimodal reasoning with reliable visual verification, OmniVerifier advances both reliable reflection during generation and scalable test-time refinement, marking a step toward more trustworthy and controllable next-generation reasoning systems.
PDF242October 16, 2025