Verificador Universal Generativo como Meta-Razonador Multimodal
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
Autores: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
Resumen
Presentamos el Verificador Universal Generativo, un concepto novedoso y un complemento diseñado para el razonamiento multimodal de próxima generación en modelos de visión-lenguaje y modelos multimodales unificados, proporcionando la capacidad fundamental de reflexión y refinamiento sobre los resultados visuales durante el proceso de razonamiento y generación. Este trabajo realiza tres contribuciones principales: (1) Construimos ViVerBench, un benchmark integral que abarca 16 categorías de tareas críticas para evaluar resultados visuales en el razonamiento multimodal. Los resultados muestran que los modelos de visión-lenguaje (VLMs) existentes tienen un rendimiento consistentemente bajo en estas tareas, destacando una brecha sustancial respecto a la capacidad humana en la verificación visual confiable. (2) Diseñamos dos pipelines automatizados para construir datos de verificación visual a gran escala y entrenar OmniVerifier-7B, el primer verificador generativo omnicapaz entrenado para la verificación visual universal, que logra mejoras notables en ViVerBench (+8.3). Durante el entrenamiento, identificamos tres capacidades atómicas en la verificación visual y demostramos cómo se generalizan e interactúan de manera sinérgica. (3) Proponemos OmniVerifier-TTS, un paradigma de escalado secuencial en tiempo de prueba que aprovecha el verificador universal para conectar la generación y edición de imágenes dentro de modelos unificados, mejorando el límite superior de la capacidad generativa mediante una optimización iterativa y detallada. Más allá de la generación, extendemos el verificador universal a escenarios más amplios de razonamiento intercalado en la modelización del mundo. Empíricamente, OmniVerifier-TTS logra mejoras en T2I-ReasonBench (+3.7) y GenEval++ (+4.3), superando a los métodos existentes de escalado en tiempo de prueba en paralelo, como Best-of-N. Al dotar al razonamiento multimodal de una verificación visual confiable, OmniVerifier avanza tanto en la reflexión confiable durante la generación como en el refinamiento escalable en tiempo de prueba, marcando un paso hacia sistemas de razonamiento de próxima generación más confiables y controlables.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.