Генеративный универсальный верификатор как мультимодальный мета-рассуждатель
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
Авторы: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
Аннотация
Мы представляем Generative Universal Verifier — новую концепцию и плагин, разработанные для мультимодального рассуждения следующего поколения в моделях, работающих с визуальными и языковыми данными, а также в унифицированных мультимодальных моделях. Этот инструмент обеспечивает фундаментальную возможность рефлексии и уточнения визуальных результатов в процессе рассуждения и генерации. Данная работа вносит три основных вклада: (1) Мы создаем ViVerBench — комплексный бенчмарк, охватывающий 16 категорий критически важных задач для оценки визуальных результатов в мультимодальном рассуждении. Результаты показывают, что существующие модели обработки визуальных и языковых данных (VLMs) стабильно демонстрируют низкую производительность в этих задачах, что подчеркивает значительный разрыв с человеческим уровнем надежной визуальной верификации. (2) Мы разрабатываем два автоматизированных конвейера для создания крупномасштабных данных визуальной верификации и обучаем OmniVerifier-7B — первый универсальный генеративный верификатор, способный выполнять задачи визуальной верификации и демонстрирующий значительный прогресс на ViVerBench (+8.3). В процессе обучения мы выделяем три базовые способности в визуальной верификации и показываем, как они обобщаются и взаимодействуют синергетически. (3) Мы предлагаем OmniVerifier-TTS — последовательную парадигму масштабирования на этапе тестирования, которая использует универсальный верификатор для объединения генерации и редактирования изображений в рамках унифицированных моделей, повышая верхний предел генеративных способностей за счет итеративной детализированной оптимизации. Помимо генерации, мы расширяем применение универсального верификатора на более широкие сценарии рассуждений, связанные с моделированием мира. Эмпирически OmniVerifier-TTS демонстрирует улучшения на T2I-ReasonBench (+3.7) и GenEval++ (+4.3), превосходя существующие методы параллельного масштабирования на этапе тестирования, такие как Best-of-N. Наделяя мультимодальное рассуждение надежной визуальной верификацией, OmniVerifier способствует как надежной рефлексии в процессе генерации, так и масштабируемому уточнению на этапе тестирования, делая шаг к созданию более доверяемых и управляемых систем рассуждения следующего поколения.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.