Генеративный универсальный верификатор как мультимодальный мета-рассуждатель

Аннотация

Мы представляем Generative Universal Verifier — новую концепцию и плагин, разработанные для мультимодального рассуждения следующего поколения в моделях, работающих с визуальными и языковыми данными, а также в унифицированных мультимодальных моделях. Этот инструмент обеспечивает фундаментальную возможность рефлексии и уточнения визуальных результатов в процессе рассуждения и генерации. Данная работа вносит три основных вклада: (1) Мы создаем ViVerBench — комплексный бенчмарк, охватывающий 16 категорий критически важных задач для оценки визуальных результатов в мультимодальном рассуждении. Результаты показывают, что существующие модели обработки визуальных и языковых данных (VLMs) стабильно демонстрируют низкую производительность в этих задачах, что подчеркивает значительный разрыв с человеческим уровнем надежной визуальной верификации. (2) Мы разрабатываем два автоматизированных конвейера для создания крупномасштабных данных визуальной верификации и обучаем OmniVerifier-7B — первый универсальный генеративный верификатор, способный выполнять задачи визуальной верификации и демонстрирующий значительный прогресс на ViVerBench (+8.3). В процессе обучения мы выделяем три базовые способности в визуальной верификации и показываем, как они обобщаются и взаимодействуют синергетически. (3) Мы предлагаем OmniVerifier-TTS — последовательную парадигму масштабирования на этапе тестирования, которая использует универсальный верификатор для объединения генерации и редактирования изображений в рамках унифицированных моделей, повышая верхний предел генеративных способностей за счет итеративной детализированной оптимизации. Помимо генерации, мы расширяем применение универсального верификатора на более широкие сценарии рассуждений, связанные с моделированием мира. Эмпирически OmniVerifier-TTS демонстрирует улучшения на T2I-ReasonBench (+3.7) и GenEval++ (+4.3), превосходя существующие методы параллельного масштабирования на этапе тестирования, такие как Best-of-N. Наделяя мультимодальное рассуждение надежной визуальной верификацией, OmniVerifier способствует как надежной рефлексии в процессе генерации, так и масштабируемому уточнению на этапе тестирования, делая шаг к созданию более доверяемых и управляемых систем рассуждения следующего поколения.

English

We introduce Generative Universal Verifier, a novel concept and plugin designed for next-generation multimodal reasoning in vision-language models and unified multimodal models, providing the fundamental capability of reflection and refinement on visual outcomes during the reasoning and generation process. This work makes three main contributions: (1) We build ViVerBench, a comprehensive benchmark spanning 16 categories of critical tasks for evaluating visual outcomes in multimodal reasoning. Results show that existing VLMs consistently underperform across these tasks, underscoring a substantial gap from human-level capability in reliable visual verification. (2) We design two automated pipelines to construct large-scale visual verification data and train OmniVerifier-7B, the first omni-capable generative verifier trained for universal visual verification and achieves notable gains on ViVerBench(+8.3). Through training, we identify three atomic capabilities in visual verification and demonstrate how they generalize and interact synergistically. (3) We propose OmniVerifier-TTS, a sequential test-time scaling paradigm that leverages the universal verifier to bridge image generation and editing within unified models, enhancing the upper bound of generative ability through iterative fine-grained optimization. Beyond generation, we extend universal verifier to broader world-modeling interleaved reasoning scenarios. Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7), and GenEval++(+4.3), outperforming existing parallel test-time scaling methods, such as Best-of-N. By endowing multimodal reasoning with reliable visual verification, OmniVerifier advances both reliable reflection during generation and scalable test-time refinement, marking a step toward more trustworthy and controllable next-generation reasoning systems.

Генеративный универсальный верификатор как мультимодальный мета-рассуждатель

Generative Universal Verifier as Multimodal Meta-Reasoner

Аннотация

Support