생성적 범용 검증기로서의 다중모달 메타-추론기
Generative Universal Verifier as Multimodal Meta-Reasoner
October 15, 2025
저자: Xinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang
cs.AI
초록
우리는 시각-언어 모델과 통합 멀티모달 모델을 위한 차세대 멀티모달 추론을 위해 설계된 새로운 개념 및 플러그인인 Generative Universal Verifier를 소개합니다. 이는 추론 및 생성 과정에서 시각적 결과에 대한 반성과 개선의 기본적인 능력을 제공합니다. 본 연구는 세 가지 주요 기여를 합니다: (1) 멀티모달 추론에서 시각적 결과를 평가하기 위한 16개 범주의 핵심 작업을 아우르는 포괄적인 벤치마크인 ViVerBench를 구축했습니다. 결과는 기존의 VLM들이 이러한 작업들에서 지속적으로 낮은 성능을 보이며, 신뢰할 수 있는 시각적 검증에서 인간 수준의 능력과의 상당한 격차를 보여줍니다. (2) 대규모 시각적 검증 데이터를 구축하고 범용 시각적 검증을 위해 훈련된 최초의 전능 생성 검증기인 OmniVerifier-7B를 훈련시키기 위해 두 가지 자동화된 파이프라인을 설계했습니다. 이를 통해 ViVerBench에서 주목할 만한 성능 향상(+8.3)을 달성했습니다. 훈련 과정에서 우리는 시각적 검증의 세 가지 기본 능력을 식별하고 이들이 어떻게 일반화되고 상호작용하는지 보여줍니다. (3) 우리는 범용 검증기를 활용하여 통합 모델 내에서 이미지 생성과 편집을 연결하는 순차적 테스트-타임 스케일링 패러다임인 OmniVerifier-TTS를 제안합니다. 이를 통해 반복적인 세밀한 최적화를 통해 생성 능력의 상한선을 향상시킵니다. 생성 외에도, 우리는 범용 검증기를 더 넓은 세계 모델링 인터리브 추론 시나리오로 확장합니다. 실험적으로, OmniVerifier-TTS는 T2I-ReasonBench(+3.7)와 GenEval++(+4.3)에서 개선을 달성하며, Best-of-N과 같은 기존의 병렬 테스트-타임 스케일링 방법을 능가합니다. 멀티모달 추론에 신뢰할 수 있는 시각적 검증을 부여함으로써, OmniVerifier는 생성 과정에서의 신뢰할 수 있는 반성과 확장 가능한 테스트-타임 개선을 모두 발전시켜, 더 신뢰할 수 있고 제어 가능한 차세대 추론 시스템으로 나아가는 한 걸음을 내딛습니다.
English
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamental capability of reflection
and refinement on visual outcomes during the reasoning and generation process.
This work makes three main contributions: (1) We build ViVerBench, a
comprehensive benchmark spanning 16 categories of critical tasks for evaluating
visual outcomes in multimodal reasoning. Results show that existing VLMs
consistently underperform across these tasks, underscoring a substantial gap
from human-level capability in reliable visual verification. (2) We design two
automated pipelines to construct large-scale visual verification data and train
OmniVerifier-7B, the first omni-capable generative verifier trained for
universal visual verification and achieves notable gains on ViVerBench(+8.3).
Through training, we identify three atomic capabilities in visual verification
and demonstrate how they generalize and interact synergistically. (3) We
propose OmniVerifier-TTS, a sequential test-time scaling paradigm that
leverages the universal verifier to bridge image generation and editing within
unified models, enhancing the upper bound of generative ability through
iterative fine-grained optimization. Beyond generation, we extend universal
verifier to broader world-modeling interleaved reasoning scenarios.
Empirically, OmniVerifier-TTS achieves improvements on T2I-ReasonBench(+3.7),
and GenEval++(+4.3), outperforming existing parallel test-time scaling methods,
such as Best-of-N. By endowing multimodal reasoning with reliable visual
verification, OmniVerifier advances both reliable reflection during generation
and scalable test-time refinement, marking a step toward more trustworthy and
controllable next-generation reasoning systems.