ChatPaper.aiChatPaper

人間の注釈を必要としない自己改善型VLM評価システム

Self-Improving VLM Judges Without Human Annotations

December 2, 2025
著者: Inna Wanyin Lin, Yushi Hu, Shuyue Stella Li, Scott Geng, Pang Wei Koh, Luke Zettlemoyer, Tim Althoff, Marjan Ghazvininejad
cs.AI

要旨

視覚言語モデル(VLM)の効果的な評価器は、モデル開発において極めて重要である。現在のVLM評価器の学習手法は、大規模な人間の嗜好アノテーションに依存している。しかし、この手法はコストが高く、モデルの急速な進化に伴いアノテーションは容易に陳腐化する。本研究では、人間の嗜好アノテーションを一切用いず、自己合成データのみでVLM評価器モデルを自己学習するフレームワークを提案する。本手法は反復的であり、3つの段階から構成される:(1) 多様な品質レベルのマルチモーダルな指示-応答ペアを生成する、(2) 各ペアに対して推論トレースと判定を生成し、期待する品質レベルと一致しないものを除去する、(3) 正しい評価器の回答とその推論トレースを用いて学習する。我々は、得られた評価器をMultimodal RewardBenchおよびVL-RewardBenchにおいて、正確性、嗜好性、推論、安全性、視覚質問応答といった複数の領域で評価した。本手法により、Llama-3.2-11Bベースのマルチモーダル評価器は、VL-RewardBenchにおける総合精度を0.38から0.51に向上し、Llama-3.2-90B、GPT-4o、Claude 3.5 Sonnetといったはるかに大規模なモデルを凌駕する場合が多く、特に一般性、 hallucination(虚偽生成)、推論の次元で顕著な改善が見られた。人間のアノテーションを必要としないこれらの結果の全体的な強度は、VLMの能力が急速に進化する中でそれに追随して進化する自己評価器の可能性を示唆している。
English
Effective judges of Vision-Language Models (VLMs) are crucial for model development. Current methods for training VLM judges mainly rely on large-scale human preference annotations. However, such an approach is costly, and the annotations easily become obsolete as models rapidly improve. In this work, we present a framework to self-train a VLM judge model without any human preference annotations, using only self-synthesized data. Our method is iterative and has three stages: (1) generate diverse multimodal instruction-response pairs at varying quality levels, (2) generate reasoning traces and judgments for each pair, removing the ones that do not match our expected quality levels, and (3) training on correct judge answers and their reasoning traces. We evaluate the resulting judge on Multimodal RewardBench and VL-RewardBench across domains: correctness, preference, reasoning, safety, and visual question-answering. Our method improves a Llama-3.2-11B multimodal judge from 0.38 to 0.51 in overall accuracy on VL-RewardBench, often outperforming much larger models including Llama-3.2-90B, GPT-4o, and Claude 3.5 Sonnet, with particularly strong gains in general, hallucination, and reasoning dimensions. The overall strength of these human-annotation-free results suggest the potential for a future self-judge that evolves alongside rapidly improving VLM capabilities.
PDF122December 9, 2025