ChatPaper.aiChatPaper

複数選択を超えて:ロバストな視覚言語RFTのための検証可能なオープンQA

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

November 21, 2025
著者: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI

要旨

多肢選択式質問応答(MCQA)は、現代のマルチモーダル言語モデルの評価と強化学習ファインチューニング(RFT)において広く用いられてきた形式である。その制約された出力形式により、簡素化された決定論的な自動検証が可能となる。しかしながら、選択肢が悪用可能な信号を漏洩する可能性があり、これが精度指標の真の能力を示す信頼性を損ない、RFTにおける明示的または暗黙的な回答推測行動を促進することがわかった。我々はReVeL(Rewrite and Verify by LLM)を提案する。これは、可能な限り回答を検証可能に保ちながら、多肢選択式問題を自由回答式問題に書き換えるフレームワークである。本フレームワークは質問を回答タイプに応じて分類し、それぞれ異なる書き換えと検証スキームを適用する。RFTに適用する際、20kのMCQA事例を変換し、GRPOを用いてQwen2.5-VLモデルをファインチューニングした。ReVeL-OpenQAで学習したモデルは、多肢選択式ベンチマークにおいてMCQAと同等の精度を達成し、自由回答式QAの精度を約6ポイント向上させ、MCQAベースの学習よりも優れたデータ効率と堅牢な報酬信号を示した。評価に用いた場合、ReVeLはMCQAベンチマークにおいて最大20ポイントのスコア過大評価(自由回答式QAに対する相対値)を明らかにし、判定精度を向上させ、コストとレイテンシの両方を削減した。コードとデータは公開予定である。
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
PDF113February 7, 2026