ChatPaper.aiChatPaper

Au-delà du QCM : Évaluation Ouverte et Vérifiable pour un Apprentissage par Renforcement de la Vision et du Langage Robuste

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

November 21, 2025
papers.authors: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI

papers.abstract

La résolution de questions à choix multiples (MCQA) est un format populaire pour l'évaluation et le réglage fin par renforcement (RFT) des modèles linguistiques multimodaux modernes. Son format de sortie contraint permet une vérification automatique simplifiée et déterministe. Cependant, nous constatons que les options peuvent révéler des signaux exploitables, ce qui rend les métriques de précision peu fiables pour indiquer les capacités réelles et encourage des comportements de devinette explicites ou implicites durant le RFT. Nous proposons ReVeL (Rewrite and Verify by LLM), un framework qui reformule les questions à choix multiples en questions ouvertes tout en maintenant la vérifiabilité des réponses dans la mesure du possible. Le framework catégorise les questions selon différents types de réponses et applique respectivement différents schémas de reformulation et de vérification. Appliqué au RFT, nous avons converti 20 000 exemples MCQA et utilisé GRPO pour affiner les modèles Qwen2.5-VL. Les modèles entraînés sur ReVeL-OpenQA atteignent la précision MCQA sur les benchmarks à choix multiples et améliorent la précision OpenQA d'environ six points de pourcentage, indiquant une meilleure efficacité des données et des signaux de récompense plus robustes que l'entraînement basé sur MCQA. Utilisé pour l'évaluation, ReVeL révèle également jusqu'à 20 points de pourcentage d'inflation des scores dans les benchmarks MCQA (par rapport à l'OpenQA), améliore la précision du jugement, et réduit à la fois le coût et la latence. Nous publierons le code et les données.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
PDF113February 7, 2026