ChatPaper.aiChatPaper

Jenseits von Multiple Choice: Verifizierbare OpenQA für robustes Vision-Language RFT

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

November 21, 2025
papers.authors: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI

papers.abstract

Multiple-Choice-Fragebeantwortung (MCQA) war ein beliebtes Format zur Evaluierung und zum Reinforcement Fine-Tuning (RFT) moderner multimodaler Sprachmodelle. Ihr eingeschränktes Ausgabeformat ermöglicht eine vereinfachte, deterministische automatische Verifizierung. Wir stellen jedoch fest, dass die Antwortoptionen ausnutzbare Signale preisgeben können, was die Genauigkeitsmetriken als unzuverlässig für die Abbildung tatsächlicher Fähigkeiten macht und explizites oder implizites Raten von Antworten während des RFT fördert. Wir schlagen ReVeL (Rewrite and Verify by LLM) vor, ein Framework, das Multiple-Choice-Fragen in offene Fragen umschreibt, wobei die Antworten wann immer möglich verifizierbar bleiben. Das Framework kategorisiert Fragen nach verschiedenen Antworttypen und wendet jeweils unterschiedliche Umschreibungs- und Verifikationsschemata an. Bei der Anwendung für RFT konvertierten wir 20.000 MCQA-Beispiele und nutzten GRPO zum Finetunen von Qwen2.5-VL-Modellen. Mit ReVeL-OpenQA trainierte Modelle erreichen eine mit MCQA vergleichbare Genauigkeit auf Multiple-Choice-Benchmarks und verbessern die OpenQA-Genauigkeit um etwa sechs Prozentpunkte, was auf eine bessere Dateneffizienz und robustere Belohnungssignale als MCQA-basiertes Training hindeutet. Bei der Verwendung zur Evaluation deckt ReVeL zudem bis zu 20 Prozentpunkte Score-Inflation in MCQA-Benchmarks (relativ zu OpenQA) auf, verbessert die Bewertungsgenauigkeit und reduziert sowohl Kosten als auch Latenz. Code und Daten werden öffentlich zugänglich gemacht.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
PDF113February 7, 2026