Voorbij Meerkeuze: Verifieerbare OpenQA voor Robuuste Visie-Taal RFT
Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
November 21, 2025
Auteurs: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI
Samenvatting
Meerkeuzevraagbeantwoording (MCQA) is een populair formaat geweest voor de evaluatie en reinforcement fine-tuning (RFT) van moderne multimodale taalmodel(len). Het beperkte uitvoerformaat maakt vereenvoudigde, deterministische automatische verificatie mogelijk. Wij constateren echter dat de opties uitbuitbare signalen kunnen lekken, waardoor de nauwkeurigheidsmetingen onbetrouwbaar worden als indicator van werkelijke capaciteiten en dit expliciet of impliciet gokgedrag bij antwoorden tijdens RFT aanmoedigt. Wij stellen ReVeL (Rewrite and Verify by LLM) voor, een raamwerk dat meerkeuzevragen herschrijft naar open vragen terwijl de antwoorden waar mogelijk verifieerbaar blijven. Het raamwerk categoriseert vragen volgens verschillende antwoordtypes en past respectievelijk verschillende herschrijf- en verificatieschema's toe. Bij toepassing voor RFT hebben wij 20k MCQA-voorbeelden geconverteerd en GRPO gebruikt om Qwen2.5-VL-modellen te finetunen. Modellen getraind op ReVeL-OpenQA evenaren de MCQA-nauwkeurigheid op meerkeuze benchmarks en verbeteren de OpenQA-nauwkeurigheid met ongeveer zes procentpunt, wat wijst op een betere data-efficiëntie en robuustere beloningssignalen dan op MCQA gebaseerde training. Wanneer gebruikt voor evaluatie, onthult ReVeL tevens een score-inflatie van tot 20 procentpunt in MCQA-benchmarks (ten opzichte van OpenQA), verbetert de beoordelingsnauwkeurigheid en vermindert zowel de kosten als de latentie. Wij zullen de code en data openbaar vrijgeven.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.