ChatPaper.aiChatPaper

Oltre le scelte multiple: OpenQA verificabile per un RFT robusto tra visione e linguaggio

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

November 21, 2025
Autori: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI

Abstract

La risposta a domande a scelta multipla (MCQA) è stata un formato popolare per la valutazione e il fine-tuning di rinforzo (RFT) dei moderni modelli linguistici multimodali. Il suo formato di output vincolato consente una verifica automatica semplificata e deterministica. Tuttavia, abbiamo riscontrato che le opzioni possono rivelare segnali sfruttabili, il che rende le metriche di accuratezza inaffidabili per indicare le reali capacità e incoraggia comportamenti di indovinamento espliciti o impliciti delle risposte durante il RFT. Proponiamo ReVeL (Riscrivi e Verifica tramite LLM), un framework che riscrive le domande a scelta multipla in domande a risposta aperta, mantenendo le risposte verificabili ove possibile. Il framework categorizza le domande in base a diversi tipi di risposta e applica rispettivamente schemi di riscrittura e verifica differenti. Applicato al RFT, abbiamo convertito 20.000 esempi MCQA e utilizzato GRPO per effettuare il fine-tuning dei modelli Qwen2.5-VL. I modelli addestrati su ReVeL-OpenQA eguagliano l'accuratezza MCQA su benchmark a scelta multipla e migliorano l'accuratezza OpenQA di circa sei punti percentuali, indicando una migliore efficienza dei dati e segnali di reward più robusti rispetto all'addestramento basato su MCQA. Quando utilizzato per la valutazione, ReVeL rivela anche un'inflazione dei punteggi fino al 20% nei benchmark MCQA (rispetto all'OpenQA), migliora l'accuratezza del giudizio e riduce sia i costi che la latenza. Rilasceremo pubblicamente codice e dati.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
PDF103December 3, 2025