За пределами множественного выбора: проверяемая открытая вопросно-ответная система для устойчивого тонкого настроения моделей «визуальный язык»
Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
November 21, 2025
Авторы: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI
Аннотация
Многовариантное тестирование (MCQA) стало популярным форматом для оценки и тонкой настройки с подкреплением (RFT) современных мультимодальных языковых моделей. Его ограниченный формат вывода позволяет проводить упрощенную детерминистическую автоматическую проверку. Однако мы обнаружили, что варианты ответов могут содержать уязвимые сигналы, что делает метрики точности ненадежными для оценки реальных возможностей моделей и поощряет явное или неявное угадывание ответов в процессе RFT. Мы предлагаем ReVeL (Rewrite and Verify by LLM) — фреймворк, который преобразует вопросы с множественным выбором в открытые вопросы, сохраняя при этом возможность проверки ответов там, где это возможно. Фреймворк классифицирует вопросы по типам ответов и применяет соответствующие схемы переформулировки и верификации. При применении для RFT мы конвертировали 20 тыс. примеров MCQA и использовали GRPO для тонкой настройки моделей Qwen2.5-VL. Модели, обученные на ReVeL-OpenQA, демонстрируют сопоставимую с MCQA точность на бенчмарках с множественным выбором и улучшают точность открытых вопросов примерно на шесть процентных пунктов, что указывает на лучшую эффективность данных и более robust-сигналы подкрепления по сравнению с обучением на основе MCQA. При использовании для оценки ReVeL также выявляет до 20 процентных пунктов завышения оценок в бенчмарках MCQA (относительно OpenQA), повышает точность оценивания, сокращая при этом стоимость и задержки. Код и данные будут опубликованы в открытом доступе.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.