ChatPaper.aiChatPaper

다중 선택을 넘어서: 강건한 시각-언어 RFT를 위한 검증 가능한 OpenQA

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

November 21, 2025
저자: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang
cs.AI

초록

다지선다형 질의응답(MCQA)은 현대 멀티모달 언어 모델의 평가 및 강화 미세 조정(RFT)을 위한 인기 있는 형식으로 자리잡았습니다. 제한된 출력 형식은 단순하고 결정론적인 자동 검증을 가능하게 합니다. 그러나 본 연구에서는 선택지가 활용 가능한 신호를 누설할 수 있어 정확도 지표가 실제 능력을 나타내는 데 신뢰할 수 없으며 RFT 과정에서 명시적 또는 암묵적인 답안 추측 행위를 부추길 수 있음을 발견했습니다. 이에 대해 가능한 경우 답변을 검증 가능하게 유지하면서 다지선다형 질문을 개방형 질문으로 재구성하는 ReVeL(LLM 기반 재작성 및 검증) 프레임워크를 제안합니다. 해당 프레임워크는 질문을 다양한 응답 유형에 따라 분류하고 각각 다른 재작성 및 검증 방식을 적용합니다. RFT 적용 시 20,000개의 MCQA 샘플을 변환하여 GRPO로 Qwen2.5-VL 모델을 미세 조정했습니다. ReVeL-OpenQA로 학습된 모델은 다지선다형 벤치마크에서 MCQA 정확도를 유지하면서 개방형 질의응답(OpenQA) 정확도를 약 6%p 향상시켜 MCQA 기반 학습보다 우수한 데이터 효율성과 강건한 보상 신호를 보여주었습니다. 평가에 활용할 경우 ReVeL은 MCQA 벤치마크에서 최대 20%p의 점수 왜곡(OpenQA 대비)을 드러내는 동시에 평가 정확도를 높이고 비용과 지연 시간을 모두 절감했습니다. 코드와 데이터는 공개할 예정입니다.
English
Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
PDF113February 7, 2026