ChatPaper.aiChatPaper

A^2Search: Ambiguïteitsbewust Vraagbeantwoorden met Versterkend Leren

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

October 9, 2025
Auteurs: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI

Samenvatting

Recente vooruitgang in Large Language Models (LLMs) en Reinforcement Learning (RL) heeft geleid tot sterke prestaties in open-domein vraag-antwoord (QA). Bestaande modellen hebben echter nog steeds moeite met vragen die meerdere geldige antwoorden toelaten. Standaard QA-benchmarks, die doorgaans uitgaan van één gouden antwoord, negeren deze realiteit en produceren daardoor ongeschikte trainingssignalen. Bestaande pogingen om ambiguïteit te hanteren, zijn vaak afhankelijk van kostbare handmatige annotatie, wat moeilijk schaalbaar is naar multi-hop datasets zoals HotpotQA en MuSiQue. In dit artikel presenteren we A^2Search, een annotatievrij, end-to-end trainingsframework om ambiguïteit te herkennen en te hanteren. De kern ervan is een geautomatiseerde pipeline die ambigue vragen detecteert en alternatieve antwoorden verzamelt via trajectmonsters en bewijsverificatie. Het model wordt vervolgens geoptimaliseerd met RL met behulp van een zorgvuldig ontworpen AnsF1-beloning, die van nature meerdere antwoorden ondersteunt. Experimenten op acht open-domein QA-benchmarks tonen aan dat A^2Search nieuwe state-of-the-art prestaties bereikt. Met slechts één rollout levert A^2Search-7B een gemiddelde AnsF1@1-score van 48,4% op over vier multi-hop benchmarks, wat alle sterke baselines overtreft, inclusief de aanzienlijk grotere ReSearch-32B (46,2%). Uitgebreide analyses tonen verder aan dat A^2Search ambiguïteit oplost en generaliseert over benchmarks, wat benadrukt dat het omarmen van ambiguïteit essentieel is voor het bouwen van betrouwbaardere QA-systemen. Onze code, data en modelgewichten zijn te vinden op https://github.com/zfj1998/A2Search.
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search
PDF33October 10, 2025