ChatPaper.aiChatPaper

A^2Search : Réponse aux questions avec prise en compte de l'ambiguïté par apprentissage par renforcement

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

October 9, 2025
papers.authors: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI

papers.abstract

Les récents progrès dans les modèles de langage à grande échelle (LLMs) et l'apprentissage par renforcement (RL) ont conduit à des performances solides dans le domaine des systèmes de question-réponse (QA) ouverts. Cependant, les modèles existants peinent encore à répondre à des questions admettant plusieurs réponses valides. Les benchmarks standard de QA, qui supposent généralement une seule réponse de référence, négligent cette réalité et produisent ainsi des signaux d'entraînement inappropriés. Les tentatives existantes pour gérer l'ambiguïté reposent souvent sur une annotation manuelle coûteuse, difficile à étendre à des ensembles de données multi-sauts tels que HotpotQA et MuSiQue. Dans cet article, nous présentons A²Search, un cadre d'entraînement sans annotation et de bout en bout pour reconnaître et gérer l'ambiguïté. Au cœur de ce système se trouve un pipeline automatisé qui détecte les questions ambiguës et recueille des réponses alternatives via un échantillonnage de trajectoires et une vérification des preuves. Le modèle est ensuite optimisé avec RL en utilisant une récompense AnsF1 soigneusement conçue, qui intègre naturellement plusieurs réponses. Les expériences menées sur huit benchmarks de QA ouverts démontrent que A²Search atteint de nouvelles performances de pointe. Avec un seul déploiement, A²Search-7B obtient un score AnsF1@1 moyen de 48,4 % sur quatre benchmarks multi-sauts, surpassant toutes les bases de référence solides, y compris le ReSearch-32B nettement plus volumineux (46,2 %). Des analyses approfondies montrent en outre que A²Search résout l'ambiguïté et généralise à travers les benchmarks, soulignant que l'acceptation de l'ambiguïté est essentielle pour construire des systèmes de QA plus fiables. Notre code, données et poids de modèle sont disponibles à l'adresse suivante : https://github.com/zfj1998/A2Search.
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search
PDF33October 10, 2025