A^2Search: Risoluzione di Domande con Consapevolezza dell'Ambiguità tramite Apprendimento per Rinforzo

Abstract

I recenti progressi nei Large Language Models (LLM) e nel Reinforcement Learning (RL) hanno portato a prestazioni significative nel campo del question answering (QA) a dominio aperto. Tuttavia, i modelli esistenti continuano a incontrare difficoltà con domande che ammettono più risposte valide. I benchmark standard per il QA, che tipicamente presuppongono una singola risposta corretta, trascurano questa realtà e producono quindi segnali di addestramento inappropriati. I tentativi esistenti per gestire l'ambiguità spesso si basano su costose annotazioni manuali, difficili da scalare su dataset multi-hop come HotpotQA e MuSiQue. In questo articolo, presentiamo A^2Search, un framework di addestramento end-to-end senza annotazioni per riconoscere e gestire l'ambiguità. Al suo centro c'è una pipeline automatizzata che rileva le domande ambigue e raccoglie risposte alternative attraverso il campionamento di traiettorie e la verifica delle evidenze. Il modello viene quindi ottimizzato con RL utilizzando una ricompensa AnsF1 appositamente progettata, che naturalmente accoglie più risposte. Esperimenti su otto benchmark di QA a dominio aperto dimostrano che A^2Search raggiunge nuove prestazioni state-of-the-art. Con un solo rollout, A^2Search-7B ottiene un punteggio AnsF1@1 medio del 48,4% su quattro benchmark multi-hop, superando tutti i forti baseline, incluso il sostanzialmente più grande ReSearch-32B (46,2%). Analisi approfondite mostrano inoltre che A^2Search risolve l'ambiguità e generalizza tra i benchmark, evidenziando che abbracciare l'ambiguità è essenziale per costruire sistemi QA più affidabili. Il nostro codice, dati e pesi del modello sono disponibili su https://github.com/zfj1998/A2Search.

English

Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search

A^2Search: Risoluzione di Domande con Consapevolezza dell'Ambiguità tramite Apprendimento per Rinforzo

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

Abstract

Support