ChatPaper.aiChatPaper

A^2Search: Resolução de Perguntas com Consciência de Ambiguidade Usando Aprendizado por Reforço

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

October 9, 2025
Autores: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI

Resumo

Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e Aprendizado por Reforço (RL) levaram a um desempenho robusto em questionamento e resposta (QA) de domínio aberto. No entanto, os modelos existentes ainda enfrentam dificuldades com perguntas que admitem múltiplas respostas válidas. Os benchmarks padrão de QA, que geralmente assumem uma única resposta correta, ignoram essa realidade e, portanto, produzem sinais de treinamento inadequados. As tentativas existentes para lidar com a ambiguidade frequentemente dependem de anotações manuais custosas, que são difíceis de escalar para conjuntos de dados multi-hop, como HotpotQA e MuSiQue. Neste artigo, apresentamos o A^2Search, uma estrutura de treinamento de ponta a ponta e sem anotações para reconhecer e lidar com a ambiguidade. Em seu núcleo está um pipeline automatizado que detecta perguntas ambíguas e coleta respostas alternativas por meio de amostragem de trajetória e verificação de evidências. O modelo é então otimizado com RL usando uma recompensa AnsF1 cuidadosamente projetada, que naturalmente acomoda múltiplas respostas. Experimentos em oito benchmarks de QA de domínio aberto demonstram que o A^2Search alcança um novo desempenho de ponta. Com apenas uma única execução, o A^2Search-7B produz uma pontuação média AnsF1@1 de 48,4% em quatro benchmarks multi-hop, superando todas as linhas de base fortes, incluindo o ReSearch-32B (46,2%), substancialmente maior. Análises extensas mostram ainda que o A^2Search resolve a ambiguidade e generaliza entre benchmarks, destacando que abraçar a ambiguidade é essencial para construir sistemas de QA mais confiáveis. Nosso código, dados e pesos do modelo podem ser encontrados em https://github.com/zfj1998/A2Search.
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search
PDF33October 10, 2025