ChatPaper.aiChatPaper

A^2Search: Respuesta a Preguntas con Conciencia de Ambigüedad mediante Aprendizaje por Refuerzo

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

October 9, 2025
Autores: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) han llevado a un rendimiento sólido en la tarea de respuesta a preguntas de dominio abierto (QA, por sus siglas en inglés). Sin embargo, los modelos existentes aún tienen dificultades con preguntas que admiten múltiples respuestas válidas. Los benchmarks estándar de QA, que generalmente asumen una única respuesta correcta, pasan por alto esta realidad y, por lo tanto, generan señales de entrenamiento inapropiadas. Los intentos existentes para manejar la ambigüedad a menudo dependen de costosas anotaciones manuales, lo que es difícil de escalar a conjuntos de datos de múltiples saltos como HotpotQA y MuSiQue. En este artículo, presentamos A^2Search, un marco de entrenamiento de extremo a extremo y sin anotaciones para reconocer y manejar la ambigüedad. En su núcleo se encuentra una canalización automatizada que detecta preguntas ambiguas y recopila respuestas alternativas mediante muestreo de trayectorias y verificación de evidencias. El modelo se optimiza con RL utilizando una recompensa AnsF1 cuidadosamente diseñada, que naturalmente acomoda múltiples respuestas. Los experimentos en ocho benchmarks de QA de dominio abierto demuestran que A^2Search alcanza un nuevo rendimiento de vanguardia. Con solo una única ejecución, A^2Search-7B obtiene un puntaje promedio AnsF1@1 del 48.4% en cuatro benchmarks de múltiples saltos, superando a todas las líneas base fuertes, incluido el ReSearch-32B sustancialmente más grande (46.2%). Análisis extensos muestran además que A^2Search resuelve la ambigüedad y generaliza a través de los benchmarks, destacando que abrazar la ambigüedad es esencial para construir sistemas de QA más confiables. Nuestro código, datos y pesos del modelo se pueden encontrar en https://github.com/zfj1998/A2Search.
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search
PDF33October 10, 2025