A^2Search: Поиск ответов с учетом неоднозначности с использованием обучения с подкреплением

Аннотация

Последние достижения в области больших языковых моделей (LLM) и обучения с подкреплением (RL) привели к значительному улучшению производительности в задачах открытого вопросно-ответного взаимодействия (QA). Однако существующие модели по-прежнему испытывают трудности с вопросами, которые допускают несколько допустимых ответов. Стандартные бенчмарки QA, которые обычно предполагают наличие единственного правильного ответа, игнорируют эту реальность и, таким образом, создают неадекватные обучающие сигналы. Существующие попытки работы с неоднозначностью часто опираются на дорогостоящую ручную аннотацию, которую сложно масштабировать на многозвенные наборы данных, такие как HotpotQA и MuSiQue. В данной статье мы представляем A^2Search — аннотационно-независимую, сквозную обучающую платформу для распознавания и обработки неоднозначности. В её основе лежит автоматизированный процесс, который обнаруживает неоднозначные вопросы и собирает альтернативные ответы с помощью сэмплирования траекторий и проверки доказательств. Модель затем оптимизируется с использованием RL с тщательно разработанной наградой AnsF1, которая естественным образом учитывает множественные ответы. Эксперименты на восьми бенчмарках открытого QA демонстрируют, что A^2Search достигает нового уровня state-of-the-art производительности. Всего за один прогон A^2Search-7B показывает средний показатель AnsF1@1 в 48,4% на четырёх многозвенных бенчмарках, превосходя все сильные базовые модели, включая значительно более крупную ReSearch-32B (46,2%). Детальные анализы также показывают, что A^2Search успешно справляется с неоднозначностью и обобщает результаты на различных бенчмарках, подчеркивая, что принятие неоднозначности является ключевым для создания более надёжных QA-систем. Наш код, данные и веса модели доступны по адресу https://github.com/zfj1998/A2Search.

English

Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search

A^2Search: Поиск ответов с учетом неоднозначности с использованием обучения с подкреплением

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

Аннотация

Support