A^2Search: Mehrdeutigkeitsbewusstes Frage-Antwort-System mit Verstärkungslernen
A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning
October 9, 2025
papers.authors: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI
papers.abstract
Jüngste Fortschritte bei Large Language Models (LLMs) und Reinforcement Learning (RL) haben zu einer starken Leistung im Bereich des Open-Domain Question Answering (QA) geführt. Bestehende Modelle haben jedoch nach wie vor Schwierigkeiten mit Fragen, die mehrere gültige Antworten zulassen. Standard-QA-Benchmarks, die in der Regel von einer einzigen Goldantwort ausgehen, übersehen diese Realität und erzeugen somit unangemessene Trainingssignale. Bisherige Versuche, Mehrdeutigkeiten zu behandeln, stützen sich oft auf kostspielige manuelle Annotationen, die sich nur schwer auf Multi-Hop-Datensätze wie HotpotQA und MuSiQue skalieren lassen. In diesem Artikel stellen wir A^2Search vor, ein annotierungsfreies, end-to-end Trainingsframework zur Erkennung und Handhabung von Mehrdeutigkeiten. Kernstück ist eine automatisierte Pipeline, die mehrdeutige Fragen erkennt und alternative Antworten durch Trajektorien-Sampling und Evidenzüberprüfung sammelt. Das Modell wird dann mit RL optimiert, wobei ein sorgfältig entworfenes AnsF1-Reward verwendet wird, das natürlicherweise mehrere Antworten berücksichtigt. Experimente auf acht Open-Domain-QA-Benchmarks zeigen, dass A^2Search eine neue State-of-the-Art-Leistung erzielt. Mit nur einem einzigen Rollout erzielt A^2Search-7B einen durchschnittlichen AnsF1@1-Score von 48,4 % über vier Multi-Hop-Benchmarks und übertrifft damit alle starken Baselines, einschließlich des deutlich größeren ReSearch-32B (46,2 %). Umfangreiche Analysen zeigen weiterhin, dass A^2Search Mehrdeutigkeiten auflöst und sich über Benchmarks hinweg verallgemeinert, was unterstreicht, dass die Berücksichtigung von Mehrdeutigkeiten entscheidend für den Aufbau zuverlässigerer QA-Systeme ist. Unser Code, Daten und Modellgewichte sind unter https://github.com/zfj1998/A2Search verfügbar.
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning
(RL) have led to strong performance in open-domain question answering (QA).
However, existing models still struggle with questions that admit multiple
valid answers. Standard QA benchmarks, which typically assume a single gold
answer, overlook this reality and thus produce inappropriate training signals.
Existing attempts to handle ambiguity often rely on costly manual annotation,
which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue.
In this paper, we present A^2Search, an annotation-free, end-to-end training
framework to recognize and handle ambiguity. At its core is an automated
pipeline that detects ambiguous questions and gathers alternative answers via
trajectory sampling and evidence verification. The model is then optimized with
RL using a carefully designed AnsF1 reward, which naturally
accommodates multiple answers. Experiments on eight open-domain QA benchmarks
demonstrate that A^2Search achieves new state-of-the-art performance. With
only a single rollout, A^2Search-7B yields an average AnsF1@1
score of 48.4% across four multi-hop benchmarks, outperforming all strong
baselines, including the substantially larger ReSearch-32B (46.2%).
Extensive analyses further show that A^2Search resolves ambiguity and
generalizes across benchmarks, highlighting that embracing ambiguity is
essential for building more reliable QA systems. Our code, data, and model
weights can be found at https://github.com/zfj1998/A2Search