ChatPaper.aiChatPaper

A^2Search:曖昧さを考慮した強化学習による質問応答

A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

October 9, 2025
著者: Fengji Zhang, Xinyao Niu, Chengyang Ying, Guancheng Lin, Zhongkai Hao, Zhou Fan, Chengen Huang, Jacky Keung, Bei Chen, Junyang Lin
cs.AI

要旨

大規模言語モデル(LLMs)と強化学習(RL)の最近の進展により、オープンドメイン質問応答(QA)において強力な性能が実現されています。しかし、既存のモデルは、複数の有効な回答が存在する質問に対処する際に依然として困難を抱えています。通常、単一の正解を想定する標準的なQAベンチマークはこの現実を見落としており、不適切なトレーニング信号を生成しています。曖昧さを扱う既存の試みは、多くの場合、コストのかかる手動アノテーションに依存しており、HotpotQAやMuSiQueなどのマルチホップデータセットに拡張するのが困難です。本論文では、曖昧さを認識し対処するためのアノテーションフリーのエンドツーエンドトレーニングフレームワークであるA^2Searchを提案します。その中核は、曖昧な質問を検出し、軌道サンプリングと証拠検証を通じて代替回答を収集する自動化されたパイプラインです。モデルは、複数の回答を自然に受け入れるように設計されたAnsF1報酬を用いてRLで最適化されます。8つのオープンドメインQAベンチマークでの実験により、A^2Searchが新たな最先端の性能を達成することが示されました。単一のロールアウトのみで、A^2Search-7Bは4つのマルチホップベンチマークで平均AnsF1@1スコア48.4%を達成し、ReSearch-32B(46.2%)を含むすべての強力なベースラインを上回りました。詳細な分析により、A^2Searchが曖昧さを解決し、ベンチマーク間で一般化することがさらに示され、曖昧さを受け入れることがより信頼性の高いQAシステムを構築するために不可欠であることが強調されています。コード、データ、およびモデルウェイトはhttps://github.com/zfj1998/A2Searchで公開されています。
English
Recent advances in Large Language Models (LLMs) and Reinforcement Learning (RL) have led to strong performance in open-domain question answering (QA). However, existing models still struggle with questions that admit multiple valid answers. Standard QA benchmarks, which typically assume a single gold answer, overlook this reality and thus produce inappropriate training signals. Existing attempts to handle ambiguity often rely on costly manual annotation, which is difficult to scale to multi-hop datasets such as HotpotQA and MuSiQue. In this paper, we present A^2Search, an annotation-free, end-to-end training framework to recognize and handle ambiguity. At its core is an automated pipeline that detects ambiguous questions and gathers alternative answers via trajectory sampling and evidence verification. The model is then optimized with RL using a carefully designed AnsF1 reward, which naturally accommodates multiple answers. Experiments on eight open-domain QA benchmarks demonstrate that A^2Search achieves new state-of-the-art performance. With only a single rollout, A^2Search-7B yields an average AnsF1@1 score of 48.4% across four multi-hop benchmarks, outperforming all strong baselines, including the substantially larger ReSearch-32B (46.2%). Extensive analyses further show that A^2Search resolves ambiguity and generalizes across benchmarks, highlighting that embracing ambiguity is essential for building more reliable QA systems. Our code, data, and model weights can be found at https://github.com/zfj1998/A2Search
PDF33October 10, 2025