DocDancer:エージェント型文書ベース情報検索へのアプローチ
DocDancer: Towards Agentic Document-Grounded Information Seeking
January 8, 2026
著者: Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao, Guochen Yan, Huanyao Zhang, Bin Wang, Jiahao Xu, Haitao Mi, Wentao Zhang
cs.AI
要旨
文書質問応答(DocQA)は、与えられた文書に基づいて質問に答えることを目的とするが、既存のDocQAエージェントは効果的なツール活用が不足しており、大部分がクローズドソースモデルに依存している。本研究では、エンドツーエンドで学習されたオープンソースの文書エージェントであるDocDancerを提案する。我々はDocQAを情報探索問題として定式化し、文書の探索と理解を明示的にモデル化するツール駆動型エージェントフレームワークを提案する。このようなエージェントのエンドツーエンド学習を可能にするため、DocQAにおける高品質な学習データの不足に対処するExploration-then-Synthesisデータ合成パイプラインを導入する。合成データで学習したモデルは、2つの長文脈文書理解ベンチマーク(MMLongBench-DocおよびDocBench)において有効性を示した。更なる分析は、エージェントツール設計と合成データに関する有益な知見を提供する。
English
Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.