DocDancer: 에이전트 기반 문서 기반 정보 탐색을 향하여
DocDancer: Towards Agentic Document-Grounded Information Seeking
January 8, 2026
저자: Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao, Guochen Yan, Huanyao Zhang, Bin Wang, Jiahao Xu, Haitao Mi, Wentao Zhang
cs.AI
초록
문서 질의응답(DocQA)은 주어진 문서에 기반하여 질문에 답변하는 데 중점을 두지만, 기존 DocQA 에이전트는 효과적인 도구 활용이 부족하고 대부분 폐쇄형 모델에 의존합니다. 본 연구에서는 종단간 학습된 오픈소스 문서 에이전트인 DocDancer를 소개합니다. 우리는 DocQA를 정보 탐색 문제로 재정의하고, 문서 탐색과 이해를 명시적으로 모델링하는 도구 주도 에이전트 프레임워크를 제안합니다. 이러한 에이전트의 종단간 학습을 가능하게 하기 위해, DocQA를 위한 고품질 학습 데이터 부족 문제를 해결하는 Exploration-then-Synthesis 데이터 합성 파이프라인을 도입했습니다. 합성된 데이터로 학습한 결과, 두 가지 장문맥 문서 이해 벤치마크인 MMLongBench-Doc와 DocBench에서 모델의 효과성이 입증되었습니다. 추가 분석을 통해 에이전트 도구 설계와 합성 데이터에 대한 유용한 통찰을 제시합니다.
English
Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.