ChatPaper.aiChatPaper

DocDancer: К созданию агентного информационного поиска на основе документов

DocDancer: Towards Agentic Document-Grounded Information Seeking

January 8, 2026
Авторы: Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao, Guochen Yan, Huanyao Zhang, Bin Wang, Jiahao Xu, Haitao Mi, Wentao Zhang
cs.AI

Аннотация

Документное вопросно-ответное взаимодействие (DocQA) ориентировано на ответы на вопросы, основанные на заданных документах, однако существующие агенты DocQA не обладают эффективным использованием инструментов и в значительной степени полагаются на закрытые модели. В данной работе мы представляем DocDancer — обучаемого сквозным образом агента с открытым исходным кодом для работы с документами. Мы формулируем DocQA как проблему поиска информации и предлагаем инструментально-ориентированную архитектуру агента, которая явно моделирует исследование и понимание документов. Для обеспечения сквозного обучения таких агентов мы внедряем конвейер синтеза данных «Исследование-затем-Синтез», решающий проблему нехватки высококачественных обучающих данных для DocQA. Обучение на синтезированных данных демонстрирует эффективность подготовленных моделей на двух тестах для понимания длинных документов: MMLongBench-Doc и DocBench. Дополнительный анализ предоставляет ценные инсайты для проектирования агентских инструментов и синтетических данных.
English
Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.
PDF31January 10, 2026