DocDancer: Hacia la Búsqueda de Información con Base Documental Agéntica
DocDancer: Towards Agentic Document-Grounded Information Seeking
January 8, 2026
Autores: Qintong Zhang, Xinjie Lv, Jialong Wu, Baixuan Li, Zhengwei Tao, Guochen Yan, Huanyao Zhang, Bin Wang, Jiahao Xu, Haitao Mi, Wentao Zhang
cs.AI
Resumen
La Respuesta a Preguntas sobre Documentos (DocQA) se centra en responder preguntas basadas en documentos dados, pero los agentes de DocQA existentes carecen de una utilización efectiva de herramientas y dependen en gran medida de modelos de código cerrado. En este trabajo, presentamos DocDancer, un agente de documentos de código abierto entrenado de extremo a extremo. Formulamos DocQA como un problema de búsqueda de información y proponemos un marco de agente impulsado por herramientas que modela explícitamente la exploración y comprensión de documentos. Para permitir el entrenamiento de extremo a extremo de dichos agentes, introducimos una canalización de síntesis de datos de Exploración-y-luego-Síntesis que aborda la escasez de datos de entrenamiento de alta calidad para DocQA. El entrenamiento con los datos sintetizados, y los modelos resultantes evaluados en dos benchmarks de comprensión de documentos de contexto largo, MMLongBench-Doc y DocBench, demuestran su eficacia. Un análisis adicional proporciona información valiosa para el diseño de herramientas de agentes y los datos sintéticos.
English
Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.