DocDancer: Rumo à Busca de Informações com Base em Documentos Orientada por Agentes

Resumo

A Resposta a Perguntas sobre Documentos (DocQA) concentra-se em responder a perguntas baseadas em documentos fornecidos, no entanto, os agentes de DocQA existentes carecem de uma utilização eficaz de ferramentas e dependem maioritariamente de modelos de código fechado. Neste trabalho, apresentamos o DocDancer, um agente de documentos de código aberto treinado de forma integral. Formula-mos o DocQA como um problema de busca de informação e propomos uma arquitetura de agente orientada a ferramentas que modela explicitamente a exploração e compreensão de documentos. Para permitir o treino integral de tais agentes, introduzimos um pipeline de síntese de dados do tipo Exploração-antes-de-Síntese que resolve a escassez de dados de treino de alta qualidade para o DocQA. O treino com os dados sintetizados, e os modelos resultantes avaliados em dois benchmarks de compreensão de documentos de contexto longo, o MMLongBench-Doc e o DocBench, demonstram a sua eficácia. Uma análise mais aprofundada fornece informações valiosas para o design de ferramentas agentes e dados sintéticos.

English

Document Question Answering (DocQA) focuses on answering questions grounded in given documents, yet existing DocQA agents lack effective tool utilization and largely rely on closed-source models. In this work, we introduce DocDancer, an end-to-end trained open-source Doc agent. We formulate DocQA as an information-seeking problem and propose a tool-driven agent framework that explicitly models document exploration and comprehension. To enable end-to-end training of such agents, we introduce an Exploration-then-Synthesis data synthesis pipeline that addresses the scarcity of high-quality training data for DocQA. Training on the synthesized data, the trained models on two long-context document understanding benchmarks, MMLongBench-Doc and DocBench, show their effectiveness. Further analysis provides valuable insights for the agentic tool design and synthetic data.