ChatPaper.aiChatPaper

WebShaper: Síntesis de Datos Agéntica mediante Formalización de Búsqueda de Información

WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

July 20, 2025
Autores: Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Resumen

El surgimiento de agentes impulsados por Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) ha revolucionado la inteligencia artificial al permitir soluciones a tareas complejas y abiertas mediante capacidades de búsqueda de información (IS, por sus siglas en inglés) basadas en la web. La escasez de datos de entrenamiento de alta calidad ha limitado el desarrollo de agentes IS. Los enfoques existentes suelen adoptar un paradigma impulsado por la información que primero recopila datos web y luego genera preguntas basadas en la recuperación. Sin embargo, esto puede llevar a inconsistencias entre la estructura de la información y la estructura de razonamiento, así como entre la pregunta y la respuesta. Para mitigar esto, proponemos un marco de síntesis de datos IS basado en formalización, llamado WebShaper, para construir un conjunto de datos. WebShaper formaliza sistemáticamente las tareas IS mediante la teoría de conjuntos. Central a esta formalización es el concepto de Proyecciones de Conocimiento (KP, por sus siglas en inglés), que permite un control preciso sobre la estructura de razonamiento a través de composiciones de operaciones KP. Durante la síntesis, comenzamos creando tareas semilla y luego utilizamos un proceso de expansión de múltiples pasos. En cada paso, un Expansor agente amplía la pregunta formal actual haciéndola más compleja con herramientas de recuperación y validación basadas en nuestra formalización. Entrenamos nuestro modelo en el conjunto de datos sintetizado. Los resultados de los experimentos demuestran que WebShaper alcanza un rendimiento de vanguardia entre los agentes IS de código abierto en los benchmarks GAIA y WebWalkerQA.
English
The advent of Large Language Model (LLM)-powered agents has revolutionized artificial intelligence by enabling solutions to complex, open-ended tasks through web-based information-seeking (IS) capabilities. The scarcity of high-quality training data has limited the development of IS agents. Existing approaches typically adopt an information-driven paradigm that first collects web data and then generates questions based on the retrieval. However, this may lead to inconsistency between information structure and reasoning structure, question and answer. To mitigate, we propose a formalization-driven IS data synthesis framework WebShaper to construct a dataset. WebShaper systematically formalizes IS tasks through set theory. Central to the formalization is the concept of Knowledge Projections (KP), which enables precise control over reasoning structure by KP operation compositions. During synthesis, we begin by creating seed tasks, then use a multi-step expansion process. At each step, an agentic Expander expands the current formal question more complex with retrieval and validation tools based on our formalization. We train our model on the synthesized dataset. Experiment results demonstrate that WebShaper achieves state-of-the-art performance among open-sourced IS agents on GAIA and WebWalkerQA benchmarks.
PDF395July 22, 2025