WebShaper : Synthèse de données agentique via une formalisation de recherche d'information
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
July 20, 2025
papers.authors: Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
L'avènement des agents alimentés par des modèles de langage de grande taille (LLM) a révolutionné l'intelligence artificielle en permettant la résolution de tâches complexes et ouvertes grâce à des capacités de recherche d'information (RI) basées sur le web. La rareté de données d'entraînement de haute qualité a limité le développement des agents de RI. Les approches existantes adoptent généralement un paradigme axé sur l'information, qui consiste d'abord à collecter des données web, puis à générer des questions basées sur la récupération. Cependant, cela peut entraîner une incohérence entre la structure de l'information et la structure de raisonnement, ainsi qu'entre la question et la réponse. Pour remédier à cela, nous proposons un cadre de synthèse de données de RI piloté par la formalisation, appelé WebShaper, afin de construire un ensemble de données. WebShaper formalise systématiquement les tâches de RI à travers la théorie des ensembles. Au cœur de cette formalisation se trouve le concept de Projections de Connaissance (KP), qui permet un contrôle précis de la structure de raisonnement grâce à des compositions d'opérations de KP. Lors de la synthèse, nous commençons par créer des tâches de base, puis utilisons un processus d'expansion en plusieurs étapes. À chaque étape, un agent Expander complexifie la question formelle actuelle à l'aide d'outils de récupération et de validation basés sur notre formalisation. Nous entraînons notre modèle sur l'ensemble de données synthétisé. Les résultats expérimentaux montrent que WebShaper atteint des performances de pointe parmi les agents de RI open-source sur les benchmarks GAIA et WebWalkerQA.
English
The advent of Large Language Model (LLM)-powered agents has revolutionized
artificial intelligence by enabling solutions to complex, open-ended tasks
through web-based information-seeking (IS) capabilities. The scarcity of
high-quality training data has limited the development of IS agents. Existing
approaches typically adopt an information-driven paradigm that first collects
web data and then generates questions based on the retrieval. However, this may
lead to inconsistency between information structure and reasoning structure,
question and answer. To mitigate, we propose a formalization-driven IS data
synthesis framework WebShaper to construct a dataset. WebShaper systematically
formalizes IS tasks through set theory. Central to the formalization is the
concept of Knowledge Projections (KP), which enables precise control over
reasoning structure by KP operation compositions. During synthesis, we begin by
creating seed tasks, then use a multi-step expansion process. At each step, an
agentic Expander expands the current formal question more complex with
retrieval and validation tools based on our formalization. We train our model
on the synthesized dataset. Experiment results demonstrate that WebShaper
achieves state-of-the-art performance among open-sourced IS agents on GAIA and
WebWalkerQA benchmarks.