ChatPaper.aiChatPaper

WebShaper : Synthèse de données agentique via une formalisation de recherche d'information

WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

July 20, 2025
papers.authors: Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

papers.abstract

L'avènement des agents alimentés par des modèles de langage de grande taille (LLM) a révolutionné l'intelligence artificielle en permettant la résolution de tâches complexes et ouvertes grâce à des capacités de recherche d'information (RI) basées sur le web. La rareté de données d'entraînement de haute qualité a limité le développement des agents de RI. Les approches existantes adoptent généralement un paradigme axé sur l'information, qui consiste d'abord à collecter des données web, puis à générer des questions basées sur la récupération. Cependant, cela peut entraîner une incohérence entre la structure de l'information et la structure de raisonnement, ainsi qu'entre la question et la réponse. Pour remédier à cela, nous proposons un cadre de synthèse de données de RI piloté par la formalisation, appelé WebShaper, afin de construire un ensemble de données. WebShaper formalise systématiquement les tâches de RI à travers la théorie des ensembles. Au cœur de cette formalisation se trouve le concept de Projections de Connaissance (KP), qui permet un contrôle précis de la structure de raisonnement grâce à des compositions d'opérations de KP. Lors de la synthèse, nous commençons par créer des tâches de base, puis utilisons un processus d'expansion en plusieurs étapes. À chaque étape, un agent Expander complexifie la question formelle actuelle à l'aide d'outils de récupération et de validation basés sur notre formalisation. Nous entraînons notre modèle sur l'ensemble de données synthétisé. Les résultats expérimentaux montrent que WebShaper atteint des performances de pointe parmi les agents de RI open-source sur les benchmarks GAIA et WebWalkerQA.
English
The advent of Large Language Model (LLM)-powered agents has revolutionized artificial intelligence by enabling solutions to complex, open-ended tasks through web-based information-seeking (IS) capabilities. The scarcity of high-quality training data has limited the development of IS agents. Existing approaches typically adopt an information-driven paradigm that first collects web data and then generates questions based on the retrieval. However, this may lead to inconsistency between information structure and reasoning structure, question and answer. To mitigate, we propose a formalization-driven IS data synthesis framework WebShaper to construct a dataset. WebShaper systematically formalizes IS tasks through set theory. Central to the formalization is the concept of Knowledge Projections (KP), which enables precise control over reasoning structure by KP operation compositions. During synthesis, we begin by creating seed tasks, then use a multi-step expansion process. At each step, an agentic Expander expands the current formal question more complex with retrieval and validation tools based on our formalization. We train our model on the synthesized dataset. Experiment results demonstrate that WebShaper achieves state-of-the-art performance among open-sourced IS agents on GAIA and WebWalkerQA benchmarks.
PDF395July 22, 2025