Web-CogReasoner : Vers un raisonnement cognitif induit par la connaissance pour les agents Web
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
August 3, 2025
papers.authors: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI
papers.abstract
Les modèles multimodaux à grande échelle ont considérablement fait progresser le développement des agents web, permettant une perception et une interaction avec les environnements numériques similaires à la cognition humaine. Dans cet article, nous soutenons que les agents web doivent d'abord acquérir des connaissances suffisantes pour s'engager efficacement dans un raisonnement cognitif. Par conséquent, nous décomposons les capacités d'un agent web en deux étapes essentielles : l'apprentissage du contenu des connaissances et les processus cognitifs. Pour formaliser cela, nous proposons le cadre Web-CogKnowledge, qui catégorise les connaissances en Factuelles, Conceptuelles et Procédurales. Dans ce cadre, l'apprentissage du contenu des connaissances correspond aux processus de Mémorisation et de Compréhension de l'agent, qui reposent sur les deux premiers types de connaissances, représentant le "quoi" de l'apprentissage. À l'inverse, les processus cognitifs correspondent à l'Exploration, basée sur les connaissances Procédurales, définissant le "comment" du raisonnement et de l'action. Pour faciliter l'acquisition des connaissances, nous construisons le Web-CogDataset, une ressource structurée issue de 14 sites web réels, conçue pour inculquer systématiquement les connaissances fondamentales nécessaires à un agent web. Ce jeu de données sert de base conceptuelle à l'agent — les "noms" sur lesquels la compréhension est construite — ainsi que de fondement pour apprendre à raisonner et à agir. Sur cette base, nous opérationnalisons ces processus à travers un nouveau cadre de raisonnement en chaîne de pensée (Chain-of-Thought, CoT) piloté par les connaissances, développant et entraînant notre agent proposé, le Web-CogReasoner. Des expérimentations approfondies révèlent sa supériorité significative par rapport aux modèles existants, en particulier dans la généralisation à des tâches inédites où les connaissances structurées sont déterminantes. Pour permettre une évaluation rigoureuse, nous introduisons le Web-CogBench, une suite d'évaluation complète conçue pour mesurer et comparer les performances des agents à travers les domaines de connaissances et les capacités cognitives définis. Notre code et nos données sont open source à l'adresse https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of
web agents, enabling perception and interaction with digital environments akin
to human cognition. In this paper, we argue that web agents must first acquire
sufficient knowledge to effectively engage in cognitive reasoning. Therefore,
we decompose a web agent's capabilities into two essential stages: knowledge
content learning and cognitive processes. To formalize this, we propose
Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and
Procedural. In this framework, knowledge content learning corresponds to the
agent's processes of Memorizing and Understanding, which rely on the first two
knowledge types, representing the "what" of learning. Conversely, cognitive
processes correspond to Exploring, grounded in Procedural knowledge, defining
the "how" of reasoning and action. To facilitate knowledge acquisition, we
construct the Web-CogDataset, a structured resource curated from 14 real-world
websites, designed to systematically instill core knowledge necessary for web
agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon
which comprehension is built-as well as the basis for learning how to reason
and act. Building on this foundation, we operationalize these processes through
a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing
and training our proposed agent, the Web-CogReasoner. Extensive experimentation
reveals its significant superiority over existing models, especially in
generalizing to unseen tasks where structured knowledge is decisive. To enable
rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation
suite designed to assess and compare agent performance across the delineated
knowledge domains and cognitive capabilities. Our code and data is open sourced
at https://github.com/Gnonymous/Web-CogReasoner