Web-CogReasoner: Naar Kennis-Gestuurd Cognitief Redeneren voor Webagentschappen
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
August 3, 2025
Auteurs: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI
Samenvatting
Multimodale grootschalige modellen hebben de ontwikkeling van webagents aanzienlijk bevorderd, waardoor perceptie en interactie met digitale omgevingen mogelijk worden gemaakt die vergelijkbaar zijn met menselijke cognitie. In dit artikel stellen we dat webagents eerst voldoende kennis moeten verwerven om effectief deel te nemen aan cognitief redeneren. Daarom verdelen we de capaciteiten van een webagent in twee essentiële fasen: kennisinhoud leren en cognitieve processen. Om dit te formaliseren, stellen we het Web-CogKnowledge Framework voor, waarin kennis wordt gecategoriseerd als Feitelijk, Conceptueel en Procedureel. In dit framework komt kennisinhoud leren overeen met de processen van het agent om te Memoreren en Begrijpen, die afhankelijk zijn van de eerste twee kennissoorten, die het "wat" van het leren vertegenwoordigen. Daarentegen komen cognitieve processen overeen met Exploreren, gebaseerd op Procedurele kennis, wat het "hoe" van redeneren en handelen definieert. Om kennisverwerving te vergemakkelijken, construeren we de Web-CogDataset, een gestructureerde bron samengesteld uit 14 real-world websites, ontworpen om systematisch de kernkennis die nodig is voor een webagent bij te brengen. Deze dataset dient als het conceptuele fundament van de agent – de "zelfstandige naamwoorden" waarop begrip is gebouwd – evenals de basis voor het leren hoe te redeneren en te handelen. Op basis van deze fundering operationaliseren we deze processen door middel van een nieuw kennisgedreven Chain-of-Thought (CoT) redeneerframework, waarbij we onze voorgestelde agent, de Web-CogReasoner, ontwikkelen en trainen. Uitgebreide experimenten tonen aan dat deze aanzienlijk superieur is aan bestaande modellen, vooral in het generaliseren naar onbekende taken waar gestructureerde kennis beslissend is. Om rigoureuze evaluatie mogelijk te maken, introduceren we de Web-CogBench, een uitgebreide evaluatiesuite ontworpen om de prestaties van agents te beoordelen en te vergelijken binnen de afgebakende kennisdomeinen en cognitieve capaciteiten. Onze code en data zijn open source beschikbaar op https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of
web agents, enabling perception and interaction with digital environments akin
to human cognition. In this paper, we argue that web agents must first acquire
sufficient knowledge to effectively engage in cognitive reasoning. Therefore,
we decompose a web agent's capabilities into two essential stages: knowledge
content learning and cognitive processes. To formalize this, we propose
Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and
Procedural. In this framework, knowledge content learning corresponds to the
agent's processes of Memorizing and Understanding, which rely on the first two
knowledge types, representing the "what" of learning. Conversely, cognitive
processes correspond to Exploring, grounded in Procedural knowledge, defining
the "how" of reasoning and action. To facilitate knowledge acquisition, we
construct the Web-CogDataset, a structured resource curated from 14 real-world
websites, designed to systematically instill core knowledge necessary for web
agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon
which comprehension is built-as well as the basis for learning how to reason
and act. Building on this foundation, we operationalize these processes through
a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing
and training our proposed agent, the Web-CogReasoner. Extensive experimentation
reveals its significant superiority over existing models, especially in
generalizing to unseen tasks where structured knowledge is decisive. To enable
rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation
suite designed to assess and compare agent performance across the delineated
knowledge domains and cognitive capabilities. Our code and data is open sourced
at https://github.com/Gnonymous/Web-CogReasoner