Web-CogReasoner: Auf dem Weg zu wissensinduziertem kognitivem Reasoning für Web-Agenten
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
August 3, 2025
papers.authors: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI
papers.abstract
Multimodale großskalige Modelle haben die Entwicklung von Web-Agenten erheblich vorangetrieben und ermöglichen eine Wahrnehmung und Interaktion mit digitalen Umgebungen, die der menschlichen Kognition ähnelt. In diesem Artikel argumentieren wir, dass Web-Agenten zunächst ausreichend Wissen erwerben müssen, um effektiv an kognitiven Denkprozessen teilnehmen zu können. Daher unterteilen wir die Fähigkeiten eines Web-Agenten in zwei wesentliche Phasen: Wissensinhaltslernen und kognitive Prozesse. Um dies zu formalisieren, schlagen wir das Web-CogKnowledge-Framework vor, das Wissen in die Kategorien Faktisch, Konzeptionell und Prozedural einteilt. In diesem Framework entspricht das Wissensinhaltslernen den Prozessen des Merkens und Verstehens des Agenten, die sich auf die ersten beiden Wissensarten stützen und das „Was“ des Lernens darstellen. Im Gegensatz dazu entsprechen die kognitiven Prozesse dem Erkunden, das auf prozeduralem Wissen basiert und das „Wie“ des Denkens und Handelns definiert. Um den Wissenserwerb zu erleichtern, erstellen wir das Web-CogDataset, eine strukturierte Ressource, die aus 14 realen Websites kuratiert wurde und darauf abzielt, das Kernwissen, das für einen Web-Agenten erforderlich ist, systematisch zu vermitteln. Dieser Datensatz dient als konzeptionelle Grundlage des Agenten – die „Substantive“, auf denen das Verständnis aufbaut – sowie als Basis für das Erlernen des Denkens und Handelns. Auf dieser Grundlage operationalisieren wir diese Prozesse durch einen neuartigen wissensgesteuerten Chain-of-Thought (CoT)-Denkrahmen und entwickeln und trainieren unseren vorgeschlagenen Agenten, den Web-CogReasoner. Umfangreiche Experimente zeigen seine deutliche Überlegenheit gegenüber bestehenden Modellen, insbesondere bei der Generalisierung auf unbekannte Aufgaben, bei denen strukturiertes Wissen entscheidend ist. Um eine strenge Bewertung zu ermöglichen, führen wir den Web-CogBench ein, eine umfassende Evaluationssuite, die darauf abzielt, die Leistung von Agenten in den definierten Wissensdomänen und kognitiven Fähigkeiten zu bewerten und zu vergleichen. Unser Code und unsere Daten sind unter https://github.com/Gnonymous/Web-CogReasoner open source verfügbar.
English
Multimodal large-scale models have significantly advanced the development of
web agents, enabling perception and interaction with digital environments akin
to human cognition. In this paper, we argue that web agents must first acquire
sufficient knowledge to effectively engage in cognitive reasoning. Therefore,
we decompose a web agent's capabilities into two essential stages: knowledge
content learning and cognitive processes. To formalize this, we propose
Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and
Procedural. In this framework, knowledge content learning corresponds to the
agent's processes of Memorizing and Understanding, which rely on the first two
knowledge types, representing the "what" of learning. Conversely, cognitive
processes correspond to Exploring, grounded in Procedural knowledge, defining
the "how" of reasoning and action. To facilitate knowledge acquisition, we
construct the Web-CogDataset, a structured resource curated from 14 real-world
websites, designed to systematically instill core knowledge necessary for web
agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon
which comprehension is built-as well as the basis for learning how to reason
and act. Building on this foundation, we operationalize these processes through
a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing
and training our proposed agent, the Web-CogReasoner. Extensive experimentation
reveals its significant superiority over existing models, especially in
generalizing to unseen tasks where structured knowledge is decisive. To enable
rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation
suite designed to assess and compare agent performance across the delineated
knowledge domains and cognitive capabilities. Our code and data is open sourced
at https://github.com/Gnonymous/Web-CogReasoner