Web-CogReasoner: Auf dem Weg zu wissensinduziertem kognitivem Reasoning für Web-Agenten

papers.abstract

Multimodale großskalige Modelle haben die Entwicklung von Web-Agenten erheblich vorangetrieben und ermöglichen eine Wahrnehmung und Interaktion mit digitalen Umgebungen, die der menschlichen Kognition ähnelt. In diesem Artikel argumentieren wir, dass Web-Agenten zunächst ausreichend Wissen erwerben müssen, um effektiv an kognitiven Denkprozessen teilnehmen zu können. Daher unterteilen wir die Fähigkeiten eines Web-Agenten in zwei wesentliche Phasen: Wissensinhaltslernen und kognitive Prozesse. Um dies zu formalisieren, schlagen wir das Web-CogKnowledge-Framework vor, das Wissen in die Kategorien Faktisch, Konzeptionell und Prozedural einteilt. In diesem Framework entspricht das Wissensinhaltslernen den Prozessen des Merkens und Verstehens des Agenten, die sich auf die ersten beiden Wissensarten stützen und das „Was“ des Lernens darstellen. Im Gegensatz dazu entsprechen die kognitiven Prozesse dem Erkunden, das auf prozeduralem Wissen basiert und das „Wie“ des Denkens und Handelns definiert. Um den Wissenserwerb zu erleichtern, erstellen wir das Web-CogDataset, eine strukturierte Ressource, die aus 14 realen Websites kuratiert wurde und darauf abzielt, das Kernwissen, das für einen Web-Agenten erforderlich ist, systematisch zu vermitteln. Dieser Datensatz dient als konzeptionelle Grundlage des Agenten – die „Substantive“, auf denen das Verständnis aufbaut – sowie als Basis für das Erlernen des Denkens und Handelns. Auf dieser Grundlage operationalisieren wir diese Prozesse durch einen neuartigen wissensgesteuerten Chain-of-Thought (CoT)-Denkrahmen und entwickeln und trainieren unseren vorgeschlagenen Agenten, den Web-CogReasoner. Umfangreiche Experimente zeigen seine deutliche Überlegenheit gegenüber bestehenden Modellen, insbesondere bei der Generalisierung auf unbekannte Aufgaben, bei denen strukturiertes Wissen entscheidend ist. Um eine strenge Bewertung zu ermöglichen, führen wir den Web-CogBench ein, eine umfassende Evaluationssuite, die darauf abzielt, die Leistung von Agenten in den definierten Wissensdomänen und kognitiven Fähigkeiten zu bewerten und zu vergleichen. Unser Code und unsere Daten sind unter https://github.com/Gnonymous/Web-CogReasoner open source verfügbar.

English

Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner

Web-CogReasoner: Auf dem Weg zu wissensinduziertem kognitivem Reasoning für Web-Agenten

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

papers.abstract

Support