Web-CogReasoner: Naar Kennis-Gestuurd Cognitief Redeneren voor Webagentschappen

Samenvatting

Multimodale grootschalige modellen hebben de ontwikkeling van webagents aanzienlijk bevorderd, waardoor perceptie en interactie met digitale omgevingen mogelijk worden gemaakt die vergelijkbaar zijn met menselijke cognitie. In dit artikel stellen we dat webagents eerst voldoende kennis moeten verwerven om effectief deel te nemen aan cognitief redeneren. Daarom verdelen we de capaciteiten van een webagent in twee essentiële fasen: kennisinhoud leren en cognitieve processen. Om dit te formaliseren, stellen we het Web-CogKnowledge Framework voor, waarin kennis wordt gecategoriseerd als Feitelijk, Conceptueel en Procedureel. In dit framework komt kennisinhoud leren overeen met de processen van het agent om te Memoreren en Begrijpen, die afhankelijk zijn van de eerste twee kennissoorten, die het "wat" van het leren vertegenwoordigen. Daarentegen komen cognitieve processen overeen met Exploreren, gebaseerd op Procedurele kennis, wat het "hoe" van redeneren en handelen definieert. Om kennisverwerving te vergemakkelijken, construeren we de Web-CogDataset, een gestructureerde bron samengesteld uit 14 real-world websites, ontworpen om systematisch de kernkennis die nodig is voor een webagent bij te brengen. Deze dataset dient als het conceptuele fundament van de agent – de "zelfstandige naamwoorden" waarop begrip is gebouwd – evenals de basis voor het leren hoe te redeneren en te handelen. Op basis van deze fundering operationaliseren we deze processen door middel van een nieuw kennisgedreven Chain-of-Thought (CoT) redeneerframework, waarbij we onze voorgestelde agent, de Web-CogReasoner, ontwikkelen en trainen. Uitgebreide experimenten tonen aan dat deze aanzienlijk superieur is aan bestaande modellen, vooral in het generaliseren naar onbekende taken waar gestructureerde kennis beslissend is. Om rigoureuze evaluatie mogelijk te maken, introduceren we de Web-CogBench, een uitgebreide evaluatiesuite ontworpen om de prestaties van agents te beoordelen en te vergelijken binnen de afgebakende kennisdomeinen en cognitieve capaciteiten. Onze code en data zijn open source beschikbaar op https://github.com/Gnonymous/Web-CogReasoner.

English

Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner

Web-CogReasoner: Naar Kennis-Gestuurd Cognitief Redeneren voor Webagentschappen

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

Samenvatting

Support