ChatPaper.aiChatPaper

Web-CogReasoner: Rumo ao Raciocínio Cognitivo Induzido por Conhecimento para Agentes Web

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

August 3, 2025
Autores: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI

Resumo

Modelos multimodais em grande escala avançaram significativamente o desenvolvimento de agentes web, permitindo a percepção e interação com ambientes digitais de forma semelhante à cognição humana. Neste artigo, argumentamos que os agentes web devem primeiro adquirir conhecimento suficiente para se engajar efetivamente em raciocínio cognitivo. Portanto, decompomos as capacidades de um agente web em dois estágios essenciais: aprendizado de conteúdo de conhecimento e processos cognitivos. Para formalizar isso, propomos o Framework Web-CogKnowledge, categorizando o conhecimento como Fático, Conceitual e Procedimental. Neste framework, o aprendizado de conteúdo de conhecimento corresponde aos processos de Memorização e Compreensão do agente, que dependem dos dois primeiros tipos de conhecimento, representando o "o quê" do aprendizado. Por outro lado, os processos cognitivos correspondem à Exploração, fundamentada no conhecimento Procedimental, definindo o "como" do raciocínio e da ação. Para facilitar a aquisição de conhecimento, construímos o Web-CogDataset, um recurso estruturado curado a partir de 14 sites do mundo real, projetado para instilar sistematicamente o conhecimento central necessário para um agente web. Este conjunto de dados serve como base conceitual do agente — os "substantivos" sobre os quais a compreensão é construída — bem como a base para aprender a raciocinar e agir. Com base nessa fundação, operacionalizamos esses processos por meio de um novo framework de raciocínio Chain-of-Thought (CoT) orientado por conhecimento, desenvolvendo e treinando nosso agente proposto, o Web-CogReasoner. Experimentos extensivos revelam sua superioridade significativa sobre os modelos existentes, especialmente na generalização para tarefas não vistas, onde o conhecimento estruturado é decisivo. Para permitir uma avaliação rigorosa, introduzimos o Web-CogBench, um conjunto abrangente de avaliação projetado para avaliar e comparar o desempenho do agente nos domínios de conhecimento e capacidades cognitivas delineados. Nosso código e dados estão disponíveis em https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner
PDF202August 7, 2025