ChatPaper.aiChatPaper

Web-CogReasoner: Hacia el razonamiento cognitivo inducido por conocimiento para agentes web

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

August 3, 2025
Autores: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI

Resumen

Los modelos multimodales a gran escala han avanzado significativamente el desarrollo de agentes web, permitiendo la percepción e interacción con entornos digitales de manera similar a la cognición humana. En este artículo, argumentamos que los agentes web primero deben adquirir suficiente conocimiento para participar efectivamente en razonamientos cognitivos. Por lo tanto, descomponemos las capacidades de un agente web en dos etapas esenciales: el aprendizaje de contenido de conocimiento y los procesos cognitivos. Para formalizar esto, proponemos el Marco Web-CogKnowledge, que categoriza el conocimiento como Factual, Conceptual y Procedimental. En este marco, el aprendizaje de contenido de conocimiento corresponde a los procesos del agente de Memorizar y Comprender, que dependen de los dos primeros tipos de conocimiento, representando el "qué" del aprendizaje. Por el contrario, los procesos cognitivos corresponden a Explorar, basado en el conocimiento Procedimental, definiendo el "cómo" del razonamiento y la acción. Para facilitar la adquisición de conocimiento, construimos el Web-CogDataset, un recurso estructurado curado a partir de 14 sitios web del mundo real, diseñado para inculcar sistemáticamente el conocimiento central necesario para un agente web. Este conjunto de datos sirve como base conceptual del agente—los "sustantivos" sobre los cuales se construye la comprensión—así como la base para aprender a razonar y actuar. Sobre esta base, operacionalizamos estos procesos a través de un novedoso marco de razonamiento basado en conocimiento de Cadena de Pensamiento (CoT), desarrollando y entrenando nuestro agente propuesto, el Web-CogReasoner. Experimentos extensivos revelan su superioridad significativa sobre los modelos existentes, especialmente en la generalización a tareas no vistas donde el conocimiento estructurado es decisivo. Para permitir una evaluación rigurosa, presentamos el Web-CogBench, una suite de evaluación integral diseñada para evaluar y comparar el rendimiento de los agentes en los dominios de conocimiento y capacidades cognitivas delineados. Nuestro código y datos están disponibles en https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner
PDF202August 7, 2025