Web-CogReasoner: В направлении когнитивного рассуждения, основанного на знаниях, для веб-агентов
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
August 3, 2025
Авторы: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI
Аннотация
Мультимодальные крупномасштабные модели значительно продвинули развитие веб-агентов, обеспечивая восприятие и взаимодействие с цифровыми средами, аналогичное человеческому познанию. В данной статье мы утверждаем, что веб-агенты должны сначала приобрести достаточные знания для эффективного участия в когнитивном рассуждении. Поэтому мы разделяем способности веб-агента на два ключевых этапа: изучение содержания знаний и когнитивные процессы. Для формализации этого мы предлагаем фреймворк Web-CogKnowledge, классифицирующий знания как Фактические, Концептуальные и Процедурные. В этом фреймворке изучение содержания знаний соответствует процессам Запоминания и Понимания агента, которые опираются на первые два типа знаний, представляющих "что" обучения. Напротив, когнитивные процессы соответствуют Исследованию, основанному на Процедурных знаниях, определяющих "как" рассуждения и действия. Для облегчения приобретения знаний мы создаем Web-CogDataset — структурированный ресурс, собранный из 14 реальных веб-сайтов, предназначенный для систематического усвоения ключевых знаний, необходимых веб-агенту. Этот набор данных служит концептуальной основой агента — "существительными", на которых строится понимание, — а также базой для обучения тому, как рассуждать и действовать. Опираясь на эту основу, мы реализуем эти процессы через новый фреймворк Chain-of-Thought (CoT) рассуждений, основанный на знаниях, разрабатывая и обучая наш предложенный агент Web-CogReasoner. Обширные эксперименты демонстрируют его значительное превосходство над существующими моделями, особенно в обобщении на неизвестные задачи, где структурированные знания играют решающую роль. Для обеспечения строгой оценки мы представляем Web-CogBench — комплексный набор тестов, предназначенный для оценки и сравнения производительности агентов в рамках выделенных областей знаний и когнитивных способностей. Наш код и данные доступны по адресу https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of
web agents, enabling perception and interaction with digital environments akin
to human cognition. In this paper, we argue that web agents must first acquire
sufficient knowledge to effectively engage in cognitive reasoning. Therefore,
we decompose a web agent's capabilities into two essential stages: knowledge
content learning and cognitive processes. To formalize this, we propose
Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and
Procedural. In this framework, knowledge content learning corresponds to the
agent's processes of Memorizing and Understanding, which rely on the first two
knowledge types, representing the "what" of learning. Conversely, cognitive
processes correspond to Exploring, grounded in Procedural knowledge, defining
the "how" of reasoning and action. To facilitate knowledge acquisition, we
construct the Web-CogDataset, a structured resource curated from 14 real-world
websites, designed to systematically instill core knowledge necessary for web
agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon
which comprehension is built-as well as the basis for learning how to reason
and act. Building on this foundation, we operationalize these processes through
a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing
and training our proposed agent, the Web-CogReasoner. Extensive experimentation
reveals its significant superiority over existing models, especially in
generalizing to unseen tasks where structured knowledge is decisive. To enable
rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation
suite designed to assess and compare agent performance across the delineated
knowledge domains and cognitive capabilities. Our code and data is open sourced
at https://github.com/Gnonymous/Web-CogReasoner