Web-CogReasoner: Verso un Ragionamento Cognitivo Indotto dalla Conoscenza per Agenti Web
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
August 3, 2025
Autori: Yuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai
cs.AI
Abstract
I modelli multimodali su larga scala hanno significativamente avanzato lo sviluppo degli agenti web, consentendo la percezione e l'interazione con ambienti digitali in modo simile alla cognizione umana. In questo articolo, sosteniamo che gli agenti web debbano prima acquisire una conoscenza sufficiente per impegnarsi efficacemente nel ragionamento cognitivo. Pertanto, scomponiamo le capacità di un agente web in due fasi essenziali: l'apprendimento del contenuto della conoscenza e i processi cognitivi. Per formalizzare ciò, proponiamo il Web-CogKnowledge Framework, che categorizza la conoscenza in Fattuale, Concettuale e Procedurale. In questo framework, l'apprendimento del contenuto della conoscenza corrisponde ai processi di Memorizzazione e Comprensione dell'agente, che si basano sui primi due tipi di conoscenza, rappresentando il "cosa" dell'apprendimento. Al contrario, i processi cognitivi corrispondono all'Esplorazione, radicata nella conoscenza Procedurale, che definisce il "come" del ragionamento e dell'azione. Per facilitare l'acquisizione della conoscenza, costruiamo il Web-CogDataset, una risorsa strutturata curata da 14 siti web reali, progettata per instillare sistematicamente la conoscenza di base necessaria per un agente web. Questo dataset serve come base concettuale dell'agente - i "sostantivi" su cui si costruisce la comprensione - nonché come base per imparare a ragionare e agire. Sulla base di questa fondazione, operazionalizziamo questi processi attraverso un nuovo framework di ragionamento a catena del pensiero (Chain-of-Thought, CoT) guidato dalla conoscenza, sviluppando e addestrando il nostro agente proposto, il Web-CogReasoner. Esperimenti estensivi rivelano la sua significativa superiorità rispetto ai modelli esistenti, specialmente nella generalizzazione a compiti non visti in cui la conoscenza strutturata è decisiva. Per consentire una valutazione rigorosa, introduciamo il Web-CogBench, una suite di valutazione completa progettata per valutare e confrontare le prestazioni degli agenti nei domini di conoscenza delineati e nelle capacità cognitive. Il nostro codice e i dati sono open source all'indirizzo https://github.com/Gnonymous/Web-CogReasoner.
English
Multimodal large-scale models have significantly advanced the development of
web agents, enabling perception and interaction with digital environments akin
to human cognition. In this paper, we argue that web agents must first acquire
sufficient knowledge to effectively engage in cognitive reasoning. Therefore,
we decompose a web agent's capabilities into two essential stages: knowledge
content learning and cognitive processes. To formalize this, we propose
Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and
Procedural. In this framework, knowledge content learning corresponds to the
agent's processes of Memorizing and Understanding, which rely on the first two
knowledge types, representing the "what" of learning. Conversely, cognitive
processes correspond to Exploring, grounded in Procedural knowledge, defining
the "how" of reasoning and action. To facilitate knowledge acquisition, we
construct the Web-CogDataset, a structured resource curated from 14 real-world
websites, designed to systematically instill core knowledge necessary for web
agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon
which comprehension is built-as well as the basis for learning how to reason
and act. Building on this foundation, we operationalize these processes through
a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing
and training our proposed agent, the Web-CogReasoner. Extensive experimentation
reveals its significant superiority over existing models, especially in
generalizing to unseen tasks where structured knowledge is decisive. To enable
rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation
suite designed to assess and compare agent performance across the delineated
knowledge domains and cognitive capabilities. Our code and data is open sourced
at https://github.com/Gnonymous/Web-CogReasoner