Web-CogReasoner: Verso un Ragionamento Cognitivo Indotto dalla Conoscenza per Agenti Web

Abstract

I modelli multimodali su larga scala hanno significativamente avanzato lo sviluppo degli agenti web, consentendo la percezione e l'interazione con ambienti digitali in modo simile alla cognizione umana. In questo articolo, sosteniamo che gli agenti web debbano prima acquisire una conoscenza sufficiente per impegnarsi efficacemente nel ragionamento cognitivo. Pertanto, scomponiamo le capacità di un agente web in due fasi essenziali: l'apprendimento del contenuto della conoscenza e i processi cognitivi. Per formalizzare ciò, proponiamo il Web-CogKnowledge Framework, che categorizza la conoscenza in Fattuale, Concettuale e Procedurale. In questo framework, l'apprendimento del contenuto della conoscenza corrisponde ai processi di Memorizzazione e Comprensione dell'agente, che si basano sui primi due tipi di conoscenza, rappresentando il "cosa" dell'apprendimento. Al contrario, i processi cognitivi corrispondono all'Esplorazione, radicata nella conoscenza Procedurale, che definisce il "come" del ragionamento e dell'azione. Per facilitare l'acquisizione della conoscenza, costruiamo il Web-CogDataset, una risorsa strutturata curata da 14 siti web reali, progettata per instillare sistematicamente la conoscenza di base necessaria per un agente web. Questo dataset serve come base concettuale dell'agente - i "sostantivi" su cui si costruisce la comprensione - nonché come base per imparare a ragionare e agire. Sulla base di questa fondazione, operazionalizziamo questi processi attraverso un nuovo framework di ragionamento a catena del pensiero (Chain-of-Thought, CoT) guidato dalla conoscenza, sviluppando e addestrando il nostro agente proposto, il Web-CogReasoner. Esperimenti estensivi rivelano la sua significativa superiorità rispetto ai modelli esistenti, specialmente nella generalizzazione a compiti non visti in cui la conoscenza strutturata è decisiva. Per consentire una valutazione rigorosa, introduciamo il Web-CogBench, una suite di valutazione completa progettata per valutare e confrontare le prestazioni degli agenti nei domini di conoscenza delineati e nelle capacità cognitive. Il nostro codice e i dati sono open source all'indirizzo https://github.com/Gnonymous/Web-CogReasoner.

English

Multimodal large-scale models have significantly advanced the development of web agents, enabling perception and interaction with digital environments akin to human cognition. In this paper, we argue that web agents must first acquire sufficient knowledge to effectively engage in cognitive reasoning. Therefore, we decompose a web agent's capabilities into two essential stages: knowledge content learning and cognitive processes. To formalize this, we propose Web-CogKnowledge Framework, categorizing knowledge as Factual, Conceptual, and Procedural. In this framework, knowledge content learning corresponds to the agent's processes of Memorizing and Understanding, which rely on the first two knowledge types, representing the "what" of learning. Conversely, cognitive processes correspond to Exploring, grounded in Procedural knowledge, defining the "how" of reasoning and action. To facilitate knowledge acquisition, we construct the Web-CogDataset, a structured resource curated from 14 real-world websites, designed to systematically instill core knowledge necessary for web agent. This dataset serves as the agent's conceptual grounding-the "nouns" upon which comprehension is built-as well as the basis for learning how to reason and act. Building on this foundation, we operationalize these processes through a novel knowledge-driven Chain-of-Thought (CoT) reasoning framework, developing and training our proposed agent, the Web-CogReasoner. Extensive experimentation reveals its significant superiority over existing models, especially in generalizing to unseen tasks where structured knowledge is decisive. To enable rigorous evaluation, we introduce the Web-CogBench, a comprehensive evaluation suite designed to assess and compare agent performance across the delineated knowledge domains and cognitive capabilities. Our code and data is open sourced at https://github.com/Gnonymous/Web-CogReasoner

Web-CogReasoner: Verso un Ragionamento Cognitivo Indotto dalla Conoscenza per Agenti Web

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

Abstract

Support