Distillare un Agente LLM in Modelli Piccoli con Strumenti di Recupero e Codice

Abstract

I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, ma rimangono computazionalmente costosi, limitandone l'implementazione pratica. Per affrontare questo problema, lavori recenti si sono concentrati sulla distillazione delle capacità di ragionamento in modelli linguistici più piccoli (sLM) utilizzando tracce di catena di pensiero (CoT) da LLM insegnanti. Tuttavia, questo approccio incontra difficoltà in scenari che richiedono conoscenze fattuali rare o calcoli precisi, dove gli sLM spesso producono allucinazioni a causa delle capacità limitate. In questo lavoro, proponiamo la Distillazione di Agenti, un framework per trasferire non solo la capacità di ragionamento, ma l'intero comportamento di risoluzione dei compiti da agenti basati su LLM a sLM dotati di strumenti di recupero e codice. Miglioriamo la distillazione di agenti lungo due assi complementari: (1) introduciamo un metodo di prompting chiamato prefisso di primo pensiero per migliorare la qualità delle traiettorie generate dagli insegnanti; e (2) proponiamo una generazione di azioni auto-consistente per migliorare la robustezza al test-time dei piccoli agenti. Valutiamo il nostro metodo su otto compiti di ragionamento in domini fattuali e matematici, coprendo sia la generalizzazione in-dominio che out-of-domain. I nostri risultati mostrano che sLM con soli 0,5B, 1,5B, 3B parametri possono raggiungere prestazioni competitive con modelli più grandi di livello successivo (1,5B, 3B, 7B) fine-tuned utilizzando la distillazione CoT, dimostrando il potenziale della distillazione di agenti per costruire piccoli agenti pratici e dotati di strumenti. Il nostro codice è disponibile all'indirizzo https://github.com/Nardien/agent-distillation.

English

Large language models (LLMs) excel at complex reasoning tasks but remain computationally expensive, limiting their practical deployment. To address this, recent works have focused on distilling reasoning capabilities into smaller language models (sLMs) using chain-of-thought (CoT) traces from teacher LLMs. However, this approach struggles in scenarios requiring rare factual knowledge or precise computation, where sLMs often hallucinate due to limited capability. In this work, we propose Agent Distillation, a framework for transferring not only reasoning capability but full task-solving behavior from LLM-based agents into sLMs with retrieval and code tools. We improve agent distillation along two complementary axes: (1) we introduce a prompting method called first-thought prefix to enhance the quality of teacher-generated trajectories; and (2) we propose a self-consistent action generation for improving test-time robustness of small agents. We evaluate our method on eight reasoning tasks across factual and mathematical domains, covering both in-domain and out-of-domain generalization. Our results show that sLMs as small as 0.5B, 1.5B, 3B parameters can achieve performance competitive with next-tier larger 1.5B, 3B, 7B models fine-tuned using CoT distillation, demonstrating the potential of agent distillation for building practical, tool-using small agents. Our code is available at https://github.com/Nardien/agent-distillation.

Distillare un Agente LLM in Modelli Piccoli con Strumenti di Recupero e Codice

Distilling LLM Agent into Small Models with Retrieval and Code Tools

Abstract

Support