Het destilleren van LLM-agenten naar kleine modellen met retrieval- en codegereedschappen
Distilling LLM Agent into Small Models with Retrieval and Code Tools
May 23, 2025
Auteurs: Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken, maar blijven rekenkundig kostbaar, wat hun praktische inzet beperkt. Om dit aan te pakken, hebben recente onderzoeken zich gericht op het destilleren van redeneervaardigheden in kleinere taalmodellen (sLMs) met behulp van chain-of-thought (CoT) sporen van docent-LLMs. Deze aanpak heeft echter moeite in scenario's die zeldzame feitelijke kennis of precieze berekeningen vereisen, waar sLMs vaak hallucineren vanwege beperkte capaciteit. In dit werk stellen we Agent Distillation voor, een raamwerk voor het overbrengen van niet alleen redeneervaardigheden, maar volledige taakoplossend gedrag van LLM-gebaseerde agents naar sLMs met retrieval- en codegereedschappen. We verbeteren agentdistillatie langs twee complementaire assen: (1) we introduceren een promptmethode genaamd first-thought prefix om de kwaliteit van door de docent gegenereerde trajecten te verbeteren; en (2) we stellen een zelfconsistente actiegeneratie voor om de robuustheid van kleine agents tijdens tests te verbeteren. We evalueren onze methode op acht redeneertaken in feitelijke en wiskundige domeinen, waarbij zowel in-domein als out-of-domein generalisatie wordt bestreken. Onze resultaten laten zien dat sLMs met slechts 0,5B, 1,5B, 3B parameters prestaties kunnen bereiken die concurrerend zijn met grotere modellen van 1,5B, 3B, 7B die zijn afgestemd met CoT-distillatie, wat het potentieel van agentdistillatie aantoont voor het bouwen van praktische, gereedschapgebruikende kleine agents. Onze code is beschikbaar op https://github.com/Nardien/agent-distillation.
English
Large language models (LLMs) excel at complex reasoning tasks but remain
computationally expensive, limiting their practical deployment. To address
this, recent works have focused on distilling reasoning capabilities into
smaller language models (sLMs) using chain-of-thought (CoT) traces from teacher
LLMs. However, this approach struggles in scenarios requiring rare factual
knowledge or precise computation, where sLMs often hallucinate due to limited
capability. In this work, we propose Agent Distillation, a framework for
transferring not only reasoning capability but full task-solving behavior from
LLM-based agents into sLMs with retrieval and code tools. We improve agent
distillation along two complementary axes: (1) we introduce a prompting method
called first-thought prefix to enhance the quality of teacher-generated
trajectories; and (2) we propose a self-consistent action generation for
improving test-time robustness of small agents. We evaluate our method on eight
reasoning tasks across factual and mathematical domains, covering both
in-domain and out-of-domain generalization. Our results show that sLMs as small
as 0.5B, 1.5B, 3B parameters can achieve performance competitive with next-tier
larger 1.5B, 3B, 7B models fine-tuned using CoT distillation, demonstrating the
potential of agent distillation for building practical, tool-using small
agents. Our code is available at https://github.com/Nardien/agent-distillation.