Destilando Agentes de Modelos de Linguagem em Modelos Pequenos com Ferramentas de Recuperação e Código

Resumo

Modelos de linguagem de grande escala (LLMs) se destacam em tarefas complexas de raciocínio, mas permanecem computacionalmente caros, limitando sua implantação prática. Para abordar isso, trabalhos recentes têm se concentrado em destilar capacidades de raciocínio em modelos de linguagem menores (sLMs) usando traços de cadeia de pensamento (CoT) de LLMs professores. No entanto, essa abordagem enfrenta dificuldades em cenários que exigem conhecimento factual raro ou computação precisa, onde sLMs frequentemente alucinam devido à capacidade limitada. Neste trabalho, propomos a Destilação de Agentes, uma estrutura para transferir não apenas a capacidade de raciocínio, mas o comportamento completo de resolução de tarefas de agentes baseados em LLMs para sLMs com ferramentas de recuperação e código. Melhoramos a destilação de agentes ao longo de dois eixos complementares: (1) introduzimos um método de prompt chamado prefixo de primeiro pensamento para melhorar a qualidade das trajetórias geradas pelo professor; e (2) propomos uma geração de ação auto-consistente para melhorar a robustez no tempo de teste de pequenos agentes. Avaliamos nosso método em oito tarefas de raciocínio em domínios factuais e matemáticos, cobrindo generalização tanto dentro quanto fora do domínio. Nossos resultados mostram que sLMs com apenas 0,5B, 1,5B, 3B parâmetros podem alcançar desempenho competitivo com modelos maiores de 1,5B, 3B, 7B ajustados usando destilação CoT, demonstrando o potencial da destilação de agentes para construir pequenos agentes práticos que utilizam ferramentas. Nosso código está disponível em https://github.com/Nardien/agent-distillation.

English

Large language models (LLMs) excel at complex reasoning tasks but remain computationally expensive, limiting their practical deployment. To address this, recent works have focused on distilling reasoning capabilities into smaller language models (sLMs) using chain-of-thought (CoT) traces from teacher LLMs. However, this approach struggles in scenarios requiring rare factual knowledge or precise computation, where sLMs often hallucinate due to limited capability. In this work, we propose Agent Distillation, a framework for transferring not only reasoning capability but full task-solving behavior from LLM-based agents into sLMs with retrieval and code tools. We improve agent distillation along two complementary axes: (1) we introduce a prompting method called first-thought prefix to enhance the quality of teacher-generated trajectories; and (2) we propose a self-consistent action generation for improving test-time robustness of small agents. We evaluate our method on eight reasoning tasks across factual and mathematical domains, covering both in-domain and out-of-domain generalization. Our results show that sLMs as small as 0.5B, 1.5B, 3B parameters can achieve performance competitive with next-tier larger 1.5B, 3B, 7B models fine-tuned using CoT distillation, demonstrating the potential of agent distillation for building practical, tool-using small agents. Our code is available at https://github.com/Nardien/agent-distillation.

Destilando Agentes de Modelos de Linguagem em Modelos Pequenos com Ferramentas de Recuperação e Código

Distilling LLM Agent into Small Models with Retrieval and Code Tools

Resumo

Support