Compressão Adaptativa Multirresolução de Conhecimento Processual para Grandes Modelos de Linguagem

Resumo

Modelos de linguagem de grande porte (LLMs) são amplamente utilizados para resolver tarefas complexas com fluxos de trabalho autônomos. Recentemente, habilidades reutilizáveis em linguagem natural emergiram como um paradigma popular para injetar conhecimento processual em aplicações baseadas em LLMs. Como habilidades populares são frequentemente invocadas repetidamente, colocar seu texto completo em cada contexto aumenta significativamente o custo de preenchimento (prefill) e a latência. Embora técnicas de compressão de texto tenham potencial para resolver esse problema, a maioria dos métodos existentes é projetada para comprimir conhecimento factual em documentos, em vez de conhecimento processual, tornando-os insuficientes para compressão de habilidades. Neste artigo, argumentamos que um método eficaz de compressão de habilidades deve: 1) preservar dependências lógicas entre fluxos de trabalho e protocolos de ferramentas, 2) permitir compressão leve e offline para habilidades comunitárias atualizadas com frequência, e 3) ser adaptável a diferentes complexidades entre habilidades. Para resolver isso, apresentamos SKIM (SKIll coMpression), uma estrutura adaptativa de compressão de tokens suaves com múltiplas resoluções para habilidades processuais. Dependendo da complexidade de cada habilidade, o SKIM cria diferentes números de tokens suaves que não apenas melhoram a eficiência da inferência do LLM, mas também preservam a eficácia do uso da habilidade. Experimentos indicam que o SKIM comprime habilidades para 30 a 60 por cento do comprimento original dos tokens, mantendo o desempenho da tarefa melhor do que métodos de compressão existentes. Disponibilizamos nosso código em https://github.com/bebr2/SKIM .

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .