Compresión adaptativa de conocimiento procedimental multiresolución para modelos de lenguaje de gran escala

Resumen

Los modelos de lenguaje grandes (LLMs) se utilizan ampliamente para abordar tareas complejas mediante flujos de trabajo autónomos. Recientemente, las habilidades reutilizables de lenguaje natural han surgido como un paradigma popular para inyectar conocimiento procedimental en aplicaciones de LLM. Dado que las habilidades más utilizadas a menudo se invocan repetidamente, incluir su texto completo en cada contexto aumenta significativamente el costo de prellenado y la latencia. Aunque las técnicas de compresión de texto tienen el potencial de resolver este problema, la mayoría de los métodos existentes están diseñados para comprimir conocimiento factual en documentos, en lugar de conocimiento procedimental, lo que los hace insuficientes para la compresión de habilidades. En este artículo, argumentamos que un método eficaz de compresión de habilidades debe: 1) preservar las dependencias lógicas entre flujos de trabajo y protocolos de herramientas, 2) permitir una compresión ligera y fuera de línea para habilidades comunitarias actualizadas con frecuencia, y 3) ser adaptable a las diferentes complejidades de las habilidades. Para abordar esto, presentamos SKIM (SKIll coMpression), un marco adaptativo de compresión de tokens suaves multi-resolución para habilidades procedimentales. Dependiendo de la complejidad de cada habilidad, SKIM crea diferentes números de tokens suaves que no solo mejoran la eficiencia de la inferencia del LLM, sino que también preservan la efectividad del uso de la habilidad. Los experimentos indican que SKIM comprime las habilidades al 30% o 60% de su longitud original de tokens, manteniendo un mejor rendimiento en las tareas que los métodos de compresión existentes. Hemos publicado nuestro código en https://github.com/bebr2/SKIM.

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .