Compression adaptative multi-résolution de connaissances procédurales pour grands modèles de langage

Résumé

Les grands modèles de langage (LLMs) sont largement utilisés pour résoudre des tâches complexes avec des workflows autonomes. Récemment, les compétences réutilisables en langage naturel sont devenues un paradigme populaire pour injecter des connaissances procédurales dans les applications de LLMs. Étant donné que les compétences courantes sont souvent invoquées de manière répétée, placer leur texte intégral dans chaque contexte augmente considérablement le coût et la latence de préremplissage. Bien que les techniques de compression de texte aient le potentiel de résoudre ce problème, la plupart des méthodes existantes sont conçues pour compresser des connaissances factuelles dans des documents plutôt que des connaissances procédurales, ce qui les rend insuffisantes pour la compression de compétences. Dans cet article, nous soutenons qu'une méthode efficace de compression de compétences devrait : 1) préserver les dépendances logiques entre les workflows et les protocoles d'outils, 2) permettre une compression légère et hors ligne pour les compétences communautaires fréquemment mises à jour, et 3) être adaptable à des complexités variables selon les compétences. Pour répondre à cela, nous présentons SKIM (SKIll coMpression), un cadre adaptatif de compression de tokens logiciels multi-résolution pour les compétences procédurales. En fonction de la complexité de chaque compétence, SKIM crée différents nombres de tokens logiciels qui non seulement améliorent l'efficacité de l'inférence des LLMs, mais préservent également l'efficacité de l'utilisation des compétences. Les expériences indiquent que SKIM compresse les compétences à 30 à 60 pour cent de leur longueur initiale de tokens tout en préservant mieux les performances de la tâche que les méthodes de compression existantes. Nous avons publié notre code à l'adresse https://github.com/bebr2/SKIM .

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .