Адаптивное многомасштабное сжатие процедурных знаний для больших языковых моделей

Аннотация

Большие языковые модели (LLM) широко используются для решения сложных задач в автономных рабочих процессах. В последнее время повторно используемые навыки на естественном языке стали популярным способом внедрения процедурных знаний в приложения на основе LLM. Поскольку востребованные навыки часто вызываются повторно, размещение их полного текста в каждом контексте значительно увеличивает стоимость предварительной обработки и задержку. Хотя методы сжатия текста потенциально могут решить эту проблему, большинство существующих подходов предназначены для сжатия фактических знаний в документах, а не процедурных знаний, что делает их непригодными для сжатия навыков. В этой статье мы утверждаем, что эффективный метод сжатия навыков должен: 1) сохранять логические зависимости между рабочими процессами и протоколами инструментов, 2) обеспечивать легковесное автономное сжатие для часто обновляемых навыков сообщества и 3) быть адаптируемым к различной сложности навыков. Для решения этой задачи мы представляем SKIM (SKIll coMpression) — адаптивную многомасштабную структуру сжатия мягких токенов для процедурных навыков. В зависимости от сложности каждого навыка SKIM создает различное количество мягких токенов, что не только повышает эффективность вывода LLM, но и сохраняет эффективность использования навыков. Эксперименты показывают, что SKIM сжимает навыки до 30–60% их исходной длины токенов, при этом лучше сохраняя производительность задач по сравнению с существующими методами сжатия. Мы опубликовали наш код по адресу: https://github.com/bebr2/SKIM.

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .