Дистилляция на уровне промпта: непараметрическая альтернатива тонкой настройке модели для эффективного рассуждения
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning
June 2, 2026
Авторы: Sanket Badhe, Deep Shah
cs.AI
Аннотация
Сложные рассуждения обычно требуют использования подсказок цепочки рассуждений (Chain-of-Thought), что обеспечивает точность, но приводит к неприемлемым задержкам и значительным вычислительным затратам на этапе инференса. Стандартная альтернатива — тонкая настройка меньших моделей — часто жертвует интерпретируемостью, одновременно внося существенные ресурсные и операционные издержки. Для преодоления этих ограничений мы предлагаем метод дистилляции на уровне промптов (Prompt-Level Distillation, PLD). Мы извлекаем явные паттерны рассуждений из модели-учителя и организуем их в структурированный список выразительных инструкций для системного промпта модели-ученика. При оценке на Gemma-3 4B PLD улучшила макро F1 на StereoSet (с 57% до 90,0%) и Contract-NLI (с 67% до 83%), а также повысила точность на LogiQA до 70%. Аналогичные результаты на Mistral Small 3.1 демонстрируют межархитектурную обобщаемость, позволяя этим компактным моделям достигать производительности передовых решений с пренебрежимо малыми задержками. Эти выразительные инструкции делают процесс принятия решений прозрачным, допуская полную верификацию логики человеком, что делает данный подход идеальным для регулируемых отраслей, таких как юриспруденция, финансы и модерация контента, а также для высоконагруженных сценариев и периферийных устройств.
English
Advanced reasoning typically requires Chain-of-Thought prompting, which is accurate but incurs prohibitive latency and substantial test-time inference costs. The standard alternative, fine-tuning smaller models, often sacrifices interpretability while introducing significant resource and operational overhead. To address these limitations, we introduce Prompt-Level Distillation (PLD). We extract explicit reasoning patterns from a Teacher model and organize them into a structured list of expressive instructions for the Student model's System Prompt. Evaluated using Gemma-3 4B, PLD improved Macro F1 scores on StereoSet (57\% to 90.0\%) and Contract-NLI (67\% to 83\%), while increasing LogiQA accuracy to 70\%. Similar results on Mistral Small 3.1 demonstrate cross-architecture generalizability, enabling these compact models to match frontier performance with negligible latency overhead. These expressive instructions render the decision-making process transparent, allowing for full human verification of logic, making this approach ideal for regulated industries such as law, finance, and content moderation, as well as high-volume use cases and edge devices.