Prompt-Level-Destillation: Eine nicht-parametrische Alternative zum Modell-Feintuning für effizientes Reasoning

Zusammenfassung

Fortschrittliches Denken erfordert typischerweise Chain-of-Thought-Prompting, das zwar präzise ist, aber unannehmbare Latenz und erhebliche Testzeit-Inferenzkosten verursacht. Die übliche Alternative, die Feinabstimmung kleinerer Modelle, geht oft auf Kosten der Interpretierbarkeit und bringt gleichzeitig erheblichen Ressourcen- und Betriebsaufwand mit sich. Um diese Einschränkungen zu adressieren, führen wir Prompt-Level Distillation (PLD) ein. Wir extrahieren explizite Denkmuster aus einem Teacher-Modell und organisieren sie in einer strukturierten Liste ausdrucksstarker Anweisungen für den System-Prompt des Student-Modells. Bei der Evaluierung mit Gemma-3 4B verbesserte PLD die Makro-F1-Werte auf StereoSet (von 57 % auf 90,0 %) und Contract-NLI (von 67 % auf 83 %) und steigerte gleichzeitig die Genauigkeit bei LogiQA auf 70 %. Ähnliche Ergebnisse mit Mistral Small 3.1 belegen die architekturübergreifende Generalisierbarkeit, sodass diese kompakten Modelle mit vernachlässigbarem Latenz-Overhead Spitzenleistungen erreichen können. Diese ausdrucksstarken Anweisungen machen den Entscheidungsprozess transparent und ermöglichen eine vollständige menschliche Überprüfung der Logik, was diesen Ansatz ideal für regulierte Branchen wie Recht, Finanzen und Content-Moderation sowie für Anwendungsfälle mit hohem Volumen und Edge-Geräte macht.

English

Advanced reasoning typically requires Chain-of-Thought prompting, which is accurate but incurs prohibitive latency and substantial test-time inference costs. The standard alternative, fine-tuning smaller models, often sacrifices interpretability while introducing significant resource and operational overhead. To address these limitations, we introduce Prompt-Level Distillation (PLD). We extract explicit reasoning patterns from a Teacher model and organize them into a structured list of expressive instructions for the Student model's System Prompt. Evaluated using Gemma-3 4B, PLD improved Macro F1 scores on StereoSet (57\% to 90.0\%) and Contract-NLI (67\% to 83\%), while increasing LogiQA accuracy to 70\%. Similar results on Mistral Small 3.1 demonstrate cross-architecture generalizability, enabling these compact models to match frontier performance with negligible latency overhead. These expressive instructions render the decision-making process transparent, allowing for full human verification of logic, making this approach ideal for regulated industries such as law, finance, and content moderation, as well as high-volume use cases and edge devices.