Distillation au niveau des prompts : une alternative non paramétrique au fine-tuning de modèle pour un raisonnement efficace

Résumé

Le raisonnement avancé requiert généralement l’utilisation de l’invite de chaîne de pensée (Chain-of-Thought prompting), méthode précise mais qui entraîne une latence rédhibitoire et des coûts d’inférence importants lors du test. L’alternative standard, à savoir l’ajustement fin de modèles plus petits, sacrifie souvent l’interprétabilité tout en introduisant une surcharge opérationnelle et de ressources considérable. Pour pallier ces limitations, nous introduisons la distillation au niveau de l’invite (Prompt-Level Distillation, PLD). Nous extrayons des schémas de raisonnement explicites d’un modèle enseignant et les organisons en une liste structurée d’instructions expressives destinées à l’invite système du modèle étudiant. Évaluée avec Gemma-3 4B, la PLD a amélioré les scores F1 macro sur StereoSet (de 57 % à 90,0 %) et Contract-NLI (de 67 % à 83 %), tout en portant la précision sur LogiQA à 70 %. Des résultats similaires obtenus avec Mistral Small 3.1 démontrent une généralisabilité inter-architecture, permettant à ces modèles compacts d’atteindre des performances de pointe avec une surcharge de latence négligeable. Ces instructions expressives rendent le processus décisionnel transparent, autorisant une vérification humaine complète de la logique, ce qui rend cette approche idéale pour les secteurs réglementés tels que le droit, la finance et la modération de contenu, ainsi que pour les cas d’usage à fort volume et les dispositifs de périphérie.

English

Advanced reasoning typically requires Chain-of-Thought prompting, which is accurate but incurs prohibitive latency and substantial test-time inference costs. The standard alternative, fine-tuning smaller models, often sacrifices interpretability while introducing significant resource and operational overhead. To address these limitations, we introduce Prompt-Level Distillation (PLD). We extract explicit reasoning patterns from a Teacher model and organize them into a structured list of expressive instructions for the Student model's System Prompt. Evaluated using Gemma-3 4B, PLD improved Macro F1 scores on StereoSet (57\% to 90.0\%) and Contract-NLI (67\% to 83\%), while increasing LogiQA accuracy to 70\%. Similar results on Mistral Small 3.1 demonstrate cross-architecture generalizability, enabling these compact models to match frontier performance with negligible latency overhead. These expressive instructions render the decision-making process transparent, allowing for full human verification of logic, making this approach ideal for regulated industries such as law, finance, and content moderation, as well as high-volume use cases and edge devices.