Destilación a nivel de prompt: una alternativa no paramétrica al ajuste fino de modelos para razonamiento eficiente

Resumen

El razonamiento avanzado suele requerir el uso de prompting de cadena de pensamiento (Chain-of-Thought), que es preciso pero conlleva una latencia prohibitiva y costos de inferencia en tiempo de prueba considerables. La alternativa estándar, el ajuste fino de modelos más pequeños, a menudo sacrifica la interpretabilidad al introducir una sobrecarga significativa de recursos y operativa. Para superar estas limitaciones, presentamos la Destilación a Nivel de Prompt (PLD). Extraemos patrones de razonamiento explícitos de un modelo Profesor y los organizamos en una lista estructurada de instrucciones expresivas para el Prompt del Sistema del modelo Estudiante. Evaluado con Gemma-3 4B, PLD mejoró las puntuaciones F1 macro en StereoSet (del 57% al 90.0%) y Contract-NLI (del 67% al 83%), al mismo tiempo que incrementó la precisión en LogiQA al 70%. Resultados similares en Mistral Small 3.1 demuestran su generalización entre arquitecturas, permitiendo que estos modelos compactos igualen el rendimiento de frontera con una sobrecarga de latencia insignificante. Estas instrucciones expresivas hacen que el proceso de toma de decisiones sea transparente, permitiendo una verificación humana completa de la lógica, lo que convierte a este enfoque en una opción ideal para industrias reguladas como el derecho, las finanzas y la moderación de contenido, así como para casos de uso de alto volumen y dispositivos de borde.

English

Advanced reasoning typically requires Chain-of-Thought prompting, which is accurate but incurs prohibitive latency and substantial test-time inference costs. The standard alternative, fine-tuning smaller models, often sacrifices interpretability while introducing significant resource and operational overhead. To address these limitations, we introduce Prompt-Level Distillation (PLD). We extract explicit reasoning patterns from a Teacher model and organize them into a structured list of expressive instructions for the Student model's System Prompt. Evaluated using Gemma-3 4B, PLD improved Macro F1 scores on StereoSet (57\% to 90.0\%) and Contract-NLI (67\% to 83\%), while increasing LogiQA accuracy to 70\%. Similar results on Mistral Small 3.1 demonstrate cross-architecture generalizability, enabling these compact models to match frontier performance with negligible latency overhead. These expressive instructions render the decision-making process transparent, allowing for full human verification of logic, making this approach ideal for regulated industries such as law, finance, and content moderation, as well as high-volume use cases and edge devices.