Destilação em Nível de Prompt: Uma Alternativa Não Paramétrica ao Ajuste Fino de Modelos para Raciocínio Eficiente

Resumo

O raciocínio avançado normalmente requer o uso de prompting de Cadeia de Pensamento, que é preciso, mas incorre em latência proibitiva e custos substanciais de inferência em tempo de teste. A alternativa padrão, o ajuste fino de modelos menores, frequentemente sacrifica a interpretabilidade enquanto introduz sobrecarga significativa de recursos e operacional. Para superar essas limitações, apresentamos a Destilação em Nível de Prompt (PLD). Extraímos padrões explícitos de raciocínio de um modelo Professor e os organizamos em uma lista estruturada de instruções expressivas para o Prompt do Sistema do modelo Aluno. Avaliado usando Gemma-3 4B, o PLD melhorou as pontuações F1 Macro no StereoSet (57% para 90,0%) e no Contract-NLI (67% para 83%), além de aumentar a precisão no LogiQA para 70%. Resultados semelhantes no Mistral Small 3.1 demonstram generalizabilidade entre arquiteturas, permitindo que esses modelos compactos alcancem desempenho de ponta com sobrecarga de latência desprezível. Essas instruções expressivas tornam o processo de tomada de decisão transparente, permitindo a verificação humana completa da lógica, tornando essa abordagem ideal para indústrias regulamentadas, como direito, finanças e moderação de conteúdo, bem como para casos de uso de alto volume e dispositivos de borda.

English

Advanced reasoning typically requires Chain-of-Thought prompting, which is accurate but incurs prohibitive latency and substantial test-time inference costs. The standard alternative, fine-tuning smaller models, often sacrifices interpretability while introducing significant resource and operational overhead. To address these limitations, we introduce Prompt-Level Distillation (PLD). We extract explicit reasoning patterns from a Teacher model and organize them into a structured list of expressive instructions for the Student model's System Prompt. Evaluated using Gemma-3 4B, PLD improved Macro F1 scores on StereoSet (57\% to 90.0\%) and Contract-NLI (67\% to 83\%), while increasing LogiQA accuracy to 70\%. Similar results on Mistral Small 3.1 demonstrate cross-architecture generalizability, enabling these compact models to match frontier performance with negligible latency overhead. These expressive instructions render the decision-making process transparent, allowing for full human verification of logic, making this approach ideal for regulated industries such as law, finance, and content moderation, as well as high-volume use cases and edge devices.