Ajustement Réflexif des Prompts par Appel de Fonctions de Modèle de Langage

Résumé

Les grands modèles de langage (LLMs) sont devenus de plus en plus capables de suivre des instructions et de raisonner de manière complexe, faisant du prompting une interface flexible pour adapter les modèles sans mettre à jour leurs paramètres. Cependant, la conception de prompts reste intensive en main-d'œuvre et très sensible au formatage, à la formulation et à l'ordre des instructions, ce qui motive le développement de méthodes d'optimisation automatisée des prompts réduisant l'effort manuel tout en préservant la flexibilité au moment de l'inférence. Néanmoins, les méthodes existantes explorent souvent des candidats de prompts ou utilisent des pipelines fixes de critique et de raffinement pilotés par des exemples individuels ou de petits lots, ce qui limite leur capacité à capturer des motifs d'erreur systématiques et à effectuer des modifications ciblées fondées sur l'historique des échecs. Nous proposons le Reflective Prompt Tuning (RPT), un cadre qui utilise l'appel de fonctions des LLMs pour simuler le processus itératif des ingénieurs humains spécialistes des prompts. Un optimiseur LLM appelle une fonction de diagnostic qui évalue le modèle cible sur l'ensemble d'optimisation complet, résume les modes d'échec récurrents et renvoie un rapport de diagnostic structuré. L'optimiseur utilise ce rapport, ainsi qu'une mémoire cumulative des rapports précédents, pour réviser le prompt en vue de l'itération suivante. RPT prend également en charge une optimisation sensible à la confiance en utilisant des signaux de calibration dans le retour de diagnostic et la sélection finale du prompt. Sur trois tâches de raisonnement, RPT améliore les prompts initiaux jusqu'à 12,9 points, reste compétitif avec l'état de l'art et améliore la calibration de la confiance. Nos analyses montrent que RPT est particulièrement efficace pour le raisonnement multi-sauts et mathématique, produisant des révisions ciblées du prompt qui s'alignent sur les motifs d'échec diagnostiqués et conduisent à des gains en performance de tâche et en calibration.

English

Large language models (LLMs) have become increasingly capable of following instructions and complex reasoning, making prompting a flexible interface for adapting models without parameter updates. Yet prompt design remains labor-intensive and highly sensitive to formatting, phrasing, and instruction order, motivating automated prompt optimization methods that reduce manual effort while preserving inference-time flexibility. However, existing methods often search over prompt candidates or use fixed critique-refine pipelines driven by individual examples or small batches, limiting their ability to capture systematic error patterns and make targeted edits grounded in failure history. We propose Reflective Prompt Tuning (RPT), a framework that uses LLM function calling to simulate the iterative workflow of human prompt engineers. An LLM optimizer calls a diagnostic function that evaluates the target model over an entire optimization set, summarizes recurring failure modes, and returns a structured diagnostic report. The optimizer uses this report, together with an accumulated memory of prior reports, to revise the prompt for the next iteration. RPT further supports confidence-aware optimization by using calibration signals in diagnostic feedback and final prompt selection. Across three reasoning tasks, RPT improves over initial prompts by up to 12.9 points, remains competitive with state of the art, and improves confidence calibration. Our analyses show that RPT is especially effective on multi-hop and mathematical reasoning, producing targeted prompt revisions that align with diagnosed failure patterns and lead to gains in task performance and calibration.