Reflectieve promptafstemming via taalmodel-functieaanroeping

Samenvatting

Grote taalmodellen (LLM's) zijn steeds beter geworden in het opvolgen van instructies en complex redeneren, wat prompten tot een flexibele interface maakt om modellen aan te passen zonder parameterupdates. Toch blijft het ontwerpen van prompts arbeidsintensief en zeer gevoelig voor opmaak, formulering en instructievolgorde, wat de motivatie vormt voor geautomatiseerde methoden voor promptoptimalisatie die handmatige inspanning verminderen terwijl ze flexibiliteit tijdens inferentie behouden. Echter, bestaande methoden zoeken vaak naar promptkandidaten of gebruiken vaste kritiek-verfijningspijplijnen die worden aangestuurd door individuele voorbeelden of kleine batches, wat hun vermogen beperkt om systematische foutpatronen te herkennen en gerichte aanpassingen te doen die zijn gebaseerd op faalgeschiedenis. Wij stellen Reflectieve Prompt Tuning (RPT) voor, een raamwerk dat gebruikmaakt van functieaanroepen in LLM's om de iteratieve workflow van menselijke promptingenieurs te simuleren. Een LLM-optimalisator roept een diagnostische functie aan die het doelmodel evalueert over een volledige optimalisatieset, terugkerende faalpatronen samenvat en een gestructureerd diagnostisch rapport retourneert. De optimalisator gebruikt dit rapport, samen met een opgebouwd geheugen van eerdere rapporten, om de prompt voor de volgende iteratie te herzien. RPT ondersteunt verder vertrouwensbewuste optimalisatie door kalibratiesignalen te gebruiken in diagnostische feedback en definitieve promptselectie. Over drie redeneertaken verbetert RPT initiële prompts met tot 12,9 punten, blijft het concurrerend met de state-of-the-art, en verbetert het de vertrouwenskalibratie. Onze analyses tonen aan dat RPT bijzonder effectief is bij multi-hop en wiskundig redeneren, resulterend in gerichte promptherzieningen die aansluiten bij gediagnosticeerde faalpatronen en leiden tot verbeteringen in taakprestatie en kalibratie.

English

Large language models (LLMs) have become increasingly capable of following instructions and complex reasoning, making prompting a flexible interface for adapting models without parameter updates. Yet prompt design remains labor-intensive and highly sensitive to formatting, phrasing, and instruction order, motivating automated prompt optimization methods that reduce manual effort while preserving inference-time flexibility. However, existing methods often search over prompt candidates or use fixed critique-refine pipelines driven by individual examples or small batches, limiting their ability to capture systematic error patterns and make targeted edits grounded in failure history. We propose Reflective Prompt Tuning (RPT), a framework that uses LLM function calling to simulate the iterative workflow of human prompt engineers. An LLM optimizer calls a diagnostic function that evaluates the target model over an entire optimization set, summarizes recurring failure modes, and returns a structured diagnostic report. The optimizer uses this report, together with an accumulated memory of prior reports, to revise the prompt for the next iteration. RPT further supports confidence-aware optimization by using calibration signals in diagnostic feedback and final prompt selection. Across three reasoning tasks, RPT improves over initial prompts by up to 12.9 points, remains competitive with state of the art, and improves confidence calibration. Our analyses show that RPT is especially effective on multi-hop and mathematical reasoning, producing targeted prompt revisions that align with diagnosed failure patterns and lead to gains in task performance and calibration.