Distiller les retours en mémoire en tant qu’outil
Distilling Feedback into Memory-as-a-Tool
January 9, 2026
papers.authors: Víctor Gallego
cs.AI
papers.abstract
Nous proposons un cadre qui amortit le coût du raisonnement lors de l'inférence en convertissant des critiques transitoires en directives récupérables, grâce à un système de mémoire basé sur des fichiers et des appels d'outils contrôlés par un agent. Nous évaluons cette méthode sur le Rubric Feedback Bench, un nouvel ensemble de données pour l'apprentissage basé sur des grilles d'évaluation. Les expériences démontrent que nos LLM augmentés atteignent rapidement les performances des pipelines de raffinement en phase de test tout en réduisant considérablement le coût d'inférence.
English
We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.