Distilando la Retroalimentación en la Memoria como Herramienta
Distilling Feedback into Memory-as-a-Tool
January 9, 2026
Autores: Víctor Gallego
cs.AI
Resumen
Proponemos un marco que amortiza el coste del razonamiento en tiempo de inferencia convirtiendo críticas transitorias en directrices recuperables, mediante un sistema de memoria basado en archivos y llamadas a herramientas controladas por agentes. Evaluamos este método en Rubric Feedback Bench, un nuevo conjunto de datos para el aprendizaje basado en rúbricas. Los experimentos demuestran que nuestros LLMs aumentados igualan rápidamente el rendimiento de las canalizaciones de refinamiento en tiempo de prueba, reduciendo drásticamente el coste de inferencia.
English
We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.