ChatPaper.aiChatPaper

Дистилляция обратной связи в память-как-инструмент

Distilling Feedback into Memory-as-a-Tool

January 9, 2026
Авторы: Víctor Gallego
cs.AI

Аннотация

Мы предлагаем фреймворк, который снижает затраты на логические операции во время вывода, преобразуя эпизодические критические замечания в извлекаемые рекомендации с помощью файловой системы памяти и инструментальных вызовов, управляемых агентом. Мы оцениваем этот метод на Rubric Feedback Bench — новом наборе данных для обучения на основе рубрик. Эксперименты показывают, что наши расширенные большие языковые модели быстро достигают производительности конвейеров тестовой оптимизации при значительном снижении вычислительных затрат на вывод.
English
We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.
PDF11January 13, 2026