피드백을 도구로서의 메모리로 정제하기
Distilling Feedback into Memory-as-a-Tool
January 9, 2026
저자: Víctor Gallego
cs.AI
초록
우리는 파일 기반 메모리 시스템과 에이전트 제어 도구 호출을 통해 일시적인 비판을 검색 가능한 지침으로 전환함으로써 추론 시점 비용을 분산하는 프레임워크를 제안합니다. 우리는 루브릭 기반 학습을 위한 새로운 데이터셋인 Rubric Feedback Bench에서 이 방법을 평가합니다. 실험 결과, 우리의 증강된 대규모 언어 모델(LLM)이 추론 비용을 획기적으로 절감하면서도 테스트 시점 정제 파이프라인의 성능을 빠르게 따라잡는 것을 확인했습니다.
English
We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.