Distilando o Feedback em Memória como Ferramenta

Resumo

Propomos uma estrutura que amortiza o custo do raciocínio em tempo de inferência, convertendo críticas transitórias em diretrizes recuperáveis, por meio de um sistema de memória baseado em arquivos e chamadas de ferramentas controladas por agentes. Avaliamos este método no Rubric Feedback Bench, um novo conjunto de dados para aprendizagem baseada em rubricas. Experimentos demonstram que nossos LLMs aumentados atingem rapidamente o desempenho de pipelines de refinamento em tempo de teste, reduzindo drasticamente o custo de inferência.

English

We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.