REVERE: Ricercatore Ingegnere Riflessivo ed Evolutivo per i Flussi di Lavoro Scientifici

Abstract

Le tecniche esistenti di ottimizzazione dei prompt si basano su segnali locali per aggiornare il comportamento, trascurando spesso modelli più ampi e ricorrenti tra i task, il che porta a una scarsa generalizzazione; inoltre, fanno affidamento su riscritture complete del prompt o fusioni non strutturate, causando una perdita di conoscenza. Queste limitazioni sono amplificate nei flussi di lavoro di ricerca e codifica, che coinvolgono repository eterogenei, ambienti sottospecificati e feedback deboli, dove la riproduzione dei risultati da codebase pubblici è un regime di valutazione consolidato. Introduciamo Reflective Evolving Research Engineer (REVERE), un framework che apprende continuamente dal Contesto di Addestramento Globale, riconosce modalità di errore ricorrenti nelle traiettorie di esecuzione cross-repository, le condensa in euristiche riutilizzabili ed esegue modifiche mirate su tre campi configurabili: il prompt di sistema, un template per il prompt del task e un cheat sheet cumulativo. REVERE, tramite questo framework di ottimizzazione riflessiva, migliora le prestazioni rispetto alle istruzioni expert-crafted state-of-the-art precedenti sui task di codifica della ricerca del 4,50% su SUPER, del 3,51% su ResearchCodeBench e del 4,89% su ScienceAgentBench secondo le rispettive metriche. Questi risultati dimostrano che agenti dotati di meccanismi per l'apprendimento continuo e il consolidamento della memoria globale possono evolvere significativamente le proprie capacità nel tempo.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Ricercatore Ingegnere Riflessivo ed Evolutivo per i Flussi di Lavoro Scientifici

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Abstract

Support