ChatPaper.aiChatPaper

REVERE: Ricercatore Ingegnere Riflessivo ed Evolutivo per i Flussi di Lavoro Scientifici

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

March 21, 2026
Autori: Balaji Dinesh Gangireddi, Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI

Abstract

Le tecniche esistenti di ottimizzazione dei prompt si basano su segnali locali per aggiornare il comportamento, trascurando spesso modelli più ampi e ricorrenti tra i task, il che porta a una scarsa generalizzazione; inoltre, fanno affidamento su riscritture complete del prompt o fusioni non strutturate, causando una perdita di conoscenza. Queste limitazioni sono amplificate nei flussi di lavoro di ricerca e codifica, che coinvolgono repository eterogenei, ambienti sottospecificati e feedback deboli, dove la riproduzione dei risultati da codebase pubblici è un regime di valutazione consolidato. Introduciamo Reflective Evolving Research Engineer (REVERE), un framework che apprende continuamente dal Contesto di Addestramento Globale, riconosce modalità di errore ricorrenti nelle traiettorie di esecuzione cross-repository, le condensa in euristiche riutilizzabili ed esegue modifiche mirate su tre campi configurabili: il prompt di sistema, un template per il prompt del task e un cheat sheet cumulativo. REVERE, tramite questo framework di ottimizzazione riflessiva, migliora le prestazioni rispetto alle istruzioni expert-crafted state-of-the-art precedenti sui task di codifica della ricerca del 4,50% su SUPER, del 3,51% su ResearchCodeBench e del 4,89% su ScienceAgentBench secondo le rispettive metriche. Questi risultati dimostrano che agenti dotati di meccanismi per l'apprendimento continuo e il consolidamento della memoria globale possono evolvere significativamente le proprie capacità nel tempo.
English
Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.
PDF172March 29, 2026