REVERE: Reflecterende Evoluerende Onderzoeksingenieur voor Wetenschappelijke Workflows

Samenvatting

Bestaande prompt-optimalisatietechnieken vertrouwen op lokale signalen om gedrag bij te werken, waarbij bredere en terugkerende patronen tussen taken vaak worden verwaarloosd, wat leidt tot slechte generalisatie; ze zijn verder afhankelijk van herschrijvingen van volledige prompts of ongestructureerde samenvoegingen, wat resulteert in kennisverlies. Deze beperkingen worden versterkt in onderzoekscoderingsworkflows, die heterogene repositories, ongespecificeerde omgevingen en zwakke feedback omvatten, waarbij het reproduceren van resultaten uit publieke codebasissen een gevestigd evaluatieregime is. Wij introduceren Reflective Evolving Research Engineer (REVERE), een raamwerk dat continu leert vanuit een Globale Trainingscontext, terugkerende faalpatronen in uitvoeringstrajecten tussen repositories herkent, deze destilleert tot herbruikbare heuristieken en gerichte bewerkingen uitvoert over drie configureerbare velden: de systeemprompt, een taakprompt-sjabloon en een cumulatieve cheatsheet. REVERE verbetert via dit reflectieve optimalisatieraamwerk de prestaties ten opzichte van eerder state-of-the-art, door experts gemaakte instructies voor onderzoekscoderingstaken met 4,50% op SUPER, 3,51% op ResearchCodeBench en 4,89% op ScienceAgentBench volgens hun respectievelijke metrieken. Deze resultaten tonen aan dat agents die zijn uitgerust met mechanismen voor continu leren en globale geheugenconsolidatie hun capaciteiten in de loop van de tijd betekenisvol kunnen ontwikkelen.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Reflecterende Evoluerende Onderzoeksingenieur voor Wetenschappelijke Workflows

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Samenvatting

Support