REVERE: Reflektiver, sich entwickelnder Forschungsingenieur für wissenschaftliche Workflows

Zusammenfassung

Bestehende Prompt-Optimierungstechniken verlassen sich auf lokale Signale zur Verhaltensaktualisierung und vernachlässigen häufig breitere, wiederkehrende Muster über Aufgaben hinweg, was zu schlechter Generalisierung führt. Zudem basieren sie auf Komplettüberarbeitungen des Prompts oder unstrukturierten Zusammenführungen, was Wissensverluste verursacht. Diese Einschränkungen verstärken sich in Forschungs-Coding-Workflows, die heterogene Repositories, underspezifizierte Umgebungen und schwache Rückmeldungen umfassen – Bereiche, in denen die Reproduktion von Ergebnissen aus öffentlichen Codebasen ein etabliertes Evaluierungsregime darstellt. Wir stellen Reflective Evolving Research Engineer (REVERE) vor, ein Framework, das kontinuierlich aus einem globalen Trainingskontext lernt, wiederkehrende Fehlermuster in repositoryübergreifenden Ausführungspfaden erkennt, diese in wiederverwendbare Heuristiken destilliert und gezielte Bearbeitungen in drei konfigurierbaren Bereichen vornimmt: dem System-Prompt, einer Aufgaben-Prompt-Vorlage und einem kumulativen Cheatsheet. REVERE verbessert durch diesen reflektiven Optimierungsansatz die Leistung gegenüber vorherigen state-of-the-art, von Experten erstellten Anweisungen bei Forschungs-Coding-Aufgaben um 4,50 % auf SUPER, 3,51 % auf ResearchCodeBench und 4,89 % auf ScienceAgentBench gemessen an deren jeweiligen Metriken. Diese Ergebnisse demonstrieren, dass Agenten mit Mechanismen für kontinuierliches Lernen und globale Gedächtniskonsolidierung ihre Fähigkeiten im Laufe der Zeit bedeutend weiterentwickeln können.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Reflektiver, sich entwickelnder Forschungsingenieur für wissenschaftliche Workflows

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Zusammenfassung

Support