REVERE : Ingénieur de Recherche Réfléchi et Évolutif pour les Workflows Scientifiques

Résumé

Les techniques existantes d'optimisation de prompts s'appuient sur des signaux locaux pour mettre à jour le comportement, négligeant souvent les modèles plus larges et récurrents entre les tâches, ce qui entraîne une mauvaise généralisation ; elles reposent en outre sur des réécritures complètes du prompt ou des fusions non structurées, provoquant une perte de connaissances. Ces limitations sont amplifiées dans les workflows de recherche en programmation, qui impliquent des référentiels hétérogènes, des environnements sous-spécifiés et des retours d'information faibles, où la reproduction des résultats à partir de bases de code publiques constitue un régime d'évaluation établi. Nous présentons Reflective Evolving Research Engineer (REVERE), un cadre qui apprend continuellement à partir d'un Contexte d'Entraînement Global, identifie les modes d'échec récurrents dans les trajectoires d'exécution inter-repértoires, les distille en heuristiques réutilisables et effectue des modifications ciblées sur trois champs configurables : le prompt système, un modèle de prompt de tâche et une aide-mémoire cumulative. REVERE, via ce cadre d'optimisation réflexive, améliore les performances par rapport aux instructions expertes antérieures de l'état de l'art sur les tâches de programmation de recherche de 4,50 % sur SUPER, 3,51 % sur ResearchCodeBench et 4,89 % sur ScienceAgentBench selon leurs métriques respectives. Ces résultats démontrent que les agents dotés de mécanismes d'apprentissage continu et de consolidation mémorielle globale peuvent faire évoluer significativement leurs capacités dans le temps.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE : Ingénieur de Recherche Réfléchi et Évolutif pour les Workflows Scientifiques

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Résumé

Support