REVERE: Ingeniero de Investigación Evolutivo y Reflexivo para Flujos de Trabajo Científicos

Resumen

Las técnicas existentes de optimización de indicaciones (prompts) se basan en señales locales para actualizar el comportamiento, descuidando a menudo patrones más amplios y recurrentes entre tareas, lo que conduce a una mala generalización; además, dependen de reescrituras completas del prompt o fusiones no estructuradas, lo que resulta en pérdida de conocimiento. Estas limitaciones se magnifican en los flujos de trabajo de investigación y codificación, que implican repositorios heterogéneos, entornos poco especificados y retroalimentación débil, donde la reproducción de resultados a partir de bases de código públicas es un régimen de evaluación establecido. Presentamos Reflective Evolving Research Engineer (REVERE), un marco de trabajo que aprende continuamente de un Contexto de Entrenamiento Global, reconoce modos de fallo recurrentes en las trayectorias de ejecución entre repositorios, los destila en heurísticas reutilizables y realiza ediciones específicas en tres campos configurables: el prompt del sistema, una plantilla de prompt de tarea y una hoja de referencia acumulativa. REVERE, a través de este marco de optimización reflexiva, mejora el rendimiento respecto a las instrucciones expertas artesanales previas más avanzadas en tareas de codificación de investigación en un 4.50% en SUPER, un 3.51% en ResearchCodeBench y un 4.89% en ScienceAgentBench según sus métricas respectivas. Estos resultados demuestran que los agentes equipados con mecanismos de aprendizaje continuo y consolidación de memoria global pueden evolucionar significativamente sus capacidades con el tiempo.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Ingeniero de Investigación Evolutivo y Reflexivo para Flujos de Trabajo Científicos

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Resumen

Support