REVERE: Pesquisador de Engenharia Reflexiva e Evolutiva para Fluxos de Trabalho Científicos

Resumo

As técnicas existentes de otimização de prompts dependem de sinais locais para atualizar o comportamento, frequentemente negligenciando padrões mais amplos e recorrentes entre tarefas, o que leva a uma generalização deficiente; elas ainda dependem de reescritas completas do prompt ou de fusões não estruturadas, resultando em perda de conhecimento. Essas limitações são amplificadas em fluxos de trabalho de pesquisa em codificação, que envolvem repositórios heterogêneos, ambientes subespecificados e feedback fraco, onde a reprodução de resultados a partir de codebases públicas é um regime de avaliação estabelecido. Apresentamos o Reflective Evolving Research Engineer (REVERE), uma estrutura que aprende continuamente a partir de um Contexto de Treinamento Global, reconhece modos de falha recorrentes em trajetórias de execução entre repositórios, os destila em heurísticas reutilizáveis e realiza edições direcionadas em três campos configuráveis: o prompt do sistema, um modelo de prompt de tarefa e uma "cola" cumulativa. O REVERE, por meio desta estrutura de otimização reflexiva, melhora o desempenho em relação às instruções especializadas prévias de última geração em tarefas de codificação de pesquisa em 4,50% no SUPER, 3,51% no ResearchCodeBench e 4,89% no ScienceAgentBench em suas respectivas métricas. Esses resultados demonstram que agentes equipados com mecanismos para aprendizado contínuo e consolidação de memória global podem evoluir significativamente suas capacidades ao longo do tempo.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Pesquisador de Engenharia Reflexiva e Evolutiva para Fluxos de Trabalho Científicos

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Resumo

Support