REVERE: 과학적 워크플로우를 위한 반성적 진화 연구 엔지니어
REVERE: Reflective Evolving Research Engineer for Scientific Workflows
March 21, 2026
저자: Balaji Dinesh Gangireddi, Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan
cs.AI
초록
기존 프롬프트 최적화 기법은 동작 업데이트에 지역적 신호에 의존하여 과제 전반에 걸친 광범위하고 반복적인 패턴을 간과함으로써 일반화 성능이 낮은 경우가 많으며, 전체 프롬프트 재작성이나 비정형 병합에 의존함으로써 지식 손실이 발생합니다. 이러한 한계는 이질적인 저장소, 불충분하게 명시된 환경, 약한 피드백이 수반되며 공개 코드베이스에서 결과 재현이 확립된 평가 방식인 연구-코딩 워크플로우에서 더욱 두드러집니다. 우리는 글로벌 훈련 컨텍스트로부터 지속적으로 학습하고, 저장소 간 실행 궤적에서 반복적으로 나타나는 실패 모드를 인지하며, 이를 재사용 가능한 휴리스틱으로 정제한 뒤, 시스템 프롬프트, 작업 프롬프트 템플릿, 누적 치트시트라는 세 가지 구성 가능한 영역에 걸쳐 표적 편집을 수행하는 Reflective Evolving Research Engineer(REVERE) 프레임워크를 소개합니다. REVERE는 이러한 성찰적 최적화 프레임워크를 통해 연구 코딩 과제에서 기존 최첨단 전문가 제작 지침 대비 성능을 각각의 메트릭 기준으로 SUPER에서 4.50%, ResearchCodeBench에서 3.51%, ScienceAgentBench에서 4.89% 향상시켰습니다. 이러한 결과는 지속적 학습과 글로벌 메모리 통합 메커니즘을 갖춘 에이전트가 시간이 지남에 따라 자신의 역량을 의미 있게 진화시킬 수 있음을 보여줍니다.
English
Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.