REVERE: Рефлексирующий Развивающийся Исследовательский Инженер для Научных Рабочих Процессов

Аннотация

Существующие методы оптимизации промптов полагаются на локальные сигналы для обновления поведения, часто игнорируя более широкие и повторяющиеся паттерны между задачами, что приводит к слабой обобщающей способности; кроме того, они зависят от полных перезаписей промптов или неструктурированных слияний, что ведет к потере знаний. Эти ограничения усугубляются в рабочих процессах исследовательского программирования, которые включают гетерогенные репозитории, неполноценно специфицированные окружения и слабую обратную связь, где воспроизведение результатов из публичных кодобаз является устоявшимся режимом оценки. Мы представляем REVERE (Reflective Evolving Research Engineer) — фреймворк, который непрерывно обучается на глобальном тренировочном контексте, распознает повторяющиеся режимы сбоев в траекториях выполнения кода из разных репозиториев, distillирует их в переиспользуемые эвристики и выполняет целевые правки в трех настраиваемых полях: системный промпт, шаблон промпта задачи и кумулятивный читшит. REVERE, благодаря этой рефлексивной оптимизационной структуре, улучшает производительность по сравнению с предыдущими state-of-the-art инструкциями, созданными экспертами для задач исследовательского программирования, на 4.50% на SUPER, 3.51% на ResearchCodeBench и 4.89% на ScienceAgentBench в соответствии с их метриками. Эти результаты демонстрируют, что агенты, оснащенные механизмами непрерывного обучения и консолидации глобальной памяти, могут существенно развивать свои возможности с течением времени.

English

Existing prompt-optimization techniques rely on local signals to update behavior, often neglecting broader and recurring patterns across tasks, leading to poor generalization; they further rely on full-prompt rewrites or unstructured merges, resulting in knowledge loss. These limitations are magnified in research-coding workflows, which involve heterogeneous repositories, underspecified environments, and weak feedback, where reproducing results from public codebases is an established evaluation regime. We introduce Reflective Evolving Research Engineer (REVERE), a framework that continuously learns from Global Training Context, recognizes recurring failure modes in cross-repository execution trajectories, distills them into reusable heuristics, and performs targeted edits across three configurable fields: the system prompt, a task-prompt template, and a cumulative cheatsheet. REVERE, via this reflective optimization framework, improves performance over prior state-of-the-art expert-crafted instructions on research coding tasks by 4.50% on SUPER, 3.51% on ResearchCodeBench, and 4.89% on ScienceAgentBench across their respective metrics. These results demonstrate that agents equipped with mechanisms for continual learning and global memory consolidation can meaningfully evolve their capabilities over time.

REVERE: Рефлексирующий Развивающийся Исследовательский Инженер для Научных Рабочих Процессов

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Аннотация

Support