RE-TRAC: Рекурсивное сжатие траекторий для глубоких поисковых агентов

Аннотация

Глубокие исследовательские агенты на основе больших языковых моделей (LLM) в основном построены на архитектуре ReAct. Такое линейное проектирование затрудняет возврат к предыдущим состояниям, ветвление в альтернативных направлениях поиска или поддержание глобального контекста при длинных последовательностях, что часто приводит к локальным оптимумам, избыточному исследованию и неэффективному поиску. Мы предлагаем Re-TRAC — агентский фреймворк, который осуществляет межтраекторное исследование путем генерации структурированного представления состояния после каждой траектории для обобщения доказательств, неопределенностей, неудач и будущих планов, и обусловливает последующие траектории этим представлением состояния. Это позволяет осуществлять итеративную рефлексию и глобально информированное планирование, переосмысливая исследование как прогрессивный процесс. Эмпирические результаты показывают, что Re-TRAC стабильно превосходит ReAct на 15–20% в тесте BrowseComp при использовании передовых LLM. Для меньших моделей мы вводим контролируемое тонкое обучение с учетом Re-TRAC, достигая наилучшей производительности на сопоставимых масштабах. Примечательно, что Re-TRAC демонстрирует монотонное сокращение количества вызовов инструментов и использования токенов между раундами, что указывает на прогрессивно целенаправленное исследование, движимое межтраекторной рефлексией, а не избыточным поиском.

English

LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.

RE-TRAC: Рекурсивное сжатие траекторий для глубоких поисковых агентов

RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents

Аннотация

Support