Агентная агрегация для параллельного масштабирования долгосрочных агентных задач

Аннотация

Мы изучаем параллельное масштабирование на этапе тестирования для долгосрочных агентных задач, таких как агентный поиск и глубокое исследование, где множественные прогоны генерируются параллельно и агрегируются в финальный ответ. Хотя такое масштабирование доказало свою эффективность для рассуждений по цепочке мыслей (chain-of-thought), агентные задачи создают уникальные проблемы: траектории являются длинными, многошаговыми и усиленными инструментами, а выходные данные часто открыты. Агрегация только финальных ответов отбрасывает богатую информацию из траекторий, в то время как конкатенация всех траекторий превышает контекстное окно модели. Чтобы решить эту проблему, мы предлагаем AggAgent — агента агрегации, который рассматривает параллельные траектории как среду. Мы оснащаем его легковесными инструментами для проверки кандидатных решений и поиска по траекториям, что позволяет ему навигировать и синтезировать информацию по требованию. На шести бенчмарках и для трех семейств моделей (GLM-4.7, Qwen3.5, MiniMax-M2.5) AggAgent превосходит все существующие методы агрегации — вплоть до 5.3% в абсолютном выражении в среднем и до 10.3% на двух задачах глубокого исследования — при добавлении минимальных накладных расходов, так как стоимость агрегации остается ограниченной стоимостью одного агентного прогона. Наши результаты устанавливают агентную агрегацию как эффективный и экономичный подход к параллельному масштабированию на этапе тестирования.

English

We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.

Агентная агрегация для параллельного масштабирования долгосрочных агентных задач

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Аннотация

Support