EEVEE: к обучению с помощью промптов во время тестирования в реальном мире для самосовершенствующихся агентов

Аннотация

В данной работе мы представляем EEVEE — первую платформу для обучения на промптах в момент тестирования для LLM-агентов, работающую с несколькими наборами данных и обеспечивающую адаптацию промптов в реальных потоках задач. Существующие методы в основном рассчитаны на однодатасетные сценарии, тогда как реальные приложения требуют от моделей обработки гетерогенных входных потоков, формируемых из различных наборов данных, доменов и распределений задач, что ограничивает их практическую применимость. Для снижения межнаборной интерференции EEVEE вводит маршрутизатор, который разделяет входящие данные на кластеры задач и назначает им соответствующие конфигурации промптов. Эта конструкция оптимизируется за счёт стратегии совместной эволюции маршрутизатора и промптов, использующей чередующиеся фазы обучения маршрутизатора и промптов для преодоления их взаимной зависимости. Эксперименты на нескольких наборах данных показывают, что предложенная платформа повышает устойчивость к гетерогенным потокам данных, сохраняя при этом способность к обучению на отдельных бенчмарках и эффективность. В частности, EEVEE улучшает средние показатели по нескольким бенчмаркам на 10,38 и 24,32 пункта по сравнению с Qwen3-4B-Instruct и DeepSeek-V3.2, превосходя современные методы GEPA и ACE на величину до 37,2% и 48,2% соответственно.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.