EEVEE : Vers l'apprentissage de prompt en phase de test dans le monde réel pour des agents auto-améliorants

Résumé

Dans cet article, nous proposons EEVEE, le premier cadre d'apprentissage de prompts au moment du test sur plusieurs ensembles de données pour les agents LLM, permettant l'apprentissage de prompts au moment du test dans des flux de tâches réels. Les méthodes existantes sont principalement conçues pour des contextes avec un seul ensemble de données, tandis que les applications réelles exigent que les modèles traitent des flux d'entrées hétérogènes provenant de multiples ensembles de données, domaines et distributions de tâches, limitant ainsi leur applicabilité pratique. Pour atténuer les interférences entre ensembles de données, EEVEE introduit un routeur qui partitionne les entrées entrantes en grappes de tâches et les assigne à des configurations de prompts appropriées. Cette conception est optimisée via une stratégie de co-évolution routeur-prompt, qui alterne les phases d'apprentissage du routeur et des prompts pour résoudre leur dépendance mutuelle. Les expériences menées sur plusieurs ensembles de données démontrent que le cadre améliore la robustesse face à des flux de données hétérogènes, tout en maintenant la capacité d'apprentissage et l'efficacité sur un seul benchmark. Plus précisément, EEVEE améliore les scores moyens multi-benchmarks de 10,38 et 24,32 points par rapport à Qwen3-4B-Instruct et DeepSeek-V3.2, surpassant les méthodes SOTA GEPA et ACE jusqu'à 37,2 % et 48,2 %.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.