EEVEE: Naar prompt-leren tijdens het testen in de echte wereld voor zelfverbeterende agenten

Samenvatting

In dit artikel introduceren we EEVEE, het eerste raamwerk voor testtijd prompt-leren met meerdere datasets voor LLM-agenten, dat testtijd prompt-leren mogelijk maakt onder realistische taakstromen. Bestaande methoden zijn grotendeels ontworpen voor instellingen met één enkele dataset, terwijl realistische toepassingen vereisen dat modellen heterogene invoerstromen uit meerdere datasets, domeinen en taakverdelingen verwerken, wat hun praktische toepasbaarheid beperkt. Om interferentie tussen datasets te verminderen, introduceert EEVEE een router die binnenkomende invoer in taakclusters verdeelt en deze toewijst aan geschikte promptconfiguraties. Dit ontwerp wordt geoptimaliseerd via een strategie voor co-evolutie van router en prompt, die afwisselende leerfasen voor router en prompt gebruikt om hun onderlinge afhankelijkheid aan te pakken. Experimenten met meerdere datasets tonen aan dat het raamwerk de robuustheid onder heterogene datastromen verbetert, terwijl het leervermogen en de efficiëntie op één benchmark behouden blijven. Concreet verbetert EEVEE de gemiddelde multi-benchmarkscores met 10,38 en 24,32 punten ten opzichte van Qwen3-4B-Instruct en DeepSeek-V3.2, en overtreft het de state-of-the-art methoden GEPA en ACE met respectievelijk 37,2% en 48,2%.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.