EEVEE: Auf dem Weg zum Testzeit-Prompt-Learning in der realen Welt für selbstverbessernde Agenten

Zusammenfassung

In dieser Arbeit stellen wir EEVEE vor, das erste Multi-Dataset-Testzeit-Prompt-Learning-Framework für LLM-Agenten, das Testzeit-Prompt-Learning unter realen Aufgabenströmen ermöglicht. Bestehende Methoden sind weitgehend für Einzeldatensatz-Umgebungen konzipiert, während reale Anwendungen Modelle erfordern, die heterogene Eingabeströme aus mehreren Datensätzen, Domänen und Aufgabenverteilungen verarbeiten können, was ihre praktische Anwendbarkeit einschränkt. Um cross-dataset-Interferenzen zu reduzieren, führt EEVEE einen Router ein, der eingehende Eingaben in Aufgabencluster unterteilt und diesen geeignete Prompt-Konfigurationen zuweist. Dieses Design wird über eine Router-Prompt-Ko-Evolutionsstrategie optimiert, die verschränkte Router- und Prompt-Lernphasen einsetzt, um ihre gegenseitige Abhängigkeit zu adressieren. Experimente mit mehreren Datensätzen zeigen, dass das Framework die Robustheit unter heterogenen Datenströmen verbessert und gleichzeitig die Einzel-Benchmark-Lernfähigkeit und Effizienz bewahrt. Insbesondere verbessert EEVEE die durchschnittlichen Multi-Benchmark-Ergebnisse um 10,38 bzw. 24,32 Punkte gegenüber Qwen3-4B-Instruct und DeepSeek-V3.2 und übertrifft die SOTA-Methoden GEPA und ACE um bis zu 37,2% bzw. 48,2%.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.