EEVEE: Rumo ao aprendizado de prompts em tempo de teste no mundo real para agentes auto-melhoráveis

Resumo

Neste artigo, propomos o EEVEE, o primeiro framework de aprendizagem de prompts em tempo de teste para múltiplos conjuntos de dados para agentes LLM, permitindo a aprendizagem de prompts em tempo de teste sob fluxos de tarefas do mundo real. Métodos existentes são majoritariamente projetados para cenários de conjunto único de dados, enquanto aplicações reais exigem que modelos lidem com fluxos de entrada heterogêneos provenientes de múltiplos conjuntos de dados, domínios e distribuições de tarefas, limitando sua aplicabilidade prática. Para mitigar a interferência entre conjuntos de dados, o EEVEE introduz um roteador que particiona as entradas recebidas em clusters de tarefas e as atribui a configurações de prompts adequadas. Este design é otimizado por meio de uma estratégia de co-evolução roteador-prompt, que emprega fases intercaladas de aprendizado do roteador e do prompt para lidar com sua dependência mútua. Experimentos em múltiplos conjuntos de dados demonstram que o framework melhora a robustez sob fluxos de dados heterogêneos, mantendo a capacidade e eficiência de aprendizado em benchmarks únicos. Especificamente, o EEVEE melhora as pontuações médias em múltiplos benchmarks em 10,38 e 24,32 pontos sobre o Qwen3-4B-Instruct e o DeepSeek-V3.2, superando os métodos de ponta GEPA e ACE em até 37,2% e 48,2%.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.