EEVEE: Hacia el aprendizaje de prompts en tiempo de prueba en el mundo real para agentes auto-mejorantes

Resumen

En este artículo, proponemos EEVEE, el primer marco de aprendizaje de indicaciones en tiempo de prueba con múltiples conjuntos de datos para agentes LLM, que permite el aprendizaje de indicaciones en tiempo de prueba bajo flujos de tareas del mundo real. Los métodos existentes están diseñados principalmente para entornos con un solo conjunto de datos, mientras que las aplicaciones del mundo real requieren que los modelos manejen flujos de entrada heterogéneos provenientes de múltiples conjuntos de datos, dominios y distribuciones de tareas, lo que limita su aplicabilidad práctica. Para mitigar la interferencia entre conjuntos de datos, EEVEE introduce un enrutador que particiona las entradas entrantes en clústeres de tareas y las asigna a configuraciones de indicaciones adecuadas. Este diseño se optimiza mediante una estrategia de co-evolución enrutador-indicación, que emplea fases intercaladas de aprendizaje del enrutador y de las indicaciones para abordar su dependencia mutua. Los experimentos realizados en múltiples conjuntos de datos demuestran que el marco mejora la robustez bajo flujos de datos heterogéneos, manteniendo al mismo tiempo la capacidad de aprendizaje y eficiencia en un único punto de referencia. Específicamente, EEVEE mejora la puntuación media en múltiples puntos de referencia en 10,38 y 24,32 puntos en comparación con Qwen3-4B-Instruct y DeepSeek-V3.2, superando a los métodos de vanguardia GEPA y ACE hasta en un 37,2% y un 48,2%.

English

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt learning under real-world task streams. Existing methods are largely designed for single-dataset settings, while real-world applications require models to handle heterogeneous input streams drawn from multiple datasets, domains, and task distributions, limiting their practical applicability. To mitigate cross-dataset interference, EEVEE introduces a router that partitions incoming inputs into task clusters and assigns them to suitable prompt configurations. This design is optimized via a router-prompt co-evolution strategy, which employs interleaved router and prompt learning phases to address their mutual dependency. Experiments across multiple datasets demonstrate that the framework improves robustness under heterogeneous data streams while maintaining single-benchmark learning capability and efficiency. Specifically, EEVEE improves average multi-benchmark scores by 10.38 and 24.32 points over Qwen3-4B-Instruct and DeepSeek-V3.2, surpassing SOTA methods GEPA and ACE by up to 37.2% and 48.2%.