π-Bench: Evaluación de Agentes Asistentes Personales Proactivos en Flujos de Trabajo de Largo Plazo

Resumen

El auge de los agentes asistentes personales, por ejemplo, OpenClaw, destaca el creciente potencial de los grandes modelos de lenguaje para apoyar a los usuarios en la vida cotidiana y el trabajo. Un desafío central en estos entornos es la asistencia proactiva, ya que los usuarios a menudo comienzan con solicitudes poco especificadas y dejan sin expresar necesidades, restricciones o preferencias importantes. Sin embargo, los puntos de referencia existentes rara vez evalúan si los agentes pueden identificar y actuar sobre dichas intenciones ocultas antes de que sean expresadas explícitamente, especialmente en interacciones sostenidas de múltiples turnos donde las necesidades del usuario surgen gradualmente. Para abordar esta brecha, presentamos π-Bench, un punto de referencia para la asistencia proactiva que comprende 100 tareas de múltiples turnos a través de 5 personas de usuario específicas de dominio. Al incorporar intenciones ocultas del usuario, dependencias entre tareas y continuidad entre sesiones, π-Bench evalúa la capacidad de los agentes para anticipar y abordar las necesidades del usuario a lo largo de interacciones extendidas, midiendo conjuntamente la proactividad y la finalización de tareas en trayectorias a largo plazo que reflejan mejor el uso en el mundo real. Los experimentos muestran (1) que la asistencia proactiva sigue siendo un desafío, (2) una clara distinción entre la finalización de tareas y la proactividad, y (3) el valor de la interacción previa para la resolución proactiva de intenciones en tareas posteriores.

English

The rise of personal assistant agents, e.g., OpenClaw, highlights the growing potential of large language models to support users across everyday life and work. A core challenge in these settings is proactive assistance, since users often begin with underspecified requests and leave important needs, constraints, or preferences unstated. However, existing benchmarks rarely evaluate whether agents can identify and act on such hidden intents before they are explicitly stated, especially in sustained multi-turn interactions where user needs emerge gradually. To address this gap, we introduce π-Bench, a benchmark for proactive assistance comprising 100 multi-turn tasks across 5 domain-specific user personas. By incorporating hidden user intents, inter-task dependencies, and cross-session continuity, π-Bench evaluates agents' ability to anticipate and address user needs over extended interactions, jointly measuring proactivity and task completion in long-horizon trajectories that better reflect real-world use. Experiments show (1) proactive assistance remains challenging, (2) a clear distinction between task completion and proactivity, and (3) the value of prior interaction for proactive intent resolution in later tasks.