τ-Rec: Un Benchmark Verificable para Sistemas de Recomendación Agentivos

Resumen

A medida que los sistemas de recomendación evolucionan hacia interfaces conversacionales agénticas y de múltiples turnos, los paradigmas de evaluación no han logrado mantener el ritmo. Los benchmarks actuales a menudo dependen de evaluaciones basadas en "LLM-as-a-judge", que introducen subjetividad, altos costos e inconsistencia. Presentamos τ-Rec, un benchmark para sistemas de recomendación agénticos que reemplaza la evaluación subjetiva con recompensas verificables y un mecanismo de elicitación con etiquetado de revelación (RTE) que controla cómo surgen las restricciones de la tarea durante el diálogo. Al probar los agentes contra predicados de catálogo estructurados y emplear una métrica de fiabilidad pass^k, τ-Rec proporciona una prueba sistemática para el razonamiento consistente. Nuestra evaluación de nueve configuraciones en cinco familias de modelos —GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B y GPT-5 mini— revela un abrupto precipicio de fiabilidad, donde incluso el mejor modelo alcanza solo ~57% en pass^1 y ~38% en pass^4, lo que resalta una brecha crítica en el despliegue actual de agentes conversacionales. Todo el código y los datos están disponibles públicamente en https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.