τ-Rec : Un benchmark vérifiable pour les systèmes de recommandation agentiques

Résumé

Alors que les systèmes de recommandation évoluent vers des interfaces conversationnelles agentiques à plusieurs tours, les paradigmes d'évaluation peinent à suivre le rythme. Les bancs d'essai actuels reposent souvent sur des évaluations de type "LLM en tant que juge", ce qui introduit de la subjectivité, des coûts élevés et un manque de cohérence. Nous présentons τ-Rec, un banc d'essai pour les systèmes de recommandation agentiques qui remplace l'évaluation subjective par des récompenses vérifiables et un mécanisme de sollicitation à étiquetage révélateur (RTE) contrôlant la façon dont les contraintes de tâche apparaissent au cours du dialogue. En testant les agents par rapport à des prédicats de catalogue structurés et en employant une métrique de fiabilité pass^k, τ-Rec offre un test systématique pour un raisonnement cohérent. Notre évaluation de neuf configurations à travers cinq familles de modèles — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B et GPT-5 mini — révèle un abrupt précipice de fiabilité, où même le meilleur modèle n'atteint qu'environ 57 % à pass^1 et environ 38 % à pass^4, mettant en évidence un fossé critique dans le déploiement actuel des agents conversationnels. Tout le code et les données sont disponibles publiquement à l'adresse https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.