τ-Rec: Ein verifizierbarer Benchmark für agentische Empfehlungssysteme

Zusammenfassung

Während sich Recommender-Systeme hin zu agentischen, mehrschrittigen dialogischen Schnittstellen entwickeln, haben Evaluationsparadigmen nur schwer Schritt gehalten. Aktuelle Benchmarks stützen sich oft auf „LLM-als-Richter“-Evaluationen, die Subjektivität, hohe Kosten und Inkonsistenz mit sich bringen. Wir stellen τ-Rec vor, einen Benchmark für agentische Recommender-Systeme, der subjektive Evaluation durch überprüfbare Belohnungen und einen offenlegungsmarkierten Elizitationsmechanismus (RTE) ersetzt, der kontrolliert, wie Aufgabenbeschränkungen im Dialog sichtbar werden. Indem Agenten anhand strukturierter Katalogprädikate getestet werden und eine Pass^k-Zuverlässigkeitsmetrik verwendet wird, bietet τ-Rec einen systematischen Test für konsistentes Schlussfolgern. Unsere Evaluation von neun Konfigurationen über fünf Modellfamilien hinweg – GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B und GPT-5 mini – offenbart eine steile Zuverlässigkeitsklippe, bei der selbst das beste Modell nur etwa 57 % bei Pass^1 und etwa 38 % bei Pass^4 erreicht, was eine kritische Lücke im aktuellen Einsatz dialogischer Agenten aufzeigt. Der gesamte Code und alle Daten sind öffentlich zugänglich unter https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.