τ-Rec: Een verifieerbare benchmark voor agentische aanbevelingssystemen

Samenvatting

Nu aanbevelingssystemen overgaan naar agentische, meerrondige conversationele interfaces, kunnen evaluatieparadigma's niet goed meer meekomen. Huidige benchmarks vertrouwen vaak op "LLM-als-rechter"-evaluaties, die subjectiviteit, hoge kosten en inconsistentie introduceren. We presenteren τ-Rec, een benchmark voor agentische aanbevelingssystemen die subjectieve evaluatie vervangt door verifieerbare beloningen en een onthullingsgemerkte elicitatie (RTE)-mechanisme dat regelt hoe taakbeperkingen tijdens de dialoog naar voren komen. Door agenten te testen tegen gestructureerde cataloguspredicaten en een pass^k-betrouwbaarheidsmetriek te gebruiken, biedt τ-Rec een systematische test voor consistente redenering. Onze evaluatie van negen configuraties over vijf modelfamilies — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B en GPT-5 mini — onthult een steile betrouwbaarheidsklif, waarbij zelfs het beste model slechts ~57% op pass^1 en ~38% op pass^4 haalt, wat een kritiek hiaat in de huidige inzet van conversationele agenten benadrukt. Alle code en gegevens zijn openbaar beschikbaar op https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.