τ-Rec: Um Benchmark Verificável para Sistemas de Recomendação Agênticos

Resumo

À medida que os sistemas de recomendação evoluem para interfaces conversacionais agentivas e de múltiplas interações, os paradigmas de avaliação têm tido dificuldade em acompanhar esse avanço. Os benchmarks atuais frequentemente recorrem a avaliações do tipo "LLM-como-juiz", que introduzem subjetividade, altos custos e inconsistência. Apresentamos o τ-Rec, um benchmark para sistemas de recomendação agentivos que substitui a avaliação subjetiva por recompensas verificáveis e um mecanismo de elicitação com revelação marcada (RTE), que controla como as restrições da tarefa surgem durante o diálogo. Ao testar agentes contra predicados estruturados de catálogo e empregar uma métrica de confiabilidade pass^k, o τ-Rec fornece um teste sistemático para raciocínio consistente. Nossa avaliação de nove configurações em cinco famílias de modelos — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B e GPT-5 mini — revela um precipício acentuado de confiabilidade, onde mesmo o melhor modelo atinge apenas ~57% em pass^1 e ~38% em pass^4, destacando uma lacuna crítica na implementação atual de agentes conversacionais. Todo o código e dados estão disponíveis publicamente em https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.