τ-Rec: Верифицируемый бенчмарк для агентных рекомендательных систем

Аннотация

По мере того как рекомендательные системы переходят к агентным, многошаговым диалоговым интерфейсам, парадигмы оценки с трудом успевают за этими изменениями. Современные бенчмарки часто полагаются на оценки «LLM-в-роли-судьи», что вносит субъективность, высокие затраты и несоответствие результатов. Мы представляем τ-Rec — бенчмарк для агентных рекомендательных систем, заменяющий субъективную оценку на верифицируемые вознаграждения и механизм раскрытия-тегирования (RTE), который контролирует, как ограничения задачи проявляются в ходе диалога. Проверяя агентов на соответствие структурированным предикатам каталога и используя метрику надёжности pass^k, τ-Rec обеспечивает систематическое тестирование последовательности рассуждений. Оценка девяти конфигураций в пяти семействах моделей — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B и GPT-5 mini — выявила крутой обрыв надёжности, где даже лучшая модель достигает лишь ~57% при pass^1 и ~38% при pass^4, что подчёркивает критический разрыв в современном развёртывании диалоговых агентов. Весь код и данные доступны по адресу https://github.com/nbharaths/tau-rec.

English

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce subjectivity, high costs and inconsistency. We present τ-Rec, a benchmark for agentic recommender systems that replaces subjective evaluation with verifiable rewards and a reveal-tagged elicitation (RTE) mechanism that controls how task constraints surface during dialogue. By testing agents against structured catalog predicates and employing a pass^k reliability metric, τ-Rec provides a systematic test for consistent reasoning. Our evaluation of nine configurations across five model families -- GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B and GPT-5 mini -- reveals a steep reliability cliff, where even the best model achieves only ~57% at pass^1 and ~38% at pass^4, highlighting a critical gap in current conversational agent deployment. All code and data are publicly available at https://github.com/nbharaths/tau-rec.