ChatPaper.aiChatPaper

Технический отчет RecGPT-V2

RecGPT-V2 Technical Report

December 16, 2025
Авторы: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали значительный потенциал в преобразовании рекомендательных систем от неявного сопоставления поведенческих паттернов к явному логическому выводу намерений. Хотя RecGPT-V1 успешно pioneered эту парадигму, интегрировав LLM-обусловленное рассуждение в анализ пользовательских интересов и прогнозирование тегов элементов, она страдает от четырёх фундаментальных ограничений: (1) вычислительная неэффективность и когнитивная избыточность across множественных маршрутов рассуждения; (2) недостаточное разнообразие объяснений в генерации с фиксированными шаблонами; (3) ограниченная обобщающая способность в рамках парадигм обучения с учителем; и (4) упрощённая оценка, сфокусированная на результате, которая не соответствует человеческим стандартам. Для решения этих проблем мы представляем RecGPT-V2 с четырьмя ключевыми инновациями. Во-первых, Иерархическая Мульти-Агентная Система перестраивает логический вывод намерений через скоординированное collaboration, устраняя когнитивное дублирование и обеспечивая разнообразное покрытие интентов. В сочетании с Гибридным Представлением Вывода, которое сжимает контексты пользовательского поведения, наша framework снижает потребление GPU на 60% и улучшает эксклюзивную полноту с 9.39% до 10.99%. Во-вторых, Meta-Prompting framework динамически генерирует контекстно-адаптивные промты, улучшая разнообразие объяснений на +7.3%. В-третьих, ограниченное обучение с подкреплением смягчает конфликты множественных вознаграждений, достигая улучшения на +24.1% в прогнозировании тегов и на +13.0% в принятии объяснений. В-четвёртых, framework "Агент-как-Судья" декомпозирует оценку на многошаговое рассуждение, улучшая соответствие человеческим предпочтениям. Онлайн A/B-тесты на Taobao демонстрируют значительные улучшения: +2.98% CTR, +3.71% IPV, +2.19% TV и +11.46% NER. RecGPT-V2 устанавливает как техническую осуществимость, так и коммерческую жизнеспособность масштабного развёртывания LLM-обусловленного логического вывода намерений, преодолевая разрыв между когнитивным исследованием и промышленной полезностью.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025