ChatPaper.aiChatPaper

RecGPT-V2 Technischer Bericht

RecGPT-V2 Technical Report

December 16, 2025
papers.authors: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswertes Potenzial gezeigt, um Recommender-Systeme von impliziter Verhaltensmustererkennung zu expliziter Absichtsableitung zu transformieren. Während RecGPT-V1 diesen Paradigmenwechsel erfolgreich einleitete, indem es LLM-basierte Reasoning-Verfahren in die Nutzerinteressen-Ermittlung und Item-Tag-Vorhersage integrierte, leidet es unter vier grundlegenden Einschränkungen: (1) Rechenineffizienz und kognitive Redundanz über mehrere Reasoning-Pfade hinweg; (2) unzureichende Erklärungsvielfalt bei der Generierung mittels fester Vorlagen; (3) begrenzte Generalisierungsfähigkeit unter überwachten Lernparadigmen; und (4) eine vereinfachte, ergebnisorientierte Evaluation, die menschlichen Maßstäben nicht gerecht wird. Um diese Herausforderungen zu bewältigen, präsentieren wir RecGPT-V2 mit vier zentralen Innovationen. Erstens strukturiert ein hierarchisches Multi-Agenten-System die Absichtsableitung durch koordinierte Zusammenarbeit neu, beseitigt kognitive Doppelarbeit und ermöglicht gleichzeitig eine vielfältige Abdeckung von Absichten. In Kombination mit hybrider Repräsentationsinferenz, die Nutzerverhaltenskontexte komprimiert, reduziert unser Framework den GPU-Verbrauch um 60 % und verbessert den exklusiven Recall von 9,39 % auf 10,99 %. Zweitens generiert ein Meta-Prompting-Framework kontextuell adaptive Prompts dynamisch und steigert die Erklärungsvielfalt um +7,3 %. Drittens mildert bestärkendes Lernen unter Nebenbedingungen Konflikte zwischen multiplen Belohnungssignalen und erzielt eine Verbesserung von +24,1 % bei der Tag-Vorhersage und +13,0 % bei der Erklärungsakzeptanz. Viertens zerlegt ein Agent-as-a-Judge-Framework die Bewertung in mehrstufiges Reasoning und verbessert die Übereinstimmung mit menschlichen Präferenzen. Online-A/B-Tests auf Taobao zeigen signifikante Verbesserungen: +2,98 % CTR, +3,71 % IPV, +2,19 % TV und +11,46 % NER. RecGPT-V2 etabliert sowohl die technische Machbarkeit als auch die kommerzielle Tragfähigkeit des Einsatzes von LLM-gestützter Absichtsableitung im großen Maßstab und überbrückt die Lücke zwischen kognitiver Exploration und industriellem Nutzen.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025