ChatPaper.aiChatPaper

RecGPT-V2 Technisch Rapport

RecGPT-V2 Technical Report

December 16, 2025
Auteurs: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

Samenvatting

Grote taalmodel(len) (LLM's) hebben een opmerkelijk potentieel getoond om aanbevelingssystemen te transformeren van impliciete gedragspatronenherkenning naar expliciete intentie-redenering. Hoewel RecGPT-V1 dit paradigma succesvol pionierde door op LLM gebaseerde redenering te integreren in gebruikersinteresse-mining en itemtag-voorspelling, kampt het met vier fundamentele beperkingen: (1) computationele inefficiëntie en cognitieve redundantie over meerdere redeneerroutes; (2) onvoldoende diversiteit in verklaringen bij generatie met vaste templates; (3) beperkte generalisatie onder supervised learning-paradigma's; en (4) simplistische, op uitkomsten gerichte evaluatie die niet voldoet aan menselijke maatstaven. Om deze uitdagingen aan te pakken, presenteren wij RecGPT-V2 met vier belangrijke innovaties. Ten eerste herstructureert een Hiërarchisch Multi-Agent Systeem intentie-redenering via gecoördineerde samenwerking, waardoor cognitieve duplicatie wordt geëlimineerd en tegelijkertijd diverse intentiedekking wordt mogelijk gemaakt. In combinatie met Hybride Representatie-Inferentie die gebruikersgedragscontexten comprimeert, reduceert ons framework het GPU-verbruik met 60% en verbetert het de exclusieve recall van 9,39% naar 10,99%. Ten tweede genereert een Meta-Prompting framework dynamisch contextueel adaptieve prompts, waardoor de verklaringsdiversiteit met +7,3% verbetert. Ten derde vermindert constrained reinforcement learning conflicten tussen meerdere beloningen, wat resulteert in een verbetering van +24,1% in tagvoorspelling en +13,0% in acceptatiegraad van verklaringen. Ten vierde deconstrueert een Agent-as-a-Judge framework de beoordeling in meerstappenredenering, waardoor de afstemming op menselijke voorkeuren verbetert. Online A/B-testen op Taobao tonen significante verbeteringen: +2,98% CTR, +3,71% IPV, +2,19% TV en +11,46% NER. RecGPT-V2 vestigt zowel de technische haalbaarheid als de commerciële levensvatbaarheid van grootschalige inzet van LLM-gestuurde intentie-redenering, en overbrugt zo de kloof tussen cognitieve exploratie en industriële bruikbaarheid.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025