ChatPaper.aiChatPaper

Rapporto Tecnico di RecGPT-V2

RecGPT-V2 Technical Report

December 16, 2025
Autori: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato un potenziale straordinario nel trasformare i sistemi di raccomandazione, passando dalla corrispondenza implicita di pattern comportamentali al ragionamento esplicito sulle intenzioni. Sebbene RecGPT-V1 abbia pionieristicamente inaugurato questo paradigma integrando il ragionamento basato su LLM nell'analisi degli interessi utente e nella previsione dei tag degli articoli, esso soffre di quattro limitazioni fondamentali: (1) inefficienza computazionale e ridondanza cognitiva tra le molteplici vie di ragionamento; (2) diversità insufficiente nelle spiegazioni generate da template fissi; (3) generalizzazione limitata in paradigmi di apprendimento supervisionato; e (4) valutazione semplicistica focalizzata sui risultati, che non soddisfa gli standard umani. Per affrontare queste sfide, presentiamo RecGPT-V2 con quattro innovazioni chiave. Primo, un Sistema Multi-Agente Gerarchico ristruttura il ragionamento sulle intenzioni attraverso una collaborazione coordinata, eliminando la duplicazione cognitiva e consentendo al contempo una copertura diversificata delle intenzioni. Combinato con l'Inferenza a Rappresentazione Ibrida che comprime i contesti del comportamento utente, il nostro framework riduce il consumo GPU del 60% e migliora il richiamo esclusivo dal 9,39% al 10,99%. Secondo, un framework di Meta-Prompting genera dinamicamente prompt adattivi al contesto, migliorando la diversità delle spiegazioni del +7,3%. Terzo, l'apprendimento per rinforzo vincolato mitiga i conflitti tra molteplici ricompense, ottenendo un miglioramento del +24,1% nella previsione dei tag e del +13,0% nell'accettazione delle spiegazioni. Quarto, un framework Agente-come-Giudice scompone la valutazione in un ragionamento multi-step, migliorando l'allineamento alle preferenze umane. Test A/B online su Taobao dimostrano miglioramenti significativi: +2,98% CTR, +3,71% IPV, +2,19% TV e +11,46% NER. RecGPT-V2 stabilisce sia la fattibilità tecnica che la viabilità commerciale della distribuzione su larga scala del ragionamento sulle intenzioni potenziato da LLM, colmando il divario tra esplorazione cognitiva e utilità industriale.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025