ChatPaper.aiChatPaper

Relatório Técnico do RecGPT-V2

RecGPT-V2 Technical Report

December 16, 2025
Autores: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram potencial notável para transformar os sistemas de recomendação, evoluindo da correspondência implícita de padrões comportamentais para o raciocínio explícito de intenções. Embora o RecGPT-V1 tenha sido pioneiro nesse paradigma ao integrar o raciocínio baseado em LLM na mineração de interesses do usuário e na previsão de tags de itens, ele sofre de quatro limitações fundamentais: (1) ineficiência computacional e redundância cognitiva em múltiplas rotas de raciocínio; (2) diversidade insuficiente de explicações na geração com modelos fixos; (3) generalização limitada sob paradigmas de aprendizado supervisionado; e (4) avaliação simplista focada em resultados que não atende aos padrões humanos. Para enfrentar esses desafios, apresentamos o RecGPT-V2 com quatro inovações principais. Primeiro, um Sistema Hierárquico de Múltiplos Agentes reestrutura o raciocínio de intenções por meio de colaboração coordenada, eliminando a duplicação cognitiva enquanto permite uma cobertura diversificada de intenções. Combinado com a Inferência de Representação Híbrida, que comprime contextos de comportamento do usuário, nosso framework reduz o consumo de GPU em 60% e melhora o *recall* exclusivo de 9,39% para 10,99%. Segundo, um framework de *Meta-Prompting* gera dinamicamente instruções contextualmente adaptativas, melhorando a diversidade de explicações em +7,3%. Terceiro, o aprendizado por reforço com restrições mitiga conflitos de múltiplas recompensas, alcanando +24,1% de melhoria na previsão de tags e +13,0% na aceitação de explicações. Quarto, um framework *Agent-as-a-Judge* decompõe a avaliação em raciocínio multi-etapas, melhorando o alinhamento com as preferências humanas. Testes A/B online no Taobao demonstram melhorias significativas: +2,98% CTR, +3,71% IPV, +2,19% TV e +11,46% NER. O RecGPT-V2 estabelece tanto a viabilidade técnica quanto a comercial de implantar o raciocínio de intenções baseado em LLM em escala, preenchendo a lacuna entre a exploração cognitiva e a utilidade industrial.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF181February 27, 2026