Relatório Técnico do RecGPT-V2

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram potencial notável para transformar os sistemas de recomendação, evoluindo da correspondência implícita de padrões comportamentais para o raciocínio explícito de intenções. Embora o RecGPT-V1 tenha sido pioneiro nesse paradigma ao integrar o raciocínio baseado em LLM na mineração de interesses do usuário e na previsão de tags de itens, ele sofre de quatro limitações fundamentais: (1) ineficiência computacional e redundância cognitiva em múltiplas rotas de raciocínio; (2) diversidade insuficiente de explicações na geração com modelos fixos; (3) generalização limitada sob paradigmas de aprendizado supervisionado; e (4) avaliação simplista focada em resultados que não atende aos padrões humanos. Para enfrentar esses desafios, apresentamos o RecGPT-V2 com quatro inovações principais. Primeiro, um Sistema Hierárquico de Múltiplos Agentes reestrutura o raciocínio de intenções por meio de colaboração coordenada, eliminando a duplicação cognitiva enquanto permite uma cobertura diversificada de intenções. Combinado com a Inferência de Representação Híbrida, que comprime contextos de comportamento do usuário, nosso framework reduz o consumo de GPU em 60% e melhora o *recall* exclusivo de 9,39% para 10,99%. Segundo, um framework de *Meta-Prompting* gera dinamicamente instruções contextualmente adaptativas, melhorando a diversidade de explicações em +7,3%. Terceiro, o aprendizado por reforço com restrições mitiga conflitos de múltiplas recompensas, alcanando +24,1% de melhoria na previsão de tags e +13,0% na aceitação de explicações. Quarto, um framework *Agent-as-a-Judge* decompõe a avaliação em raciocínio multi-etapas, melhorando o alinhamento com as preferências humanas. Testes A/B online no Taobao demonstram melhorias significativas: +2,98% CTR, +3,71% IPV, +2,19% TV e +11,46% NER. O RecGPT-V2 estabelece tanto a viabilidade técnica quanto a comercial de implantar o raciocínio de intenções baseado em LLM em escala, preenchendo a lacuna entre a exploração cognitiva e a utilidade industrial.

English

Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.

Relatório Técnico do RecGPT-V2

RecGPT-V2 Technical Report

Resumo

Support