ChatPaper.aiChatPaper

Informe Técnico de RecGPT-V2

RecGPT-V2 Technical Report

December 16, 2025
Autores: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) han demostrado un potencial notable para transformar los sistemas de recomendación, pasando de la coincidencia implícita de patrones de comportamiento al razonamiento explícito de intenciones. Si bien RecGPT-V1 fue pionero con éxito en este paradigma al integrar el razonamiento basado en LLM en la minería de intereses del usuario y la predicción de etiquetas de elementos, adolece de cuatro limitaciones fundamentales: (1) ineficiencia computacional y redundancia cognitiva en múltiples rutas de razonamiento; (2) diversidad explicativa insuficiente en la generación con plantillas fijas; (3) generalización limitada bajo paradigmas de aprendizaje supervisado; y (4) evaluación simplista centrada en resultados que no alcanza estándares humanos. Para abordar estos desafíos, presentamos RecGPT-V2 con cuatro innovaciones clave. Primero, un Sistema Multi-Agente Jerárquico reestructura el razonamiento de intenciones mediante colaboración coordinada, eliminando la duplicación cognitiva y permitiendo una cobertura diversa de intenciones. Combinado con la Inferencia de Representación Híbrida que comprime los contextos de comportamiento del usuario, nuestro marco reduce el consumo de GPU en un 60% y mejora la recuperación exclusiva del 9.39% al 10.99%. Segundo, un marco de Meta-Prompting genera dinámicamente instrucciones adaptativas contextualmente, mejorando la diversidad explicativa en un +7.3%. Tercero, el aprendizaje por refuerzo con restricciones mitiga conflictos multi-recompensa, logrando una mejora del +24.1% en la predicción de etiquetas y del +13.0% en la aceptación de explicaciones. Cuarto, un marco de Agente-como-Juez descompone la evaluación en razonamiento multi-etapa, mejorando la alineación con preferencias humanas. Las pruebas A/B en línea en Taobao demuestran mejoras significativas: +2.98% CTR, +3.71% IPV, +2.19% TV y +11.46% NER. RecGPT-V2 establece tanto la viabilidad técnica como la comercial de implementar el razonamiento de intenciones potenciado por LLM a escala, cerrando la brecha entre la exploración cognitiva y la utilidad industrial.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025