Informe Técnico de RecGPT
RecGPT Technical Report
July 30, 2025
Autores: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Sunhao Dai, Wen Chen, Wenjun Yang, Yuning Jiang, Zhujin Gao, Bo Zheng, Chi Li, Dimin Wang, Dixuan Wang, Fan Li, Fan Zhang, Haibin Chen, Haozhuang Liu, Jialin Zhu, Jiamang Wang, Jiawei Wu, Jin Cui, Ju Huang, Kai Zhang, Kan Liu, Lang Tian, Liang Rao, Longbin Li, Lulu Zhao, Mao Zhang, Na He, Peiyang Wang, Qiqi Huang, Tao Luo, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Yang Li, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yinnan Song, Yuchen Li, Yujie Luo, Yujin Yuan, Yuliang Yan, Zhengyang Wang, Zhibo Xiao, Zhixin Ma, Zile Zhou
cs.AI
Resumen
Los sistemas de recomendación se encuentran entre las aplicaciones más impactantes de la inteligencia artificial, sirviendo como infraestructura crítica que conecta a usuarios, comerciantes y plataformas. Sin embargo, la mayoría de los sistemas industriales actuales siguen dependiendo en gran medida de patrones de co-ocurrencia histórica y objetivos de ajuste de registros, es decir, optimizan las interacciones pasadas de los usuarios sin modelar explícitamente la intención del usuario. Este enfoque de ajuste de registros a menudo conduce a un sobreajuste a preferencias históricas estrechas, fallando en capturar los intereses evolutivos y latentes de los usuarios. Como resultado, refuerza las burbujas de filtro y los fenómenos de cola larga, perjudicando finalmente la experiencia del usuario y amenazando la sostenibilidad de todo el ecosistema de recomendación.
Para abordar estos desafíos, reconsideramos el paradigma de diseño general de los sistemas de recomendación y proponemos RecGPT, un marco de próxima generación que coloca la intención del usuario en el centro del proceso de recomendación. Al integrar modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en etapas clave como la minería de intereses del usuario, la recuperación de elementos y la generación de explicaciones, RecGPT transforma la recomendación basada en ajuste de registros en un proceso centrado en la intención. Para alinear eficazmente los LLMs de propósito general con las tareas específicas de recomendación a gran escala, RecGPT incorpora un paradigma de entrenamiento en múltiples etapas, que integra una pre-alineación mejorada con razonamiento y una evolución de autoentrenamiento, guiada por un sistema de evaluación cooperativa entre humanos y LLMs. Actualmente, RecGPT ha sido implementado por completo en la aplicación Taobao. Los experimentos en línea demuestran que RecGPT logra mejoras consistentes en el rendimiento para todas las partes interesadas: los usuarios se benefician de una mayor diversidad de contenido y satisfacción, mientras que los comerciantes y la plataforma obtienen una mayor exposición y conversiones. Estos resultados de mejora integral en todas las partes interesadas validan que el diseño centrado en la intención y basado en LLMs puede fomentar un ecosistema de recomendación más sostenible y mutuamente beneficioso.
English
Recommender systems are among the most impactful applications of artificial
intelligence, serving as critical infrastructure connecting users, merchants,
and platforms. However, most current industrial systems remain heavily reliant
on historical co-occurrence patterns and log-fitting objectives, i.e.,
optimizing for past user interactions without explicitly modeling user intent.
This log-fitting approach often leads to overfitting to narrow historical
preferences, failing to capture users' evolving and latent interests. As a
result, it reinforces filter bubbles and long-tail phenomena, ultimately
harming user experience and threatening the sustainability of the whole
recommendation ecosystem.
To address these challenges, we rethink the overall design paradigm of
recommender systems and propose RecGPT, a next-generation framework that places
user intent at the center of the recommendation pipeline. By integrating large
language models (LLMs) into key stages of user interest mining, item retrieval,
and explanation generation, RecGPT transforms log-fitting recommendation into
an intent-centric process. To effectively align general-purpose LLMs to the
above domain-specific recommendation tasks at scale, RecGPT incorporates a
multi-stage training paradigm, which integrates reasoning-enhanced
pre-alignment and self-training evolution, guided by a Human-LLM cooperative
judge system. Currently, RecGPT has been fully deployed on the Taobao App.
Online experiments demonstrate that RecGPT achieves consistent performance
gains across stakeholders: users benefit from increased content diversity and
satisfaction, merchants and the platform gain greater exposure and conversions.
These comprehensive improvement results across all stakeholders validates that
LLM-driven, intent-centric design can foster a more sustainable and mutually
beneficial recommendation ecosystem.