Relatório Técnico do RecGPT
RecGPT Technical Report
July 30, 2025
Autores: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Sunhao Dai, Wen Chen, Wenjun Yang, Yuning Jiang, Zhujin Gao, Bo Zheng, Chi Li, Dimin Wang, Dixuan Wang, Fan Li, Fan Zhang, Haibin Chen, Haozhuang Liu, Jialin Zhu, Jiamang Wang, Jiawei Wu, Jin Cui, Ju Huang, Kai Zhang, Kan Liu, Lang Tian, Liang Rao, Longbin Li, Lulu Zhao, Mao Zhang, Na He, Peiyang Wang, Qiqi Huang, Tao Luo, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Yang Li, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yinnan Song, Yuchen Li, Yujie Luo, Yujin Yuan, Yuliang Yan, Zhengyang Wang, Zhibo Xiao, Zhixin Ma, Zile Zhou
cs.AI
Resumo
Os sistemas de recomendação estão entre as aplicações de inteligência artificial de maior impacto, servindo como infraestrutura crítica que conecta usuários, comerciantes e plataformas. No entanto, a maioria dos sistemas industriais atuais ainda depende fortemente de padrões históricos de co-ocorrência e objetivos de ajuste de logs, ou seja, otimizam as interações passadas dos usuários sem modelar explicitamente a intenção do usuário. Essa abordagem de ajuste de logs frequentemente leva ao sobreajuste a preferências históricas restritas, falhando em capturar os interesses latentes e em evolução dos usuários. Como resultado, reforça bolhas de filtro e fenômenos de cauda longa, prejudicando a experiência do usuário e ameaçando a sustentabilidade de todo o ecossistema de recomendação.
Para enfrentar esses desafios, repensamos o paradigma geral de design dos sistemas de recomendação e propomos o RecGPT, uma estrutura de próxima geração que coloca a intenção do usuário no centro do pipeline de recomendação. Ao integrar modelos de linguagem de grande escala (LLMs) em etapas-chave de mineração de interesses do usuário, recuperação de itens e geração de explicações, o RecGPT transforma a recomendação baseada em ajuste de logs em um processo centrado na intenção. Para alinhar efetivamente LLMs de propósito geral às tarefas específicas de recomendação em escala, o RecGPT incorpora um paradigma de treinamento em múltiplas etapas, que integra pré-alinhamento aprimorado por raciocínio e evolução por auto-treinamento, guiado por um sistema de julgamento cooperativo Humano-LLM. Atualmente, o RecGPT foi totalmente implantado no aplicativo Taobao. Experimentos online demonstram que o RecGPT alcança ganhos consistentes de desempenho entre as partes interessadas: os usuários se beneficiam de maior diversidade de conteúdo e satisfação, enquanto comerciantes e a plataforma obtêm maior exposição e conversões. Esses resultados abrangentes de melhoria em todas as partes interessadas validam que o design centrado na intenção e impulsionado por LLMs pode promover um ecossistema de recomendação mais sustentável e mutuamente benéfico.
English
Recommender systems are among the most impactful applications of artificial
intelligence, serving as critical infrastructure connecting users, merchants,
and platforms. However, most current industrial systems remain heavily reliant
on historical co-occurrence patterns and log-fitting objectives, i.e.,
optimizing for past user interactions without explicitly modeling user intent.
This log-fitting approach often leads to overfitting to narrow historical
preferences, failing to capture users' evolving and latent interests. As a
result, it reinforces filter bubbles and long-tail phenomena, ultimately
harming user experience and threatening the sustainability of the whole
recommendation ecosystem.
To address these challenges, we rethink the overall design paradigm of
recommender systems and propose RecGPT, a next-generation framework that places
user intent at the center of the recommendation pipeline. By integrating large
language models (LLMs) into key stages of user interest mining, item retrieval,
and explanation generation, RecGPT transforms log-fitting recommendation into
an intent-centric process. To effectively align general-purpose LLMs to the
above domain-specific recommendation tasks at scale, RecGPT incorporates a
multi-stage training paradigm, which integrates reasoning-enhanced
pre-alignment and self-training evolution, guided by a Human-LLM cooperative
judge system. Currently, RecGPT has been fully deployed on the Taobao App.
Online experiments demonstrate that RecGPT achieves consistent performance
gains across stakeholders: users benefit from increased content diversity and
satisfaction, merchants and the platform gain greater exposure and conversions.
These comprehensive improvement results across all stakeholders validates that
LLM-driven, intent-centric design can foster a more sustainable and mutually
beneficial recommendation ecosystem.