ChatPaper.aiChatPaper

RecGPT-V2 기술 보고서

RecGPT-V2 Technical Report

December 16, 2025
저자: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI

초록

대규모 언어 모델(LLM)은 추천 시스템을 암묵적 행동 패턴 매칭에서 명시적 의도 추론으로 전환하는 데 있어 놀라운 잠재력을 보여주고 있습니다. RecGPT-V1이 LLM 기반 추론을 사용자 관심사 발굴 및 아이템 태그 예측에 통합함으로써 이 패러다임을 성공적으로 선도했지만, 다음과 같은 네 가지 근본적인 한계가 존재합니다: (1) 다중 추론 경로 간의 계산 비효율성 및 인지 중복성; (2) 고정 템플릿 생성으로 인한 설명 다양성 부족; (3) 지도 학습 패러다임 하에서의 제한된 일반화 성능; (4) 인간 수준에 미치지 못하는 결과 중심의 단순한 평가 방식. 이러한 과제를 해결하기 위해 네 가지 핵심 혁신을 담은 RecGPT-V2를 제안합니다. 첫째, 계층적 다중 에이전트 시스템은 조정된 협력을 통해 의도 추론 구조를 재구성하여 인지적 중복을 제거하면서도 다양한 의도 범위를Coverage 가능하게 합니다. 사용자 행동 컨텍스트를 압축하는 하이브리드 표현 추론과 결합된 우리의 프레임워크는 GPU 소비를 60% 절감하고 독점 재현율을 9.39%에서 10.99%로 향상시켰습니다. 둘째, 메타 프롬프팅 프레임워크는 컨텍스트에 적응적으로 동작하는 프롬프트를 생성하여 설명 다양성을 +7.3% 개선합니다. 셋째, 제약 조건이 있는 강화 학습은 다중 보상 간 충돌을 완화하여 태그 예측에서 +24.1%, 설명 수용도에서 +13.0%의 향상을 달성했습니다. 넷째, 에이전트 기반 평가 프레임워크는 평가를 다단계 추론으로 분해하여 인간 선호도와의 일치도를 높입니다. 타오바오에서 진행된 온라인 A/B 테스트는 유의미한 개선을 입증했습니다: +2.98% CTR, +3.71% IPV, +2.19% TV, +11.46% NER. RecGPT-V2는 대규모 LLM 기반 의도 추론 시스템의 기술적 실현 가능성과 상업적 타당성을 모두 입증하며 인지적 탐색과 산업적 효용 간의 간극을 메웁니다.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards. To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.
PDF161December 18, 2025