ChatPaper.aiChatPaper

QP-OneModel: 샤오홍슈 검색에서 다중 작업 쿼리 이해를 위한 통합 생성형 LLM

QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

February 10, 2026
저자: Jianzhao Huang, Xiaorui Huang, Fei Zhao, Yunpeng Liu, Hui Zhang, Fangcheng Shi, Congfeng Li, Zechen Sun, Yi Wu, Yao Hu, Yunhan Bai, Shaosheng Cao
cs.AI

초록

쿼리 처리(Query Processing, QP)는 대규모 소셜 네트워크 서비스(SNS) 검색 엔진에서 사용자 의도와 콘텐츠 공급을 연결하는 역할을 합니다. 기존 QP 시스템은 분리된 판별 모델(예: BERT)의 파이프라인에 의존하여 제한된 의미론적 이해와 높은 유지보수 부담을 겪어왔습니다. 대규모 언어 모델(LLM)이 잠재적인 해결책을 제시하지만, 기존 접근법들은 종종 하위 작업들을 고립적으로 최적화하여 본질적인 의미론적 시너지를 간과하고 독립적인 반복 작업을 필요로 합니다. 더욱이 표준 생성 방법론은 SNS 시나리오에 대한 기반이 부족한 경우가 많아, 개방형 도메인 코퍼스와 비공식적인 SNS 언어 패턴 사이의 격차를 해결하지 못하며 엄격한 비즈니스 정의를 준수하는 데 어려움을 겪습니다. 본 논문은 SNS 도메인에서 다중 작업 쿼리 이해를 위한 통합 생성형 LLM인 QP-OneModel을 제안합니다. 우리는 이질적인 하위 작업들을 통합된 시퀀스 생성 패러다임으로 재구성하고, 다중 보상 강화 학습으로 귀결되는 점진적인 3단계 정렬 전략을 채택했습니다. 더 나아가 QP-OneModel은 새로운 고충실도 의미 신호로서 의도 설명을 생성하여 쿼리 재작성 및 랭킹과 같은 다운스트림 작업을 효과적으로 증강시킵니다. 오프라인 평가 결과, QP-OneModel은 판별 기준 모델 대비 7.35%의 전반적 성능 향상을 달성했으며, NER(+9.01%) 및 용어 가중치 부여(+9.31%)에서显著的 F1 점수 상승을 보였습니다. 또한 뛰어난 일반화 능력을 나타내어 보이지 않는 작업에 대해 32B 모델을 7.60% 정확도로 능가했습니다. 샤오홍슈에 완전히 배포된 온라인 A/B 테스트를 통해 검색 관련성(DCG) 0.21% 최적화 및 사용자 재방문률 0.044% 상승이라는 산업적 가치를 확인했습니다.
English
Query Processing (QP) bridges user intent and content supply in large-scale Social Network Service (SNS) search engines. Traditional QP systems rely on pipelines of isolated discriminative models (e.g., BERT), suffering from limited semantic understanding and high maintenance overhead. While Large Language Models (LLMs) offer a potential solution, existing approaches often optimize sub-tasks in isolation, neglecting intrinsic semantic synergy and necessitating independent iterations. Moreover, standard generative methods often lack grounding in SNS scenarios, failing to bridge the gap between open-domain corpora and informal SNS linguistic patterns, while struggling to adhere to rigorous business definitions. We present QP-OneModel, a Unified Generative LLM for Multi-Task Query Understanding in the SNS domain. We reformulate heterogeneous sub-tasks into a unified sequence generation paradigm, adopting a progressive three-stage alignment strategy culminating in multi-reward Reinforcement Learning. Furthermore, QP-OneModel generates intent descriptions as a novel high-fidelity semantic signal, effectively augmenting downstream tasks such as query rewriting and ranking. Offline evaluations show QP-OneModel achieves a 7.35% overall gain over discriminative baselines, with significant F1 boosts in NER (+9.01%) and Term Weighting (+9.31%). It also exhibits superior generalization, surpassing a 32B model by 7.60% accuracy on unseen tasks. Fully deployed at Xiaohongshu, online A/B tests confirm its industrial value, optimizing retrieval relevance (DCG) by 0.21% and lifting user retention by 0.044%.
PDF61February 13, 2026