ChatPaper.aiChatPaper

적극적 사용자 명령 기반 상호작용형 추천 에이전트

Interactive Recommendation Agent with Active User Commands

September 25, 2025
저자: Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI

초록

기존의 추천 시스템은 사용자를 '좋아요'와 '싫어요'와 같은 단순한 선택으로 제한하는 수동적 피드백 메커니즘에 의존합니다. 그러나 이러한 거친 신호는 사용자의 미묘한 행동 동기와 의도를 포착하지 못합니다. 이로 인해 현재 시스템은 사용자의 만족도나 불만족도를 이끄는 구체적인 항목 속성을 구별할 수 없어, 부정확한 선호도 모델링을 초래합니다. 이러한 근본적인 한계는 사용자 의도와 시스템 해석 사이에 지속적인 간극을 만들어내며, 궁극적으로 사용자 만족도를 저해하고 시스템 효율성을 떨어뜨립니다. 이러한 한계를 해결하기 위해, 우리는 주류 추천 피드 내에서 자연어 명령을 가능하게 하는 혁신적인 패러다임인 Interactive Recommendation Feed(IRF)를 소개합니다. 기존 시스템이 사용자를 수동적이고 암묵적인 행동 영향에 국한시키는 것과 달리, IRF는 실시간 언어 명령을 통해 추천 정책에 대한 능동적이고 명시적인 통제권을 사용자에게 부여합니다. 이 패러다임을 지원하기 위해, 우리는 Parser Agent가 언어 표현을 구조화된 선호도로 변환하고 Planner Agent가 적응형 툴 체인을 동적으로 조율하여 즉각적인 정책 조정을 가능하게 하는 이중 에이전트 아키텍처인 RecBot을 개발했습니다. 실용적인 배포를 가능하게 하기 위해, 우리는 시뮬레이션을 통한 지식 증류를 활용하여 강력한 추론 능력을 유지하면서도 효율적인 성능을 달성했습니다. 광범위한 오프라인 및 장기 온라인 실험을 통해, RecBot은 사용자 만족도와 비즈니스 성과 모두에서 상당한 개선을 보여주었습니다.
English
Traditional recommender systems rely on passive feedback mechanisms that limit users to simple choices such as like and dislike. However, these coarse-grained signals fail to capture users' nuanced behavior motivations and intentions. In turn, current systems cannot also distinguish which specific item attributes drive user satisfaction or dissatisfaction, resulting in inaccurate preference modeling. These fundamental limitations create a persistent gap between user intentions and system interpretations, ultimately undermining user satisfaction and harming system effectiveness. To address these limitations, we introduce the Interactive Recommendation Feed (IRF), a pioneering paradigm that enables natural language commands within mainstream recommendation feeds. Unlike traditional systems that confine users to passive implicit behavioral influence, IRF empowers active explicit control over recommendation policies through real-time linguistic commands. To support this paradigm, we develop RecBot, a dual-agent architecture where a Parser Agent transforms linguistic expressions into structured preferences and a Planner Agent dynamically orchestrates adaptive tool chains for on-the-fly policy adjustment. To enable practical deployment, we employ simulation-augmented knowledge distillation to achieve efficient performance while maintaining strong reasoning capabilities. Through extensive offline and long-term online experiments, RecBot shows significant improvements in both user satisfaction and business outcomes.
PDF52September 26, 2025