Agente de Recomendação Interativo com Comandos Ativos do Usuário

Resumo

Os sistemas tradicionais de recomendação dependem de mecanismos de feedback passivo que limitam os usuários a escolhas simples, como "curtir" e "não curtir". No entanto, esses sinais de baixa granularidade não conseguem capturar as motivações e intenções comportamentais mais sutis dos usuários. Por sua vez, os sistemas atuais também não conseguem distinguir quais atributos específicos dos itens geram satisfação ou insatisfação do usuário, resultando em uma modelagem imprecisa de preferências. Essas limitações fundamentais criam uma lacuna persistente entre as intenções dos usuários e as interpretações do sistema, prejudicando, em última instância, a satisfação do usuário e a eficácia do sistema. Para superar essas limitações, introduzimos o Feed de Recomendação Interativa (IRF, na sigla em inglês), um paradigma pioneiro que permite comandos em linguagem natural dentro dos feeds de recomendação convencionais. Diferente dos sistemas tradicionais, que confinam os usuários a uma influência comportamental implícita e passiva, o IRF oferece controle explícito e ativo sobre as políticas de recomendação por meio de comandos linguísticos em tempo real. Para suportar esse paradigma, desenvolvemos o RecBot, uma arquitetura de agente duplo em que um Agente de Análise transforma expressões linguísticas em preferências estruturadas e um Agente de Planejamento orquestra dinamicamente cadeias de ferramentas adaptativas para ajustes instantâneos das políticas. Para viabilizar a implantação prática, empregamos a destilação de conhecimento aumentada por simulação, alcançando desempenho eficiente enquanto mantemos capacidades de raciocínio robustas. Por meio de extensos experimentos offline e de longo prazo online, o RecBot demonstra melhorias significativas tanto na satisfação do usuário quanto nos resultados de negócios.

English

Traditional recommender systems rely on passive feedback mechanisms that limit users to simple choices such as like and dislike. However, these coarse-grained signals fail to capture users' nuanced behavior motivations and intentions. In turn, current systems cannot also distinguish which specific item attributes drive user satisfaction or dissatisfaction, resulting in inaccurate preference modeling. These fundamental limitations create a persistent gap between user intentions and system interpretations, ultimately undermining user satisfaction and harming system effectiveness. To address these limitations, we introduce the Interactive Recommendation Feed (IRF), a pioneering paradigm that enables natural language commands within mainstream recommendation feeds. Unlike traditional systems that confine users to passive implicit behavioral influence, IRF empowers active explicit control over recommendation policies through real-time linguistic commands. To support this paradigm, we develop RecBot, a dual-agent architecture where a Parser Agent transforms linguistic expressions into structured preferences and a Planner Agent dynamically orchestrates adaptive tool chains for on-the-fly policy adjustment. To enable practical deployment, we employ simulation-augmented knowledge distillation to achieve efficient performance while maintaining strong reasoning capabilities. Through extensive offline and long-term online experiments, RecBot shows significant improvements in both user satisfaction and business outcomes.

Agente de Recomendação Interativo com Comandos Ativos do Usuário

Interactive Recommendation Agent with Active User Commands

Resumo

Support