PEARL: 생성 보정 검색기를 활용한 대형 언어 모델 기반 개인화 글쓰기 보조 시스템
PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers
November 15, 2023
저자: Sheshera Mysore, Zhuoran Lu, Mengting Wan, Longqi Yang, Steve Menezes, Tina Baghaee, Emmanuel Barajas Gonzalez, Jennifer Neville, Tara Safavi
cs.AI
초록
강력한 대형 언어 모델(LLM)의 발전은 글쓰기 보조 도구의 개발을 촉진하여 작문과 커뮤니케이션의 질과 효율성을 크게 향상시킬 가능성을 열었습니다. 그러나 효과적인 지원을 방해하는 주요 장벽은 LLM 출력이 저자의 커뮤니케이션 스타일과 전문 지식에 맞춰 개인화되지 않는다는 점입니다. 본 논문에서는 이러한 문제를 해결하기 위해 PEARL을 제안합니다. PEARL은 생성 보정된 검색기로 개인화된 검색 강화 LLM 글쓰기 보조 도구입니다. 우리의 검색기는 사용자 요청에 대해 LLM 생성물을 최적으로 개인화할 가능성이 높은 과거 사용자 작성 문서를 선택하도록 훈련되었습니다. 검색기 훈련을 위해 두 가지 주요 혁신을 제안합니다: 1) 개인화가 유익할 가능성이 높은 사용자 요청과 그에 필요한 문서를 식별하는 훈련 데이터 선택 방법; 2) 문서의 개인화 생성에 대한 이점을 정확히 추적하도록 보장하는 스케일 보정 KL-발산 목적 함수입니다. 우리는 PEARL이 직장 내 소셜 미디어 게시물과 Reddit 댓글 생성에서 개인화된 효과를 발휘함을 입증합니다. 마지막으로, 생성 보정된 검색기가 성능 예측기로도 활용될 수 있으며 LLM 체인을 통해 저품질 생성물을 추가로 개선할 수 있는 잠재력을 보여줍니다.
English
Powerful large language models have facilitated the development of writing
assistants that promise to significantly improve the quality and efficiency of
composition and communication. However, a barrier to effective assistance is
the lack of personalization in LLM outputs to the author's communication style
and specialized knowledge. In this paper, we address this challenge by
proposing PEARL, a retrieval-augmented LLM writing assistant personalized with
a generation-calibrated retriever. Our retriever is trained to select historic
user-authored documents for prompt augmentation, such that they are likely to
best personalize LLM generations for a user request. We propose two key
novelties for training our retriever: 1) A training data selection method that
identifies user requests likely to benefit from personalization and documents
that provide that benefit; and 2) A scale-calibrating KL-divergence objective
that ensures that our retriever closely tracks the benefit of a document for
personalized generation. We demonstrate the effectiveness of PEARL in
generating personalized workplace social media posts and Reddit comments.
Finally, we showcase the potential of a generation-calibrated retriever to
double as a performance predictor and further improve low-quality generations
via LLM chaining.