PEARL: Personalizzazione degli assistenti di scrittura basati su modelli linguistici di grandi dimensioni con retriever calibrati sulla generazione

Abstract

I potenti modelli linguistici di grandi dimensioni hanno facilitato lo sviluppo di assistenti di scrittura che promettono di migliorare significativamente la qualità e l'efficienza della composizione e della comunicazione. Tuttavia, un ostacolo a un'assistenza efficace è la mancanza di personalizzazione negli output dei modelli linguistici rispetto allo stile comunicativo e alle conoscenze specializzate dell'autore. In questo articolo, affrontiamo questa sfida proponendo PEARL, un assistente di scrittura basato su modelli linguistici aumentati con un sistema di recupero calibrato per la generazione. Il nostro sistema di recupero è addestrato a selezionare documenti storici scritti dall'utente per aumentare i prompt, in modo che siano probabilmente i più adatti a personalizzare le generazioni del modello linguistico per una richiesta dell'utente. Proponiamo due innovazioni chiave per l'addestramento del nostro sistema di recupero: 1) Un metodo di selezione dei dati di addestramento che identifica le richieste dell'utente che potrebbero trarre vantaggio dalla personalizzazione e i documenti che forniscono tale vantaggio; e 2) Un obiettivo di divergenza KL calibrato su scala che assicura che il nostro sistema di recupero segua da vicino il vantaggio di un documento per la generazione personalizzata. Dimostriamo l'efficacia di PEARL nella generazione di post personalizzati sui social media aziendali e di commenti su Reddit. Infine, mostriamo il potenziale di un sistema di recupero calibrato per la generazione di fungere anche da predittore di prestazioni e di migliorare ulteriormente le generazioni di bassa qualità tramite il concatenamento di modelli linguistici.

English

Powerful large language models have facilitated the development of writing assistants that promise to significantly improve the quality and efficiency of composition and communication. However, a barrier to effective assistance is the lack of personalization in LLM outputs to the author's communication style and specialized knowledge. In this paper, we address this challenge by proposing PEARL, a retrieval-augmented LLM writing assistant personalized with a generation-calibrated retriever. Our retriever is trained to select historic user-authored documents for prompt augmentation, such that they are likely to best personalize LLM generations for a user request. We propose two key novelties for training our retriever: 1) A training data selection method that identifies user requests likely to benefit from personalization and documents that provide that benefit; and 2) A scale-calibrating KL-divergence objective that ensures that our retriever closely tracks the benefit of a document for personalized generation. We demonstrate the effectiveness of PEARL in generating personalized workplace social media posts and Reddit comments. Finally, we showcase the potential of a generation-calibrated retriever to double as a performance predictor and further improve low-quality generations via LLM chaining.

PEARL: Personalizzazione degli assistenti di scrittura basati su modelli linguistici di grandi dimensioni con retriever calibrati sulla generazione

PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers

Abstract

Support