Weaver: Modelli Fondamentali per la Scrittura Creativa

Abstract

Questo lavoro introduce Weaver, la nostra prima famiglia di modelli linguistici di grandi dimensioni (LLM) dedicati alla creazione di contenuti. Weaver è pre-addestrato su un corpus selezionato con cura che si concentra sul miglioramento delle capacità di scrittura dei modelli linguistici di grandi dimensioni. Successivamente, ottimizziamo Weaver per scopi di scrittura creativa e professionale e lo allineiamo alle preferenze degli scrittori professionisti utilizzando una serie di metodi innovativi per la sintesi dei dati di istruzione e l'allineamento degli LLM, rendendolo in grado di produrre testi più simili a quelli umani e di seguire istruzioni più diversificate per la creazione di contenuti. La famiglia Weaver comprende modelli di dimensioni Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) e Weaver Ultra (34B), adatti a diverse applicazioni e che possono essere distribuiti dinamicamente da un agente di routing in base alla complessità della query per bilanciare la qualità della risposta e il costo computazionale. La valutazione su un benchmark accuratamente curato per valutare le capacità di scrittura degli LLM mostra che i modelli Weaver di tutte le dimensioni superano gli LLM generalisti di dimensioni diverse volte superiori. In particolare, il nostro modello più capace, Weaver Ultra, supera GPT-4, un LLM generalista all'avanguardia, in vari scenari di scrittura, dimostrando il vantaggio di addestrare LLM specializzati per scopi di scrittura. Inoltre, Weaver supporta nativamente la generazione aumentata dal recupero di informazioni (RAG) e la chiamata di funzioni (uso di strumenti). Presentiamo vari casi d'uso di queste capacità per migliorare i sistemi di scrittura assistita dall'IA, inclusa l'integrazione di basi di conoscenza esterne, strumenti o API, e la fornitura di assistenza personalizzata per la scrittura. Inoltre, discutiamo e riassumiamo una guida e le migliori pratiche per il pre-addestramento e l'ottimizzazione di LLM specifici per dominio.

English

This work introduces Weaver, our first family of large language models (LLMs) dedicated to content creation. Weaver is pre-trained on a carefully selected corpus that focuses on improving the writing capabilities of large language models. We then fine-tune Weaver for creative and professional writing purposes and align it to the preference of professional writers using a suit of novel methods for instruction data synthesis and LLM alignment, making it able to produce more human-like texts and follow more diverse instructions for content creation. The Weaver family consists of models of Weaver Mini (1.8B), Weaver Base (6B), Weaver Pro (14B), and Weaver Ultra (34B) sizes, suitable for different applications and can be dynamically dispatched by a routing agent according to query complexity to balance response quality and computation cost. Evaluation on a carefully curated benchmark for assessing the writing capabilities of LLMs shows Weaver models of all sizes outperform generalist LLMs several times larger than them. Notably, our most-capable Weaver Ultra model surpasses GPT-4, a state-of-the-art generalist LLM, on various writing scenarios, demonstrating the advantage of training specialized LLMs for writing purposes. Moreover, Weaver natively supports retrieval-augmented generation (RAG) and function calling (tool usage). We present various use cases of these abilities for improving AI-assisted writing systems, including integration of external knowledge bases, tools, or APIs, and providing personalized writing assistance. Furthermore, we discuss and summarize a guideline and best practices for pre-training and fine-tuning domain-specific LLMs.

Weaver: Modelli Fondamentali per la Scrittura Creativa

Weaver: Foundation Models for Creative Writing

Abstract

Support