Weaver : Modèles de fondation pour l'écriture créative

papers.abstract

Ce travail présente Weaver, notre première famille de grands modèles de langage (LLMs) dédiée à la création de contenu. Weaver est pré-entraîné sur un corpus soigneusement sélectionné visant à améliorer les capacités rédactionnelles des grands modèles de langage. Nous affinons ensuite Weaver pour des usages de rédaction créative et professionnelle, et l'alignons sur les préférences des écrivains professionnels en utilisant une série de méthodes novatrices pour la synthèse de données d'instruction et l'alignement des LLMs, lui permettant ainsi de produire des textes plus humains et de suivre des instructions plus variées pour la création de contenu. La famille Weaver comprend des modèles de différentes tailles : Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) et Weaver Ultra (34B), adaptés à diverses applications et pouvant être dynamiquement dispatchés par un agent de routage en fonction de la complexité des requêtes pour équilibrer qualité de réponse et coût de calcul. L'évaluation sur un benchmark soigneusement conçu pour évaluer les capacités rédactionnelles des LLMs montre que les modèles Weaver de toutes tailles surpassent les LLMs généralistes plusieurs fois plus grands qu'eux. Notamment, notre modèle le plus performant, Weaver Ultra, surpasse GPT-4, un LLM généraliste de pointe, dans divers scénarios d'écriture, démontrant l'avantage d'entraîner des LLMs spécialisés pour des usages rédactionnels. De plus, Weaver prend nativement en charge la génération augmentée par récupération (RAG) et l'appel de fonctions (utilisation d'outils). Nous présentons divers cas d'utilisation de ces capacités pour améliorer les systèmes d'écriture assistée par IA, incluant l'intégration de bases de connaissances externes, d'outils ou d'APIs, et la fourniture d'une assistance rédactionnelle personnalisée. Enfin, nous discutons et résumons des lignes directrices et meilleures pratiques pour le pré-entraînement et l'affinage de LLMs spécifiques à un domaine.

English

This work introduces Weaver, our first family of large language models (LLMs) dedicated to content creation. Weaver is pre-trained on a carefully selected corpus that focuses on improving the writing capabilities of large language models. We then fine-tune Weaver for creative and professional writing purposes and align it to the preference of professional writers using a suit of novel methods for instruction data synthesis and LLM alignment, making it able to produce more human-like texts and follow more diverse instructions for content creation. The Weaver family consists of models of Weaver Mini (1.8B), Weaver Base (6B), Weaver Pro (14B), and Weaver Ultra (34B) sizes, suitable for different applications and can be dynamically dispatched by a routing agent according to query complexity to balance response quality and computation cost. Evaluation on a carefully curated benchmark for assessing the writing capabilities of LLMs shows Weaver models of all sizes outperform generalist LLMs several times larger than them. Notably, our most-capable Weaver Ultra model surpasses GPT-4, a state-of-the-art generalist LLM, on various writing scenarios, demonstrating the advantage of training specialized LLMs for writing purposes. Moreover, Weaver natively supports retrieval-augmented generation (RAG) and function calling (tool usage). We present various use cases of these abilities for improving AI-assisted writing systems, including integration of external knowledge bases, tools, or APIs, and providing personalized writing assistance. Furthermore, we discuss and summarize a guideline and best practices for pre-training and fine-tuning domain-specific LLMs.

Weaver : Modèles de fondation pour l'écriture créative

Weaver: Foundation Models for Creative Writing

papers.abstract

Support