ChatPaper.aiChatPaper

h2oGPT : Démocratisation des grands modèles de langage

h2oGPT: Democratizing Large Language Models

June 13, 2023
Auteurs: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI

Résumé

Les modèles de langage de grande envergure (LLMs) fondateurs tels que GPT-4 représentent une révolution dans l'IA grâce à leurs applications pratiques dans le traitement du langage naturel. Cependant, ils posent également de nombreux risques significatifs, tels que la présence de textes biaisés, privés ou nuisibles, ainsi que l'inclusion non autorisée de matériel protégé par le droit d'auteur. Nous présentons h2oGPT, une suite de dépôts de code open-source pour la création et l'utilisation de modèles de langage de grande envergure (LLMs) basés sur des Transformers pré-entraînés génératifs (GPTs). L'objectif de ce projet est de créer la meilleure alternative véritablement open-source aux GPTs propriétaires. En collaboration avec et en tant que partie intégrante de la communauté open-source incroyable et irrésistible, nous rendons open-source plusieurs modèles h2oGPT affinés, allant de 7 à 40 milliards de paramètres, prêts pour une utilisation commerciale sous des licences entièrement permissives Apache 2.0. Notre publication inclut également une recherche de documents 100 % privée utilisant le langage naturel. Les modèles de langage open-source contribuent à stimuler le développement de l'IA et à la rendre plus accessible et digne de confiance. Ils réduisent les obstacles à l'entrée, permettant aux individus et aux groupes d'adapter ces modèles à leurs besoins. Cette ouverture accroît l'innovation, la transparence et l'équité. Une stratégie open-source est nécessaire pour partager équitablement les bénéfices de l'IA, et H2O.ai continuera à démocratiser l'IA et les LLMs.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their real-world applications though natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of Large Language Models (LLMs) based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source GPTs. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
PDF184December 15, 2024