h2oGPT: Democratizzazione dei Modelli Linguistici di Grande Dimensione
h2oGPT: Democratizing Large Language Models
June 13, 2023
Autori: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) di base come GPT-4 rappresentano una rivoluzione nell'IA grazie alle loro applicazioni nel mondo reale attraverso l'elaborazione del linguaggio naturale. Tuttavia, presentano anche molti rischi significativi, come la presenza di testi distorti, privati o dannosi, e l'inclusione non autorizzata di materiale protetto da copyright.
Introduciamo h2oGPT, una suite di repository di codice open-source per la creazione e l'utilizzo di modelli linguistici di grandi dimensioni (LLM) basati su Transformer pre-addestrati generativi (GPT). L'obiettivo di questo progetto è creare la migliore alternativa veramente open-source ai GPT proprietari. In collaborazione e come parte della straordinaria e inarrestabile comunità open-source, rendiamo disponibili diversi modelli h2oGPT ottimizzati, da 7 a 40 miliardi di parametri, pronti per l'uso commerciale sotto licenze completamente permissive Apache 2.0. Inclusa nella nostra release è la ricerca di documenti privati al 100% utilizzando il linguaggio naturale.
I modelli linguistici open-source aiutano a potenziare lo sviluppo dell'IA, rendendola più accessibile e affidabile. Abbassano le barriere di ingresso, consentendo a individui e gruppi di adattare questi modelli alle proprie esigenze. Questa apertura favorisce l'innovazione, la trasparenza e l'equità. Una strategia open-source è necessaria per condividere equamente i benefici dell'IA, e H2O.ai continuerà a democratizzare l'IA e i LLM.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution
in AI due to their real-world applications though natural language processing.
However, they also pose many significant risks such as the presence of biased,
private, or harmful text, and the unauthorized inclusion of copyrighted
material.
We introduce h2oGPT, a suite of open-source code repositories for the
creation and use of Large Language Models (LLMs) based on Generative Pretrained
Transformers (GPTs). The goal of this project is to create the world's best
truly open-source alternative to closed-source GPTs. In collaboration with and
as part of the incredible and unstoppable open-source community, we open-source
several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for
commercial use under fully permissive Apache 2.0 licenses. Included in our
release is 100% private document search using natural language.
Open-source language models help boost AI development and make it more
accessible and trustworthy. They lower entry hurdles, allowing people and
groups to tailor these models to their needs. This openness increases
innovation, transparency, and fairness. An open-source strategy is needed to
share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.