ChatPaper.aiChatPaper

h2oGPT: Democratizzazione dei Modelli Linguistici di Grande Dimensione

h2oGPT: Democratizing Large Language Models

June 13, 2023
Autori: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) di base come GPT-4 rappresentano una rivoluzione nell'IA grazie alle loro applicazioni nel mondo reale attraverso l'elaborazione del linguaggio naturale. Tuttavia, presentano anche molti rischi significativi, come la presenza di testi distorti, privati o dannosi, e l'inclusione non autorizzata di materiale protetto da copyright. Introduciamo h2oGPT, una suite di repository di codice open-source per la creazione e l'utilizzo di modelli linguistici di grandi dimensioni (LLM) basati su Transformer pre-addestrati generativi (GPT). L'obiettivo di questo progetto è creare la migliore alternativa veramente open-source ai GPT proprietari. In collaborazione e come parte della straordinaria e inarrestabile comunità open-source, rendiamo disponibili diversi modelli h2oGPT ottimizzati, da 7 a 40 miliardi di parametri, pronti per l'uso commerciale sotto licenze completamente permissive Apache 2.0. Inclusa nella nostra release è la ricerca di documenti privati al 100% utilizzando il linguaggio naturale. I modelli linguistici open-source aiutano a potenziare lo sviluppo dell'IA, rendendola più accessibile e affidabile. Abbassano le barriere di ingresso, consentendo a individui e gruppi di adattare questi modelli alle proprie esigenze. Questa apertura favorisce l'innovazione, la trasparenza e l'equità. Una strategia open-source è necessaria per condividere equamente i benefici dell'IA, e H2O.ai continuerà a democratizzare l'IA e i LLM.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their real-world applications though natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of Large Language Models (LLMs) based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source GPTs. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
PDF184February 7, 2026