h2oGPT: Democratizando los Modelos de Lenguaje de Gran Escala
h2oGPT: Democratizing Large Language Models
June 13, 2023
Autores: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) fundacionales, como GPT-4, representan una revolución en la inteligencia artificial debido a sus aplicaciones en el mundo real a través del procesamiento del lenguaje natural. Sin embargo, también plantean riesgos significativos, como la presencia de texto sesgado, privado o dañino, y la inclusión no autorizada de material protegido por derechos de autor.
Presentamos h2oGPT, un conjunto de repositorios de código de código abierto para la creación y uso de modelos de lenguaje de gran escala (LLM) basados en Transformadores Preentrenados Generativos (GPT). El objetivo de este proyecto es crear la mejor alternativa de código abierto verdaderamente abierta a los GPT de código cerrado. En colaboración con y como parte de la increíble e imparable comunidad de código abierto, liberamos varios modelos h2oGPT ajustados, que van desde 7 hasta 40 mil millones de parámetros, listos para uso comercial bajo licencias completamente permisivas Apache 2.0. Incluido en nuestra publicación está la búsqueda de documentos 100% privada utilizando lenguaje natural.
Los modelos de lenguaje de código abierto impulsan el desarrollo de la inteligencia artificial y la hacen más accesible y confiable. Reducen las barreras de entrada, permitiendo que personas y grupos adapten estos modelos a sus necesidades. Esta apertura fomenta la innovación, la transparencia y la equidad. Se necesita una estrategia de código abierto para compartir los beneficios de la inteligencia artificial de manera justa, y H2O.ai continuará democratizando la inteligencia artificial y los modelos de lenguaje de gran escala.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution
in AI due to their real-world applications though natural language processing.
However, they also pose many significant risks such as the presence of biased,
private, or harmful text, and the unauthorized inclusion of copyrighted
material.
We introduce h2oGPT, a suite of open-source code repositories for the
creation and use of Large Language Models (LLMs) based on Generative Pretrained
Transformers (GPTs). The goal of this project is to create the world's best
truly open-source alternative to closed-source GPTs. In collaboration with and
as part of the incredible and unstoppable open-source community, we open-source
several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for
commercial use under fully permissive Apache 2.0 licenses. Included in our
release is 100% private document search using natural language.
Open-source language models help boost AI development and make it more
accessible and trustworthy. They lower entry hurdles, allowing people and
groups to tailor these models to their needs. This openness increases
innovation, transparency, and fairness. An open-source strategy is needed to
share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.