ChatPaper.aiChatPaper

h2oGPT: Democratizando Modelos de Linguagem de Grande Escala

h2oGPT: Democratizing Large Language Models

June 13, 2023
Autores: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) de base, como o GPT-4, representam uma revolução na IA devido às suas aplicações no mundo real por meio do processamento de linguagem natural. No entanto, eles também apresentam muitos riscos significativos, como a presença de textos tendenciosos, privados ou prejudiciais, e a inclusão não autorizada de material protegido por direitos autorais. Apresentamos o h2oGPT, um conjunto de repositórios de código aberto para a criação e uso de Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers Pré-treinados Generativos (GPTs). O objetivo deste projeto é criar a melhor alternativa verdadeiramente de código aberto aos GPTs de código fechado. Em colaboração e como parte da incrível e imparável comunidade de código aberto, disponibilizamos vários modelos h2oGPT ajustados, com parâmetros que variam de 7 a 40 bilhões, prontos para uso comercial sob licenças totalmente permissivas Apache 2.0. Incluído em nosso lançamento está uma busca de documentos 100% privada usando linguagem natural. Modelos de linguagem de código aberto ajudam a impulsionar o desenvolvimento da IA e a torná-la mais acessível e confiável. Eles reduzem as barreiras de entrada, permitindo que indivíduos e grupos adaptem esses modelos às suas necessidades. Essa abertura aumenta a inovação, a transparência e a justiça. Uma estratégia de código aberto é necessária para compartilhar os benefícios da IA de forma justa, e a H2O.ai continuará a democratizar a IA e os LLMs.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their real-world applications though natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of Large Language Models (LLMs) based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source GPTs. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
PDF184February 7, 2026