ChatPaper.aiChatPaper

h2oGPT: Demokratisierung großer Sprachmodelle

h2oGPT: Democratizing Large Language Models

June 13, 2023
Autoren: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI

Zusammenfassung

Foundation Large Language Models (LLMs) wie GPT-4 stellen eine Revolution in der KI dar, insbesondere durch ihre Anwendungen in der natürlichen Sprachverarbeitung. Allerdings bergen sie auch erhebliche Risiken, wie das Vorhandensein von voreingenommenen, privaten oder schädlichen Texten sowie die unbefugte Einbindung von urheberrechtlich geschütztem Material. Wir stellen h2oGPT vor, eine Sammlung von Open-Source-Code-Repositories zur Erstellung und Nutzung von Large Language Models (LLMs) basierend auf Generative Pretrained Transformers (GPTs). Das Ziel dieses Projekts ist es, die weltweit beste, wirklich Open-Source-Alternative zu proprietären GPTs zu schaffen. In Zusammenarbeit mit und als Teil der beeindruckenden und unaufhaltsamen Open-Source-Community veröffentlichen wir mehrere feinabgestimmte h2oGPT-Modelle mit 7 bis 40 Milliarden Parametern, die unter vollständig freizügigen Apache-2.0-Lizenzen für die kommerzielle Nutzung bereitstehen. In unserer Veröffentlichung enthalten ist auch eine 100 % private Dokumentensuche mittels natürlicher Sprache. Open-Source-Sprachmodelle fördern die KI-Entwicklung und machen sie zugänglicher und vertrauenswürdiger. Sie senken die Einstiegshürden und ermöglichen es Einzelpersonen und Gruppen, diese Modelle an ihre Bedürfnisse anzupassen. Diese Offenheit steigert Innovation, Transparenz und Fairness. Eine Open-Source-Strategie ist notwendig, um die Vorteile der KI gerecht zu teilen, und H2O.ai wird weiterhin die Demokratisierung von KI und LLMs vorantreiben.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their real-world applications though natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of Large Language Models (LLMs) based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source GPTs. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
PDF184December 15, 2024