h2oGPT: Демократизация больших языковых моделей
h2oGPT: Democratizing Large Language Models
June 13, 2023
Авторы: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
cs.AI
Аннотация
Фундаментальные большие языковые модели (LLM), такие как GPT-4, представляют собой революцию в области искусственного интеллекта благодаря их практическому применению через обработку естественного языка. Однако они также несут значительные риски, такие как наличие предвзятых, конфиденциальных или вредоносных текстов, а также несанкционированное включение материалов, защищенных авторским правом.
Мы представляем h2oGPT — набор репозиториев с открытым исходным кодом для создания и использования больших языковых моделей (LLM), основанных на генеративных предобученных трансформерах (GPT). Цель этого проекта — создать лучшую в мире по-настоящему открытую альтернативу закрытым GPT. В сотрудничестве с невероятным и неудержимым сообществом открытого исходного кода мы открываем доступ к нескольким тонко настроенным моделям h2oGPT с параметрами от 7 до 40 миллиардов, готовым для коммерческого использования под полностью разрешительными лицензиями Apache 2.0. В нашем релизе также представлен 100% приватный поиск документов с использованием естественного языка.
Модели с открытым исходным кодом способствуют развитию ИИ, делая его более доступным и заслуживающим доверия. Они снижают барьеры для входа, позволяя людям и организациям адаптировать эти модели под свои нужды. Такая открытость стимулирует инновации, прозрачность и справедливость. Открытая стратегия необходима для справедливого распределения преимуществ ИИ, и H2O.ai продолжит демократизацию ИИ и больших языковых моделей.
English
Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution
in AI due to their real-world applications though natural language processing.
However, they also pose many significant risks such as the presence of biased,
private, or harmful text, and the unauthorized inclusion of copyrighted
material.
We introduce h2oGPT, a suite of open-source code repositories for the
creation and use of Large Language Models (LLMs) based on Generative Pretrained
Transformers (GPTs). The goal of this project is to create the world's best
truly open-source alternative to closed-source GPTs. In collaboration with and
as part of the incredible and unstoppable open-source community, we open-source
several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for
commercial use under fully permissive Apache 2.0 licenses. Included in our
release is 100% private document search using natural language.
Open-source language models help boost AI development and make it more
accessible and trustworthy. They lower entry hurdles, allowing people and
groups to tailor these models to their needs. This openness increases
innovation, transparency, and fairness. An open-source strategy is needed to
share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.