H2Oオープンエコシステムによる最先端大規模言語モデル
H2O Open Ecosystem for State-of-the-art Large Language Models
October 17, 2023
著者: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Chun Ming Lee, Marcos V. Conde
cs.AI
要旨
大規模言語モデル(LLMs)はAIにおける革命を象徴しています。しかしながら、それらは偏見のある、プライベートな、著作権で保護された、あるいは有害なテキストが含まれるなど、多くの重大なリスクも抱えています。そのため、オープンで透明性があり、安全なソリューションが必要です。私たちは、LLMsの開発とテストのための完全なオープンソースエコシステムを紹介します。このプロジェクトの目的は、クローズドソースのアプローチに対するオープンな代替手段を促進することです。私たちは、70億から700億パラメータまでのファインチューニングされたLLMsのファミリーであるh2oGPTをリリースします。また、最新の最先端技術を用いてLLMsの効率的なファインチューニング、評価、デプロイメントを可能にするフレームワークおよびノーコードGUIであるH2O LLM Studioも紹介します。私たちのコードとモデルは、完全に許容的なApache 2.0ライセンスの下で提供されます。オープンソースの言語モデルは、AI開発を促進し、よりアクセスしやすく信頼性の高いものにするのに役立つと信じています。デモは以下で利用可能です: https://gpt.h2o.ai/
English
Large Language Models (LLMs) represent a revolution in AI. However, they also
pose many significant risks, such as the presence of biased, private,
copyrighted or harmful text. For this reason we need open, transparent and safe
solutions. We introduce a complete open-source ecosystem for developing and
testing LLMs. The goal of this project is to boost open alternatives to
closed-source approaches. We release h2oGPT, a family of fine-tuned LLMs from 7
to 70 Billion parameters. We also introduce H2O LLM Studio, a framework and
no-code GUI designed for efficient fine-tuning, evaluation, and deployment of
LLMs using the most recent state-of-the-art techniques. Our code and models are
licensed under fully permissive Apache 2.0 licenses. We believe open-source
language models help to boost AI development and make it more accessible and
trustworthy. The demo is available at: https://gpt.h2o.ai/