翻訳付きの日次キュレーションされたAI研究論文
予測モデルをロスレス圧縮器に変換できること、またその逆も可能であることは、長らく確立された事実である。近年、機械学習コミュニティは、ますます大規模で強力な自己教師あり(言語)モデルの訓練に焦点を当ててきた。これらの大規模言語モデルは驚異的な予測能力を示すため、強力な圧縮器としてのポテンシャルを十分に有している。本研究では、予測問題を圧縮の観点から捉えることを提唱し、大規模(基盤)モデルの圧縮能力を評価する。我々は、大規模言語モデルが汎用的な強力な予測器であること、そして圧縮の視点がスケーリング則、トークン化、文脈内学習に関する新たな洞察を提供することを示す。例えば、Chinchilla 70Bは主にテキストで訓練されているにもかかわらず、ImageNetのパッチを43.4%、LibriSpeechのサンプルを16.4%の生サイズに圧縮し、それぞれPNG(58.5%)やFLAC(30.3%)といったドメイン固有の圧縮器を上回る性能を示す。最後に、予測と圧縮の等価性を利用して、任意の圧縮器(例えばgzip)を用いて条件付き生成モデルを構築できることを示す。
本研究では、人間によるデモンストレーションと自律的に収集されたデータの両方を活用可能な、大規模オフラインデータセットからのマルチタスクポリシー学習に向けたスケーラブルな強化学習手法を提案します。本手法は、Transformerを用いてオフライン時間差分バックアップで学習されるQ関数のスケーラブルな表現を提供します。このため、本手法をQ-Transformerと呼びます。各行動次元を離散化し、各行動次元のQ値を個別のトークンとして表現することで、Q学習に対して効果的な高容量シーケンスモデリング技術を適用可能にします。オフライン強化学習トレーニングにおいて良好な性能を実現するためのいくつかの設計上の決定を示し、Q-Transformerが大規模で多様な実世界のロボット操作タスクスイートにおいて、従来のオフライン強化学習アルゴリズムや模倣学習技術を上回ることを示します。プロジェクトのウェブサイトと動画はhttps://q-transformer.github.ioで閲覧可能です。
数十億のパラメータを有する大規模言語モデル(LLMs)は、様々な自然言語処理タスクにおいて卓越した性能を発揮しています。本報告書では、中国語指向のオープンソースモデルコミュニティに貢献するため、オープンソースの15Bバイリンガル非対称seq2seqモデルであるOpenBAを紹介します。我々はOpenBAを効果的かつ効率的な技術で強化し、モデルをゼロからトレーニングするための3段階のトレーニング戦略を採用しました。我々のソリューションは、わずか380Bトークンで非常に競争力のある性能を達成し、BELEBELEベンチマークではLLaMA-70Bを、MMLUベンチマークではBLOOM-176Bを、C-Eval(ハード)ベンチマークではGLM-130Bを上回りました。本報告書では、類似モデルを事前トレーニングするための主要な詳細を提供します。これには、事前トレーニングデータ処理、バイリンガルFlanデータ収集、モデルアーキテクチャ設計にインスピレーションを与えた経験的観察、異なる段階のトレーニング目標、およびその他の強化技術が含まれます。我々は、Huggingface Transformersライブラリの設計原則に従ってコードをリファクタリングし、開発者がより便利に使用できるようにし、異なるトレーニング段階のチェックポイントをhttps://huggingface.co/openBAでリリースしました。プロジェクトの詳細はhttps://github.com/OpenNLG/openBA.gitでご覧いただけます。
本論文は、SlimPajamaを使用した大規模言語モデルのトレーニングにおける、さまざまなデータ組み合わせ(例:ウェブテキスト、ウィキペディア、GitHub、書籍)の影響を理解することを目的としている。SlimPajamaは、Togetherによって提供された1.2兆トークンに及ぶRedPajamaデータセットから、厳密に重複排除され、さらに精選された6270億トークンのマルチソースデータセットである。我々はこの研究をSlimPajama-DCと名付け、SlimPajamaを大規模言語モデルのトレーニングに使用する際の基本的な特性とベストプラクティスを明らかにするための実証分析を行った。SlimPajamaを用いた研究において、以下の2つの重要な観察結果が得られた:(1) グローバルな重複排除とローカルな重複排除。異なるデータソース間でのグローバルな重複排除と、単一のデータソース内でのローカルな重複排除が、トレーニングされたモデルの性能にどのように影響するかを分析し、議論する。(2) 高品質/高度に重複排除されたマルチソースデータセットの組み合わせにおける割合。これを研究するため、SlimPajamaデータセットの6つの構成を作成し、それぞれを1.3BのCerebras-GPTモデル(AlibiとSwiGLUを使用)でトレーニングした。我々の最良の構成は、同じトレーニングトークン数でRedPajamaを使用してトレーニングされた1.3Bモデルを大幅に上回る性能を示した。すべての1.3Bモデルは、Cerebras 16x CS-2クラスター上でbf16混合精度で合計80 PFLOP/sの性能でトレーニングされた。さらに、我々の発見(例:グローバルな重複排除後にはデータの多様性を増やすことが重要)を、大規模バッチサイズのトレーニングを用いた7Bモデルに拡張した。我々のモデルと個別のSlimPajama-DCデータセットは、https://huggingface.co/MBZUAI-LLM および https://huggingface.co/datasets/cerebras/SlimPajama-627B で公開されている。
近年のオーディオ生成の進展は、大規模な深層学習モデルと膨大なデータセットの進化によって促進されてきました。しかし、ビデオからオーディオ(V2A)生成のタスクは依然として課題であり、主に高次元の視覚データと聴覚データの複雑な関係性、および時間的同期に関連する課題が原因です。本研究では、言語モデリングのパラダイムに基づいたオープンドメインのV2A生成システムであるFoleyGenを紹介します。FoleyGenは、波形と離散トークンの双方向変換のために既存のニューラルオーディオコーデックを活用します。オーディオトークンの生成は、視覚エンコーダーから抽出された視覚特徴に条件付けされた単一のTransformerモデルによって促進されます。V2A生成における一般的な問題は、生成されたオーディオがビデオ内の可視アクションとずれることです。これを解決するために、3つの新しい視覚注意メカニズムを探求します。さらに、単一モーダルまたはマルチモーダルタスクで事前学習された複数の視覚エンコーダーを徹底的に評価します。VGGSoundデータセットでの実験結果は、提案されたFoleyGenがすべての客観的指標と人間評価において従来のシステムを上回ることを示しています。
本論文では、単一画像から完全な360度視野の3Dモデルを生成する新しいフレームワーク「POP3D」を紹介します。POP3Dは、単一視点再構築を制限する2つの主要な課題を解決します。第一に、POP3Dは任意のカテゴリーに対して高い汎用性を提供し、これは従来の手法が達成に苦労していた特性です。第二に、POP3Dは再構築の忠実度と自然さをさらに向上させ、これは同時期の研究が十分に達成できていない重要な側面です。我々のアプローチは、以下の4つの主要コンポーネントの強みを組み合わせています:(1) 重要な幾何学的な手がかりを予測する単眼深度および法線予測器、(2) 対象物体の潜在的に見えない部分を区画化できる空間カービング手法、(3) 大規模な画像データセットで事前学習された生成モデルで、対象の見えない領域を補完可能、(4) RGB画像と単眼幾何学的な手がかりを使用して物体を再構築するために調整されたニューラル暗黙的表面再構築手法。これらのコンポーネントの組み合わせにより、POP3Dは様々な実世界の画像に容易に汎化し、最先端の再構築を生成し、類似の研究を大きく上回る性能を発揮します。プロジェクトページ: http://cg.postech.ac.kr/research/POP3D