翻訳付きの日次キュレーションされたAI研究論文
私たちは、約1兆トークンを約3エポックにわたって事前学習したコンパクトな1.1B言語モデル「TinyLlama」を紹介します。TinyLlamaは、Llama 2のアーキテクチャとトークナイザーを基盤としており、オープンソースコミュニティが貢献したさまざまな進歩(例:FlashAttention)を活用し、より優れた計算効率を実現しています。比較的小さなサイズにもかかわらず、TinyLlamaは一連の下流タスクで顕著なパフォーマンスを示します。同規模の既存のオープンソース言語モデルを大幅に上回る性能を発揮します。私たちのモデルチェックポイントとコードは、GitHub(https://github.com/jzhang38/TinyLlama)で公開されています。
ChatGPTの登場により、下流タスクに対処するための大規模言語モデル(LLMs)の利用が大幅に増加しています。この文脈において、コスト効率の良いトレーニングとデプロイメントに焦点が当てられつつあります。LLMsの低コストなトレーニングとデプロイメントは、今後の開発トレンドを代表するものです。本論文では、この新たなトレンドに沿った大規模言語モデルのトレーニング技術と推論デプロイメント技術の進化を概観します。トレーニングに関する議論では、データの前処理、トレーニングアーキテクチャ、事前学習タスク、並列トレーニング、およびモデルのファインチューニングに関連する内容など、さまざまな側面をカバーしています。推論側では、モデルの圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げています。また、LLMsの利用についても探求し、その将来の発展に関する洞察を提供します。
人間は一般的に、古いスキルを損なうことなく新しいスキルを習得します。しかし、大規模言語モデル(LLMs)、例えばLLaMAからCodeLLaMAへの場合、その逆が当てはまります。この問題に対処するため、我々はTransformerブロックの拡張を伴う新しいポスト事前学習手法を提案します。拡張されたブロックを新しいコーパスのみでチューニングすることで、破滅的な忘却を起こすことなく、効率的かつ効果的にモデルの知識を向上させます。本論文では、コードと数学のコーパスを用いて実験を行い、LLaMA2-7Bから初期化された汎用基盤モデルであるLLaMA Pro-8.3Bを開発しました。このモデルは、一般的なタスク、プログラミング、数学において優れた性能を発揮します。LLaMA Proとその指示追従版(LLaMA Pro-Instruct)は、様々なベンチマークで先進的な性能を達成し、LLaMAファミリーの既存のオープンモデルを凌駕し、推論と多様なタスクへの対応能力を持つ知的エージェントとしての多大な可能性を示しています。我々の研究成果は、自然言語とプログラミング言語の統合に関する貴重な知見を提供し、様々な環境で効果的に動作する高度な言語エージェントの開発に堅固な基盤を築きます。
数十億のパラメータを持つ基盤モデルは、大規模なデータコーパスで学習されることで、様々なドメインにおいて非自明なスキルを発揮することが実証されています。しかし、そのモノリシックな構造のため、これらのモデルを拡張したり新しいスキルを付与したりすることは困難でコストがかかります。一方で、その適応能力の高さから、これらのモデルの新しいインスタンスが新たなドメインやタスクに向けて学習されています。本研究では、既存の基盤モデルとより特定のモデルを効率的かつ実用的に組み合わせることで、新たな能力を実現する問題を探求します。この目的のために、我々はCALM(Composition to Augment Language Models)を提案します。CALMは、モデル間のクロスアテンションを導入し、それらの表現を組み合わせて新たな能力を可能にします。CALMの主な特徴は以下の通りです:(i) 既存のLLMを「再利用」し、追加のパラメータとデータを少量使用することで、新しいタスクにおいてLLMをスケールアップする、(ii) 既存のモデルの重みはそのまま保持され、既存の能力を維持する、(iii) 多様なドメインや設定に適用可能である。我々は、PaLM2-Sに低リソース言語向けに学習された小規模モデルを組み合わせることで、低リソース言語の英語翻訳や算術推論などのタスクにおいて最大13%の絶対的な改善を示しました。同様に、PaLM2-Sにコード特化モデルを組み合わせた場合、コード生成と説明タスクにおいてベースモデルに対して40%の相対的な改善が見られ、完全にファインチューニングされたモデルと同等の性能を発揮しました。
人間のデモンストレーションからの模倣学習は、ロボティクス分野で印象的な性能を示してきました。しかし、ほとんどの成果はテーブルトップ上の操作に焦点を当てており、一般的に有用なタスクに必要な機動性と器用さが欠けています。本研究では、両手操作と全身制御を必要とする移動操作タスクを模倣するシステムを開発します。まず、データ収集用の低コストな全身テレオペレーションシステムであるMobile ALOHAを紹介します。これはALOHAシステムに移動ベースと全身テレオペレーションインターフェースを追加したものです。Mobile ALOHAで収集したデータを使用して、教師あり行動クローニングを実施し、既存の静的なALOHAデータセットとの共学習が移動操作タスクの性能を向上させることを確認しました。各タスクに対して50回のデモンストレーションを用いることで、共学習は成功率を最大90%向上させ、Mobile ALOHAが複雑な移動操作タスクを自律的に完了できるようにします。例えば、エビを炒めて提供する、両開きの壁キャビネットを開けて重い調理鍋を収納する、エレベーターを呼んで乗る、使用済みのフライパンをキッチンの蛇口で軽く洗うといったタスクです。プロジェクトウェブサイト: https://mobile-aloha.github.io
本論文では、異種の画像生成タスクに対応し、未見のタスクにも汎化するモデルであるinstruct-imagenを提案する。我々は、画像生成のための*マルチモーダル命令*を導入し、多様な生成意図を精密に表現するタスク表現を提示する。これは、自然言語を用いてテキスト、エッジ、スタイル、被写体などの異なるモダリティを統合し、豊富な生成意図を統一された形式で標準化するものである。 次に、事前学習済みのテキストから画像への拡散モデルを2段階のフレームワークで微調整し、instruct-imagenを構築する。まず、検索拡張型トレーニングを用いてモデルを適応させ、外部のマルチモーダルコンテキストに基づいて生成を行う能力を強化する。その後、視覚と言語の理解を必要とする多様な画像生成タスク(例:被写体駆動型生成など)に適応させ、各タスクの本質をカプセル化したマルチモーダル命令とペアで微調整を行う。様々な画像生成データセットにおける人間による評価では、instruct-imagenが従来のタスク特化型モデルと同等またはそれ以上の性能を示し、未見のより複雑なタスクへの有望な汎化能力を実証している。
本論文では、LLaVA-phi(LLaVA-Phi)を紹介する。これは、最近進化した小型言語モデルPhi-2の力を活用し、マルチモーダル対話を促進する効率的なマルチモーダルアシスタントである。LLaVA-Phiは、コンパクトなマルチモーダルモデルの領域において注目すべき進展を示している。わずか2.7Bパラメータの小型言語モデルでも、高品質なコーパスで訓練されれば、テキストと視覚要素を統合した複雑な対話に効果的に関与できることを実証している。我々のモデルは、視覚理解、推論、知識に基づく知覚を含む公開ベンチマークで良好なパフォーマンスを発揮する。マルチモーダル対話タスクにおける顕著な性能に加え、本モデルは、時間制約のある環境や、エンボディードエージェントのようなリアルタイムインタラクションを必要とするシステムにおける新たな応用の可能性を開くものである。これは、リソース効率を維持しながら、小型言語モデルが高度な理解とインタラクションを達成する可能性を強調している。本プロジェクトは{https://github.com/zhuyiche/llava-phi}で公開されている。
3D-aware Generative Adversarial Networks(GAN)は、ニューラルボリュームレンダリングを介して2D画像のコレクションからマルチビュー整合性のある画像とシーンの3Dジオメトリを生成する学習において顕著な進歩を示してきました。しかし、ボリュームレンダリングにおける高密度サンプリングのメモリと計算コストの高さから、3D GANはパッチベースのトレーニングを採用したり、低解像度レンダリングと2D超解像度の後処理を組み合わせることを余儀なくされており、これによりマルチビュー整合性と解決されたジオメトリの品質が犠牲になっています。その結果、3D GANは2D画像に含まれる豊富な3Dジオメトリを完全に解決することができていませんでした。本研究では、ニューラルボリュームレンダリングをネイティブ2D画像のより高い解像度にスケールアップする技術を提案し、これにより前例のない詳細さで微細な3Dジオメトリを解決します。私たちのアプローチでは、学習ベースのサンプラーを使用して、3D GANトレーニングのためのニューラルレンダリングを最大5倍少ない深度サンプルで加速します。これにより、トレーニングと推論中にフル解像度画像の「すべてのピクセルをレンダリング」することが可能になり、2Dでの後処理超解像度を必要としません。高品質な表面ジオメトリを学習する戦略と組み合わせることで、私たちの手法は高解像度の3Dジオメトリと厳密なビュー整合性のある画像を合成し、後処理超解像度に依存するベースラインと同等の画像品質を維持します。FFHQとAFHQにおいて最先端の3Dジオメトリ品質を実証し、3D GANにおける3D形状の教師なし学習の新たな基準を確立しました。
最先端の3D知覚ベンチマーク(例:ScanNet)における最新モデルは、センシングされた多視点RGB-D画像の後処理によって得られたデータセット提供の3D点群を消費し、ラベル付けを行います。これらのモデルは通常、ドメイン内でトレーニングされ、大規模な2D事前学習を省略し、代わりにポーズ付きRGB-D多視点画像を特徴量化する代替手法を凌駕します。ポーズ付き画像を消費する手法と後処理された3D点群を消費する手法の間の性能差は、2Dと3D知覚には異なるモデルアーキテクチャが必要であるという信念を助長してきました。本論文では、この見解に異議を唱え、2D RGB画像と3D点群の両方をセグメント化およびラベル付けできるモデルであるODIN(Omni-Dimensional INstance segmentation)を提案します。ODINは、2Dビュー内情報と3Dクロスビュー情報の融合を交互に行うトランスフォーマーアーキテクチャを使用します。我々のモデルは、2Dパッチトークンにはピクセル座標を、3D特徴トークンには3D座標をキャプチャするトークンの位置エンコーディングを通じて、2Dと3Dの特徴操作を区別します。ODINは、ScanNet200、Matterport3D、AI2THORの3Dインスタンスセグメンテーションベンチマークで最先端の性能を達成し、ScanNet、S3DIS、COCOでも競争力のある性能を発揮します。3Dメッシュからサンプリングされた点群の代わりにセンシングされた3D点群を使用した場合、これまでのすべての研究を大幅に上回ります。指示可能なエンボディエージェントアーキテクチャの3D知覚エンジンとして使用した場合、TEAChの対話からのアクションベンチマークで新たな最先端を確立します。我々のコードとチェックポイントは、プロジェクトウェブサイト(https://odin-seg.github.io)で公開されています。
地球上のすべての動物の3Dモデルを学習するには、既存のソリューションを大規模にスケールアップする必要があります。この究極の目標を念頭に置いて、私たちは3D-Faunaを開発しました。これは、100種以上の動物種に対して汎カテゴリの変形可能な3D動物モデルを共同で学習するアプローチです。動物のモデリングにおける重要なボトルネックは、学習データの限られた可用性であり、これを2Dインターネット画像から単純に学習することで克服します。従来のカテゴリ固有の試みは、学習画像が限られた希少種に一般化できないことを示します。この課題に対処するために、幾何学的帰納的プライアと、既製の自己教師あり特徴抽出器によって暗黙的に捕捉された意味的知識を組み合わせることで、少数の基本動物形状を自動的に発見するSemantic Bank of Skinned Models(SBSM)を導入します。このようなモデルを学習するために、多様な動物種の大規模なデータセットも提供します。推論時には、任意の四足動物の単一画像が与えられると、私たちのモデルは数秒以内にフィードフォワード方式で関節付き3Dメッシュを再構築します。
ChatGPTやLLaMAなどの大規模言語モデル(LLM)の登場は、ドメイン固有のタスクにおいて限界に直面しており、これらのモデルは専門領域での深みや正確性に欠け、特に小規模モデルでは分析能力が低下する傾向が見られます。これらの課題に対処するため、我々はICE-GRTを導入し、Proximal Policy Optimization(PPO)に基づく人間のフィードバックからの強化学習(RLHF)を活用することで、ドメイン内シナリオで優れた能力を発揮しつつ、一般的なタスク性能を損なわないことを実証しました。ICE-GRTの探求を通じて、堅牢な回答を生成するだけでなく、その回答の背後にある理由を詳細に分析する理解力と推論能力が明らかになりました。この能力は、教師ありファインチューニングモデルの範囲を超えた重要な進展を示しています。ICE-GRTの成功は、適切なデータ、報酬サイズのスケーリング、KL制御、アドバンテージ正規化など、いくつかの重要な要素に依存しています。ICE-GRTモデルは、ドメイン固有のタスクおよび12の一般的な言語タスクにおいて、同等サイズおよびそれ以上のサイズのLLMに対して最先端の性能を示し、我々のアプローチの有効性を強調しています。我々はICE-GRTの包括的な分析を提供し、LLM分野にもたらす重要な進展を明らかにします。
拡散モデルは新しいクラスの生成モデルであり、前例のない品質と多様性で画像生成を劇的に促進してきました。既存の拡散モデルは主に、空間軸に沿ったピクセル単位または特徴量単位の制約を用いて、劣化した画像から入力画像を再構築しようとします。しかし、このようなポイントベースの再構築では、各予測ピクセル/特徴量がその周辺コンテキストを完全に保持できない場合があり、拡散ベースの画像合成を損なう可能性があります。自動的な教師信号の強力な源として、コンテキストは表現学習においてよく研究されてきました。これに着想を得て、我々は初めて、コンテキスト予測を用いて拡散ベースの画像合成を改善するConPreDiffを提案します。トレーニング段階において、拡散ノイズ除去ブロックの最後にコンテキストデコーダを追加し、各ポイントがその周辺コンテキスト(つまり、マルチストライドの特徴量/トークン/ピクセル)を予測するように明示的に強化し、推論時にはこのデコーダを除去します。これにより、各ポイントは周辺コンテキストとの意味的つながりを保持することで、自身をより良く再構築できるようになります。ConPreDiffのこの新しいパラダイムは、サンプリング手順で追加のパラメータを導入することなく、任意の離散および連続拡散バックボーンに一般化できます。無条件画像生成、テキストから画像への生成、画像修復タスクにおいて広範な実験が行われました。我々のConPreDiffは、従来の手法を一貫して上回り、MS-COCOにおいて新たなSOTAのテキストから画像への生成結果を達成し、ゼロショットFIDスコア6.21を記録しました。
現実世界の3Dオブジェクトの幾何学的および意味的特性を正確に知覚することは、拡張現実(AR)やロボティクスアプリケーションの継続的な進化にとって極めて重要です。この目的のために、我々は3Dガウススプラッティング(GS)に基盤モデルの視覚-言語埋め込みを組み込んだ()を提案します。本研究の主な貢献は、3D視覚-言語モデルを効率的に再構築・表現する手法です。これは、画像ベースの基盤モデルから生成された特徴マップを、我々の3Dモデルからレンダリングされたものに蒸留することで実現されます。高品質なレンダリングと高速な学習を確保するため、GSとマルチレゾリューションハッシュエンコーディング(MHE)の両方の強みを統合した新しいシーン表現を導入します。また、効果的な学習手順として、ピクセルレベルの意味的境界に従って同一の意味的エンティティのレンダリングされた特徴距離を近づけるピクセルアライメント損失を導入します。我々の結果は、驚くべきマルチビュー意味的一貫性を示し、多様な下流タスクを容易にし、オープン語彙に基づく言語ベースの物体検出において最新の手法を10.2%上回り、推論速度が851倍速いことを実証しています。本研究は、視覚、言語、3Dシーン表現の交差点を探求し、制御されていない現実世界環境におけるシーン理解の強化への道を開きます。論文受理後、コードを公開する予定です。
視覚的推論は、数十億のモデルパラメータとトレーニング例をスケールさせたエンドツーエンドのニューラルネットワークによって支配されています。しかし、最大規模のモデルでさえ、合成的推論、一般化、細粒度の空間的・時間的推論、および計数に苦戦しています。大規模言語モデル(LLMs)をコントローラーとして用いた視覚的推論は、原理的には、タスクを分解し、一連の(視覚的)ツールを調整することでサブタスクを解決することで、これらの制限に対処できます。最近、これらのモデルは、合成的視覚質問応答、視覚的グラウンディング、ビデオ時間的推論などのタスクで優れた性能を達成しました。しかし、現状では、これらのモデルはプロンプト内のコンテキスト例の人間による設計に大きく依存しており、これらはしばしばデータセットやタスク固有であり、高度なスキルを持つプログラマーによる多大な労力を必要とします。本研究では、空間的および時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用して自動的にコンテキスト例を生成することで、これらの問題を軽減するフレームワークを提案します。これにより、人間が作成したコンテキスト例を回避します。いくつかの視覚的推論タスクにおいて、我々のフレームワークが一貫した性能向上をもたらし、LLMsをコントローラーとしてのセットアップをより堅牢にし、コンテキスト例の人間による設計の必要性を排除することを示します。