翻訳付きの日次キュレーションされたAI研究論文
言語モデルは幅広いアプリケーションで効果を発揮してきたが、最も洗練されたモデルはしばしばプロプライエタリである。例えば、OpenAIのGPT-4やAnthropicの各種モデルは高価で、多大なエネルギーを消費する。一方、オープンソースコミュニティはLlama3のような競争力のあるモデルを生み出している。さらに、法律、医療、金融などの特定の分野に特化した小型言語モデルは、プロプライエタリのモデルを凌駕する性能を示している。本論文では、機能トークンを用いて複数のオープンソースモデルを統合する新たなアプローチを紹介する。各モデルは特定のタスクに最適化されている。新たに開発したOctopus v4モデルは、機能トークンを活用してユーザーのクエリを最も適した垂直モデルにインテリジェントに誘導し、最高のパフォーマンスを達成するためにクエリを再フォーマットする。Octopus v4は、Octopus v1、v2、v3モデルの進化形であり、選択とパラメータの理解、再フォーマットに優れている。さらに、グラフを多用途のデータ構造として活用し、Octopusモデルと機能トークンの能力を活用して複数のオープンソースモデルを効果的に調整する方法を探る。私たちのオープンソースGitHub(https://www.nexa4ai.com/)を使用してOctopus v4モデル(https://huggingface.co/NexaAIDev/Octopus-v4)を試し、より大規模な言語モデルのグラフに貢献してください。10Bパラメータ未満のモデルを活性化することで、同レベルのモデルの中で74.8のSOTA MMLUスコアを達成した。
コルモゴロフ-アーノルド表現定理に着想を得て、我々はマルチレイヤーパーセプトロン(MLP)の有望な代替案としてコルモゴロフ-アーノルドネットワーク(KAN)を提案する。MLPがノード(「ニューロン」)上に固定された活性化関数を持つ一方で、KANはエッジ(「重み」)上に学習可能な活性化関数を持つ。KANには線形重みが全く存在せず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。この一見単純な変更により、KANは精度と解釈可能性の点でMLPを凌駕することを示す。精度に関しては、はるかに小規模なKANが、データフィッティングや偏微分方程式(PDE)の解法において、はるかに大規模なMLPと同等またはそれ以上の精度を達成できる。理論的にも経験的にも、KANはMLPよりも高速なニューラルスケーリング則を持つ。解釈可能性に関しては、KANは直感的に可視化でき、人間のユーザーと容易に相互作用できる。数学と物理学における2つの例を通じて、KANが科学者が数学的・物理的法則を(再)発見するのを助ける有用な協力者であることが示される。要約すると、KANはMLPの有望な代替案であり、MLPに大きく依存する今日の深層学習モデルをさらに改善する機会を開くものである。
GPTやLlamaなどの大規模言語モデルは、次のトークンを予測する損失関数を用いて学習されます。本研究では、言語モデルに複数の将来トークンを一度に予測させることで、サンプル効率が向上することを提案します。具体的には、学習コーパスの各位置において、共有されたモデルのトランク上で動作するn個の独立した出力ヘッドを使用して、続くn個のトークンを予測するようモデルに求めます。マルチトークン予測を補助的な学習タスクとして考慮することで、コードモデルと自然言語モデルの両方において、学習時間のオーバーヘッドなしに下流タスクの性能が向上することを確認しました。この手法は、モデルサイズが大きくなるほど有用性が増し、複数エポックにわたる学習においてもその魅力を維持します。特に、コーディングのような生成ベンチマークでは、我々のモデルが強力なベースラインを数パーセントポイント上回る一貫した性能を示します。13Bパラメータのモデルでは、HumanEvalで12%、MBPPで17%多くの問題を解決しました。小規模なアルゴリズムタスクでの実験では、マルチトークン予測が帰納ヘッドの開発とアルゴリズム的推論能力の向上に有利であることが示されました。追加の利点として、4トークン予測で学習されたモデルは、大規模なバッチサイズでも推論速度が最大3倍速くなりました。
パーソナライズド画像生成の分野において、概念を保持した画像を作成する能力は大幅に向上しています。複数の概念を自然に統合し、まとまりがあり視覚的に魅力的な構図を持つ画像を作成することは、確かに難しい課題です。本論文では、「InstantFamily」というアプローチを紹介します。この手法は、新しいマスク付きクロスアテンションメカニズムとマルチモーダル埋め込みスタックを採用し、ゼロショットでの複数ID画像生成を実現します。私たちの手法は、テキスト条件と統合された事前学習済み顔認識モデルから得られるグローバルおよびローカルな特徴を活用することで、IDを効果的に保持します。さらに、マスク付きクロスアテンションメカニズムにより、生成された画像における複数IDと構図の正確な制御が可能です。InstantFamilyの有効性を、複数IDを持つ画像生成において優位性を示す実験を通じて実証し、既知の複数ID生成の問題を解決します。また、私たちのモデルは、単一IDおよび複数IDの保持において、最先端の性能を達成します。さらに、このモデルは、当初のトレーニング時よりも多くのID保持において、顕著なスケーラビリティを示します。
反復的な選好最適化手法は、一般的な指示チューニングタスクにおいて良好な性能を示すことが最近明らかになりましたが、推論タスクではほとんど改善が見られないことが一般的です(Yuan et al., 2024; Chen et al., 2024)。本研究では、正解に至る勝ち負けの推論ステップを最適化することで、競合するChain-of-Thought(CoT)候補間の選好を最適化する反復的アプローチを開発します。我々は、修正されたDPO損失(Rafailov et al., 2023)に追加の負の対数尤度項を用いて学習を行い、これが重要であることを確認しました。このスキームを繰り返し適用することで、推論能力が向上することを示します。訓練セットの例のみに依存しながら、我々のアプローチにより、Llama-2-70B-Chatの精度はGSM8Kで55.6%から81.6%(32サンプルの多数決では88.7%)、MATHで12.5%から20.8%、ARC-Challengeで77.8%から86.7%に向上し、追加のデータセットに依存しない他のLlama-2ベースのモデルを上回りました。
QLoRAファインチューニングにより、Llama-3-8B-Instructのコンテキスト長を8Kから80Kに拡張しました。トレーニング全体は非常に効率的で、8xA800(80G)GPUマシン1台で8時間しかかかりませんでした。結果として得られたモデルは、NIHS、トピック検索、長文コンテキスト理解など、幅広い評価タスクで優れた性能を示しています。同時に、短いコンテキストに対する元の能力も十分に保持しています。この劇的なコンテキスト拡張は、主にGPT-4によって生成されたわずか3.5Kの合成トレーニングサンプルによるものであり、LLMが元のコンテキスト長を拡張するための内在的(しかし大きく過小評価されている)可能性を示しています。実際、より多くの計算リソースがあれば、コンテキスト長は80Kをはるかに超えて拡張できる可能性があります。そのため、チームは今後のコミュニティの研究を促進するために、データ、モデル、データ生成パイプライン、トレーニングコードを含むすべてのリソースを公開する予定です: https://github.com/FlagOpen/FlagEmbedding。
本研究では、MotionLCMを導入し、制御可能なモーション生成をリアルタイムレベルに拡張します。テキスト条件付きモーション生成における空間制御の既存手法は、実行時の非効率性に悩まされています。この問題に対処するため、まず、潜在拡散モデル(MLD)を基盤としたモーション生成のためのモーション潜在一貫性モデル(MotionLCM)を提案します。1ステップ(または少数ステップ)推論を採用することで、モーション潜在拡散モデルの実行時効率をさらに向上させます。効果的な制御性を確保するため、MotionLCMの潜在空間内にモーションControlNetを組み込み、純粋なモーション空間における明示的な制御信号(例:骨盤軌跡)を直接生成プロセスを制御するために利用します。これは、他の潜在フリー拡散モデルをモーション生成のために制御するのと同様です。これらの技術を採用することで、我々のアプローチはテキストと制御信号を用いて人間のモーションをリアルタイムで生成することが可能です。実験結果は、MotionLCMの卓越した生成能力と制御能力を実証しつつ、リアルタイムの実行時効率を維持しています。
既存の視覚コンテンツ向け自動キャプション生成手法は、詳細の欠如、内容の虚構化、指示への従順性の低さといった課題に直面している。本研究では、2D画像と3Dオブジェクトの両方に対して高忠実度で詳細なキャプションを生成する、柔軟な学習不要パイプラインであるVisualFactChecker(VFC)を提案する。VFCは3つのステップで構成される:1)提案ステップでは、画像からテキストへのキャプション生成モデルが複数の初期キャプションを提案する;2)検証ステップでは、大規模言語モデル(LLM)が物体検出やVQAモデルなどのツールを活用して、提案されたキャプションを事実確認する;3)キャプション生成ステップでは、LLMがキャプション提案と事実確認の結果を要約して最終キャプションを生成する。このステップにおいて、VFCは複雑な指示に従って様々なスタイルのキャプションを柔軟に生成できる。我々は4つの指標を用いて包括的なキャプション評価を実施した:1)画像とテキストの類似度を測るCLIP-Score;2)キャプションを用いてテキストから画像を生成するモデルによって再構築された画像と元の画像の類似度を測るCLIP-Image-Score;3)Amazon Mechanical Turkを用いた人間による評価;4)細粒度評価のためのGPT-4V。評価結果は、VFCがCOCOデータセットの2D画像とObjaverseデータセットの3Dアセットにおいて、最先端のオープンソースキャプション生成手法を凌駕することを示している。我々の研究は、オープンソースモデルをパイプラインに組み合わせることで、モデルサイズが10倍以上小さいにもかかわらず、GPT-4Vのようなプロプライエタリモデルに匹敵するキャプション生成能力を達成できることを実証している。
我々はGS-LRMを提案する。これは、単一のA100 GPU上で2-4枚のポーズ付きスパース画像から高品質な3Dガウシアンプリミティブを0.23秒で予測可能なスケーラブルな大規模再構成モデルである。本モデルは非常にシンプルなトランスフォーマーベースのアーキテクチャを特徴としており、入力されたポーズ付き画像をパッチ化し、連結されたマルチビュー画像トークンを一連のトランスフォーマーブロックに通し、これらのトークンから直接最終的なピクセルごとのガウシアンパラメータをデコードして微分可能レンダリングを行う。従来のLRMがオブジェクトのみを再構成できたのに対し、ピクセルごとのガウシアンを予測することで、GS-LRMはスケールや複雑さに大きなばらつきのあるシーンを自然に扱える。本モデルがObjaverseとRealEstate10Kでそれぞれトレーニングされることで、オブジェクトとシーンの両方のキャプチャに対応可能であることを示す。どちらのシナリオにおいても、本モデルは最先端のベースラインを大きく上回る性能を発揮する。また、下流の3D生成タスクにおける本モデルの応用例も示す。プロジェクトのウェブページは以下で公開されている:https://sai-bi.github.io/project/gs-lrm/
NeRFの登場に続き、3D Gaussian Splatting(3D-GS)は、ボリュームメトリック手法の計算負荷を克服し、リアルタイムニューラルレンダリングへの道を切り開きました。3D-GSの先駆的な研究に続き、いくつかの手法が圧縮可能で高忠実度な性能を実現する代替案を模索してきました。しかし、これらの手法はジオメトリに依存しない最適化スキームを採用しているため、シーンの内在的な3D構造を無視し、表現力と表現品質を制限し、さまざまな浮動点やアーティファクトを引き起こしています。本研究では、シーンのジオメトリを暗黙的にエンコードする構造認識型Gaussian Splatting手法(SAGS)を提案し、ベンチマーク新視点合成データセットにおいて最先端のレンダリング性能とストレージ要件の削減を実現します。SAGSは、複雑なシーンの学習を促進し、シーンのジオメトリを保持する意味のある点変位を強制するローカル-グローバルグラフ表現に基づいています。さらに、シンプルでありながら効果的な中間点補間スキームを使用した軽量版SAGSを導入し、圧縮戦略に依存せずに最大24倍のサイズ削減を実現するコンパクトなシーン表現を示します。複数のベンチマークデータセットにわたる広範な実験により、SAGSがレンダリング品質とモデルサイズの両方において最先端の3D-GS手法と比較して優れていることが実証されました。また、構造認識型手法が浮動アーティファクトや以前の手法の不規則な歪みを効果的に軽減し、正確な深度マップを取得できることを示します。プロジェクトページ:https://eververas.github.io/SAGS/
視覚と言語のデータセットは、テキストから画像(T2I)および画像からテキスト(I2T)の研究において極めて重要です。しかし、現在のデータセットには、モデルがより豊かな関連性を学習するための詳細な記述が欠けています。このギャップを埋めるため、我々は「接続された画像と対照的な画像の記述(DOCCI)」を導入します。これは、1人の研究者が撮影、キュレーション、提供した15,000枚の画像に対して、長文の人間による英語の記述を付与したデータセットです。この研究者は、空間関係、数え上げ、テキストのレンダリング、世界知識などの重要な課題を捉えることを意図していました。我々は、人間のアノテーターに各画像の包括的な記述を作成するよう指示しました。これらの記述は平均136語の長さで、関連するまたは類似した画像から各画像を明確に区別するように工夫されています。各記述は高度に構成されており、通常は複数の課題を包含しています。定量的および定性的な分析を通じて、DOCCIが画像からテキスト生成の効果的なトレーニングリソースとして機能することを示します。DOCCIでファインチューニングされたPaLI 5Bモデルは、LLaVA-1.5 7BやInstructBLIP 7Bなどの高性能な大規模モデルと同等または優れた結果を示します。さらに、DOCCIがテキストから画像生成の有用なテストベッドとして機能し、現在のテキストから画像モデルが長文の記述や細部を捉えることの限界を浮き彫りにすることを示します。
3Dシーン生成は、2D生成拡散モデルの着実な進化に後押しされ、急速に挑戦的な新たな研究分野として台頭してきました。これまでの研究の多くは、新たに生成されたフレームを既存のジオメトリに反復的に結合することでシーンを生成しています。これらの研究では、生成された画像を3Dにリフトアップし、既存のシーン表現と融合させるために、事前学習された単眼深度推定器に依存することが一般的です。これらのアプローチは、生成された画像と与えられたテキストプロンプトとの類似性を測定するテキストメトリクスによって評価されることが多くなっています。本研究では、3Dシーン生成の分野に対して2つの根本的な貢献を行います。まず、単眼深度推定モデルを用いて画像を3Dにリフトアップすることは、既存シーンのジオメトリを無視するため最適ではないことを指摘します。そこで、教師蒸留と自己学習によって3D融合プロセスを学習する新しい深度補完モデルを導入し、シーンの幾何学的整合性を向上させます。次に、グラウンドトゥルースジオメトリに基づく新しいシーン生成手法のベンチマークスキームを提案し、シーンの構造の質を測定します。
スコア蒸留サンプリング(SDS)などの最適化ベースのアプローチは、ゼロショット3D生成において有望ですが、各サンプルに必要な関数評価回数(NFE)が多いため、効率性が低いという課題があります。本論文では、マルチビュースコアベース拡散モデルを用いた3D生成のための効率的で汎用的なアルゴリズムである、スコアベース反復再構成(SIR)を提案します。拡散モデルによって生成された画像を基に、SIRは3D再構成プロセスを模倣し、SDSの単一最適化とは異なり、3Dパラメータを繰り返し最適化することでNFEを削減します。さらに、ピクセル空間での最適化などの改良を加え、様々な3D表現や3D生成タスクに広く適用可能な効率的なアプローチであるMicroDreamerを提案します。特に、同等の性能を維持しつつ、MicroDreamerはニューラルラジアンスフィールドの生成においてSDSよりも5~20倍高速であり、3Dガウススプリッティングからのメッシュ生成には単一のA100 GPU上で約20秒を要し、最速のゼロショットベースラインであるDreamGaussianの時間を半減させます。私たちのコードはhttps://github.com/ML-GSAI/MicroDreamerで公開されています。
現代の3D研究、特に再構成と生成の分野では、入力や教師信号として2D画像に大きく依存しています。しかし、現在の2D-3Dマッピングの設計はメモリを大量に消費し、既存の手法にとって重大なボトルネックとなっており、新たな応用の妨げとなっています。これに対応して、我々は3Dニューラルフィールドのための高度にスケーラブルな2つのコンポーネント、Lightplane RenderとSplatterを提案します。これらの革新により、2D-3Dマッピングにおけるメモリ使用量を大幅に削減することが可能になります。これにより、少ないメモリと計算コストで、はるかに多くの高解像度画像を処理できるようになります。我々は、画像レベルの損失を用いた単一シーンの最適化から、3D再構成と生成を劇的にスケールアップする汎用パイプラインの実現まで、様々な応用における有用性を実証します。コード: https://github.com/facebookresearch/lightplane.