翻訳付きの日次キュレーションされたAI研究論文
本研究では、Transformerベースの大規模言語モデル(LLM)を、メモリと計算量を制限しながら無限に長い入力にスケールする効率的な手法を提案します。提案手法の鍵となる要素は、Infini-attentionと呼ばれる新しいアテンション技術です。Infini-attentionは、標準的なアテンションメカニズムに圧縮メモリを組み込み、マスクされたローカルアテンションと長期的な線形アテンションメカニズムを単一のTransformerブロック内に構築します。我々は、長文脈言語モデリングベンチマーク、100万シーケンス長のパスキーコンテキストブロック検索、および500K長の書籍要約タスクにおいて、10億パラメータと80億パラメータのLLMを用いて本手法の有効性を実証しました。提案手法は、最小限の制限付きメモリパラメータを導入し、LLMの高速ストリーミング推論を可能にします。
大規模言語モデル(LLM)は目覚ましい成果を上げてきたが、そのリソース需要の増大は、強力でアクセス可能な超人的知能の開発における主要な障害となっている。本報告書では、100万ドル未満のコストで訓練された新しいLLMであるJetMoE-8Bを紹介する。このモデルは、慎重に混合されたオープンソースコーパスから1.25兆トークンと、30,000時間のH100 GPUを使用して訓練された。低コストにもかかわらず、JetMoE-8Bは印象的な性能を示し、JetMoE-8BはLlama2-7Bモデルを上回り、JetMoE-8B-ChatはLlama2-13B-Chatモデルを凌駕している。これらの結果は、LLMの訓練が一般に考えられているよりもはるかにコスト効率的である可能性を示唆している。JetMoE-8Bは、効率的なスパースゲート型Mixture-of-Experts(SMoE)アーキテクチャに基づいており、アテンションとフィードフォワードのエキスパートで構成されている。両層はスパースに活性化されるため、JetMoE-8Bは80億のパラメータを持ちながら、各入力トークンに対して20億のパラメータのみを活性化し、Llama2-7Bと比較して推論計算を約70%削減する。さらに、JetMoE-8Bは非常にオープンで学術界に優しいモデルであり、公開データセットと訓練コードのみを使用している。すべての訓練パラメータとデータ混合は、今後のオープン基盤モデルの開発を促進するために、本報告書で詳細に説明されている。この透明性は、アクセス可能で効率的なLLMの分野における協力とさらなる進歩を奨励することを目的としている。モデルの重みはhttps://github.com/myshell-ai/JetMoEで公開されている。
干し草の山の中から針を見つける(NIAH)テストは、長いディストラクターテキスト(「干し草の山」)から特定の情報(「針」)を検索する能力を評価するために、長文脈言語モデル(LM)の評価として広く採用されています。しかし、この単純な検索ベースのテストは、長文脈理解の表面的な形式しか示していません。長文脈LMのより包括的な評価を提供するため、私たちは新しい合成ベンチマークRULERを作成しました。RULERは、カスタマイズ可能なシーケンス長とタスクの複雑さを柔軟に設定できるように設計されています。RULERは、基本的なNIAHテストを拡張し、さまざまな種類や量の針を含むバリエーションを網羅しています。さらに、RULERは、文脈からの検索を超えた行動をテストするために、マルチホップトレーシングと集計という新しいタスクカテゴリを導入しています。私たちは、RULERの13の代表的なタスクを使用して、10の長文脈LMを評価しました。基本的なNIAHテストではほぼ完璧な精度を達成しているにもかかわらず、すべてのモデルは、文脈長が増加するにつれて大幅な性能低下を示します。これらのモデルはすべて32Kトークン以上の文脈サイズを主張していますが、32Kの長さで満足のいく性能を維持できるのは、GPT-4、Command-R、Yi-34B、Mixtralの4つのモデルだけです。200Kの文脈長をサポートするYi-34Bの分析では、入力長とタスクの複雑さを増加させるにつれて、改善の余地が大きいことが明らかになりました。私たちは、長文脈LMの包括的な評価を促進するために、RULERをオープンソースとして公開します。
本論文では、テキスト記述から一般的な正面視点の3Dシーンを生成する技術であるRealmDreamerを紹介する。本技術は、複雑なテキストプロンプトに一致するように3Dガウススプラッティング表現を最適化する。これらのスプラットを初期化するために、最先端のテキストから画像への生成器を利用し、そのサンプルを3Dにリフトしてオクルージョン体積を計算する。次に、この表現を画像条件付き拡散モデルを用いた3Dインペインティングタスクとして複数の視点で最適化する。正しい幾何学的構造を学習するために、インペインティングモデルからのサンプルを条件として深度拡散モデルを組み込み、豊かな幾何学的構造を提供する。最後に、画像生成器からのシャープ化されたサンプルを使用してモデルを微調整する。特に、本技術はビデオや多視点データを必要とせず、複数のオブジェクトからなる様々なスタイルの高品質な3Dシーンを合成できる。その汎用性により、単一の画像からの3D合成も可能である。
事前学習済みの大規模言語モデル(例:Llama2、GPT-4、Claude 3など)が、追加の学習や勾配更新なしに、文脈内の例示のみを与えられた場合に、線形および非線形回帰をどの程度うまく実行できるかを分析します。我々の調査結果から、いくつかの大規模言語モデル(例:GPT-4、Claude 3)が、ランダムフォレスト、バギング、勾配ブースティングなどの従来の教師あり手法に匹敵する(あるいはそれを上回る)性能で回帰タスクを実行できることが明らかになりました。例えば、難しいFriedman #2回帰データセットにおいて、Claude 3はAdaBoost、SVM、ランダムフォレスト、KNN、勾配ブースティングなどの多くの教師あり手法を上回りました。次に、大規模言語モデルの性能が、文脈内の例示の数に応じてどのようにスケールするかを調査します。オンライン学習における後悔(regret)の概念を借用し、LLMがサブリニアな後悔を達成できることを実証的に示します。
ビジョン・ランゲージモデル(VLM)は通常、視覚エンコーダ(例:CLIP)と、エンコードされた特徴を解釈して下流タスクを解決する言語モデル(LM)で構成されています。顕著な進展にもかかわらず、VLMは視覚エンコーダの能力の限界により、特定の画像特徴に対する「盲目性」や視覚的幻覚などのいくつかの欠点に直面しています。これらの問題に対処するため、我々はVLMの視覚エンコーディング能力を拡大する方法を研究します。まず、異なる帰納的バイアスを持つ複数の視覚エンコーダをVLMタスク解決のために包括的にベンチマークします。その結果、異なるタスク間で一貫して最高のパフォーマンスを達成する単一のエンコーディング構成は存在せず、異なるバイアスを持つエンコーダが驚くほど類似した性能を発揮することが観察されました。これに動機づけられて、我々はBRAVEという手法を導入します。この手法は、複数の凍結されたエンコーダからの特徴を統合し、凍結されたLMへの入力として直接供給できるより汎用的な表現を生成します。BRAVEは、広範なキャプショニングおよびVQAベンチマークで最先端の性能を達成し、前述のVLMの問題を大幅に軽減します。さらに、既存の手法よりも少ない学習可能なパラメータ数とより圧縮された表現を実現します。我々の結果は、異なる視覚的バイアスを組み込むことで、VLMの視覚理解をより広範かつ文脈化する可能性を強調しています。
バーチャルリアリティアプリケーションの需要が高まる中、没入感のある3Dアセットの作成が重要な課題となっています。本論文では、テキストから360度シーンを生成するパイプラインを提案します。このパイプラインにより、野外環境における包括的な360度シーンをわずか数分で作成することが可能です。私たちのアプローチでは、2D拡散モデルの生成能力とプロンプト自己改良を活用して、高品質で全体的に一貫性のあるパノラマ画像を生成します。この画像は、初期の「フラット」(2D)シーン表現として機能します。その後、スプラッティング技術を用いて3Dガウシアンに変換し、リアルタイム探索を可能にします。一貫性のある3Dジオメトリを生成するために、私たちのパイプラインは、2D単眼深度を全体的に最適化された点群に整列させることで、空間的に一貫した構造を構築します。この点群は、3Dガウシアンの重心の初期状態として機能します。単一視点入力に内在する不可視領域の問題に対処するため、合成されたビューと入力カメラビューの両方にセマンティックおよびジオメトリック制約を正則化として課します。これらはガウシアンの最適化を導き、未観測領域の再構築を支援します。要約すると、私たちの手法は、360度視野における全体的に一貫性のある3Dシーンを提供し、既存の技術よりも優れた没入体験を実現します。プロジェクトウェブサイトはこちら:http://dreamscene360.github.io/
本研究では、LLaMAのようなデコーダのみのTransformerが、元々大規模言語モデル(LLM)向けに設計されたものから、コンピュータビジョン分野に適応できるかどうかを検証します。まず、標準的なViTを段階的に「LLaMA化」し、LLaMAのアーキテクチャに合わせますが、セルフアテンションに直接カジュアルマスクを適用すると、アテンションの崩壊が発生し、ネットワークの学習が失敗することを発見しました。この課題を克服するため、クラストークンを画像トークンの後ろに配置する「ポストシーケンスクラストークン」技術を提案し、因果的セルフアテンションが画像全体の情報を効率的に捕捉できるようにしました。さらに、学習の開始時にカジュアルマスクを徐々に導入するソフトマスク戦略を開発し、最適化の挙動を促進します。このように調整されたモデルは、image LLaMA(iLLaMA)と名付けられ、アーキテクチャ的にはLLaMAに類似しており、直接的な教師あり学習を可能にします。その因果的セルフアテンションは計算効率を向上させ、アテンションマップのランクを高めることで複雑な表現を学習します。iLLaMAは、エンコーダのみのモデルと同等の性能を発揮し、わずか5.7MのパラメータでImageNetのトップ1精度75.1%を達成します。モデルを約310Mにスケールアップし、ImageNet-21Kで事前学習を行うことで、精度はさらに86.0%に向上します。広範な実験により、iLLaMAの信頼性のある特性が示されています:キャリブレーション、形状-テクスチャバイアス、量子化互換性、ADE20Kセグメンテーション、CIFAR転移学習などです。本研究が、LLMの波の中で視覚モデル設計に新たな視点をもたらすことを期待しています。事前学習済みモデルとコードはこちらで公開されています。
既存の音声理解用データセットは、主に単一ターンのインタラクション(例:音声キャプショニング、音声質問応答)に焦点を当てており、自然言語で音声を記述することに限定されているため、対話を通じた音声理解が制限されています。このギャップを埋めるため、私たちは「Audio Dialogues」を導入しました。これは、一般的な音響と音楽を含む163.8kサンプルの多ターン対話データセットです。対話に加えて、Audio Dialoguesには複数の入力音声を理解し比較するための質問応答ペアも含まれています。Audio Dialoguesは、プロンプトベースのアプローチと既存データセットのキャプション注釈を活用し、大規模言語モデル(LLM)を使用して多ターン対話を生成します。私たちは、提案したデータセット上で既存の音声拡張大規模言語モデルを評価し、Audio Dialoguesの複雑さと適用性を実証します。データセット生成のためのコードは公開されます。詳細なプロンプトと生成された対話は、デモウェブサイトhttps://audiodialogues.github.io/で確認できます。
事前学習された基盤となる視覚言語モデルの最近の成功により、オープン語彙セグメンテーション(OVS)が可能になりました。有望な性能を示す一方で、このアプローチは2つの課題による重い計算オーバーヘッドを引き起こします:1)バックボーンの大規模なモデルサイズ、2)ファインチューニング中の高コスト。これらの課題は、このOVS戦略が現実世界のシナリオで広く適用可能かつ手頃なコストで利用されることを妨げています。モデル圧縮や効率的なファインチューニングといった従来の手法はこれらの課題に対処できますが、しばしばヒューリスティックに依存しています。これは、それらの解決策が容易に転移できず、異なるモデルで再トレーニングが必要であり、それにはコストがかかることを意味します。効率的なOVSの文脈において、私たちは、大規模な視覚言語基盤モデルに基づく従来のOVS研究と同等またはそれ以上の性能を、より低いトレーニングコストを伴う小さなモデルを活用して達成することを目指しています。核心となる戦略は、私たちの効率性を原理的にし、それによってさらなるカスタマイズなしに一つのOVSフレームワークから他のフレームワークへシームレスに転移可能にすることです。多様なOVSベンチマークでの包括的な実験により、セグメンテーション精度と計算コストの間の優れたトレードオフが、従来の研究を上回ることが実証されました。私たちのコードはhttps://github.com/Xujxyang/OpenTransで公開されています。