翻訳付きの日次キュレーションされたAI研究論文
本論文では、大規模言語モデル(LLM)の推論を高速化するためのエンドツーエンドソリューションであるLayerSkipを提案します。まず、トレーニング中にレイヤードロップアウトを適用し、初期層では低いドロップアウト率、後続層では高いドロップアウト率を設定します。さらに、すべてのトランスフォーマーレイヤーが同じ出口を共有する早期出口損失を導入します。次に、推論時には、このトレーニング手法が、モデルに補助的なレイヤーやモジュールを追加することなく、初期層での早期出口の精度を向上させることを示します。第三に、初期層で出口し、残りのレイヤーで検証と修正を行う新しい自己推測的デコードソリューションを提案します。提案する自己推測的デコードアプローチは、他の推測的デコードアプローチよりもメモリフットプリントが小さく、ドラフト段階と検証段階の計算とアクティベーションを共有する利点があります。Llamaモデルのさまざまなサイズで、スクラッチからの事前学習、継続的な事前学習、特定のデータドメインでのファインチューニング、特定のタスクでのファインチューニングなど、異なるタイプのトレーニングを実施しました。推論ソリューションを実装し、CNN/DMドキュメントの要約では最大2.16倍、コーディングでは1.82倍、TOPv2セマンティックパースタスクでは2.0倍の高速化を実現しました。コードとチェックポイントはhttps://github.com/facebookresearch/LayerSkipで公開しています。
本レポートでは、オープンソースのマルチモーダル大規模言語モデル(MLLM)であるInternVL 1.5を紹介し、オープンソースモデルとプロプライエタリな商用モデルの間のマルチモーダル理解能力のギャップを埋めることを目指します。以下の3つのシンプルな改善を導入しました:(1) 強力なビジョンエンコーダ:大規模ビジョンファウンデーションモデルであるInternViT-6Bに対して継続学習戦略を探求し、その視覚理解能力を向上させ、異なるLLM間での転移と再利用を可能にしました。(2) ダイナミック高解像度:入力画像のアスペクト比と解像度に応じて、画像を1から40の448×448ピクセルのタイルに分割し、最大4K解像度の入力をサポートします。(3) 高品質バイリンガルデータセット:一般的なシーンや文書画像をカバーする高品質なバイリンガルデータセットを慎重に収集し、英語と中国語の質問-回答ペアでアノテーションを行い、OCRおよび中国語関連タスクの性能を大幅に向上させました。InternVL 1.5は、一連のベンチマークと比較研究を通じて評価されました。オープンソースモデルおよびプロプライエタリモデルと比較して、InternVL 1.5は競争力のある性能を示し、18のベンチマークのうち8つで最先端の結果を達成しました。コードはhttps://github.com/OpenGVLab/InternVLで公開されています。
多くの現代的な大規模言語モデル(LLM)は長い入力を処理できるが、依然として長いコンテキスト内の情報を十分に活用するのに苦労しており、これは「lost-in-the-middle(中間での喪失)」問題として知られている。我々は、この問題が長いコンテキストのトレーニング中に十分な明示的な監督が行われず、長いコンテキスト内のどの位置にも重要な情報が含まれ得ることを強調できていないことに起因すると仮説を立てた。この直感に基づき、本研究では、lost-in-the-middleを克服するための純粋にデータ駆動型の解決策である「情報集約型(IN2)トレーニング」を提案する。具体的には、IN2トレーニングは、合成された長いコンテキスト(4K-32Kトークン)内の短いセグメント(約128トークン)に対する細かい情報認識と、2つ以上の短いセグメントからの情報の統合と推論を必要とする合成された長いコンテキストの質問応答データセットを活用する。この情報集約型トレーニングをMistral-7Bに適用し、FILM-7B(FILl-in-the-Middle)を提示する。FILM-7Bの長いコンテキストを活用する能力を徹底的に評価するため、様々なコンテキストスタイル(ドキュメント、コード、構造化データコンテキスト)と情報検索パターン(前方、後方、双方向検索)を網羅する3つのプロービングタスクを設計した。プロービング結果は、FILM-7Bが32Kのコンテキストウィンドウ内の異なる位置から情報を堅牢に検索できることを示している。これらのプロービングタスクを超えて、FILM-7Bは実世界の長いコンテキストタスク(例:NarrativeQAでのF1スコア23.5→26.9)のパフォーマンスを大幅に向上させながら、短いコンテキストタスク(例:MMLUでの精度59.3→59.2)でも同等のパフォーマンスを維持している。Githubリンク: https://github.com/microsoft/FILM。
3Dオブジェクト生成は大きな進歩を遂げ、高品質な結果を生み出しています。しかし、ユーザーの期待に沿わない結果が生じることが多く、正確なユーザー制御を実現するには至っておらず、その適用範囲が制限されています。ユーザーが思い描く3Dオブジェクト生成は、現在の生成モデルでは限られたインタラクション能力のため、その概念を実現する上で大きな課題に直面しています。既存の手法は主に2つのアプローチを提供しています:(i)制約付きの制御性でテキスト指示を解釈する方法、または(ii)2D画像から3Dオブジェクトを再構築する方法です。どちらの方法も、2D参照の範囲内でのカスタマイズに限定され、3Dリフティングプロセス中に望ましくないアーティファクトが生じる可能性があり、直接的な多様な3D修正の範囲を制限しています。本研究では、Interactive3Dという革新的なインタラクティブ3D生成フレームワークを紹介します。このフレームワークは、広範な3Dインタラクション能力を通じて、ユーザーに生成プロセスを精密に制御することを可能にします。Interactive3Dは、異なる3D表現を利用した2段階のカスケード構造で構築されています。第1段階では、Gaussian Splattingを使用して直接ユーザーインタラクションを可能にし、(i)コンポーネントの追加と削除、(ii)変形可能および剛体ドラッグ、(iii)幾何学的変換、(iv)セマンティック編集を通じて、中間ステップでの生成方向の修正とガイドを可能にします。その後、Gaussian splatsはInstantNGPに変換されます。第2段階では、新たに導入した(v)インタラクティブハッシュリファインメントモジュールを使用して、詳細を追加し、ジオメトリを抽出します。我々の実験では、Interactive3Dが3D生成の制御性と品質を著しく向上させることが示されています。プロジェクトのウェブページはhttps://interactive-3d.github.io/で公開されています。
拡散モデルに基づく技術は、特にパーソナライズされた顔生成の分野で大きな進歩を遂げてきました。しかし、既存の手法では、顔領域に対するきめ細かい制御が不十分であることや、複雑な顔の詳細と全体の顔を十分に考慮したID保存戦略が欠如していることから、高忠実度で詳細なID一貫性を実現する上で課題に直面しています。これらの制限に対処するため、我々はConsistentIDを提案します。これは、単一の参照画像を用いて、きめ細かいマルチモーダルな顔プロンプトの下で多様なID保存を実現する革新的な手法です。ConsistentIDは、顔の特徴、対応する顔の説明、および全体の顔の文脈を組み合わせて顔の詳細の精度を高めるマルチモーダル顔プロンプトジェネレータと、顔領域におけるID一貫性を維持するために顔の注意局在化戦略を通じて最適化されたID保存ネットワークの2つの主要コンポーネントで構成されています。これらのコンポーネントは、顔領域からのきめ細かいマルチモーダルなID情報を導入することで、ID保存の精度を大幅に向上させます。ConsistentIDのトレーニングを容易にするため、我々は50万枚以上の顔画像を含むきめ細かいポートレートデータセットFGIDを提供します。これは、既存の公開顔データセットよりも多様性と包括性に優れています。実験結果は、我々のConsistentIDがMyStyleデータセットにおいて、既存の手法を凌ぐ精度と多様性を実現し、パーソナライズされた顔生成において卓越した性能を発揮することを実証しています。さらに、ConsistentIDはより多くのマルチモーダルなID情報を導入しながらも、生成時の高速な推論速度を維持しています。
大規模言語モデル(LLMs)は、言語理解と生成において深い能力を示し、多様なアプリケーションを促進してきました。しかし、50億パラメータを超えるLLMsを効率的にスケーリングするための詳細でオープンソースの方法論は、試行錯誤のコストと計算リソースを最小限に抑える観点から、顕著に不足しています。本報告では、Tele-FLM(別名FLM-2)を紹介します。これは52Bのオープンソース多言語大規模言語モデルで、安定かつ効率的な事前学習パラダイムと強化された事実判断能力を特徴としています。Tele-FLMは、テキストコーパスにおけるBPBで測定される優れた多言語言語モデリング能力を示しています。さらに、英語と中国語の基盤モデル評価においても、Llama2-70BやDeepSeek-67Bなど、より大規模な事前学習FLOPsを伴う強力なオープンソースモデルに匹敵する性能を発揮します。モデルウェイトに加えて、コアデザイン、エンジニアリングプラクティス、およびトレーニングの詳細を共有し、これが学術界と産業界の両方に利益をもたらすことを期待しています。
Set-of-Mark (SoM) Promptingは、GPT-4Vの視覚的基盤能力を解放し、モデルが画像に挿入されたタグと視覚的オブジェクトを関連付けられるようにします。これらのタグは英数字でマークされ、テキストトークンを通じて簡単に参照できます。GPT-4Vの驚異的な性能にもかかわらず、他のマルチモーダル大規模言語モデル(MLLM)はこれらの視覚タグを理解するのに苦労することが観察されます。オープンソースモデルにおけるSoM Promptingの学習を促進するため、新しい学習パラダイム「list items one by one」を提案します。これは、モデルに画像に配置されたすべての視覚タグを英数字順に列挙し、説明するよう求めるものです。私たちが作成したデータセットを他の視覚指示チューニングデータセットと統合することで、既存のMLLMにSoM Prompting能力を付与することが可能です。さらに、ファインチューニングされたSoMモデルを5つのMLLMベンチマークで評価しました。この新しいデータセットは、比較的小さなサイズ(10k-30kのタグ付き画像)であっても、視覚的推論能力を大幅に向上させ、MLLMの幻覚を減少させることがわかりました。驚くべきことに、これらの改善は、推論時に視覚タグが入力画像から省略された場合でも持続します。これは、「list items one by one」が、トレーニング段階で視覚タグを使用することでオブジェクトとテキストの整合性を強化する、MLLMの新しいトレーニングパラダイムとしての可能性を示唆しています。最後に、トレーニングされたモデルをプローブしてSoMの動作メカニズムを理解するための分析を行います。私たちのコードとデータはhttps://github.com/zzxslp/SoM-LLaVAで公開されています。
テキストから画像(T2I)生成モデルは広く普及しているものの、与えられたプロンプトに必ずしも整合した画像を生成するわけではありません。これまでの研究では、T2Iの整合性を評価するために、メトリクス、ベンチマーク、および人間の判断を収集するためのテンプレートを提案してきましたが、これらの構成要素の品質は体系的に測定されていません。人間による評価が行われたプロンプトセットは一般的に小さく、評価の信頼性――ひいてはモデルを比較するために使用されるプロンプトセットの信頼性――は評価されていません。このギャップを埋めるために、自動評価メトリクスと人間のテンプレートを評価する広範な研究を行いました。私たちは以下の3つの主要な貢献を提供します:(1)異なる人間のテンプレートにわたってモデルを識別できる包括的なスキルベースのベンチマークを導入します。このスキルベースのベンチマークは、プロンプトをサブスキルに分類し、どのスキルが難しいかだけでなく、どのレベルの複雑さでスキルが難しくなるかを特定できるようにします。(2)4つのテンプレートと4つのT2Iモデルにわたって、合計10万件以上のアノテーションを収集しました。これにより、プロンプトの内在的な曖昧性による違いと、メトリクスやモデルの品質の違いによる違いを理解することができます。(3)最後に、新しいQAベースの自動評価メトリクスを導入します。このメトリクスは、新しいデータセット、異なる人間のテンプレート、およびTIFA160において、既存のメトリクスよりも人間の評価と高い相関を示します。
本論文では、NeRF-XLを提案する。これは、Neural Radiance Fields(NeRF)を複数のGPUに分散させるための原理に基づいた手法であり、任意の大規模な容量を持つNeRFの学習とレンダリングを可能にする。まず、既存のマルチGPUアプローチを再検討し、大規模シーンを複数の独立して学習されたNeRFに分解する方法を考察する。これらの手法には、追加の計算リソース(GPU)を使用しても再構成品質の向上が妨げられる根本的な問題があることを指摘する。NeRF-XLはこれらの問題を解決し、より多くのハードウェアを使用することで、任意の数のパラメータを持つNeRFの学習とレンダリングを可能にする。本手法の核心は、古典的な単一GPUの場合と数学的に等価であり、GPU間の通信を最小化する新しい分散学習とレンダリングの定式化にある。任意の大規模なパラメータ数を備えたNeRFを実現することで、本アプローチは初めてNeRFのマルチGPUスケーリング則を明らかにし、より大きなパラメータ数による再構成品質の向上と、より多くのGPUによる速度向上を示す。NeRF-XLの有効性を、これまでで最大のオープンソースデータセットであるMatrixCityを含む多様なデータセットで実証する。MatrixCityは25km^2の都市エリアをカバーする258Kの画像を含む。
テキストが豊富な視覚コンテンツを理解することは、マルチモーダル大規模言語モデル(MLLM)の実用的な応用において極めて重要です。なぜなら、テキストが豊富なシナリオは現実世界で広く見られ、画像に埋め込まれた大量のテキストが特徴となっているからです。最近、驚くべき汎用性を持つMLLMの登場により、MLLMに期待される水準が引き上げられました。しかし、テキストが豊富なシナリオにおけるMLLMの能力は、現行のMLLMベンチマークが主に一般的な視覚理解の評価に焦点を当てているため、包括的かつ客観的に評価されていません。本研究では、MLLMのテキストが豊富な視覚理解を評価するために特別に設計されたベンチマーク「SEED-Bench-2-Plus」を紹介します。このベンチマークは、正確な人間のアノテーションを伴う2.3Kの多肢選択問題で構成され、チャート、地図、ウェブの3つの広範なカテゴリにまたがっています。各カテゴリは、その固有の複雑さと多様性により、現実世界のテキストが豊富な環境を効果的にシミュレートします。さらに、GPT-4V、Gemini-Pro-Vision、Claude-3-Opusを含む34の主要なMLLMを対象に徹底的な評価を行い、テキストが豊富な視覚理解におけるMLLMの現状の限界を強調します。本研究が既存のMLLMベンチマークに貴重な追加情報を提供し、テキストが豊富な視覚理解の分野におけるさらなる研究にインスピレーションを与えることを願っています。データセットと評価コードはhttps://github.com/AILab-CVC/SEED-Benchでアクセス可能です。