翻訳付きの日次キュレーションされたAI研究論文
本論文では、卓越した1ステップのテキストから画像への拡散モデルであるSwiftBrushの性能を向上させ、複数ステップの安定拡散モデルであるStable Diffusionと競争力を持たせることを目指します。最初に、SwiftBrushとSD Turboの間の品質と多様性のトレードオフを探求します。前者は画像の多様性に優れており、後者は画像の品質に優れています。この観察から、より良い重みの初期化や効率的なLoRAトレーニングを含むトレーニング方法論の改良を提案します。さらに、新しいクランプ付きCLIP損失の導入により、画像とテキストの整合性が向上し、画像の品質が向上します。驚くべきことに、効率的なLoRAと完全なトレーニングでトレーニングされたモデルの重みを組み合わせることで、新しい最先端の1ステップ拡散モデルを実現し、FID値が8.14となり、すべてのGANベースおよび複数ステップの安定拡散モデルを上回ります。評価コードは以下で入手可能です:https://github.com/vinairesearch/swiftbrushv2.
近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル(FMs)が音楽を含むさまざまな分野に大きな影響を与えています。この包括的なレビューでは、音楽における最先端の事前学習モデルと基盤モデルに焦点を当て、表現学習、生成学習、および多様な学習にわたる音楽の状況を調査します。まず、音楽の産業への重要性を文脈に沿って位置付け、音楽におけるAIの進化を追跡します。基盤モデルが対象とするモダリティを明確にすることで、音楽表現の多くがFMの開発において未開拓であることが明らかになります。その後、以前の手法の多様な音楽アプリケーションにおける汎用性の不足と、音楽理解、生成、医療応用におけるFMの潜在能力に焦点を当てます。モデルの事前学習パラダイム、アーキテクチャの選択、トークン化、ファインチューニング手法、および制御可能性の詳細を包括的に探求することで、指導チューニングやインコンテキスト学習、スケーリング法則と新興能力、長シーケンスモデリングなど、よく探求されるべき重要なトピックを強調します。音楽エージェントに関する洞察を提示し、事前学習およびダウンストリームタスクに不可欠なデータセットと評価の徹底的な分析を伴います。最後に、倫理的考慮の重要性を強調し、音楽におけるFMの研究は解釈可能性、透明性、人間の責任、著作権問題などの問題に焦点を当てるべきであると主張します。本論文は、音楽におけるFMの将来の課題やトレンドに関する洞察を提供し、音楽領域における人間とAIの協力の軌道を形作ることを目指しています。
GitHubの課題解決はソフトウェアエンジニアリングにおける重要なタスクであり、最近では産業界と学術界の両方で注目を集めています。このタスクにおいて、SWE-benchは大規模言語モデル(LLMs)の課題解決能力を評価するためにリリースされましたが、これまでPythonバージョンに焦点を当ててきました。しかしながら、他のプログラミング言語のサポートも重要であり、産業界に強い需要があります。多言語サポートに向けた第一歩として、私たちはSWE-benchのJavaバージョンであるSWE-bench-javaを開発しました。私たちはデータセットを公開し、それに対応するDockerベースの評価環境とリーダーボードも公開しました。これらは今後も継続的にメンテナンスおよび更新されます。SWE-bench-javaの信頼性を検証するために、古典的な手法であるSWE-agentを実装し、いくつかの強力なLLMsをテストしました。高品質な多言語ベンチマークを開発することは時間と労力がかかることがよく知られていますので、私たちはプルリクエストやコラボレーションを通じて貢献を歓迎し、その繰り返しと改善を加速させ、完全に自動化されたプログラミングへの道を開いていきます。
視覚生成モデルの急速な進歩には、効率的かつ信頼性の高い評価方法が必要とされます。ユーザーの投票によるモデル比較を集めるArenaプラットフォームは、人間の選好に基づいてモデルをランク付けすることができます。しかし、従来のArena手法は確立されていますが、ランキングの収束には過剰な比較が必要であり、投票における選好ノイズに脆弱であるため、現代の評価課題に適したより良いアプローチが必要とされています。本論文では、K-Sort Arenaを紹介し、効率的かつ信頼性の高いプラットフォームを提供します。その鍵となる洞察に基づいて、画像や動画はテキストよりも知覚的直感性が高く、複数のサンプルを迅速に評価できるという点です。そのため、K-Sort ArenaはK個のモデルが自由に競争するK-wise比較を採用し、ペアワイズ比較よりもはるかに豊富な情報を提供します。システムの堅牢性を向上させるために、確率モデリングとベイズ更新技術を活用しています。より情報豊かな比較を促進するために、探索と活用に基づくマッチメイキング戦略を提案しています。実験では、K-Sort Arenaは広く使用されているELOアルゴリズムと比較して16.3倍速く収束することが示されています。さらに優位性を検証し、包括的なリーダーボードを取得するために、最先端のテキストから画像へ、テキストから動画へのモデルの数々をクラウドソーシングされた評価を通じて収集しています。高い効率性により、K-Sort Arenaは新興モデルを継続的に取り込み、最小限の投票でリーダーボードを更新することができます。当プロジェクトは数か月にわたる内部テストを経ており、現在はhttps://huggingface.co/spaces/ksort/K-Sort-Arena で利用可能です。
クラウドベースの独自の大規模言語モデル(LLM)の広範な採用は、運用依存性、プライバシー懸念、および連続的なインターネット接続の必要性など、重要な課題を導入しました。本研究では、サービス指向のLLMからより小さな、ローカルで管理しやすいモデルへの知識と能力のシームレスな移行を可能にするLLMOpsパイプライン、「LlamaDuo」を紹介します。このパイプラインは、運用上の障害、厳格なプライバシーポリシー、またはオフライン要件の存在下でのサービスの継続性を確保するために重要です。当社のLlamaDuoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整することを含みます。微調整されたモデルのパフォーマンスが期待に達しない場合、サービスLLMによって作成された追加の類似データを使用してさらに微調整されます。この反復プロセスにより、より小さなモデルが最終的に特定の下流タスクでサービスLLMの能力に追いつくか、さらにはそれを上回ることが保証され、制約のある環境でのAI展開の管理に対する実用的でスケーラブルなソリューションが提供されます。主要な先端LLMを用いた包括的な実験が行われ、LlamaDuoの効果的、適応可能、手頃な価格での各種下流タスクにおける有効性が示されます。当社のパイプラインの実装は、https://github.com/deep-diver/llamaduo で入手可能です。
言語モデルの事前学習に最適な学習率を見つけることは困難な課題です。これは、学習率、バッチサイズ、トレーニングトークンの数、モデルサイズ、および他のハイパーパラメータとの複雑な相関があるだけでなく、数十億または数兆のパラメータを持つ大規模な言語モデルに対してハイパーパラメータ検索を行うのは莫大なコストがかかるためです。最近の研究では、小さなプロキシモデルと小さなコーパスを使用してハイパーパラメータ検索を行い、最適なパラメータを大規模なモデルと大規模なコーパスに移行させることが提案されています。モデルサイズに関連する深さや幅などのハイパーパラメータに関しては、ゼロショット転送性が理論的にも実証的にも証明されていますが、小規模コーパスから大規模コーパスへのゼロショット転送は未開拓の領域です。本論文では、最近提案されたWSDスケジューラの最適な学習率、バッチサイズ、およびトレーニングトークン数との相関を研究します。数千回の小規模な実験の結果、変数間にべき乗則の関係があり、その転送可能性をモデルサイズを超えて実証しました。この観察に基づき、トレーニングトークン数やバッチサイズに関係なく動作する新しい学習率スケジューラであるPowerスケジューラを提案します。実験では、Powerスケジューラを最大更新パラメータ化(muP)と組み合わせることで、トレーニングトークンの数、バッチサイズ、モデルサイズ、さらにはモデルアーキテクチャに関係なく、一連のハイパーパラメータで印象的なパフォーマンスを一貫して達成できることを示しました。Powerスケジューラでトレーニングされた3BのdenseモデルとMoEモデルは、最先端の小規模言語モデルと同等のパフォーマンスを達成します。これらの事前学習済みモデルは、https://ibm.biz/BdKhLa でオープンソース化されています。
マルチプレイヤーのファーストパーソン・シューティングゲーム、例えばCounter-Strike: Global Offensive(CS:GO)において、連携した動きは高度な戦略プレイにおいて重要な要素です。しかしながら、人気のあるゲームマップに存在する多様な条件とチームの連携の複雑さから、あらゆるシナリオに手作りの動きポリシーを作成することは非現実的です。私たちは、CS:GO向けに人間らしい動きコントローラーを作成するためにデータ駆動アプローチを取ることが可能であることを示します。プロのゲームプレイトレース123時間からなるチーム動きデータセットを収集し、このデータセットを使用して、"Retakes"ラウンドにおいて全プレイヤーに人間らしいチーム動きを生成するためのトランスフォーマーベースの動きモデルを訓練します。重要なのは、動き予測モデルが効率的であることです。全プレイヤーに対する推論は、1ゲームステップあたり0.5ミリ秒未満(総コスト)で単一CPUコアで実行され、現在の商用ゲームでの使用が可能であると考えられます。人間の評価者は、私たちのモデルが商用ボットや専門家によってスクリプト化された手続き型動きコントローラー(TrueSkill評価による"人間らしい"の16%から59%高い)よりも人間らしい振る舞いをすると評価しています。ゲーム内ボット同士の自己対戦を含む実験を通じて、私たちのモデルが単純なチームワークを行い、一般的な動きミスが少なく、プロのCS:GOマッチプレイで観察されるものと類似した動き分布、プレイヤーの寿命、そしてキルの位置を生み出すことを示します。
ビデオ生成モデルは、映画製作などの分野で大きな潜在能力を持っています。しかしながら、現在のビデオ拡散モデルは、ビデオ生成タスクの高い複雑さに起因して高い計算コストがかかり、最適でない結果を生み出しています。本論文では、ConFinerという効率的で高品質なビデオ生成フレームワークを提案します。このフレームワークは、ビデオ生成をより簡単なサブタスクに分解する構造制御と空間-時間の洗練に分けます。それは、オフザシェルフの拡散モデル専門家の連鎖によって高品質のビデオを生成することができ、各専門家が分解されたサブタスクに責任を持ちます。洗練の過程で、複数の拡散専門家の能力を1つのサンプリングに統合できる協調ノイズ除去を導入します。さらに、ConFinerに3つの制約戦略を組み込んだConFiner-Longフレームワークを設計します。実験結果は、推論コストのわずか10%で、当社のConFinerがLavieやModelscopeなどの代表的なモデルをすべての客観的および主観的指標で上回ることを示しています。そして、ConFiner-Longは最大600フレームまでの高品質で一貫したビデオを生成できます。
過去1年間で、多様なモダリティを持つ大規模言語モデル(MM-LLMs)は著しい進歩を遂げ、さまざまなタスクで印象的なパフォーマンスを示してきました。しかしながら、AIの民主化を実現するためには、モデルが強力な能力を発揮し、ほとんどの人がアクセスできる小規模な計算リソース上で効率的に実行できる必要があります。この探求の一環として、私たちは、画像+テキストの入力を受け入れ、一貫したテキスト応答を生成することができる初の三値多様なモダリティ言語モデルであるLLaVaOLMoBitnet1Bを紹介します。このモデルは完全にオープンソース化されており、トレーニングスクリプトも提供されており、この分野でのさらなる研究を促進することを目的としています。本技術レポートでは、トレーニングプロセス、評価の詳細、三値モデルに関連する課題、および将来の機会について取り上げています。モデルへのリンク:https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
大規模言語モデル(LLM)の利用増加により、数万のGPUが常に数億人のユーザーにサービスを提供する地球規模のサービングシステムへの需要が急増しています。その結果、合理的なレイテンシ制約下でのスループットが、サービングシステムのパフォーマンスを決定する主要な指標として浮上しています。スループットを向上させるために、データ、テンソル、パイプラインなどのデバイス間並列処理のさまざまな手法が探求されてきました。しかしながら、既存の手法は単一デバイス内の異なるリソースの利用の重複を考慮しておらず、リソースの未使用やサブ最適なパフォーマンスを引き起こしています。 当研究では、NanoFlowという新しいサービングフレームワークを提案します。NanoFlowは、オペレーションの同時スケジューリングを通じて、単一デバイス内で計算、メモリ、ネットワークなどのリソースの利用を重複させる、デバイス内並列処理を活用します。デバイス内並列処理を活用するために、NanoFlowは2つの主要な革新を導入しています。まず、NanoFlowはリクエストをオペレーションの単位でナノバッチに分割し、LLM推論における連続オペレーションの依存関係を解消し、重複を可能にします。そして、重複を活用するために、NanoFlowは実行ユニットのスケジューリングを備えたオペレーションレベルのパイプラインを使用し、デバイスの機能ユニットをパーティション化し、各ユニットで異なるオペレーションを同時に実行します。NanoFlowは、パラメータ検索アルゴリズムを使用してパイプラインのセットアップを自動化し、異なるモデルにNanoFlowを簡単に移植できるようにしています。私たちは、NanoFlowをNVIDIA GPU上で実装し、LLaMA-2-70B、Mixtral 8x7B、LLaMA-3-8Bなどのいくつかの人気モデルでエンドツーエンドのサービングスループットを評価しました。実用的なワークロードにおいて、NanoFlowは、最先端のサービングシステムと比較して1.91倍のスループット向上を提供し、ポートされたモデル全体で最適スループットの59%から72%を達成しています。
大規模言語モデル(LLMs)は言語処理を革新し、複数のアプリケーションで優れた結果を提供しています。ただし、LLMsをエッジデバイスに展開することは、メモリ、エネルギー、および計算コストに関するいくつかの課題を抱えており、これがモバイル電話などのデバイスでの広範な使用を制限しています。有望な解決策は、重みと活性化を表現するために使用されるビット数を削減することです。既存の研究では、LLMsを4ビットの重みなどの低ビット幅に量子化することで一部成功を収めていますが、16ビットを超える活性化を量子化すると、デバイス上の量子化サポートの不備やかなりの精度低下により、大きな計算オーバーヘッドが発生することがしばしばあります。しかし、8ビットの活性化は、モバイルフレンドリーなハードウェア(例:ニューラルプロセッシングユニット(NPU))を十分に活用できるため、デバイス上での展開に非常に魅力的です。本研究では、整数のみを用いた量子化を用いてLLMsのデバイス上展開を促進する初の試みを行います。まず、既存の量子化手法の制限を調査し、特に活性化の量子化に焦点を当てます。その後、MobileQuantという簡単な事後トレーニング量子化手法を導入することで、これらの制限に対処します。MobileQuantは、重み変換と活性化範囲パラメータを共同で最適化することにより、従来の重み等価変換手法を拡張し、エンドツーエンドで優れた能力を示します。MobileQuantは、広範なLLMベンチマークでほぼ損失のない量子化を達成し、現在のデバイス上の量子化戦略と比較して、レイテンシとエネルギー消費を20\%〜50\%削減し、限られた計算予算で動作し、NPUなどのモバイルフレンドリーな計算ユニットと互換性があります。
トランジションビデオはメディア制作において重要な役割を果たし、視覚的な物語の流れと一貫性を向上させます。モーフィングなどの従来の方法はしばしば芸術的魅力に欠け、専門的なスキルが必要であり、その効果が制限されています。最近の拡散モデルベースのビデオ生成の進歩により、新たなトランジションの作成の可能性が提供されていますが、フレーム間の関係モデリングの不備や急激なコンテンツの変化などの課題に直面しています。私たちは、追加のトレーニングを必要とせずこれらの制限を解決する新しいトランジションビデオ生成(TVG)手法を提案します。当社の手法は、ビデオレベルの拡散モデルを使用し、潜在表現をモデル化するためにガウス過程回帰(GPR)を活用し、フレーム間のスムーズでダイナミックなトランジションを確保します。さらに、補間ベースの条件制御と周波数感知双方向融合(FBiF)アーキテクチャを導入して、時間的な制御とトランジションの信頼性を向上させます。ベンチマークデータセットとカスタム画像ペアの評価により、当社の手法が高品質でスムーズなトランジションビデオを生成する効果を示しました。コードは https://sobeymil.github.io/tvg.com で提供されています。
ChatGPTやGeminiなどの大規模言語モデル(LLMs)は、自然言語処理を大幅に進化させ、チャットボットや自動コンテンツ生成などのさまざまなアプリケーションを可能にしました。ただし、これらのモデルは有害または倫理に反する応答を引き出すために有毒なプロンプトを作成する悪意のある個人によって悪用される可能性があります。これらの個人はしばしばセーフティメカニズムをバイパスするためにジェイルブレイキング技術を使用し、頑健な有毒プロンプト検出方法の必要性を浮き彫りにしています。既存の検出技術(ブラックボックスおよびホワイトボックスの両方)は、有毒なプロンプトの多様性、スケーラビリティ、および計算効率に関連する課題に直面しています。このため、我々は、LLMs内で有毒なプロンプトを効率的に検出するために設計された軽量なグレイボックス手法であるToxicDetectorを提案します。ToxicDetectorは、LLMsを活用して有毒な概念プロンプトを作成し、埋め込みベクトルを使用して特徴ベクトルを形成し、プロンプト分類のためにMulti-Layer Perceptron(MLP)分類器を使用します。LLamaモデルのさまざまなバージョン、Gemma-2、および複数のデータセットでの評価により、ToxicDetectorは96.39\%の高い精度と2.00\%の低い偽陽性率を達成し、最先端の手法を凌駕しています。さらに、ToxicDetectorのプロンプトあたりの処理時間は0.0780秒であり、リアルタイムアプリケーションに非常に適しています。ToxicDetectorは高い精度、効率性、およびスケーラビリティを実現し、LLMs内での有毒プロンプト検出のための実用的な手法となっています。
単一画像の人物再構築に関する既存の研究は、訓練データの不足や3Dの不整合により一般化能力が弱いという課題があります。本論文では、単一の参照画像から高品質な新しい視点画像を生成するために設計された人物専用のマルチビュー拡散モデルであるMagicManを紹介します。このモデルの中核として、一般化能力を向上させるために事前に訓練された2D拡散モデルを生成事前知識とし、3Dボディ事前知識としてパラメトリックなSMPL-Xモデルを活用して3D認識を促進します。改善された3D人物再構築のために密なマルチビュー生成を実現しつつ一貫性を維持するという重要な課題に取り組むために、まず異なる視点間で効率的かつ徹底した情報のやり取りを促進するためにハイブリッドマルチビューアテンションを導入します。さらに、RGBおよび法線領域で同時に生成を行うジオメトリに敏感なデュアルブランチを提案し、ジオメトリの手掛かりを介して一貫性をさらに向上させます。また、参照画像と一致しない不正確なSMPL-X推定から生じる不適切な形状の問題に対処するために、進化的なリファイン戦略を提案し、SMPL-Xの精度を逐次最適化しながら生成されたマルチビューの品質と一貫性を向上させます。幅広い実験結果は、当社の手法が新しい視点合成および続く3D人物再構築タスクの両方で既存の手法を大幅に上回ることを示しています。