翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)はさまざまなタスクで印象的な能力を発揮するものの、複雑な推論や計画を必要とするシナリオでは依然として苦戦している。最近の研究では、LLMの推論能力を向上させるために、高度なプロンプト技術の提案や高品質なデータを用いたファインチューニングの必要性が指摘されている。しかし、これらのアプローチは本質的にデータの可用性と品質に制約される。このような状況において、自己修正と自己学習が有効な解決策として浮上しており、LLMが自身の出力を洗練し、自己評価による報酬から学習する戦略が採用されている。ただし、特に複雑な推論や計画タスクにおいて、LLMが自己修正を行う効果については疑問が残る。本論文では、LLMの自己改善を目的としたAlphaLLMを紹介する。AlphaLLMはモンテカルロ木探索(MCTS)をLLMと統合し、追加のアノテーションなしでLLMの能力を向上させる自己改善ループを確立する。AlphaGoの成功に着想を得たAlphaLLMは、MCTSとLLMを組み合わせた自己改善における特有の課題、すなわちデータ不足、言語タスクの広大な探索空間、言語タスクにおけるフィードバックの主観性に対処する。AlphaLLMは、プロンプト合成コンポーネント、言語タスクに特化した効率的なMCTSアプローチ、および正確なフィードバックを提供する3つの批評モデルで構成されている。数学的推論タスクにおける実験結果は、AlphaLLMが追加のアノテーションなしでLLMの性能を大幅に向上させることを示しており、LLMの自己改善の可能性を明らかにしている。
テキストアニメーションは表現力豊かなメディアとして、静的なコミュニケーションを動的な体験へと変容させ、言葉に動きを加えることで感情を喚起し、意味を強調し、魅力的な物語を構築します。意味論的に意識されたアニメーションを制作することは、グラフィックデザインとアニメーションの専門知識を要する重要な課題です。本論文では、「ダイナミックタイポグラフィ」と称する自動化されたテキストアニメーション手法を提案します。この手法は、2つの挑戦的なタスクを組み合わせています。文字を変形させて意味を伝えることと、ユーザーのプロンプトに基づいてそれらに活気ある動きを加えることです。私たちの技術は、ベクターグラフィックス表現とエンドツーエンドの最適化ベースのフレームワークを活用しています。このフレームワークは、ニューラル変位フィールドを用いて文字を基本形状に変換し、フレームごとの動きを適用することで、意図されたテキストの概念との一貫性を促進します。アニメーションプロセス全体を通じて可読性と構造的整合性を維持するために、形状保存技術と知覚的損失正則化が採用されています。私たちは、様々なテキストツービデオモデルにわたるアプローチの汎用性を示し、個別のタスクで構成される可能性のあるベースライン手法に対するエンドツーエンド手法の優位性を強調します。定量的および定性的な評価を通じて、ユーザーのプロンプトを忠実に解釈しつつ可読性を維持する一貫したテキストアニメーションを生成するフレームワークの有効性を実証します。私たちのコードは、https://animate-your-word.github.io/demo/ で公開されています。
本研究では、MeshLRMという新しいLRMベースのアプローチを提案する。この手法は、わずか4枚の入力画像から1秒未満で高品質なメッシュを再構築することができる。従来のNeRFベースの再構築に焦点を当てた大規模再構築モデル(LRM)とは異なり、MeshLRMはLRMフレームワーク内で微分可能なメッシュ抽出とレンダリングを組み込んでいる。これにより、事前学習済みのNeRF LRMをメッシュレンダリングで微調整することで、エンドツーエンドのメッシュ再構築が可能となる。さらに、従来のLRMにおける複雑な設計を簡素化することで、LRMアーキテクチャを改善した。MeshLRMのNeRF初期化は、低解像度と高解像度の画像を順次学習することで行われる。この新しいLRM学習戦略により、大幅に高速な収束が可能となり、より少ない計算量でより高い品質を実現する。本手法は、スパースビュー入力からのメッシュ再構築において最先端の性能を達成し、テキストから3Dや単一画像から3D生成など、多くの下流アプリケーションにも対応する。プロジェクトページ:https://sarahweiii.github.io/meshlrm/
テキストから画像を生成するためのStable Diffusion(SD)の集中的な計算負荷は、その実用的な応用において大きな障壁となっている。この課題に対処するため、最近の研究では、Latent Consistency Model(LCM)のようなサンプリングステップを削減する手法や、プルーニングや知識蒸留を含むアーキテクチャ最適化に焦点が当てられている。既存のアプローチとは異なり、我々はコンパクトなSDバリアントであるBK-SDMを出発点として独自に取り組む。一般的に使用されるクロールデータセットを用いてLCMをBK-SDMに直接適用すると、満足のいく結果が得られないことを観察した。これにより、我々は二つの戦略を開発した:(1)主要な生成モデルから得られる高品質な画像-テキストペアを活用すること、(2)LCMに特化した高度な蒸留プロセスを設計することである。量子化、プロファイリング、およびオンデバイス展開の徹底的な探求を通じて、リソースが限られたエッジデバイス上で、わずか2ステップでフォトリアルなテキスト整合画像を1秒未満の遅延で迅速に生成することに成功した。
大規模言語モデル(LLM)が長文生成に広く活用される中で、効率的な長シーケンス推論サポートに対する需要が高まっています。しかし、再計算を避けるために保存されるキー・バリュー(KV)キャッシュは、シーケンス長に比例してサイズが増大し、重要なボトルネックとなっています。LLMの自己回帰的な性質により、生成されるトークンごとにKVキャッシュ全体がロードされるため、計算コアの利用率が低く、レイテンシが高くなります。KVキャッシュの圧縮手法がいくつか提案されていますが、生成品質の低下が問題となっています。本論文では、長シーケンス生成にスケーラブルな階層的推測デコードシステム「TriForce」を紹介します。このアプローチでは、元のモデルの重みと、検索による動的スパースKVキャッシュをドラフトモデルとして活用し、階層の中間層として機能させます。さらに、より小さなモデルによる推測を行い、ドラフトのレイテンシを削減します。TriForceは、Llama2-7B-128KにおいてA100 GPU上で最大2.31倍の高速化を実現するだけでなく、さらに長いコンテキストの処理においてもスケーラビリティを発揮します。2台のRTX 4090 GPUを用いたオフロード設定では、TriForceは0.108秒/トークンを達成し、A100上の自己回帰ベースラインの半分の速度であり、最適化されたオフロードシステムでは7.78倍の性能を発揮します。また、単一のRTX 4090 GPU上では、DeepSpeed-Zero-Inferenceよりも4.86倍高速です。TriForceの堅牢性は、様々な温度設定において一貫して優れた性能を発揮することで示されています。コードはhttps://github.com/Infini-AI-Lab/TriForceで公開されています。
人間が注釈を付けた選好データに基づいて言語モデル(LM)を調整することは、実用的で高性能なLMベースのシステムを構築する上で重要なステップです。しかし、多言語の人間選好データを大規模に取得することは困難であり、このフレームワークを多様な言語に拡張することを難しくしています。本研究では、ゼロショットのクロスリンガル調整に対するシンプルなアプローチを評価します。具体的には、あるソース言語の選好データで報酬モデルを訓練し、それを他のターゲット言語に直接適用する方法です。要約タスクとオープンエンド対話生成タスクにおいて、この方法が包括的な評価設定(人間評価を含む)の下で一貫して成功することを示します。クロスリンガルに調整されたモデルは、調整されていないモデルよりも最大70%以上の評価事例で人間に選好されました。さらに、異なる言語の報酬モデルが、同じ言語の報酬モデルよりも、より良い調整モデルを生み出す場合があることも発見しました。また、調整の別の要素である教師ありファインチューニングのための言語固有のデータが全くない場合のベストプラクティスも特定しました。
テキストから画像への拡散モデルのパーソナライゼーションのための新しいアーキテクチャを紹介する。これはMixture-of-Attention(MoA)と名付けられた。大規模言語モデル(LLMs)で用いられるMixture-of-Expertsメカニズムに着想を得たMoAは、生成作業を2つの注意経路、すなわちパーソナライズされたブランチと非パーソナライズされた事前ブランチの間で分散する。MoAは、事前ブランチの注意層を固定することで元のモデルの事前分布を保持しつつ、事前ブランチによって生成されたレイアウトとコンテキストに被写体を埋め込むことを学習するパーソナライズされたブランチで生成プロセスに最小限の介入を行うように設計されている。新しいルーティングメカニズムは、各層のピクセルをこれらのブランチ間で分配し、パーソナライズされたコンテンツと汎用的なコンテンツの作成の最適なブレンドを実現する。一度訓練されると、MoAは、元のモデルによって生成されるものと同様に多様な構成と相互作用を持つ複数の被写体を特徴とする高品質なパーソナライズされた画像の作成を容易にする。重要なことに、MoAは、モデルの既存の能力と新たに拡張されたパーソナライズされた介入との区別を強化し、これまで達成できなかった被写体とコンテキストのより分離された制御を提供する。プロジェクトページ:https://snap-research.github.io/mixture-of-attention
本論文では、MLCommons AI Safetyワーキンググループによって作成されたAI Safety Benchmarkのv0.5を紹介する。AI Safety Benchmarkは、チャット用に調整された言語モデルを使用するAIシステムの安全性リスクを評価するために設計されている。v0.5では、単一のユースケース(英語での汎用アシスタントとの成人のチャット)と限られたペルソナ(典型的なユーザー、悪意のあるユーザー、脆弱なユーザー)のみをカバーする。新たに13のハザードカテゴリーの分類体系を作成し、そのうち7つがv0.5ベンチマークにテストとして含まれている。2024年末までにAI Safety Benchmarkのバージョン1.0をリリースする予定であり、v1.0ベンチマークはAIシステムの安全性に関する有意義な洞察を提供する。ただし、v0.5ベンチマークはAIシステムの安全性を評価するために使用すべきではない。v0.5の制限、欠点、課題を完全に文書化するよう努めた。このv0.5リリースには、(1) ユースケース、テスト対象システム(SUT)の種類、言語とコンテキスト、ペルソナ、テスト、テスト項目を含むベンチマークの指定と構築の原則的アプローチ、(2) 定義とサブカテゴリーを含む13のハザードカテゴリーの分類体系、(3) 各ハザードカテゴリーに対するテスト(プロンプトの一意のセットで構成される)、合計43,090のテスト項目(テンプレートを使用して作成)、(4) ベンチマークに対するAIシステムの評価システム、(5) ベンチマーク上でAIシステムの安全性を評価するために使用できる公開プラットフォームおよびダウンロード可能なツール「ModelBench」、(6) 公開されている十数以上のチャット用言語モデルの性能をベンチマークした評価レポートの例、(7) ベンチマークのテスト仕様が含まれている。