翻訳付きの日次キュレーションされたAI研究論文
大規模なコンテキストウィンドウは、大規模言語モデル(LLM)において望ましい特徴である。しかし、高額なファインチューニングコスト、長文テキストの不足、および新しいトークン位置によって導入される破滅的な値のため、現在の拡張コンテキストウィンドウは約128kトークンに制限されている。本論文では、初めて事前学習済みLLMのコンテキストウィンドウを2048kトークンに拡張するLongRoPEを紹介する。これは、256kのトレーニング長において最大1kのファインチューニングステップのみで達成され、元の短いコンテキストウィンドウでの性能を維持する。これは、以下の3つの主要な革新によって実現されている:(i)効率的な探索を通じて位置補間における2つの不均一性を特定し、活用することで、ファインチューニングのためのより良い初期化を提供し、非ファインチューニングシナリオでの8倍の拡張を可能にする;(ii)256k長のLLMを最初にファインチューニングし、その後ファインチューニングされた拡張LLMに対して2回目の位置補間を行い、2048kのコンテキストウィンドウを達成する漸進的拡張戦略を導入する;(iii)8k長でLongRoPEを再調整し、短いコンテキストウィンドウの性能を回復する。LLaMA2とMistralを用いた様々なタスクでの広範な実験により、本手法の有効性が実証されている。LongRoPEによって拡張されたモデルは、位置埋め込みにわずかな変更を加えるだけで元のアーキテクチャを保持し、既存の最適化の大部分を再利用できる。
今日の深層学習手法は、モデルの予測結果が真値に最も近づくように、最も適切な目的関数を設計することに焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。既存の手法は、入力データが層ごとの特徴抽出と空間変換を経る際に、大量の情報が失われるという事実を無視しています。本論文では、データが深層ネットワークを通過する際の情報損失、すなわち情報ボトルネックと可逆関数という重要な問題について深く掘り下げます。我々は、深層ネットワークが複数の目的を達成するために必要な様々な変化に対応するため、プログラム可能な勾配情報(PGI)という概念を提案しました。PGIは、目的関数を計算するためにターゲットタスクに対する完全な入力情報を提供し、信頼性の高い勾配情報を取得してネットワークの重みを更新することができます。さらに、勾配経路計画に基づいた新しい軽量ネットワークアーキテクチャ――Generalized Efficient Layer Aggregation Network(GELAN)を設計しました。GELANのアーキテクチャは、PGIが軽量モデルで優れた結果を得ていることを確認しています。我々は、提案したGELANとPGIをMS COCOデータセットに基づく物体検証で検証しました。その結果、GELANは従来の畳み込み演算子のみを使用して、深さ方向畳み込みに基づいて開発された最先端の手法よりも優れたパラメータ利用率を達成することが示されました。PGIは、軽量から大規模までの様々なモデルに使用できます。完全な情報を取得するために使用できるため、大規模なデータセットで事前学習された最先端のモデルよりも、ゼロから学習したモデルが優れた結果を達成することができます。比較結果は図1に示されています。ソースコードは以下にあります:https://github.com/WongKinYiu/yolov9。
私たちは、Project Ariaグラスを使用して記録されたエゴセントリックなマルチモーダルオープンデータセットであるAria Everyday Activities (AEA) Datasetを紹介します。AEAは、地理的に多様な5つの屋内場所で複数の着用者によって記録された143の日常活動シーケンスを含んでいます。各記録には、Project Ariaグラスを通じて記録されたマルチモーダルセンサーデータが含まれています。さらに、AEAは、高頻度でグローバルに整列された3D軌跡、シーンポイントクラウド、フレームごとの3D視線ベクトル、時間同期された音声転写などの機械知覚データを提供します。本論文では、このデータセットによって可能となるいくつかの研究応用例、例えばニューラルシーン再構築やプロンプト付きセグメンテーションなどを示します。AEAはオープンソースデータセットであり、projectaria.comからダウンロードできます。また、Project Aria Toolsでのデータセットの使用方法に関するオープンソースの実装と例も提供しています。
我々は、SDXLに基づく1024pxテキストから画像への1ステップ/少数ステップ生成において新たな最先端を達成する拡散蒸留法を提案する。本手法は、品質とモードカバレッジのバランスを実現するために、プログレッシブ蒸留と敵対的蒸留を組み合わせている。本論文では、理論的解析、識別器設計、モデル定式化、および訓練技術について議論する。我々は、蒸留されたSDXL-LightningモデルをLoRAおよび完全なUNet重みとしてオープンソース化している。
現代の画像生成モデルは、驚異的な品質と汎用性を示しています。これらの利点に影響を受け、研究コミュニティはそれらを動画生成に転用しています。動画コンテンツは高度に冗長であるため、画像モデルの進歩を単純に動画生成領域に持ち込むと、動きの忠実度や視覚的品質が低下し、スケーラビリティが損なわれると私たちは主張します。本論文では、これらの課題を体系的に解決する動画ファーストモデルであるSnap Videoを構築します。そのために、まずEDMフレームワークを拡張し、空間的および時間的に冗長なピクセルを考慮し、自然に動画生成をサポートします。次に、画像生成の主力であるU-Netが動画生成においてスケールが悪く、大幅な計算オーバーヘッドを必要とすることを示します。そこで、U-Netよりも3.31倍高速に学習し(推論時には約4.5倍高速)、新しいトランスフォーマーベースのアーキテクチャを提案します。これにより、初めて数十億のパラメータを持つテキストから動画へのモデルを効率的に学習し、多くのベンチマークで最先端の結果を達成し、大幅に高い品質、時間的一貫性、および動きの複雑さを持つ動画を生成することが可能になりました。ユーザー調査では、最新の手法に対して大幅に好まれる結果が示されました。詳細はhttps://snap-research.github.io/snapvideo/をご覧ください。
大規模言語モデル(LLM)は自然言語処理に革命をもたらしました。しかし、複雑でノイズを含む可能性のあるユーザーインタラクションデータを効果的に組み込むことは依然として課題です。この問題に対処するため、我々はユーザー埋め込みを活用してLLMを文脈化する新しいフレームワーク「User-LLM」を提案します。これらの埋め込みは、自己教師あり事前学習を用いて多様なユーザーインタラクションから抽出され、潜在的なユーザー選好とその時間的変化を捉えます。我々は、これらのユーザー埋め込みをLLMとクロスアテンションおよびソフトプロンプティングを通じて統合し、LLMがユーザーコンテキストに動的に適応できるようにします。MovieLens、Amazon Review、Google Local Reviewデータセットでの包括的な実験により、様々なタスクで大幅な性能向上が実証されました。特に、長いシーケンスタスクや深いユーザー理解を必要とするタスクにおいて、テキストプロンプトベースの文脈化を上回りながら、計算効率も良好です。さらに、Perceiverレイヤーを組み込むことで、ユーザーエンコーダーとLLMの統合を効率化し、計算負荷を削減しました。
最近の研究では、深層強化学習エージェントがネットワークパラメータを効果的に活用するのに苦労していることが示されています。本研究では、スパース学習技術の利点に関する既存の知見を活用し、段階的なマグニチュードプルーニングがエージェントのパラメータ効率を最大化することを実証します。このアプローチにより、従来のネットワークと比較して劇的な性能向上を実現し、フルネットワークパラメータのごく一部のみを使用しながら「スケーリング則」とも呼べる特性を示すネットワークが得られます。
最近の研究で、大規模言語モデル(LLM)に対する敵対的攻撃が、モデルを「脱獄」させて有害な発言をさせる可能性があることが示されました。本研究では、LLMに対する敵対的攻撃の範囲は、単なる脱獄よりもはるかに広いと主張します。我々は、可能な攻撃対象と攻撃目標の広範な概要を提供します。具体的な例を基に、誤誘導、モデル制御、サービス拒否、データ抽出など、様々な意図しない行動を強制する攻撃について議論し、分類し、体系化します。 これらの攻撃を制御された実験で分析した結果、その多くが、コーディング能力を持つLLMを事前学習する慣行や、セキュリティ上の理由で削除されるべき奇妙な「グリッチ」トークンが一般的なLLMの語彙に残存していることに起因していることがわかりました。
拡散モデルの発展に伴い、テキストガイドによる画像スタイル転送は高品質で制御可能な合成結果を示してきました。しかし、多様な音楽スタイル転送におけるテキストの利用は、主にマッチしたオーディオ-テキストデータセットの限られた可用性により、大きな課題を抱えています。音楽は抽象的な複雑な芸術形式であり、同じジャンル内でも変動や細部の違いが存在するため、正確なテキスト記述が困難です。本論文では、最小限のデータを用いて音楽の属性を効果的に捉える音楽スタイル転送手法を提案します。異なるレベルでメルスペクトログラムの特徴を正確に捉えるための新しい時変テキスト反転モジュールを導入します。推論時には、安定した結果を得るためのバイアス低減スタイライゼーション技術を提案します。実験結果から、本手法が特定の楽器のスタイルを転送できること、また自然音を取り入れてメロディを構成できることが示されています。サンプルとソースコードはhttps://lsfhuihuiff.github.io/MusicTI/で公開されています。
マルチモーダル推論は、大規模視覚言語モデル(LVLM)にとって重要な能力である。ドメイン固有言語(DSL)との統合は、正確な視覚的表現を提供することで、これらのモデルが複雑で専門的な領域においてより正確な推論を実行する機会を与える。しかし、従来のChain-of-Thought(CoT)プロンプティング手法は、視覚的表現とDSL表現の異なる推論メカニズムを効果的に活用する上で課題に直面しており、特に多段階推論タスクにおける重要なステップを十分に扱えないことが多い。これらの課題を緩和するため、我々はBi-Modal Behavioral Alignment(BBA)プロンプティング手法を提案する。この手法は、DSLの潜在能力を最大限に活用して複雑なマルチモーダル推論タスクを強化することを目的としている。具体的には、まずLVLMに視覚的表現とDSL表現のための別々の推論チェーンを作成させ、その後、これらのチェーンを整合させて異なるモダリティからの行動を統合する。実験結果から、BBAはGPT-4V(ision)の幾何学問題解決(28.34%から34.22%)、チェスのポジション優位性予測(42.08%から46.99%)、分子特性予測(77.47%から83.52%)において大幅な性能向上をもたらすことが示された。
アテンション機構は画像拡散モデルにおいて重要な役割を果たしてきたが、その二次的な計算複雑性のため、現実的な時間とメモリ制約内で処理可能な画像サイズが制限されてきた。本論文では、生成画像モデルにおける密なアテンションの重要性を検証する。これらのモデルはしばしば冗長な特徴を含むため、より疎なアテンション機構に適している。我々は、キーとバリューのトークンダウンサンプリングに依存する新しいトレーニング不要の手法ToDoを提案し、Stable Diffusionの推論を一般的なサイズでは最大2倍、2048x2048のような高解像度では最大4.5倍以上高速化する。我々のアプローチが、効率的なスループットと忠実度のバランスにおいて、従来の手法を凌駕することを実証する。
最先端のDiffusionモデルやFlow-Matching(FM)モデルの生成結果を、タスク固有のモデルを再学習することなく制御することは、逆問題の解決、条件付き生成、そして一般的な制御生成において強力なツールを提供します。本論文では、フローを微分し、ソース(ノイズ)点を最適化することで生成プロセスを制御するシンプルなフレームワークであるD-Flowを紹介します。このフレームワークは、ガウス確率経路で学習されたDiffusion/FMモデルにおいて、生成プロセスを微分することでデータ多様体上に勾配を投影し、暗黙的に最適化プロセスに事前分布を注入するという我々の重要な観察に基づいて動機付けられています。我々は、線形および非線形の制御生成問題(画像および音声の逆問題、条件付き分子生成を含む)において本フレームワークを検証し、すべてのタスクで最先端の性能を達成しました。
ドラフト生成後に検証を行うデコード手法、例えばスペキュレーティブデコーディングは、大規模言語モデル(LLM)の推論を加速するためのトレーニング不要な手法として広く採用されている。トークンを逐次的にデコードする自己回帰プロセスを採用する代わりに、スペキュレーティブデコーディングは最初に効率的な小型モデルを用いてドラフトを生成する。その後、LLMは非自己回帰的な方法で検証と修正を行い、時間的なオーバーヘッドを最小化する。検証が成功すれば、より長いドラフトを生成することでさらなる高速化が可能であるが、失敗した場合には多大な試行錯誤のコストが発生する。既存のデコード手法は、検証失敗の確率が高いため、一度に検証するための内容を多くドラフトすることができず、最適ではない推論加速を実現している。本論文では、Ouroborosを紹介する。Ouroborosは、LLMの検証プロセスからフレーズ候補プールを構築し、小型モデルのドラフト生成のための候補を提供する。これにより、Ouroborosは初期ドラフトの効率と効果をさらに向上させることができる。典型的なテキスト生成タスクにおける実験結果は、Ouroborosがルックアヘッドデコーディングとスペキュレーティブデコーディングと比較して、それぞれ最大1.9倍および2.8倍の高速化を達成することを示している。Ouroborosのソースコードはhttps://github.com/thunlp/Ouroborosで公開されている。