翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の推論能力を向上させるにあたり、従来の研究は主にfew-shotやzero-shotの連鎖的思考(CoT)プロンプティングといった特定のプロンプト技術に焦点を当ててきました。これらの方法は効果的ではあるものの、多くの場合、手動によるプロンプトエンジニアリングを必要とします。本研究では、新たなアプローチを取ります。つまり、LLMはプロンプトなしでも効果的に推論できるのか、という問いを立てます。私たちの研究結果は、興味深いことに、事前学習済みのLLMから単にデコードプロセスを変更するだけでCoT推論パスを引き出せることを明らかにしました。従来の貪欲デコードではなく、トップkの代替トークンを調査することで、CoTパスがこれらのシーケンスに頻繁に内在していることを発見しました。このアプローチは、プロンプトの交絡因子を回避するだけでなく、LLMの本質的な推論能力を評価することを可能にします。さらに、デコードパスにCoTが存在することは、モデルのデコードされた回答に対する信頼度の高さと相関があることを観察しました。この信頼度メトリックは、CoTパスと非CoTパスを効果的に区別します。さまざまな推論ベンチマークでの大規模な実証研究により、提案されたCoTデコードが標準的な貪欲デコードを大幅に上回ることを示しています。
すべてのテキストベースの言語問題は、生成または埋め込みのいずれかに還元できます。現在のモデルは、そのいずれか一方でのみ優れた性能を発揮します。本論文では、生成と埋め込みの両方のタスクを指示によって区別しながら処理するよう大規模言語モデルを訓練する、生成的表現指示チューニング(GRIT)を提案します。他のオープンモデルと比較して、我々のGritLM 7BはMassive Text Embedding Benchmark(MTEB)において新たな最先端を達成し、そのサイズまでのすべてのモデルを一連の生成タスクで上回りました。さらにスケールアップしたGritLM 8x7Bは、試したすべてのオープン生成言語モデルを上回りながら、依然として最高の埋め込みモデルの一つとなっています。特に注目すべきは、GRITが生成データまたは埋め込みデータのみでの訓練と同等の性能を発揮するため、両者を性能の損失なく統合できる点です。その他の利点として、GRITによる統合は、長文書におけるRetrieval-Augmented Generation(RAG)を60%以上高速化し、別々の検索モデルと生成モデルを必要としなくなります。モデルやコードなどは、https://github.com/ContextualAI/gritlm で自由に利用可能です。
大規模言語モデル(LLM)の訓練は高コストである。本論文では、LLMの事前学習におけるデータ効率の良いアプローチ、すなわちモデルの品質と訓練リソース/データ消費量のパレート最適化を目指す技術を研究する。我々は、(i)計算コストが高いデータ品質推定に基づくデータ選択手法と、(ii)特徴空間におけるカバレッジと多様性に基づく指標の最大化に関連するトレードオフを理解することを目指す。最初の手法であるAsk-LLMは、指示チューニングされたLLMのゼロショット推論能力を活用して、訓練データの品質を直接評価する。カバレッジをターゲットとするために、データ分布をモデル化して多様なサンプルを選択するDensityサンプリングを提案する。19のサンプリング手法を比較し、数百の評価タスクと事前学習の実行を通じて、Ask-LLMとDensityがそれぞれのカテゴリーで最良の手法であることを発見した。カバレッジサンプリングは、全データの性能を回復することが可能であり、Ask-LLMデータで訓練されたモデルは、元のデータセットの90%を棄却した場合でも、全データ訓練を一貫して上回り、最大70%速く収束する。
現在の大規模言語モデル(LLM)は、最大コンテキスト長に制限されているだけでなく、長い入力を堅牢に処理することができません。これらの制限に対処するため、我々はReadAgentを提案します。これは、実験において有効なコンテキスト長を最大20倍に拡張するLLMエージェントシステムです。人間が長文書をインタラクティブに読む方法に着想を得て、ReadAgentをシンプルなプロンプトシステムとして実装しました。このシステムは、LLMの高度な言語能力を活用して、(1) どの内容をメモリエピソードとして一緒に保存するかを決定し、(2) それらのメモリエピソードを「要約メモリ」と呼ばれる短いエピソード記憶に圧縮し、(3) タスクを完了するために関連する詳細を思い出す必要がある場合、元のテキストのパッセージを参照するアクションを取ります。我々は、ReadAgentを、検索手法を使用したベースライン、元の長いコンテキストを使用したベースライン、および要約メモリを使用したベースラインと比較評価しました。これらの評価は、QuALITY、NarrativeQA、QMSumという3つの長文書読解タスクで実施されました。ReadAgentは、有効なコンテキストウィンドウを3~20倍に拡張しながら、すべてのタスクでベースラインを上回りました。
最近の研究では、特に特定のスキルを習得するために、合成生成されたデータセットが大規模言語モデル(LLM)のトレーニングにおいて非常に大きな可能性を示しています。現在の大規模な数学指導チューニングデータセット、例えばMetaMathQA(Yu et al., 2024)やMAmmoTH(Yue et al., 2024)は、商用利用に制限のあるクローズドソースのLLMの出力を使用して構築されています。これらのデータ生成パイプラインでオープンソースのLLMの使用が制限されている主な理由は、GPT-4のような最良のクローズドソースLLMと最良のオープンソースLLMとの間の数学的スキルの大きな差にあります。オープンソースLLMの最近の進歩、私たちが提案するプロンプティングの新規性、そしてある程度のブルートフォーススケーリングを基に、1.8Mの問題解決ペアを含む数学指導チューニングデータセットであるOpenMathInstruct-1を構築しました。このデータセットは、最近リリースされ、許諾ライセンスを持つMixtralモデルを使用して、GSM8KとMATHという2つの人気のある数学推論ベンチマークのコードインタプリタソリューションを合成することで構築されています。OpenMathInstruct-1のサブセットでトレーニングされた私たちの最良のモデル、OpenMath-CodeLlama-70Bは、GSM8Kで84.6%、MATHで50.7%のスコアを達成し、最良のGPT蒸留モデルと競争力があります。私たちは、コード、モデル、およびOpenMathInstruct-1データセットを商用利用可能なライセンスの下で公開します。
拡散モデルのファインチューニングは、生成AI(GenAI)分野において未開拓の領域であり、特に大規模言語モデル(LLM)のファインチューニングで達成された顕著な進歩と比較するとその傾向が顕著です。Stable Diffusion(SD)やSDXLのような最先端の拡散モデルは教師ありファインチューニングに依存していますが、一定量のデータを学習した後、その性能は必然的に頭打ちになります。最近では、人間の選好データを用いて拡散モデルをファインチューニングするために強化学習(RL)が採用されていますが、この手法では各テキストプロンプトに対して少なくとも2枚の画像(「勝者」と「敗者」の画像)が必要です。本論文では、拡散モデルの自己対戦型ファインチューニング(SPIN-Diffusion)と呼ばれる革新的な技術を提案します。この手法では、拡散モデルが自身の過去のバージョンと競争し、反復的な自己改善プロセスを促進します。私たちのアプローチは、従来の教師ありファインチューニングやRL戦略に代わる選択肢を提供し、モデルの性能とアライメントを大幅に向上させます。Pick-a-Picデータセットでの実験では、SPIN-Diffusionが初回のイテレーションから既存の教師ありファインチューニング手法を人間の選好アライメントと視覚的魅力の面で上回ることが明らかになりました。さらに、2回目のイテレーションでは、すべての指標においてRLHFベースの手法の性能を凌駕し、より少ないデータでこれらの結果を達成しました。
我々は、言語モデルのコンテキスト長を128Kにスケーリングするための継続的プレトレーニング手法を、特にデータエンジニアリングに焦点を当てて研究した。我々は、長いコンテキストのモデリング、特に任意の入力位置の情報を活用する能力は、大規模なプレトレーニングを通じて既に大部分が獲得されている能力であり、適切なデータ混合による軽量な継続的プレトレーニングを通じて、トレーニング中に見られたコンテキスト長(例:4K)を大幅に超える長さ(例:128K)に容易に拡張できると仮説を立てた。我々は、継続的プレトレーニングのためのデータの量と質を調査した:(1) 量に関しては、500百万から50億トークンが、モデルが128Kコンテキスト内の任意の位置の情報を取得するのに十分であることを示した;(2) 質に関しては、ドメインのバランスと長さのアップサンプリングが同様に重要であることを結果から示した。具体的には、書籍などの特定のドメインで長いデータを単純にアップサンプリングする既存の手法は最適な性能を発揮せず、バランスの取れたドメイン混合が重要であることを発見した。我々は、1Bから5Bトークンのようなデータを用いたフルモデルの継続的プレトレーニングが、言語モデルのコンテキスト長を128Kにスケーリングするための効果的かつ手頃な戦略であることを実証した。我々の手法は、強力なオープンソースの長文コンテキストモデルを上回り、GPT-4 128Kのような最先端モデルとのギャップを埋めることができた。
大規模言語モデル(LLMs)は通常、2つのフェーズで訓練されます。インターネット規模の大規模データセットを用いた事前学習と、下流タスクのためのファインチューニングです。事前学習の計算需要が高いことを考えると、ファインチューニングがモデルに追加する新しい情報は少なく、したがってより圧縮可能であると直感的に推測されます。この仮定を検証するため、ファインチューニングされたモデルの重みを、事前学習された成分と追加の差分(デルタ)に分解します。我々は、この差分を1ビットまで量子化しても性能を損なわないシンプルな手法、BitDeltaを提案します。この興味深い発見は、ファインチューニング中に追加される情報の潜在的な冗長性を強調するだけでなく、ファインチューニングされたモデルのマルチテナント配信とマルチテナントストレージに重要な示唆を与えます。BitDeltaは、単一の高精度ベースモデルと複数の1ビット差分を組み合わせることで、GPUメモリ要件を10倍以上削減し、マルチテナント環境での生成遅延の改善にもつながります。我々は、Llama-2およびMistralモデルファミリー、最大70Bパラメータのモデルを用いた実験を通じてBitDeltaを検証し、すべてのテスト設定において最小限の性能低下しか生じないことを示しました。
大規模な事前学習モデルを用いたゼロショット編集手法は、最近画像領域で急速な進展を見せています。しかし、この潮流はまだ音声領域には到達していません。本論文では、事前学習済み拡散モデルに対するDDPM逆変換を用いた、音声信号のための2つのゼロショット編集技術を探求します。1つ目は画像領域から採用されたテキストベースの編集手法です。2つ目は、教師なしで意味的に有意義な編集方向を発見する新しいアプローチです。この手法を音楽信号に適用すると、特定の楽器の参加度を制御するものからメロディーの即興演奏に至るまで、音楽的に興味深い多様な変更が明らかになります。サンプルはhttps://hilamanor.github.io/AudioEditing/の例示ページで、コードはhttps://github.com/hilamanor/AudioEditing/でご覧いただけます。
3Dガウシアンスプラッティングの進展により、3D再構成と生成が大幅に加速されました。しかし、多数のガウシアンを必要とすることがあり、これが大きなメモリフットプリントを生み出します。本論文では、Generalized Exponential Splatting(GES)を紹介します。これは、Generalized Exponential Function(GEF)を用いて3Dシーンをモデル化する新しい表現法であり、シーンを表現するために必要な粒子数が大幅に少なく、ガウシアンベースのユーティリティに対してプラグアンドプレイの置換能力を持つことで、効率性においてガウシアンスプラッティング手法を大きく上回ります。GESは、理論的および実証的に、原理的な1D設定と現実的な3Dシーンの両方で検証されています。 GESは、鋭いエッジを持つ信号をより正確に表現することが示されており、これはガウシアンにとってはその固有のローパス特性のために通常難しい課題です。我々の実証分析では、GEFが自然発生する信号(例えば、四角形、三角形、放物線信号)のフィッティングにおいてガウシアンを上回り、ガウシアンスプラッティングのメモリフットプリントを増加させる広範な分割操作の必要性を減らすことが示されています。周波数変調損失を利用することで、GESは新規視点合成ベンチマークにおいて競争力のある性能を達成し、ガウシアンスプラッティングの半分以下のメモリ使用量で、レンダリング速度を最大39%向上させます。コードはプロジェクトウェブサイトhttps://abdullahamdi.com/gesで公開されています。
テキストから画像へのパーソナライゼーション(T2I)の目的は、ユーザーが提供した参照概念に基づいて拡散モデルをカスタマイズし、ターゲットプロンプトに沿った多様な画像を生成することです。従来の手法では、参照概念を一意のテキスト埋め込みで表現することが多く、参照の外観を正確に模倣できないことがありました。この問題に対処するため、参照画像をターゲットのノイズ除去プロセスに明示的に条件付ける方法、すなわちキー・バリュー置換が考えられます。しかし、既存の研究は事前学習済みT2Iモデルの構造パスを乱すため、ローカル編集に限定されていました。これを克服するため、我々はT2Iパーソナライゼーションをセマンティックマッチングとして再定式化する新しいプラグイン手法、DreamMatcherを提案します。具体的には、DreamMatcherはセマンティックマッチングによって整列された参照値でターゲット値を置き換えつつ、構造パスを変更せずに維持することで、事前学習済みT2Iモデルの多様な構造生成能力を保持します。さらに、セマンティック整合性を保つマスキング戦略を導入し、ターゲットプロンプトによって導入される無関係な領域からパーソナライズされた概念を分離します。既存のT2Iモデルと互換性を持つDreamMatcherは、複雑なシナリオにおいて大幅な改善を示します。詳細な分析により、本手法の有効性が実証されています。
生の感覚データのシーケンスから推論を行うことは、医療機器からロボティクスに至るまで、様々な分野で普遍的な問題です。これらの問題は、多くの場合、生のセンサーデータ(例えば、磁力計、圧力抵抗器)の長いシーケンスを使用して、望ましい物理量(例えば、力、慣性測定)のシーケンスを予測することを含みます。古典的なアプローチは、局所的に線形な予測問題に対して強力ですが、現実世界のセンサーを使用する場合にはしばしば不十分です。これらのセンサーは通常非線形であり、外部変数(例えば、振動)の影響を受け、データ依存のドリフトを示します。多くの問題において、予測タスクは、ラベル付きデータセットが小さいためにさらに困難になります。なぜなら、グラウンドトゥルースラベルを取得するには高価な機器が必要だからです。本研究では、連続的なシーケンシャル予測のための概念的にはシンプルで新しい技術である階層的状態空間モデル(HiSS)を紹介します。HiSSは、構造化された状態空間モデルを互いに積み重ねて時間的階層を作成します。触覚ベースの状態予測から加速度計ベースの慣性測定まで、6つの現実世界のセンサーデータセットにおいて、HiSSは因果的Transformer、LSTM、S4、Mambaなどの最先端のシーケンスモデルをMSEで少なくとも23%上回りました。私たちの実験はさらに、HiSSが小さいデータセットへの効率的なスケーリングを示し、既存のデータフィルタリング技術と互換性があることを示しています。コード、データセット、ビデオはhttps://hiss-csp.github.ioで見つけることができます。
拡散モデルは最近、ビデオや流体力学シミュレーション、気候データなどの時系列データにますます適用されるようになってきている。これらの手法では、一般的に拡散プロセスにおけるノイズの量に関して、後続のフレームを均等に扱う。本論文では、Rolling Diffusionという新しいアプローチを探求する。これはスライディングウィンドウによるノイズ除去プロセスを使用し、生成プロセスが進むにつれて未来に対する不確実性が大きくなることを反映して、シーケンスの後半に現れるフレームにより多くのノイズを割り当てることで、拡散プロセスが時間とともに徐々に劣化することを保証する。実験的に、時系列ダイナミクスが複雑な場合、Rolling Diffusionは標準的な拡散モデルよりも優れていることを示す。特に、この結果はKinetics-600ビデオデータセットを用いたビデオ予測タスクと、カオス的な流体力学予測実験において実証されている。