翻訳付きの日次キュレーションされたAI研究論文
本論文では、Diffusion Forcingという新しいトレーニングパラダイムを提案する。このパラダイムでは、拡散モデルが独立したトークンごとのノイズレベルを持つトークンのセットをノイズ除去するように訓練される。我々は、Diffusion Forcingをシーケンス生成モデリングに適用し、因果的な次トークン予測モデルを訓練して、過去のトークンを完全に拡散させずに1つまたは複数の将来のトークンを生成する。このアプローチは、可変長生成などの次トークン予測モデルの強みと、望ましい軌道にサンプリングを誘導する能力などの完全シーケンス拡散モデルの強みを組み合わせることが示されている。我々の手法は、以下のような追加の能力を提供する:(1) ビデオなどの連続トークンのシーケンスを、トレーニング範囲を超えた長さで展開し、ベースラインが発散する場合でも、(2) Diffusion Forcingの可変範囲と因果的アーキテクチャから独自に利益を得る新しいサンプリングおよび誘導スキームを提供し、意思決定および計画タスクにおいて顕著な性能向上をもたらす。経験的な成功に加えて、我々の手法は、真の結合分布から抽出されたすべての部分シーケンスの尤度に対する変分下限を最適化することが証明されている。プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing/
パラメータ効率的なファインチューニング(PEFT)は、リソースが制約された状況で大規模言語モデル(LLM)をカスタマイズするために重要である。密なアーキテクチャを持つLLM向けのPEFT手法は数多く存在するが、疎なアーキテクチャを持つLLM向けのPEFTはまだ十分に研究されていない。本研究では、Mixture-of-Experts(MoE)アーキテクチャを持つLLM向けのPEFT手法を検討し、その内容は主に以下の3点にまとめられる:(1)カスタマイズされたタスクにおいて活性化されるエキスパートの分散度を調査し、特定のタスクに対するルーティング分布が高度に集中する傾向がある一方で、活性化されるエキスパートの分布はタスク間で大きく異なることを明らかにした。(2)下流タスクに最も関連するエキスパートをチューニングし、他のエキスパートやモジュールを凍結する「エキスパート特化型ファインチューニング」(ESFT)を提案した。実験結果から、本手法がチューニング効率を向上させるだけでなく、全パラメータのファインチューニングと同等またはそれ以上の性能を発揮することが示された。(3)さらに、MoEアーキテクチャがエキスパート特化型ファインチューニングに与える影響を分析した。より細かい粒度のエキスパートを持つMoEモデルは、下流タスクに最も関連するエキスパートの組み合わせを選択する上で有利であり、それによってトレーニング効率と効果の両方が向上することがわかった。
近年、多くの研究が計画問題に対する言語モデルの利用を探求している。その一つの研究ラインは、計画タスクの自然言語記述を計画ドメイン定義言語(PDDL)のような構造化された計画言語に翻訳することに焦点を当てている。このアプローチは有望であるものの、生成されたPDDLコードの品質を正確に測定することは依然として大きな課題となっている。第一に、生成されたPDDLコードは通常、プランナーで問題が解決可能かどうかを確認する計画検証ツールを使用して評価される。この方法は不十分である。なぜなら、言語モデルがタスクの自然言語記述に合致しない有効なPDDLコードを生成する可能性があるからである。第二に、既存の評価セットでは、計画タスクの自然言語記述が真のPDDLに非常に近い場合が多く、タスクの難易度が低下している。このギャップを埋めるため、我々は\benchmarkNameを導入する。これは、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの能力を評価するために設計されたベンチマークである。まず、言語モデルによって生成されたPDDLコードの正確性を柔軟に真のPDDLと比較することで厳密に評価するPDDL等価性アルゴリズムを作成する。次に、13の異なるタスクにわたる132,037のテキストとPDDLのペアからなるデータセットを提示し、その難易度は様々である。最後に、このタスクの複雑さを明らかにするために、いくつかのAPIアクセス型およびオープンウェイトの言語モデルを評価する。例えば、GPT-4oによって生成されたPDDL問題記述の87.6%は構文的に解析可能であり、82.2%は有効で解決可能な問題であるが、意味的に正しいのは35.1%のみであり、この問題に対するより厳密なベンチマークの必要性が浮き彫りになっている。