翻訳付きの日次キュレーションされたAI研究論文
BigCodeプロジェクトは、コード向け大規模言語モデル(Code LLMs)の責任ある開発に焦点を当てたオープンサイエンスの共同プロジェクトであり、StarCoder2を発表しました。Software Heritage(SWH)とのパートナーシップの下、私たちは彼らのソースコードアーカイブのデジタルコモンズ上にThe Stack v2を構築しました。619のプログラミング言語にわたるSWHリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなどの高品質なデータソースを慎重に選定しました。これにより、最初のStarCoderデータセットの4倍の規模を持つトレーニングセットが作成されました。StarCoder2モデル(3B、7B、15Bパラメータ)を3.3兆から4.3兆トークンでトレーニングし、包括的なCode LLMベンチマークセットで徹底的に評価しました。その結果、小型モデルであるStarCoder2-3Bは、ほとんどのベンチマークで同サイズの他のCode LLMを上回り、StarCoderBase-15Bをも凌駕しました。大型モデルであるStarCoder2-15Bは、同サイズの他のモデルを大幅に上回り、さらにその2倍以上のサイズを持つCodeLlama-34Bに匹敵またはそれを上回る性能を示しました。DeepSeekCoder-33Bは高リソース言語におけるコード補完で最高の性能を発揮しますが、StarCoder2-15Bは数学およびコード推論のベンチマーク、およびいくつかの低リソース言語においてそれを上回りました。モデルの重みはOpenRAILライセンスの下で公開し、ソースコードデータのSoftWare Heritage永続識別子(SWHIDs)をリリースすることで、トレーニングデータに関する完全な透明性を確保しました。
リカレントニューラルネットワーク(RNN)は、推論が高速で長いシーケンスに対して効率的にスケールしますが、学習が難しく、スケーリングも困難です。本論文では、ゲート付き線形再帰を持つRNNであるHawkと、ゲート付き線形再帰と局所的なアテンションを組み合わせたハイブリッドモデルであるGriffinを提案します。Hawkは、下流タスクにおいてMambaの報告性能を上回り、Griffinは、Llama-2の性能に匹敵しながら、6倍以上少ないトークンで学習されています。また、Griffinは、学習中に見たシーケンスよりも大幅に長いシーケンスに対して外挿できることを示します。提案モデルは、学習中にTransformerと同等のハードウェア効率を達成し、推論時には低レイテンシと大幅に高いスループットを実現します。Griffinを140億パラメータまでスケールアップし、効率的な分散学習のためのモデルのシャーディング方法についても説明します。
従来のディープラーニングは、デジタル世界の基本単位であるバイトを見落としがちでした。デジタル世界では、あらゆる形式の情報と操作がバイナリ形式でエンコードされ、操作されます。自然言語処理における次のトークン予測の成功に触発され、我々はデジタル世界をシミュレートするための次のバイト予測モデルであるbGPTを導入しました。bGPTは、テキスト、オーディオ、画像など様々なモダリティにおいて専門モデルに匹敵する性能を発揮し、アルゴリズムやハードウェアの動作を予測、シミュレート、診断する新たな可能性を提供します。bGPTは、シンボリック音楽データの変換プロセスをほぼ完璧に再現し、ABC記譜法からMIDIフォーマットへの変換において1バイトあたり0.0011ビットという低いエラーレートを達成しました。さらに、bGPTはCPUの動作シミュレーションにおいても卓越した能力を示し、様々な操作を実行する際の精度が99.99%を超えています。次のバイト予測を活用することで、bGPTのようなモデルは膨大なバイナリデータから直接学習し、デジタル世界の複雑なパターンを効果的にシミュレートすることができます。
データとアノテーションの品質は、下流モデルの品質の上限を決定する。大規模なテキストコーパスや画像-テキストペアは存在するが、高品質なビデオ-テキストデータの収集ははるかに困難である。まず、手動でのラベリングは時間がかかる。なぜなら、アノテーターはビデオ全体を視聴する必要があるからである。第二に、ビデオは時間的次元を持ち、複数のシーンが重なり合い、複数のアクションを示す。したがって、高品質なキャプションを備えたビデオデータセットを構築するために、テキストビデオ説明、字幕、個々のビデオフレームなどのマルチモーダル入力を活用した自動アプローチを提案する。具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレーションする。次に、それらを意味的に一貫したビデオクリップに分割し、複数のクロスモダリティ教師モデルを適用して各ビデオのキャプションを取得する。その後、各ビデオの最適なキャプションを手動で選択した小さなサブセットで検索モデルをファインチューニングし、そのモデルをデータセット全体に適用して最適なキャプションをアノテーションとして選択する。この方法で、70Mのビデオと高品質なテキストキャプションをペアリングしたデータセットを得る。このデータセットをPanda-70Mと名付ける。提案されたデータセットの価値を、ビデオキャプショニング、ビデオとテキストの検索、テキスト駆動型ビデオ生成の3つの下流タスクで示す。提案されたデータでトレーニングされたモデルは、すべてのタスクにおいてほとんどのメトリクスで大幅に高いスコアを達成する。
現実世界のヒューマノイド制御を、言語における次の単語を予測する問題と同様に、次のトークン予測問題として捉えます。私たちのモデルは、感覚運動軌跡の自己回帰的予測を通じて訓練された因果的トランスフォーマーです。データのマルチモーダル性を考慮するため、モダリティに沿った方法で予測を行い、各入力トークンに対して同じモダリティの次のトークンを予測します。この一般的な定式化により、行動を伴わないビデオ軌跡など、欠落したモダリティを持つデータを活用することが可能になります。私たちは、以前のニューラルネットワークポリシー、モデルベースのコントローラー、モーションキャプチャデータ、および人間のYouTube動画から得られたシミュレーション軌跡のコレクションでモデルを訓練します。私たちのモデルは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩行することを可能にします。このモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に転移でき、訓練中に見られなかった後退歩行などのコマンドに一般化できます。これらの発見は、感覚運動軌跡の生成的モデリングを通じて、挑戦的な現実世界の制御タスクを学習するための有望な道筋を示唆しています。
本論文では、家庭用ロボットが日常ユーザーと協力して料理などの複雑なタスクを実行するためのモジュール型アーキテクチャ「MOSAIC」を提案する。MOSAICは、人間と密接に協力し、自然言語を用いてユーザーと対話し、複数のロボットを調整し、日常的な物体のオープンな語彙を管理する。その中核にはモジュール性があり、言語や画像認識などの一般的なタスクには大規模な事前学習モデルを活用し、タスク固有の制御には効率的に設計されたモジュールを使用する。MOSAICを、2台のロボットが人間ユーザーと協力して6種類のレシピを組み合わせて料理する60回のエンドツーエンド試験で詳細に評価した。また、視覚運動ピッキングの180エピソード、人間の動作予測の60エピソード、タスクプランナーのオンラインユーザー評価46回を通じて個々のモジュールを広範にテストした。MOSAICは、実際の人間ユーザーとエンドツーエンドでシステムを実行し、6種類のレシピにおける68.3%(41/60)の協調料理試験を完了し、サブタスクの完了率は91.6%であった。最後に、現在のシステムの限界とこの分野における興味深い未解決の課題について議論する。プロジェクトのウェブサイトはhttps://portal-cornell.github.io/MOSAIC/にて公開されている。
拡散モデルは高品質な画像合成において大きな成功を収めています。しかし、拡散モデルを用いて高解像度の画像を生成することは依然として課題であり、膨大な計算コストがかかるため、インタラクティブなアプリケーションでは許容できないレイテンシが発生します。本論文では、この問題を解決するために、複数のGPUを活用した並列処理手法であるDistriFusionを提案します。本手法では、モデルの入力を複数のパッチに分割し、各パッチをGPUに割り当てます。しかし、このようなアルゴリズムを単純に実装すると、パッチ間の相互作用が失われ、忠実度が低下します。一方で、この相互作用を取り入れると、膨大な通信オーバーヘッドが発生します。このジレンマを克服するため、我々は隣接する拡散ステップ間の入力の高い類似性に着目し、拡散プロセスの逐次的な性質を活用した「displaced patch parallelism」を提案します。この手法では、前のタイムステップで計算済みの特徴マップを再利用して、現在のステップのコンテキストを提供します。これにより、非同期通信をサポートし、計算とパイプライン化することが可能になります。大規模な実験により、本手法を最新のStable Diffusion XLに適用しても品質の劣化がなく、8台のNVIDIA A100を使用した場合、1台と比較して最大6.1倍の高速化を達成できることが示されました。本手法のコードはhttps://github.com/mit-han-lab/distrifuserで公開されています。
最近の研究では、アテンションベースの言語モデルがリコール、すなわちコンテキスト内で以前に見たトークンを生成に反映する能力において優れていることが示されています。しかし、アテンションベースモデルの効率性は、推論時にKVキャッシュのメモリ消費が急激に増加することによってボトルネックとなっています。本研究では、リコールを損なうことなく言語モデルの効率性(例えば、メモリ消費の削減)を向上できるかどうかを探ります。幅広いアーキテクチャに対して実験と理論を適用することで、モデルの状態サイズとリコール能力の間に重要なトレードオフがあることを明らかにします。アテンションの効率的な代替手法(例えば、H3、Mamba、RWKV)は固定サイズのリカレント状態を維持しますが、リコールにおいて苦戦することが分かります。我々は、線形アテンションとスライディングウィンドウアテンションを組み合わせたシンプルなアーキテクチャであるBASEDを提案します。BASEDのウィンドウサイズと線形アテンションの特徴次元を変化させることで、状態サイズを調整し、リコールとメモリのトレードオフ曲線のパレートフロンティアを探索できます。一方の端ではアテンションの完全な品質を回復し、もう一方の端ではアテンション代替手法の小さな状態サイズを実現します。1.3bパラメータまでの言語モデルを学習し、BASEDが最も強力なサブクアドラティックモデル(例えば、Mamba)とパープレキシティにおいて同等であり、現実世界のリコール集約型タスクでは6.22ポイントの精度で優れていることを示します。線形アテンションの実装は、最適化された標準アテンション実装よりも効率が低いことが多いです。BASEDを競争力のあるものにするために、1.3bパラメータモデルを使用して1024トークンを生成する際に、FlashAttention-2よりも24倍高いスループットを実現するIOを意識したアルゴリズムを開発しました。本研究のコードは以下で提供されています:https://github.com/HazyResearch/based。
大規模言語モデルは、コードの生成と最適化において大きな可能性を示しています。Nucleus Samplingのような広く使われているサンプリング手法は、生成の多様性を高めますが、低温では繰り返しサンプルが生成され、高温では一貫性のないサンプルが生成されることがよくあります。さらに、温度係数は各タスクごとに調整する必要があり、その汎用性が制限されています。本論文では、Priority Samplingというシンプルで決定論的なサンプリング手法を提案します。この手法は、モデルの信頼度に基づいて順序付けられたユニークなサンプルを生成します。各新しいサンプルは、拡張探索木の中で最も確率の高い未展開のトークンを展開します。さらに、Priority Samplingは正規表現に基づく生成をサポートし、制御可能で構造化された探索プロセスを提供します。Priority Samplingは、サンプル数に関係なくNucleus Samplingを上回り、元のモデルの性能を-Ozに対して2.87%から5%向上させます。また、元のモデルのトレーニング用ラベル生成に使用されたオートチューナーを、わずか30サンプルで上回る性能を示します。
Latent Consistency Model (LCM)は、Consistency Modelを潜在空間に拡張し、ガイド付き一貫性蒸留技術を活用することで、テキストから画像への合成を加速する際に印象的な性能を発揮します。しかし、LCMは明瞭さと詳細な複雑さを兼ね備えた画像の生成に苦戦することが観察されました。この制約に対処するため、私たちはまずその根本的な原因を探求し、解明します。調査の結果、主な問題は3つの異なる領域における誤差に起因することが明らかになりました。そこで、Trajectory Consistency Distillation (TCD)を導入します。TCDは、軌道一貫性関数と戦略的確率的サンプリングを包含しています。軌道一貫性関数は、自己一貫性境界条件の範囲を拡大することで蒸留誤差を低減し、TCDにProbability Flow ODEの全軌跡を正確に追跡する能力を付与します。さらに、戦略的確率的サンプリングは、多段階一貫性サンプリングに内在する累積誤差を回避するために特別に設計されており、TCDモデルを補完するように緻密に調整されています。実験結果は、TCDが低NFEsにおいて画像品質を大幅に向上させるだけでなく、高NFEsにおいても教師モデルと比較してより詳細な結果をもたらすことを示しています。
拡散モデルを用いた新視点合成は、多様で高品質な画像生成において顕著な可能性を示しています。しかし、これらの主流手法における独立した画像生成プロセスは、複数視点の一貫性を維持する上で課題を引き起こします。この問題に対処するため、我々はViewFusionを提案します。これは、既存の事前学習済み拡散モデルにシームレスに統合可能な、新規の学習不要アルゴリズムです。本手法は、以前に生成された視点を次の視点生成の文脈として暗黙的に活用する自己回帰的アプローチを採用し、新視点生成プロセスにおける堅牢な多視点一貫性を確保します。補間されたノイズ除去を通じて既知視点情報を融合する拡散プロセスにより、本フレームワークは追加のファインチューニングなしで、単一視点条件付きモデルを複数視点条件設定で動作させることに成功しています。広範な実験結果は、ViewFusionが一貫性のある詳細な新視点を生成する上での有効性を実証しています。