翻訳付きの日次キュレーションされたAI研究論文
数学的推論は、その複雑で構造化された性質から、言語モデルにとって重要な課題となっています。本論文では、DeepSeek-Coder-Base-v1.5 7BをCommon Crawlから収集した120Bの数学関連トークンと、自然言語およびコードデータを用いて継続的に事前学習したDeepSeekMath 7Bを紹介します。DeepSeekMath 7Bは、外部ツールキットや投票技術に依存することなく、競技レベルのMATHベンチマークで51.7%という印象的なスコアを達成し、Gemini-UltraやGPT-4の性能レベルに迫っています。DeepSeekMath 7Bの64サンプルにおける自己一貫性は、MATHで60.9%を達成しました。DeepSeekMathの数学的推論能力は、2つの主要な要因に起因しています。第一に、公開されているウェブデータの大きな可能性を、緻密に設計されたデータ選択パイプラインを通じて活用しています。第二に、Proximal Policy Optimization (PPO)の変種であるGroup Relative Policy Optimization (GRPO)を導入し、数学的推論能力を向上させると同時に、PPOのメモリ使用量を最適化しています。
テキストから画像を生成するモデルは、自然言語を通じて画像生成プロセスを誘導できるため、新たなレベルの創造的柔軟性を提供します。しかし、多様なプロンプトにわたって同じ主題を一貫して描写することは依然として困難です。既存のアプローチでは、特定のユーザー提供の主題を記述する新しい単語を教えるためにモデルを微調整したり、モデルに画像条件付けを追加したりします。これらの方法では、主題ごとに長時間の最適化や大規模な事前学習が必要です。さらに、生成された画像とテキストプロンプトを整合させることに苦労し、複数の主題を描写する際にも困難が生じます。ここでは、事前学習済みモデルの内部活性化を共有することで、一貫した主題生成を可能にするトレーニング不要のアプローチであるConsiStoryを紹介します。主題駆動型の共有アテンションブロックと、対応関係に基づく特徴注入を導入し、画像間の主題一貫性を促進します。さらに、主題一貫性を維持しながらレイアウトの多様性を促す戦略を開発します。ConsiStoryを一連のベースラインと比較し、最適化ステップを一切必要とせずに、主題一貫性とテキスト整合性において最先端の性能を実証します。最後に、ConsiStoryは自然に複数主題のシナリオに拡張でき、一般的なオブジェクトに対するトレーニング不要のパーソナライゼーションも可能にします。
オープンソースコミュニティがMixture-of-Experts(MoE)ベースの大規模言語モデル(LLM)をより深く理解できるよう支援するため、我々はOpenMoEをトレーニングし公開しました。OpenMoEは、650Mから34Bパラメータまでの範囲で、1T以上のトークンでトレーニングされた、完全にオープンソースで再現可能なデコーダのみのMoE LLMシリーズです。我々の調査により、MoEベースのLLMが密なLLMよりもコストパフォーマンスの面で有利であることが確認され、将来のLLM開発における有効性が示されました。 本研究のもう一つの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析です。これにより、以下の3つの重要な発見が得られました:コンテキストに依存しない専門化、早期ルーティング学習、および終盤でのドロップです。我々は、MoEモデルにおけるルーティング決定が主にトークンIDに基づいており、コンテキストとの関連性が最小限であることを発見しました。トークンからエキスパートへの割り当ては、事前学習の初期段階で決定され、その後ほとんど変化しません。この不完全なルーティングは、特に多段階の会話のような逐次タスクにおいて、シーケンスの後半に現れるトークンがドロップされやすくなるため、性能の低下を引き起こす可能性があります。 最後に、上記の観察と分析に基づいて設計を再考しました。将来のMoE LLM開発を促進するため、我々が発見した問題を緩和し、既存のMoE LLM設計をさらに改善するための潜在的な戦略を提案します。
状態空間モデル(SSM)は最近、大規模言語モデリングベンチマークにおいてトランスフォーマーと競争力のある性能を示しつつ、シーケンス長の関数として線形時間およびメモリ複雑性を達成しています。最近リリースされたSSMモデルであるMambaは、言語モデリングおよび長いシーケンス処理タスクにおいて印象的な性能を示しています。同時に、エキスパートの混合(MoE)モデルは、メモリフットプリントの増大を代償に、推論の計算コストとレイテンシを大幅に削減しつつ、顕著な性能を示しています。本論文では、Mamba SSMとMoEを組み合わせた新たなアーキテクチャであるBlackMambaを提案し、両者の利点を享受します。BlackMambaは、Mambaおよびトランスフォーマーのベースラインに対して競争力のある性能を示し、推論およびトレーニングのFLOPsにおいて優れていることを実証します。我々は、カスタムデータセットの300Bトークンに対して、340M/1.5Bおよび630M/2.8BのBlackMambaモデルを完全にトレーニングし、オープンソースとして公開します。BlackMambaは、SSMアーキテクチャの線形複雑性生成とMoEの安価で高速な推論の両方の利点を継承し、組み合わせることを示します。我々は、すべての重み、チェックポイント、および推論コードをオープンソースとして公開します。推論コードは以下にあります:https://github.com/Zyphra/BlackMamba
解釈可能な機械学習は、過去10年間で爆発的な関心を集める分野となってきました。その背景には、ますます大規模化するデータセットと深層ニューラルネットワークの台頭があります。同時に、大規模言語モデル(LLM)は多岐にわたるタスクで驚異的な能力を発揮し、解釈可能な機械学習における新たな可能性を再考する機会を提供しています。特に、自然言語で説明する能力により、LLMは人間に提示できるパターンの規模と複雑さを拡大することが可能です。しかし、これらの新たな能力は、幻覚的な説明や膨大な計算コストといった新たな課題も引き起こしています。 本ポジションペーパーでは、まずLLM解釈(LLMを解釈することと、説明のためにLLMを利用すること)という新興分野を評価する既存の手法をレビューします。私たちは、その限界にもかかわらず、LLMが多くのアプリケーションにおいて、LLM自体の監査を含め、より野心的なスコープで解釈可能性を再定義する機会を提供していると主張します。LLM解釈における2つの新たな研究優先課題として、LLMを直接的に新しいデータセットの分析に活用することと、インタラクティブな説明を生成することに焦点を当てます。
言語モデル(LM)を精選された人間のフィードバックに合わせることは、現実世界のアプリケーションにおけるその振る舞いを制御する上で重要です。最近のいくつかのポリシー最適化手法、例えばDPOやSLiCは、従来の人間のフィードバックからの強化学習(RLHF)アプローチに代わる有望な選択肢として機能しています。実際には、人間のフィードバックは、プロンプトを読むコストを分散するために、複数の応答に対するランク付けされたリストの形式で提供されることがよくあります。また、複数の応答は報酬モデルやAIフィードバックによってランク付けされることもあります。しかし、応答リストに直接適合させるような研究は不足しています。本研究では、LMのアラインメントをリストワイズランキング問題として定式化し、Listwise Preference Optimization(LiPO)フレームワークを説明します。このフレームワークでは、ポリシーがプロンプトに対する妥当な応答のランク付けされたリストからより効果的に学習できる可能性があります。この視点は、Learning-to-Rank(LTR)との明示的な関連性を示しており、既存の選好最適化研究のほとんどが既存のランキング目的、特にペアワイズなものにマッピングできることを示しています。この関連性に従って、LMアラインメントにおいて十分に研究されていないランキング目的を、リストサイズが2の場合の特殊ケースとしてDPOとSLiCを用いて検証します。特に、最先端のリストワイズランキング目的を活用し、各選好ペアをより高度な方法で重み付けする特定の手法、LiPO-{\lambda}を強調します。LiPO-{\lambda}が、2つの選好アラインメントタスクにおいてDPOとSLiCを明確に上回ることを示します。
最近のテキストからビデオへの拡散モデルは、目覚ましい進歩を遂げています。実際には、ユーザーはカスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御する能力を望むことがよくあります。しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離して制御することに焦点が当てられておらず、これがテキストからビデオモデルの制御性と柔軟性を制限しています。本論文では、ユーザーが1つまたは複数のオブジェクトの動きやカメラの動きを独立して指定できるシステム、Direct-a-Videoを紹介します。これは、あたかもビデオを監督するかのように動作します。私たちは、オブジェクトの動きとカメラの動きを分離して制御するためのシンプルでありながら効果的な戦略を提案します。オブジェクトの動きは、モデルの内在的な事前知識を使用した空間的クロスアテンションモジュレーションによって制御され、追加の最適化を必要としません。カメラの動きについては、定量的なカメラ移動パラメータを解釈するための新しい時間的クロスアテンションレイヤーを導入します。さらに、これらのレイヤーを小規模データセット上で自己教師あり方式で訓練するための拡張ベースのアプローチを採用し、明示的な動きのアノテーションを不要にします。両コンポーネントは独立して動作し、個別または組み合わせた制御が可能で、オープンドメインのシナリオにも一般化できます。広範な実験により、私たちの手法の優位性と有効性が実証されています。プロジェクトページ: https://direct-a-video.github.io/。
私たちは、ユーザー中心のビデオ生成フレームワークであるInteractiveVideoを紹介します。ユーザーが提供した画像やテキストに基づいて動作する従来の生成アプローチとは異なり、このフレームワークは動的なインタラクションを可能にするように設計されており、ユーザーが生成プロセス全体を通じてテキストや画像プロンプト、ペイント、ドラッグアンドドロップなどの直感的なメカニズムを通じて生成モデルに指示を出すことができます。私たちは、ユーザーのマルチモーダルな指示を生成モデルにシームレスに統合するためのSynergistic Multimodal Instructionメカニズムを提案し、ユーザー入力と生成プロセスの間の協調的で応答性の高いインタラクションを促進します。このアプローチにより、ユーザーの正確で効果的な指示を通じて生成結果を反復的かつ細かく調整することが可能になります。InteractiveVideoを使用することで、ユーザーはビデオの重要な側面を細かく調整する柔軟性を得ることができます。参照画像をペイントし、セマンティクスを編集し、ビデオの動きを調整して、要件が完全に満たされるまで作業を進めることができます。コード、モデル、デモはhttps://github.com/invictus717/InteractiveVideoで利用可能です。
現代の大規模言語モデル(LLM)における構造化プルーニングは、その高い計算需要を削減する方法として注目されています。幅プルーニングは、投影重み行列のサイズを縮小し(例えば、アテンションヘッドを削除することで)、層の数を維持します。一方、深さプルーニングは、層全体またはブロックを削除し、残りの重みのサイズを変更しません。現在の研究の多くは、幅のみのプルーニング、または幅と深さの組み合わせに焦点を当てており、LLMの推論効率に対するこれら二つの単位(幅 vs 深さ)の比較分析はほとんど行われていません。本研究では、シンプルな深さプルーニングアプローチが、ゼロショットタスクの性能において、最近の幅プルーニング手法と競合し得ることを示します。私たちのプルーニング手法は、特にメモリ制約下でLLMを実行するために限られたバッチサイズが必要な状況において、推論速度を向上させます。このような状況では、幅プルーニングは効果的ではありません。この研究が、LLMをローカルおよびエッジデバイスに展開する一助となることを願っています。
人間が住む地球と、現代のAIエージェントが生まれるデジタル領域との間には、感覚的な隔たりが存在します。現実世界の環境において、人間のように柔軟に感知し、思考し、行動できるAIエージェントを開発するためには、デジタル世界と物理世界の間のリアリズムのギャップを埋めることが不可欠です。現実のハードウェアや制約に縛られることなく、私たちが住むのと同じように豊かで多様な環境にエージェントを具現化するにはどうすればよいでしょうか?この目的に向けて、私たちはV-IRLを紹介します。これは、エージェントが仮想的でありながら現実的な環境で現実世界とスケーラブルに相互作用することを可能にするプラットフォームです。私たちのプラットフォームは、さまざまな実用的なタスクを達成できるエージェントを開発するための遊び場として、また、世界中の現実世界のデータにわたる知覚、意思決定、相互作用の能力の進歩を測定するための広大なテストベッドとして機能します。
近年のマルチモーダル大規模言語モデル(LLM)の進展に伴い、画像とテキストのデータからより情報量の多い実世界の動画へとスケーリングすることに対する関心が高まっています。静止画像と比較して、動画はその時空間的ダイナミクスのモデリングにより、大規模な事前学習において独特の課題を提起します。本論文では、動画をキーフレームと時間的モーションとして表現する効率的な動画分解を用いて、動画と言語の事前学習におけるこれらの制約に対処します。これらは、視覚情報と時間情報を少数のトークンとして離散化するように設計されたトークナイザーを介してLLMに適応され、動画、画像、テキストの統一的な生成的事前学習を可能にします。推論時には、LLMから生成されたトークンは慎重に元の連続的なピクセル空間に復元され、様々な動画コンテンツを作成します。提案するフレームワークは、画像と動画のコンテンツを理解し生成する能力を備えており、画像と動画の理解および生成に関する13のマルチモーダルベンチマークでの競争力のある性能によってその有効性が実証されています。コードとモデルはhttps://video-lavit.github.ioで公開予定です。
大規模言語モデル(LLMs)に音声――非言語音や非言語的発話を含む――を理解する能力を付与することは、LLMsの多様な実世界応用において極めて重要である。本論文では、Audio Flamingoを提案する。これは、1)強力な音声理解能力、2)コンテキスト内学習と検索を通じて未見のタスクに迅速に適応する能力、3)強力な多ターン対話能力を備えた新しい音声言語モデルである。これらの能力をモデルに付与するために、一連の訓練技術、アーキテクチャ設計、データ戦略を導入する。様々な音声理解タスクにわたる広範な評価を通じて、本手法の有効性を確認し、新たな最先端のベンチマークを確立する。
大規模言語モデル(LLM)の力は、膨大なデータと計算リソースによって実証されてきました。しかし、モバイルデバイスにおける言語モデルの適用は、計算コストとメモリコストの面で大きな課題に直面しており、高性能な小型言語モデルが緊急に求められています。高度に複雑なトレーニングプロセスに制約されるため、言語モデルを最適化するための多くの詳細が十分に研究されていないのが現状です。本研究では、1Bパラメータの小型言語モデルを基に、各コンポーネントの効果を分析するために一連の実証研究を慎重に設計しました。主に3つの観点、すなわちニューラルアーキテクチャ、パラメータ初期化、および最適化戦略について議論します。トークナイザーの圧縮、アーキテクチャの微調整、パラメータの継承、複数回のトレーニングなど、いくつかの設計手法が小型言語モデルに対して特に有効であることが実証的に証明されました。その後、確立された手法に従って、1.6Tの多言語コーパスでPanGu-pi-1B ProとPanGu-pi-1.5B Proをトレーニングしました。実験結果は、最適化とアーキテクチャの改善により、PanGu-pi-1B Proがベンチマーク評価セットで平均8.87の顕著な向上を示したことを実証しています。さらに、PanGu-pi-1.5B Proは、より大きなモデルサイズを持つ一連のSOTAモデルを凌駕し、その優れた性能を検証しました。コードは近日中に公開予定です(https://github.com/YuchuanTian/RethinkTinyLM)。
最近の研究では、大規模なコード言語モデルが下流タスク(例えばコード生成)において著しい性能向上を示すことが明らかになっています。しかし、既存のコード表現学習に関する研究の多くは、非常に限られた事前学習コーパスを用いて、数億パラメータ規模のモデルを訓練しています。本研究では、2段階の事前学習スキームを通じて、膨大な量のコードデータを用いてコード表現学習を強化します。まず、マスキング言語モデリングのランダム性とプログラミング言語の構造的側面の両方を活用した混合手法でエンコーダを訓練します。次に、教師なしで構築されたハードネガティブとハードポジティブを用いた対照学習によって表現を強化します。これにより、幅広い下流タスクにおいて既存モデルを大きく上回るオフ・ザ・シェルフのエンコーダモデルを確立しました。成功するコード表現学習に寄与する要因を理解するため、詳細なアブレーション研究を行い、(i) ソースコード向けのカスタマイズされた効果的なトークンレベルのノイズ除去スキーム、(ii) ハードネガティブとハードポジティブの重要性、(iii) 提案された双峰型対照学習がどのようにクロスリンガル意味検索の性能を向上させるか、(iv) 事前学習スキームがモデルサイズに応じた下流タスクの性能スケールをどのように決定するか、についての知見を共有します。
大規模なテキストから画像への変換(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらしました。多様で高品質な生成能力を有しているものの、これらの能力を細粒度の画像編集に適用することは依然として困難です。本論文では、既存の拡散ベースの画像編集における2つの弱点を改善するためにDiffEditorを提案します:(1)複雑なシナリオでは、編集結果が編集精度に欠け、予期せぬアーティファクトが生じることが多い;(2)新しいコンテンツを想像するなど、編集操作を調和させる柔軟性が不足している。我々の解決策では、細粒度の画像編集において画像プロンプトを導入し、テキストプロンプトと協調して編集内容をより適切に記述します。内容の一貫性を保ちつつ柔軟性を高めるために、確率微分方程式(SDE)を常微分方程式(ODE)サンプリングに局所的に組み込みます。さらに、拡散サンプリングに地域スコアベースの勾配ガイダンスとタイムトラベル戦略を組み込むことで、編集品質をさらに向上させます。広範な実験により、我々の手法が単一画像内での編集(例:オブジェクトの移動、サイズ変更、コンテンツのドラッグ)や画像間での編集(例:外観の置換、オブジェクトの貼り付け)など、様々な細粒度画像編集タスクにおいて効率的に最先端の性能を達成できることが実証されました。ソースコードはhttps://github.com/MC-E/DragonDiffusionで公開されています。