翻訳付きの日次キュレーションされたAI研究論文
DeepSeek-Prover-V1.5を紹介します。これはLean 4における定理証明のために設計されたオープンソースの言語モデルで、DeepSeek-Prover-V1を改良し、学習と推論の両プロセスを最適化しています。このモデルは、形式的数学言語に特化したDeepSeekMath-Baseで事前学習され、DeepSeek-Prover-V1から派生した強化された形式的定理証明データセットを用いて教師ありファインチューニングが行われます。さらに、証明アシスタントからのフィードバックを用いた強化学習(RLPAF)を通じて洗練されています。DeepSeek-Prover-V1の単一パスでの証明全体生成アプローチを超えて、我々はRMaxTSを提案します。これは、多様な証明パスを生成するために、内発的報酬に基づく探索戦略を採用したモンテカルロ木探索の変種です。DeepSeek-Prover-V1.5は、DeepSeek-Prover-V1を大幅に上回る性能を示し、高校レベルのminiF2Fベンチマーク(63.5%)および大学レベルのProofNetベンチマーク(25.3%)において、新たな最先端の結果を達成しました。
大規模言語モデル(LLMs)は大きな進歩を遂げてきたが、一般的な学習パラダイムではLLMsを受動的な情報リポジトリとして扱い、能動的な学習とアラインメントの可能性を無視している。一部のアプローチでは、LLMsが生成した合成データを用いて訓練を行い、能動的なアラインメントの可能性を探っている。しかし、これらの一度きりのアラインメント手法と、人間の継続的かつ自動的なアラインメントとの間には依然として大きな隔たりがある。本論文では、I-SHEEP(Iterative Self-EnHancEmEnt Paradigm)を提案する。この人間に似たパラダイムにより、LLMsは何もない状態から継続的に自己アラインメントを行うことができる。本論文の最初のイテレーションとして参照される一度きりのアラインメント手法Dromedary(sun2023principledriven)と比較して、I-SHEEPはQwenおよびLlamaモデルの能力を大幅に向上させることができる。I-SHEEPは、Qwen-1.5 72Bモデルにおいて、Alpaca Evalで最大78.2%、MT Benchで24.0%、IFEvalの精度で8.88%の絶対的な向上を達成した。さらに、I-SHEEPは、様々な標準ベンチマーク生成タスクにおいてベースモデルを上回り、コード生成タスクで平均24.77%、TrivialQAで12.04%、SQuADで20.29%の改善を達成した。また、実験結果に基づいて新たな洞察も提供する。我々のコード、データセット、モデルはhttps://anonymous.4open.science/r/I-SHEEPで公開されている。
ニューラルネットワークの訓練は、知識を石に刻むような単一的な取り組みである。一度プロセスが完了すると、ネットワーク内の知識を編集することはほぼ不可能となる。なぜなら、すべての情報がネットワークの重みに分散されているからだ。ここでは、ディープニューラルネットワークの表現力とデータベースの柔軟性を組み合わせた、シンプルで魅力的な代替案を探る。画像分類のタスクを、画像の類似性(事前学習済みの埋め込みから)と検索(知識データベースからの高速な最近傍探索による)に分解することで、以下の主要な機能を持つシンプルで柔軟な視覚的メモリを構築する:(1.) 個々のサンプルからクラス全体、さらには数十億規模のデータまで、スケールを問わず柔軟にデータを追加する能力;(2.) アンラーニングやメモリの剪定を通じてデータを削除する能力;(3.) その挙動を制御するために介入可能な解釈可能な意思決定メカニズム。これらの機能を総合することで、明示的な視覚的メモリの利点を包括的に示す。これが、ディープビジョンモデルにおいて知識がどのように表現されるべきかという議論に貢献し、「石」のような重みに刻むことを超えた新しいアプローチを促すことを願っている。
データセット蒸留または凝縮は、大規模なトレーニングデータセットをはるかに小さな合成データセットに凝縮し、ニューラルネットワークにおける蒸留データセットと元のデータセットのトレーニング性能が類似することを目指すものです。トレーニングサンプルの数を大幅に削減できる一方で、現在の最先端の手法は、満足のいく性能を達成するために膨大なソフトラベルに依存しています。その結果、特に大規模なデータセットでは、必要なストレージが元のデータセットと同等になることがあります。この問題を解決するために、これらの重いラベルを保存する代わりに、合成ラベルを合成画像から直接オンラインで生成できる効果的な画像からラベルへのプロジェクターを目指す、HeLlOと呼ばれる新しいラベル軽量化フレームワークを提案します。具体的には、そのようなプロジェクターを構築するために、CLIPなどのオープンソースの基盤モデルの事前知識を活用し、事前学習された分布とターゲット分布のギャップを緩和するためにLoRAのような微調整戦略を導入します。これにより、ソフトラベル生成のための元のモデルを低ランク行列のグループに蒸留することができます。さらに、元のラベル生成器と蒸留ラベル生成器の間の潜在的なエラーをさらに緩和するための効果的な画像最適化手法を提案します。大規模なデータセットにおいて、完全なソフトラベルセットに必要なストレージの約0.003%のみで、現在の最先端のデータセット蒸留手法と同等の性能を達成することを示す広範な実験を行いました。私たちのコードは公開されます。
モーションが豊かで時間的に一貫性のある動画の合成は、人工知能における課題であり、特に長時間の動画を扱う場合に顕著です。既存のテキストから動画を生成する(T2V)モデルでは、一般的に空間的なクロスアテンションをテキスト制御に使用しており、異なるフレームの生成を同等にガイドするため、フレーム固有のテキストガイダンスが欠如しています。その結果、モデルがプロンプトに含まれる時間的論理を理解し、一貫したモーションを持つ動画を生成する能力が制限されています。この制限を克服するため、我々はFancyVideoを提案します。これは、既存のテキスト制御メカニズムを改良した革新的な動画生成器であり、精巧に設計されたクロスフレームテキストガイダンスモジュール(CTGM)を採用しています。具体的には、CTGMは、クロスアテンションの開始、中間、終了時点でそれぞれ時間情報インジェクター(TII)、時間的親和性リファイナー(TAR)、時間的特徴ブースター(TFB)を組み込むことで、フレーム固有のテキストガイダンスを実現します。まず、TIIは潜在特徴からフレーム固有の情報をテキスト条件に注入し、クロスフレームテキスト条件を取得します。次に、TARはクロスフレームテキスト条件と潜在特徴間の相関行列を時間次元に沿って洗練します。最後に、TFBは潜在特徴の時間的一貫性を強化します。定量的および定性的な評価を含む広範な実験により、FancyVideoの有効性が実証されました。我々のアプローチは、EvalCrafterベンチマークにおいて最先端のT2V生成結果を達成し、ダイナミックで一貫性のある動画の合成を可能にします。動画の結果はhttps://fancyvideo.github.io/で確認でき、コードとモデルの重みを公開する予定です。
言語モデル(LM)の多くの能力は、トレーニング予算の増加に伴い向上しますが、スケールが幻覚(hallucination)に与える影響はまだ完全には理解されていません。幻覚にはさまざまな形態があり、普遍的に受け入れられている定義は存在しません。そこで私たちは、トレーニングデータセットに正解がそのまま含まれている場合の幻覚に焦点を当てて研究を行いました。トレーニングデータの内容を完全に制御するため、知識グラフ(KG)ベースのデータセットを構築し、それを用いて徐々に大規模なLMをトレーニングしました。その結果、固定されたデータセットにおいて、より大規模で長期間トレーニングされたLMは幻覚を起こしにくいことがわかりました。ただし、トレーニングデータの5%以下で幻覚を起こすためには、Hoffmann et al. (2022) が最適と報告したモデルよりも1桁大きいモデル、つまり1桁多い計算資源が必要です。このコストの高さを踏まえ、幻覚検出器がスケールにどのように依存するかを調査しました。固定されたLMの出力に対して検出器のサイズが性能を向上させることは確認されましたが、LMのスケールとその幻覚の検出可能性の間には逆相関関係があることがわかりました。
大規模言語モデル(LLM)をゼロからトレーニングすることは、確かに独自の能力と強みを持つモデルを生み出す可能性がありますが、多大なコストがかかり、能力の重複を招く可能性があります。知識融合は、多様なアーキテクチャと能力を持つ既存のLLMを、軽量な継続的トレーニングを通じて統合し、より強力なLLMを構築することを目指しており、これにより、高コストなLLM開発の必要性を削減します。本研究では、チャットLLMの知識融合のための新しいフレームワークを提案し、FuseChatを実現します。まず、異なる構造と規模を持つソースチャットLLMに対してペアワイズ知識融合を行い、軽量なファインチューニングを通じて同一の構造とサイズを持つ複数のターゲットLLMを作成します。このプロセスでは、異なる構造を持つLLMを融合するための基盤として、統計ベースのトークンアライメント手法を導入します。次に、これらのターゲットLLMをパラメータ空間内で統合し、ファインチューニング前後のパラメータ更新の大きさに基づいて統合係数を決定する新しい方法を提案します。FuseChatは、OpenChat-3.5-7B、Starling-LM-7B-alpha、NH2-SOLAR-10.7B、InternLM2-Chat-20B、Mixtral-8x7B-Instruct、Qwen-1.5-Chat-72Bなど、多様なアーキテクチャと規模を持つ6つの主要なチャットLLMを使用して実装および検証しました。AlpacaEval 2.0とMT-Benchという2つの指示追従ベンチマークでの実験結果は、FuseChat-7Bがさまざまなサイズのベースラインを上回る優位性を示しています。我々のモデルは、より大規模なMixtral-8x7B-Instructに匹敵し、MT-BenchではGPT-3.5-Turbo-1106に近い性能を発揮します。コード、モデル重み、データはhttps://github.com/fanqiwan/FuseAIで公開しています。
Mixture of Experts(MoE)フレームワークは、密なモデルを上回る優れた性能から、大規模言語モデルのアーキテクチャとして広く採用されています。しかし、大規模な環境でMoEをゼロから訓練することは非常にコストがかかります。既存の手法では、複数の密なエキスパートモデルを独立して事前訓練し、それらをMoEの初期化に利用することでこの問題を緩和しています。具体的には、エキスパートのフィードフォワードネットワーク(FFN)をMoEのエキスパート初期化に使用し、他のパラメータを統合します。しかし、この方法では密なモデルのパラメータの再利用がFFN層に限定されるため、これらのモデルをMoEに「アップサイクル」する際の利点が制約されます。本論文では、この欠点を解決するシンプルかつ効果的な手法であるBAM(Branch-Attend-Mix)を提案します。BAMは、FFNをMoE層の初期化に使用するだけでなく、エキスパートのアテンションパラメータを完全に活用し、それらをMixture of Attention(MoA)層のソフトバリアントとして初期化することで、専門化された密なモデルを最大限に活用します。アテンションパラメータのアップサイクルには、2つの方法を検討します:1)最適なモデル性能を得るために、密なモデルからすべてのアテンションパラメータを含む個別のアテンションエキスパートを初期化する方法、および2)推論効率を向上させるために、すべてのエキスパート間でキーとバリューパラメータを共有する方法です。さらに効率を向上させるため、MoEに並列アテンショントランスフォーマーアーキテクチャを採用し、アテンションエキスパートとFFNエキスパートを並列に計算できるようにします。590Mから2Bパラメータのシードモデルを用いた実験では、BAMが同じ計算量とデータ制約の下で、パープレキシティと下流タスクの性能の両方においてベースラインを上回ることを示しています。
人間とモデルの対話は、ユーザーの現実世界のシナリオ、行動、ニーズを垣間見る窓となり、モデルの開発と研究にとって貴重なリソースです。営利企業は自社モデルのAPIを通じてユーザーデータを収集し、内部で使用して自社モデルを改善していますが、オープンソースおよび研究コミュニティは遅れを取っています。 私たちは、大規模言語モデルとの人間の対話を統一したデータセットであるShareLMコレクションと、それに付随するプラグインを紹介します。このプラグインは、ユーザーが自発的にモデルとの対話を提供できるWeb拡張機能です。チャットを共有するプラットフォームがほとんどない中、ShareLMプラグインはこの機能を追加し、ユーザーがほとんどのプラットフォームからの対話を共有できるようにします。プラグインは、ユーザーが対話全体および個々の応答に対して評価を行い、ローカルストレージから離れる前に非公開にしたい対話を削除することを可能にします。私たちはプラグインを通じて収集された対話をShareLMコレクションの一部として公開し、オープンな人間とモデルのデータの分野におけるさらなるコミュニティの取り組みを呼びかけます。 コード、プラグイン、データは公開されています。
本論文では、敵対的フローマッチング最適化による高忠実度かつ高効率な波形生成モデルであるPeriodWave-Turboを紹介する。最近、条件付きフローマッチング(CFM)生成モデルは、単一のベクトル場推定目的を活用して波形生成タスクに成功裏に適用されている。これらのモデルは高忠実度の波形信号を生成できるが、GANベースのモデルと比較して、生成に必要なODEステップ数が大幅に多い。さらに、ノイジーなベクトル場推定により、高周波情報の再現が保証されず、生成サンプルはしばしば高周波情報を欠いている。この制限に対処するため、我々は事前学習済みのCFMベース生成モデルを固定ステップ生成器の修正を組み込むことで強化した。再構成損失と敵対的フィードバックを活用し、高忠実度波形生成を加速した。敵対的フローマッチング最適化により、わずか1,000ステップのファインチューニングで、様々な客観的指標において最先端の性能を達成した。さらに、推論速度を16ステップから2または4ステップに大幅に削減した。さらに、PeriodWaveのバックボーンを29Mから70Mパラメータにスケールアップして汎化性能を向上させた結果、PeriodWave-TurboはLibriTTSデータセットにおいて4.454のPESQ(Perceptual Evaluation of Speech Quality)スコアという前例のない性能を達成した。音声サンプル、ソースコード、およびチェックポイントはhttps://github.com/sh-lee-prml/PeriodWaveで公開予定である。
新規視点合成(Novel View Synthesis, NVS)と3D生成は最近、顕著な進歩を遂げています。しかし、これらの研究は主に限定されたカテゴリや合成された3Dアセットに焦点を当てており、挑戦的な実世界のシーンへの一般化が難しく、2D合成と直接組み合わせることができません。さらに、これらの手法はカメラポーズに大きく依存しており、実世界での応用が制限されています。これらの課題を克服するため、我々はMVInpainterを提案し、3D編集をマルチビュー2Dインペインティングタスクとして再定式化します。具体的には、MVInpainterは完全に新しい視点をゼロから生成するのではなく、参照ガイダンスを用いてマルチビュー画像を部分的にインペイントすることで、実世界のNVSの難易度を大幅に簡素化し、明示的なポーズ条件ではなくマスクされていない手がかりを活用します。クロスビュー一貫性を確保するため、MVInpainterはモーションコンポーネントからのビデオ事前情報と、連結された参照キー&バリューアテンションからの外観ガイダンスによって強化されています。さらに、MVInpainterはスロットアテンションを組み込み、マスクされていない領域から高レベルのオプティカルフローフィーチャーを集約し、ポーズフリーのトレーニングと推論でカメラの動きを制御します。オブジェクト中心および前方指向のデータセットにおける十分なシーンレベルの実験により、MVInpainterの有効性が検証されました。これには、マルチビューオブジェクトの除去、合成、挿入、置換などの多様なタスクが含まれます。プロジェクトページはhttps://ewrfcas.github.io/MVInpainter/です。
大規模言語モデル(LLM)の能力を評価することは、しばしば困難を伴います。その理由の一つは、トレーニング中に曝露されていないタスクを見つけることが難しいためです。この課題に対処するため、我々は新しいタスクに注目します:シンボリックグラフィックスプログラムに焦点を当てます。これは、視覚データを手続き的に生成するグラフィックスコンテンツの一般的な表現です。LLMはプログラム合成において有望な成果を示していますが、シンボリックグラフィックスプログラムを理解しているのでしょうか?従来のプログラムとは異なり、シンボリックグラフィックスプログラムはグラフィックスコンテンツに変換可能です。ここでは、LLMのシンボリックプログラムの理解度を、グラフィックスコンテンツに関連する質問に答える能力として特徴付けます。このタスクは、質問がシンボリックプログラムだけから答えることが難しいため、挑戦的です。しかし、対応するグラフィックスコンテンツからは容易に答えられることが、人間による実験で確認されています。シンボリックプログラムを理解するためには、LLMはレンダリングされた視覚コンテンツに直接アクセスすることなく、対応するグラフィックスコンテンツがどのように見えるかを想像する能力が必要かもしれません。我々はこのタスクを用いて、シンボリックグラフィックスプログラムの意味理解に関する大規模なベンチマークを作成し、LLMを評価します。このベンチマークはプログラムとグラフィックスの対応関係に基づいて構築されているため、人間の労力を最小限に抑えています。我々は現在のLLMをこのベンチマークで評価し、プログラムから視覚シーンを推論する能力についての予備的な評価を行います。このタスクは既存のLLMを区別し、推論能力が高いとされるモデルがより良いパフォーマンスを示すことがわかりました。最後に、この能力を向上させるために、シンボリック命令チューニング(SIT)を導入します。具体的には、シンボリックプログラムによって生成された質問と画像を用いてGPT4-oに問い合わせます。そのようなデータは、LLMのファインチューニングに使用されます。また、SITデータがLLMの一般的な命令追従能力を向上させることもわかりました。