翻訳付きの日次キュレーションされたAI研究論文
最近の著しい進歩にもかかわらず、生成ビデオモデルは依然として実世界の動き、ダイナミクス、物理を捉えるのに苦労しています。本研究では、この制限が従来のピクセル再構成目的から生じることを示します。この目的は、モデルを外観の忠実度を優先し、動きの一貫性を犠牲にする方向にバイアスをかけます。この問題に対処するために、私たちはVideoJAMという新しいフレームワークを導入します。このフレームワークは、ビデオ生成器に効果的な動き事前知識を植え付けるものであり、モデルが共同外観-動き表現を学習することを促します。VideoJAMは、2つの補完的なユニットで構成されています。トレーニング中、我々は目的を拡張して、単一の学習表現から生成されたピクセルとそれに対応する動きの両方を予測するようモデルを促します。推論中、Inner-Guidanceと呼ばれるメカニズムを導入し、モデル自体の進化する動き予測を動的なガイダンス信号として活用することで、生成物を一貫した動きに導きます。特筆すべきは、我々のフレームワークは、最小限の適応を必要とする任意のビデオモデルに適用でき、トレーニングデータの変更やモデルのスケーリングは必要ありません。VideoJAMは、動きの一貫性において最先端の性能を達成し、非常に競争力のあるプロプライエタリモデルを凌駕し、生成物の視覚的品質を向上させます。これらの知見は、外観と動きが補完的であり、効果的に統合されると、ビデオ生成の視覚的品質と一貫性の両方が向上することを強調しています。プロジェクトのウェブサイト:https://hila-chefer.github.io/videojam-paper.github.io/
最近のコーダーモデルの進歩のほとんどは、教師あり微調整(SFT)によって推進されてきましたが、強化学習(RL)の潜在能力は、コード領域における信頼性のある報酬データ/モデルの不足により、ほとんど未開拓のままです。本論文では、自動大規模テストケース合成を活用してコードモデルのトレーニングを強化することで、この課題に取り組みます。具体的には、既存のコードデータから豊富な(質問、テストケース)ペアを生成するパイプラインを設計します。これらのテストケースを使用して、サンプリングされたプログラムの合格率に基づいて好みのペアを構築し、Bradley-Terry損失を用いて報酬モデルをトレーニングします。これにより、Llama-3.1-8B-Insでは平均で10ポイントの改善、Qwen2.5-Coder-7B-Insでは5ポイントの改善が見られ、ベストオブ32サンプリングにより、7Bモデルが236B DeepSeek-V2.5と同等の性能を発揮します。さらに、報酬モデルとテストケース合格報酬の両方で強化学習を行い、HumanEval、MBPP、BigCodeBench、LiveCodeBench(V4)で一貫した改善が見られます。特に、Qwen2.5-Coder-baseから直接開始するR1スタイルのトレーニングを行い、強化学習によって、HumanEval-plusで25%以上、MBPP-plusでわずか80回の最適化ステップで6%改善することを示しました。我々は、強化学習がコーダーモデルにおいて大きな潜在能力を示すと考えています。
拡散ブリッジモデルの学習は簡単ですが、それを高速かつ実用的にすることは芸術です。拡散ブリッジモデル(DBM)は、画像間変換のアプリケーションにおける拡散モデルの有望な拡張です。しかし、多くの現代の拡散モデルやフローモデルと同様に、DBMには推論が遅いという問題があります。この問題に対処するために、逆ブリッジマッチングの形式に基づいた新しい蒸留技術を提案し、実践的に解決するための取り扱い可能な目的を導出します。従来開発されたDBM蒸留技術とは異なり、提案された方法は条件付きおよび無条件のDBMの両方を蒸留し、1ステップのジェネレータでモデルを蒸留し、訓練には破損した画像のみを使用します。私たちのアプローチを、超解像、JPEG復元、スケッチから画像へなどの幅広いセットアップで条件付きおよび無条件のブリッジマッチングについて評価し、蒸留技術によってDBMの推論を4倍から100倍に加速させ、特定のセットアップに応じて教師モデルよりも優れた生成品質を提供できることを示します。
大規模言語モデル(LLMs)は、さまざまな領域で顕著な推論能力を示しています。最近の研究では、テスト時の計算量を増やすことがLLMsの推論能力を向上させることを示しています。これには通常、外部LLM検証者によって導かれた推論時の広範なサンプリングが含まれ、二人対戦システムが生じます。外部のガイダンスにもかかわらず、このシステムの効果は、単一のLLMが複雑なタスクに取り組む潜在能力を示しています。したがって、新しい研究課題を提起します:単一のLLMの推論能力を根本的に向上させるために検索能力を内部化できるか。この研究では、自己反映と新しい戦略の自己探索を伴う拡張された推論プロセスである自己回帰的検索のための事後トレーニングLLMsに焦点を当てた直交する方向を探ります。これを達成するために、Chain-of-Action-Thought(COAT)推論と、COAT推論形式を内部化するための小規模フォーマット調整段階、および強化学習を活用した大規模な自己改善段階の2段階トレーニングパラダイムを提案します。当社のアプローチにより、オープンソースのモデルとデータでトレーニングされた7BのLLMであるSatoriが生まれました。包括的な実証評価により、Satoriは数学的推論のベンチマークで最先端のパフォーマンスを達成し、ドメイン外のタスクに対する強力な汎化能力を示しています。コード、データ、モデルは完全にオープンソース化されます。
言語エージェントは複雑な対話タスクに対する有望な解決策となっています。言語エージェントの成功の鍵の一つは、エージェントのワークフローの軌跡上にある報酬モデルであり、トレーニングや推論中に貴重なガイダンスを提供します。しかし、中間の相互作用の注釈が不足しているため、既存の多くの研究では、全体の軌跡を横断してポリシーを最適化するための結果報酬モデルが使用されています。これは、サブ最適なポリシーを導き、全体的なパフォーマンスを妨げる可能性があります。この問題に対処するために、私たちはQLASS(Q-guided Language Agent Stepwise Search)を提案し、オープンな言語エージェント向けにQ値を段階的に推定することで自動的に注釈を生成します。推論プロセスの報酬モデリングを導入し、推論中のモデルの性能向上に有効な中間ガイダンスを提供します。段階的なガイダンスを通じて、Q-guided生成戦略を提案し、言語エージェントが長期的な価値に適応しやすくなり、複雑な対話エージェントタスクのモデル推論中の性能向上につながります。特筆すべきは、ほぼ半分の注釈付きデータでも、QLASSは強力なパフォーマンスを維持し、限られた監視を処理する効率性を示しています。また、質的分析を通じて、QLASSがより効果的な意思決定を導くことを経験的に示します。コードとデータを公開予定です。
本論文は、大規模言語モデル(LLMs)における未探索の課題に焦点を当てています:KVキャッシュ圧縮方法がLLMsの基本的な機能に与える影響です。既存の方法は、長い文脈のベンチマークで印象的な圧縮率を達成していますが、それらがモデルの中核的な機能に与える影響は未だ研究されていません。我々は、世界知識、常識的推論、算術的推論、コード生成、安全性、長い文脈の理解と生成を含む多様なタスクにわたり、優れたKVキャッシュ圧縮方法を評価する包括的な経験的研究を提供します。我々の分析により、KVキャッシュ圧縮方法はタスク固有の性能劣化を示すことが明らかになりました。算術的推論タスクは、積極的な圧縮に特に敏感であり、異なる方法によって17.4%〜43.3%の性能低下が示されます。特筆すべきは、DeepSeek R1 Distillモデルが、指示に調整されたモデルと比較してより堅牢な圧縮耐性を示し、わずか9.67%〜25.53%の性能低下を示すことです。我々の注意パターンとクロスタスクの圧縮性能の分析に基づき、我々はShotKVを提案します。これは、プリフィルとデコードフェーズを明確に処理し、ショットレベルの意味的一貫性を維持する新しい圧縮手法です。経験的結果は、ShotKVが積極的な圧縮率下で長い文脈生成タスクで9%〜18%の性能向上を達成していることを示しています。
多様なソースからの出力をアンサンブルすることは、性能を向上させるための直感的で効果的なアプローチです。Mixture-of-Agents(MoA)は、複数の異なる大規模言語モデル(LLM)からの出力を集約する人気のあるアンサンブル手法の1つです。本論文は、言語モデルの文脈で次の問いを提起します:異なるLLMを混合することは本当に有益なのでしょうか?私たちはSelf-MoAを提案します。これは、単一の最も性能の高いLLMからの出力を集約するアンサンブル手法です。私たちの包括的な実験によると、驚くべきことに、Self-MoAは多くのシナリオで異なるLLMを混合する標準的なMoAよりも優れた性能を発揮します:Self-MoAはAlpacaEval 2.0ベンチマークでMoAに比べて6.6%の改善を達成し、MMLU、CRUX、MATHを含むさまざまなベンチマークで平均3.8%の改善を達成します。AlpacaEval 2.0の上位モデルの1つにSelf-MoAを適用すると、リーダーボードで新たな最高性能を達成します。Self-MoAの効果を理解するために、さまざまなMoA設定下で出力の多様性と品質のトレードオフを系統的に調査します。MoAの性能は品質に非常に敏感であり、異なるLLMを混合することがしばしばモデルの平均品質を低下させることを確認します。研究を補完するために、異なるLLMを混合することが有益であるシナリオを特定します。さらに、本論文では、複数のラウンドでオンザフライで多数のLLM出力を集約できるSelf-MoAの逐次バージョンを紹介し、一度にすべての出力を集約するのと同じくらい効果的です。
テキストから画像を生成するモデルにおいては、顕著な進歩が見られますが、敵対的攻撃に対して脆弱であり、安全で倫理的でないコンテンツを誤って生成することがあります。既存の手法は、特定の概念を除去するためにモデルを微調整することが一般的ですが、これは計算コストが高く、スケーラビリティに欠ける上に生成品質を損なう可能性があります。本研究では、拡散モデルにおいて効率的かつ解釈可能な概念操作を可能にする、k-疎なオートエンコーダー(k-SAEs)を活用する新しいフレームワークを提案します。具体的には、まずテキスト埋め込みの潜在空間において解釈可能な単義的概念を特定し、それらを活用して生成を特定の概念(例:裸体)から遠ざけたり近づけたりするか、新しい概念(例:写真のスタイル)を導入するように誘導します。幅広い実験を通じて、当該手法が非常にシンプルであり、基本モデルの再トレーニングやLoRAアダプターの必要がなく、生成品質を損なわず、敵対的なプロンプト操作にも強いことを示します。当手法は、安全でない概念の削除において20.01%の改善をもたらし、スタイル操作に効果的であり、現行の最先端技術よりも5倍高速であることが示されました。
サンプリングベースの探索は、テスト時の計算を活用するためのシンプルなパラダイムであり、複数の候補応答を生成し、最良のものを選択することを含みます — 通常は各応答を正確性について検証することによって。本論文では、サンプリングベースの探索を統御するスケーリングの傾向について研究しています。私たちの発見の中には、単にランダムサンプリングと直接的な自己検証のみを使用する最小限の実装をスケーリングアップすることで、持続的なパフォーマンス向上がもたらされることが含まれます。例えば、Gemini v1.5 Proモデルの推論能力をo1-Previewよりも優れた人気のベンチマークに押し上げる結果が得られます。サンプリングベースの探索のスケーラビリティを、より大きな応答プールをサンプリングすることが検証精度を向上させるという暗黙のスケーリング現象に一部帰属します。また、テスト時の計算を用いた自己検証能力を向上させるための2つの有用な原則を特定しています:(1) 応答間の比較は、エラーや幻覚の位置に関する有益なシグナルを提供し、(2) 異なるモデルの出力スタイルは異なる文脈で有用であり、推論には思考の連鎖が有用ですが、検証が難しいです。また、正確な検証が引き出されることがありますが、フロンティアモデルは驚くほど弱いアウトオブボックスの検証能力を示し、これらの欠点に対する進展を測定するためのベンチマークを導入しています。
本論文では、パノプティックセグメンテーションとグラウンデッド画像キャプショニングを向上させるために作成されたCOCONut-PanCapデータセットを紹介します。COCOデータセットを基盤とし、高度なCOCONutパノプティックマスクを備えたこのデータセットは、従来の画像テキストデータセットの制約を克服することを目指しています。COCONut-PanCapデータセットは、パノプティックセグメンテーションマスクに基づく細かい領域レベルのキャプションを取り入れ、生成されたキャプションの詳細性と一貫性を向上させています。人手による密な注釈付き記述を通じて、COCONut-PanCapは、画像理解のためのビジョン言語モデル(VLMs)の改善されたトレーニングと、テキストから画像へのタスクのための生成モデルをサポートしています。実験結果は、COCONut-PanCapが理解と生成のタスク全体で性能を大幅に向上させ、大規模データセットに補完的な利点を提供していることを示しています。このデータセットは、共同パノプティックセグメンテーションとグラウンデッドキャプショニングタスクでモデルを評価するための新たな基準を設定し、マルチモーダル学習における高品質で詳細な画像テキスト注釈の必要性に対処しています。
コンピュータ支援設計(CAD)モデルの作成には、膨大な専門知識と労力が必要です。テキストからCADに変換するText-to-CADは、このプロセスを効率化する上で重要です。最近の研究では、この目標を達成するために、シーケンシャルシグナルとして知られる正解のパラメトリックシーケンスを監督として利用しています。しかし、CADモデルは本質的にマルチモーダルであり、パラメトリックシーケンスと対応する描画されたビジュアルオブジェクトから構成されています。さらに、パラメトリックシーケンスからビジュアルオブジェクトへのレンダリングプロセスは多対1です。したがって、効果的なトレーニングには、シーケンシャル信号とビジュアル信号の両方が重要です。本研究では、CADFusionというフレームワークを紹介します。このフレームワークは、大規模言語モデル(LLMs)をバックボーンとして使用し、シーケンシャル学習(SL)ステージとビジュアルフィードバック(VF)ステージの2つのトレーニングステージを交互に行います。SLステージでは、正解のパラメトリックシーケンスを使用してLLMsをトレーニングし、論理的に整合したパラメトリックシーケンスの生成を可能にします。一方、VFステージでは、ビジュアル的に好ましいオブジェクトにレンダリングされるパラメトリックシーケンスを報酬とし、そうでない場合は罰則とし、LLMsがレンダリングされたビジュアルオブジェクトの認識と評価方法を学習できるようにします。これら2つのステージはトレーニング中に交互に繰り返され、バランスの取れた学習を確保し、両方の信号の利点を保持します。実験により、CADFusionが質的にも量的にも性能を大幅に向上させることが示されました。
テキストから画像を生成するモデルのカスタマイズにより、ユーザーはカスタム概念を挿入し、未知の設定でその概念を生成することが可能となります。既存の手法は、高コストなテスト時最適化に依存するか、単一画像トレーニングデータセットでエンコーダをトレーニングする際に複数画像の監督を行わず、画像品質の低下を招くことがあります。私たちは、両方の制限に対処するシンプルなアプローチを提案します。まず、既存のテキストから画像へのモデルと3Dデータセットを活用して、異なる照明、背景、ポーズで同じオブジェクトの複数の画像からなる高品質の合成カスタマイズデータセット(SynCD)を作成します。次に、入力画像から細かい視覚的詳細をより適切に取り入れる共有注意メカニズムに基づく新しいエンコーダアーキテクチャを提案します。最後に、テキストと画像のガイダンスベクトルを正規化することで推論中の過曝露問題を緩和する新しい推論技術を提案します。豊富な実験を通じて、提案されたエンコーダと推論アルゴリズムを用いて合成データセットでトレーニングされた当社のモデルが、標準のカスタマイズベンチマークで既存のチューニングフリー手法を上回ることを示します。
大規模言語モデル(LLM)のFine-tuningは、デバイス上での注目を集めています。最近の研究では、低ランク適応(LoRA)技術をフェデレーテッドFine-tuningと融合させ、デバイスモデルのサイズやデータ不足に関連する課題を緩和しています。しかし、計算リソースの異質性は依然として重要なボトルネックです。高ランクモジュールは一般的にパフォーマンスを向上させますが、異なるデバイスの能力によってLoRAの適切なランク範囲が制約されます。この問題を解決しようとする既存のアプローチは、解析的な根拠が不足しているか、追加の計算負荷を課しており、効率的かつ理論的に基づいた解決策には大きなギャップがあります。これらの課題に対処するために、私たちはフェデレーテッドスケッチングLoRA(FSLoRA)を提案します。これは、スケッチングメカニズムを活用して、サーバーが維持するグローバルLoRAモジュールのサブ行列をデバイスが選択的に更新できるようにします。デバイス固有の通信および計算上の制約に柔軟に適応するために、デバイス上のサブ行列のランクを決定するスケッチング比率を調整します。FSLoRAの収束解析を提供し、スケッチング比率が収束速度にどのように影響するかを特徴付けます。複数のデータセットとLLMモデルでの包括的な実験を通じて、さまざまなベースラインと比較してFSLoRAの優れたパフォーマンスを実証します。
大規模言語モデル(LLMs)は、さまざまな領域で顕著な能力を披露してきました。LLMsの進化する能力と展開シナリオの拡大に伴い、Llama、Gemma、Mistralなどの注目すべきモデルシリーズに見られる高度で複雑な活性化設計と、その膨大なスケールにより、展開上の課題がエスカレートしています。これらの課題は、リソースに制約のある展開シナリオにおいて特に顕著であり、推論効率のボトルネックを緩和することが不可欠です。最近のさまざまな取り組みの中で、活性化の近似が推論効率を追求する有望な手段として浮上しており、プライベート推論などのアプリケーションにおいて不可欠とされることもあります。効用にほとんど影響を与えずに実質的な高速化を達成し、現実の展開において妥当で実用的に見えるにもかかわらず、活性化の近似の安全性に関する影響は不明です。本研究では、活性化の近似の初の体系的な安全性評価を行うことで、LLMの安全性におけるこの重要なギャップを埋めます。安全性の検証は、3つの人気カテゴリーにまたがる7つの最先端技術を対象とし、10の安全性に配慮したLLMにわたって一貫した安全性の低下が明らかになりました。