翻訳付きの日次キュレーションされたAI研究論文
このレポートでは、多様なニーズに対応するよう設計された包括的な大規模言語モデル(LLM)シリーズであるQwen2.5を紹介します。以前のバージョンと比較して、Qwen 2.5は事前トレーニングおよび事後トレーニングの両段階で大幅に改善されています。事前トレーニングに関しては、以前の7兆トークンから18兆トークンの高品質事前トレーニングデータセットをスケーリングしています。これにより、常識、専門知識、および推論能力に強固な基盤が提供されます。事後トレーニングに関しては、100万以上のサンプルを用いた入念な教師付きファインチューニングと、多段階の強化学習を実装しています。事後トレーニング技術は人間の選好を向上させ、長文生成、構造化データ解析、および指示に従う能力を顕著に向上させます。多様で異なるユースケースを効果的に処理するために、豊富なサイズでQwen2.5 LLMシリーズを提供しています。オープンウェイトの提供には、ベースモデルと指示に調整されたモデルが含まれ、量子化されたバージョンも利用可能です。また、ホストされるソリューション向けに、独自のモデルには現在、2つのエキスパートの混合(MoE)バリアントが含まれており、それぞれQwen2.5-TurboとQwen2.5-PlusがAlibaba Cloud Model Studioから利用可能です。Qwen2.5は、言語理解、推論、数学、コーディング、人間の選好調整などを評価する幅広いベンチマークでトップクラスのパフォーマンスを発揮しています。特に、オープンウェイトのフラッグシップであるQwen2.5-72B-Instructは、いくつかのオープンソースおよび独自のモデルを凌駕し、約5倍大きい最先端のオープンウェイトモデルであるLlama-3-405B-Instructと競争力のあるパフォーマンスを示しています。Qwen2.5-TurboとQwen2.5-Plusは、GPT-4o-miniおよびGPT-4oとそれぞれ競争力のあるコスト効率を提供しています。さらに、基盤として、Qwen2.5モデルはQwen2.5-Math、Qwen2.5-Coder、QwQ、およびマルチモーダルモデルのトレーニングにおいて重要な役割を果たしています。
マルチステップのマルチモーダル推論タスクは、マルチモーダル大規模言語モデル(MLLMs)にとって重大な課題を提起し、そのようなシナリオでのパフォーマンスを向上させる効果的な方法を見つけることは未解決の問題です。本論文では、AR-MCTSという、アクティブ検索(AR)とモンテカルロ木探索(MCTS)を通じてMLLMsの推論能力を段階的に向上させるための汎用フレームワークを提案します。我々のアプローチは、複雑な推論問題を解決するための主要な支援的洞察をハイブリッドモーダル検索コーパスから取得する統合検索モジュールの開発から始まります。自動マルチモーダル推論検証のギャップを埋めるために、MCTSアルゴリズムとアクティブ検索メカニズムを組み合わせ、段階的な注釈の自動生成を可能にします。この戦略は、各推論ステップごとに主要な洞察を動的に取得し、従来のビームサーチサンプリングを超えて推論空間の多様性と信頼性を向上させます。さらに、マルチモーダル推論タスクの自動検証をサポートするために段階的に整合するプロセス報酬モデルを導入します。3つの複雑なマルチモーダル推論ベンチマーク全体での実験結果は、AR-MCTSフレームワークがさまざまなマルチモーダルモデルのパフォーマンスを向上させる効果を確認しています。さらなる分析により、AR-MCTSがサンプリングの多様性と精度を最適化し、信頼性の高いマルチモーダル推論を実現できることが示されています。
マルチモーダル検索の需要が急速に拡大しているにもかかわらず、この分野の進展は訓練データの不足によって厳しく制約されています。本稿では、ビジョン言語モデル(VLMs)とオープンドメイン画像を活用した新しいデータ合成手法であるMegaPairsを紹介します。この手法から生成された大規模な合成データセットを用いて、MegaPairsが高品質のデータを生成し、既存のデータセットからの70倍のデータで訓練されたベースラインモデルを大幅に上回るマルチモーダル検索器を可能にすることを経験的に分析しました。さらに、MegaPairsは一般的な画像コーパスとオープンソースのVLMsにのみ依存しているため、簡単にスケーリングでき、検索パフォーマンスの持続的な改善を実現します。この段階では、このデータを使用して26百万以上の訓練インスタンスを生成し、さまざまなサイズの複数のモデルを訓練しました。これらの新しいモデルは、4つの一般的な合成画像検索(CIR)ベンチマークとMMEBによって提供された36のデータセット全体で最先端のゼロショットパフォーマンスを達成し、追加のダウンストリームファインチューニングによる顕著なパフォーマンス向上も示しています。私たちが提供するデータセット、十分に訓練されたモデル、およびデータ合成パイプラインは、この分野の将来の発展を促進するために公開されます。
合成データにおけるモデル崩壊は、自己生成データの反復トレーニングが性能の徐々の低下につながることを示しています。AIモデルの増殖により、合成データはウェブデータエコシステムを根本的に変えるでしょう。将来のGPT-{n}モデルは、合成データと人間によって生成されたデータの組み合わせで訓練されることになります。本論文では、合成データが言語モデルのトレーニングに与える影響と、モデル崩壊なしでデータを合成する方法に焦点を当てています。まず、異なる割合の合成データで言語モデルを事前トレーニングし、合成データの割合とモデルの性能との間に負の相関があることを明らかにします。さらに、合成データについて統計分析を行い、分布のシフト現象やn-gram特徴の過度の集中を明らかにします。上記の発見に触発され、人間によって生成されたデータにトークン編集を行い、半合成データを取得することを提案します。概念の証明として、トークンレベルの編集がモデル崩壊を防ぐことができることを理論的に示します。テストエラーが有限の上限で制約されるため、トークンレベルの編集がモデルの崩壊を防ぐことができることを理論的に示します。ゼロからの事前トレーニング、継続的な事前トレーニング、および監督されたファインチューニングに関する包括的な実験を実施します。その結果、トークンレベルの編集がデータの品質を向上させ、モデルの性能を向上させることを理論的に証明したことが確認されます。
本論文では、LLMが実世界のマルチタスクにわたる深い理解と推論を必要とする長い文脈の問題を処理する能力を評価するために設計されたベンチマークであるLongBench v2を紹介します。LongBench v2には、8kから2M語までの文脈を持つ503の難解な多肢選択問題が含まれており、単一文書QA、複数文書QA、長い文脈学習、長い対話履歴理解、コードリポジトリ理解、長い構造化データ理解の6つの主要なタスクカテゴリが含まれています。幅広さと実用性を確保するために、高学歴で多様な専門的バックグラウンドを持つ約100人の個人からデータを収集しました。高い品質と難易度を維持するために自動化および手動のレビュープロセスを採用し、結果として、人間の専門家でも15分の時間制約下で53.7%の正解率しか達成できませんでした。評価の結果、直接問題に答える場合、最も性能の良いモデルでも50.1%の正解率にとどまりました。一方、より長い推論を含むo1-previewモデルは57.7%の正解率を達成し、人間の基準を4%上回りました。これらの結果は、長い文脈の課題に取り組むために推論能力を向上させ、推論時間の計算をスケーリングする重要性を強調しています。このプロジェクトはhttps://longbench2.github.ioで利用可能です。
拡散モデルおよびその一般化であるフローマッチングは、メディア生成分野に顕著な影響を与えてきました。従来のアプローチでは、単純なガウスノイズのソース分布からターゲットメディア分布への複雑なマッピングを学習することが一般的です。テキストから画像への生成などのクロスモーダルタスクでは、ノイズから画像への同じマッピングが学習され、モデルには条件付けメカニズムが組み込まれます。フローマッチングの重要な未開拓領域の1つは、拡散モデルとは異なり、ソース分布がノイズである必要がないことです。したがって、本論文では、パラダイムシフトを提案し、ノイズ分布と条件付けメカニズムの両方を不要とするために、代わりにクロスモーダル間の直接マッピングを学習するためにフローマッチングモデルをトレーニングできるかどうかという問いに取り組みます。クロスモーダルフローマッチングのための一般的でシンプルなフレームワークであるCrossFlowを提案します。入力データに変分エンコーダを適用する重要性を示し、クラシファイア不要のガイダンスを可能にする手法を紹介します。驚くべきことに、テキストから画像への場合、クロスアテンションのないバニラトランスフォーマーを使用したCrossFlowは、標準のフローマッチングよりもわずかに優れた性能を発揮し、トレーニングステップとモデルサイズのスケーリングがより良く、出力空間で意味のある編集を可能にします。アプローチの汎用性を示すために、CrossFlowが画像キャプショニング、深度推定、画像超解像などのさまざまなクロスモーダル/イントラモーダルマッピングタスクにおいて、最先端技術と同等またはそれ以上の性能を発揮することも示します。本論文がクロスモーダルメディア生成の進展を加速するのに役立つことを期待しています。
ドラッグに基づくインタラクションの直感的な性質は、画像から動画合成への物体軌跡の制御における採用の増加につながっています。ただし、2D空間でドラッグを実行する既存の方法は、通常、平面外の動きを処理する際に曖昧さに直面します。本研究では、ユーザーが軌跡上の各点に相対的な深さを割り当てることができるように、新しい次元、つまり深度次元でインタラクションを拡張します。このように、新しいインタラクションパラダイムは、2Dのドラッグからの利便性を継承するだけでなく、3D空間での軌跡制御を容易にし、創造性の範囲を広げます。私たちは、オブジェクトマスクをいくつかのクラスタポイントに抽象化することで、画像から動画への合成における3D軌跡制御の先駆的な方法を提案します。これらのポイントは、深度情報とインスタンス情報と共に、最終的にビデオ拡散モデルに制御信号として供給されます。広範な実験により、静止画像から写実的なビデオを生成する際にオブジェクトの動きを正確に操作するための私たちの手法、LeviTorと名付けられた手法の効果が検証されました。プロジェクトページ: https://ppetrichor.github.io/levitor.github.io/
画像合成は一般的な画像編集操作であり、前景オブジェクトを背景シーンに統合することを含みます。本論文では、人間中心の画像合成タスクからAffordanceの概念の適用範囲を拡大し、前景オブジェクトと背景シーンとの複雑な相互作用に対処する一般的なオブジェクト-シーン合成フレームワークを提案します。Affordanceの原則に従い、我々はアフォーダンスに意識したオブジェクト挿入タスクを定義します。このタスクは、さまざまな位置のプロンプトを用いて任意のオブジェクトをシームレスに任意のシーンに挿入することを目指しています。データの限られた問題に対処し、このタスクを組み込むために、3,000以上のオブジェクトカテゴリを含む3百万以上の例を収録したSAM-FBデータセットを構築しました。さらに、Mask-Aware Dual Diffusion(MADD)モデルを提案します。このモデルは、デュアルストリームアーキテクチャを利用してRGB画像と挿入マスクを同時にノイズ除去します。挿入マスクを拡散プロセスで明示的にモデリングすることで、MADDは効果的にアフォーダンスの概念を促進します。幅広い実験結果により、当社の手法が最先端の手法を凌駕し、野外画像における強力な汎化性能を示すことが示されています。詳細は、https://github.com/KaKituken/affordance-aware-any で公開されているコードをご参照ください。
本論文では、複雑な数学問題を解決するのに優れたフロンティア数学モデルのスイートであるAceMathを紹介します。また、生成された解を評価し正しい解を確実に特定する高効率な報酬モデルも紹介します。指示に調整された数学モデルを開発するために、まず競争力のある性能を一般領域全体で達成する監督されたファインチューニング(SFT)プロセスを提案し、その後、厳選されたプロンプトと合成的に生成された応答のセットを使用して数学領域のためにターゲットとなるファインチューニングを行います。その結果、AceMath-72B-Instructモデルは、Qwen2.5-Math-72B-Instruct、GPT-4o、およびClaude-3.5 Sonnetを大幅に上回ります。数学に特化した報酬モデルを開発するために、まず、数学報酬モデルを評価する包括的かつ堅牢なベンチマークであるAceMath-RewardBenchを構築します。その後、数学報酬モデルを構築するための体系的なアプローチを提示します。その結果、AceMath-72B-RMモデルは、常に最先端の報酬モデルを上回ります。さらに、AceMath-72B-InstructをAceMath-72B-RMと組み合わせると、数学推論のベンチマーク全体で最高の平均rm@8スコアを達成します。当社は、モデルの重み、トレーニングデータ、および評価ベンチマークを以下のURLで公開します:https://research.nvidia.com/labs/adlr/acemath
手続き型コンテンツ生成(PCG)は高品質な3Dコンテンツを作成するのに強力ですが、望ましい形状を生成するための制御は難しく、しばしば広範なパラメータ調整が必要です。逆手続き型コンテンツ生成は、入力条件下で最適なパラメータを自動的に見つけることを目指しています。しかし、既存のサンプリングベースおよびニューラルネットワークベースの手法は、依然として多数のサンプル反復や制御性の制約に苦しんでいます。本研究では、一般的な画像条件からの逆PCGのための革新的で効率的な手法であるDI-PCGを提案します。その中心には、軽量な拡散トランスフォーマーモデルがあり、PCGパラメータは直接ノイズ除去の対象として扱われ、観測された画像はパラメータ生成を制御する条件として機能します。DI-PCGは効率的かつ効果的です。訓練にはわずか7.6Mのネットワークパラメータと30 GPU時間しか必要とせず、パラメータを正確に回復し、野外画像にもよく一般化する優れた性能を示します。定量的および定性的な実験結果は、DI-PCGの逆PCGおよび画像から3D生成タスクでの有効性を検証しています。DI-PCGは効率的な逆PCGのための有望なアプローチを提供し、3D生成パスにおいて、パラメトリックモデルを使用して3Dアセットを構築する方法をモデル化する価値ある探索ステップを示しています。
大規模なマルチモダリティモデル(LMMs)のトレーニングは、画像と言語を結びつける記述的な画像キャプションに依存しています。既存の手法は、LMMモデルからキャプションを抽出するか、インターネットの画像からキャプションを構築するか、あるいは人間によって行います。私たちは、画像キャプションを強化するために、元々画像キャプショニングのために訓練されていない注釈付き画像から初期に訓練された市販のビジュアルスペシャリストを活用することを提案します。 私たちの手法であるDCEは、オブジェクトの低レベルおよび細かい属性(例:深さ、感情、細かいカテゴリ)およびオブジェクト間の関係(例:相対位置および人物-オブジェクト相互作用(HOI))を探求し、これらの属性を記述的なキャプションに組み合わせます。実験では、このようなビジュアルスペシャリストが、視覚理解タスクのパフォーマンスを向上させるだけでなく、より正確な視覚理解による恩恵を受ける推論を可能にすることを示しています。他のビジュアルスペシャリストが簡単にパイプラインに組み込まれるように、ソースコードとパイプラインを公開します。DCEパイプラインとデータセットの完全なソースコードは、https://github.com/syp2ysy/DCE で入手可能です。
我々は、訓練中に正解編集画像の必要性を排除する教示に基づく画像編集のための教師なしモデルを提案します。既存の教師あり方法は、入力画像、編集画像、および編集指示の三つ組を含むデータセットに依存しています。これらは、既存の編集方法または人間による注釈によって生成され、バイアスを導入し一般化能力を制限します。私たちの手法は、サイクル編集一貫性(CEC)と呼ばれる新しい編集メカニズムを導入することで、これらの課題に対処しています。CECは、画像空間と注意空間で一貫性を強制する前向きおよび後ろ向きの編集を一つの訓練ステップで適用することを可能にします。これにより、正解編集画像の必要性を回避し、実画像キャプションペアまたは画像キャプション編集三つ組からなるデータセットで初めて訓練を解除できます。私たちは経験的に示し、教師なし技術が高い忠実度と精度でより広範囲の編集において優れた性能を発揮することを示しています。三つ組の事前存在するデータセットの必要性を排除し、教師あり方法に関連するバイアスを削減し、CECを提案することにより、私たちの研究は教示に基づく画像編集のスケーリングの解除において重要な進歩を表しています。
AV-Linkという統合フレームワークを提案します。このフレームワークは、凍結されたビデオおよびオーディオ拡散モデルの活性化を活用し、時間的に整列したクロスモーダル条件付けのために設計されたビデオからオーディオへ、およびオーディオからビデオへの生成を可能にします。当フレームワークの鍵となるのは、Fusion Blockであり、バックボーンとなるビデオおよびオーディオ拡散モデル間で双方向の情報交換を可能にする、時間的に整列した自己注意操作を実現しています。従来の作業とは異なり、AV-Linkは他のタスクのために事前に学習された特徴抽出器を条件付け信号として使用する代わりに、ビデオ特徴を使用してオーディオを生成したり、オーディオ特徴を使用してビデオを生成するために、補完的なモダリティで得られた特徴を直接活用できる単一のフレームワークです。我々は設計選択肢を詳細に評価し、当手法が同期された高品質なオーディオビジュアルコンテンツを実現する能力を実証し、没入型メディア生成の応用可能性を示しています。プロジェクトページ:snap-research.github.io/AVLink/
本論文では、LLM(Large Language Models)のオープンドメインにおける分子生成能力を評価する初のベンチマークであるText-based Open Molecule Generation Benchmark(TOMG-Bench)を提案します。TOMG-Benchには、分子編集(MolEdit)、分子最適化(MolOpt)、およびカスタマイズされた分子生成(MolCustom)の3つの主要タスクのデータセットが含まれます。各タスクにはさらに3つのサブタスクがあり、各サブタスクには5,000のテストサンプルが含まれています。オープンな分子生成の固有の複雑さを考慮して、生成された分子の品質と精度の両方を測定するのに役立つ自動評価システムも開発しました。25のLLMを包括的にベンチマーク化することで、テキストによる分子探索の現在の制限と改善の可能性が明らかになります。さらに、TOMG-Benchで提起された課題を解決するために提案された専門の指示チューニングデータセットであるOpenMolInsの支援を受けて、Llama3.1-8Bはすべてのオープンソースの一般的なLLMを上回り、さらにGPT-3.5-turboを46.5%上回る結果をTOMG-Benchで達成しました。コードとデータセットは、https://github.com/phenixace/TOMG-Bench から入手可能です。
最近の研究では、拡散モデル(DMs)の潜在能力が探求されており、オブジェクトの位置、サイズ、構成などを変更する一貫性のあるオブジェクト編集を目指しています。この際、オブジェクトと背景の一貫性を保ちつつ、テクスチャや属性を変更せずに編集された画像の一貫性を維持することが目標とされています。現在の推論時の手法は、しばしばDDIMの逆変換に依存しており、これは効率性と編集された画像の実現可能な一貫性を損なう傾向があります。最近の手法では、エネルギーガイダンスも利用されており、予測されたノイズを反復的に更新し、潜在変数を元の画像から遠ざけ、歪みを引き起こす可能性があります。本論文では、PixelManという、ピクセル操作と生成を通じて一貫性のあるオブジェクト編集を実現するための逆変換フリーかつ学習フリーの手法を提案します。ここでは、ピクセル空間でソースオブジェクトの複製を直接目的の位置に作成し、効率的なサンプリング手法を導入して、編集されたオブジェクトを目標位置に調和させ、元の位置を修復しつつ、推論中に画像の一貫性を確保するために、編集される画像をピクセル操作された画像にアンカーし、推論中にさまざまな一貫性を保つ最適化手法を導入します。ベンチマークデータセットに基づく実験評価と幅広い視覚的比較により、16回の推論ステップでPixelManが、通常50回のステップが必要な一連の最先端の学習ベースおよび学習フリーの手法を上回ることが示されました。
本論文では、さまざまな日付形式、時間的文脈、および推論タイプをカバーする190の質問を備えたベンチマークであるDateLogicQAを紹介します。我々は、トークン化の品質を評価するためのSemantic Integrity Metricを提案し、埋め込みに影響を与えるRepresentation-Level Biasと、推論の出力に影響を与えるLogical-Level Biasの2つのバイアスを分析します。我々の調査結果は、時間的推論におけるLLMの能力と限界を包括的に評価し、時間データを正確に処理する際の主要な課題を明らかにします。当該研究のGitHubリポジトリは、以下のURLから入手可能です:https://github.com/gagan3012/EAIS-Temporal-Bias
現実的な人間のビデオを生成することは依然として困難な課題であり、最も効果的な手法は現在、人間の動きのシーケンスを制御信号として利用しています。既存のアプローチは、他のビデオから抽出された既存の動きを使用することが一般的であり、これにより特定の動きタイプやグローバルシーンの一致に制約が生じます。私たちは、シーン画像に応じて異なるシーンに適応する多様な動きを可能にする、Move-in-2Dという新しいアプローチを提案します。私たちのアプローチは、シーン画像とテキストプロンプトの両方を入力として受け入れる拡散モデルを利用し、シーンに合わせた動きシーケンスを生成します。このモデルを訓練するために、単一の人間の活動を特集した大規模なビデオデータセットを収集し、各ビデオに対応する人間の動きをターゲット出力として注釈付けします。実験では、私たちの手法が、射影後にシーン画像と整合する人間の動きを効果的に予測することを示しています。さらに、生成された動きシーケンスがビデオ合成タスクにおいて人間の動きの品質を向上させることを示しています。