翻訳付きの日次キュレーションされたAI研究論文
Scalable Vector Graphics(SVG)は、解像度に依存せず編集可能な特性から、グラフィックデザインにおいて広く採用されている重要な画像フォーマットです。高品質なSVGの生成に関する研究は、AIGCコミュニティのデザイナーや研究者から継続的に注目を集めてきました。しかし、既存の手法は、膨大な計算コストを伴う非構造化の出力を生成するか、過度に単純化された構造のモノクロアイコンの生成に限定されています。高品質で複雑なSVGを生成するために、我々はOmniSVGを提案します。これは、事前学習済みのVision-Language Models(VLM)を活用した、エンドツーエンドのマルチモーダルSVG生成の統一フレームワークです。SVGコマンドと座標を離散トークンとしてパラメータ化することで、OmniSVGは構造的なロジックを低レベルのジオメトリから切り離し、複雑なSVG構造の表現力を維持しながら効率的な学習を実現します。さらに、SVG合成の開発を促進するために、200万の豊富な注釈付きSVGアセットを含むマルチモーダルデータセットMMSVG-2Mと、条件付きSVG生成タスクのための標準化された評価プロトコルを導入します。大規模な実験により、OmniSVGが既存の手法を凌駕し、プロフェッショナルなSVGデザインワークフローへの統合の可能性を示しています。
大規模言語モデル(LLM)は、高度な推論、長文コンテンツ生成、ツールの使用を通じて、ますます複雑なタスクに取り組む能力を実証しています。これらのタスクを解決するためには、しばしば長い推論時間の計算が必要となります。人間の問題解決においては、作業を迅速化するための一般的な戦略として、問題をサブタスクに分割したり、異なる戦略を並行して探索したりする「協力」が挙げられます。最近の研究では、LLMも投票メカニズムや並列実行可能な独立したサブタスクの明示的な作成といった協力フレームワークを実装することで、並列に動作できることが示されています。しかし、これらのフレームワークはすべてのタイプのタスクに適しているわけではなく、その適用性が制限される場合があります。本研究では、異なる設計アプローチを提案します。LLMの「ワーカー」を並列に実行し、同時に更新されるアテンションキャッシュを介して同期させ、これらのワーカーに最適な協力方法を決定させるものです。このアプローチにより、各インスタンスは、並列キャッシュ内で互いの部分的な進捗を「見る」ことができながら、問題に応じた独自の協力戦略を考案することができます。このアプローチを、Hogwild!推論として実装します。Hogwild!推論は、同じLLMの複数のインスタンスが同じアテンションキャッシュを使用して並列に実行され、互いの生成したトークンに「即時」にアクセスできる並列LLM推論エンジンです。Hogwild!推論は、Rotary Position Embeddings(RoPE)を活用して再計算を回避しつつ、並列ハードウェアの利用率を向上させます。現代の推論能力を持つLLMは、追加のファインチューニングなしで、共有されたKey-Valueキャッシュを使用して推論を実行できることがわかりました。
Skywork R1Vを紹介します。これは、R1シリーズの大規模言語モデル(LLM)を視覚モダリティに拡張するマルチモーダル推論モデルであり、効率的なマルチモーダル転移手法を採用しています。軽量な視覚プロジェクターを活用することで、Skywork R1Vは基盤となる言語モデルや視覚エンコーダーの再学習を必要とせず、シームレスなマルチモーダル適応を実現します。視覚とテキストの整合性を強化するため、反復的な教師ありファインチューニング(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせたハイブリッド最適化戦略を提案し、クロスモーダル統合の効率を大幅に向上させます。さらに、推論データ生成のための適応長チェーンオブソート蒸留アプローチを導入します。このアプローチは推論チェーンの長さを動的に最適化し、推論効率を向上させるとともに、過剰な推論による思考の行き詰まりを防ぎます。実証評価では、Skywork R1Vはわずか38Bのパラメータで競争力のある性能を発揮し、MMMUベンチマークで69.0、MathVistaで67.5のスコアを達成しました。同時に、AIMEで72.0、MATH500で94.0という印象的なスコアを示し、堅牢なテキスト推論性能を維持しています。Skywork R1Vのモデルウェイトは、オープン性と再現性を促進するために公開されています。
画像生成の分野は急速に進化を遂げており、初期のGANベースのアプローチから拡散モデルを経て、最近では理解と生成タスクを統合しようとする統一的な生成アーキテクチャへと発展してきた。特にGPT-4oのような最新の進展は、高忠実度のマルチモーダル生成の実現可能性を示しているが、そのアーキテクチャ設計は未だに謎に包まれており、公開されていない。この状況は、画像とテキスト生成が既にこれらの手法において統一的なフレームワークに統合されているかどうかという疑問を投げかけている。本研究では、GPT-4oの画像生成能力を実証的に調査し、主要なオープンソースおよび商用モデルと比較する。評価は、テキストから画像、画像から画像、画像から3D、画像からX生成といった4つの主要カテゴリーにわたる20以上のタスクを網羅している。分析を通じて、GPT-4oの様々な設定下での強みと限界を明らかにし、生成モデリングの広範な進化の中に位置づける。この調査を通じて、将来の統一的な生成モデルに向けた有望な方向性を特定し、アーキテクチャ設計とデータスケーリングの役割を強調する。
大規模言語モデル(LLM)を人間の選好に合わせることは、目覚ましい成功を収めてきました。しかし、既存の中国語選好データセットは、規模が小さい、ドメインのカバー範囲が狭い、厳密なデータ検証が欠如しているといった課題を抱えています。さらに、指示と応答のラベリングに人間のアノテーターを依存していることが、人間選好データセットの拡張性を大きく制約しています。これらの課題に対処するため、我々は人間の介入を一切必要としないLLMベースの中国語選好データセットアノテーションパイプラインを設計しました。具体的には、92,000件の高品質な中国語クエリをクロールし、慎重にフィルタリングした後、15の主流LLMを使用して選択された応答と拒否された応答のペアを生成し、スコア付けしました。これに基づいて、我々はCOIG-P(Chinese Open Instruction Generalist - Preference)を導入しました。これは、チャット、コード、数学、論理、小説、ロールの6つの多様なドメインにまたがる1,009,000件の中国語選好ペアからなる高品質で大規模な中国語選好データセットです。COIG-Pを基盤として、LLMを使用したスコアリングのオーバーヘッドを削減するために、8Bサイズの中国語報酬モデル(CRM)をトレーニングし、中国語報酬ベンチマーク(CRBench)を慎重に構築しました。AlignBench liu2024alignbenchbenchmarkingchinesealignment に基づく評価結果は、COIG-Pが他の中国語選好データセットを大幅に上回り、Qwen2/2.5およびInfinity-Instruct-3M-0625モデルシリーズに対してそれぞれ2%から12%の性能向上をもたらすことを示しています。CRBenchの結果は、我々のCRMが強力で堅牢なスコアリング能力を持っていることを示しています。我々はこれをCOIG-Pのテスト分割で選択された応答と拒否された応答のペアをフィルタリングするために適用し、実験の結果、低品質なサンプルを識別する点でGPT-4oに匹敵しつつ、効率性とコスト効果を維持していることが示されました。我々のコードとデータはhttps://github.com/multimodal-art-projection/COIG-Pで公開されています。
主題駆動型生成はその幅広い応用可能性から画像生成分野で広く探求されてきたが、データのスケーラビリティと主題の拡張性において依然として課題を抱えている。第一の課題として、単一主題のデータセットから複数主題のデータセットへの移行とそのスケーリングは特に困難である。第二の課題として、最近の手法の多くは単一主題の生成に焦点を当てており、複数主題のシナリオに対応するのが難しい。本研究では、この課題に対処するため、高度に一貫性のあるデータ合成パイプラインを提案する。このパイプラインは拡散トランスフォーマーの内在的な文脈内生成能力を活用し、高一貫性の複数主題ペアデータを生成する。さらに、プログレッシブなクロスモーダルアライメントとユニバーサルロータリーポジション埋め込みから構成されるUNOを導入する。これはテキストから画像へのモデルから反復的に訓練された、複数画像条件付きの主題から画像へのモデルである。大規模な実験により、本手法が単一主題および複数主題駆動型生成の両方において、高い一貫性を保ちつつ制御性を確保できることが示された。
Mixture of Experts(MoE)アーキテクチャは、計算量の比例的な増加なしにモデル容量を拡大できるという重要な利点を実証してきました。しかし、大規模なMoEモデルのサイズは依然として多大なメモリ要求を引き起こし、リソースが制約されたプラットフォームではエキスパートのオフロードが必要となり、多大なオーバーヘッドが発生します。ハイブリッドCPU-GPU推論は、CPUの計算を活用してエキスパートのロードオーバーヘッドを削減するために提案されていますが、大きな課題に直面しています。一方で、MoEモデルのエキスパート活性化パターンは非常に不安定であり、既存研究における固定マッピング戦略は非効率的です。他方で、MoEのハイブリッドCPU-GPUスケジュールは、多様なエキスパートサイズ、構造、不均一なワークロード分布などにより、本質的に複雑です。これらの課題に対処するため、本論文では、新しいCPU-GPUスケジューリングとキャッシュ管理システムを通じてリソース利用率を向上させるハイブリッドCPU-GPU推論フレームワークであるHybriMoEを提案します。HybriMoEは、(i) CPUとGPU間のワークロードをバランスする動的層内スケジューリング戦略、(ii) 影響駆動型層間プリフェッチアルゴリズム、(iii) エキスパート活性化の不安定性を緩和するスコアベースのキャッシュアルゴリズムを導入します。HybriMoEをkTransformersフレームワーク上に実装し、広く使用されている3つのMoEベースのLLMで評価を行いました。実験結果は、HybriMoEが最先端のハイブリッドMoE推論フレームワークと比較して、プリフィル段階で平均1.33倍、デコード段階で平均1.70倍の高速化を達成することを示しています。私たちのコードは以下で公開されています:https://github.com/PKU-SEC-Lab/HybriMoE。
テキストから画像(T2I)を生成する拡散/フローモデルは、その柔軟な視覚的創造能力により、最近注目を集めています。しかし、高解像度の画像合成は、高解像度コンテンツの希少性と複雑さから、依然として大きな課題を抱えています。この問題に対処するため、我々はHiFlowを提案します。HiFlowは、事前学習済みのフローモデルの解像度ポテンシャルを引き出すための、トレーニング不要でモデルに依存しないフレームワークです。具体的には、HiFlowは高解像度空間内に仮想参照フローを確立し、低解像度フロー情報の特性を効果的に捉えることで、高解像度生成を以下の3つの主要な側面からガイドします:低周波数一貫性のための初期化アライメント、構造保存のための方向アライメント、および詳細忠実度のための加速アライメント。このフローアライメントガイダンスを活用することで、HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に向上させ、そのパーソナライズされたバリエーションにおいても汎用性を示します。広範な実験により、HiFlowが現在の最先端手法を上回る優れた高解像度画像品質を達成する優位性が検証されました。
強力な大規模言語モデル(LLM)が超人的な推論能力を示す中で、重要な疑問が浮上している:LLMは本当に推論を行っているのか、それとも広範なウェブスクレイピングされたトレーニングデータセットから答えを思い出しているだけなのか?公開されたベンチマークは、後続のLLMトレーニングセットに組み込まれると必然的に汚染され、信頼性のある評価としての価値を損なう。この問題に対処するため、我々はKUMOという生成型評価フレームワークを導入した。KUMOは、LLMとシンボリックエンジンを相乗的に組み合わせ、部分的に観測可能で難易度調整可能な多段階推論タスクを動的に生成する。自動化されたパイプラインを通じて、KUMOはオープンエンドのドメインにわたる新規タスクを継続的に生成し、モデルに記憶ではなく真の一般化を示すことを強いる。我々はKUMOが作成した100のドメインにわたる5,000のタスクで23の最先端LLMを評価し、その推論能力を大学生と比較した。その結果、多くのLLMが簡単な推論タスクで大学レベルのパフォーマンスを上回り、推論スケーリングされたLLMは複雑な推論課題で大学レベルのパフォーマンスに到達することが明らかになった。さらに、KUMOタスクでのLLMのパフォーマンスは、新たにリリースされた実世界の推論ベンチマークの結果と強く相関しており、KUMOがLLMの真の推論能力を評価するための堅牢で持続可能なツールとしての価値を裏付けている。
マルチモーダル大規模言語モデル(MLLMs)の最近の進展により、様々なマルチモーダルベンチマークにおいて大幅な改善がもたらされています。しかし、評価が静的データセットからオープンワールドの動的環境へと移行するにつれ、現在のゲームベースのベンチマークは、視覚中心のタスクを欠いており、現実世界の意思決定に必要な多様な推論スキルを評価できないため、不十分なままです。これを解決するため、我々は視覚中心の多能力ゲーム評価(V-MAGE)を導入します。V-MAGEは、MLLMsの視覚推論能力を評価するために設計されたゲームベースの評価フレームワークで、5つの多様なゲームと30以上の手作りレベルを特徴とし、位置特定、軌跡追跡、タイミング、視覚記憶などのコアな視覚スキルに加えて、長期的な計画や熟慮といった高次の推論をテストします。我々はV-MAGEを使用して主要なMLLMsを評価し、その視覚知覚と推論における重大な課題を明らかにしました。すべてのゲーム環境において、Eloレーティング比較で決定されたトップパフォーマンスのMLLMsは、人間と比較して大幅なパフォーマンスギャップを示しました。我々の調査結果は、モデルが犯す様々な種類の知覚エラーを含む重要な制限を強調し、エージェント中心の視点からの改善の可能性を示唆しています。例えば、エージェント戦略の洗練や知覚の不正確さの解決などです。コードはhttps://github.com/CSU-JPG/V-MAGEで利用可能です。
テキストベースの画像編集(TIE)において、忠実性と編集性のバランスを取ることは極めて重要であり、これに失敗すると過剰編集や編集不足といった問題が生じがちです。既存の手法では、構造保存のためにアテンション注入を利用し、編集性のために事前学習済みのテキストto画像(T2I)モデルの内在的なテキストアライメント能力を活用するのが一般的ですが、これら二つの目的を適切にバランスさせるための明示的かつ統一的なメカニズムが欠けています。本研究では、UnifyEditを提案します。これは、拡散潜在空間最適化を行い、統一フレームワーク内で忠実性と編集性のバランスの取れた統合を可能にするチューニング不要の手法です。直接的なアテンション注入とは異なり、構造忠実性のための自己アテンション(SA)保存制約と、編集性向上のためのテキストアライメントを強化するクロスアテンション(CA)アライメント制約という二つのアテンションベースの制約を開発しました。しかし、両制約を同時に適用すると勾配競合が生じ、一方の制約が支配的になることで過剰編集や編集不足が発生する可能性があります。この課題に対処するため、これらの制約の影響を動的に調整する適応的時間ステップスケジューラを導入し、拡散潜在空間を最適なバランスへと導きます。大規模な定量的・定性的実験を通じて、本手法の有効性が検証され、様々な編集タスクにおいて構造保存とテキストアライメントの堅牢なバランスを達成する点で他の最先端手法を凌駕する優位性が示されました。ソースコードはhttps://github.com/CUC-MIPG/UnifyEditで公開予定です。
最近の推論モデルの進展により、特に数学的推論のような複雑なタスクにおいて、詳細かつ包括的な推論プロセスを採用することで、精度の大幅な向上が実証されています。しかし、これらの長い推論シーケンスを生成することは計算コストが高く、時間がかかります。この非効率性に対処するため、我々は特定のタスクに内在する並列化可能性を活用して推論プロセスを加速します。具体的には、複数の並列推論ブランチが存在する場合、特殊なアテンションマスクを使用してステップごとに複数のトークンをデコードし、それらを単一のシーケンス内で処理することで、追加のメモリ使用を回避します。実験結果は、我々の手法がデコード時間において100%以上の高速化を達成しつつ、回答品質を維持することを示しています。
強化学習によるファインチューニング(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLMs)の数学的推論能力を向上させる大きな可能性を示していますが、多くの場合、サンプル効率と計算効率が低く、広範なトレーニングを必要とします。本研究では、適応カリキュラム学習を通じてRFTの効率性と最終的な精度を大幅に改善するAdaRFT(Adaptive Curriculum Reinforcement Finetuning)を提案します。AdaRFTは、モデルの最近の報酬信号に基づいてトレーニング問題の難易度を動的に調整し、モデルが常に挑戦的だが解決可能なタスクでトレーニングを行うことを保証します。この適応サンプリング戦略により、最適な難易度範囲を維持することで学習を加速し、簡単すぎる問題や難しすぎる問題での計算リソースの無駄を回避します。AdaRFTは、Proximal Policy Optimization(PPO)のような標準的なRFTアルゴリズムに軽量な拡張を加えるだけで、報酬関数やモデルアーキテクチャを変更する必要はありません。AMC、AIME、IMOスタイルの問題を含む競技レベルの数学データセットでの実験により、AdaRFTがトレーニング効率と推論性能の両方を大幅に向上させることが実証されています。複数のデータ分布とモデルサイズにわたってAdaRFTを評価し、トレーニングステップ数を最大2倍削減し、精度を大幅に向上させることで、よりスケーラブルで効果的なRFTフレームワークを提供することを示しました。
既存の大規模言語モデル(LLMs)および大規模視覚言語モデル(LVLMs)の推論評価フレームワークは、主にテキストベースの推論能力または視覚言語理解能力を評価するものであり、テキストと視覚的制約の間の動的な相互作用は限定的です。この制約に対処するため、我々はCrossWordBenchを導入します。これは、クロスワードパズルという媒体を通じてLLMsとLVLMsの推論能力を評価するためのベンチマークです。クロスワードパズルは、テキストベースのヒントからの意味的制約と視覚的グリッド構造からの交差制約に従うマルチモーダルなタスクを必要とします。CrossWordBenchは、複数の形式(テキストと画像)でパズルを生成する制御可能なパズル生成フレームワークを活用し、直接的なパズル解決からインタラクティブモードまでさまざまな評価戦略を提供します。20以上のモデルに対する広範な評価により、推論LLMsが交差文字制約を効果的に活用することで非推論モデルを大幅に上回ることが明らかになりました。さらに、LVLMsがこのタスクに苦戦し、パズル解決性能とグリッド解析精度の間に強い相関があることが示されました。我々の知見は、現在のLLMsとLVLMsの推論能力の限界を明らかにし、将来の評価のためのマルチモーダル制約タスクを作成するための効果的なアプローチを提供します。
最近のLLM(大規模言語モデル)を用いた自動定理証明(ATP)の進展により、Lean 4コードを用いた形式的推論の可能性が浮き彫りになっています。しかし、ATPはOpenAIのO1/O3やDeepseekのR1で示されたような最近のポストトレーニングスケーリングによる革命をまだ経験していません。本研究では、ATPのポストトレーニング全体を調査し、自然言語における推論モデルのブレークスルーと整合させることを目指します。まず、現在のATPモデルを、多数のステートメント-証明ペアと、人間の推論や仮説精緻化を模倣する認知行動を取り入れるための追加データからなるハイブリッドデータセットで継続的にトレーニングします。次に、Lean 4コンパイラによって返される結果報酬を用いた強化学習を探求します。私たちが設計した継続的トレーニングと強化学習のプロセスを通じて、DeepSeek-Prover-v1.5やGoedel-Proverを含む既存の形式的証明器を改善し、全証明生成の分野で最先端の性能を達成しました。例えば、MiniF2Fにおいて59.8%のパス率(pass@32)を達成しています。これは進行中のプロジェクトであり、私たちは発見を段階的に更新し、データとトレーニングの詳細を公開していく予定です。
模倣学習は、汎用ロボットの構築に向けた有望なアプローチとして注目を集めています。しかし、高品質な専門家のデモンストレーションに依存するため、大規模なロボット基盤モデルへの模倣学習のスケーリングは依然として課題となっています。一方で、多様な環境や行動を描いた大量のビデオデータが容易に利用可能です。このデータは、現実世界のダイナミクスやエージェントと環境の相互作用に関する豊富な情報源を提供します。しかし、現代の手法の多くに必要な行動アノテーションが欠如しているため、このデータを直接模倣学習に活用することは困難でした。本研究では、ビデオデータと行動データの両方を活用してポリシー学習を行うためのフレームワークであるUnified World Models (UWM)を提案します。具体的には、UWMは行動拡散プロセスとビデオ拡散プロセスを統合されたトランスフォーマーアーキテクチャ内に統合し、各モダリティを独立した拡散タイムステップで制御します。各拡散タイムステップを単純に制御するだけで、UWMはポリシー、順ダイナミクス、逆ダイナミクス、ビデオ生成器を柔軟に表現できることを示します。シミュレーションおよび実世界の実験を通じて、(1) UWMはダイナミクスと行動予測を伴う大規模なマルチタスクロボットデータセットでの効果的な事前学習を可能にし、模倣学習よりも汎用性とロバスト性の高いポリシーを実現すること、(2) UWMはモダリティ固有の拡散タイムステップを独立して制御することで、行動フリーのビデオデータからの学習を自然に促進し、ファインチューニングされたポリシーの性能をさらに向上させることを示します。我々の結果は、UWMが大規模で異種混合のデータセットを活用したスケーラブルなロボット学習に向けた有望な一歩を提供し、しばしば異なるパラダイムである模倣学習と世界モデリングの間のシンプルな統一を実現することを示唆しています。ビデオとコードはhttps://weirdlabuw.github.io/uwm/で公開されています。
一般化カテゴリ発見(GCD)は実用的であるが未開拓の問題であり、モデルが既存クラスのラベル付きサンプルを活用して新規カテゴリを自動的にクラスタリングし発見することを要求する。課題は、未ラベルデータが既存クラスと新規クラスの両方を含むことである。擬似ラベリングとパラメトリック分類器を活用した初期の研究は、既存クラスと新規クラスを別々に扱い、それらの間で精度の不均衡を引き起こした。最近の手法では、コントラスティブ学習を採用しているが、潜在的なポジティブサンプルを見落とし、クラスタリング目的から切り離されているため、偏った表現と最適ではない結果をもたらしている。これらの問題に対処するため、我々は統一された偏りのないプロトタイプ学習フレームワーク、すなわちProtoGCDを導入し、既存クラスと新規クラスを共同プロトタイプと統一された学習目的でモデル化し、既存クラスと新規クラスの間で統一されたモデリングを可能にする。具体的には、確認バイアスを軽減するための二重レベルの適応型擬似ラベリングメカニズムを提案し、GCDに適した表現を学習するための2つの正則化項を組み合わせる。さらに、実用的な考慮から、新規クラスの数を推定する基準を考案した。また、ProtoGCDを拡張して未見の外れ値を検出し、タスクレベルの統一を達成する。包括的な実験により、ProtoGCDが汎用データセットと細粒度データセットの両方で最先端の性能を達成することが示された。コードはhttps://github.com/mashijie1028/ProtoGCDで公開されている。