翻訳付きの日次キュレーションされたAI研究論文
Soraは、単一シーンのビデオ生成におけるDiffusion Transformer(DiT)アーキテクチャの巨大な可能性を明らかにしました。しかし、より広範な応用が可能なマルチシーンビデオ生成というより困難なタスクは、まだ十分に探求されていません。このギャップを埋めるため、我々はMask^2DiTを提案します。これは、ビデオセグメントとそれに対応するテキスト注釈の間に細かい1対1のアラインメントを確立する新しいアプローチです。具体的には、DiTアーキテクチャ内の各アテンションレイヤーに対称的なバイナリマスクを導入し、各テキスト注釈がそれぞれのビデオセグメントにのみ適用されることを保証しながら、視覚トークン間の時間的整合性を維持します。このアテンションメカニズムにより、セグメントレベルのテキストから視覚への正確なアラインメントが可能になり、DiTアーキテクチャが固定数のシーンを持つビデオ生成タスクを効果的に処理できるようになります。さらに、DiTアーキテクチャに既存のシーンに基づいて追加のシーンを生成する能力を付与するため、セグメントレベルの条件付きマスクを組み込みます。これにより、新しく生成される各セグメントが先行するビデオセグメントに条件付けされ、自己回帰的なシーン拡張が可能になります。定性的および定量的な実験の両方で、Mask^2DiTがセグメント間の視覚的一貫性を維持しつつ、各セグメントとそれに対応するテキスト記述の間の意味的アラインメントを確保することに優れていることが確認されました。プロジェクトページはhttps://tianhao-qi.github.io/Mask2DiTProjectです。
本報告では、テキスト、画像、音声、動画など多様なモダリティを認識しつつ、テキストと自然な音声応答をストリーミング方式で同時生成するエンドツーエンドのマルチモーダルモデルであるQwen2.5-Omniを紹介します。マルチモーダル情報入力のストリーミングを可能にするため、音声と視覚のエンコーダはブロック単位の処理方式を採用しています。動画入力のタイムスタンプを音声と同期させるため、音声と動画を交互に順序立てて配置し、TMRoPE(Time-aligned Multimodal RoPE)という新しい位置埋め込み手法を提案します。テキストと音声の同時生成においてモダリティ間の干渉を回避するため、Thinker-Talkerアーキテクチャを提案します。このフレームワークでは、Thinkerはテキスト生成を担う大規模言語モデルとして機能し、TalkerはThinkerの隠れ表現を直接利用して音声トークンを出力するデュアルトラックの自己回帰モデルです。ThinkerとTalkerの両モデルは、エンドツーエンドで学習および推論可能な設計となっています。音声トークンをストリーミング方式でデコードするため、受容野を制限するスライディングウィンドウDiTを導入し、初期パッケージ遅延の低減を図っています。Qwen2.5-Omniは、同規模のQwen2.5-VLと同等の性能を発揮し、Qwen2-Audioを上回ります。さらに、Omni-Benchなどのマルチモーダルベンチマークにおいて、最先端の性能を達成しています。特に、Qwen2.5-Omniのエンドツーエンド音声指示追従性能は、MMLUやGSM8Kなどのベンチマークで示されるように、テキスト入力に対する能力と同等です。音声生成に関しては、Qwen2.5-OmniのストリーミングTalkerは、既存のストリーミングおよび非ストリーミング方式の代替手法のほとんどを堅牢性と自然さの点で上回っています。
本報告書は、ビデオ生成の限界を押し広げるために設計された包括的かつオープンなビデオ基盤モデルスイート「Wan」を紹介する。主流の拡散トランスフォーマーパラダイムを基盤として構築されたWanは、新規のVAE、スケーラブルな事前学習戦略、大規模なデータキュレーション、自動化された評価指標といった一連のイノベーションを通じて、生成能力において大きな進歩を達成している。これらの貢献が相まって、モデルの性能と汎用性が向上している。具体的には、Wanは以下の4つの主要な特徴を有する:リーディングパフォーマンス:数十億枚の画像とビデオを含む大規模なデータセットで学習された14Bモデルは、データとモデルサイズに関するビデオ生成のスケーリング則を示しており、複数の内部および外部ベンチマークにおいて既存のオープンソースモデルや最先端の商用ソリューションを一貫して上回り、明確かつ顕著な性能優位性を実証している。包括性:Wanは、効率性と有効性のためにそれぞれ1.3Bと14Bパラメータの2つの有能なモデルを提供する。また、画像からビデオ、指示に基づくビデオ編集、個人向けビデオ生成など、最大8つのタスクをカバーする複数の下流アプリケーションを包含している。コンシューマーグレードの効率性:1.3Bモデルは、8.19GBのVRAMのみを必要とする卓越したリソース効率性を示し、幅広いコンシューマーグレードのGPUとの互換性を実現している。オープン性:ビデオ生成コミュニティの成長を促進することを目的として、ソースコードとすべてのモデルを含むWanシリーズ全体をオープンソース化する。このオープン性は、業界におけるビデオ制作の創造的可能性を大幅に拡大し、学界に高品質なビデオ基盤モデルを提供することを目指している。すべてのコードとモデルはhttps://github.com/Wan-Video/Wan2.1で公開されている。
Gemmaファミリーの軽量オープンモデルに新たに加わったGemma 3を紹介します。このモデルは1Bから27Bパラメータまでのスケールで提供され、視覚理解能力、より広範な言語対応、そして少なくとも128Kトークンの長いコンテキストを特徴としています。また、長いコンテキストで爆発的に増加する傾向のあるKVキャッシュメモリを削減するため、モデルのアーキテクチャを変更しました。これは、ローカルアテンションレイヤーとグローバルアテンションレイヤーの比率を高め、ローカルアテンションのスパンを短く保つことで実現されています。Gemma 3モデルは蒸留を用いて訓練され、事前学習版と指示微調整版の両方においてGemma 2を上回る性能を達成しています。特に、私たちが新たに開発したポストトレーニングレシピは、数学、チャット、指示追従、多言語能力を大幅に向上させ、Gemma3-4B-ITをGemma2-27B-ITと競争力のあるレベルに、Gemma3-27B-ITをGemini-1.5-Proに匹敵するレベルに引き上げました。すべてのモデルをコミュニティに公開します。
近年の多様なロボットデータセットで訓練された視覚-言語-行動モデルは、限られたドメイン内データで有望な汎化能力を示しているが、離散化または連続的な行動を予測するためのコンパクトな行動ヘッドへの依存が、異種の行動空間への適応性を制約している。本論文では、Transformerアーキテクチャを活用し、統一されたマルチモーダル拡散プロセスを通じて連続的な行動シーケンスを直接的にノイズ除去するスケーラブルなフレームワーク、Ditaを提案する。従来の手法が浅いネットワークを介して融合された埋め込みに基づいてノイズ除去を行うのに対し、Ditaはコンテキスト内条件付けを採用し、ノイズ除去された行動と過去の観測からの生の視覚トークンとの細粒度のアラインメントを可能にする。この設計は、行動の差分と環境のニュアンスを明示的にモデル化する。拡散行動ノイズ除去器をTransformerのスケーラビリティと共にスケーリングすることで、Ditaは多様なカメラ視点、観測シーン、タスク、行動空間にわたるクロスエンボディメントデータセットを効果的に統合する。このようなシナジーは、様々な変動に対する堅牢性を高め、長期的なタスクの成功を促進する。広範なベンチマークでの評価は、シミュレーションにおいて最先端または同等の性能を示している。特に、Ditaは、サードパーソンカメラ入力のみを使用した10ショットのファインチューニングを通じて、環境変動や複雑な長期的タスクに対する堅牢な実世界適応を達成する。このアーキテクチャは、汎用ロボットポリシー学習のための汎用的で軽量かつオープンソースのベースラインを確立する。プロジェクトページ: https://robodita.github.io。
我々は、PerplexityのSonar Reasoning ProやOpenAIのGPT-4o Search Previewといった独自の検索AIソリューションと、それらのオープンソース版との間で広がりつつあるギャップを埋めるため、Open Deep Search(ODS)を導入する。ODSで導入された主な革新点は、最新のオープンソース大規模言語モデル(LLM)の推論能力を、クエリに答えるためにウェブ検索ツールを適切に使用できる推論エージェントで拡張することである。具体的には、ODSはユーザーが選択したベースLLMと連携する2つのコンポーネントで構成される:Open Search ToolとOpen Reasoning Agentである。Open Reasoning Agentは与えられたタスクを解釈し、ツールの呼び出しを含む一連のアクションを調整してタスクを完了する。そのツールの1つがOpen Search Toolである。Open Search Toolは、独自の検索ツールを上回る新しいウェブ検索ツールである。DeepSeek-R1のような強力なオープンソース推論LLMと組み合わせることで、ODSは2つのベンチマーク(SimpleQAとFRAMES)において、既存の最先端ベースラインにほぼ並び、時にはそれを上回る性能を発揮する。例えば、FRAMES評価ベンチマークでは、ODSは最近リリースされたGPT-4o Search Previewの既存の最高ベースラインを精度で9.7%向上させる。ODSは、任意のLLM(例えば、SimpleQAで82.4%、FRAMESで30.1%を達成するDeepSeek-R1)をシームレスに拡張し、検索と推論能力を追加して最先端の性能(SimpleQAで88.3%、FRAMESで75.3%)を実現するための汎用フレームワークである。
多段階空間推論とは、複数の連続的なステップにわたる空間関係を理解し、推論することを意味し、ロボット操作、自律ナビゲーション、自動化組立などの複雑な現実世界のアプリケーションに取り組む上で極めて重要です。現在のマルチモーダル大規模言語モデル(MLLM)がこの基本的な能力をどの程度習得しているかを評価するために、LEGOベースのタスクを通じて空間理解と逐次推論を評価するためのスケーラブルなベンチマークであるLEGO-Puzzlesを導入します。LEGO-Puzzlesは、基本的な空間理解から複雑な多段階推論まで、11の異なるタスクにわたる1,100の慎重に選ばれた視覚的質問応答(VQA)サンプルで構成されています。LEGO-Puzzlesに基づいて、最先端のMLLMを包括的に評価し、その空間推論能力に重大な限界があることを明らかにしました:最も強力なMLLMでさえ、テストケースの約半分しか回答できず、人間の参加者は90%以上の精度を達成します。VQAタスクに加えて、MLLMが組立図に従ってLEGO画像を生成する能力も評価します。実験の結果、Gemini-2.0-FlashとGPT-4oのみがこれらの指示に従う限定的な能力を示し、他のMLLMは入力画像を複製するか、完全に関連のない出力を生成することがわかりました。全体として、LEGO-Puzzlesは既存のMLLMの空間理解と逐次推論能力における重大な欠陥を暴露し、マルチモーダル空間推論のさらなる進歩の必要性を強調しています。
大規模マルチモーダルモデルの最近の進展により、デジタル領域における顕著な汎用能力が出現していますが、ロボットなどの物理的エージェントへの応用は依然として重要な課題です。本報告書では、Gemini 2.0を基盤としてロボティクス向けに特別に設計された新たなAIモデルファミリーを紹介します。私たちは、Gemini Roboticsを発表します。これは、ロボットを直接制御可能な高度なVision-Language-Action(VLA)汎用モデルです。Gemini Roboticsは、滑らかで反応的な動作を実行し、幅広い複雑な操作タスクに取り組むことができ、物体の種類や位置の変化に対して頑健であり、未見の環境に対応し、多様なオープン語彙の指示に従うことができます。追加のファインチューニングにより、Gemini Roboticsは、長期的で高度に器用なタスクの解決、わずか100回のデモンストレーションから新しい短期的タスクを学習すること、そして完全に新しいロボットの形態に適応するといった新たな能力に特化できることを示します。これは、Gemini RoboticsがGemini Robotics-ERモデルを基盤としているため可能です。Gemini Robotics-ER(Embodied Reasoning)は、Geminiのマルチモーダル推論能力を物理世界に拡張し、空間的および時間的理解を強化します。これにより、物体検出、ポインティング、軌道および把持予測、マルチビュー対応、3Dバウンディングボックス予測など、ロボティクスに関連する能力が可能になります。この新たな組み合わせが、さまざまなロボティクスアプリケーションをサポートする方法を示します。また、この新しいクラスのロボティクス基盤モデルに関連する重要な安全上の考慮事項についても議論し、対処します。Gemini Roboticsファミリーは、AIの潜在能力を物理世界で実現する汎用ロボットの開発に向けた重要な一歩を記すものです。
Classifier-Free Guidance (CFG) は、条件付き拡散モデルの訓練における基本的な技術です。CFG に基づく訓練の一般的な方法は、単一のネットワークを使用して条件付きおよび無条件のノイズ予測を学習し、条件付けのために小さなドロップアウト率を適用することです。しかし、訓練において無条件ノイズを限られた帯域幅で同時に学習することは、無条件の場合に対して不十分な事前分布をもたらすことが観察されています。さらに重要なことに、これらの不十分な無条件ノイズ予測は、条件付き生成の品質を低下させる深刻な原因となります。ほとんどの CFG ベースの条件付きモデルが、より優れた無条件生成能力を持つベースモデルをファインチューニングして訓練されているという事実に着想を得て、まず、CFG の無条件ノイズをベースモデルが予測したノイズに置き換えるだけで、条件付き生成を大幅に改善できることを示します。さらに、ファインチューニングされたモデルが訓練されたものとは異なる拡散モデルを無条件ノイズの置き換えに使用できることも示します。私たちの主張は、Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter、InstructPix2Pix を含む、画像および動画生成のための一連の CFG ベースの条件付きモデルを用いて実験的に検証されています。
生成モデルと識別モデルの相乗効果が注目を集めています。識別モデルであるContrastive Language-Image Pre-Training (CLIP)は高レベルのセマンティクスにおいて優れていますが、細かな視覚的ディテールの認識には苦戦しています。一般的に、表現を強化するために、生成モデルはCLIPの視覚的特徴を再構築の条件として利用します。しかし、その基本原理はまだ十分に探究されていません。本研究では、視覚的に完璧な生成が必ずしも表現強化に最適ではないことを実証的に発見しました。本質は、生成モデルから細かな知識を効果的に抽出しつつ、無関係な情報を軽減することにあります。重要な要因を探るために、以下の3つの側面に深く掘り下げました:(1) 条件付けメカニズム:少数のローカルトークンでも再構築の難易度を大幅に低下させ、訓練の崩壊を引き起こすことがわかりました。そのため、グローバルな視覚トークンのみを条件として利用することが最も効果的な戦略であると結論付けました。(2) ノイズ除去設定:エンドツーエンドの訓練は余分な情報を導入することが観察されました。これに対処するために、有用な視覚的知識を優先的に学習するための2段階の訓練戦略を提案しました。さらに、軽量なノイズ除去器が顕著な改善をもたらすことを実証しました。(3) 生成パラダイム:連続的および離散的なノイズ除去器の両方を探索し、望ましい結果を得ることで、本手法の汎用性を検証しました。これらの深い探求を通じて、最終的にGenHancerという効果的な手法に到達しました。この手法はMMVP-VLMベンチマークにおいて、例えばOpenAICLIPで6.0%の向上を示し、従来の手法を一貫して上回りました。強化されたCLIPは、視覚中心の性能を向上させるためにマルチモーダル大規模言語モデルにさらに組み込むことができます。すべてのモデルとコードは公開されています。
近年、FluxやIdeogram 2.0などの最先端のテキストから画像を生成するモデルは、文レベルの視覚的テキストレンダリングにおいて大きな進歩を遂げています。本論文では、より挑戦的な記事レベルの視覚的テキストレンダリングのシナリオに焦点を当て、ユーザーが提供する記事レベルの記述的プロンプトと超高密度レイアウトに基づいて、インフォグラフィックやスライドを含む高品質なビジネスコンテンツを生成する新たなタスクに取り組みます。根本的な課題は二つあります:大幅に長いコンテキスト長と、高品質なビジネスコンテンツデータの不足です。 これまでの研究の多くが限られた数のサブ領域と文レベルのプロンプトに焦点を当ててきたのに対し、ビジネスコンテンツにおいて数十または数百のサブ領域を持つ超高密度レイアウトに正確に従うことははるかに困難です。私たちは二つの重要な技術的貢献をします:(i)レイヤーごとの検索拡張型インフォグラフィック生成スキームを実装することで、超高密度レイアウトとプロンプトを備えたスケーラブルで高品質なビジネスコンテンツデータセット、すなわちInfographics-650Kを構築すること;(ii)レイアウト誘導型クロスアテンションスキームを提案し、超高密度レイアウトに従って数十の領域ごとのプロンプトを切り取られた領域の潜在空間に注入し、推論中にレイアウト条件付きCFGを使用して各サブ領域を柔軟に精緻化することです。 私たちのシステムは、FluxやSD3などの以前のSOTAシステムと比較して、BizEvalプロンプトセットにおいて強力な結果を示します。さらに、各コンポーネントの有効性を検証するために徹底的なアブレーション実験を実施します。私たちが構築したInfographics-650KとBizEvalが、広範なコミュニティがビジネスコンテンツ生成の進展を促進することを願っています。
大規模言語モデル(LLM)推論におけるKVキャッシュの画期的な2ビット量子化技術「LogQuant」を紹介します。本手法は、優れた性能を維持しながら大幅なメモリ節約を実現します。従来の手法では、後のトークンがより重要であると仮定するか、以前のアテンションパターンに基づいて重要なトークンを予測しようとしていました。しかし、これらのアプローチでは性能のボトルネックや頻繁な予測ミスが生じる可能性があります。 LogQuantは異なるアプローチを採用しています。対数ベースのフィルタリングメカニズムを適用することで、コンテキスト全体にわたってKVキャッシュを選択的に圧縮し、既存の手法と同等またはそれ以下のメモリ使用量でより優れた性能を達成します。ベンチマークテストでは、メモリ消費を増やすことなくスループットを25%向上させ、バッチサイズを60%増加させました。数学やコード補完などの難しいタスクでは、同じ圧縮率で精度を40%から200%向上させ、類似の技術を凌駕しています。LogQuantは、Pythonのtransformersライブラリのような人気のある推論フレームワークとシームレスに統合されます。実装はhttps://github.com/Concyclics/LogQuantKVで入手可能です。
我々はMCTS-RAGを提案する。これは、知識集約型タスクにおける小規模言語モデルの推論能力を強化する新しいアプローチであり、関連する文脈を提供するための検索拡張生成(RAG)と、推論経路を洗練するためのモンテカルロ木探索(MCTS)を活用する。MCTS-RAGは、反復的な意思決定プロセスを通じて検索と推論を動的に統合する。標準的なRAG手法が推論とは独立して情報を検索し、知識の統合が最適でない場合や、従来のMCTS推論が外部の事実に依存せず内部モデルの知識のみに依存する場合とは異なり、MCTS-RAGは構造化された推論と適応的な検索を組み合わせる。この統合アプローチにより、意思決定が強化され、幻覚が減少し、事実の正確性と応答の一貫性が向上する。複数の推論および知識集約型データセット(ComplexWebQA、GPQA、FoolMeTwice)での実験結果は、我々の手法が小規模言語モデルにGPT-4oのような最先端大規模言語モデルに匹敵する性能を達成させ、推論時の計算を効果的にスケーリングすることで、小規模モデルにおける推論の新たな基準を確立することを示している。
拡散モデルはビデオ生成の分野で顕著な進歩を遂げてきました。しかし、その反復的なノイズ除去プロセスは、ビデオを生成するために多数の推論ステップを必要とし、処理速度が遅く計算コストが高いという課題があります。本論文では、既存の拡散蒸留法が抱える課題を詳細に分析し、合成データセットを用いてビデオ拡散モデルの推論ステップを削減し高速化する新しい効率的な手法、AccVideoを提案します。我々は事前学習済みのビデオ拡散モデルを活用し、複数の有効なノイズ除去軌跡を生成して合成データセットとします。これにより、蒸留プロセスにおける無駄なデータポイントの使用を排除します。この合成データセットに基づき、ノイズ除去軌跡から重要なデータポイントを活用してノイズからビデオへのマッピングを学習する、軌跡ベースの少ステップガイダンスを設計し、より少ないステップでのビデオ生成を可能にします。さらに、合成データセットが各拡散タイムステップにおけるデータ分布を捉えていることを活用し、学生モデルの出力分布を合成データセットの分布に整合させるための敵対的学習戦略を導入し、ビデオ品質を向上させます。大規模な実験により、我々のモデルが教師モデルと比較して生成速度で8.5倍の改善を達成しつつ、同等の性能を維持することが実証されました。従来の高速化手法と比較して、本手法はより高品質で高解像度(5秒間、720x1280、24fps)のビデオを生成可能です。
大規模言語モデル(LLM)におけるSystem 1からSystem 2推論への移行は、複雑なタスクを意図的かつ反復的な思考を通じて処理する能力の著しい進歩を示してきました。しかし、この進歩はしばしば効率性の低下を伴い、モデルが過剰に思考し、出力品質の比例的な向上なしに冗長な推論ステップを生成する傾向があります。Long-to-Short(L2S)推論は、この課題に対する有望な解決策として登場し、推論の深さと実用的な効率性のバランスを取ることを目指しています。既存のアプローチ、例えば教師ありファインチューニング(SFT)、強化学習(RL)、プロンプトエンジニアリングなどは、潜在的な可能性を示しているものの、計算コストが高いか不安定であるという問題があります。一方、モデルマージングは、System 1モデルの迅速な思考能力とSystem 2モデルの体系的な推論能力を統合することで、コスト効率が高く堅牢な代替手段を提供します。本研究では、L2S推論のためのモデルマージングに関する包括的な実証研究を提示し、タスクベクトルベース、SVDベース、活性化情報に基づくマージングなど、多様な方法論を探求します。実験結果から、モデルマージングにより平均応答長を最大55%削減しながら、ベースライン性能を維持または向上させることが可能であることが明らかになりました。また、1.5B/7B/14B/32Bモデルに対する広範な評価を通じて、モデル規模とマージング効果の間に強い相関関係があることを特定しました。さらに、マージされたモデルの自己批判および自己修正能力、およびタスクの複雑さに基づく適応的な応答長についても調査しました。本研究の結果は、モデルマージングがL2S推論のための非常に効率的かつ効果的なパラダイムであり、System 2推論の堅牢性を維持しながら過剰思考問題に対する実用的な解決策を提供することを強調しています。この研究はGithub(https://github.com/hahahawu/Long-to-Short-via-Model-Merging)で公開されています。
大規模マルチモーダルモデル(LMMs)の最近の進展は、自動運転システム(ADS)において有望な成果を示しています。しかし、ADSへの直接的な適用は、交通知識の誤解、複雑な道路状況、多様な車両状態といった課題によって妨げられています。これらの課題に対処するため、我々は知識編集(Knowledge Editing)の利用を提案します。これにより、モデルの動作を完全な再トレーニングなしに特定の目的に合わせて修正することが可能になります。同時に、ADS向けに特別に設計されたマルチモーダル知識編集データセット「ADS-Edit」を導入します。このデータセットには、さまざまな実世界のシナリオ、複数のデータタイプ、そして包括的な評価指標が含まれています。我々は包括的な実験を行い、いくつかの興味深い結論を導き出しました。我々の研究が、自動運転分野における知識編集アプリケーションのさらなる進展に貢献することを願っています。コードとデータはhttps://github.com/zjunlp/EasyEditで公開されています。
プロセス監視型報酬モデルは、モデルの応答に対して詳細なステップごとのフィードバックを提供する細粒度の関数として機能し、複雑なタスクにおける推論軌跡の効果的な選択を促進します。その利点にもかかわらず、特にマルチモーダル領域におけるPRM(プロセス報酬モデル)の評価はまだ十分に検討されていません。このギャップを埋めるため、本論文ではまず、現在の視覚大規模言語モデル(VLLM)を2種類の報酬モデル、すなわち出力報酬モデル(ORM)とプロセス報酬モデル(PRM)として複数の視覚言語ベンチマークで評価しました。その結果、ORMもPRMもすべてのタスクで一貫して優れているわけではなく、優れたVLLMが必ずしも優れた報酬性能を発揮するわけではないことが明らかになりました。評価をさらに進めるため、我々は集中的なプロセス報酬信号を必要とする視覚言語ベンチマーク「ViLBench」を導入しました。注目すべきは、OpenAIのGPT-4o with Chain-of-Thought(CoT)がわずか27.3%の精度しか達成できなかったことで、このベンチマークが現在のVLLMにとって挑戦的であることを示しています。最後に、一般的なVLLMと報酬モデルのギャップを埋める有望な道筋を予備的に示しました。強化されたツリーサーチアルゴリズムを使用して73.6Kの視覚言語プロセス報酬データを収集し、OpenAI o1の生成を選択することで、我々の3Bモデルは標準的なCoTと比較して平均3.3%、未学習のモデルと比較して最大2.5%の改善をViLBenchで達成しました。我々は、コード、モデル、データとともに、実装をhttps://ucsc-vlaa.github.io/ViLBenchで公開しています。
コンピュータビジョンモデルは、多様なデータセットやタスクにおいてバイアスを示し、増幅することが示されています。既存の分類モデルのバイアスを定量化する手法は、主にデータセットの分布とサブグループに対するモデルの性能に焦点を当てており、モデルの内部動作を見落としています。本研究では、Attention-IoU(Attention Intersection over Union)メトリックと関連スコアを導入し、アテンションマップを使用してモデルの内部表現におけるバイアスを明らかにし、バイアスの原因となる可能性のある画像特徴を特定します。まず、合成データセットであるWaterbirdsデータセットでAttention-IoUを検証し、このメトリックがモデルのバイアスを正確に測定することを示します。次に、CelebAデータセットを分析し、Attention-IoUが精度の差異を超えた相関関係を明らかにすることを確認します。保護属性である「男性」を通じて個々の属性を調査し、CelebAにおけるバイアスの表現方法の違いを検討します。最後に、訓練セットをサブサンプリングして属性間の相関を変化させることで、Attention-IoUがデータセットラベルに存在しない潜在的な交絡変数を明らかにすることを実証します。
多くのロボティクスやVR/ARアプリケーションにおいて、高速なカメラ運動は高度なモーションブラーを引き起こし、既存のカメラ姿勢推定手法を失敗させます。本研究では、モーションブラーを不要なアーティファクトとして扱うのではなく、運動推定のための豊かな手がかりとして活用する新しいフレームワークを提案します。私たちのアプローチは、単一のモーションブラー画像から直接、密なモーションフローフィールドと単眼深度マップを予測することによって機能します。その後、微小運動の仮定の下で線形最小二乗問題を解くことで、瞬間的なカメラ速度を復元します。本質的に、この手法はIMUのような測定値を生成し、高速で激しいカメラの動きを頑健に捉えます。モデルを訓練するために、ScanNet++v2から導出された現実的な合成モーションブラーを含む大規模なデータセットを構築し、完全に微分可能なパイプラインを使用して実データ上でエンドツーエンドで訓練することでモデルをさらに洗練させます。実世界のベンチマークでの広範な評価により、本手法がMASt3RやCOLMAPなどの現在の手法を上回り、最先端の角速度および並進速度推定を達成することが実証されています。
知識蒸留は、教師モデルの出力ロジットを事前計算してキャッシュできる場合、大規模言語モデルにおける知識の抽出において費用対効果の高い技術となり得ます。しかし、これを事前学習に適用することは、まだほとんど検討されていません。本研究では、Top-K確率をキャッシュするといった素朴なスパース知識蒸留のアプローチは直感的ではあるものの、教師の確率分布を学生モデルに偏った形で推定し、結果として最適でない性能とキャリブレーションをもたらすことを証明します。我々は、重要度サンプリングに基づく手法「ランダムサンプリング知識蒸留」を提案します。この手法は不偏推定を提供し、期待値において勾配を保存し、さらに大幅にスパースなロジットの保存を可能にします。我々の手法は、300Mから3Bまでの様々なモデルサイズにおいて、完全な蒸留と比較して競争力のある性能を維持しつつ、クロスエントロピーに基づく学習と比較してわずかなオーバーヘッド(10%未満)で学生モデルのより高速な学習を実現します。
最近の自己回帰モデルと拡散モデルの進歩により、短いシーンテキストの画像生成において強力な性能が実現されています。しかし、スライドや文書内の段落のような、長文テキストを含む画像を一貫して生成することは、現在の生成モデルにとって依然として大きな課題です。本論文では、長文テキスト画像生成に特化した初めての研究を提示し、通常は短いフレーズや単一文しか扱えない既存のテキスト画像生成システムの重要なギャップに対処します。最先端の自己回帰生成モデルを包括的に分析することで、画像トークナイザがテキスト生成品質の重要なボトルネックであることを特定しました。これに対処するため、詳細なシーンテキストの特徴を捉えるために最適化された、テキストに焦点を当てた新しいバイナリトークナイザを導入します。このトークナイザを活用し、高品質な長文テキスト画像を前例のない忠実度で生成する多モーダル自己回帰モデルである\ModelNameを開発しました。本モデルは、フォントスタイル、サイズ、色、配置などのテキストプロパティをカスタマイズ可能な強力な制御性を提供します。広範な実験により、\ModelNameがSD3.5 Large~sd3やGPT4o~gpt4o with DALL-E 3~dalle3を大幅に上回り、長文テキストを正確かつ一貫して柔軟に生成することが実証されました。技術的な成果を超えて、\ModelNameは、文書とPowerPointのインタリーブ生成のような革新的なアプリケーションの可能性を開拓し、長文テキスト画像生成の新たなフロンティアを確立します。
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素です。しかし、ポストトレーニングに使用される既存のオンポリシーアルゴリズムは、経験再生バッファの使用と本質的に互換性がありません。このバッファは、分散型オフポリシーアクターによってスケーラブルにデータを蓄積し、計算リソースが増えるにつれて探索を強化することができます。本論文では、Trajectory Balance with Asynchrony(TBA)という大規模スケーラブルなLLM RLシステムを通じて、この再生バッファの利点を効率的に得ることを提案します。既存のアプローチとは異なり、TBAは計算リソースの大部分を探索に割り当て、常にオフポリシーデータを生成して中央の再生バッファに蓄積します。トレーニングノードは、このバッファから報酬や新しさに基づいてデータをサンプリングし、Trajectory Balance(TB)を使用してポリシーを更新します。TBは、GFlowNets向けに導入された多様性を追求するRL目的関数です。TBAは以下の3つの主要な利点を提供します:(1)トレーニングと探索を分離し、トレーニングの実時間を4倍以上高速化する、(2)大規模なオフポリシーサンプリングを通じて多様性を向上させる、(3)スパースな報酬設定におけるスケーラブルな探索を実現する。数学的推論、選好チューニング、自動化されたレッドチーミング(多様で代表的なポストトレーニングタスク)において、TBAは強力なベースラインを上回る速度と性能の向上をもたらします。
カテゴリレベルの3D/6D姿勢推定は、包括的な3Dシーン理解に向けた重要なステップであり、ロボティクスやエンボディードAIにおける幅広いアプリケーションを可能にする。最近の研究では、分析-by-合成の観点から2Dおよび3Dタスクにアプローチするニューラルメッシュモデルが探求されている。部分的なオクルージョンやドメインシフトに対する堅牢性が大幅に向上しているにもかかわらず、これらの手法は部分対比学習のための3Dアノテーションに大きく依存しており、限られたカテゴリに制限され、効率的なスケーリングを妨げている。本研究では、大規模な視覚基盤モデルから得られた疑似対応を活用して、3Dアノテーションなしで学習する新しいニューラルメッシュモデルであるDINeMoを提案する。我々は、局所的な外観特徴とグローバルなコンテキスト情報の両方を利用して疑似対応を生成する双方向疑似対応生成手法を採用している。車のデータセットにおける実験結果は、我々のDINeMoが従来のゼロショットおよび少数ショットの3D姿勢推定を大幅に上回り、完全教師あり手法とのギャップを67.3%縮めることを示している。また、DINeMoはトレーニング中により多くのラベルなし画像を取り入れることで効果的かつ効率的にスケールし、3Dアノテーションに依存する教師あり学習手法に対する利点を実証している。プロジェクトページはhttps://analysis-by-synthesis.github.io/DINeMo/で公開されている。
ビデオにおける動きの推定は、制御可能なビデオ生成やロボティクスを含む多くの下流アプリケーションにとって重要なコンピュータビジョンの課題です。現在の解決策は、主に合成データを使用して訓練されるか、状況固有のヒューリスティックの調整を必要とし、これらは本質的に現実世界の文脈におけるモデルの能力を制限しています。ビデオからの大規模な自己教師あり学習の最近の進展にもかかわらず、そのような表現を動き推定に活用することは比較的未開拓のままです。本研究では、事前訓練された次フレーム予測モデルからフローとオクルージョンを推定するための自己教師あり技術であるOpt-CWMを開発します。Opt-CWMは、ベースのビデオモデルから動き情報を抽出する反事実的プローブを最適化することを学習することで動作し、固定されたヒューリスティックを必要とせずに制限のないビデオ入力を訓練します。ラベル付きデータを必要とせずに、現実世界のビデオにおける動き推定で最先端の性能を達成します。
スコアベースまたは拡散モデルは、GANベースやVAEベースのモデルを凌駕する高品質な表形式データを生成します。しかし、これらの手法は多大な訓練時間を要します。本論文では、テキストから画像生成やテキストから動画生成などに応用されている整流フローモデリングを利用したRecTableを紹介します。RecTableは、少数の積層ゲート線形ユニットブロックから成るシンプルなアーキテクチャを特徴としています。さらに、混合型ノイズ分布とロジット正規タイムステップ分布を組み込んだ、簡潔な訓練戦略も採用しています。実験の結果、RecTableは、いくつかの最先端の拡散およびスコアベースモデルと比較して競争力のある性能を達成しつつ、必要な訓練時間を削減できることが示されました。私たちのコードはhttps://github.com/fmp453/rectableで公開されています。
ドキュメント構造分析、別名ドキュメントレイアウト分析は、ドキュメントの物理的レイアウトと論理的構造を理解する上で重要であり、情報検索、ドキュメント要約、知識抽出などに役立ちます。階層的ドキュメント構造分析(HDSA)は特に、階層的なスキーマを使用したオーサリングソフトウェアで作成されたドキュメントの階層構造を復元することを目的としています。これまでの研究では、主に2つのアプローチが取られてきました。1つは、表検出や読み順序予測など、HDSAの特定のサブタスクを個別に取り組むことに焦点を当てたもので、もう1つは、複数のブランチやモジュールを使用し、それぞれが異なるタスクに対応する統一フレームワークを採用するものです。本研究では、HDSAのための統一的な関係予測アプローチであるUniHDSAを提案します。UniHDSAは、さまざまなHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合します。これにより、単一の関係予測モジュールが、ページレベルまたはドキュメントレベルの構造分析において、複数のタスクを同時に処理できるようになります。UniHDSAの有効性を検証するために、Transformerアーキテクチャに基づくマルチモーダルなエンドツーエンドシステムを開発しました。広範な実験結果は、我々のアプローチが階層的ドキュメント構造分析のベンチマークであるComp-HRDocで最先端の性能を達成し、大規模なドキュメントレイアウト分析データセットであるDocLayNetでも競争力のある結果を示し、すべてのサブタスクにおいて我々の手法の優位性を効果的に示しています。Comp-HRDocベンチマークとUniHDSAの設定は、https://github.com/microsoft/CompHRDoc で公開されています。
計算病理学における乳がん生存予測は、腫瘍の異質性により大きな課題を抱えています。例えば、病理画像内の同一腫瘍の異なる領域が、それぞれ異なる形態学的および分子的特性を示すことがあります。これにより、ホールスライド画像(WSI)から腫瘍の攻撃性や生存予後を真に反映する代表的な特徴を抽出することが困難となります。本論文では、PathoHRという新しいパイプラインを提案します。これは、任意のサイズの病理画像を強化し、より効果的な特徴学習を可能にする、正確な乳がん生存予測のための手法です。我々のアプローチは、(1) プラグアンドプレイ型の高解像度Vision Transformer(ViT)を組み込み、パッチ単位のWSI表現を強化し、より詳細かつ包括的な特徴抽出を可能にすること、(2) WSIから抽出された特徴を比較するための複数の高度な類似度指標を体系的に評価し、腫瘍の特性をより適切に捉えるための表現学習プロセスを最適化すること、(3) 提案されたパイプラインに従って強化された小さな画像パッチが、未処理の大きなパッチと同等またはそれ以上の予測精度を達成しつつ、計算コストを大幅に削減できることを実証すること、を含みます。実験結果は、PathoHRが強化された画像解像度と最適化された特徴学習を統合し、計算病理学を進歩させる潜在的な方法を提供し、より正確かつ効率的な乳がん生存予測のための有望な方向性を示すことを裏付けています。コードはhttps://github.com/AIGeeksGroup/PathoHRで公開予定です。
ライティングアシスタント(例:Grammarly、Microsoft Copilot)は、従来、構文的および意味的なバリエーションを用いて画像の構成要素を説明することで、多様な画像キャプションを生成してきました。しかし、人間が書くキャプションは、視覚的な描写とともに中心的なメッセージを伝えることを優先し、実用的な手がかりを活用します。実用的な多様性を高めるためには、視覚的コンテンツと併せてこれらのメッセージを伝える代替方法を探ることが重要です。この課題に対処するため、我々は、一貫性関係(Coherence Relations)をバリエーションの軸として活用する、マルチモーダル大規模言語モデル(MLLM)向けの新しいプロンプティング戦略「RONA」を提案します。我々は、RONAが複数のドメインにわたってMLLMベースラインと比較し、全体的な多様性とグラウンドトゥルース(ground-truth)との整合性が優れたキャプションを生成することを実証します。コードは以下で公開されています:https://github.com/aashish2000/RONA