翻訳付きの日次キュレーションされたAI研究論文
正規化層は現代のニューラルネットワークにおいて遍在し、長らく不可欠とされてきました。本研究では、驚くほどシンプルな手法を用いることで、正規化なしのTransformerが同等またはそれ以上の性能を達成できることを示します。我々は、正規化層の代替として、要素ごとの操作であるDynamic Tanh(DyT)を導入します。DyT(x) = tanh(alpha x) という形式で、Transformerにおける正規化層の代替として使用できます。DyTは、Transformerにおける層正規化がしばしばtanhのようなS字型の入出力マッピングを生成するという観察に基づいています。DyTを組み込むことで、正規化なしのTransformerは、その正規化された対応モデルと同等またはそれ以上の性能を達成でき、ほとんどの場合ハイパーパラメータの調整を必要としません。我々は、認識から生成、教師あり学習から自己教師あり学習、コンピュータビジョンから言語モデルまで、多様な設定においてDyTを組み込んだTransformerの有効性を検証します。これらの発見は、正規化層が現代のニューラルネットワークにおいて不可欠であるという従来の理解に挑戦し、深層ネットワークにおけるその役割について新たな洞察を提供します。
現在、数百万ものニューラルネットワークが公開されており、大規模なモデルリポジトリの検索と分析がますます重要になっています。これほど多くのモデルをナビゲートするにはアトラスが必要ですが、ほとんどのモデルは十分にドキュメント化されていないため、そのようなアトラスを作成するのは困難です。モデルリポジトリの潜在能力を探るため、私たちはHugging Faceのドキュメント化された部分を表す予備的なアトラスを作成しました。このアトラスは、モデルの風景と進化を驚くほど視覚化します。私たちは、このアトラスのいくつかの応用例を示します。例えば、モデルの属性(例:精度)を予測したり、コンピュータビジョンモデルのトレンドを分析したりします。しかし、現在のアトラスは不完全であるため、ドキュメント化されていない領域をマッピングする方法を提案します。具体的には、現実世界で支配的なモデルトレーニングの実践に基づいて、高信頼性の構造的プライアを特定します。これらのプライアを活用することで、私たちのアプローチは、以前にドキュメント化されていなかったアトラスの領域を正確にマッピングすることができます。私たちは、データセット、コード、およびインタラクティブなアトラスを公開します。
Stable DiffusionやDALLE-3などのテキストから画像を生成するモデルは、マルチターン画像編集において依然として課題を抱えています。私たちは、このようなタスクを、さまざまなコストのAIツールを使用して一連のサブタスクに対処するエージェント的なワークフロー(パス)として分解します。従来の探索アルゴリズムでは、ツールパスを見つけるために高コストな探索が必要です。一方、大規模言語モデル(LLM)はサブタスク計画に関する事前知識を持っていますが、各サブタスクでどのツールを適用するかを決定するためのツールの能力とコストの正確な見積もりが不足している可能性があります。LLMとグラフ探索の両方の強みを組み合わせて、コスト効率の良いツールパスを見つけることは可能でしょうか?私たちは、LLMを活用してサブタスクツリーを作成し、与えられたタスクに対してAIツールのグラフを刈り込み、その後小さなサブグラフ上でA*探索を行ってツールパスを見つける「CoSTA*」という3段階のアプローチを提案します。総コストと品質のバランスをより良く取るために、CoSTA*は各サブタスクにおける各ツールの両方のメトリクスを組み合わせてA*探索を導きます。各サブタスクの出力は視覚言語モデル(VLM)によって評価され、失敗した場合にはそのツールのコストと品質が更新されます。これにより、A*探索は迅速に失敗から回復し、他のパスを探索することができます。さらに、CoSTA*はサブタスク間でモダリティを自動的に切り替えることで、コストと品質のトレードオフをより良く実現します。私たちは、挑戦的なマルチターン画像編集の新しいベンチマークを構築し、CoSTA*はコストと品質の両面で最先端の画像編集モデルやエージェントを上回り、ユーザーの好みに応じて多様なトレードオフを実現します。
大規模視覚言語モデル(LVLM)の最近の進展は、具現化されたタスクプランニングにおいて有望な成果を示しているが、依存関係の制約や効率性といった基本的な課題に依然として苦戦している。既存のアプローチは、行動選択の最適化にのみ焦点を当てるか、推論時に世界モデルを活用するものの、プランニング能力を向上させる手段として世界をモデル化する学習の利点を見落としている。本論文では、状態予測と行動選択を同時に最適化する新しい学習フレームワークであるDual Preference Optimization(D^2PO)を提案する。このフレームワークは、選好学習を通じてLVLMが環境のダイナミクスを理解し、より良いプランニングを可能にする。人間のアノテーションなしで軌跡と段階的な選好データを自動的に収集するために、試行錯誤による広範な探索を可能にするツリーサーチメカニズムを導入した。VoTa-Benchにおける広範な実験により、Qwen2-VL(7B)、LLaVA-1.6(7B)、LLaMA-3.2(11B)に適用した場合、我々のD^2POベースの手法が既存の手法やGPT-4oを大幅に上回り、より効率的な実行パスで優れたタスク成功率を達成することが実証された。
現在の画像生成および編集手法は、主にテキストプロンプトを直接入力として処理し、視覚的な構成や明示的な操作についての推論を行いません。本論文では、Generation Chain-of-Thought (GoT)という新しいパラダイムを提案します。これは、画像を出力する前に明示的な言語推論プロセスを通じて生成と編集を可能にするものです。このアプローチは、従来のテキストから画像への生成と編集を、意味的関係と空間的配置を分析する推論ガイド型フレームワークに変換します。GoTの定式化を定義し、意味的-空間的関係を捕捉した詳細な推論チェーンを含む900万以上のサンプルからなる大規模なGoTデータセットを構築しました。GoTの利点を活用するため、Qwen2.5-VLを推論チェーン生成に統合し、新たに開発したSemantic-Spatial Guidance Moduleによって強化されたエンドツーエンドの拡散モデルを組み込んだ統一フレームワークを実装しました。実験結果は、GoTフレームワークが生成および編集タスクにおいて優れた性能を発揮し、ベースラインを大幅に上回る改善を示しています。さらに、本手法はインタラクティブな視覚生成を可能にし、ユーザーが推論ステップを明示的に修正して正確な画像調整を行うことを可能にします。GoTは、推論駆動型の視覚生成と編集の新たな方向性を切り開き、人間の意図により適した画像を生成します。今後の研究を促進するため、データセット、コード、および事前学習済みモデルをhttps://github.com/rongyaofang/GoTで公開しています。
本論文では、超高速テキストから画像生成(T2I)のための効率的な拡散モデルであるSANA-Sprintを提案する。SANA-Sprintは事前学習済みの基盤モデルをベースとしており、ハイブリッド蒸留を組み合わせることで、推論ステップ数を20から1-4に大幅に削減している。本手法では3つの主要な革新を導入している:(1) 事前学習済みのフローマッチングモデルを連続時間整合性蒸留(sCM)に変換するトレーニング不要のアプローチを提案し、ゼロからの高コストな学習を排除して高い学習効率を実現する。ハイブリッド蒸留戦略では、sCMと潜在敵対的蒸留(LADD)を組み合わせており、sCMは教師モデルとの整合性を保証し、LADDは単一ステップ生成の忠実度を向上させる。(2) SANA-Sprintは統合されたステップ適応型モデルであり、1-4ステップで高品質な生成を実現し、ステップ固有の学習を排除して効率を向上させる。(3) ControlNetをSANA-Sprintに統合し、リアルタイムのインタラクティブな画像生成を可能にし、ユーザーインタラクションに対する即時の視覚的フィードバックを提供する。SANA-Sprintは速度と品質のトレードオフにおいて新たなパレートフロンティアを確立し、1ステップで7.59 FIDと0.74 GenEvalという最先端の性能を達成し、FLUX-schnell(7.94 FID / 0.71 GenEval)を性能で上回りながら10倍高速(H100で0.1秒 vs 1.1秒)である。また、H100上で1024 x 1024画像の生成において0.1秒(T2I)と0.25秒(ControlNet)、RTX 4090上で0.31秒(T2I)のレイテンシを達成し、AIを活用した消費者向けアプリケーション(AIPC)における卓越した効率性と可能性を示している。コードと事前学習済みモデルはオープンソース化される予定である。
私たちは、8Bパラメータを有する高度なマルチモーダルProcess Reward Model(PRM)であるVisualPRMを紹介します。このモデルは、Best-of-N(BoN)評価戦略を用いて、既存のマルチモーダル大規模言語モデル(MLLM)の推論能力を、異なるモデルスケールやファミリーにわたって向上させます。具体的には、私たちのモデルは3種類のMLLMと4つの異なるモデルスケールにおいて、推論性能を向上させます。高度な性能を持つInternVL2.5-78Bに適用した場合でも、7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を達成します。実験結果は、BoN評価において、私たちのモデルがOutcome Reward ModelやSelf-Consistencyよりも優れた性能を示すことを示しています。マルチモーダルPRMのトレーニングを容易にするために、自動化されたデータパイプラインを使用してマルチモーダルプロセス監視データセットVisualPRM400Kを構築しました。マルチモーダルPRMの評価のために、人間が注釈を付けたステップごとの正解ラベルを持つベンチマークVisualProcessBenchを提案し、マルチモーダル推論タスクにおける誤ったステップを検出するPRMの能力を測定します。私たちの研究が、将来のさらなる研究を刺激し、MLLMの開発に貢献することを願っています。私たちのモデル、データ、およびベンチマークはhttps://internvl.github.io/blog/2025-03-13-VisualPRM/で公開されています。
テキストから画像を生成する拡散モデルは、テキストプロンプトから高品質なコンテンツを生成するという顕著な成功を収めています。しかし、これらのモデルは公開されているデータに依存しており、ファインチューニングのためのデータ共有が増加していることから、データポイズニング攻撃に対して特に脆弱です。本研究では、特定のブランドロゴやシンボルを含む画像をテキストトリガーなしで生成するようにテキストから画像を生成する拡散モデルを操作する、新たなデータポイズニング手法である「Silent Branding Attack」を提案します。特定の視覚パターンがトレーニングデータに繰り返し現れると、モデルはプロンプトに言及されなくても自然にそれらを出力に再現することを発見しました。これを利用して、オリジナル画像にロゴを自然に溶け込ませ、検出されないようにする自動化されたデータポイズニングアルゴリズムを開発しました。このポイズニングされたデータセットでトレーニングされたモデルは、画像品質やテキストの整合性を損なうことなくロゴを含む画像を生成します。大規模な高品質画像データセットとスタイルパーソナライゼーションデータセットを用いた2つの現実的な設定で、Silent Branding Attackを実験的に検証し、特定のテキストトリガーなしでも高い成功率を達成しました。人間による評価とロゴ検出を含む定量的な指標により、本手法がロゴをステルスに埋め込むことができることが示されました。
テキストから画像(T2I)生成モデルのサンプリングを高速かつ高品質に行うことは、有望な研究分野です。これまでの研究では、サンプリング効率を犠牲にして合成画像の視覚的品質を向上させるか、あるいはベースモデルの生成能力を改善せずにサンプリングを劇的に高速化することに焦点が当てられてきました。さらに、ほとんどの推論手法は、拡散モデル(DMs)と視覚的自動回帰モデル(ARMs)の両方で安定した性能を同時に確保することができませんでした。本論文では、Collect、Reflect、Refineの3つのサブプロセスからなる新しいプラグアンドプレイ型推論パラダイム、CoRe^2を提案します。CoRe^2はまず、クラス分類器不要ガイダンス(CFG)の軌跡を収集し、その後、収集したデータを使用して、推論中の関数評価回数を半減させながら、学習しやすい内容を反映する弱いモデルを訓練します。続いて、CoRe^2は弱いモデルから強いモデルへのガイダンスを使用して条件付き出力を洗練し、ベースモデルが捉えることが難しい高周波で現実的な内容を生成する能力を向上させます。私たちの知る限り、CoRe^2は、SDXL、SD3.5、FLUXなどの幅広いDMsや、LlamaGenのようなARMsにおいて、効率と効果の両方を初めて実証した手法です。HPD v2、Pick-of-Pic、Drawbench、GenEval、T2I-Compbenchにおいて、大幅な性能向上を示しています。さらに、CoRe^2は最先端のZ-Samplingとシームレスに統合でき、PickScoreとAESでそれぞれ0.3と0.16の性能向上を達成し、SD3.5を使用して5.64秒の時間節約を実現しています。コードはhttps://github.com/xie-lab-ml/CoRe/tree/mainで公開されています。
動的なシーンにおいて時間を考慮したオープンエンドな言語クエリを可能にするため、4D言語フィールドを学習することは、多くの実世界のアプリケーションにとって不可欠です。LangSplatはCLIP特徴を3Dガウシアン表現に基づかせることで、3D静的なシーンにおいて精度と効率性を実現していますが、動的な4Dフィールドを扱う能力を欠いています。これは、CLIPが静的な画像-テキストタスク向けに設計されており、ビデオの時間的ダイナミクスを捉えることができないためです。実世界の環境は本質的に動的であり、オブジェクトの意味は時間とともに変化します。正確な4D言語フィールドを構築するためには、ピクセル単位で整列したオブジェクトごとのビデオ特徴を取得する必要がありますが、現在の視覚モデルではこれを実現することが困難です。これらの課題に対処するため、我々は4D LangSplatを提案します。4D LangSplatは、動的なシーンにおいて時間を考慮しないまたは時間を考慮したオープン語彙クエリを効率的に処理するために、4D言語フィールドを学習します。4D LangSplatは、視覚特徴から言語フィールドを学習するのではなく、マルチモーダル大規模言語モデル(MLLM)を介してオブジェクトごとのビデオキャプションから生成されたテキストから直接学習します。具体的には、ビジュアルプロンプトとテキストプロンプトから成るマルチモーダルオブジェクトごとのビデオプロンプティング手法を提案し、MLLMがビデオ全体を通じてオブジェクトの詳細で時間的に一貫した高品質なキャプションを生成することを促します。これらのキャプションは大規模言語モデルを使用して高品質な文埋め込みにエンコードされ、その後、ピクセル単位で整列したオブジェクト固有の特徴の教師信号として機能し、共有埋め込み空間を通じてオープン語彙テキストクエリを容易にします。4Dシーン内のオブジェクトが状態間で滑らかに遷移することを認識し、我々はさらにこれらの連続的な変化を効果的にモデル化するためのステータス変形可能ネットワークを提案します。複数のベンチマークにわたる結果は、4D LangSplatが時間を考慮したおよび時間を考慮しないオープン語彙クエリの両方に対して、正確で効率的な結果を達成することを示しています。
本論文では、Light-R1シリーズに関する我々の研究を紹介し、モデル、データ、コードの全てを公開する。まず、長い連鎖的思考(COT)能力を最初から持たないモデルをゼロから訓練することに焦点を当てる。2段階のSFT(Supervised Fine-Tuning)と半オンラインポリシーのDPO(Direct Preference Optimization)からなるカリキュラム訓練レシピを用いて、Qwen2.5-32B-InstructからLight-R1-32Bを訓練し、DeepSeek-R1-Distill-Qwen-32Bを上回る数学性能を達成した。数学データのみで訓練されたにもかかわらず、Light-R1-32Bは他の領域でも強い汎化性能を示した。次の段階では、第2段階のSFT用に構築された3kデータセットが他のモデルの性能向上に大きく寄与することを強調する。このデータセットを用いてDeepSeek-R1-Distilledモデルを微調整し、7Bと14Bでは新しいSOTAモデルを獲得し、32BモデルであるLight-R1-32B-DSはQwQ-32BおよびDeepSeek-R1と同等の性能を示した。 さらに、長いCOTモデルに対して強化学習、特にGRPO(Generalized Reinforcement Learning with Policy Optimization)を適用し、推論性能をさらに向上させた。最終的に、RLを用いてLight-R1-14B-DSを訓練し、14Bパラメータモデルの中で数学においてSOTA性能を達成した。AIME24とAIME25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは多くの32BモデルやDeepSeek-R1-Distill-Llama-70Bを凌駕した。RL訓練はまた、応答長と報酬スコアが同時に増加するという期待通りの振る舞いを示した。 Light-R1シリーズの研究は、長いCOTモデルをゼロから訓練することを検証し、SFTデータの技術を披露し、RLからSOTAモデルをリリースすることを実証した。
拡散モデルに基づく生成モデルは、オブジェクト指向の画像編集に革命をもたらしましたが、現実世界のオブジェクト削除や挿入への適用は、物理効果の複雑な相互作用や十分なペア訓練データの不足といった課題に阻まれています。本研究では、OmniPaintという統一フレームワークを提案します。このフレームワークは、オブジェクト削除と挿入を独立したタスクではなく、相互依存的なプロセスとして再定義します。事前学習済みの拡散モデルを活用し、初期のペアサンプル最適化とCycleFlowによる大規模な非ペア精緻化を含む段階的な訓練パイプラインを採用することで、OmniPaintは前景の正確な除去とシームレスなオブジェクト挿入を実現し、シーンジオメトリーや固有特性を忠実に保持します。さらに、我々の新しいCFDメトリックは、コンテキストの一貫性とオブジェクトの幻覚を参照なしで堅牢に評価し、高忠実度画像編集の新たなベンチマークを確立します。プロジェクトページ: https://yeates.github.io/OmniPaint-Page/
視覚言語モデル(Vision-Language Models)は、多くの知覚中心のタスクにおいて大きな進歩を遂げてきました。しかし、推論中心のタスクにおける進展は、高品質で多様なトレーニングデータの不足により限定的です。本研究では、推論中心のマルチモーダルデータセットの不足問題に取り組むことを目指しています。私たちは、検索エンジンを活用して、数学、物理学、金融、化学など複数の分野にわたる多様で高品質なデータセットを作成する新しいアプローチ「VisualWebInstruct」を提案します。厳選された30,000枚のシード画像を出発点として、Google画像検索を使用して類似画像を含むウェブサイトを特定します。700,000以上のユニークなURLソースからHTMLを収集し、処理します。コンテンツ抽出、フィルタリング、合成のパイプラインを通じて、約900,000の質問-回答ペアからなるデータセットを構築します。そのうち40%が視覚的QAペアで、残りがテキストQAペアです。VisualWebInstructでファインチューニングされたモデルは、顕著な性能向上を示しています:(1) Llava-OV-midからのトレーニングでは、ベンチマーク全体で10-20%の絶対ポイントの向上が見られ、(2) MAmmoTH-VLからのトレーニングでは5%の絶対的な向上が見られました。私たちの最高のモデルであるMAmmoTH-VL2は、10Bパラメータクラスにおいて、MMMU-Pro-std(40.7%)、MathVerse(42.6%)、DynaMath(55.7%)で最先端の性能を示しています。これらの注目すべき結果は、複雑なマルチモーダルタスクにおけるVLMの推論能力を向上させるための私たちのデータセットの有効性を強調しています。
大規模推論モデル(LRM)、特に連鎖思考推論(CoT)を活用した最近の進展は、機械翻訳(MT)に全く新しい可能性を開きました。本ポジションペーパーでは、LRMが伝統的なニューラルMTおよびLLMベースのMTパラダイムを大幅に変革し、翻訳を文脈的、文化的、言語的理解と推論を必要とする動的な推論タスクとして再定義したと論じています。我々は3つの根本的なシフトを特定します:1)文脈的一貫性、LRMは文を超えた複雑な文脈や文脈の欠如を明示的に推論することで曖昧さを解決し、談話構造を保持する、2)文化的意図性、話者の意図、聴衆の期待、社会言語学的規範を推論することで出力を適応させる、3)自己反映、LRMは推論時に自己反映を行い、特に極めてノイジーなケースでの翻訳の潜在的な誤りを修正し、単なるX→Y翻訳マッピングに比べて優れたロバスト性を示す。我々は、スタイル化翻訳、ドキュメントレベル翻訳、マルチモーダル翻訳を含む様々な翻訳シナリオを探り、LRMの翻訳における優位性を示す実証例を提示します。また、自動ピボット翻訳といったLRMのMTにおける興味深い現象や、翻訳における過剰なローカライゼーションや推論効率といった重要な課題も特定します。結論として、LRMは翻訳システムを単なるテキスト変換器ではなく、テキストを超えた意味を推論できる多言語認知エージェントとして再定義すると考えます。このパラダイムシフトは、LRMを用いて伝統的な翻訳シナリオを超えたより広い文脈で翻訳の問題を考えること、そしてその上で何を達成できるかを考えるよう促します。
長文脈大規模言語モデル(LLMs)の最近の進展は、主に入力文脈の拡張処理に焦点を当てており、長文脈理解において大きな進歩を遂げています。しかし、同様に重要な長文出力生成の側面は、比較的注目を集めていません。本論文は、NLP研究のパラダイムシフトを提唱し、長文出力生成の課題に取り組むことを主張します。小説執筆、長期計画立案、複雑な推論などのタスクでは、モデルが広範な文脈を理解し、首尾一貫した、文脈的に豊かで、論理的に整合性のある長文を生成する必要があります。これらの要求は、現在のLLMの能力における重要なギャップを浮き彫りにしています。我々は、この未開拓の領域の重要性を強調し、高品質な長文出力を生成するために特化した基盤LLMの開発に向けた集中的な取り組みを呼びかけます。これらは、実世界の応用において非常に大きな可能性を秘めています。
ピクセルグラウンディングは、Referring Expression Segmentation(RES)などのタスクを含み、視覚と言語モダリティのギャップを埋めるという大きな可能性から、注目を集めています。しかし、この分野の進展は、現存するデータセットの制約によって制限されています。具体的には、限られたオブジェクトカテゴリ、不十分なテキストの多様性、そして高品質なアノテーションの不足などが挙げられます。これらの制約を緩和するため、我々はGroundingSuiteを導入します。これは、(1) 複数のVision-Language Model(VLM)エージェントを活用した自動データアノテーションフレームワーク、(2) 956万の多様な参照表現とそれに対応するセグメンテーションを含む大規模なトレーニングデータセット、(3) 3,800枚の画像からなる厳選された評価ベンチマークで構成されています。GroundingSuiteのトレーニングデータセットは、モデルの性能を大幅に向上させ、それに基づいてトレーニングされたモデルが最先端の結果を達成することを可能にします。具体的には、gRefCOCOでcIoU 68.9、RefCOCOmでgIoU 55.3を達成しました。さらに、GroundingSuiteのアノテーションフレームワークは、現在の主要なデータアノテーション手法(例えば、GLaMM)と比較して、4.5倍の効率性を示しています。
ビデオ生成モデルはこの1年で目覚ましい進歩を遂げました。AIビデオの品質は向上し続けていますが、その代償としてモデルサイズの拡大、データ量の増加、そしてトレーニング計算資源の需要が高まっています。本レポートでは、わずか20万ドルでトレーニングされた商用レベルのビデオ生成モデル「Open-Sora 2.0」を紹介します。このモデルを通じて、トップクラスのビデオ生成モデルのトレーニングコストが高度に制御可能であることを実証します。データキュレーション、モデルアーキテクチャ、トレーニング戦略、システム最適化など、この効率性のブレークスルーに貢献したすべての技術を詳細に説明します。人間による評価結果とVBenchスコアによると、Open-Sora 2.0はオープンソースのHunyuanVideoやクローズドソースのRunway Gen-3 Alphaを含む世界トップクラスのビデオ生成モデルに匹敵する性能を発揮します。Open-Sora 2.0を完全にオープンソース化することで、先進的なビデオ生成技術へのアクセスを民主化し、コンテンツ制作における幅広いイノベーションと創造性を促進することを目指しています。すべてのリソースは以下のURLで公開されています:https://github.com/hpcaitech/Open-Sora。
本研究では、テキストから画像を生成するためのDiffusion Transformer(DiT)を実証的に研究し、アーキテクチャの選択、テキスト条件付け戦略、およびトレーニングプロトコルに焦点を当てています。PixArtスタイルやMMDiTバリアントを含む一連のDiTベースのアーキテクチャを評価し、それらをテキストとノイズ入力を直接連結して処理する標準的なDiTバリアントと比較します。驚くべきことに、標準的なDiTの性能は、これらの専門モデルと同等でありながら、特にスケールアップ時に優れたパラメータ効率を示すことが明らかになりました。層ごとのパラメータ共有戦略を活用することで、MMDiTアーキテクチャと比較してモデルサイズを66%削減し、性能への影響を最小限に抑えました。テキストエンコーダやVariational Auto-Encoder(VAE)などの重要なコンポーネントの詳細な分析に基づいて、DiT-AirとDiT-Air-Liteを導入しました。教師あり学習と報酬ファインチューニングにより、DiT-AirはGenEvalとT2I CompBenchで最先端の性能を達成し、DiT-Air-Liteはそのコンパクトなサイズにもかかわらず、既存のほとんどのモデルを凌駕する高い競争力を維持しています。
大規模言語モデルは、複雑なテキストタスクにおいて顕著な推論能力を発揮してきました。しかし、視覚情報とテキスト情報を統合する必要があるマルチモーダル推論は、依然として大きな課題となっています。既存の視覚言語モデルは、視覚コンテンツを効果的に分析・推論することが難しく、複雑な推論タスクにおいて最適なパフォーマンスを発揮できていません。さらに、包括的なベンチマークの欠如が、マルチモーダル推論能力の正確な評価を妨げています。本論文では、視覚的知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデル「R1-Onevision」を紹介します。これを実現するために、画像を形式的なテキスト表現に変換し、正確な言語ベースの推論を可能にするクロスモーダル推論パイプラインを提案します。このパイプラインを活用し、多様なドメインにわたる詳細なステップバイステップのマルチモーダル推論アノテーションを提供する「R1-Onevision」データセットを構築しました。さらに、教師ありファインチューニングと強化学習を通じて「R1-Onevision」モデルを開発し、高度な推論能力と堅牢な汎化能力を育成しました。異なるグレードにわたるマルチモーダル推論性能を包括的に評価するために、中学校から大学、そしてそれ以降の試験をカバーする人間の教育段階に沿ったベンチマーク「R1-Onevision-Bench」を導入しました。実験結果は、「R1-Onevision」が最先端のパフォーマンスを達成し、GPT-4oやQwen2.5-VLなどのモデルを複数の挑戦的なマルチモーダル推論ベンチマークで上回ることを示しています。
蒸留拡散モデルは、基盤となるモデルと比較してサンプルの多様性が減少するという重大な制限を抱えています。本研究では、この多様性の損失にもかかわらず、蒸留モデルが基盤モデルの基本的な概念表現を保持していることを明らかにしました。我々は、基盤モデルで訓練されたConcept SlidersやLoRAsなどの制御メカニズムを、再訓練なしで蒸留モデルにシームレスに転移できる「制御蒸留」を実証します。この表現構造の保存は、蒸留中の多様性崩壊のメカニズムを調査するきっかけとなりました。蒸留が多様性にどのように影響するかを理解するために、我々はDiffusion Target (DT) Visualizationを導入しました。これは、モデルが中間ステップで最終出力をどのように予測するかを明らかにする分析・デバッグツールです。DT-Visualizationを通じて、生成アーティファクトや不整合を特定し、初期の拡散タイムステップが出力の多様性を不均衡に決定し、後期のステップは主に詳細を調整することを実証しました。これらの知見に基づき、我々は多様性蒸留を導入しました。これは、最初の重要なタイムステップのみに基盤モデルを戦略的に使用し、その後効率的な蒸留モデルに移行するハイブリッド推論アプローチです。実験により、この単純な修正が、基盤モデルから蒸留モデルへの多様性能力を回復するだけでなく、驚くべきことにそれを上回りながら、蒸留推論の計算効率をほぼ維持することを示しました。これらは、追加の訓練やモデルの変更を必要とせずに達成されます。コードとデータはhttps://distillation.baulab.infoで公開されています。
近年のビデオ生成技術の進歩により、拡張可能な拡散トランスフォーマーを用いて現実的な1分間のシングルショットビデオを生成することが可能になりました。しかし、現実世界の物語ビデオでは、複数のショットからなるシーンが視覚的かつ動的に一貫している必要があります。本研究では、Long Context Tuning (LCT) を導入します。これは、事前学習済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張し、シーンレベルの一貫性をデータから直接学習するトレーニングパラダイムです。本手法は、個々のショットからシーン内のすべてのショットにわたる完全な注意機構を拡張し、インターリーブされた3D位置埋め込みと非同期ノイズ戦略を組み込むことで、追加のパラメータなしで共同および自己回帰的なショット生成を可能にします。LCT後の双方向注意機構を持つモデルは、コンテキスト因果注意を用いてさらに微調整することができ、効率的なKVキャッシュを用いた自己回帰生成を促進します。実験により、LCT後のシングルショットモデルが一貫したマルチショットシーンを生成し、構成的生成やインタラクティブなショット拡張などの新たな能力を示すことが実証され、より実用的なビジュアルコンテンツ作成への道を開きます。詳細は https://guoyww.github.io/projects/long-context-video/ をご覧ください。
大規模な機械学習モデルをスケールアップするにつれ、データ並列アプローチに内在する頻繁な同期要求が重大なボトルネックとなり、さらなるスケーリングに対する重要な課題となっています。最近の研究では、モデルの品質を損なうことなく同期要求を緩和するアプローチ(DiLoCo)が開発されました。しかし、これらの研究ではDiLoCoの挙動がモデルサイズとともにどのように変化するかを詳細に分析していません。本研究では、固定の計算予算のもとでLLMを訓練する際のDiLoCoのスケーリング則の挙動を調査します。特に、モデルレプリカ数、ハイパーパラメータ、トークン予算といったアルゴリズム的要因が、スケーリング則を通じて正確に予測可能な形で訓練にどのように影響するかに焦点を当てます。その結果、DiLoCoはモデルサイズに対して予測可能かつ堅牢にスケールすることがわかりました。適切に調整された場合、DiLoCoはデータ並列訓練よりもモデルサイズに対して優れたスケーリングを示し、小規模なモデルサイズにおいてもデータ並列訓練を上回る性能を発揮します。我々の結果は、これまでに報告されていたよりもより一般的なDiLoCoの利点を示しており、最適バッチサイズの増加、スケールに伴う下流タスクでの汎化性能の向上、固定トークン予算における評価損失の改善などが含まれます。
ディープジェネレーティブモデル、特に拡散モデルの登場により、ビデオ生成は目覚ましい進歩を遂げてきました。既存の手法は、テキストプロンプトや単一画像から高品質なビデオを生成する点で優れていますが、パーソナライズされた複数主体のビデオ生成は、まだほとんど未開拓の課題です。このタスクでは、それぞれが別々の参照画像で定義された複数の異なる主体を組み込み、時間的および空間的な一貫性を保ちながらビデオを合成することが求められます。現在のアプローチは、主に主体画像をテキストプロンプト内のキーワードにマッピングすることに依存しており、曖昧さを引き起こし、主体間の関係を効果的にモデル化する能力を制限しています。本論文では、マルチモーダル大規模言語モデル(MLLM)を活用した、一貫性のある複数主体ビデオ生成のための新しいフレームワーク「CINEMA」を提案します。私たちのアプローチは、主体画像とテキストエンティティ間の明示的な対応関係を必要とせず、曖昧さを軽減し、アノテーション作業を削減します。MLLMを活用して主体間の関係を解釈することで、大規模で多様なデータセットをトレーニングに使用できるスケーラビリティを実現します。さらに、私たちのフレームワークは、異なる数の主体に条件付けすることが可能であり、パーソナライズされたコンテンツ作成においてより大きな柔軟性を提供します。広範な評価を通じて、私たちのアプローチが主体の一貫性とビデオ全体のコヒーレンスを大幅に改善し、ストーリーテリング、インタラクティブメディア、パーソナライズドビデオ生成における先進的な応用への道を開くことを実証します。
本論文では、ゼロショット設定におけるテキストから画像への生成モデルを用いて、分類学概念の画像を生成する可能性を探る。分類学の拡充におけるテキストベースの手法は確立されているが、視覚的側面の可能性は未開拓である。この課題に対処するため、我々は分類学概念を理解し、関連性の高い高品質な画像を生成するモデルの能力を評価するための包括的なベンチマーク「Taxonomy Image Generation」を提案する。このベンチマークには、常識的な概念とランダムにサンプリングされたWordNet概念、およびLLMが生成した予測が含まれる。12のモデルは、9つの新しい分類学関連のテキストから画像への評価指標と人間のフィードバックを用いて評価される。さらに、GPT-4のフィードバックを用いたペアワイズ評価を画像生成に初めて適用する。実験結果は、モデルのランキングが標準的なT2Iタスクとは大きく異なることを示している。Playground-v2とFLUXは、指標とサブセット全体で一貫して優れた性能を示し、検索ベースのアプローチは低い性能にとどまる。これらの発見は、構造化データリソースのキュレーションを自動化する可能性を強調するものである。
ビジョン言語モデル(VLMs)は、画像/動画生成、視覚的質問応答、マルチモーダルチャットボット、動画理解など、さまざまな下流タスクにおいて大きな可能性を示しています。しかし、これらのモデルは基本的な画像変換に苦戦することが多いです。本論文では、OpenAIのCLIPとGoogleのSigLIPを中心に、VLMsの画像レベルの理解能力を調査します。我々の研究結果は、これらのモデルが複数の画像レベルの拡張を理解していないことを明らかにしています。この研究を進めるために、Flickr8kデータセットの拡張版を作成し、各画像に適用された変換の詳細な説明をペアリングしました。さらに、この欠陥が下流タスク、特に画像編集にどのような影響を与えるかを探り、最先端のImage2Imageモデルの単純な変換における性能を評価します。
スタイル転写は、参照画像のスタイルをターゲット画像の内容に転送することを含みます。最近のLoRAベース(Low-Rank Adaptation)手法の進展により、単一画像のスタイルを効果的に捉えることが可能になりました。しかし、これらのアプローチは依然として、内容の不一致、スタイルの不整合、および内容の漏洩といった重大な課題に直面しています。本論文では、ノイズを予測するように学習する標準的な拡散パラメータ化の限界を、スタイル転写の文脈で包括的に分析します。これらの問題に対処するため、LoRAの重みをノイズではなく元の画像を予測するように最適化することで、内容とスタイルの一貫性を向上させるConsisLoRAを提案します。また、参照画像からの内容とスタイルの学習を分離する二段階のトレーニング戦略を提案します。内容画像のグローバルな構造とローカルな詳細を効果的に捉えるために、段階的な損失遷移戦略を導入します。さらに、推論中に内容とスタイルの強度を連続的に制御できる推論ガイダンス手法を提示します。定性的および定量的な評価を通じて、本手法は内容とスタイルの一貫性を大幅に改善し、内容の漏洩を効果的に低減することを示します。
我々はARPGを紹介する。これは、従来のラスター順アプローチが持つ推論効率とゼロショット汎化性能の制約を解決する、新しい視覚的自動回帰モデルである。従来手法では、順次的で事前定義されたトークン生成順序がこれらの制約の原因となっていた。我々の重要な洞察は、効果的なランダム順序モデリングには、次に予測するトークンの位置を決定するための明示的なガイダンスが必要だということである。この目的のために、位置ガイダンスとコンテンツ表現を分離し、それぞれをクエリとキー・バリューペアとしてエンコードする新しいガイド付きデコードフレームワークを提案する。このガイダンスを因果的注意機構に直接組み込むことで、我々のアプローチは完全なランダム順序の学習と生成を可能にし、双方向注意の必要性を排除する。その結果、ARPGは画像修復、拡張、解像度拡張などのゼロショットタスクに容易に汎化できる。さらに、共有KVキャッシュを使用して複数のクエリを並列処理することで、並列推論をサポートする。ImageNet-1K 256ベンチマークにおいて、我々のアプローチはわずか64サンプリングステップでFID 1.94を達成し、同規模の代表的な最近の自動回帰モデルと比較して、スループットを20倍以上向上させ、メモリ消費を75%以上削減した。
高度な生成モデルは画像の合成において優れた性能を発揮しますが、しばしばテキストベースの条件付けに依存しています。しかし、ビジュアルデザイナーは言語を超えて作業し、既存の視覚要素から直接インスピレーションを得ることが多いです。多くの場合、これらの要素は潜在的なコンセプトの断片、例えば独特な構造の翼や特定のヘアスタイルなどを表しており、それらがどのように創造的に統合されて一貫性のある全体を形成するかを探るためのインスピレーションとして機能します。このニーズを認識し、我々はユーザーが提供した視覚要素の一部をシームレスに統合し、同時に欠落している部分をサンプリングして、説得力のある完全なコンセプトを生成するフレームワークを提案します。我々のアプローチは、IP-Adapter+から抽出された強力で未開拓の表現空間に基づいており、その上でIP-Priorという軽量なフローマッチングモデルを訓練します。このモデルは、ドメイン固有の事前知識に基づいて一貫性のある構図を合成し、多様で文脈を考慮した生成を可能にします。さらに、特定のタスクにおいてIP-Adapter+のプロンプト遵守性を大幅に改善するLoRAベースのファインチューニング戦略を提示し、再構築品質とプロンプト遵守性の間の一般的なトレードオフに対処します。
本論文では、ユニバーサルゼロショット目標指向ナビゲーションのための汎用フレームワークを提案する。既存のゼロショット手法は、特定のタスクに対して大規模言語モデル(LLM)に基づく推論フレームワークを構築しているが、その全体のパイプラインは大きく異なり、異なる種類の目標に対して汎化することができない。ユニバーサルゼロショットナビゲーションを目指して、我々は異なる目標(オブジェクトカテゴリ、インスタンス画像、テキスト記述など)を統一するための均一なグラフ表現を提案する。また、エージェントの観測をオンラインで維持されるシーングラフに変換する。この一貫したシーンと目標表現により、純粋なテキストと比較してほとんどの構造情報を保持し、LLMを活用した明示的なグラフベースの推論が可能となる。具体的には、各時点でシーングラフと目標グラフの間でグラフマッチングを行い、異なるマッチング状態に応じて探索の長期的目標を生成するための異なる戦略を提案する。エージェントは、ゼロマッチング時に目標のサブグラフを反復的に探索する。部分マッチング時には、座標投影とアンカーペアアライメントを利用して目標位置を推論する。最後に、完全マッチングのためにシーングラフ補正と目標検証が適用される。また、段階間のロバストな切り替えを可能にするブラックリストメカニズムも提示する。いくつかのベンチマークでの大規模な実験により、我々のUniGoalは、単一のモデルで3つのナビゲーションタスクにおいて最先端のゼロショット性能を達成し、タスク固有のゼロショット手法や教師ありのユニバーサル手法を上回ることを示した。
自動音声認識(ASR)モデルは、キャプション生成、音声翻訳、ライブ文字起こしなどのアプリケーションで注目を集めています。本論文では、Whisperとその2つのモデル変種(ライブ音声ストリーミング用に最適化されたものとオフライン文字起こし用のもの)を研究します。特に、これらのモデルは幻覚的な内容を生成することが判明しており、文字起こしの信頼性を低下させています。さらに、大規模なモデル変種はレイテンシが増加し、リソースが制限されたデバイスへの展開に課題を抱えています。本研究では、3つのWhisperモデルの類似点と相違点を分析し、それぞれの能力を定性的に検証します。次に、モデルの量子化がレイテンシに与える影響を定量化し、エッジデバイスへの展開の実現可能性を評価します。オープンソースのLibriSpeechデータセットを使用し、3つの量子化手法(INT4、INT5、INT8)を用いたwhispercppの単語誤り率(WER)とレイテンシ分析を評価します。結果は、量子化によりレイテンシが19%減少し、モデルサイズが45%削減される一方で、文字起こしの精度が維持されることを示しています。これらの知見は、異なるWhisperモデルの最適な使用例とエッジデバイスへの展開可能性に関する洞察を提供します。すべてのコード、データセット、および実装の詳細は、公開GitHubリポジトリで利用可能です: https://github.com/allisonandreyev/WhisperQuantization.git
Vision Transformerモデルは非常に強力である一方で、人間にとってその内部動作が不透明であり、実用上の課題やリスクを抱えています。これまでの研究では、入力属性分析やニューロンの役割解析を通じてこれらのモデルの解明を試みてきましたが、レイヤーレベルの情報や層間を跨ぐ情報の流れの全体像を考慮する点で大きなギャップがありました。本論文では、Vision Transformer内の影響力のあるニューロンパス(モデルの入力から出力までの間でモデルの推論に最も大きな影響を与えるニューロンの経路)の重要性を調査します。まず、ニューロンの集合がモデルの出力に与える貢献度を評価するための共同影響度尺度を提案します。さらに、ターゲットモデル内で入力から出力までの重要なニューロンパスを発見するために、各層で最も影響力のあるニューロンを効率的に選択するレイヤー進行型ニューロン位置特定手法を提供します。実験結果は、情報が流れる最も影響力のあるニューロンパスを見つける点で、既存のベースライン手法に対する本手法の優位性を示しています。さらに、ニューロンパスは、Vision Transformerが同じ画像カテゴリ内の視覚情報を処理する際に特定の内部動作メカニズムを示すことを明らかにしました。画像分類タスクにおけるこれらのニューロンの主要な影響をさらに分析し、発見されたニューロンパスが下流タスクにおけるモデルの能力を既に保持していることを示しました。これは、モデルのプルーニングなどの実世界のアプリケーションにも示唆を与える可能性があります。実装コードを含むプロジェクトウェブサイトはhttps://foundation-model-research.github.io/NeuronPath/で公開されています。
大規模言語モデル(LLMs)は、親主導の導入、学校、そして友人ネットワークを通じて、急速に子供たちの生活に入り込んでいます。しかし、現在のAI倫理と安全性に関する研究は、未成年者に特有のコンテンツ関連リスクを十分に扱っていません。本論文では、中学校環境で展開されたLLMベースのチャットボットの実世界ケーススタディを通じて、学生がどのようにシステムを利用し、時には誤用したかを明らかにし、これらのギャップを浮き彫りにします。これらの知見を基に、未成年者向けのコンテンツベースのリスクの新しい分類法を提案し、子供たちからの安全でないまたは不適切なクエリを拒否する能力を評価するためのオープンソースのベンチマークであるMinorBenchを紹介します。異なるシステムプロンプトの下で6つの主要なLLMを評価し、それらの子供向け安全性遵守における大きなばらつきを示します。私たちの結果は、より堅牢で子供に焦点を当てた安全メカニズムのための実践的なステップを提供し、若いユーザーを保護するためにAIシステムを調整することの緊急性を強調します。
オブジェクトハルシネーション(OH)は、大規模視覚言語モデル(LVLM)における主要な信頼性課題の一つとして認識されてきた。近年の大規模言語モデル(LLM)の進展により、隠れ状態などの内部状態が生成された応答の「全体的な真実性」をエンコードしていることが示されている。しかし、LVLMの内部状態がどのように機能し、それらが「トークンごと」のハルシネーション指標として機能し得るかについては、まだ十分に検討されていない。これはOHを軽減する上で重要な課題である。本論文では、まずOH問題に関連するLVLMの内部状態について詳細な探索を行い、(1) LVLMの内部状態がハルシネーション行動の高特異性トークン指標であることを発見した。さらに、(2) 異なるLVLMが共通の潜在部分空間にハルシネーションの普遍的なパターンをエンコードしており、様々なLVLM間で共有される「一般的な真実方向」が存在することを示した。これらの発見に基づき、我々はTruthful-Guided Pre-Intervention(TruthPrInt)を提案する。これはまずLVLMデコーディングの真実方向を学習し、その後LVLMデコーディング中に真実誘導型推論時介入を適用するものである。さらに、ハルシネーション潜在部分空間を構築・整列させることで、クロスLVLMおよびクロスデータハルシネーション検出の転移性を強化するComnHalluを提案する。TruthPrIntを、ドメイン内およびドメイン外のシナリオを含む広範な実験設定で評価し、人気のあるLVLMとOHベンチマークで検証した。実験結果は、TruthPrIntが最先端の手法を大幅に上回ることを示している。コードはhttps://github.com/jinhaoduan/TruthPrIntで公開予定である。
バグレポートの議論における毒性は、オープンソースソフトウェア開発の協力的なダイナミクスに重大な課題をもたらします。バグレポートは欠陥を特定し解決するために不可欠ですが、その本質的に問題に焦点を当てた性質と感情的な文脈により、有毒な相互作用が生じやすくなっています。本研究では、GitHubのバグレポートにおける毒性を、203のバグスレッド(うち81が有毒なもの)の質的分析を通じて探求します。我々の調査結果は、毒性が頻繁に、バグの深刻度と優先度に関する認識の不一致、ツールに対する未解決の不満、そしてプロフェッショナルなコミュニケーションの欠如から生じることを明らかにしています。これらの有毒な相互作用は、生産的な議論を妨げるだけでなく、プルリクエストと問題をリンクするなどの具体的な成果の可能性を低下させます。我々の予備的な調査結果は、毒性を軽減することでバグ解決を改善するための実践的な提言を提供します。
ミニバッチ最適輸送カップリングは、無条件フローマッチングにおける経路を直線化します。これにより、テスト時に常微分方程式を数値的に解く際に、より少ない積分ステップとより単純な数値ソルバーを使用できるため、計算量が削減されます。しかし、条件付き設定では、ミニバッチ最適輸送は不十分です。これは、デフォルトの最適輸送マッピングが条件を無視するため、トレーニング中に条件付きで偏った事前分布が生じるためです。一方、テスト時には、この偏った事前分布にアクセスできず、代わりに完全で偏りのない事前分布からサンプリングします。このトレーニングとテストの間のギャップが、性能の低下を引き起こします。このギャップを埋めるために、最適輸送割り当てを計算する際にコスト行列に条件付き重み付け項を追加する条件付き最適輸送C^2OTを提案します。実験では、8gaussians-to-moons、CIFAR-10、ImageNet-32x32、ImageNet-256x256において、この単純な修正が離散および連続条件の両方で有効であることが示されています。我々の手法は、異なる関数評価予算において、既存のベースラインと比較して全体的に優れた性能を発揮します。コードはhttps://hkchengrex.github.io/C2OTで公開されています。
オープンソースの大規模視覚言語モデル(LVLM)において有望な性能を示すにもかかわらず、転移ベースのターゲット攻撃はブラックボックスの商用LVLMに対してしばしば失敗します。失敗した敵対的摂動を分析すると、学習された摂動は通常、一様分布から発生し、明確な意味的詳細を欠いているため、意図しない応答を引き起こすことがわかります。この意味情報の重大な欠如により、商用LVLMは摂動を完全に無視するか、埋め込まれた意味を誤解し、その結果、攻撃が失敗します。これらの問題を克服するために、私たちは、コアとなる意味的オブジェクトを特定することが、さまざまなデータセットと方法論で訓練されたモデルの主要な目的であることに気づきました。この洞察は、局所領域内に明示的な意味的詳細をエンコードすることで意味的明確性を向上させ、相互運用性を確保し、より細かい特徴を捉えること、そして一様に適用するのではなく、意味的に豊かな領域に修正を集中させるというアプローチを動機づけます。これを実現するために、各最適化ステップで、敵対的画像を制御されたアスペクト比とスケールでランダムに切り取り、リサイズし、ターゲット画像と埋め込み空間で整列させるという、シンプルでありながら非常に効果的なソリューションを提案します。実験結果は私たちの仮説を裏付けます。重要な領域に焦点を当てた局所集約摂動で作成された敵対的例は、GPT-4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet、さらにはo1、Claude-3.7-thinking、Gemini-2.0-flash-thinkingなどの推論モデルを含む商用LVLMに対して驚くほど良い転移性を示します。私たちのアプローチは、GPT-4.5、4o、およびo1で90%を超える成功率を達成し、これまでのすべての最先端の攻撃方法を大幅に上回ります。異なる構成とトレーニングコードの下で最適化された敵対的例は、https://github.com/VILA-Lab/M-Attackで入手可能です。
本論文では、帯域幅とストレージに制約のあるアプリケーション向けに設計された、新規かつオープンな超低ビットレート知覚画像圧縮システム「PerCoV2」を紹介する。PerCoV2は、Careilらによる先行研究を基盤として、元の定式化をStable Diffusion 3エコシステムに拡張し、離散ハイパー潜在画像分布を明示的にモデル化することでエントロピー符号化効率を向上させている。この目的のために、我々は最近の自己回帰手法(VARおよびMaskGIT)をエントロピーモデリングにおいて包括的に比較し、大規模なMSCOCO-30kベンチマークで本手法を評価した。従来の研究と比較して、PerCoV2は、(i)競争力のある知覚品質を維持しながら、さらに低いビットレートでより高い画像忠実度を達成し、(ii)ビットレートをさらに節約するためのハイブリッド生成モードを備え、(iii)公開されているコンポーネントのみで構築されている。コードと学習済みモデルはhttps://github.com/Nikolai10/PerCoV2で公開予定である。
本論文では、PoseLessという新しいロボットハンド制御フレームワークを紹介する。このフレームワークは、明示的な姿勢推定を必要とせず、投影表現を用いて2D画像を直接関節角度にマッピングする。我々のアプローチは、ランダム化された関節構成によって生成された合成トレーニングデータを活用し、実世界のシナリオへのゼロショット一般化と、ロボットハンドから人間の手へのクロスモルフォロジー転移を可能にする。視覚入力を投影し、トランスフォーマーベースのデコーダを採用することで、PoseLessは深度の曖昧さやデータ不足といった課題に対処しつつ、ロバストで低遅延の制御を実現する。実験結果は、人間によるラベル付けデータセットに依存することなく、関節角度予測精度において競争力のある性能を示している。
Classifier-free guidanceは、ノイズ除去拡散モデルを用いた条件付き生成において定番の手法となっている。しかし、classifier-free guidanceに関する包括的な理解はまだ得られていない。本研究では、classifier-free guidanceに対する新たな視点を提供するため、実証的な調査を行った。具体的には、classifier-free guidanceのみに焦点を当てるのではなく、その起源であるclassifier guidanceに遡り、導出の鍵となる仮定を特定し、分類器の役割を理解するための体系的な研究を行った。その結果、classifier guidanceとclassifier-free guidanceの両方が、条件情報が通常絡み合っており学習が難しい領域である決定境界からノイズ除去拡散軌道を遠ざけることで、条件付き生成を実現していることがわかった。この分類器中心の理解に基づき、我々はflow-matchingに基づく汎用的な後処理ステップを提案し、事前学習済みノイズ除去拡散モデルの学習分布と実データ分布の間のギャップ、特に決定境界周辺でのギャップを縮小する。様々なデータセットでの実験により、提案手法の有効性が検証された。