翻訳付きの日次キュレーションされたAI研究論文
PaliGemma 2は、Gemma 2ファミリーの言語モデルに基づいたPaliGemmaオープンビジョン言語モデル(VLM)のアップグレードです。PaliGemmaで使用されたSigLIP-So400mビジョンエンコーダーを、2Bから27BモデルまでのGemma 2モデル全体と組み合わせています。これらのモデルを224px、448px、896pxの3つの解像度で複数段階でトレーニングし、ファインチューニングを介して広範な知識を装備します。異なるモデルサイズと解像度をカバーするベースモデルファミリーが生まれ、転移パフォーマンスに影響を与える要因(学習率など)や、タスクの種類、モデルサイズ、解像度の相互作用を分析することが可能です。PaliGemmaを超える転移タスクの数と幅をさらに拡大し、テーブル構造認識、分子構造認識、楽譜認識、詳細なキャプション付け、放射線画像報告書生成などの異なるOCR関連タスクを含み、PaliGemma 2が最先端の結果を達成しています。
最近のアプローチでは、複数ステップのテキストから画像への拡散モデルを1ステップに蒸留することで、有望な結果が得られています。最先端の効率的な蒸留手法であるSwiftBrushv2(SBv2)は、限られたリソースでさえ教師モデルの性能を上回っています。しかし、私たちの研究では、Variational Score Distillation(VSD)損失内で固定されたガイダンススケールを使用することにより、異なる拡散モデルのバックボーンを処理する際の不安定さが明らかになりました。既存の1ステップ拡散モデルの別の弱点は、実用的な画像生成において重要な負のプロンプトガイダンスのサポートが欠如していることです。本論文では、これらの制限に対処するために設計された新しいフレームワークであるSNOOPIを提案します。SNOOPIは、トレーニングと推論の両方で1ステップ拡散モデルのガイダンスを強化することによって、ガイダンスを向上させます。まず、Proper Guidance-SwiftBrush(PG-SB)を介してトレーニングの安定性を効果的に向上させます。PG-SBはランダムスケールのクラシファイアフリーガイダンスアプローチを採用しています。教師モデルのガイダンススケールを変化させることで、出力分布を広げ、より堅牢なVSD損失を実現し、SBが競合力のあるパフォーマンスを維持しながら、異なるバックボーン間で効果的に機能するようにします。次に、Negative-Away Steer Attention(NASA)と呼ばれるトレーニングフリーメソッドを提案します。NASAは、負のプロンプトをクロスアテンションを介して1ステップ拡散モデルに統合し、生成された画像の望ましくない要素を抑制します。実験結果は、提案された手法がさまざまなメトリクスでベースラインモデルを大幅に改善することを示しています。特筆すべきことに、1ステップ拡散モデルの新たな最先端ベンチマークを設定し、HPSv2スコアを31.08に達成しました。
TokenFlowは、多様な理解と生成の間の長年のギャップを埋める革新的な統合画像トークナイザを提案します。以前の研究では、理解と生成を統一するために単一の再構築を目指したベクトル量子化(VQ)エンコーダを使用しようと試みていました。しかし、理解と生成には基本的に異なる視覚情報の粒度が必要であることに気付きました。これにより、特に多様な理解タスクのパフォーマンスが損なわれるという重要なトレードオフが生じます。TokenFlowは、セマンティックとピクセルレベルの特徴学習を分離し、共有マッピングメカニズムを介してそれらの整合性を維持する革新的なデュアルコードブックアーキテクチャによってこの課題に取り組んでいます。この設計により、理解タスクに重要な高レベルのセマンティック表現と生成に不可欠な細かい視覚特徴に直接アクセスできるようになります。私たちの幅広い実験は、TokenFlowの優位性を複数の側面で示しています。TokenFlowを活用することで、初めて離散的な視覚入力が理解のパフォーマンスでLLaVA-1.5 13Bを上回り、平均7.2%の改善を達成しました。画像再構成では、384×384の解像度で強力なFIDスコア0.63を達成しました。さらに、TokenFlowは、256×256の解像度でGenEvalスコア0.55を記録し、SDXLに匹敵する結果を達成することで、自己回帰画像生成の最先端のパフォーマンスを確立しました。
360度ビデオは、視聴者が動的なシーンを360度全方位から探索できる、超没入型の体験を提供します。360度ビデオ形式でよりユーザーフレンドリーでパーソナライズされたコンテンツ作成を実現するために、標準の視点ビデオを360度equirectangularビデオに昇華させることを目指しています。このために、Imagine360を導入します。これは、ビデオアンカーから高品質で多様な動きパターンを持つ360度ビデオを生成する、初の視点から360度ビデオへの変換フレームワークです。Imagine360は、限られた360度ビデオデータから微細な球面視覚と動きのパターンを学習するためにいくつかの主要な設計を備えています。1) まず、360度ビデオ生成のために局所的およびグローバルな制約を提供する視点とパノラマビデオのノイズ除去ブランチを含むデュアルブランチ設計を採用し、モーションモジュールと拡張Web 360度ビデオで微調整された空間LoRAレイヤーを備えています。2) さらに、長距離の動き依存関係を捉えるために反対側のピクセル間での逆向きのカメラ動きを向上させるための反対側のマスクが考案されています。3) 多様な視点ビデオ入力を処理するために、フレーム間で変化する高度による異なるビデオマスキングに適応する高度認識設計を提案しています。幅広い実験結果は、Imagine360が最先端の360度ビデオ生成手法の中で優れたグラフィック品質と動きの一貫性を達成していることを示しています。Imagine360は、パーソナライズされた没入型360度ビデオ作成の推進に向けた可能性を秘めていると考えています。
拡散モデルは、強力なトレーニングの安定性と高い完了品質から、3D LiDARシーン補完に適用されてきました。ただし、自律車両が周囲環境を効率的に認識する必要があるため、拡散ベースのシーン補完モデルの実用化が遅いサンプリング速度によって制限されています。本論文では、3D LiDARシーン補完モデル向けに特別に設計された新しい蒸留手法であるScoreLiDARを提案し、効率的でありながら高品質なシーン補完を実現します。ScoreLiDARは、蒸留後に著しく少ないステップでサンプリングするように蒸留モデルを可能にします。完了品質を向上させるために、3D LiDARシーンの幾何学的構造を捉えるように蒸留モデルを促す新しい構造損失も導入します。この損失には、全体的な構造を制約するシーン単位の項と、主要なランドマークポイントとそれらの相対配置を制約する点単位の項が含まれています。幅広い実験により、ScoreLiDARは、SemanticKITTIにおいて1フレームあたりの完了時間を30.55秒から5.37秒に大幅に短縮し(5倍以上)、最先端の3D LiDARシーン補完モデルと比較して優れた性能を達成することが示されています。当社のコードは、https://github.com/happyw1nd/ScoreLiDAR で公開されています。
最近のビデオ大規模多モーダルモデル(LMMs)の進歩により、ビデオの理解と推論能力が大幅に向上しました。しかし、トレーニングデータで十分に表現されていない分布外(OOD)タスクにおいて、その性能が低下することがあります。OODデータセットでのファインチューニングなどの従来の手法は、高い計算コストのため実用的ではありません。一方、デモンストレーション例を用いたインコンテキストラーニング(ICL)は、ファインチューニングを行わずに言語タスクや画像言語タスクにおいて有望な汎化性能を示していますが、ビデオ言語タスクにICLを適用する際には、ビデオLMMsにおける限られたコンテキスト長の制約による課題があります。これらの問題に対処するため、我々は、OODタスク向けの新しいビデオインコンテキストラーニングフレームワークであるVideoICLを提案します。このフレームワークは、類似性に基づいた関連例選択戦略と信頼度に基づいた反復推論アプローチを導入し、最も関連性の高い例を選択し、類似性に基づいてランク付けして推論に使用します。生成された応答の信頼度が低い場合、我々のフレームワークは新しい例を選択し、再度推論を行い、結果を反復的に洗練させ、高い信頼度の応答が得られるまで続けます。このアプローチにより、高いコストをかけることなく効果的なコンテキスト長を拡張し、OODビデオ理解性能を向上させます。複数のベンチマークでの実験結果は、特にドメイン固有のシナリオにおいて顕著な性能向上を示し、より広範なビデオ理解アプリケーションの基盤を築いています。コードは以下のリンクから公開されます:https://github.com/KangsanKim07/VideoICL
リアルなアニメータブルなアバターを構築するには、複数の視点または単眼の自己回転ビデオを数分間必要とし、ほとんどの手法がジェスチャーや表情に対する正確な制御を欠いています。この限界を押し広げるために、私たちは単一の画像から全身の話すアバターを構築する課題に取り組んでいます。私たちは、2つの重要な課題、すなわち複雑なダイナミックモデリングと新しいジェスチャーや表情への一般化に対処する革新的なパイプラインを提案します。シームレスな一般化を実現するために、最近のポーズガイド画像からビデオへの拡散モデルを活用して、不完全なビデオフレームを疑似ラベルとして生成します。不一致やノイズのある疑似ビデオによって引き起こされるダイナミックモデリングの課題を克服するために、緊密に結合された3DGS-メッシュハイブリッドアバター表現を導入し、不完全なラベルによって引き起こされる不一致を緩和するためにいくつかの主要な正則化を適用します。多様な被験者に関する幅広い実験は、私たちの手法が、単一の画像から写実的で正確にアニメーション可能で表現豊かな全身の話すアバターの作成を可能にすることを示しています。
本論文では、オープンソースの韓国語-英語のビジョン言語モデル(VLM)、VARCO-VISIONを紹介します。我々は、ステップバイステップのトレーニング戦略を取り入れ、モデルが言語情報と視覚情報の両方を学習しながら、バックボーンモデルの知識を維持することができます。当モデルは、同等サイズのモデルと比較して、バイリンガルな画像テキスト理解と生成能力を必要とする多様な環境で優れたパフォーマンスを示しています。VARCO-VISIONは、グラウンディング、参照、OCRも可能であり、その使用法と潜在的な応用範囲を拡大しています。モデルに加えて、4つのクローズドセットおよび1つのオープンセットのベンチマークを含む5つの韓国語評価データセットを公開しています。私たちのこの画期的な成果が、VLMをトレーニングすることを目指すAI研究者に新たな機会を提供することを期待しています。VARCO-VISIONは、https://huggingface.co/NCSOFT/VARCO-VISION-14B で入手可能です。
この論文では、単一の画像からの構成的な3Dシーン生成のための新しいパラダイムであるMIDIを紹介します。従来の手法が再構築や検索技術に依存するのに対し、または最近の手法が多段階のオブジェクトごとの生成を採用するのに対して、MIDIは事前学習された画像から3Dオブジェクトを生成するモデルを複数のインスタンスの拡散モデルに拡張し、正確な空間関係と高い汎化性を備えた複数の3Dインスタンスを同時に生成することが可能となります。MIDIの中心には、効果的にオブジェクト間の相互作用と空間的な一貫性を生成プロセス内で直接捉える革新的なマルチインスタンスアテンションメカニズムが組み込まれており、複雑な多段階プロセスを必要とせずにいます。この手法は、部分的なオブジェクト画像とグローバルなシーンコンテキストを入力とし、3D生成中にオブジェクトの完了を直接モデリングします。トレーニング中、シーンレベルのデータの限られた量を使用して3Dインスタンス間の相互作用を効果的に監督し、単一オブジェクトデータを正則化に組み込むことで、事前学習された汎化能力を維持します。MIDIは、合成データ、実世界のシーンデータ、およびテキストから画像への拡散モデルによって生成されたスタイル化されたシーン画像の評価を通じて検証された画像からシーンへの生成において最先端のパフォーマンスを示しています。
最近の生成モデルの進歩により、多視点データからの新しい視点合成(NVS)が大幅に改善されました。ただし、既存の手法は、明示的な姿勢推定や事前再構築などの外部の多視点整列プロセスに依存しており、整列が不安定である場合、たとえば重なりが不十分であるか視点間に遮蔽物がある場合など、柔軟性とアクセシビリティが制限されます。本論文では、明示的な外部整列が不要な新しいアプローチであるNVComposerを提案します。NVComposerは、2つの主要なコンポーネントを導入することで、生成モデルが複数の条件付きビュー間の空間的および幾何学的関係を暗黙的に推論できるようにします。それらは、1) 同時に目標の新しいビューを生成し条件となるカメラの姿勢を生成する画像-姿勢デュアルストリーム拡散モデル、および2) 訓練中に密なステレオモデルから幾何学的事前知識を抽出するジオメトリに注意した特徴整列モジュールです。幅広い実験により、NVComposerが生成的多視点NVSタスクで最先端の性能を達成し、外部整列への依存を排除し、モデルのアクセシビリティを向上させることが示されました。提案手法は、未設定の入力ビュー数が増加するにつれて合成品質が著しく向上し、より柔軟でアクセス可能な生成的NVSシステムの可能性を示しています。
NitroFusionは、高品質の生成を実現するために動的な敵対的フレームワークを介して単一ステップの拡散に基本的に異なるアプローチを提供します。一歩法は劇的な速度の利点を提供しますが、通常、マルチステップの対応物と比較して品質の低下に苦しむ傾向があります。美術評論家のパネルが構成、色彩、技法など異なる側面に特化した包括的なフィードバックを提供するように、当社のアプローチは、生成プロセスを共同でガイドする専門のディスクリミネータヘッドの大規模なプールを維持します。各ディスクリミネータグループは、異なるノイズレベルで特定の品質の側面に専門知識を開発し、多様なフィードバックを提供し、高忠実度の単一ステップ生成を可能にします。当社のフレームワークは、(i) 生成品質を向上させるための専門ディスクリミネータグループを備えた動的ディスクリミネータプール、(ii) ディスクリミネータの過学習を防ぐための戦略的リフレッシュメカニズム、および(iii) マルチスケール品質評価のためのグローバル-ローカルディスクリミネータヘッド、および均衡の取れた生成のための無条件/条件付きトレーニングを組み合わせています。さらに、当社のフレームワークは、ボトムアップのリファインメントを介した柔軟な展開をユニークにサポートし、ユーザーが直接品質と速度のトレードオフを選択できるように、同じモデルで1-4のノイズリダクションステップの間で動的に選択できます。包括的な実験を通じて、NitroFusionが既存の単一ステップ方法を複数の評価メトリックスで大幅に上回り、特に微細なディテールとグローバルな一貫性を保持する点で優れていることを示します。
マルチモーダル大規模言語モデル(MLLMs)の急速な進化は、さまざまなマルチモーダルタスクに大きな影響を与えています。ただし、これらのモデルは、3D環境内での空間理解が必要なタスクにおいて課題に直面しています。ポイントクラウド特徴の組み込みなど、MLLMsを強化する取り組みが行われていますが、モデルが学習した表現と3Dシーンの固有の複雑さとの間にはかなりのギャップが残っています。この相違は、MLLMsの訓練が主に2Dデータに基づいていることから生じており、これが3D空間を理解する際の効果を制限しています。この問題に対処するため、本論文では、3Dシーン理解向けの革新的な汎用モデル、すなわちVideo-3D LLMを提案します。3Dシーンを動的なビデオとして扱い、これらの表現に3D位置エンコーディングを組み込むことで、Video-3D LLMはビデオ表現を現実世界の空間コンテキストとより正確に整合させます。さらに、計算コストと性能効率のバランスを最適化するために最大カバレッジサンプリング技術を実装しました。包括的な実験により、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなどの複数の3Dシーン理解ベンチマークで、当モデルが最先端の性能を達成していることが示されています。
現在のLLMにおける数学的スキルの評価は限られており、既存のベンチマークは比較的小規模であり、主に初等および高校レベルの問題に焦点を当てているか、またはトピックの多様性に欠けています。さらに、タスクに視覚的要素を含めることに関しては、未だほとんど探求されていません。 これらのギャップに対処するために、私たちはU-MATHを導入します。これは、教材から収集された1,100の未公開のオープンエンドの大学レベルの問題の新しいベンチマークです。これは、6つの主要科目にバランスよく分布しており、20%がマルチモーダルな問題です。U-MATHの問題がオープンエンドであることから、我々はLLMを用いて生成された解の正確性を判断します。このために、解の判断能力を評価するためにmu-MATHというデータセットを公開します。 一般領域、数学特化型、マルチモーダルLLMの評価は、U-MATHが提示する課題を浮き彫りにします。我々の調査結果によれば、LLMはテキストベースのタスクにおいて最大63%の正解率を達成し、視覚的問題ではさらに低い45%となります。解の評価はLLMにとって難しいことが示され、mu-MATHにおいて最も優れたLLMジャッジはF1スコアで80%を達成しています。
大規模言語モデルを用いた合成データ生成は、さまざまなタスクにわたって自然データを拡充する有望なパラダイムです。この多様性から、合成データ生成アルゴリズムの直接比較は少なく、改善の要因や存在するボトルネックを理解することが難しい状況です。我々は、各アルゴリズムによって生成された合成データの構成を、データの品質、多様性、複雑さの観点から評価することを提案します。これらの特性を選択した理由は、オープンエンドのプロセスにおける重要性と、それぞれが下流モデルの能力に与える影響です。品質は分布内モデルの汎化にとって不可欠であり、多様性は分布外汎化に不可欠であり、複雑さはその両方に有益です。さらに、トレーニングデータにおける品質と多様性のトレードオフの存在と、モデルパフォーマンスへの下流効果を強調します。次に、合成データパイプライン内のさまざまなコンポーネントが各データ特性に与える影響を検討します。この検討により、合成データ生成アルゴリズムを、それらが利用するコンポーネントとデータQDC構成への影響に基づいて分類および比較することが可能となります。この分析は、効率的な強化学習や自己改善アルゴリズムのための合成データにおけるQDCのバランスの重要性についての議論に展開します。トレーニングデータにおけるQDのトレードオフと類似して、モデルの出力品質と出力多様性の間にトレードオフが存在し、合成データの構成に影響を与えます。現在、多くのモデルが出力品質のみに対して評価および最適化されており、出力多様性や自己改善の可能性が制限されていると観察されます。これらのトレードオフのバランスを取ることが、将来の自己改善アルゴリズムの開発に不可欠であり、この方向で進展を遂げているいくつかの研究を紹介します。
大規模事前学習拡散モデルからの内部特徴は、幅広い下流タスクのための強力な意味記述子として最近確立されています。これらの特徴を使用する作業では、一般的に画像にノイズを追加してからモデルを通す必要があります。なぜなら、これらのモデルは、ほとんどノイズのない画像が与えられた場合に最も有用な特徴を提供しないからです。我々は、このノイズがこれらの特徴の有用性に重大な影響を与え、異なるランダムなノイズを用いたアンサンブルによって解決できないことを示します。我々は、軽量で、教師なしの微調整手法を導入することで、拡散バックボーンが高品質でノイズのない意味特徴を提供できるようにこの問題に取り組みます。我々は、これらの特徴が、広範な抽出セットアップや下流タスクにおいて、広範囲にわたって以前の拡散特徴を大幅に上回り、コストの一部でさえアンサンブルベースの手法よりも優れたパフォーマンスを提供することを示します。
異種のオープンソースLLM(Large Language Model)を統合することは、異なるアーキテクチャとサイズの強みを組み合わせる可能性がありますが、既存の統合方法は語彙の整列や分布行列のマージングなど、重要な課題に直面しています。これらの手順は複雑であり、ノイズやエラーを導入しやすいです。本論文では、Weighted-Reward Preference Optimization(WRPO)という暗黙の統合方法を提案し、ソースLLMとターゲットLLMの間での適切な能力の移転に役立てます。WRPOは語彙の整列や行列の統合を不要とし、さまざまなLLMに効率的にスケーリングできます。ソースとターゲットLLM間の分布のずれに対処するため、WRPOは、徐々にターゲットLLMからソースLLMへの好ましい例への依存を移行させる進行的適応戦略を導入します。MT-Bench、AlpacaEval-2、Arena-Hardのベンチマークでの幅広い実験により、WRPOが既存の知識統合方法やさまざまなファインチューニングのベースラインを一貫して上回ることが示されました。ターゲットモデルとしてLLaMA3-8B-Instructを適用した場合、WRPOはAlpacaEval-2においてGPT-4-Preview-1106に対して55.9%の勝率、Arena-HardにおいてGPT-4-0314に対して46.2%の勝率を達成します。当該コードはhttps://github.com/SLIT-AI/WRPO で入手可能です。
テキストは、物語の性質から、ビデオ生成における主要な制御信号として機能します。テキストの記述をビデオクリップにレンダリングするために、現在のビデオ拡散モデルはテキストエンコーダから特徴を借用していますが、テキストの理解が限定されているという課題に直面しています。大規模言語モデル(LLMs)の最近の成功は、デコーダのみのトランスフォーマーの力を示しており、テキストからビデオ(T2V)生成において、優れたスケーラビリティによる正確なテキスト理解、入力テキストを超えた想像力による次のトークン予測の有効性、および指示チューニングを通じたユーザーの関心を優先する柔軟性という3つの明確な利点を提供しています。ただし、2つの異なるテキストモデリングパラダイムから生じる特徴分布のギャップは、確立されたT2VモデルでのLLMsの直接利用を妨げています。この研究は、Mimirという、テキストエンコーダとLLMsの出力を調和させるために慎重に設計されたトークンフューザーを備えたエンドツーエンドのトレーニングフレームワークで、この課題に取り組んでいます。この設計により、T2Vモデルは学習されたビデオ事前知識を十分に活用しながら、LLMsのテキスト関連能力を最大限に活用することができます。包括的な定量的および定性的結果は、Mimirが高品質のビデオを生成し、特に短いキャプションの処理や移動するモーションの管理において優れたテキスト理解を示す効果を実証しています。プロジェクトページ:https://lucaria-academy.github.io/Mimir/
大規模多モーダルモデル(LMMs)は、指示チューニングの進歩により、重要なブレークスルーを達成してきました。しかし、既存のモデルは画像やビデオを全体的なレベルで理解できる一方、より微妙な理解と整合性を必要とするインスタンスレベルの理解には苦労しています。インスタンスレベルの理解は重要であり、私たちが最も興味を持つ具体的な要素に焦点を当てています。興味深いことに、既存の研究では、最先端のLMMsが明示的な視覚的手がかりを提供されると強力なインスタンス理解能力を示すことが分かっています。このことに触発され、私たちはGPT-4oによって支援される自動注釈パイプラインを導入し、明示的な視覚的プロンプティングを通じて画像やビデオからインスタンスレベルの情報を抽出するためのインスタンスガイダンスを提供しています。このパイプラインを基に、Inst-ITという、インスタンス理解を向上させる解決策を提案しました。Inst-ITは、多モーダルインスタンスレベル理解を診断するためのベンチマーク、大規模な指示チューニングデータセット、および既存のLMMsの空間的・時間的なインスタンス理解能力を効果的に向上させるための連続した指示チューニングトレーニングパラダイムで構成されています。実験結果は、Inst-ITの助けを借りることで、私たちのモデルがInst-IT Benchで優れたパフォーマンスを達成するだけでなく、さまざまな一般的な画像およびビデオ理解ベンチマークで著しい改善を示すことを示しています。これにより、私たちのデータセットがインスタンスレベルの理解を向上させるだけでなく、一般的な画像およびビデオ理解の全体的な能力を強化することが強調されます。
LumiNetは、生成モデルと潜在的な固有表現を活用した効果的な照明転送のための革新的なアーキテクチャを紹介します。ソース画像とターゲット照明画像が与えられると、LumiNetはソースシーンの再照明バージョンを合成し、ターゲットの照明を捉えます。当アプローチは、StyleGANベースの再照明モデルからのデータキュレーション戦略と、ソース画像からの潜在的な固有特性とターゲット画像からの潜在的な外部特性の両方を処理する改良された拡散ベースのControlNetに2つの主要な貢献をします。さらに、クロスアテンションとファインチューニングを介してターゲットの潜在的な外部特性を注入する学習されたアダプタ(MLP)を使用して、照明転送を改善します。 従来のControlNetが単一のシーンから条件付きマップを生成するのに対し、LumiNetはソースからジオメトリとアルベドを保持しつつ、ターゲットから照明特性を転送する2つの異なる画像からの潜在表現を処理します。実験では、当手法が、入力として画像のみを使用して、さまざまな空間レイアウトや素材を持つシーン間で複雑な照明現象(スペキュラハイライトや間接照明など)を転送し、従来の手法を上回る結果を示すことが示されました。