翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLMs)の顕著な進展は、視覚的コンテキストにおける優れた性能により、比類のない注目を集めている。しかし、視覚的数学問題解決におけるその能力は、十分に評価・理解されていない。我々は、現在のベンチマークを調査し、テキスト問題内に過剰な視覚的コンテンツを取り込むことで、MLLMsが入力図を真に解釈せずに答えを推測する可能性があることを明らかにした。この目的のために、我々はMathVerseを導入する。これは、MLLMsの公平かつ詳細な評価のために設計された包括的な視覚数学ベンチマークである。我々は、公開されているソースから2,612の高品質な多科目数学問題と図を慎重に収集した。各問題は、人間のアノテーターによって6つの異なるバージョンに変換され、それぞれが多モダリティにおける情報量の異なる度合いを提供し、合計15Kのテストサンプルを構成する。このアプローチにより、MathVerseは、MLLMsが数学的推論のために視覚図を真に理解できるかどうか、そしてどの程度理解できるかを包括的に評価することができる。さらに、我々は、出力された答えの詳細な評価のためのChain-of-Thought(CoT)評価戦略を提案する。単純に正誤を判断するのではなく、GPT-4(V)を使用して重要な推論ステップを適応的に抽出し、各ステップを詳細なエラー分析でスコアリングする。これにより、MLLMsによる中間的なCoT推論の質を明らかにすることができる。我々は、MathVerseベンチマークが、MLLMsの将来の開発を導くための独自の洞察を提供することを期待する。プロジェクトページ: https://mathverse-cuhk.github.io
テキストプロンプトからの3Dコンテンツ生成は、最近目覚ましい成功を収めています。 しかし、現在のテキストから3Dへの手法では、人間の好みにうまく合致しない3D結果を生成することがしばしばあります。 本論文では、人間の選好フィードバックからテキストから3Dへのモデルを学習し改善するための包括的なフレームワーク、DreamRewardを提案します。 まず、評価とランキングを含む体系的なアノテーションパイプラインに基づいて25,000件の専門家による比較データを収集します。 次に、人間の選好を効果的にエンコードする初の汎用テキストから3Dへの人間選好報酬モデル、Reward3Dを構築します。 3D報酬モデルを基盤として、理論的分析を行い、再定義されたスコアラーを用いてマルチビューディフュージョンモデルを最適化する直接チューニングアルゴリズム、Reward3Dフィードバック学習(DreamFL)を提示します。 理論的証明と広範な実験比較に基づき、私たちのDreamRewardは、人間の意図とのプロンプト整合性が大幅に向上した、高忠実度で3D整合性のある結果を生成することに成功しました。 私たちの結果は、人間のフィードバックから学習することでテキストから3Dへのモデルを改善する大きな可能性を示しています。
近年、マルチモーダル大規模言語モデル(MLLM)の様々な分野への応用が目覚ましい成功を収めています。しかし、多くの下流タスクの基盤モデルとして、現在のMLLMはよく知られたTransformerネットワークで構成されており、計算複雑度が二次的で効率が低いという課題があります。このような基盤モデルの効率を改善するため、我々は線形計算複雑度のMLLMであるCobraを提案します。具体的には、Cobraは効率的なMamba言語モデルを視覚モダリティに統合しています。さらに、効果的なマルチモーダルMambaを構築するため、様々なモダリティ融合スキームを探求し研究しました。大規模な実験により、(1) CobraはLLaVA-Phi、TinyLLaVA、MobileVLM v2などの現在の計算効率の良い最先端手法と極めて競争力のある性能を達成し、Cobraの線形シーケンシャルモデリングにより高速な速度を実現していること、(2) 興味深いことに、閉集合の難易度の高い予測ベンチマークの結果から、Cobraは視覚的錯覚や空間関係の判断において優れた性能を発揮することが示されました。(3) 特に注目すべきは、CobraはLLaVAと比較して約43%のパラメータ数で同等の性能を達成していることです。我々はCobraの全コードをオープンソース化し、提案手法がMLLMの複雑性問題に関する将来の研究を促進することを期待しています。プロジェクトページは以下で公開されています: https://sites.google.com/view/cobravlm。
ビデオツービデオ編集は、ソースビデオと追加の制御(テキストプロンプト、被写体、スタイルなど)を組み合わせて、ソースビデオと提供された制御に沿った新しいビデオを生成する編集手法である。従来の手法は特定の編集タイプに制限されており、多様なユーザー要求に対応する能力が限られていた。本論文では、AnyV2Vという新しいトレーニング不要のフレームワークを紹介する。このフレームワークは、ビデオ編集を2つの主要なステップに簡素化することを目的としている:(1) 既存の画像編集モデル(例:InstructPix2Pix、InstantIDなど)を使用して最初のフレームを修正し、(2) 既存の画像ツービデオ生成モデル(例:I2VGen-XL)を利用してDDIM逆変換と特徴注入を行う。第一段階では、AnyV2Vは既存の画像編集ツールを組み込むことで、幅広いビデオ編集タスクをサポートできる。従来のプロンプトベースの編集手法に加えて、AnyV2Vは参照ベースのスタイル転送、被写体駆動編集、アイデンティティ操作といった新しいビデオ編集タスクもサポートし、これらは従来の手法では実現不可能であった。第二段階では、AnyV2Vは既存の画像ツービデオモデルを組み込むことで、DDIM逆変換と中間特徴注入を行い、ソースビデオとの外観と動きの一貫性を維持する。プロンプトベースの編集において、AnyV2Vは従来の最良の手法よりもプロンプト整合性で35%、人間の好みで25%優れていることを示す。3つの新しいタスクにおいても、AnyV2Vは高い成功率を達成している。AnyV2Vは、急速に進化する画像編集手法をシームレスに統合する能力により、今後も発展を続けると確信している。この互換性により、AnyV2Vは多様なユーザー要求に対応するための汎用性をさらに高めることができる。
テキスト誘導型拡散モデルの最近の進展により、強力な画像操作能力が実現されています。しかし、これらの手法を実画像に適用するためには、事前学習された拡散モデルの領域に画像を逆変換する必要があります。特に、少ないノイズ除去ステップで画像を生成するように訓練された最新のモデルにおいて、忠実な逆変換を達成することは依然として課題です。本研究では、操作数を増やすことなく再構成精度を向上させる、高品質対操作比を備えた逆変換手法を提案します。拡散サンプリングプロセスを逆転させることに基づき、本手法は各逆変換サンプリングステップにおいて反復的リノイズ機構を採用します。この機構は、事前学習された拡散モデルを反復的に適用し、これらの予測を平均化することにより、順拡散軌道に沿った予測点の近似を精緻化します。我々は、ReNoise技術の性能を、最近の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて評価します。包括的な評価と比較を通じて、その精度と速度の両面における有効性を示します。さらに、実画像に対するテキスト駆動型画像編集を実証することで、本手法が編集可能性を保持することを確認します。
ビデオ拡散モデルは最近、生成品質において大きな進歩を遂げていますが、依然として高いメモリと計算リソースを必要とするという制約があります。これは、現在のビデオ拡散モデルが高次元のビデオを直接処理しようとするためです。この問題に対処するため、我々は事前学習済みの画像拡散モデルをビデオ生成に効率的に拡張する新しい手法である、コンテンツ-モーション潜在拡散モデル(CMD)を提案します。具体的には、ビデオをコンテンツフレーム(画像のようなもの)と低次元のモーション潜在表現の組み合わせとして簡潔にエンコードするオートエンコーダを提案します。前者は共通のコンテンツを表し、後者はビデオの基盤となるモーションをそれぞれ表します。コンテンツフレームは事前学習済みの画像拡散モデルをファインチューニングして生成し、モーション潜在表現は新しい軽量な拡散モデルを訓練して生成します。ここでの重要な革新は、事前学習済みの画像拡散モデルを直接利用できるコンパクトな潜在空間の設計であり、これは従来の潜在ビデオ拡散モデルでは実現されていませんでした。これにより、生成品質が大幅に向上し、計算コストが削減されます。例えば、CMDは512×1024の解像度で長さ16のビデオを3.1秒で生成し、従来のアプローチよりも7.7倍高速にサンプリングできます。さらに、CMDはWebVid-10MにおいてFVDスコア212.7を達成し、従来の最先端の292.4よりも27.3%優れています。
近年の大規模視覚言語モデル(VLM)は、視覚コンテンツの理解とテキスト記述の生成において顕著な能力を示してきました。しかし、これらのモデルはユーザー固有の概念を理解する能力を欠いています。本研究では、VLMのパーソナライゼーションに向けた第一歩を踏み出し、ユーザーが提供する概念を学習し、推論することを可能にします。例えば、これらのモデルが画像中のあなたを認識し、あなたが何をしているかを伝えることを学習できるかどうかを探り、モデルをあなたの個人的な経験や関係性を反映するように調整します。多様なユーザー固有の概念を効果的に認識するために、VLMに外部の概念ヘッドを追加し、これらをモデルのトグルとして機能させ、特定のターゲット概念が画像内に存在するかを識別できるようにします。概念を認識した後、VLMの中間特徴空間に新しい概念埋め込みを学習します。この埋め込みは、言語モデルが生成する応答にターゲット概念を自然に統合するよう導く役割を担います。本手法をBLIP-2とLLaVAに適用し、パーソナライズされた画像キャプショニングを実現し、さらにパーソナライズされた視覚的質問応答への適用可能性を示します。実験結果は、学習した概念の未見画像への一般化能力を維持しつつ、無関係な入力に対するモデルの挙動を保持する能力を実証しています。
我々は、スパースビュー画像から約0.1秒で3Dアセットを復元可能な大規模再構成器GRMを紹介する。GRMはフィードフォワード型のトランスフォーマーベースモデルであり、マルチビュー情報を効率的に取り込んで入力ピクセルをピクセルアラインドガウシアンに変換する。これらはアンプロジェクションされ、シーンを表す密に分布した3Dガウシアンの集合を生成する。我々のトランスフォーマーアーキテクチャと3Dガウシアンの使用により、スケーラブルで効率的な再構成フレームワークが実現される。広範な実験結果は、再構成品質と効率の両面において、本手法が他の手法を凌駕することを示している。また、既存のマルチビューディフュージョンモデルと統合することで、テキストから3D、画像から3Dといった生成タスクにおけるGRMの可能性も示す。プロジェクトウェブサイトは以下: https://justimyhxu.github.io/projects/grm/
本論文では、複雑な3D効果を高品質にレンダリングおよび編集するための新しいメッシュベース表現である「Gaussian Frosting」を提案します。本手法は、最近の3D Gaussian Splattingフレームワークを基盤としており、画像から放射場を近似するために3Dガウシアンの集合を最適化します。我々は、最適化中にガウシアンからベースメッシュを抽出し、その周囲に可変厚さの適応型ガウシアン層を構築・精緻化することで、表面近くの細かいディテールや体積効果(髪や草など)をより良く捉えることを提案します。この層を「Gaussian Frosting」と呼びます。これは、ケーキの上にかけられたフロスティングに似ています。素材がふわふわしているほど、フロスティングの厚みが増します。また、ガウシアンをパラメータ化して、フロスティング層内に留まるようにし、メッシュの変形、スケーリング、編集、アニメーション時に自動的にパラメータを調整する方法も導入します。本表現は、ガウシアンスプラッティングを用いた効率的なレンダリングを可能にし、ベースメッシュを変更することで編集やアニメーションも行えます。様々な合成シーンと実シーンにおいて本手法の有効性を実証し、既存のサーフェスベース手法を凌駕することを示します。コードとウェブベースビューアを追加貢献として公開します。プロジェクトページは以下です: https://anttwo.github.io/frosting/
境界付き生成を、与えられた開始フレームと終了フレームのみに基づいて任意のカメラおよび被写体の動きを合成するための一般化されたタスクとして導入します。私たちの目的は、元のモデルの追加のトレーニングやファインチューニングなしで、画像から動画へのモデルの持つ本質的な汎化能力を最大限に活用することです。これは、提案する新しいサンプリング戦略である「時間反転融合(Time Reversal Fusion)」によって実現されます。この戦略では、開始フレームと終了フレームにそれぞれ条件付けられた時間的に前方および後方のノイズ除去パスを融合します。融合されたパスは、2つのフレームを滑らかに接続する動画を生成し、忠実な被写体の動きの補間、静的なシーンの新しい視点、および2つの境界フレームが同一の場合のシームレスな動画ループを実現します。多様な画像ペアの評価データセットをキュレーションし、既存の最も近い手法と比較します。その結果、時間反転融合はすべてのサブタスクにおいて関連する研究を上回り、境界付きフレームに導かれた複雑な動きや3D整合性のある視点を生成する能力を示しました。プロジェクトページはhttps://time-reversal.github.ioをご覧ください。
本研究では、事前学習済みのStyleGANを用いて静止した風景画像から自動的にシネマグラフを生成する手法を提案する。近年の無条件動画生成の成功に着想を得て、我々は強力な事前学習済み画像生成器を活用し、高品質なシネマグラフを合成する。従来のアプローチが主に事前学習済みStyleGANの潜在空間を利用するのに対し、本手法ではGAN逆変換とシネマグラフ生成の両方にその深層特徴空間を活用する。具体的には、事前学習済みStyleGANの中間特徴を異なる解像度でワープするマルチスケール深層特徴ワーピング(MSDFW)を提案する。MSDFWを用いることで、生成されるシネマグラフは高解像度であり、自然なループアニメーションを実現する。我々は、ユーザスタディと最新のシネマグラフ生成手法および事前学習済みStyleGANを用いた動画生成手法との定量的比較を通じて、本手法の優位性を実証する。
研究者や開発者は、カスタマーサービス、情報検索、コンテンツ生成などの場面で、生成言語モデルの出力を調整するために毒性スコアリングをますます活用しています。しかし、毒性スコアリングは、関連する情報にアクセスできなくしたり、文化的規範を固定化または「価値固定化」したり、特にマイノリティの人々にとっての言語の再獲得プロセスを妨げたりする可能性があります。本研究では、アルゴリズム的リコースの概念を生成言語モデルに拡張します。ユーザーが毒性フィルタリングの閾値を動的に設定することで、望む予測を達成するための新たなメカニズムを提供します。これにより、ユーザーはベースラインシステムとの相互作用に比べて、より大きな主体性を発揮できます。パイロットスタディ(n = 30)では、提案されたリコースメカニズムの可能性が支持され、固定閾値の毒性フィルタリングと比較してユーザビリティの向上が示されました。今後の研究では、毒性スコアリング、モデルの制御性、ユーザーの主体性、言語の再獲得プロセスの交差点、特に多くのコミュニティが生成言語モデルと相互作用する際に直面するバイアスについて探求すべきです。