翻訳付きの日次キュレーションされたAI研究論文
我々は、SlowFast-LLaVA(略称SF-LLaVA)を提案する。これは、一般的に使用される大規模言語モデル(LLM)のトークン予算を超えることなく、詳細な空間的意味論と長期的な時間的文脈を同時に捉えることができる、学習不要のビデオ大規模言語モデル(Video LLM)である。これは、ビデオLLMの入力として二つのストリーム(SlowFast設計)を使用し、サンプリングされたビデオフレームから効果的に特徴を集約することで実現される。具体的には、Slowパスウェイは低フレームレートで特徴を抽出し、可能な限り多くの空間的詳細を保持する(例:24x24トークン)。一方、Fastパスウェイは高フレームレートで動作するが、より大きな空間プーリングストライド(例:6倍ダウンサンプリング)を使用して、動きの手がかりに焦点を当てる。その結果、この設計により、ビデオに沿った詳細を理解するのに有益な空間的および時間的特徴を十分に捉えることができる。実験結果は、SF-LLaVAが、幅広いビデオタスクにおいて、既存の学習不要手法を凌駕することを示している。いくつかのベンチマークでは、ビデオデータセットでファインチューニングされた最先端のビデオLLMと同等またはそれ以上の性能を達成している。
異なる展開規模やサイズを対象とした大規模言語モデル(LLM)は、現在、各バリアントをゼロからトレーニングすることで作成されていますが、これは非常に計算集約的です。本論文では、既存のLLMをプルーニングし、元のトレーニングデータの一部(3%未満)で再トレーニングすることが、繰り返しの完全な再トレーニングに代わる適切な代替手段となり得るかどうかを調査します。この目的のために、深さ、幅、アテンション、およびMLPのプルーニングを知識蒸留ベースの再トレーニングと組み合わせた、LLMのための実用的で効果的な圧縮ベストプラクティスを開発します。これらのベストプラクティスは、各軸に対するプルーニング戦略、軸を組み合わせる方法、蒸留戦略、および最適な圧縮アーキテクチャに到達するための検索技術に関する詳細な実証的探求を通じて導き出されました。このガイドを使用して、Nemotron-4ファミリーのLLMを2~4倍に圧縮し、さまざまな言語モデリングタスクにおいて、同サイズのモデルとその性能を比較します。既に事前トレーニングされた15Bモデルから、我々のアプローチを使用して8Bおよび4Bモデルを導出する場合、ゼロからトレーニングする場合と比較して、モデルごとに最大40倍少ないトレーニングトークンで済みます。これにより、モデルファミリー全体(15B、8B、および4B)のトレーニングにおいて、計算コストが1.8倍節約されます。Minitronモデルは、ゼロからトレーニングする場合と比較してMMLUスコアが最大16%向上し、Mistral 7B、Gemma 7B、Llama-3 8Bなどの他のコミュニティモデルと同等の性能を発揮し、文献にある最先端の圧縮技術を上回ります。我々は、Minitronモデルの重みをHuggingfaceでオープンソース化し、GitHubにはサンプルコードを含む補足資料を公開しています。
最先端の基盤モデルの膨大な規模は、科学者にとってそのアクセシビリティを制限してきました。なぜなら、大規模なモデルサイズでのカスタマイズされた実験には、ほとんどの研究者にとって非現実的なコストのかかるハードウェアと複雑なエンジニアリングが必要だからです。これらの問題を緩和するため、我々はNNsightを紹介します。これは、計算グラフを構築することで任意のPyTorchモデルに対する介入を表現できる、シンプルで柔軟なAPIを備えたオープンソースのPythonパッケージです。また、NNsight APIを介して基盤規模のLLMにアクセスできる共同研究プラットフォームであるNDIFも紹介します。コード、ドキュメント、チュートリアルはhttps://www.nnsight.netで利用可能です。
大規模言語モデル(LLM)における知識メカニズムの理解は、信頼性の高い汎用人工知能(AGI)に向けた進展において極めて重要である。本論文では、知識の利用と進化を含む新たな分類体系に基づいて、知識メカニズム分析を概観する。知識の利用については、記憶、理解と応用、そして創造のメカニズムを深く探求する。知識の進化は、個々のLLMおよび集団としてのLLMにおける知識の動的な進展に焦点を当てる。さらに、LLMがどのような知識を学習したか、パラメトリック知識の脆弱性の理由、そして将来的に解決が困難となる可能性のあるダークナレッジ(仮説)について議論する。本研究がLLMにおける知識の理解を深め、今後の研究に示唆を与えることを期待する。
大規模マルチモーダルモデル(LMMs)は、日常業務における個人アシスタンスから医療診断のような高度な応用まで、さまざまな領域で大きな可能性を秘めている。しかし、その能力はビデオゲーム領域において限界があり、特にオープンソースモデルでは、シーン理解、幻覚、ビデオゲームコンテンツの不正確な記述といった課題が存在する。本論文では、ビデオゲームの画像理解に特化したBunnyを基にしたLLaVAスタイルのモデルであるVideoGameBunnyの開発について述べる。我々は、中間チェックポイント、トレーニングログ、および413タイトルからなる185,259枚のビデオゲーム画像と、画像キャプション、質問応答ペア、136,974枚の画像の16要素のJSON表現を含む389,565の画像-指示ペアからなる広範なデータセットを公開する。我々の実験では、高品質なゲーム関連データが、パラメータ数が4倍以上多い最先端モデルLLaVa-1.6-34bを上回る比較的小さなモデルの性能を向上させる可能性を示している。本研究は、プレイ、解説、デバッグなどのタスクにおけるビデオゲーム理解の未来の研究の道を開くものである。コードとデータはhttps://videogamebunny.github.io/で利用可能である。
マルチエージェント強化学習(MARL)は最近、主に少数のエージェントと完全な観測性を持つ様々な環境において、協調的および競争的なマルチエージェント問題の解決に優れた成果を上げています。さらに、多ロボットナビゲーションや障害物回避といった、従来は古典的な非学習型手法(例:ヒューリスティック探索)でアプローチされてきた重要なロボティクス関連タスクが、現在では学習ベースまたはハイブリッド手法によって解決されることが提案されています。しかし、この領域では、学習と評価の両方をサポートする統一されたフレームワークの欠如により、古典的手法、学習ベース手法、ハイブリッド手法の間で公平な比較を行うことは困難であり、不可能と言っても過言ではありません。この目的のために、我々はPOGEMAを紹介します。POGEMAは、学習のための高速環境、問題インスタンスのジェネレータ、事前定義されたインスタンスのコレクション、可視化ツールキット、自動評価を可能にするベンチマーキングツールを含む包括的なツールセットです。我々は、主要な評価指標(成功率や経路長など)に基づいて計算される一連のドメイン関連メトリクスを定義する評価プロトコルを導入し、公平な多面的な比較を可能にします。この比較の結果、様々な最先端のMARL、探索ベース、ハイブリッド手法が含まれています。
大規模マルチモーダルモデル(LMMs)は、ますます長くて豊かな入力を処理するようになっています。進展はあるものの、そのような発展を測定するための公開ベンチマークはほとんどありません。このギャップを埋めるため、私たちはLongVideoBenchを紹介します。これは、最大1時間に及ぶ映像と言語が交互に入力される質問応答ベンチマークです。このベンチマークには、多様なテーマにわたる3,763本の長さが異なるウェブ収集映像とその字幕が含まれており、LMMsの長期的なマルチモーダル理解を包括的に評価するために設計されています。これを実現するため、私たちは主要な課題を、長い入力から詳細なマルチモーダル情報を正確に検索し、推論することと解釈しました。そのため、参照推論と呼ばれる新しい映像質問応答タスクを考案しました。具体的には、質問の一部として、関連する映像コンテキストを参照する参照クエリが含まれており、これを参照コンテキストと呼びます。モデルは、参照コンテキストから関連する映像の詳細を推論する必要があります。参照推論のパラダイムに従い、17の細分化されたカテゴリーにわたる6,678の人間による注釈付き多肢選択問題をキュレーションし、長編映像理解のための最も包括的なベンチマークの一つを確立しました。評価によると、LongVideoBenchは最も先進的なプロプライエタリモデル(例:GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo)にとっても大きな課題を提示し、オープンソースの対応モデルはさらに大きな性能差を示しています。さらに、私たちの結果は、モデルのベンチマークでの性能が、より多くのフレームを処理できる場合にのみ向上することを示しており、LongVideoBenchを将来世代の長文脈LMMsを評価するための貴重なベンチマークとして位置づけています。
人間のフィードバックによる強化学習(RLHF)は、最先端の大規模言語モデルの品質と安全性を向上させる重要な要素です。しかし、驚くほどシンプルで強力な推論時戦略として、N個の候補から最良の生成を選択するBest-of-Nサンプリングがあります。本論文では、Best-of-Nの利点を模倣しつつ、推論時の大幅な計算コストを削減する新しいRLHFアルゴリズムであるBest-of-N蒸留(BOND)を提案します。具体的には、BONDは分布マッチングアルゴリズムであり、ポリシーからの生成分布をBest-of-N分布に近づけることを目指します。我々は、Jeffreysダイバージェンス(順方向と逆方向のKLの線形結合)を使用して、モードカバーリングとモードシーキングのバランスを取り、効率性のために移動アンカーを利用した反復式を導出します。要約生成とGemmaモデルを用いた実験を通じて、本手法の有効性といくつかの設計選択肢を実証します。BONDを用いてGemmaポリシーを調整することで、複数のベンチマークにおいて他のRLHFアルゴリズムを上回る結果が得られました。
ニューラルラジアンスフィールド(NeRF)は優れた品質を実証しているものの、その長時間に及ぶ学習時間が依然として課題となっています。一般化可能なMVSベースのNeRFは学習時間を短縮できるものの、品質面でのトレードオフが生じることが多いです。本論文では、大規模シーンにおけるMVSベースNeRFのレンダリング品質を向上させる新たなアプローチ「BoostMVSNeRF」を提案します。まず、MVSベースNeRF手法の制約、例えば視点カバレッジの制限や入力ビューの不足によるアーティファクトなどを特定します。次に、これらの制約を解決するため、ボリュームレンダリング中に複数のコストボリュームを選択・結合する新手法を提案します。本手法は学習を必要とせず、フィードフォワード方式で任意のMVSベースNeRF手法に適用可能であり、レンダリング品質を向上させます。さらに、本アプローチはエンドツーエンドで学習可能であり、特定シーンでの微調整も行えます。大規模データセットを用いた実験を通じて、本手法の有効性を実証し、大規模シーンや無境界の屋外シナリオにおけるレンダリング品質の大幅な向上を示します。BoostMVSNeRFのソースコードはhttps://su-terry.github.io/BoostMVSNeRFs/で公開しています。
拡散モデルは、ノイズ除去プロセスにおいてコンテンツとスタイルの生成を絡み合わせるため、スタイライゼーションタスクに直接適用すると望ましくないコンテンツの変更が生じます。既存の手法では、拡散モデルを効果的に制御してスタイライゼーションの美的レベル要件を満たすことが困難です。本論文では、事前学習済みの拡散モデルのコンテンツとスタイル生成を美的に制御する、学習不要のアプローチ「Artist」を提案します。私たちの重要な洞察は、コンテンツとスタイルのノイズ除去を別々の拡散プロセスに分離しつつ、それらの間で情報を共有することです。スタイルと無関係なコンテンツ生成を抑制する、シンプルでありながら効果的なコンテンツとスタイル制御手法を提案し、調和のとれたスタイライゼーション結果を実現します。大規模な実験により、私たちの手法が美的レベルのスタイライゼーション要件を満たし、コンテンツ画像の細部を保持し、スタイルプロンプトと良好に整合することを実証します。さらに、さまざまな観点からスタイライゼーションの強度を高度に制御可能であることを示します。コードは公開され、プロジェクトホームページはhttps://DiffusionArtist.github.ioです。
Flow Matchingや拡散モデルは、画像や動画などの連続変数に対する強力な生成パラダイムとして登場したものの、言語のような高次元の離散データへの応用はまだ限られています。本研究では、離散データの生成に特化した新しい離散フローパラダイムであるDiscrete Flow Matchingを提案します。Discrete Flow Matchingは以下の主要な貢献を提供します:(i) ソース分布とターゲット分布の間を補間する一般的な確率経路の族と連携する、(ii) 確率デノイザー(x予測)やノイズ予測(ε予測)などの学習済み事後分布を用いて、これらの確率経路からサンプリングするための汎用的な式を可能にする、(iii) 実践的には、異なるスケジューラで定義された特定の確率経路に焦点を当てることで、従来の離散拡散モデルやフローモデルと比較して生成パープレキシティを大幅に改善する、(iv) Discrete Flow Matchingモデルを1.7Bパラメータまでスケールアップすることで、HumanEvalで6.7%のPass@1と13.4%のPass@10、1-shot MBPPコーディングベンチマークで6.7%のPass@1と20.6%のPass@10を達成する。我々のアプローチは、非自己回帰的な方法で高品質な離散データを生成することが可能であり、自己回帰モデルと離散フローモデルの間のギャップを大幅に縮めます。
3Dシーン生成は、仮想現実、ゲーム、映画産業など様々な分野で高い需要があります。テキストから画像を生成する拡散モデルの強力な生成能力が信頼性の高い事前情報を提供するため、テキストプロンプトのみを使用した3Dシーンの作成が可能となり、テキスト駆動型3Dシーン生成の研究が大きく進展しています。2D拡散モデルから多視点の監督情報を得るために、一般的な手法では、拡散モデルを使用して初期の局所画像を生成し、その後、拡散モデルを用いて局所画像を反復的に拡張することでシーンを徐々に生成します。しかし、これらの拡張ベースのアプローチでは、完全性の高いグローバルに一貫したシーン生成結果が得られず、その広範な応用が制限されています。これらの問題を解決するため、我々はHoloDreamerを提案します。このフレームワークは、まず高精細なパノラマを生成して完全な3Dシーンのホリスティックな初期化を行い、その後3Dガウシアンスプラッティング(3D-GS)を活用して3Dシーンを迅速に再構築し、視点一貫性と完全に閉じた3Dシーンの作成を容易にします。具体的には、複数の拡散モデルを組み合わせて複雑なテキストプロンプトからスタイリッシュで詳細な等距離円柱パノラマを生成するパイプラインであるStylized Equirectangular Panorama Generationを提案します。さらに、Enhanced Two-Stage Panorama Reconstructionを導入し、3D-GSの2段階最適化を行って欠損領域を修復し、シーンの完全性を向上させます。包括的な実験により、我々の手法が完全に閉じたシーンを生成する際に、全体的な視覚的一貫性と調和、再構築品質、レンダリングの堅牢性の点で先行研究を上回ることが実証されました。
汎用人工知能(AI)システムは、C4、RefinedWeb、Dolmaなどのコーパスに集約された大量の公開ウェブデータに基づいて構築されています。私たちの知る限り、AIトレーニングコーパスの基盤となるウェブドメインの同意プロトコルに関する初めての大規模な縦断的監査を実施しました。14,000のウェブドメインを対象としたこの監査は、クロール可能なウェブデータと、その使用に対する同意の選好が時間とともにどのように変化しているかを広範に示しています。AI開発者に対する制限の顕著な差異や、利用規約に記載された意図とrobots.txtとの間の一般的な不整合など、使用を制限するAI固有の条項の増加が観察されました。これらは、インターネットのAI向け再利用の広範な普及に対応するよう設計されていない、効果的でないウェブプロトコルの症状であると診断しました。縦断的分析によると、単一の年(2023-2024年)において、ウェブソースからのデータ制限が急速に高まり、C4の全トークンの約5%以上、またはC4の最も積極的に維持されている重要なソースの28%以上が完全に使用制限されています。利用規約によるクロール制限に関しては、C4の45%が現在制限されています。これらの制限が尊重または施行される場合、汎用AIシステムの多様性、新鮮さ、スケーリング則に急速にバイアスがかかっています。私たちは、商用AIだけでなく、非商用AIや学術目的のためのオープンウェブの多くを閉ざす、データ同意における新たな危機を明らかにしたいと考えています。
拡散モデルは、その強力な生成能力により、画像アニメーションにおいて大きな進展を遂げてきました。しかし、入力された静止画像からの詳細な情報(例えば、スタイル、背景、オブジェクト)を時間経過に伴って時空間的に一貫して維持しつつ、テキストプロンプトに基づくアニメーションビデオのナラティブを滑らかにすることは、依然として課題となっています。本論文では、より優れたモーション制御性、およびより強い時間的一貫性と滑らかさを実現するための新しい画像アニメーション手法であるCinemoを紹介します。一般的に、Cinemoのトレーニングおよび推論段階において、目標を達成するための3つの効果的な戦略を提案します。トレーニング段階では、Cinemoはモーション拡散モデルを通じて直接次のフレームを予測するのではなく、モーション残差の分布を学習することに焦点を当てます。さらに、構造的類似性指標に基づく戦略を提案し、Cinemoがモーション強度をより良く制御できるようにします。推論段階では、離散コサイン変換に基づくノイズリファインメント技術を導入し、突然のモーション変化を軽減します。これら3つの戦略により、Cinemoは高度に一貫性があり、滑らかで、モーション制御可能な結果を生成することが可能となります。従来の手法と比較して、Cinemoはよりシンプルで正確なユーザー制御性を提供します。商用ツールや研究手法を含むいくつかの最先端手法に対する広範な実験を複数のメトリクスで行い、提案手法の有効性と優位性を実証しました。
報酬ベースのファインチューニングは、言語ポリシーを意図した行動(例:創造性と安全性)に整合させるために重要です。ここでの主要な課題は、複数の(相反する)目的を柔軟かつ効率的にトレードオフできる操縦可能な言語モデルを開発することです。本論文では、複数の目的に対して言語モデルをファインチューニングするための一般的なフレームワークであるConditioned Language Policy(CLP)を提案します。マルチタスク学習とパラメータ効率の良いファインチューニングの技術を基盤として、CLPは推論時に相反する目的を効果的にトレードオフする操縦可能なモデルを学習できます。特に、目的間の異なるトレードオフを達成するために複数のモデルを訓練または維持する必要はありません。広範な実験とアブレーションを通じて、CLPフレームワークが学習する操縦可能なモデルが、マルチ目的ファインチューニングにおける現在の最先端アプローチを上回り、パレート優位であることを示します。
大規模言語モデル(LLM)の力を基盤として、近年、多数のマルチモーダル大規模言語モデル(MLLM)が、さまざまな視覚言語タスクにおいて複数のベンチマークで顕著な性能を達成しています。しかし、既存のMLLMとベンチマークのほとんどは、単一画像入力シナリオに焦点を当てており、現実的な複数画像を扱う際のMLLMの性能は十分に検討されていません。一部のベンチマークでは複数画像を考慮していますが、その評価次元とサンプルは非常に限られています。そこで、本論文では、複数画像シナリオにおけるMLLMの細粒度能力を包括的に評価するための新しいベンチマーク「MIBench」を提案します。具体的には、MIBenchは複数画像能力を3つのシナリオに分類します:複数画像指示(MII)、マルチモーダル知識探索(MKS)、マルチモーダルインコンテキスト学習(MIC)です。そして、13のタスクと合計13Kの注釈付きサンプルを構築します。データ構築において、MIIとMKSについては、手動注釈から正解オプションを抽出し、挑戦的なディストラクタを作成して多肢選択問題を取得します。MICについては、詳細な評価を可能にするために、4つのサブタスクを設定し、元のデータセットをインコンテキスト学習形式に変換します。提案されたMIBench上で、いくつかのオープンソースMLLMとクローズドソースMLLMを評価します。結果は、現在のモデルが単一画像タスクでは優れているものの、複数画像入力に直面した場合、細粒度の知覚の混乱、複数画像推論の限界、不安定なインコンテキスト学習などの重大な欠点を示すことを明らかにしています。MIBenchの注釈付きデータは、https://huggingface.co/datasets/StarBottle/MIBench で利用可能です。
言語モデル(LM)を基盤とした言語エージェントは、オープンウェブなどの複雑な環境と相互作用できるシステムです。本研究では、このようなエージェントが、不動産市場の監視や近隣の関連ビジネスの検索など、現実的で時間のかかるタスクをウェブ上で実行できるかどうかを検証します。我々は、AssistantBenchという、214の現実的なタスクからなる自動評価可能な新しいベンチマークを導入し、さまざまなシナリオとドメインをカバーします。AssistantBenchを通じて、現在のシステム(言語モデルや検索拡張言語モデルを含む)の限界が明らかになり、どのモデルも25ポイント以上の精度に達していないことがわかりました。クローズドブックのLMは良好な性能を示しますが、事実を捏造する傾向があるため精度が低いです。最先端のウェブエージェントはほぼゼロのスコアに留まります。さらに、我々はSeePlanAct(SPA)という新しいウェブエージェントを導入し、これが従来のエージェントを大幅に上回る性能を示し、SPAとクローズドブックモデルのアンサンブルが最高の総合性能を達成しました。また、現在のシステムの失敗例を分析し、ウェブナビゲーションが依然として主要な課題であることを強調します。
既存のテキストから音楽を生成するモデルは、高品質なオーディオを多様に生成することが可能です。しかし、テキストプロンプトだけでは、生成される音楽のコードやリズムといった時間的な音楽的特徴を精密に制御することはできません。この課題に対処するため、我々はMusiConGenを紹介します。これは、事前学習済みのMusicGenフレームワークを基盤とした、時間的制約を付加したTransformerベースのテキストから音楽を生成するモデルです。我々の革新は、コンシューマーグレードのGPU向けに最適化された効率的なファインチューニングメカニズムにあり、自動抽出されたリズムとコードを条件信号として統合します。推論時には、条件として、参照オーディオ信号から抽出された音楽的特徴、またはユーザー定義のシンボリックコード進行、BPM、テキストプロンプトを使用することができます。抽出された特徴からなるデータセットとユーザー作成の入力からなるデータセットの2つを用いた性能評価により、MusiConGenが指定された条件に良く合致したリアルなバッキングトラック音楽を生成できることを示しました。我々はコードとモデルのチェックポイントをオープンソース化し、オンラインでオーディオ例を提供しています。詳細はhttps://musicongen.github.io/musicongen_demo/をご覧ください。
我々は、ビデオシーケンスにおける任意の点の追跡(TAP)タスク向けに設計された、高精度で効率的なモデル「LocoTrack」を紹介する。このタスクにおける従来のアプローチでは、クエリ画像の点からターゲット画像の局所領域への対応関係を確立するために、局所的な2D相関マップに依存することが多く、均一な領域や反復的な特徴に対して苦戦し、マッチングの曖昧さを引き起こすことが多かった。LocoTrackは、この課題を克服するために、領域間の全ペア対応関係、すなわち局所的な4D相関を利用する新たなアプローチを採用し、双方向の対応関係とマッチングの滑らかさによって、曖昧さに対するロバスト性を大幅に向上させている。また、計算効率を高めるために軽量な相関エンコーダを組み込み、長期的な時間情報を統合するためにコンパクトなTransformerアーキテクチャを採用している。LocoTrackは、すべてのTAP-Vidベンチマークで他を寄せ付けない精度を達成し、現在の最先端技術と比べて約6倍の速度で動作する。
レイアウト生成はインテリジェントデザインの基盤となるタスクであり、視覚的な美学とコンテンツ配信の調和のとれた表現を統合する必要があります。しかし、既存の手法では、ブロッキング、オーバーラップ、またはレイアウト間の空間的な位置ずれなど、正確で視覚的に魅力的なレイアウトを生成する上で課題が残っています。これらの問題は、グラフィックレイアウトの空間構造と密接に関連しています。我々は、これらの手法がコンテンツ情報に過度に焦点を当て、レイアウトの空間構造に対する制約が不足しているため、コンテンツ認識とグラフィック認識の特徴の学習バランスが崩れていることを発見しました。この問題を解決するために、Transformerベースの拡散モデルを用いたコンテンツとグラフィックのバランスを考慮したレイアウト生成(CGB-DM)を提案します。具体的には、まず、キャンバス上のコンテンツに過度に注目する傾向を克服するために、予測されたコンテンツとグラフィックの重みをバランスさせるレギュレータを設計します。次に、サリエンシーバウンディングボックスのグラフィック制約を導入し、レイアウト表現と画像間の幾何学的特徴の整合性をさらに強化します。さらに、強力な生成能力を備えたTransformerベースの拡散モデルをバックボーンとして採用し、レイアウト生成の品質を保証します。広範な実験結果は、我々の手法が定量的および定性的な評価において最先端の性能を達成したことを示しています。我々のモデルフレームワークは、他のグラフィックデザイン分野にも拡張可能です。
サーモグラフィーは、農業モニタリングから建物検査、低照度や霧、雨などの視界不良条件下での撮影まで、多岐にわたる応用が可能です。しかし、長波長赤外線(LWIR)画像の比較的低い解像度と限られた特徴量のため、3Dでの熱シーン再構築にはいくつかの課題があります。これらの課題を克服するため、我々はLWIR画像とRGB画像のセットからシーンを再構築するための統一フレームワークを提案します。このフレームワークでは、可視光カメラと赤外線カメラの両方で観測されたシーンを表現するために、マルチスペクトル放射場を利用し、両スペクトルにわたる情報を活用します。前処理ステップとして、簡易なキャリブレーションターゲットを使用してRGBカメラと赤外線カメラを相互にキャリブレーションします。手持ちの熱カメラで撮影した実世界のRGBおよびLWIR写真セットに対して本手法を実証し、可視光および赤外線スペクトルにわたるシーン表現における有効性を示します。本手法は、熱的超解像を実現するだけでなく、RGBまたは熱チャネルのいずれかで遮蔽された物体を視覚的に除去して表示することも可能です。動画結果、コード、およびデータセットのリリースについては、https://yvette256.github.io/thermalnerf をご覧ください。
我々は、データ駆動型モーション転送を可能にする新たな表現としてTemporal Residual Jacobiansを提案する。本手法は、リギングや中間形状キーフレームへのアクセスを前提とせず、幾何学的および時間的に一貫したモーションを生成し、長いモーションシーケンスの転送に使用できる。本手法の中核となるのは、局所的な幾何学的変化と時間的変化を個別に予測し、その後空間的・時間的に統合して最終的なアニメーションメッシュを生成する2つの結合ニューラルネットワークである。これら2つのネットワークは共同で訓練され、空間的および時間的信号の生成において互いに補完し、3D位置情報で直接監視される。推論時には、キーフレームが存在しない状況下で、本手法は本質的にモーション外挿問題を解決する。我々は、多様なメッシュ(合成形状とスキャン形状)に対して本手法をテストし、未見の身体形状において現実的で自然なアニメーションを生成する点でSoTA代替手法に対する優位性を実証する。補足ビデオとコードはhttps://temporaljacobians.github.io/で公開されている。
本論文では、新しいハードウェアの変更に再学習なしで即座に適応できる具現化認識制御ポリシーを学習するためのモデルアーキテクチャと訓練手順であるGET-Zeroを紹介する。そのために、Graph Embodiment Transformer(GET)を提案する。これは、注意機構において具現化グラフの接続性を学習された構造的バイアスとして活用するトランスフォーマーモデルである。我々は、行動模倣を用いて、具現化固有のエキスパートポリシーからのデモンストレーションデータを、ロボットのハードウェア設定に基づいて制御決定を行う具現化認識GETモデルに蒸留する。4本指ロボットハンドの関節を除去したりリンク長を延長したりした異なる構成を用いて、器用な手内物体回転タスクに関するケーススタディを実施する。GETモデルと自己モデリング損失を組み合わせることで、GET-Zeroはグラフ構造とリンク長の未見の変動に対してゼロショット一般化が可能となり、ベースライン手法よりも20%の改善をもたらす。全てのコードと定性的なビデオ結果はhttps://get-zero-paper.github.ioで公開されている。
大規模マルチモーダルモデル(LMMs)の最近の進展により、単一画像の視覚的質問応答分野において大きな進歩が見られました。しかし、これらのモデルは、大規模な画像コレクションにまたがるクエリを処理する際に、現実世界のシナリオ(例えば、大規模なフォトアルバムの検索、インターネット上の特定の情報の検索、衛星画像を通じた環境変化の監視など)と同様の課題に直面しています。本論文では、マルチ画像視覚的質問応答(MIQA)というタスクを探求します:大規模な画像セットと自然言語クエリが与えられた場合、関連性があり根拠のある応答を生成するタスクです。我々は、LMMsの視覚的検索および無関係な画像セットに対する推論能力を評価するために特別に設計された新しい公開ベンチマーク「Visual Haystacks(VHs)」を提案し、堅牢なクローズドソースモデルでさえも大幅に苦戦することを示す包括的な評価を行いました。これらの欠点に対処するために、我々はMIRAGE(Multi-Image Retrieval Augmented Generation)を導入します。これは、MIQAの課題に直面するためにLMMs向けにカスタマイズされた新しい検索/QAフレームワークであり、ベースライン手法と比較して顕著な効率性と精度の向上を実現します。我々の評価では、MIRAGEがVHsベンチマークにおいてクローズドソースのGPT-4oモデルを最大11%上回り、テキスト中心の多段階アプローチと比較して最大3.4倍の効率性向上を提供することが示されました。