翻訳付きの日次キュレーションされたAI研究論文
画像理解と生成の統合は、近年のマルチモーダルモデル研究において注目を集めている。画像理解のための設計選択は広く研究されているが、画像生成を含む統合フレームワークにおける最適なモデルアーキテクチャとトレーニング手法は未だ十分に検討されていない。自己回帰モデルと拡散モデルが高品質な生成とスケーラビリティにおいて強力な可能性を秘めていることに着目し、本研究では、これらのモデルを統合マルチモーダル設定で使用する際の包括的な研究を行い、特に画像表現、モデリング目的、およびトレーニング戦略に焦点を当てた。これらの調査に基づき、我々は、従来のVAEベースの表現とは対照的に、拡散トランスフォーマーを用いて意味的に豊かなCLIP画像特徴を生成する新たなアプローチを提案する。この設計により、トレーニング効率の向上と生成品質の改善がもたらされる。さらに、統合モデルに対する逐次的な事前学習戦略―まず画像理解をトレーニングし、その後画像生成をトレーニングする―が、画像理解能力を維持しながら強力な画像生成能力を開発する上で実用的な利点を提供することを示す。最後に、GPT-4oに多様なキャプションをプロンプトとして与えることで、様々なシーン、物体、人間のジェスチャーなどを網羅した高品質な指示チューニングデータセットBLIP3o-60kを慎重に作成した。我々の革新的なモデル設計、トレーニング手法、およびデータセットに基づいて、BLIP3-oという最先端の統合マルチモーダルモデル群を開発した。BLIP3-oは、画像理解と生成タスクにわたる主要なベンチマークのほとんどで優れた性能を達成する。今後の研究を促進するため、コード、モデル重み、トレーニングスクリプト、事前学習および指示チューニングデータセットを含むモデルを完全にオープンソースとして公開する。
大規模言語モデル(LLM)の急速なスケーリングは、メモリ容量、計算効率、相互接続帯域幅といった現在のハードウェアアーキテクチャにおける重要な制約を明らかにしました。2,048台のNVIDIA H800 GPUでトレーニングされたDeepSeek-V3は、ハードウェアを意識したモデル共同設計がこれらの課題に効果的に対処し、コスト効率の良い大規模なトレーニングと推論を可能にすることを示しています。本論文では、DeepSeek-V3/R1モデルアーキテクチャとそのAIインフラストラクチャについて詳細な分析を行い、メモリ効率を向上させるMulti-head Latent Attention(MLA)、計算と通信のトレードオフを最適化するMixture of Experts(MoE)アーキテクチャ、ハードウェア性能を最大限に引き出すFP8混合精度トレーニング、クラスタレベルのネットワークオーバーヘッドを最小化するMulti-Plane Network Topologyといった主要なイノベーションを強調しています。DeepSeek-V3の開発中に遭遇したハードウェアボトルネックを基に、学術界および産業界の関係者と、低精度計算ユニットの精密化、スケールアップとスケールアウトの統合、低遅延通信ファブリックのイノベーションといった将来のハードウェア方向性について広範な議論を行います。これらの洞察は、AIワークロードの増大する要求に対応する上で、ハードウェアとモデルの共同設計が果たす重要な役割を強調し、次世代AIシステムにおけるイノベーションの実践的な青写真を提供します。
大規模マルチモーダルモデルの訓練に広く用いられる自然言語画像キャプションデータセットは、主に自然なシナリオに焦点を当てており、問題解決に不可欠な数学的図形の複雑な詳細を見落としているため、現在のマルチモーダル数学推論におけるLMMの進展を妨げている。この問題に対処するため、コードをクロスモーダルアラインメントの監督として活用することを提案する。なぜなら、コードは対応する図形を生成するために必要なすべての情報を内在的にエンコードしており、二つのモダリティ間の正確な接続を確立するからである。具体的には、モデルインザループアプローチを用いて、画像からコードへのモデルとデータセットを共同開発し、画像からコードへのモデルFigCodifierと、これまでで最大の画像コードデータセットであるImgCode-8.6Mを構築した。さらに、FigCodifierを利用して新しい数学的図形を合成し、高品質なマルチモーダル数学指示ファインチューニングデータセットMM-MathInstruct-3Mを構築した。最後に、ImgCode-8.6Mでクロスモーダルアラインメントを訓練し、その後MM-MathInstruct-3Mでファインチューニングを行ったMathCoder-VLを提示する。我々のモデルは、6つのメトリクス全てにおいて新たなオープンソースSOTAを達成した。特に、MathVistaの幾何学問題解決サブセットにおいて、GPT-4oとClaude 3.5 Sonnetをそれぞれ8.9%と9.2%上回った。データセットとモデルはhttps://github.com/mathllm/MathCoderで公開される。
高密度視覚予測タスクは、事前に定義されたカテゴリに依存するため、現実世界のシナリオにおける適用性が制限されてきました。視覚概念が無制限である状況では、その限界が顕著です。CLIPのようなVision-Language Models(VLM)はオープン語彙タスクで有望な成果を示していますが、高密度予測に直接適用すると、局所的特徴表現の制約から最適な性能が得られないことがあります。本研究では、CLIPの画像トークンが空間的または意味的に関連する領域からの情報を効果的に集約できないため、局所的な識別能力と空間的一貫性を欠く特徴が生成されるという観察結果を示します。この問題を解決するため、我々はDeCLIPという新しいフレームワークを提案します。DeCLIPは、自己注意モジュールを分離して「コンテンツ」と「コンテキスト」の特徴をそれぞれ取得することでCLIPを強化します。「コンテンツ」特徴は画像クロップ表現と整合させて局所的な識別能力を向上させ、「コンテキスト」特徴はDINOのような視覚基盤モデルの指導の下で空間的相関を保持するように学習します。大規模な実験により、DeCLIPがオブジェクト検出やセマンティックセグメンテーションを含む複数のオープン語彙高密度予測タスクにおいて、既存の手法を大幅に上回る性能を示すことが実証されました。コードはmagenta{https://github.com/xiaomoguhz/DeCLIP}で公開されています。
本論文では、画像内の光源に対して細かいパラメトリック制御を可能にする、シンプルかつ効果的な拡散モデルベースの手法を提案します。既存のリライティング手法は、推論時に逆レンダリングを行うために複数の入力ビューを必要とするか、光の変化に対する明示的な制御を提供できません。我々の手法では、少数の実写RAW写真ペアと大規模に合成されたレンダリング画像を用いて拡散モデルをファインチューニングし、その写実的な事前知識をリライティングに活用します。光の線形性を利用して、ターゲット光源または環境照明の制御された光の変化を描いた画像ペアを合成します。このデータと適切なファインチューニングスキームを用いて、光の強度と色を明示的に制御可能な、精密な照明変化のためのモデルを学習します。最後に、本手法が説得力のある光編集結果を実現し、ユーザー選好に基づいて既存手法を上回ることを示します。
過去10年間におけるコンピュータビジョン分野での深層学習の成功は、大規模なラベル付きデータセットと強力な事前学習モデルに依存してきました。データが限られた環境では、これらの事前学習モデルの品質が効果的な転移学習の鍵となります。従来、畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのアーキテクチャの事前学習には、画像分類や自己教師あり学習が主に用いられてきました。最近では、特に潜在空間でのノイズ除去拡散を用いたテキストから画像を生成するモデルの台頭により、大規模なキャプション付き画像データセットで訓練された新しいクラスの基盤モデルが登場しています。これらのモデルが未見のコンテンツの現実的な画像を生成する能力は、視覚世界に対する深い理解を持っていることを示唆しています。本研究では、Stable Diffusionのような事前学習済みの潜在拡散モデルから知識を抽出し、単眼深度推定、表面法線予測、固有分解などの密な画像解析タスクに適応させる条件付き生成モデルファミリー「Marigold」とその微調整プロトコルを提案します。Marigoldは、事前学習済みの潜在拡散モデルのアーキテクチャを最小限に変更し、単一のGPUで数日間の小規模な合成データセットによる訓練を行い、最先端のゼロショット汎化性能を実証します。プロジェクトページ: https://marigoldcomputervision.github.io
単一のRGB画像から高品質な3Dシーンを復元することは、コンピュータグラフィックスにおける難しい課題です。現在の手法では、ドメイン固有の制限や低品質なオブジェクト生成に悩まされることが多いです。これらの問題に対処するため、我々はCAST(Component-Aligned 3D Scene Reconstruction from a Single RGB Image)を提案します。これは、3Dシーンの再構築と復元のための新しい手法です。CASTは、入力画像からオブジェクトレベルの2Dセグメンテーションと相対的な深度情報を抽出することから始め、その後、GPTベースのモデルを使用してオブジェクト間の空間関係を分析します。これにより、シーン内のオブジェクトがどのように関連しているかを理解し、より一貫性のある再構築を実現します。次に、CASTはオクルージョン対応の大規模3D生成モデルを使用して、各オブジェクトの完全なジオメトリを独立して生成します。MAEとポイントクラウドの条件付けを使用して、オクルージョンや部分的なオブジェクト情報の影響を軽減し、ソース画像のジオメトリとテクスチャに正確に整合することを保証します。各オブジェクトをシーンに整合させるために、アライメント生成モデルが必要な変換を計算し、生成されたメッシュを正確に配置してシーンのポイントクラウドに統合します。最後に、CASTは物理を意識した補正ステップを組み込み、細かい関係グラフを活用して制約グラフを生成します。このグラフはオブジェクトのポーズの最適化を導き、物理的な一貫性と空間的な整合性を保証します。Signed Distance Fields(SDF)を利用することで、モデルはオクルージョン、オブジェクトの貫通、浮遊オブジェクトなどの問題を効果的に解決し、生成されたシーンが現実世界の物理的相互作用を正確に反映することを保証します。CASTはロボティクスにおいて活用可能で、現実からシミュレーションへの効率的なワークフローを可能にし、ロボットシステムのための現実的でスケーラブルなシミュレーション環境を提供します。
模倣は、人間にとって基本的な学習メカニズムであり、専門家の行動を観察し模倣することで新しいタスクを学ぶことを可能にします。しかし、この能力をロボットに適用する際には、人間とロボットの身体構造における視覚的な外見や物理的な能力の根本的な違いにより、大きな課題が生じます。従来の手法では、共有されたシーンやタスクを含むクロスエンボディメントデータセットを用いてこのギャップを埋めてきましたが、人間とロボットの間で大規模に整列したデータを収集することは容易ではありません。本論文では、ラベルなしの大規模クロスエンボディメントビデオデータからエンボディメントに依存しないスキル表現を学習する新しいフレームワーク「UniSkill」を提案します。これにより、人間のビデオプロンプトから抽出されたスキルが、ロボットデータのみで訓練されたロボットのポリシーに効果的に転移することが可能になります。シミュレーションおよび実世界環境での実験により、我々のクロスエンボディメントスキルが、未見のビデオプロンプトに対してもロボットが適切な行動を選択することを成功裏に導くことが示されました。プロジェクトのウェブサイトは以下にあります: https://kimhanjung.github.io/UniSkill。
GPT-4o-audioのようなエンドツーエンド音声対話モデルは、最近、音声領域で大きな注目を集めています。しかし、音声対話モデルの会話性能の評価は、これまでほとんど注目されてきませんでした。これは主に、インテリジェントなチャットボットが伝える非テキスト情報の豊富さが、ChatGPTのようなテキストベースの言語モデルでは容易に測定できないためです。このギャップを埋めるために、我々はWavRewardを提案します。これは、音声入力を用いて音声対話システムのIQとEQを評価できる、音声言語モデルに基づく報酬フィードバックモデルです。具体的には、1) 音声言語モデルに基づき、WavRewardは深い推論プロセスと非線形報酬メカニズムをポストトレーニングに組み込みます。強化学習アルゴリズムによるマルチサンプルフィードバックを活用することで、音声対話モデルに特化した評価器を構築します。2) WavRewardのトレーニングに使用される選好データセットであるChatReward-30Kを導入します。ChatReward-30Kは、音声対話モデルの理解と生成の両面を含んでいます。これらのシナリオは、テキストベースのチャット、指示チャットの9つの音響属性、暗黙のチャットなど、さまざまなタスクにわたります。WavRewardは、複数の音声対話シナリオにおいて、従来の最先端評価モデルを上回り、Qwen2.5-Omniとの比較で客観的精度を55.1%から91.5%に大幅に向上させました。主観的なA/Bテストにおいても、WavRewardは83%の差でリードしています。包括的なアブレーションスタディにより、WavRewardの各コンポーネントの必要性が確認されました。すべてのデータとコードは、論文が受理された後、https://github.com/jishengpeng/WavRewardで公開されます。
ソフトウェア課題のローカライゼーションは、自然言語による課題説明(例:バグレポート、機能リクエスト)に関連する正確なコードの位置(ファイル、クラス、または関数)を特定するタスクであり、ソフトウェア開発において重要なものの、時間を要する側面です。最近のLLMベースのエージェント的アプローチは有望であるものの、複雑な多段階推論とクローズドソースのLLMへの依存により、大きな遅延とコストが発生しがちです。一方で、従来のコードランキングモデルは、通常クエリ対コードまたはコード対コードの検索に最適化されており、冗長で失敗を記述する性質を持つローカライゼーションクエリに対応するのが困難です。このギャップを埋めるため、我々はSweRankを紹介します。これは、ソフトウェア課題ローカライゼーションのための効率的で効果的な検索・再ランクフレームワークです。トレーニングを容易にするため、我々はSweLocを構築しました。これは、公開されているGitHubリポジトリからキュレートされた大規模なデータセットで、実際の課題説明とそれに対応するコード変更をペアにしています。SWE-Bench-LiteとLocBenchでの実験結果は、SweRankが最先端のパフォーマンスを達成し、従来のランキングモデルやClaude-3.5のようなクローズドソースのLLMを使用する高コストなエージェントベースのシステムを上回ることを示しています。さらに、我々はSweLocが既存の各種検索モデルや再ランクモデルを強化するための有用性を示し、このデータセットがコミュニティにとって貴重なリソースであることを確立しました。
我々は、最近のマルチモーダルLLMであるQwen2.5-Omniを、強化学習手法GRPOを用いて音声質問応答データセットでファインチューニングしたOmni-R1を提案する。これにより、最新のMMAUベンチマークにおいて新たなState-of-the-Art性能を達成した。Omni-R1は、Test-miniとTest-fullの両スプリットにおいて、音響、音楽、音声、および全体平均のカテゴリで最高の精度を記録した。性能向上の要因を理解するため、音声ありとなしの両方のモデルをテストし、GRPOによる性能向上の多くがテキストベースの推論の改善に起因することを明らかにした。また、音声なしでテキストのみのデータセットでファインチューニングを行うことが、音声ベースの性能向上に有効であるという驚くべき発見も得られた。
ビデオ理解における最近の進展にもかかわらず、大規模ビデオ言語モデル(LVLM)がビデオベースの因果推論を実行する能力は、視覚的かつ目標指向の設定における因果推論を評価するための関連性のある専用のベンチマークが存在しないため、十分に探求されていません。このギャップを埋めるために、我々はVideo-based long-form Causal Reasoning(VCRBench)という新しいベンチマークを導入します。VCRBenchは、日常の簡単な活動の手順ビデオを使用して作成されており、各クリップが重要な因果イベントを捉えるようにステップが意図的にシャッフルされています。これにより、LVLMが特定の目標を達成するために必要なイベントを識別し、推論し、正しく順序付けることができるかどうかをテストします。さらに、このベンチマークは、多肢選択や二択のQA形式で見られるような言語的ショートカットをLVLMが利用することを防ぐように慎重に設計されており、同時に、自由回答形式のQAの評価に関連する課題も回避しています。VCRBenchにおける最先端のLVLMの評価は、これらのモデルがビデオベースの長文因果推論に苦戦していることを示唆しており、主に視覚的観察から直接長距離の因果依存関係をモデル化する難しさによるものです。このような能力を可能にするための簡単なステップとして、我々はRecognition-Reasoning Decomposition(RRD)を提案します。これは、ビデオベースの因果推論をビデオ認識と因果推論の2つのサブタスクに分解するモジュール方式です。VCRBenchにおける実験では、RRDが精度を最大25.2%向上させることが示されました。最後に、我々の詳細な分析は、例えば、LVLMが複雑なビデオベースの長文因果推論タスクにおいて主に言語知識に依存していることなど、興味深い洞察を明らかにしています。
事前学習データセットはマルチモーダルモデルの開発において基盤となるものですが、それらはウェブ規模のコーパスから取得されるため、しばしば内在的なバイアスや有害なコンテンツを含んでいます。本論文では、LLaVA画像-テキスト事前学習データセットにおける有害性の蔓延状況を調査し、異なるモダリティにおいて有害なコンテンツがどのように現れるかを検証します。一般的な有害性カテゴリーの包括的な分析を提示し、特定の緩和策を提案することで、精製された有害性緩和データセットの作成に至りました。このデータセットは、LLaVA事前学習データセットから7,531の有害な画像-テキストペアを除去しています。堅牢な有害性検出パイプラインを実装するためのガイドラインを提供します。我々の研究結果は、ヘイトスピーチ、露骨な画像、特定の個人に対する嫌がらせなどの有害なコンテンツを積極的に識別し、フィルタリングすることの必要性を強調しています。これにより、より責任ある公平なマルチモーダルシステムを構築することが可能になります。有害性緩和データセットはオープンソースであり、さらなる研究に利用可能です。
人物再識別(ReID)技術は、制御された地上条件下では比較的良好な性能を発揮すると考えられてきたが、現実世界の困難な環境下ではその性能が低下する。これは明らかに、解像度、視点の変化、スケールの変動、遮蔽、衣服やセッションの変化による外観の変化といった極端なデータの多様性要因によるものである。さらに、公開されているデータセットは、このような種類や規模の多様性を現実的に取り入れていないため、この技術の進歩が制限されている。本論文では、現実世界の条件下でのReIDに対するストレステストとして明示的に設計された大規模な空中-地上人物データセット、DetReIDXを紹介する。DetReIDXは、3つの大陸の7つの大学キャンパスで、ドローンの高度が5.8メートルから120メートルの範囲で収集された、509のIDからなる1300万以上のバウンディングボックスを含むマルチセッションセットである。さらに重要な点として、DetReIDXの被写体は、異なる日に(少なくとも)2回のセッションで記録され、衣服、日光、場所の変化が含まれており、長期的な人物再識別を実際に評価するのに適している。加えて、データは16のソフトバイオメトリック属性と、検出、追跡、ReID、行動認識のためのマルチタスクラベルで注釈付けされている。DetReIDXの有用性を実証するために、人間の検出とReIDの特定のタスクを検討したところ、SOTA手法はDetReIDXの条件下では性能が劇的に低下し(検出精度で最大80%、Rank-1 ReIDで70%以上)、その有用性が確認された。データセット、注釈、公式評価プロトコルはhttps://www.it.ubi.pt/DetReIDX/で公開されている。
近年、大規模な視覚言語モデル(VLM)の急速な発展が目撃されています。これらのモデルは、主に広く話されている言語において学術的なベンチマークで印象的な結果を示していますが、低リソース言語や多様な文化的文脈での性能には課題が残っています。これらの制限に対処するため、我々はオープンソースの多言語VLM「Maya」を紹介します。我々の貢献は以下の通りです:1)LLaVA事前学習データセットに基づく8言語の多言語画像テキスト事前学習データセット、および2)これらの言語をサポートする多言語画像テキストモデルで、視覚言語タスクにおける文化的・言語的理解を強化します。コードはhttps://github.com/nahidalam/mayaで公開されています。
「どの赤い家具が座るのに使えるか?」といった複雑な視覚的質問に答えるには、物体認識、属性フィルタリング、関係理解を含む多段階の推論が必要です。最近の研究では、タスクをサブタスクプログラムに分解することでマルチモーダル大規模言語モデル(MLLM)の解釈可能性を向上させていますが、これらの手法は計算コストが高く、ターゲットデータへの適応が不十分なため精度が低いという課題があります。この問題に対処するため、私たちはVISTAR(Visually Interpretable Subtask-Aware Reasoning Model)を提案します。VISTARは、MLLM内でテキストと視覚的な説明を生成することで、解釈可能性と推論能力の両方を向上させるサブタスク駆動型のトレーニングフレームワークです。外部モデルに依存する代わりに、VISTARはMLLMを微調整して構造化された「Subtask-of-Thought」推論(段階的な推論シーケンス)を生成します。2つのベンチマークでの実験により、VISTARが解釈可能性を維持しながら推論精度を一貫して向上させることが示されました。私たちのコードとデータセットはhttps://github.com/ChengJade/VISTARで公開予定です。
3Dガウシアンスプラッティング(3DGS)は、リアルタイムかつ高解像度の新規視点合成において強力な技術として登場しました。シーンをガウシアンプリミティブの混合として表現することで、3DGSはGPUラスタライゼーションパイプラインを活用し、効率的なレンダリングと再構築を実現します。シーンのカバレッジを最適化し、細部を捉えるために、3DGSは追加のポイントを生成するための高密度化アルゴリズムを採用しています。しかし、このプロセスはしばしば冗長なポイントクラウドを引き起こし、過剰なメモリ使用、遅いパフォーマンス、そして大量のストレージ需要をもたらします。これはリソースが制限されたデバイスでの展開において重大な課題を提起します。 この制限に対処するため、我々は3DGSにおける密度制御を解明し改善する理論的フレームワークを提案します。我々の分析は、分割が鞍点から脱出するために重要であることを明らかにします。最適化理論的アプローチを通じて、我々は高密度化のための必要条件を確立し、最小限の子ガウシアンの数を決定し、最適なパラメータ更新方向を特定し、子ガウシアンの不透明度を正規化するための解析的解法を提供します。これらの洞察に基づいて、我々はSteepGSを導入します。これは、最も急勾配な密度制御を組み込んだ原理に基づく戦略であり、損失を最小化しながらコンパクトなポイントクラウドを維持します。SteepGSは、レンダリング品質を損なうことなくガウシアンポイントを約50%削減し、効率とスケーラビリティを大幅に向上させます。