翻訳付きの日次キュレーションされたAI研究論文
自己教師あり学習は、手動でのデータアノテーションの必要性をなくし、モデルが大規模なデータセットやより大きなアーキテクチャに容易にスケールすることを可能にするという約束を抱いています。特定のタスクやドメインに特化していないため、この学習パラダイムは、自然画像から航空画像まで多様なソースから視覚表現を学習する可能性を秘めており、単一のアルゴリズムを使用して実現できます。本技術レポートでは、このビジョンを実現するための重要なマイルストーンであるDINOv3を紹介します。まず、データセットとモデルサイズのスケーリングの利点を活かすために、慎重なデータ準備、設計、最適化を行います。次に、長期間のトレーニングスケジュール中に密な特徴マップが劣化するという既知だが未解決の問題を効果的に解決する新しい手法であるGramアンカリングを導入します。最後に、解像度、モデルサイズ、テキストとの整合性に関してモデルの柔軟性をさらに高めるポストホック戦略を適用します。その結果、ファインチューニングなしで、幅広い設定において専門的な最新技術を凌ぐ汎用性の高い視覚基盤モデルを提示します。DINOv3は、高品質な密な特徴を生成し、さまざまな視覚タスクで卓越した性能を達成し、以前の自己教師ありおよび弱教師あり基盤モデルを大幅に上回ります。また、多様なリソース制約や展開シナリオに対応するスケーラブルなソリューションを提供することで、幅広いタスクとデータにおいて最新技術を進歩させることを目的としたDINOv3の視覚モデルスイートも共有します。
大規模言語モデル(LLM)が強化学習(RL)におけるエージェント探索タスクの効率的なシミュレーターとして機能する可能性を調査し、外部検索エンジンとのコストのかかる相互作用への依存を軽減することを目指します。この目的のために、まず、構造化されたプロンプティングと反復サンプリングを通じてLLMの内在的な探索能力を定量化し、これを「Self-Search」と呼びます。結果として、LLMが推論予算に関して強いスケーリング特性を示し、難易度の高いBrowseCompタスクを含む質問応答ベンチマークで高いpass@kを達成することが明らかになりました。これらの観察に基づき、フォーマットベースおよびルールベースの報酬を通じてLLMのSelf-Search能力を強化する「Self-Search RL(SSRL)」を導入します。SSRLは、モデルが外部ツールへのアクセスを必要とせずに、内部で知識の利用を反復的に洗練することを可能にします。実証評価により、SSRLで訓練されたポリシーモデルが、探索駆動型RLトレーニングのためのコスト効率が高く安定した環境を提供し、外部検索エンジンへの依存を軽減し、堅牢なシミュレーションから現実への転移を促進することが示されました。以下の結論を導き出します:1)LLMは、高いパフォーマンスを達成するために効果的に引き出せる世界知識を有している;2)SSRLは、内部知識を活用して幻覚を減らす可能性を示している;3)SSRLで訓練されたモデルは、追加の努力なしに外部検索エンジンとシームレスに統合する。我々の知見は、LLMがよりスケーラブルなRLエージェントトレーニングを支援する可能性を強調しています。
OpenAIが「画像を用いた思考」という概念を導入して以来、最近の研究では、視覚情報を推論プロセスに活用することで、モデルの知覚および推論タスクにおける性能を向上させる試みが進められてきた。しかし、私たちの知る限り、現時点では、多様な画像操作を実行しつつ、コードを通じて論理的推論能力を同時に強化できるプロプライエタリモデル(O3)と同等の機能を提供するオープンソースの研究は存在しない。本論文では、この方向性に向けた予備的な試みとして、Thyme(Think Beyond Images)を提案する。Thymeは、実行可能なコードを通じて多様な画像処理および計算操作を自律的に生成・実行することで、MLLM(マルチモーダル大規模言語モデル)が既存の「画像を用いた思考」アプローチを超越することを可能にする新しいパラダイムである。このアプローチは、画像の切り抜き、回転、コントラスト強調などの豊富なリアルタイム画像操作を容易にするだけでなく、数学的計算も可能にし、これらの操作をいつどのように適用するかについて高い自律性を維持する。この能力を活性化するために、2段階のトレーニング戦略を採用した。まず、コード生成を教えるために50万サンプルの精選されたデータセットで初期のSFT(Supervised Fine-Tuning)を行い、その後、意思決定を洗練させるためのRL(強化学習)フェーズを実施した。RLフェーズでは、学習の難易度を高めるために高解像度の質問-回答ペアを手動で収集・設計し、テキスト生成とコード生成に異なる温度を適用して推論の探索とコード実行の精度をバランスさせるGRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling)アルゴリズムを提案した。広範な実験分析とアブレーション研究を行い、約20のベンチマークでの包括的評価により、Thymeが特に挑戦的な高解像度知覚および複雑な推論タスクにおいて、顕著かつ一貫した性能向上をもたらすことを示した。
大規模言語モデル(LLM)の事前学習における最近の進展により、単にデータ量をスケールアップするだけでは、やがて収穫逓減に陥り、データの壁にぶつかることが明らかとなった。これに対応して、性能の限界を押し上げるための有望なパラダイムとして、合成データを用いた事前学習が注目されている。しかしながら、合成データの品質に影響を与える要因については、依然として十分に理解されていない。本研究では、事前学習用の高品質な合成データを生成するフレームワーク「BeyondWeb」を紹介する。BeyondWebは、従来のウェブスケールデータセットの能力を大幅に拡張し、最先端の合成事前学習データセットであるCosmopediaやNemotron-CCの高品質合成サブセット(Nemotron-Synth)を、14のベンチマーク評価全体でそれぞれ最大5.1パーセンテージポイント(pp)および2.6pp上回る性能を示す。また、オープンウェブデータと比較して最大7.7倍、Nemotron-Synthと比較して最大2.7倍の高速な学習を実現する。注目すべきは、180Bトークンで訓練された3Bモデルが、同じトークン予算でCosmopediaで訓練された8Bモデルを上回る点である。さらに、BeyondWebから得られた事前学習用合成データに関するいくつかの洞察を提示する。その利点を引き出す要因、どのデータをどのように言い換えるべきか、モデルサイズやファミリーがデータ品質に与える影響などである。全体として、本研究は、高品質な合成事前学習データを生成するための万能な解決策は存在しないことを示している。最良の結果を得るためには、多くの要因を共同で最適化する必要があり、これは厳密な科学と実践的な専門知識を要する挑戦的な課題である。単純なアプローチでは、多大なコストをかけてささやかな改善しか得られない可能性がある一方、適切に実行された方法では、BeyondWebが示すように、革新的な改善をもたらすことができる。
LLM推論は多くの下流アプリケーションにとって重要なワークロードとして浮上しているが、LLMを効率的に推論することは、膨大なメモリフットプリントと帯域幅要件のため困難である。並行して、計算能力は過去数十年にわたりメモリ容量と帯域幅を着実に上回っており、この傾向は現代のGPUハードウェアでも顕著であり、LLM推論の課題をさらに悪化させている。そのため、メモリ操作を削減するために計算量を増やす新しいアルゴリズムが登場している。この流れを活用し、我々はXQuantを提案する。XQuantは、最先端のKVキャッシュ量子化手法と比較して大幅な精度向上を伴う低ビット量子化により、メモリ消費量を桁違いに削減する。これを実現するために、標準的なKVキャッシュの代わりに層入力アクティベーションXを量子化してキャッシュし、推論中にKeysとValuesをその場で再生成する。これにより、KVキャッシュと比較して即座に2倍のメモリ節約が得られる。XQuantを適用することで、FP16ベースラインと比較して<0.1のパープレキシティ劣化で最大約7.7倍のメモリ節約を達成する。さらに、我々のアプローチは、X値が層間で類似しているという事実を活用する。この観察に基づいて、X埋め込みの層間類似性を利用して極端な圧縮を実現するXQuant-CLを導入する。様々なモデルにおいて、XQuant-CLはFP16ベースラインと比較してわずか0.01のパープレキシティ劣化で最大10倍のメモリ節約を達成し、0.1のパープレキシティ劣化で12.5倍のメモリ節約を実現する。XQuantは、ハードウェアプラットフォームの急速に増大する計算能力を活用してメモリボトルネックを解消し、最先端のKVキャッシュ量子化手法を凌駕し、幅広いモデルでFP16に近い精度を達成する。
論文検索は研究者にとって重要な活動であり、通常はトピックの説明を含むクエリを使用して関連する論文を見つけることを含みます。研究が深まるにつれ、論文検索の要件はより柔軟になることがあり、粗い粒度のトピックに限定されるのではなく、モジュール構成などの特定の詳細を含む場合もあります。しかし、従来の論文検索システムはこれらの柔軟な粒度の要件を満たすことができません。これらのシステムは主に論文のアブストラクトを収集してコーパスの索引を構築するため、より細かい粒度のクエリによる検索をサポートするための詳細情報が欠けています。本研究では、オフラインの階層的索引とオンラインの適応的検索から成るPaperRegisterを提案し、従来のアブストラクトベースの索引を論文検索のための階層的索引ツリーに変換することで、柔軟な粒度でのクエリをサポートします。さまざまな粒度での論文検索タスクにおける実験により、PaperRegisterが最先端の性能を達成し、特に細かい粒度のシナリオで優れていることが示され、実世界のアプリケーションにおける柔軟な粒度の論文検索の有効なソリューションとしての良い可能性が強調されています。この研究のコードはhttps://github.com/Li-Z-Q/PaperRegisterにあります。
高解像度テクスチャを特徴とする大規模3Dデータセット、TexVerseを紹介します。近年の大規模3Dデータセットの進展により、高解像度ジオメトリ生成は向上しましたが、適切なデータセットの不足から、エンドツーエンドでの高解像度テクスチャ生成は未開拓のままです。TexVerseはこのギャップを埋めるため、Sketchfabから収集した858K以上のユニークな高解像度3Dモデルのキュレーションされたコレクションを提供し、そのうち158K以上のモデルは物理ベースレンダリング(PBR)マテリアルを含んでいます。各モデルはそのすべての高解像度バリアントを含み、総計1.6Mの3Dインスタンスを構成します。TexVerseには、69Kのリグ付きモデルを含むTexVerse-Skeletonと、54Kのアニメーションモデルを含むTexVerse-Animationという専門的なサブセットも含まれており、どちらもユーザーがアップロードしたオリジナルのスケルトンとアニメーションデータを保持しています。また、モデルの全体的な特性、構造的コンポーネント、複雑な特徴を記述した詳細なアノテーションも提供します。TexVerseは、テクスチャ合成、PBRマテリアル開発、アニメーション、およびさまざまな3Dビジョンとグラフィックスタスクにおける幅広い潜在的なアプリケーションを可能にする高品質なデータリソースを提供します。
最近の音声駆動ポートレートアニメーションの進歩は、印象的な能力を示しています。しかし、既存の手法は、動きの自然さ、リップシンクの精度、視覚的品質など、複数の次元にわたる細かい人間の好みに合わせることが困難です。これは、しばしば互いに競合する好みの目標を最適化することの難しさと、多次元的な好みの注釈が付いた大規模で高品質なデータセットの不足によるものです。これらの問題に対処するため、我々はまず、生成されたビデオが多次元的な期待をどれだけ満たしているかを定量化する人間に沿った報酬関数を学習するマルチモーダル報酬モデルであるTalking-Criticを導入します。このモデルを活用して、41万の好みペアを含む大規模な多次元人間好みデータセットであるTalking-NSQをキュレーションします。最後に、拡散ベースのポートレートアニメーションモデルを細かい多次元的な好みに合わせるための新しいフレームワークであるTimestep-Layer adaptive multi-expert Preference Optimization (TLPO)を提案します。TLPOは、好みを専門のエキスパートモジュールに分離し、それらをタイムステップとネットワーク層にわたって融合させることで、相互干渉なしにすべての次元にわたる包括的で細かい強化を可能にします。実験結果は、Talking-Criticが人間の好み評価に合わせる点で既存の手法を大幅に上回ることを示しています。一方、TLPOはベースラインモデルに対してリップシンクの精度、動きの自然さ、視覚的品質において大幅な改善を達成し、定性的および定量的な評価の両方で優れた性能を示しています。プロジェクトページ: https://fantasy-amap.github.io/fantasy-talking2/
本論文では、ユーザーが指定したテキスト記述に基づいてスタイライズされた3D Morphable Model(3DMM)を構築する新しいフレームワークであるStyleMMを紹介する。提案手法は、事前に学習されたメッシュ変形ネットワークと、元の3DMMに基づくリアルな人間の顔を生成するテクスチャジェネレータを基盤としており、拡散モデルを用いたテキストガイド付き画像間変換(i2i)によって生成されたスタイライズされた顔画像を、レンダリングされたメッシュのスタイライゼーション目標として使用し、これらのモデルを微調整する。i2i変換中にアイデンティティ、顔のアライメント、または表情が意図せず変化するのを防ぐため、ソース画像の顔属性を明示的に保存するスタイライゼーション手法を導入する。画像スタイライゼーション中にこれらの重要な属性を維持することにより、提案手法は画像ベースの学習を通じて3DMMパラメータ空間全体で一貫した3Dスタイル転送を実現する。一度学習されると、StyleMMは形状、表情、およびテクスチャパラメータを明示的に制御しながら、スタイライズされた顔メッシュをフィードフォワード生成することができ、一貫した頂点接続性とアニメーション性を持つメッシュを生成する。定量的および定性的な評価により、提案手法がアイデンティティレベルの顔の多様性とスタイライゼーション能力において最先端の手法を上回ることが示されている。コードとビデオは[kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page)で公開されている。
グラフニューラルネットワーク(GNN)は、データインスタンス間の構造的依存関係を捉えることで、コンピュータビジョンや医療画像分類タスクにおいて最先端の結果を達成してきました。しかし、その意思決定プロセスは依然として不透明であり、解釈可能性が不可欠な高リスクの臨床応用における信頼性を制限しています。既存のGNNの説明可能性技術は、通常、事後的なものであり、グローバルな視点に基づいており、個々のノードの決定や局所的な推論に関する洞察が限られています。本論文では、X-Nodeという自己説明型GNNフレームワークを紹介します。このフレームワークでは、各ノードが予測プロセスの一部として自身の説明を生成します。各ノードに対して、次数、中心性、クラスタリング、特徴の重要性、および局所的なトポロジー内でのラベル一致など、解釈可能な手がかりをエンコードした構造化されたコンテキストベクトルを構築します。軽量なReasonerモジュールは、このコンテキストをコンパクトな説明ベクトルにマッピングし、以下の3つの目的を果たします:(1)デコーダーを介してノードの潜在埋め込みを再構築し、忠実性を強化する、(2)事前学習済みのLLM(例:GrokやGemini)を使用して自然言語の説明を生成する、(3)説明をメッセージパッシングパイプラインにフィードバックする「テキストインジェクション」メカニズムを介してGNN自体をガイドする。X-Nodeを、MedMNISTとMorphoMNISTから派生した2つのグラフデータセットで評価し、GCN、GAT、GINのバックボーンと統合します。結果は、X-Nodeが競争力のある分類精度を維持しながら、忠実なノードごとの説明を生成することを示しています。リポジトリ:https://github.com/basiralab/X-Node。
マルチモーダル大規模言語モデル(MLLMs)が広く適用されるにつれ、多様なユーザーニーズに適応させることがますます求められています。本論文では、制御されたデコーディングを通じてMLLMsを適応させる方法を研究します。これを実現するために、我々はMLLMsの報酬誘導デコーディングの最初の手法を導入し、その視覚的基盤を改善するための応用を示します。我々の手法は、視覚的基盤のための報酬モデルを構築し、それらを用いてMLLMのデコーディングプロセスを誘導することを含みます。具体的には、モデルの出力におけるオブジェクトの精度と再現率の度合いを独立して制御するために、2つの別々の報酬モデルを構築します。我々のアプローチは、MLLMの推論プロセスを2つの方法で即座に制御可能にします。第一に、デコーディング中に各報酬関数の相対的な重要性を制御することで、ユーザーが画像キャプションタスクにおいてオブジェクトの精度と再現率を動的にトレードオフできるようにします。第二に、デコーディング中の探索の幅を制御することで、ユーザーがテスト時の計算量と視覚的基盤の度合いの間のトレードオフを制御できるようにします。我々は、標準的なオブジェクト幻覚ベンチマークにおいて本手法を評価し、MLLM推論に対する有意な制御性を提供しつつ、既存の幻覚緩和手法を一貫して上回ることを示します。
自己教師あり学習はリモートセンシングにおいて大きな可能性を秘めていますが、標準的な自己教師あり手法は地球観測データの独自の特性に適応させる必要があります。本研究では、多モーダル・多時期・多スペクトルの地球観測データに対する融合戦略と再構成ターゲットの正規化手法に関する包括的なベンチマークを実施し、この方向性に向けた一歩を踏み出しました。我々の知見に基づき、MAESTROという新しいMasked Autoencoderの適応版を提案します。MAESTROは最適化された融合戦略と、スペクトル事前分布を自己教師信号として導入する独自のターゲット正規化手法を特徴としています。4つの地球観測データセットで評価を行った結果、MAESTROは多時期ダイナミクスに強く依存するタスクにおいて新たな最先端を達成し、単一の単時期モダリティが支配的なタスクにおいても高い競争力を維持しました。全ての実験を再現するコードはhttps://github.com/ignf/maestroで公開されています。
深層学習は医療画像分野に革命をもたらしたが、その有効性はラベル付き訓練データの不足によって大きく制限されている。本論文では、クラスあたり5~50のラベル付きサンプルという低ラベルデータ環境に特化した、新規のGANベースの半教師あり学習フレームワークを提案する。本手法は、クラス条件付き画像変換のためのジェネレータ、真正性評価と分類のためのディスクリミネータ、専用の分類器という3つの特殊化されたニューラルネットワークを、3段階の訓練フレームワーク内に統合する。この方法は、限られたラベル付きデータを用いた教師あり学習と、ノイズからの生成ではなく画像間変換を通じて豊富なラベルなし画像を活用する教師なし学習を交互に行う。我々は、ディスクリミネータと分類器からの信頼度重み付き予測を指数移動平均による時間的一貫性と組み合わせたアンサンブルベースの擬似ラベル付けを採用し、ラベルなしデータに対する信頼性の高いラベル推定を可能にする。11のMedMNISTデータセットを用いた包括的評価により、本手法が6つの最先端のGANベース半教師あり手法を統計的に有意に上回り、特にラベル付きデータの不足が最も深刻な5ショット設定において強力な性能を発揮することが示された。本フレームワークは、評価されたすべての設定(クラスあたり5、10、20、50ショット)において優位性を維持する。本手法は、アノテーションコストが過大な医療画像アプリケーションにおいて、最小限のラベル付きデータでも堅牢な分類性能を実現する実用的なソリューションを提供する。コードはhttps://github.com/GuidoManni/SPARSEで公開されている。