翻訳付きの日次キュレーションされたAI研究論文
最近の大規模言語モデル(LLM)の進歩により、強力な一般的な推論能力が示されていますが、金融推論における効果は未だに未開拓の領域です。本研究では、金融テキスト、表形式データ、および方程式を含む3つの複雑な金融タスクにおいて、16の強力な推論および一般的なLLMを包括的に評価し、数値推論、表形式解釈、金融用語理解、長文脈処理、および方程式に基づく問題解決を評価しました。結果は、より良いデータセットと事前学習が金融推論を向上させる一方、CoTのような一般的な強化は常に一貫した利益をもたらすわけではないことを示しています。さらに、すべての推論戦略が長文脈および複数の表形式タスクでのパフォーマンス向上に向けて課題に直面しています。これらの制限に対処するため、特定のドメイン推論パスを用いたCoTのファインチューニングと強化学習により、Llama-3.1-8B-Instructに基づく金融推論強化モデルを開発しました。1つの金融データセットでの簡単なファインチューニングでも、当社のモデルはタスク全体で一貫した10%のパフォーマンス向上を達成し、すべての8Bモデルを上回り、平均してLlama3-70B-InstructおよびLlama3.1-70B-Instructをも凌駕しています。結果は、金融タスクにおける特定のドメイン適応の必要性を強調し、複数の表形式推論、長文脈処理、および金融用語理解などの将来の方向性を重視しています。すべてのデータセット、モデル、コードは公開されています。さらに、将来のデータセットとモデルのベンチマークテストのためのリーダーボードを導入しています。
現代の大規模言語モデル(LLM)は、純粋な計算上の制約よりも、現在のハードウェア上で通信のボトルネックにしばしば遭遇します。マルチヘッド潜在注意(MLA)は、キー値(KV)レイヤーで低ランク行列を使用することで、圧縮された潜在的なKV状態をキャッシュできるようにし、この課題に取り組んでいます。このアプローチにより、従来のマルチヘッド注意と比較して、KVキャッシュサイズが大幅に削減され、推論が高速化されます。さらに、MLAは、表現力を向上させるためにアッププロジェクション行列を使用し、追加の計算を交換条件として通信オーバーヘッドを削減します。MLAはDeepseek V2/V3/R1で効率と効果を実証していますが、多くの主要なモデルプロバイダーは依然としてGroup Query Attention(GQA)に依存しており、MLAを採用する計画を発表していません。本論文では、GQAは常に同じKVキャッシュオーバーヘッドを維持しながらMLAで表現できることを示し、逆は成り立たないことを示します。MLAのより広範な使用を促進するために、**TransMLA**という、広く使用されているGQAベースの事前学習モデル(LLaMA、Qwen、Mixtralなど)をMLAベースのモデルに変換する事後トレーニング手法を紹介します。変換後、モデルはKVキャッシュサイズを増やさずに表現力を向上させるために追加のトレーニングを受けることができます。さらに、Deepseek R1の効率的な蒸留を可能にするために、MLA固有の推論加速技術を開発する予定です。
従来の多言語ベンチマークは、主に単純な理解タスクに焦点を当ててきましたが、大規模言語モデル(LLMs)においては、指示の遵守、推論、長い文脈の理解、コード生成などの能力を重視しています。ただし、これらの高度な能力を言語間でどのように測定するかは、未開拓の分野です。この格差に対処するために、私たちはBenchMAXを導入しました。これは、言語間でこれらの重要な能力を公平に比較できる多方向多言語評価ベンチマークです。高い品質を維持するために、英語から他の16言語に機械翻訳されたデータを用いて、3人の母語話者注釈者がそれぞれのタスク内の各サンプルを独立して注釈付けします。さらに、データセット構築から生じる新しい翻訳課題を提示します。BenchMAXでの幅広い実験により、言語間での主要な能力の効果の違いが明らかになり、単にモデルサイズを拡大するだけでは埋められない性能の差が浮き彫りにされます。BenchMAXは包括的な多言語評価プラットフォームとして機能し、多言語言語モデルの開発を促進する有望なテストベッドを提供します。データセットとコードは公開されています。
我々は、生徒と教師の間での計算予算の割り当てに基づいて蒸留されたモデルの性能を推定する蒸留スケーリング則を提供します。我々の調査結果は、蒸留を大規模に利用する際に伴うリスクを軽減します。教師と生徒モデルのための計算割り当ては、生徒の性能を最大化するために行うことができます。教師が存在する場合、または教師のトレーニングが必要な場合の計算最適な蒸留レシピを提供します。多くの生徒を蒸留する場合や、すでに教師が存在する場合、生徒のサイズと予測可能に増加する計算レベルまで、蒸留は監督された事前トレーニングを上回ります。1人の生徒を蒸留し、かつ教師もトレーニングが必要な場合は、代わりに監督学習を行うべきです。さらに、蒸留の大規模な研究における洞察を提供し、蒸留の理解を深め、実験設計に情報を提供します。
最近、テキスト条件付き画像生成は注目を集めており、ますます長く包括的なテキストプロンプトを処理しています。日常生活では、広告、インフォグラフィック、看板などのコンテキストで密で入り組んだテキストが現れ、テキストと視覚の両方を統合することが複雑な情報を伝達するために不可欠です。しかし、これらの進歩にもかかわらず、長文テキストを含む画像の生成は、既存のデータセットの制限により依然として課題が残っています。これらのデータセットはしばしば短く単純なテキストに焦点を当てています。このギャップを埋めるために、長文のレンダリングを評価するために特に設計された新しいデータセットであるTextAtlas5Mを紹介します。当データセットは、さまざまなデータタイプを横断する500万枚の長文生成および収集された画像で構成されており、大規模な生成モデルの長文画像生成に関する包括的な評価を可能にします。さらに、3つのデータドメインにわたる3000の人間による改良テストセットTextAtlasEvalをキュレーションし、テキスト条件付き生成のための最も包括的なベンチマークの1つを確立します。評価によると、TextAtlasEvalベンチマークは、最も高度なプロプライエタリモデル(例:GPT4o with DallE-3)でも重要な課題を提示しており、オープンソースの対応モデルはさらに大きな性能差を示しています。これらの証拠は、TextAtlas5Mを将来の世代のテキスト条件付き画像生成モデルのトレーニングと評価に貴重なデータセットと位置付けています。
最近の画像の再照明モデルの進歩は、大規模データセットと事前学習された拡散モデルによって駆動され、一貫した照明の実施を可能にしました。しかし、ビデオの再照明は、主に過剰なトレーニングコストと多様で高品質なビデオの再照明データセットの不足のために遅れています。画像の再照明モデルをフレームごとに単純に適用すると、いくつかの問題が生じます:照明源の不一致と再照明された外観の不一致により、生成されたビデオにフリッカーが生じます。本研究では、トレーニング不要のアプローチであるLight-A-Videoを提案し、時間的にスムーズなビデオの再照明を実現します。画像の再照明モデルから適応されたLight-A-Videoは、照明の一貫性を向上させるための2つの主要な技術を導入します。まず、背景の照明源の生成を安定化させるために、自己注意層内でクロスフレームの相互作用を強化するConsistent Light Attention(CLA)モジュールを設計します。次に、光の輸送独立性の物理的原理を活用し、ソースビデオの外観と再照明された外観の間で線形ブレンディングを適用し、Progressive Light Fusion(PLF)戦略を使用して、照明の時間的な遷移をスムーズにします。実験結果は、Light-A-Videoが再照明されたビデオの時間的一貫性を向上させ、画質を維持しつつ、フレーム間で一貫した照明の遷移を確保することを示しています。プロジェクトページ:https://bujiazi.github.io/light-a-video.github.io/.
本研究では、3次元認識および制御可能なテキストからビデオを生成するための革新的なフレームワークであるCineMasterを提案します。私たちの目標は、ユーザーにプロの映画監督と同等の制御性を与えることです:シーン内のオブジェクトの正確な配置、3次元空間でのオブジェクトとカメラの柔軟な操作、およびレンダリングされたフレームの直感的なレイアウト制御。これを実現するために、CineMasterは2つの段階で動作します。最初の段階では、ユーザーがオブジェクトの境界ボックスを配置し、3D空間内でカメラの動きを定義することで、直感的に3D認識条件信号を構築できるインタラクティブなワークフローを設計します。2番目の段階では、これらの制御信号(レンダリングされた深度マップ、カメラの軌跡、オブジェクトクラスラベルを含む)が、テキストからビデオへの拡散モデルのガイダンスとして機能し、ユーザーが意図したビデオコンテンツを生成することを保証します。さらに、3Dオブジェクトの動きとカメラの位置の注釈が付いた野外データセットの希少性を克服するために、大規模なビデオデータから3D境界ボックスとカメラの軌跡を抽出する自動化されたデータ注釈パイプラインを慎重に構築しています。包括的な質的および量的実験により、CineMasterが既存の手法を大幅に上回り、優れた3次元認識テキストからビデオを生成する機能を実装していることが示されています。プロジェクトページ:https://cinemaster-dev.github.io/。
次のトークン予測は、大規模言語モデルの事前学習で使用される標準的なトレーニング目標です。表現は、トークンレベルのパープレキシティを最適化することによって学習されます。私たちは、連続概念混合(CoCoMix)という新しい事前学習フレームワークを提案します。これは、離散的な次のトークン予測と連続的な概念を組み合わせます。具体的には、CoCoMixは、事前学習された疎なオートエンコーダから学習した連続的な概念を予測し、それらをモデルの隠れ状態に混ぜ込みます。これは、トークンの隠れ表現と交互になります。言語モデリングや下流の推論タスクを含む複数のベンチマークでの実験を通じて、CoCoMixがよりサンプル効率的であり、標準的な次のトークン予測、知識蒸留、および一時停止トークンの挿入を一貫して上回ることを示します。概念学習と交互の両方を組み合わせることがパフォーマンス向上には重要であることがわかりました。さらに、CoCoMixは、予測された概念の直接的な検査と修正を可能にすることで、解釈可能性と誘導可能性を向上させ、モデルの内部推論プロセスを誘導する透明な方法を提供します。
現在のGUIエージェントは、GUI要素のグラウンディングにおいて優れたパフォーマンスを達成しています。しかし、計画立案は依然として非常に困難であり、特に環境の初期状態に対する感度が高いです。具体的には、初期状態にわずかな違いがあると、例えば対象ソフトウェアが開かれていない、またはインターフェースがデフォルトの状態でないなどの場合、計画エラーが頻繁に発生します。この問題は実際のユーザシナリオで広く見られますが、既存のベンチマークでは評価できません。本論文では、実際のコンピュータユーザ間の相互作用をシミュレートするために、さまざまな初期状態でGUIタスクを設計する新しいGUIベンチマークであるWorldGUIを提案します。このベンチマークは、PowerPoint、VSCode、Adobe Acrobatなど10の人気ソフトウェアアプリケーションにわたる幅広いタスクをカバーしています。さらに、動的なGUI自動化タスクの課題に対処するために、批評メカニズムを活用した総合的なフレームワークであるGUI-Thinkerを提案します。実験結果は、GUI-ThinkerがWorldGUIタスクにおいてClaude-3.5(Computer Use)よりも成功率で14.9%優れていることを示しています。この改善は、批判的思考に基づく当社のフレームワークがGUI自動化を向上させる効果を裏付けています。
線形シーケンスモデリング手法、例えば線形アテンションは、シーケンスの長さに関わらず線形時間のトレーニングと一定のメモリ推論の利点を提供します。しかし、既存のシーケンス並列処理(SP)手法は、線形アテンションの右積優先機能に最適化されていないか、リング形式の通信戦略を使用しており、計算並列処理が低下し、分散システムにおける長いシーケンスのスケーラビリティが制限されています。本論文では、非常に長い入力シーケンスで線形アテンショントランスフォーマーモデルをトレーニングする際に、通信と計算の並列処理の両方を向上させる新しいSP手法であるLASP-2を紹介します。以前の研究LASPと比較して、LASP-2は線形アテンションレイヤーにおけるSPの最小通信要件を再考し、LASPの通信-計算ワークフロー全体を再構築します。この方法により、シーケンス長に依存しない中間メモリ状態での1つのAllGather集団通信のみが必要となり、通信と計算の並列処理、およびそれらのオーバーラップが大幅に改善されます。さらに、LASP-2をLASP-2Hに拡張し、標準アテンションモジュールに同様の通信再設計を適用することで、線形と標準アテンションレイヤーを組み合わせたハイブリッドモデルに効率的なSPソリューションを提供します。Llama3の変種であるLinear-Llama3モデルでの評価は、LASP-2およびLASP-2Hの効果を示しています。具体的には、64台のGPUで2048Kのシーケンス長で、LASP-2はLASPに比べてトレーニング速度が15.2%向上し、Ring Attentionに比べて36.6%向上します。コードは以下の一部として公開されています: https://github.com/OpenSparseLLMs/Linear-MoE.
現在の大規模言語モデル(LLM)の開発において、長期目標を達成する能力は重要な課題です。この課題に対処するため、事前学習されたLLMは、強化学習(RL)を用いて微調整され、与えられた目標を最適化する解を探索することができます。しかし、LLMによる探索は困難であり、新しい解を見つけると同時に、基本的な能力を低下させないように、事前学習モデルに近づきすぎないバランスを保つ必要があります。これは通常、Kullback-Leibler(KL)ペナルティによって制御されます。本論文では、単純な算術タスク上で小規模言語モデルの探索ダイナミクスを調査します。事前学習の程度が探索に与える影響を示し、最終結果に劇的な影響を与える「重要トークン」の重要性を実証します。その結果、KLペナルティに簡単な修正を加え、重要トークンにおける探索を優先することで、RL微調整段階の効率を向上させます。
最近の拡散モデルに基づくキャラクター画像アニメーション手法、例えばAnimate Anyoneは、一貫性があり汎用性のあるキャラクターアニメーションを生成する点で大きな進展を遂げています。しかしながら、これらの手法はキャラクターとその環境との合理的な関連性を生み出すことに失敗しています。この制限に対処するために、環境に適応したキャラクターアニメーションを目指すAnimate Anyone 2を提案します。ソースビデオからの動きの信号を抽出するだけでなく、環境表現を条件付き入力として取得します。環境は、キャラクターを除いた領域として定式化され、当該領域にキャラクターを生成し、環境コンテキストとの整合性を維持します。キャラクターと環境との関係をより効果的に特徴付ける形状に依存しないマスク戦略を提案します。さらに、オブジェクト間の相互作用の忠実度を向上させるために、オブジェクトガイダーを活用して相互作用するオブジェクトの特徴を抽出し、特徴の注入には空間ブレンディングを使用します。さらに、より多様な動きパターンを処理できるようにするポーズ調整戦略を導入します。実験結果は、提案手法の優れた性能を示しています。
最近の数学におけるAIの進歩は純粋数学において成果を上げていますが、特にPDE(偏微分方程式)などの応用数学分野は、その重要な実世界応用にもかかわらず、未だ未開拓の領域となっています。本研究では、PDE-Controllerというフレームワークを提案し、大規模言語モデル(LLM)が偏微分方程式(PDEs)によって制御されるシステムを制御することを可能にします。私たちのアプローチは、LLMが非形式的な自然言語の指示を形式仕様に変換し、その後、推論および計画ステップを実行してPDE制御の有用性を向上させることを実現します。私たちは、人間が書いたケースと200万の合成サンプルからなるデータセット、数学推論モデル、および革新的な評価基準を含む包括的なソリューションを構築しました。これらはすべて、膨大な労力を要します。私たちのPDE-Controllerは、推論、自動形式化、プログラム合成において、最新のオープンソースおよびGPTモデルにプロンプトをかけることよりも、PDE制御の有用性向上において最大62%の改善を達成しました。言語生成とPDEシステムとのギャップを埋めることで、LLMが複雑な科学技術上の課題に取り組む潜在能力を実証しています。すべてのデータ、モデルのチェックポイント、およびコードは、https://pde-controller.github.io/ で公開予定です。
直接選好最適化(DPO)およびその派生手法は、言語モデルを人間の選好と整合させるために、ますます人気を集めています。これらの手法は、モデルに選択された(または好ましいとされる)応答と拒否された(または好ましくないとされる)応答をよりよく区別するように教えることを目指しています。しかし、これまでの研究では、選択された応答の確率がトレーニング中にしばしば低下するという現象が特定されており、これを尤度の変位と呼んでいます。この課題に取り組むために、本研究では、選択された確率の分布を制御可能にシフトさせる\method を導入します。その後、\method が選択された確率を向上させることと報酬のマージンを犠牲にすることとの間に、理論的分析と実験的検証の両方によって支持される基本的なトレードオフがあることを示します。さらに、MT-Benchや設計された勝率実験などの下流タスクにおいて、\method がDPOよりも優れていることを実証します。本研究は、DPOの尤度の変位問題が、単純で理論的に基づいた解決策によって効果的に緩和され得ることを示していると考えています。当該コードは、https://github.com/Meaquadddd/DPO-Shift で入手可能です。
最近の大規模言語モデル(LLMs)は、128Kから1Mトークンに及ぶ長いコンテキストをサポートしています。これらの能力を評価する人気のある方法は、「針の中の藁(NIAH)」テストであり、これは「針」(関連情報)を「藁」(長い無関連コンテキスト)から取得することを含みます。このアプローチの拡張には、誘導物の増加、事実連鎖、およびコンテキスト内推論が含まれます。ただし、これらのベンチマークでは、モデルが針と藁の間の既存のリテラルマッチを利用してタスクを簡素化できます。これを解決するために、私たちはNoLiMaを導入しました。これは、NIAHを拡張し、質問と針が最小限の語彙的重複を持つように注意深く設計された針セットを備えており、モデルには針を藁の中で見つけるために潜在的な関連性を推論する必要があります。少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLLMsを評価します。これらは短いコンテキスト(<1K)ではうまく機能しますが、コンテキストの長さが増すにつれて性能が著しく低下します。たとえば、32Kでは、10のモデルが強力な短い基準線の50%未満に低下します。トップパフォーマーの例外の1つであるGPT-4oでさえ、ほぼ完璧な99.3%から69.7%に低下します。私たちの分析では、これらの低下は、リテラルマッチが存在しない長いコンテキストでの注意メカニズムの直面する困難さからくるものであり、関連情報を取得することがより困難になっていることを示唆しています。
合成開口レーダー(SAR)リモートセンシング画像解釈の分野では、ビジョン言語モデル(VLM)が自然言語処理と画像理解において著しい進歩を遂げていますが、専門領域においては不十分なドメイン知識によりその応用は限定されています。本論文では、SAR画像用の初の大規模なマルチモーダル対話データセット「SARChat-2M」を提案しています。このデータセットには約200万の高品質な画像テキストペアが含まれ、詳細なターゲット注釈を備えた多様なシナリオが網羅されています。このデータセットは視覚理解や物体検出などの主要なタスクをサポートするだけでなく、次のような独自の革新的側面を持っています:SAR領域のための視覚言語データセットとベンチマークを開発し、VLMのSAR画像解釈における能力を可能にし評価することで、様々なリモートセンシング垂直領域全体でマルチモーダルデータセットを構築するための範型的なフレームワークを提供します。16の主要なVLMを対象とした実験により、データセットの有効性が十分に検証され、SAR分野における初のマルチタスク対話ベンチマークが成功裏に確立されました。このプロジェクトは、SAR視覚言語モデルの深い開発と広範な適用を促進することを目的として、https://github.com/JimmyMa99/SARChat で公開されます。
次のトークン予測(NTP)は、自己回帰(AR)ビデオ生成の事実上のアプローチですが、最適でない一方向の依存関係と遅い推論速度の課題があります。本研究では、ビデオ生成のための半自己回帰(semi-AR)フレームワークであるNext-Block Prediction(NBP)を提案します。ビデオコンテンツを均等なサイズのブロック(例:行またはフレーム)に均等に分解することで、個々のトークンからブロックへの生成単位をシフトし、現在のブロック内の各トークンが次のブロック内の対応するトークンを同時に予測できるようにします。従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を使用し、トークンがより堅牢な空間的依存関係を捉えることができます。複数のトークンを並行して予測することで、NBPモデルは生成ステップの数を大幅に削減し、より迅速かつ効率的な推論を実現します。当社のモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4の改善をもたらし、バニラのNTPモデルを上回ります。さらに、推論ステップの数が削減されたことで、NBPモデルは1秒あたり8.89フレーム(128x128解像度)を生成し、11倍の高速化を達成します。また、700Mから3Bのパラメータを持つモデルスケールを探索し、UCF101では103.3から55.3、K600では25.5から19.5のFVDスコアの顕著な改善を観察し、当社のアプローチのスケーラビリティを実証しています。
Retrieval-Augmented Generation(RAG)は、人工知能生成コンテンツ(AIGC)の課題に対処するために設計された先進的な技術です。コンテンツ生成にコンテキスト検索を統合することで、RAGは信頼性の高い最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを確保します。ただし、RAGの成功と潜在能力にも関わらず、最近の研究によると、RAGパラダイムは新たなリスクをもたらすことも示されています。これには、堅牢性の問題、プライバシー懸念、敵対的攻撃、および説明責任の問題が含まれます。これらのリスクに対処することは、RAGシステムの将来の応用にとって重要であり、その信頼性に直接影響を与えます。RAG方法の信頼性を向上させるためのさまざまな手法が開発されていますが、このトピックの研究に統一された視点と枠組みが不足しています。したがって、本論文では、信頼性のあるRAGシステムを開発するための包括的なロードマップを提供することで、このギャップに取り組むことを目指します。私たちは、信頼性、プライバシー、安全性、公平性、説明可能性、および説明責任という5つの主要な視点を中心に議論を展開します。各視点について、一般的な枠組みと分類を提示し、現在の課題を理解し、既存の解決策を評価し、将来有望な研究方向を特定するための構造化されたアプローチを提供します。広範な採用とイノベーションを促進するために、信頼性のあるRAGシステムが重要な影響を与える下流の応用例も紹介します。
本研究では、LLMモジュールのアーキテクチャを提案し、強化されたクロスアテンションメカニズムを使用して大規模な事前学習モデルから小さなモデルへの知識転送を可能にします。提案された手法では、Qwen2-1.5Bモデルを凍結し、その表現を特別に設計されたアテンション層を介して計算リソースが限られたGPT-Neo-125Mモデルに渡します。Bespoke-Stratos-17kデータセットでの実験結果は、15エポックのトレーニング後、結合モデルが蒸留によって得られるものと同等の品質の応答を生成することを示しています。モジュラーなアプローチの利点、入力クエリや比較分析の例、および手法のさらなる拡張の展望について議論します。
モデルのマージングは、異なるタスクでファインチューニングされた大規模言語モデル(LLM)をより強力なものに統合します。ただし、モデル間のパラメータの競合が平均化において性能の低下をもたらします。モデルのルーティングは、推論時に個々のモデルを選択することでこの問題に対処しますが、過剰なストレージおよび計算コストを発生させ、異なるモデルからの共通の知識を活用することができません。本研究では、異なるレイヤーが異なるレベルのパラメータの競合を示すことを観察しました。この洞察を基に、パラメータの競合が最小限のレイヤーを平均化し、重要な競合があるレイヤーには新しいタスクレベルの専門家ルーティングを使用します。さらに、ストレージコストを削減するために、タスク算術的疎な性質に着想を得て、複数のファインチューニングされた専門家を密な専門家といくつかの疎な専門家に分離します。分布外のサンプルを考慮して、入力データのタスクの不確実性に基づいて適切な専門家を選択しマージします。我々は、異なるパラメータスケールを持つLLaMAとQwenの両方で広範な実験を行い、実世界の推論タスクで評価しました。結果は、既存の手法と比較して、我々の手法が一貫して著しい性能向上を達成し、より少ないシステムコストを必要とすることを示しています。
推論時にモデルの重みを変更せずに言語モデル(LM)の安全性推論を最適化する革新的な動的安全性フレームワークを提案します。最近の自己批評手法の進歩を基に、当社のアプローチは、安全性プロンプト(仕様と呼ばれる)を反復的に更新するメタ批評メカニズムを活用します。これにより、批評と修正プロセスを適応的に推進します。このテスト時の最適化は、敵対的なジェイルブレイク要求に対するパフォーマンスを向上させるだけでなく、道徳的な害を避けたり正直な回答を追求するなど、多様な一般的な安全関連タスクにも適しています。複数の言語モデルを対象とした実証評価により、動的に最適化された安全性プロンプトが、固定システムプロンプトや静的自己批評防御と比較して、著しく高い安全性スコアをもたらすことが示されました。コードは https://github.com/vicgalle/meta-self-critique.git で公開予定です。
密な対照表現学習(DCRL)は、画像密度予測タスクの学習効率を大幅に向上させ、医用画像収集および密な注釈の大きなコストを削減する可能性を示しています。ただし、医用画像の特性により、信頼性のない対応関係の発見が困難であり、DCRLにおいて大規模な誤検出(FP&N)ペアのオープンな問題が生じています。本論文では、DCRLに事前に同相写像を埋め込み、効果的な密な対照のための信頼性のある対応関係の発見を可能にするGEoMetric vIsual deNse sImilarity(GEMINI)学習を提案します。医用画像の同相写像をモデル化し、位相保存下でピクセルの対応を推定するための変形同相写像学習(DHL)を提案します。これにより、ペアリングの探索空間が効果的に削減され、勾配を介した暗黙的かつソフトな負のペアの学習が促進されます。また、特徴量内の意味情報を抽出し、対応関係学習のためのアライメント度を測定する幾何学的意味類似性(GSS)を提案します。これにより、変形の効率と性能を促進し、信頼性のある正のペアを構築します。実験では、2つの典型的な表現学習タスクに対する2つの実用的なバリアントを実装します。既存の手法を凌駕する7つのデータセットでの有望な結果は、我々の優位性を示しています。コードは以下のリンクで公開されます:https://github.com/YutingHe-list/GEMINI。