翻訳付きの日次キュレーションされたAI研究論文
本論文では、大規模言語モデルの学習に向けた安定性、効率性、性能を兼ね備えた強化学習アルゴリズムであるGroup Sequence Policy Optimization(GSPO)を紹介する。従来のトークンレベルの重要度比率を採用するアルゴリズムとは異なり、GSPOはシーケンス尤度に基づいて重要度比率を定義し、シーケンスレベルのクリッピング、報酬付与、最適化を実行する。GSPOは、GRPOアルゴリズムと比較して優れた学習効率と性能を達成し、特にMixture-of-Experts(MoE)RL学習を安定化させ、RLインフラ設計の簡素化に寄与する可能性があることを示す。GSPOのこれらの利点は、最新のQwen3モデルにおける顕著な改善に貢献している。
トランスフォーマーベースのアーキテクチャにおける最近の進展は、ビデオ生成タスクにおいて顕著な成功を収めています。しかし、完全な注意機構の二次的な計算複雑性は、特に高解像度かつ長時間のビデオシーケンスにおいて、重大なボトルネックとなっています。本論文では、NABLA(Neighborhood Adaptive Block-Level Attention)と呼ばれる新しい近傍適応型ブロックレベル注意機構を提案します。NABLAは、ビデオ拡散トランスフォーマー(DiTs)におけるスパース性パターンに動的に適応し、適応型スパース性駆動しきい値を活用したブロック単位の注意機構により、計算オーバーヘッドを削減しながら生成品質を維持します。本手法は、カスタムの低レベル演算子設計を必要とせず、PyTorchのFlex Attention演算子とシームレスに統合可能です。実験結果から、NABLAはベースラインと比較して最大2.7倍の高速な学習と推論を実現し、定量的指標(CLIPスコア、VBenchスコア、人間評価スコア)および視覚的品質の低下をほとんど伴わないことが示されています。コードおよびモデル重みは以下のURLで公開されています:https://github.com/gen-ai-team/Wan2.1-NABLA
大規模言語モデル(LLM)は、推論を要するタスクにおいて印象的な性能を達成していますが、その推論効率の最適化は未解決の課題です。テストタイムスケーリング(TTS)は推論品質を向上させますが、しばしば過剰思考を引き起こし、冗長な計算にトークンを浪費します。本研究では、追加の学習なしにLLMのテストタイムスケーリングを効率的かつ適応的に導く方法を探ります。物理学における運動量の概念に着想を得て、ステップごとの不確実性を追跡・集約することで、重要な推論ステップに思考予算を動的に割り当てるMomentum Uncertainty-guided Reasoning(MUR)を提案します。柔軟な推論時制御をサポートするため、単一のハイパーパラメータで推論予算を調整するgamma-controlというシンプルなメカニズムを導入します。MURの安定性とバイアスに関する優位性を裏付ける詳細な理論的証明を提供します。MURは、最近のQwen3モデル(1.7B、4B、8B)を用いて、4つの挑戦的なベンチマーク(MATH-500、AIME24、AIME25、GPQA-diamond)で様々なTTS手法と包括的に比較評価されました。結果は、MURが平均で50%以上の計算量を削減しつつ、精度を0.62-3.37%向上させることを示しています。
本論文では、短編映画生成のためのフレームワーク「Captain Cinema」を提案する。本手法は、映画のストーリーラインを詳細に記述したテキストを入力として、まず物語全体を概観するキーフレームのシーケンスを生成する。これにより、ストーリーラインと視覚的表現(例:シーンやキャラクター)の長期的な一貫性が保証される。このステップを「トップダウン型キーフレーム計画」と呼ぶ。次に、これらのキーフレームを条件信号として、長文脈学習をサポートするビデオ合成モデルに供給し、それらの間の時空間的ダイナミクスを生成する。このステップを「ボトムアップ型ビデオ合成」と呼ぶ。多シーン長編物語映画の安定かつ効率的な生成をサポートするため、長文脈ビデオデータに特化したマルチモーダル拡散トランスフォーマー(MM-DiT)のためのインターリーブトレーニング戦略を導入する。本モデルは、インターリーブされたデータペアで構成される特別にキュレーションされた映画データセットでトレーニングされる。実験結果から、Captain Cinemaが視覚的に一貫性があり、物語的にも整合性の高い高品質な短編映画を自動生成する点で優れた性能を発揮することが示された。プロジェクトページ:https://thecinema.ai
大規模な推論モデルは、長い連鎖思考シーケンスを通じて顕著な性能を達成してきましたが、この計算上の自由度は、単純な問題に対しても過剰なトークン生成を引き起こします。本論文では、Length-Adaptive Policy Optimization (LAPO) を提案します。これは、推論長制御を外部制約からモデルの内在的な能力へと変換する新しいフレームワークです。既存のアプローチが厳格な制限を課したり事後介入に依存したりするのとは異なり、LAPO は二段階の強化学習プロセスを通じて、モデルが適切な推論深度を内在的に理解することを可能にします。第一段階では、モデルは成功した解法の長さの統計的分布を発見することで、自然な推論パターンを学習します。第二段階では、これらのパターンをメタ認知的ガイダンスとして活用し、推論コンテキストに直接埋め込むことで、推論時の柔軟性を確保します。数学的推論ベンチマークでの実験により、LAPO がトークン使用量を最大 40.9% 削減しつつ、精度を 2.3% 向上させることが実証されました。分析の結果、LAPO で訓練されたモデルは、問題の複雑さに基づいて計算リソースを割り当てる創発的能力を発展させ、品質を犠牲にすることなく効率的な推論を実現することが明らかになりました。
近年の3D生成技術は目覚ましい進展を遂げているものの、数千平方キロメートルに及ぶ地球表面のモデリングといった地理的スケールへの適用は未解決の課題である。本研究では、データ基盤とモデルアーキテクチャの二重の革新を通じてこの課題に取り組む。まず、米国本土全域で撮影された50,000の精選されたシーン(各600m×600m)からなる、45MのマルチビューGoogle Earthフレームを含む、これまでで最大の3D航空データセット「Aerial-Earth3D」を導入する。各シーンは、ポーズ注釈付きのマルチビュー画像、深度マップ、法線マップ、セマンティックセグメンテーション、カメラポーズを提供し、地形の多様性を確保するための明示的な品質管理が施されている。この基盤に基づき、スパース分離潜在拡散を介した大規模3D地球生成のための特化フレームワーク「EarthCrafter」を提案する。本アーキテクチャは、構造生成とテクスチャ生成を分離する:1)デュアルスパース3D-VAEは、高解像度の幾何学的ボクセルとテクスチャ2Dガウススプラット(2DGS)をコンパクトな潜在空間に圧縮し、広大な地理的スケールに伴う高コストな計算を大幅に軽減しながら、重要な情報を保持する。2)混合入力(セマンティクス、画像、またはどちらもなし)で訓練された条件付きフローマッチングモデルを提案し、潜在的な幾何学とテクスチャ特徴を柔軟に独立してモデル化する。大規模な実験により、EarthCrafterが極めて大規模な生成において大幅に優れた性能を発揮することが示された。本フレームワークは、セマンティックガイドによる都市レイアウト生成から無条件の地形合成まで、多様なアプリケーションをサポートし、Aerial-Earth3Dからの豊富なデータ事前情報を通じて地理的な妥当性を維持する。プロジェクトページはhttps://whiteinblue.github.io/earthcrafter/で公開されている。
視覚生成モデルのスケーリングは、実世界のコンテンツ作成において不可欠であるが、多大なトレーニングと計算コストを必要とする。一方で、リソース効率と有望な性能から、テスト時のスケーリングが注目を集めている。本研究では、視覚自己回帰(VAR)モデルにおける初の汎用的なテスト時スケーリングフレームワークであるTTS-VARを提案し、生成プロセスを経路探索問題としてモデル化する。計算効率と探索能力の動的バランスを取るため、因果生成プロセス全体を通じて適応的なバッチサイズ降下スケジュールを導入する。さらに、VARの階層的な粗から細へのマルチスケール生成に着想を得て、本フレームワークは二つの主要コンポーネントを統合する:(i) 粗いスケールでは、生成されたトークンが評価困難であり、劣ったサンプルを誤って受け入れたり、優れたサンプルを拒否したりする可能性がある。粗いスケールには十分な構造情報が含まれていることに着目し、クラスタリングに基づく多様性探索を提案する。これは、セマンティック特徴クラスタリングを通じて構造的多様性を保持し、後でより高い潜在力を持つサンプルを選択可能にする。(ii) 細かいスケールでは、リサンプリングに基づく潜在選択が、マルチスケール生成履歴を組み込んだ報酬関数として定義される潜在スコアを使用して、有望な候補を優先する。強力なVARモデルInfinityでの実験では、GenEvalスコアが8.7%向上(0.69から0.75)した。重要な洞察として、初期段階の構造的特徴が最終品質に効果的に影響を与えること、およびリサンプリングの有効性が生成スケールによって異なることが明らかになった。コードはhttps://github.com/ali-vilab/TTS-VARで公開されている。
大規模な推論モデルは、広範な連鎖思考生成を通じて顕著な性能を達成する一方で、問題の複雑さに関わらず均一な推論戦略を適用するため、計算効率の面で大きな非効率性を示します。本論文では、Hierarchical Budget Policy Optimization (HBPO) を提案します。これは、モデルが問題固有の推論深度を学習できるようにする強化学習フレームワークであり、能力を犠牲にすることなく効率性を向上させます。HBPOは、効率指向のトレーニングにおける探索空間の崩壊という根本的な課題に対処します。この課題では、長い出力に対するペナルティが、必要な長い推論パスからモデルを系統的に遠ざけてしまいます。階層的な予算探索を通じて、我々のアプローチはロールアウトサンプルを異なるトークン予算を持つ複数のサブグループに分割し、能力の低下を防ぎながら効率的なリソース割り当てを可能にします。また、問題の複雑さに応じた予算認識型のインセンティブを提供する差別化された報酬メカニズムを導入し、モデルがタスク要件と計算努力の間の自然な対応関係を発見できるようにします。大規模な実験により、HBPOが4つの推論ベンチマークにおいて平均トークン使用量を最大60.6%削減し、精度を3.14%向上させることが示されました。既存の手法が外部制約を課したり離散的なモード選択に依存するのとは異なり、HBPOは問題の複雑さに基づいてモデルが自動的に推論深度を調整する適応的な振る舞いを示します。我々の結果は、推論効率と能力が本質的に相反するものではなく、探索の多様性を維持する適切に構造化された階層的トレーニングを通じて同時に最適化できることを示唆しています。
情報抽出(IE)は、多くのNLPアプリケーションにおいて基本的な技術であるが、既存のソリューションは、異なるタスクに対して専門化されたモデルを必要とするか、計算コストの高い大規模言語モデルに依存することが多い。本論文では、GLiNER2を紹介する。これは、元のGLiNERアーキテクチャを強化し、固有表現認識、テキスト分類、階層構造化データ抽出を単一の効率的なモデルでサポートする統一フレームワークである。事前学習済みのトランスフォーマーエンコーダアーキテクチャを基盤として構築されたGLiNER2は、CPU効率とコンパクトなサイズを維持しつつ、直感的なスキーマベースのインターフェースを通じてマルチタスク構成を導入する。実験結果は、抽出および分類タスクにおいて競争力のある性能を示し、LLMベースの代替手法と比較して展開のアクセシビリティが大幅に向上していることを実証している。GLiNER2は、事前学習済みモデルとドキュメントを備えたオープンソースのpipインストール可能なライブラリとして、https://github.com/fastino-ai/GLiNER2 で公開されている。
概念ドリフトにさらされる非定常データストリームから学習するためには、リソース効率を保ちつつオンザフライで適応可能なモデルが必要です。既存の適応型アンサンブル手法は、しばしば粗い粒度の適応メカニズムや単純な投票スキームに依存しており、専門知識を最適に活用することができません。本論文では、これらの制約を克服するための新たな共訓練フレームワークを備えたオンラインMixture-of-Experts(MoE)アーキテクチャであるDriftMoEを紹介します。DriftMoEは、インクリメンタルHoeffdingツリーのエキスパートプールと共に訓練されるコンパクトなニューラルルーターを特徴としています。主な革新点は、エキスパートの専門化を可能にする共生的学習ループにあります。ルーターは予測に最も適したエキスパートを選択し、関連するエキスパートは真のラベルでインクリメンタルに更新され、ルーターは正確なエキスパートを強化するマルチホット正解マスクを使用してパラメータを洗練します。このフィードバックループにより、ルーターには明確な訓練信号が提供され、エキスパートの専門化が加速されます。DriftMoEの性能を、急激なドリフト、漸進的なドリフト、実世界のドリフトを含む9つの最先端データストリーム学習ベンチマークで評価し、エキスパートがデータレジームに特化する場合(マルチクラスバリアント)と、単一クラスの専門化に焦点を当てる場合(タスクベースバリアント)の2つの異なる構成をテストしました。その結果、DriftMoEが最先端のストリーム学習適応型アンサンブルと競争力のある結果を達成し、概念ドリフト適応に対する原則的で効率的なアプローチを提供することが示されました。すべてのコード、データパイプライン、再現性スクリプトは、公開GitHubリポジトリで利用可能です: https://github.com/miguel-ceadar/drift-moe.
最新のTeleChatモデルシリーズであるTeleChat2、TeleChat2.5、およびT1を紹介します。これらは前身のTeleChatを大幅にアップグレードしたものです。モデルアーキテクチャの変更は最小限ながら、新しいシリーズは事前学習と事後学習の両段階における強化されたトレーニング戦略を通じて、大幅な性能向上を実現しています。シリーズは、10兆の高品質で多様なトークンで事前学習されたTeleChat2から始まります。その後、教師ありファインチューニング(SFT)と直接選好最適化(DPO)を経て、その能力をさらに強化します。TeleChat2.5とT1は、ドメイン固有のデータセットを用いた継続的な事前学習フェーズを組み込み、コード生成や数学的推論タスクの性能を向上させるために強化学習(RL)を採用しています。T1バリアントは複雑な推論に特化して設計されており、長い連鎖思考(CoT)推論をサポートし、数学とコーディングにおいて大幅な改善を示します。一方、TeleChat2.5は速度を優先し、迅速な推論を実現します。T1とTeleChat2.5の両フラッグシップモデルは、115Bパラメータを持つ密なTransformerベースのアーキテクチャで、元のTeleChatと比較して推論と一般的なタスク性能において大きな進歩を示しています。特に、T1-115BはOpenAIのo1-miniやGPT-4oなどのプロプライエタリモデルを凌駕しています。我々は、35Bと115Bパラメータを持つ事後学習バージョンを含むTeleChat2、TeleChat2.5、およびT1を公開し、多様なアプリケーションに適した最先端の言語モデルを開発者や研究者に提供します。
最近のテキストから画像への合成技術の進歩は、高品質な生成を保証するための洗練されたサンプリング戦略とクラス分類器不要ガイダンス(CFG)に大きく依存しています。しかし、CFGは2回のフォワードパスを必要とし、特に複雑なサンプリングアルゴリズムと組み合わせると、推論コストが非常に高くなります。この問題を解決するため、我々はTeEFusion(Text Embeddings Fusion)を提案します。これは、ガイダンスの大きさを直接テキスト埋め込みに組み込み、教師モデルの複雑なサンプリング戦略を蒸留する新しい効率的な蒸留手法です。条件付きと無条件のテキスト埋め込みを線形演算で融合するだけで、TeEFusionは追加のパラメータを必要とせずに所望のガイダンスを再構築し、同時に学生モデルが教師モデルの洗練されたサンプリング手法による出力から学習できるようにします。SD3のような最先端モデルを用いた広範な実験により、我々の手法が学生モデルに教師モデルの性能を非常にシンプルで効率的なサンプリング戦略で密接に模倣させることを実証しました。その結果、学生モデルは教師モデルと同等の画像品質を維持しつつ、推論速度を最大6倍高速化することができました。コードはhttps://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}で公開されています。
本レポートは、2024年版の英語GloVe(Global Vectors for Word Representation)モデルを記録、説明、評価するものである。2014年に構築されたオリジナルのGloVeモデルは広く使用され、有用性が認められてきたが、言語と世界は進化を続けており、最新の使用状況に適した更新モデルが有益であると考えた。さらに、2014年モデルは使用された正確なデータバージョンと前処理について十分に文書化されておらず、この点を改善するために新しいモデルの詳細を記録した。我々は、Wikipedia、Gigaword、およびDolmaのサブセットを使用して2セットの単語埋め込みを学習した。語彙比較、直接テスト、NERタスクを通じた評価により、2024年版のベクトルは文化的・言語的に関連性の高い新しい単語を取り込んでおり、類推や類似性といった構造的タスクにおいて同等の性能を発揮し、非西洋のニュースワイヤデータなど、時間的に依存する最近のNERデータセットにおいて性能の向上を示すことが確認された。
コンピュータビジョンにおけるセグメントは、しばしば意味論的な考慮に基づいて定義され、カテゴリ固有の慣習に強く依存しています。一方、発達心理学は、人間が世界を「スペルク・オブジェクト」として認識することを示唆しています。スペルク・オブジェクトとは、物理的な力が作用したときに一緒に動く物理的なものの集合体です。したがって、スペルク・オブジェクトはカテゴリに依存しない因果的運動関係に基づいており、操作や計画などのタスクをより適切にサポートする可能性があります。本論文では、まずスペルク・オブジェクトの概念をベンチマークし、自然画像における多様な明確なスペルク・セグメントを含むSpelkeBenchデータセットを紹介します。次に、画像からスペルク・セグメントをアルゴリズム的に抽出するために、将来の運動分布を予測するように訓練された視覚世界モデルのクラスであるSpelkeNetを構築します。SpelkeNetは、スペルク・オブジェクト発見のための2つの重要な概念の推定をサポートします:(1) モーション・アフォーダンス・マップ(pokeによって動きそうな領域を特定する)、(2) 期待変位マップ(シーンの他の部分がどのように動くかを捉える)。これらの概念は「統計的反事実的プロービング」に使用され、高モーション・アフォーダンスの領域に多様な「仮想poke」を適用し、その結果得られる期待変位マップを使用して、相関する運動統計の統計的集約としてスペルク・セグメントを定義します。SpelkeNetは、SpelkeBenchにおいてSegmentAnything(SAM)などの教師ありベースラインを上回る性能を示します。最後に、スペルクの概念が下流アプリケーションにおいて実用的に有用であることを示し、様々なオフザシェルフのオブジェクト操作モデルで使用した場合、物理的オブジェクト操作のための3DEditBenchベンチマークで優れた性能を発揮することを示します。
拡散モデルに基づくテキスト音声合成(TTS)システムは、ゼロショット音声合成において顕著な進歩を遂げてきたが、すべてのコンポーネントを知覚的指標に最適化することは依然として課題である。先行研究であるDMOSpeechでは、音声生成コンポーネントに対する直接的な指標最適化が実証されたが、持続時間予測は最適化されていなかった。本論文では、DMOSpeech 2を提案し、強化学習アプローチを通じて持続時間予測器にまで指標最適化を拡張する。提案システムは、話者類似度と単語誤り率を報酬信号として用いたグループ相対選好最適化(GRPO)に基づく新たな持続時間ポリシーフレームワークを実装する。この従来最適化されていなかったコンポーネントを最適化することで、DMOSpeech 2はより完全な指標最適化合成パイプラインを構築する。さらに、本論文では、教師モデルを初期のノイズ除去ステップに活用し、その後学生モデルに移行するハイブリッドアプローチである教師誘導サンプリングを導入し、効率を維持しながら出力の多様性を大幅に向上させる。包括的な評価により、従来のシステムと比較してすべての指標で優れた性能を示し、品質の低下なしにサンプリングステップを半減させることが実証された。これらの進展は、複数のコンポーネントにわたる指標最適化を備えた音声合成システムに向けた重要な一歩を表している。音声サンプル、コード、および事前学習済みモデルはhttps://dmospeech2.github.io/で公開されている。
大規模言語モデル(LLMs)は金融アプリケーションにおいて大きな可能性を示しているが、既存のモデルは高度な推論能力、厳格な信頼性基準、およびドメイン固有の要件への効率的な適応を必要とするシナリオに直面した際に、しばしば限界を示す。本論文では、Qwen3基盤モデルをベースに設計された金融向け大規模言語モデル「Agentar-Fin-R1」シリーズ(8Bおよび32Bパラメータ)を紹介する。このモデルは、金融アプリケーションにおける推論能力、信頼性、およびドメイン特化性を強化するために特別に設計されている。最適化アプローチとして、高品質で体系的な金融タスクラベルシステムと、多層的な信頼性保証フレームワークを統合している。このフレームワークは、高品質な信頼性のある知識エンジニアリング、マルチエージェントによる信頼性のあるデータ合成、および厳格なデータ検証ガバナンスを包含している。ラベルガイドによる自動難易度認識最適化、2段階トレーニングパイプライン、および動的な属性システムを通じて、トレーニング効率の大幅な向上を実現した。本モデルは、Fineva、FinEval、FinanceIQなどの主要な金融ベンチマーク、およびMATH-500やGPQA-diamondなどの一般的な推論データセットにおいて包括的な評価を受けた。実世界での展開能力を徹底的に評価するために、エージェントレベルの金融推論とコンプライアンス検証に焦点を当てた「Finova」評価ベンチマークを新たに提案した。実験結果は、Agentar-Fin-R1が金融タスクにおいて最先端の性能を達成するだけでなく、優れた一般的な推論能力も示し、ハイステークスな金融アプリケーションにおける信頼性の高いソリューションとしての有効性を実証している。Finovaベンチマークはhttps://github.com/antgroup/Finovaで公開されている。
我々は、新しい位置埋め込み不要の階層型ビジョントランスフォーマーであるIwin Transformerを紹介します。これは、革新的なインターリーブウィンドウアテンションと深さ方向分離可能畳み込みの協調により、低解像度から高解像度へ直接微調整することができます。このアプローチでは、遠くのトークンを接続するためにアテンションを使用し、近隣のトークンをリンクするために畳み込みを適用し、単一のモジュール内でグローバルな情報交換を可能にします。これにより、Swin Transformerがグローバルアテンションを近似するために2つの連続したブロックを必要とする制限を克服します。視覚ベンチマークでの広範な実験により、Iwin Transformerが画像分類(ImageNet-1Kでの87.4トップ1精度)、セマンティックセグメンテーション、ビデオアクション認識などのタスクで強い競争力を示すことが実証されました。また、Iwinのコアコンポーネントが、クラス条件付き画像生成において自己アテンションモジュールをシームレスに置き換えることができるスタンドアロンモジュールとして有効であることも検証しました。Iwin Transformerによって導入された概念と方法は、ビデオ生成におけるIwin 3D Attentionのような将来の研究を刺激する可能性があります。コードとモデルはhttps://github.com/cominder/Iwin-Transformerで利用可能です。
部分関連ビデオ検索(PRVR)は、トリミングされていないビデオと部分的な内容しか記述していないテキストクエリをマッチングさせるという重要な課題に対処します。既存の手法では、ユークリッド空間における幾何学的な歪みが生じ、ビデオの内在的な階層構造を誤って表現したり、特定の階層的セマンティクスを見落としたりすることがあり、結果として最適でない時間的モデリングを引き起こします。この問題を解決するため、我々はPRVR向けの最初の双曲線モデリングフレームワークであるHLFormerを提案します。HLFormerは、双曲空間学習を活用してユークリッド空間の最適でない階層モデリング能力を補います。具体的には、HLFormerはローレンツアテンションブロックとユークリッドアテンションブロックを統合し、ハイブリッド空間でビデオ埋め込みをエンコードし、Mean-Guided Adaptive Interaction Moduleを使用して特徴を動的に融合します。さらに、部分順序保存損失を導入し、ローレンツ円錐制約を通じて「テキスト < ビデオ」の階層を強化します。このアプローチは、ビデオ内容とテキストクエリ間の部分的な関連性を強化することで、クロスモーダルマッチングをさらに向上させます。大規模な実験により、HLFormerが最先端の手法を上回ることが示されています。コードはhttps://github.com/lijun2005/ICCV25-HLFormerで公開されています。
医療画像のセグメンテーションは、疾患の診断や治療計画を含む多くの医療タスクにおいて重要です。特に、皮膚病変のセグメンテーションは、皮膚がんの診断や患者のモニタリングにおいて不可欠です。この文脈において、本論文は、拡散トランスフォーマー(DiT)に基づく新しいセグメンテーションモデルであるSegDTを紹介します。SegDTは、低コストのハードウェアで動作するように設計されており、Rectified Flowを組み込むことで、推論ステップを削減しながら生成品質を向上させ、標準的な拡散モデルの柔軟性を維持します。提案手法は、3つのベンチマークデータセットで評価され、既存のいくつかの研究と比較され、最先端の結果を達成しながら高速な推論速度を維持します。これにより、提案モデルは実世界の医療アプリケーションにおいて魅力的なものとなっています。この研究は、医療画像分析における深層学習モデルの性能と能力を向上させ、医療従事者にとってより迅速で正確な診断ツールを実現します。コードはhttps://github.com/Bekhouche/SegDT{GitHub}で公開されています。
本論文では、ターゲット広告キャンペーンの効果を高めるために設計された、顔画像からの年齢と性別の同時分類を行う新しい深層学習ベースのアプローチを提案する。我々は、両タスクに最適化されたカスタム畳み込みニューラルネットワーク(CNN)アーキテクチャを提案し、顔の特徴に内在する年齢と性別の情報間の相関を活用する。これらのタスクを独立して扱う既存の手法とは異なり、我々のモデルは共有表現を学習し、性能の向上を実現する。ネットワークは、照明、ポーズ、画像品質の変動に対してロバスト性を確保するために注意深く前処理された、大規模で多様な顔画像データセットで学習される。実験結果は、性別分類の精度が95%に達し、年齢推定では5.77年の平均絶対誤差を達成するなど、大幅な改善を示している。特に、異なる年齢層における性能を分析し、若年層の年齢を正確に推定する際の特定の課題を明らかにする。この分析は、これらのバイアスに対処するためのターゲットデータ拡張とモデル改良の必要性を明らかにする。さらに、異なるCNNアーキテクチャとハイパーパラメータ設定が全体の性能に与える影響を探り、将来の研究に貴重な知見を提供する。
強力な言語基盤を基に構築されたマルチモーダル大規模言語モデル(MLLMs)は、画像、質問、回答からなる少数のマルチモーダルデモンストレーションに基づいて新しいタスクに適応するマルチモーダルインコンテキスト学習(MICL)を可能にしました。標準的な視覚言語データセットで顕著な改善を示しているにもかかわらず、現在のMLLMsはデモンストレーション内の視覚情報を活用するのに苦労しています。具体的には、視覚的な手がかりを無視し、テキストのパターンに過度に依存する傾向があり、真のマルチモーダル適応ではなく、単なるテキストの模倣に留まっています。この振る舞いにより、MICLは依然として単一モーダルであり、その実用的な有用性が大きく制限されています。さらに重要なことに、この制限は視覚的コンテキストの理解を必要としないタスクでのパフォーマンス向上によってしばしば隠されています。その結果、MICL能力を効果的に向上させ、MICLパフォーマンスを確実に評価する方法はまだ十分に検討されていません。これらの問題に対処するため、我々はまず、視覚的コンテキストに注意を向けるようモデルを促すために、視覚的トークンとテキストトークン間の注意を再調整する効率的なファインチューニング戦略である動的注意再配分(DARA)を導入します。さらに、真のMICL(TrueMICL)という、マルチモーダル情報、特に視覚的コンテンツの統合を明示的に要求するサポートセットとテストセットを備えたMICL専用データセットを提示します。広範な実験により、我々の包括的ソリューションの有効性が実証され、真のマルチモーダルインコンテキスト学習能力の大幅な向上が示されています。コードとデータセットはhttps://chenxshuo.github.io/true-micl-colmで利用可能です。