翻訳付きの日次キュレーションされたAI研究論文
マルチエージェントシステム(MAS)は、大規模言語モデル(LLM)を独立した単一モデル推論から協調的なシステムレベル知能へ拡張する。既存のLLMエージェントがテキストベースの仲介に依存して推論と通信を行うのに対し、我々は連続的な潜在空間内でのモデル間直接協働を可能にする一歩先を行くアプローチを提案する。本論文ではLatentMASを紹介する。これはLLMエージェント間の純粋な潜在協働を可能にするエンドツーエンドの訓練不要フレームワークである。LatentMASでは、各エージェントはまず最終層隠れ埋め込みを通じて自己回帰的な潜在思考生成を行う。共有潜在作業記憶が各エージェントの内部表現を保存・転送し、ロスレスな情報交換を保証する。理論分析により、LatentMASが従来のテキストベースMASと比較して大幅に低い複雑性で、より高い表現力とロスレスな情報保存を達成することを立証する。さらに、数学・科学推論、常識理解、コード生成にわたる9つの包括的ベンチマークにおける実証評価では、LatentMASが強力な単一モデル及びテキストベースMASベースラインを一貫して上回り、最大14.6%の精度向上、70.8%-83.7%の出力トークン使用量削減、4倍-4.3倍の高速なエンドツーエンド推論を実現した。これらの結果は、我々の新しい潜在協働フレームワークが、追加の訓練なしにシステムレベルの推論品質を向上させながら、実質的な効率向上をもたらすことを示している。コードとデータはhttps://github.com/Gen-Verse/LatentMAS で完全に公開されている。
マルチモーダル大規模言語モデル(MLLM)は現在、研究の中心的な関心を集めており、規模と能力において急速な進歩を見せているが、その知性、限界、リスクについては未だ十分に理解されていない。これらの課題、特に現時点でマルチモーダルベンチマークが存在しないロシア語圏の文脈に対処するため、我々はロシア語対応アーキテクチャのためのオープンなマルチモーダル評価フレームワーク「Mera Multi」を提案する。本ベンチマークは指示ベースであり、デフォルトでテキスト、画像、音声、動画のモダリティを包含し、汎用モデルとモダリティ特化型アーキテクチャ(画像対テキスト、動画対テキスト、音声対テキスト)の双方に対応する18の新規構築評価タスクで構成される。我々の貢献は以下の通りである:(i)マルチモーダル能力の普遍的分類体系;(ii)ロシアの文化的・言語的特異性に配慮し、統一されたプロンプトと指標を備えた、完全に新規に作成された18のデータセット;(iii)クローズドソース及びオープンソースモデルに対するベースライン結果;(iv)透かしの埋め込みや非公開セットのライセンスを含む、ベンチマーク漏洩防止の方法論。現在の焦点はロシア語であるが、提案するベンチマークは、特にスラブ語族に属する類型論的に多様な言語におけるマルチモーダルベンチマーク構築の再現可能な方法論を提供する。
ワールドモデルは、エージェントAI、エンボディードAI、ゲームなどの分野における中核的なシミュレータとして機能し、長尺で物理的に現実的かつインタラクティブな高品質動画を生成することができます。さらに、これらのモデルをスケーリングすることで、視覚的知覚・理解・推論における創発的能力が解放され、現在のLLM中心のビジョン基盤モデルを超える新たなパラダイムへの道を開く可能性があります。これを可能にする重要な突破口が、半自己回帰的(ブロック拡散)デコーディング・パラダイムです。この手法は、動画トークンをブロック単位で生成する際に、各ブロック内で拡散手法を適用するとともに前のブロックを条件付けすることで、拡散法と自己回帰法の長所を融合し、より一貫性があり安定した動画シーケンスを実現します。決定的に、標準的な動画拡散モデルの限界を、LLMスタイルのKVキャッシュ管理を再導入することで克服し、効率的で可変長かつ高品質な生成を可能にしています。 したがって、Inferixは没入型のワールド合成を最適化された半自己回帰的デコーディングプロセスを通じて実現する次世代推論エンジンとして特別に設計されています。ワールドシミュレーションへのこの特化した焦点こそが、高並行性シナリオ向けに設計されたシステム(vLLMやSGLangなど)や従来の動画拡散モデル(xDiTsなど)との明確な差別化要因です。Inferixはさらに、インタラクティブ動画ストリーミングとプロファイリング機能を備え、リアルタイムな相互作用と現実的なシミュレーションを可能にし、世界の力学を正確にモデル化します。加えて、分単位の長尺動画生成シナリオに特化した新たなきめ細かい評価基準であるLV-Benchのシームレスな統合を通じて、効率的なベンチマーキングをサポートします。私たちは、コミュニティが協力してInferixを発展させ、ワールドモデルの探求を促進することを願っています。
同期した音声-視覚コンテンツの合成は、生成AIにおける重要な課題であり、オープンソースモデルは頑健な音声-視覚連携の実現に困難を抱えている。我々の分析によれば、この問題は結合拡散過程における三つの根本的課題に起因する:(1) 対応関係のドリフト - 並行して進化するノイジーレイテントが安定した連携学習を妨げる;(2) 細粒度の時間的手がかりを捕捉できない非効率な大域注意機構;(3) 従来のClassifier-Free Guidance (CFG)のモダリティ内バイアス - 条件付けを強化するが、モダリティ間の同期性は向上しない。これらの課題を克服するため、我々は音声-視覚同期を機構的に強化する新規フレームワーク「Harmony」を提案する。まず、音声駆動型映像生成と映像駆動型音声生成タスクからの強力な教師信号を活用してドリフトを軽減するCross-Task Synergy訓練パラダイムを考案。次に、効率的かつ精密な時間的・様式的連携を実現するGlobal-Local Decoupled Interaction Moduleを設計。最後に、推論時に同期信号を明示的に分離・増幅する新規のSynchronization-Enhanced CFG (SyncCFG)を提示する。大規模な実験により、Harmonyが新たなstate-of-the-artを確立し、既存手法を生成品質において、そして特に細粒度の音声-視覚同期性において大幅に凌駕することを実証した。
我々は、軽量な文書解析およびOCRモデルであるNemotron-Parse-1.1を紹介する。本モデルは前身であるNemoretriever-Parse-1.0の機能を発展させ、一般OCR、マークダウン形式処理、構造化テーブル解析、画像・図表・ダイアグラムからのテキスト抽出において改良された能力を提供する。視覚的に高密度な文書に対応するため、より長い出力シーケンス長もサポートしている。前身モデルと同様に、テキストセグメントのバウンディングボックスと対応する意味的クラスの抽出機能を備える。Nemotron-Parse-1.1はエンコーダ-デコーダ構造を採用し、コンパクトな2億5600万パラメータの言語デコーダを含む総計8億8500万パラメータを有する。公開ベンチマークで競争力のある精度を達成し、強力な軽量OCRソリューションとなっている。モデル重みはHuggingfaceで公開するとともに、最適化されたNIMコンテナ、および広範なNemotron-VLM-v2データセットの一部として訓練データの一部を公開する。さらに、視覚トークン長を削減し20%の速度向上を実現したNemotron-Parse-1.1-TCも公開する。こちらは品質劣化を最小限に抑えている。
統一マルチモーダルモデル(UMM)は、単一アーキテクチャで理解と生成の両方において印象的な性能を示している。しかし、UMMには根本的な不一致が依然として存在する。理解にはコンパクトな埋め込み表現が適する一方で、生成には再構成豊かな表現が望ましいという構造的トレードオフである。この不一致は、整合しない決定境界、劣化したクロスモーダル一貫性、および分布的・敵対的変化に対する脆弱性の増大を引き起こす。本論文では、この不一致に直接対処する自己敵対的ポストトレーニングフレームワーク「UniGame」を提案する。共有トークンインターフェースに軽量な摂動器を適用することで、UniGameは生成ブランチが脆弱な理解を能動的に探査・挑戦することを可能にし、モデル自身をその敵対者へと変える。実験により、UniGameが一貫性を大幅に改善(+4.6%)することを実証した。さらに、理解(+3.6%)、生成(+0.02)、分布外および敵対的ロバスト性(NaturalBenchとAdVQAでそれぞれ+4.8%と+6.2%)においても大幅な改善を達成する。本フレームワークはアーキテクチャ非依存であり、追加パラメータは1%未満で、既存のポストトレーニング手法と補完的に利用可能である。これらの結果は、敵対的自己プレイが将来のマルチモーダル基盤モデルの一貫性、安定性、統一的能力を高める一般的かつ効果的な原理であることを示唆する。公式コードは以下で公開されている:https://github.com/AIFrontierLab/UniGame
大規模言語モデル(LLM)が様々なタスク難易度にわたってどの程度一般化するかを検討する。これは効果的なデータキュレーションと評価における重要な課題である。既存研究では、容易なデータと困難なデータのどちらで学習させる方が良い結果を得られるか、またその効果が容易なテストデータと困難なテストデータのどちらに現れるかについて、見解が分かれている。本研究では、モデル、データセット、事例難易度の細粒度グループにわたるLLMの一般化を体系的に評価することでこの問題に取り組む。6つのデータセットにおける事例を、数千種類の異なるLLMの出力と教育測定で確立された難易度指標である項目反応理論(IRT)を用いてランク付けする。先行研究と異なり、我々の難易度評価は人間の難易度判断を排し、多数の異なるLLMの能力のみによって決定される。より客観的で大規模かつ細粒度な分析により、難易度を跨いだ一般化は往々にして限定的であること、すなわち容易なデータと困難なデータのいずれで学習しても、難易度全域にわたる一貫した改善は達成できないことを示す。これらの結果は、LLMの学習と評価データに幅広い難易度範囲を含めることの重要性、および難易度に関して近道を取ることが危険であることを示唆している。
「画像を用いた思考」は、視覚的推論を進展させる効果的なパラダイムとして登場し、中間推論ステップに視覚的証拠を注入することで、テキストのみの思考の連鎖を超えた広がりを見せています。しかし、既存の手法は外部ツールに根本的に制限されているため、人間のような抽象的な視覚思考には至っていません。本研究では、マルチモーダル大規模言語モデル(MLLM)が中間的な視覚的思考として機能する連続的な埋め込みを生成することで、潜在視覚空間内で直接推論することを可能にする訓練フレームワーク「Monet」を提案します。潜在視覚推論のためのMLLM訓練における核心的な課題として、潜在空間と視覚の整合性における高い計算コストと、潜在埋め込みに対する不十分な監督の2つを特定し、これらを3段階の知識蒸留ベースの教師付きファインチューニング(SFT)パイプラインで解決します。さらに、潜在推論へのGRPO適用の限界、すなわちそれが主にテキストベースの推論を強化し、潜在推論には十分でないことを明らかにします。この問題を克服するため、潜在埋め込みを明示的にポリシー勾配更新に組み込む強化学習手法「VLPO(Visual-latent Policy Optimization)」を提案します。SFTを支援するため、12万5千件の実世界、チャート、OCR、幾何学のCoTを含む高品質なテキスト-画像交互配置型CoTデータセット「Monet-SFT-125K」を構築しました。我々のモデル「Monet-7B」は、実世界の知覚と推論のベンチマークで一貫した性能向上を示し、困難な抽象的視覚推論タスクにおいて強力な分布外汎化性能を発揮します。また、各訓練コンポーネントの役割を実証的に分析し、初期の失敗した試みについても議論し、視覚的潜在推論の将来の発展に向けた知見を提供します。モデル、データ、コードはhttps://github.com/NOVAglow646/Monet で公開されています。
我々は、高精度な1ステップ・数ステップ生成モデリングを可能にするフローマッチングの一般化手法であるTerminal Velocity Matching(TVM)を提案する。TVMは任意の2つの拡散タイムステップ間の遷移をモデル化し、その振る舞いを初期時刻ではなく終端時刻で正則化する。モデルがリプシッツ連続である場合、TVMがデータ分布とモデル分布の間の2-ワッサーシュタイン距離の上界を提供することを証明する。しかし、Diffusion Transformerはこの性質を満たさないため、安定した単一段階の訓練を実現する最小限のアーキテクチャ変更を導入する。TVMの実用的な効率化のために、Transformerアーキテクチャでスケーラブルなヤコビアン-ベクトル積の逆伝播をサポートする融合アテンションカーネルを開発する。ImageNet-256x256では、TVMは単一関数評価(NFE)で3.29 FID、4 NFEで1.99 FIDを達成する。同様にImageNet-512x512では1-NFEで4.32 FID、4-NFEで2.94 FIDを達成し、スクラッチから学習した1ステップ/数ステップモデルとして最先端の性能を示す。
視覚言語モデル(VLM)は、空間的知能における頑健性を依然として欠いており、空間理解と推論タスクで低い性能を示しています。私たちはこの課題の原因を、2次元画像から3次元空間を再構築する視覚的幾何学学習プロセスの欠如にあると考えます。本論文では、空間知能の二つの基本側面である空間的3次元再構築と空間理解を統合する幾何学基盤型視覚言語モデルG^2VLMを提案します。G^2VLMは、学習された3次元視覚幾何学特徴をネイティブに活用し、3次元属性を直接予測するとともに、文脈内学習とインタリーブ推論を通じて空間推論タスクを強化します。私たちの統一設計は空間理解において高い拡張性を有しており、多数のマルチビュー画像・動画データで学習可能な一方、通常は収集が困難な注釈からしか得られない3次元視覚事前知識の利点を同時に活用できます。実験結果では、G^2VLMが両タスクに精通し、最先端の順伝播型3次元再構築モデルと同等の結果を達成するとともに、空間理解・推論タスク全体で優れたあるいは競争力のある結果を示しています。意味論的に強力なVLMと低レベル3次元視覚タスクを統合することで、G^2VLMがコミュニティの強力なベースラインとなり、3次元シーン編集のような将来の応用展開を促進することを期待します。
ブロック因果的ビデオ生成は、速度と品質の間で顕著なトレードオフに直面している:小規模な1.3Bモデルでは16 FPSに留まる一方、大規模な14Bモデルでは4.5 FPSまで低下し、ユーザーは応答性と品質のいずれかを選択せざるを得ない。ブロックカスケーディングは、訓練不要の並列化により、このトレードオフを大幅に緩和する。我々の重要な知見は、将来のビデオブロックの生成開始において、現在のブロックが完全にノイズ除去される必要はないという点である。先行ブロックから部分的にノイズ除去されたコンテキストを用いてブロック生成を開始することで、逐次的なパイプラインを、複数のブロックが同時にノイズ除去を行う並列カスケードに変換する。時間的並列性を活かす5台のGPUを用いることで、全てのモデル規模において約2倍の加速を実現した:1.3Bモデルは16 FPSから30 FPSに、14Bモデルは4.5 FPSから12.5 FPSに加速する。推論速度に加えて、ブロックカスケーディングは、対話的生成におけるコンテキスト切り替え時のKVキャッシュ再計算のオーバーヘッド(約200ms)を排除する。複数のブロック因果的パイプラインと比較した広範な評価により、推論においてブロック因果的パイプラインからブロックカスケーディングパイプラインに切り替えても、生成品質に有意な低下がないことが実証された。プロジェクトページ: https://hmrishavbandy.github.io/block_cascading_page/
自然言語による指示を四脚ロボットの連続制御に接地することは、ビジョン言語行動における根本的な課題である。既存手法は、高レベルの意味推論と低レベルの駆動を結びつけることに難があり、不安定な接地と実世界での弱い一般化を招いていた。これらの課題に対処するため、四脚ロボットのための明示的推論と連続制エージェントを可能にする統合ビジョン言語行動フレームワーク、MobileVLA-R1を提案する。我々は、具身化軌跡のためのマルチ粒度チェーン・オブ・ソート(CoT)からなる大規模データセットMobileVLA-CoTを構築し、アライメントのための構造化された推論監督を提供する。この基盤に立脚し、教師ありCoTアライメントとGRPO強化学習を組み合わせた2段階トレーニングパラダイムを導入し、推論の一貫性、制御の安定性、長期実行を強化する。VLNおよびVLAタスクにおける広範な評価は、強力なベースラインを約5%上回る優れた性能を示している。四脚ロボットでの実世界デプロイメントは、複雑な環境下でのロバストな性能を実証する。コード: https://github.com/AIGeeksGroup/MobileVLA-R1. ウェブサイト: https://aigeeksgroup.github.io/MobileVLA-R1.
タイムステップ蒸留は、拡散モデルの生成効率を向上させる効果的な手法である。軌道ベースのフレームワークとしてのConsistency Model(CM)は、強固な理論的基盤と高品質な少数ステップ生成により、大きな可能性を示している。しかしながら、現在の連続時間整合性蒸留手法は、依然として訓練データと計算資源に大きく依存しており、リソースが限られた環境での展開を妨げ、多様な領域への拡張性を制限している。この問題を解決するため、我々はTrajectory-Backward Consistency Model(TBCM)を提案する。TBCMは、教師モデルの生成軌道から直接潜在表現を抽出することで、外部の訓練データへの依存を排除する。VAEエンコーディングや大規模データセットを必要とする従来手法とは異なり、この自己完結型の蒸留パラダイムは効率性と簡潔性を大幅に向上させる。さらに、軌道から抽出されたサンプルは、訓練と推論の間の分布ギャップを自然に埋めるため、より効果的な知識転移を可能にする。実験では、TBCMは1ステップ生成においてMJHQ-30kデータセットでFID 6.52、CLIPスコア28.08を達成し、Sana-Sprintと比較して訓練時間を約40%削減し、大量のGPUメモリを節約し、品質を損なうことなく優れた効率性を示した。さらに、我々は連続時間整合性蒸留における拡散-生成空間の不一致を明らかにし、サンプリング戦略が蒸留性能に与える影響を分析し、将来の蒸留研究への示唆を提供する。GitHubリンク:https://github.com/hustvl/TBCM。
Vision-Language-Action(VLA)ポリシーは、言語、知覚、ロボット制御の整合を取る点で優れている。しかし、大半のVLAは模倣学習のみで訓練されており、実証データへの過適合が生じ、分布シフト下では脆い。強化学習(RL)はタスク報酬を直接最適化するため、この不整合を解決するが、実ロボットでのインタラクションはコストが高く、従来のシミュレータは構築や転移が困難である。本研究では、学習済みの世界モデルとフローベース行動ヘッドに特化したRL手法により、VLAのポストトレーニングにおけるデータ効率と最適化安定性の両課題に取り組む。具体的には、大規模で異種のロボットデータを事前学習し、再利用可能な行動-結果ダイナミクスを学習する統合型「行動-映像」ロボット駆動モデルProphetを提案する。本モデルは新規ロボット、物体、環境への数発適応が可能であり、即時利用可能なシミュレータを生成する。Prophetを基盤として、Flow-GRPOをVLA行動に適用したFlow-action-GRPO(FA-GRPO)と、フローヘッドのステップ単位勾配を再スケーリングする段階的再重み付け手法FlowScaleにより行動ポリシーを強化する。Prophet、FA-GRPO、FlowScaleを統合したProphRLは、VLAポストトレーニングに向けた実用的でデータ・計算効率に優れた手法である。実験では、様々なVLA変種において、公開ベンチマークで5-17%、実ロボットで24-30%の成功率向上を実証した。
Vision Foundation Models(VFM)は、空間的にダウンサンプリングされた表現を抽出するため、ピクセルレベルのタスクに課題をもたらします。既存のアップサンプリング手法は、根本的なトレードオフに直面しています。古典的なフィルタは高速で広範に適用可能ですが固定形式に依存し、現代のアップサンプラは学習可能なVFM特化型の形式により優れた精度を達成するものの、各VFMごとの再訓練というコストが伴います。本研究では、Neighborhood Attention Filtering(NAF)を提案します。NAFは、高解像度入力画像のみをガイドとして、Cross-Scale Neighborhood AttentionとRotary Position Embeddings(RoPE)を通じて適応的な空間・内容重みを学習することで、この隔たりを埋めます。NAFはゼロショットで動作し、任意のVFMからの特徴を再訓練なしでアップサンプリングします。これにより、VFM特化型アップサンプラを凌駕し、複数のダウンストリームタスクでState-of-the-Art性能を達成する、初のVFM非依存アーキテクチャとなります。高い効率性を維持し、2K特徴マップへのスケーリングや、中間解像度マップの18 FPSでの再構成を実現します。特徴アップサンプリングを超えて、NAFは画像復元タスクでも強力な性能を示し、その汎用性を強調しています。コードとチェックポイントはhttps://github.com/valeoai/NAF で公開されています。
我々は、中核的な認知的プリミティブに焦点を当てた視覚的知覚と推論のための合成環境「Sphinx」を提案する。Sphinxは、モチーフ、タイル、チャート、アイコン、幾何学プリミティブを用いてパズルを手続き的に生成し、それぞれに検証可能な正解を付与することで、精密な評価と大規模データセット構築を可能にする。本ベンチマークは、対称性検出、幾何学的変換、空間推論、チャート解釈、系列予測にわたる25のタスク類型を網羅する。最近の大規模視覚言語モデル(LVLM)を評価した結果、最先端のGPT-5でさえ51.1%の精度しか達成せず、人間の性能を大きく下回ることが明らかになった。最後に、検証可能な報酬を用いた強化学習(RLVR)がこれらのタスクにおけるモデル精度を大幅に向上させ、外部の視覚推論ベンチマークでも改善をもたらすことを実証し、マルチモーダル推論の発展におけるその可能性を強調する。
人間フィードバックによる強化学習(RLHF)は大規模言語モデルのアライメント手法として広く用いられているが、実践者には解決困難な課題が残されている。安全性の向上が公平性の低下を招き、多様な集団へのスケーリングが計算量的に困難となり、システムの頑健性を高めると多数派バイアスが増幅されるというジレンマである。本研究はこの緊張関係を**アライメントの三項対立(Alignment Trilemma)**として定式化する。すなわち、いかなるRLHFシステムも、(i)多様な人間の価値観に対するε-代表性、(ii)サンプル数と計算量に関する多項式時間での処理可能性、(iii)敵対的摂動や分布シフトに対するδ-頑健性、の三条件を同時に達成することは不可能である。統計的学習理論とロバスト最適化を統合した計算量理論的分析により、地球規模の人口を対象に代表性(ε ≤ 0.01)と頑健性(δ ≤ 0.001)を両立させるには、文脈次元に対して超多項式時間となるΩ(2^{d_context})回の演算が必要であることを証明する。現行のRLHF実装は代表性を犠牲にこの対立を解決していることを示す。均質な注釈者プールから10^3~10^4件のサンプルを収集する現行手法に対し、真の地球規模代表性には10^7~10^8件のサンプルが必要である。本フレームワークは、選好崩壊(preference collapse)、ご機嫌取り(sycophancy)、系統的バイアス増幅といったRLHFの病理現象を統一的に説明する。最後に、アライメント要件の戦略的緩和を通じてこれらの根本的トレードオフを調整する具体的な方向性を提示する。
都市スケールの3D生成は、エンボディードAIとワールドモデルの発展において極めて重要である。しかし既存手法は、3Dワールド生成における品質、忠実度、拡張性に関して重大な課題に直面している。そこで我々は、詳細な都市スケールの3Dワールドを生成する、現実世界に整合した知的合成エンジン「RAISECity」を提案する。多様なマルチモーダル基盤ツールを活用して実世界の知識を獲得し、堅牢な中間表現を維持し、複雑な3Dシーンを構築するエージェント型フレームワークを導入する。動的データ処理、反復的な自己反省と精緻化、高度なマルチモーダルツールの呼び出しを特徴とするこのエージェント設計は、累積誤差を最小化し、全体的な性能を向上させる。大規模な定量的実験と定性的分析により、RAISECityが実世界との整合性、形状精度、テクスチャの忠実度、美的品質において優れた性能を発揮し、全体的な知覚品質で既存ベースラインに対して90%以上の勝率を達成することを実証した。3D品質、現実整合性、拡張性、コンピュータグラフィックスパイプラインとのシームレスな互換性を兼ね備えたRAISECityは、没入型メディア、エンボディードAI、ワールドモデルへの応用における有望な基盤技術となる。
信頼性の高い残存耐用年数(RUL)予測は、ヘルスインジケータ(HI)の質に大きく依存する。しかし、既存手法では、マルチセンサーシステムにおける複雑な劣化メカニズムの分離や、HIの信頼性に関する不確実性の定量化が不十分な場合が多い。本論文は、HI構築のための新たなフレームワークを提案し、以下の3つの主要な貢献をもたらす。第一に、再構成誤差に基づく健康指標(HI)としてReconstruction along Projected Pathways(RaPP)を初めてRUL予測に適用し、従来の再構成誤差指標を凌駕する性能を示す。第二に、モンテカルロドロップアウトと確率的潜在空間によるアレタリックおよびエピステミック不確実性定量化(UQ)をRaPP由来のHIに組み込むことで、RUL予測のロバスト性が大幅に向上することを実証する。第三に、最も重要な貢献として、センサーサブセットを分離してシステム固有の劣化をモデル化する新パラダイムである「インジケータグループ」を提案し、解釈可能なメカニズム固有の診断を可能にする新手法I-GLIDEを開発する。航空宇宙および製造システムのデータを用いた評価により、本手法は最新のHI手法と比較して精度と一般性において顕著な改善を達成するとともに、システムの故障経路に関する実践的な知見を提供する。本研究は、異常検知と予兆診断の間の隔たりを埋め、複雑系システムにおける不確実性を考慮した劣化モデリングの確立されたフレームワークを提示する。
3Dガウススプラッティング(3DGS)は多くの設定で優れた性能を発揮するものの、少数の観測データに過適合してしまうため、数ショットシナリオにおける新規視点への一般化が不十分である。本研究では、機械学習の観点から3DGSの最適化を再検討し、新規視点合成を未観測視点への一般化問題として捉える——これまで十分に探索されていない方向性である。我々は、3DGSの訓練目的を再定式化する周波数適応型シャープネス正則化(FASR)を提案し、3DGSがより優れた一般化解へ収束するよう導く。シャープネス認識最小化(SAM)も同様に損失ランドスケープのシャープネスを低減して分類モデルの一般化を改善するが、タスク間の差異から3DGSに直接適用するのは最適ではない。具体的には、過度な正則化によって高周波詳細の再構成が阻害され、正則化強度を弱めるとシャープネスの抑制が不十分となる。この問題に対処するため、局所的なシャープネス推定において、画像の局所周波数を反映して正則化重みと近傍半径を設定する。これにより、新規視点における浮遊物アーティファクトを防止し、SAMが過剰に平滑化しがちな微細な詳細を再構成する。様々な設定のデータセットにおいて、本手法は広範なベースラインを一貫して改善する。コードはhttps://bbangsik13.github.io/FASR で公開予定である。