翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は流暢で複雑な出力を生成するが、自身の誤りや虚構(ハルシネーション)を認識できないことが多い。既存のアプローチは通常、外部評価器、複数サンプルによる一貫性検証、またはテキストベースの自己批判に依存しており、追加の計算コストが発生するか、真の正答性との相関が弱い。我々は問う:LLMは推論中の内部状態を監視することで、自身の失敗を予測できるか?本論文では、凍結されたLLMが隠れ状態と注意パターンからの信号をデコードすることで内省的な自己検証を行う、軽量な自己認識機構「Gnosis」を提案する。Gnosisは内部トレースを受動的に観測し、固定予算の記述子に圧縮し、ごくわずかな推論コストで正答性を予測する。追加パラメータは約500万に抑えられ、系列長に依存せず動作する。数学推論、オープンドメイン質問応答、学術知識ベンチマークにおいて、1.7Bから20Bパラメータの凍結バックボーンを用いた実験では、Gnosisは強力な内部ベースラインや大規模外部評価器を精度と較正の両面で一貫して上回った。さらに、部分生成に対してもゼロショットで一般化し、失敗軌道の早期検出と計算量を考慮した制御を可能にする。これらの結果は、信頼性の高い正答性の手がかりが生成プロセスに内在し、外部監督なしで効率的に抽出可能であることを示唆する。
我々はNextFlowを提案する。これは6兆のインターレース化されたテキスト-画像離散トークンで学習された統一デコーダのみの自己回帰トランスフォーマーである。統一された自己回帰アーキテクチャ内で統一視覚表現を活用することにより、NextFlowはマルチモーダル理解と生成能力をネイティブに活性化し、画像編集、インターレースコンテンツ、動画生成の機能を解放する。テキストが厳密に順次的であるのに対し画像が本質的に階層的であるというモダリティの特性に動機づけられ、我々はテキストには次トークン予測を維持しつつ、視覚生成には次スケール予測を採用する。これは従来のラスタスキャン手法から離脱し、1024x1024画像をわずか5秒で生成することを可能にする - 同等のARモデルよりも桁違いに高速である。マルチスケール生成の不安定性に対しては、堅牢な学習レシピを通じて対処する。さらに、強化学習のためのプレフィックスチューニング戦略を導入する。実験により、NextFlowが統一モデルの中で最先端の性能を達成し、視覚品質において専門的な拡散ベースラインと互角であることを実証する。
本技術報告では、LG AI Researchによって開発された大規模多言語言語モデル「K-EXAONE」を紹介する。K-EXAONEは、合計2360億パラメータを有するMixture-of-Expertsアーキテクチャを基盤としており、推論時には230億パラメータが活性化される。256Kトークンのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語の6言語をカバーする。我々はK-EXAONEを、推論、エージェント能力、一般能力、韓国語能力、多言語能力にわたる総合的なベンチマークスイートで評価した。これらの評価を通じて、K-EXAONEは同規模のオープンウェイトモデルに匹敵する性能を発揮することが確認された。より良い生活のためのAI推進を目指して設計されたK-EXAONEは、幅広い産業・研究応用に向けた強力な独自AI基盤モデルとして位置付けられている。
ビデオ顔交換(VFS)は、ソースアイデンティティをターゲットビデオにシームレスに注入しながら、元のポーズ、表情、照明、背景、動的情報を細心の注意を払って保持することを必要とします。既存の手法では、時間的一貫性を維持しつつ、アイデンティティの類似性と属性の保存を両立させることに苦戦しています。この課題に対処するため、我々は画像顔交換(IFS)の優位性をビデオ領域にシームレスに転送する包括的フレームワークを提案します。まず、Identity-Anchored Video Synthesizerを事前学習し、IFSモデルと組み合わせることで、明示的監督のための双方向ID四つ組を構築する新しいデータパイプラインSyncID-Pipeを導入します。ペアデータに基づいて、コアとなるModality-Aware Conditioningモジュールを採用し、複数モデルの条件を識別的に注入する、初のDiffusion TransformerベースのフレームワークDreamID-Vを提案します。同時に、合成的データから実データへの段階的学習メカニズムと、アイデンティティ一貫性強化学習戦略を提案し、困難なシナリオ下での視覚的真实性とアイデンティティ一貫性を強化します。限られたベンチマークの問題に対処するため、多様なシーンを網羅する包括的ベンチマークIDBench-Vを導入します。大規模な実験により、DreamID-Vが最先端手法を凌駕し、さらに優れた汎用性を示し、様々な交換関連タスクにシームレスに適応できることを実証します。
視覚生成は現在、主に3つのパラダイムによって支配されている:自己回帰(AR)モデル、拡散モデル、そして視覚的自己回帰(VAR)モデルである。ARや拡散モデルとは異なり、VARモデルは生成ステップ間で異種の入力構造を扱うため、深刻な非同期方策衝突が生じる。この問題は強化学習(RL)のシナリオにおいて特に顕著になり、不安定な訓練と最適ではないアライメントを引き起こす。これを解決するため、我々はこれらの衝突を明示的に管理することでGroup Relative Policy Optimization(GRPO)を強化する新しいフレームワークを提案する。本手法は3つの相乗的コンポーネントを統合する:1)初期段階の生成を導く安定化中間報酬、2)正確な信用割り当てのための動的時間ステップ再重み付けスキーム、そして3)Reward Feedback Learning(ReFL)の原理に基づく新しいマスク伝播アルゴリズムである。このアルゴリズムは、空間的および時間的に最適化効果を分離するように設計されている。我々のアプローチは、基本のGRPOベースラインと比較して、サンプル品質と目的へのアライメントにおいて大幅な改善を示し、VARモデルのための堅牢かつ効果的な最適化を実現する。
拡散モデルのオンライン強化学習(RL)によるファインチューニングは、テキストと画像の整合性を高める上で大きな可能性を示している。しかし、視覚タスクにおける真の目的を厳密に特定することが依然として困難なため、モデルは真の目標を部分的にしか反映しない代理報酬を用いて最適化されることが多い。この不一致は、代理スコアが上昇する一方で実際の画像品質が劣化し、生成多様性が崩壊する「報酬ハッキング」を引き起こしやすい。一般的な解決策は、参照ポリシーに対する正則化を追加して報酬ハッキングを防ぐものだが、参照ポリシーは通常最適ではないため、サンプル効率が損なわれ、新たな高報酬領域の探索が阻害される。サンプル効率、効果的な探索、報酬ハッキングの緩和という競合する要求を同時に満たすため、我々は多様RLアルゴリズムと互換性のある汎用フレームワーク「Gated and Adaptive Regularization with Diversity-aware Optimization(GARDO)」を提案する。重要な洞察は、正則化を一律に適用する必要はなく、不確実性の高いサンプルの一部を選択的にペナルティ化することが極めて有効であるという点である。探索課題に対処するため、GARDOは参照モデルをオンラインポリシーの能力に合わせて定期的に更新する適応的正則化機構を導入し、関連性の高い正則化ターゲットを確保する。RLにおけるモード崩壊問題に対処するため、GARDOは高品質かつ多様性の高いサンプルへの報酬を増幅し、最適化プロセスを不安定にすることなくモードカバレッジを促進する。多様な代理報酬と未見メトリクスを用いた大規模実験により、GARDOがサンプル効率や探索を犠牲にすることなく報酬ハッキングを緩和し、生成多様性を向上させることを一貫して実証し、その有効性と頑健性を明らかにした。
我々は、単一フレームワーク内で画像・動画生成と編集を実行する統合ビジュアルジェネレータ「VINO」を提案する。タスク固有のモデルや各モダリティの独立モジュールに依存する代わりに、VINOはテキスト・画像・動画を条件付けする共有拡散バックボーンを採用し、一つのモデルで幅広い視覚的創作・編集タスクを実現する。具体的には、VINOは視覚言語モデル(VLM)とマルチモーダル拡散トランスフォーマー(MMDiT)を結合し、マルチモーダル入力をインターリーブされた条件トークンとして符号化し、拡散プロセスを誘導する。この設計により、モダリティ固有の構造コンポーネントを排除しつつ、マルチ参照接地、長文指示の追従、静的・動的コンテンツ間の一貫性ある同一性保持を実現する。この統合システムを訓練するため、動画生成ベースモデルを段階的に拡張し、画像と動画の両方の入出力に対応可能な統合マルチタスクジェネレータへ発展させる多段階訓練パイプラインを導入した。多様な生成・編集ベンチマークにおいて、VINOは強力な視覚的品質、忠実な指示追従、参照・属性保持の改善、制御性の高いマルチアイデンティティ編集を実証する。本成果は、スケーラブルな統合視覚生成への実用的な道筋と、汎用視覚創作の基盤としてのインターリーブ型文脈内計算の可能性を示すものである。
永続的かつ大規模な3D視覚的ジオメトリ理解という壮大なビジョンは、スケーラビリティと長期的安定性の相反する要求によって阻まれてきた。VGGTのようなオフラインモデルは印象的なジオメトリ能力を達成するが、バッチ処理ベースの性質によりライブシステムには不向きである。ストリーミングアーキテクチャはライブ動作のための意図された解決策であるものの、不十分であることが証明されている。既存手法は、真に無限の時間軸入力に対応できないか、長いシーケンスで壊滅的なドリフトに悩まされている。我々はこの長年のジレンマをInfiniteVGGTによって打破する。これは因果的視覚ジオメリトランスフォーマーであり、境界付けられながらも適応的で永続的に表現力豊かなKVキャッシュを通じてローリングメモリの概念を実現する。これを活用し、訓練不要でアテンション機構に依存しない剪定戦略を考案し、時代遅れの情報を知的に破棄することで、各新フレームごとにメモリを効果的に「前進」させる。FlashAttentionと完全互換であるInfiniteVGGTは、最終的に妥協を解消し、無限時間軸ストリーミングを可能にしながら、長期的安定性において既存のストリーミング手法を上回る。 このようなシステムに対する究極のテストは、真に無限の時間軸にわたる性能である。これまで、極めて長期的かつ連続的なベンチマークの欠如により、この能力を厳密に検証することは不可能であった。この重大な隔たりに対処するため、我々はLong3Dベンチマークを初めて導入する。これは約10,000フレームに及ぶシーケンスにおける連続的3Dジオメトリ推定の厳密な評価を可能にする。これにより、長期的3Dジオメトリ理解の将来研究における決定的な評価基盤を提供する。 コードは以下で利用可能:https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
我々は、大規模言語モデル(LLM)が推論時のスケーリングを通じて任意に長いプロンプトを処理できるようにする手法を研究する。本論文では、長いプロンプトを外部環境の一部として扱い、LLMがプログラム的にプロンプトの断片を検査・分解し、自己を再帰的に呼び出すことを可能にする一般推論戦略「Recursive Language Models(RLM)」を提案する。RLMは、モデルのコンテキストウィンドウを最大2桁上回る長さの入力に成功に対応し、より短いプロンプトであっても、4種類の多様な長文タスクにおいて、ベースLLMや一般的な長文コンテキスト支援手法の品質を大幅に上回る性能を示す一方、クエリあたりのコストは同等(あるいは低コスト)であることを確認した。
本論文では、7Bパラメータの推論最適化モデルFalcon-H1Rを提案し、小型言語モデル(SLM)でも競争力のある推論性能を実現できる可能性を示す。Falcon-H1Rはパラメータ効率に優れ、様々な推論集中ベンチマークにおいて、2倍から7倍大きい最先端推論モデルに匹敵または凌駕する性能を一貫して発揮する。これらの結果は、モデルサイズを増大させずに大幅な性能向上をもたらすためには、慎重なデータ選別と標的型トレーニング戦略(効率的なSFTとRLスケーリングの両方による)が重要であることを裏付けている。さらにFalcon-H1Rは、ハイブリッド並列アーキテクチャ設計による高速推論、トークン効率、高精度を組み合わせることで、推論効率の3次元的限界を推進する。この独自の融合により、Falcon-H1R-7Bは大規模な連鎖思考生成と並列テスト時スケーリングを要するシナリオにおいて、先進的な推論システムをスケールする実用的な基盤モデルとなっている。最近導入されたDeepConfアプローチを活用することで、Falcon-H1Rは最先端のテスト時スケーリング効率を達成し、精度と計算コストの両面で大幅な改善を実現している。こうした成果により、Falcon-H1Rは標的型モデルトレーニングとアーキテクチャ選択を通じて、コンパクトモデルが堅牢かつスケーラブルな推論性能を提供できることを実証している。
本論文では、シーン内オブジェクトのテキスト指示に基づく空間変換を実現する強化学習(RL)ベースの拡散フレームワーク「Talk2Move」を提案する。自然言語によるシーン内オブジェクトの空間操作は、マルチモーダル生成システムにおける課題である。既存のテキストベース編集手法は外観やスタイルの調整が可能だが、対となる教師データの不足やピクセルレベルの最適化の限界から、オブジェクトの平行移動・回転・拡大縮小といった幾何学的変換には対応が困難であった。Talk2MoveはGroup Relative Policy Optimization(GRPO)を採用し、入力画像と軽量なテキスト変異から生成される多様なロールアウトを通じて幾何学的動作を探索するため、高コストな対データが不要である。空間報酬誘導モデルが幾何学的変換と言語記述を整合させ、オフポリシー段階評価と能動的段階サンプリングにより、情報量の多い変換段階に焦点を当てることで学習効率を向上させる。さらに、変位・回転・スケーリングを直接評価するオブジェクト中心の空間報酬を設計し、解釈可能で一貫性のある変換を実現する。厳選されたベンチマークによる実験では、Talk2Moveが既存のテキスト誘導編集手法を空間精度とシーン一貫性の両面で凌駕し、精密で一貫性があり、意味的に忠実なオブジェクト変換を達成することを実証した。
大規模言語モデル(LLM)における幻覚を軽減する有望な方向性として信頼度推定が注目されているが、現在の研究は主に単一ターンの設定に焦点を当てている。文脈が蓄積され曖昧さが段階的に解消される対話型設定において、モデルの信頼度がどのように変動するかは、ほとんど解明されていない。マルチターン設定での信頼性の高い信頼度推定は、自律エージェントやヒューマンインザループシステムなどの多くの下流アプリケーションにとって極めて重要である。本研究は、マルチターン対話における信頼度推定に関する初の体系的な研究を提示し、以下の二つの重要な要請に基づく形式的な評価枠組みを確立する:ターンごとの較正、および情報量の増加に伴う信頼度の単調性。これを促進するため、長さ正規化期待較正誤差(InfoECE)などの新規指標と、制御された評価データセットを生成するための新たな「ヒンター・ゲッサー」パラダイムを導入する。実験結果から、広く用いられている信頼度技術の多くが、マルチターン対話において較正と単調性の面で課題を抱えることが明らかになった。我々は、ロジットベースのプローブであるP(Sufficient)を提案し、課題は未解決ながらも比較的良好な性能を達成する。本研究は、より信頼性の高い対話エージェントを開発するための基礎的方法論を提供するものである。
大規模言語モデル(LLM)は強力な埋め込み基盤であるが、訓練を必要としない設定での応用には、二つの構造的課題が存在する:因果的注意機構により初期トークンが後続の文脈にアクセスできなくなること、および次のトークン予測という目的が表現を生成方向へ偏らせ、意味的圧縮を妨げることである。これらの制約を解決するため、我々は凍結されたLLMの潜在的な表現力を活性化するフレームワーク「KV-埋め込み」を提案する。本手法は、各層における最終トークンのキー・バリュー(KV)状態が系列の圧縮された視点を符号化するという観察に基づく。これらの状態を接頭辞として再ルーティングすることにより、単一の順伝播で全てのトークンが系列レベルの文脈にアクセス可能となる。モデルに依存しない適用性を確保するため、内在的次元に基づく自動的な層選択戦略を導入する。Qwen、Mistral、Llamaを基盤としたMTEBによる評価では、KV-埋め込みが既存の訓練不要ベースラインを最大10%上回り、かつ4,096トークンまでの系列において堅牢な性能を維持することを示した。これらの結果は、内部状態の操作が入力変更に代わる効率的な代替手段となり得ることを示唆しており、本研究成果が表現学習のためのLLM内部構造のさらなる探求を促進することを期待する。
本論文では、視覚言語モデル(VLM)のファインチューニング手法であるContrastive Perception Policy Optimization(CPPO)を提案する。強化学習(RL)は言語モデルの推論能力を進展させてきたが、マルチモーダル推論に拡張するには、知覚と推論の両側面を改善する必要がある。従来研究は主に明示的な知覚報酬でこの課題に取り組んできたが、知覚トークンと推論トークンを分離することは困難であり、追加のLLMや正解データの必要性、政策モデルによる知覚と推論の強制的分離、あるいは全出力トークンへの報酬一律適用などの課題があった。CPPOは、摂動を加えた入力画像に対するモデル出力のエントロピー変化を検出することで知覚トークンを特定し、この問題に対処する。さらに、RLの目的関数をContrastive Perception Loss(CPL)で拡張し、情報保存的摂動下では一貫性を、情報削除的摂動下では感応性を強化する。実験により、CPPOが追加モデルを必要とせず、訓練の効率性と拡張性を維持しつつ、従来の知覚報酬手法を凌駕することを示す。
多視点画像からの人体メッシュ復元は、根本的な課題に直面している。現実世界のデータセットにはモデルの学習にバイアスをかける不完全な教師データが含まれる一方、精密な教師信号を持つ合成データはドメインギャップに悩まされる。本論文では、メッシュ復元のための多視点整合性を持つ人体プロキシを生成する新規フレームワーク「DiffProxy」を提案する。DiffProxyの中核は、拡散モデルに基づく生成的プリオールを活用し、合成データによる学習と実世界への一般化を橋渡しすることにある。主な革新点は以下の通りである:(1)多視点整合性がありピクセル対応した人体プロキシを生成する多条件制御メカニズム、(2)柔軟な視覚的プロンプトを組み込み局所的な詳細を強化する手部精細化モジュール、(3)最適化過程中の困難なケースに対するロバスト性を高める不確実性を考慮したテスト時スケーリング手法。これらの設計により、メッシュ復元プロセスは精密な合成教師データと拡散ベースパイプラインの生成的利点を効果的に活用できる。合成データのみで学習したDiffProxyは、5つの実世界ベンチマークでState-of-the-Artの性能を達成し、特に遮蔽や部分的可視性といった困難なシナリオにおいて強力なゼロショット一般化能力を示した。プロジェクトページ: https://wrk226.github.io/DiffProxy.html
大規模言語モデルが医療から金融に至るまで、企業の重要なアプリケーションに導入される中、組織固有のポリシーへの準拠を確保することが不可欠となっている。しかし、既存の安全性評価は普遍的な危害の防止にのみ焦点を当てている。本論文では、COMPASS(Company/Organization Policy Alignment Assessment)を提案する。これは、LLMが組織の許可リストおよび拒否リストポリシーを遵守するかどうかを評価する初の体系的フレームワークである。COMPASSを8つの多様な産業シナリオに適用し、戦略的に設計されたエッジケースを通じて、日常的な準拠と敵対的ロバスト性の両方をテストする5,920のクエリを生成・検証した。7つの最先端モデルを評価した結果、根本的な非対称性が明らかになった:モデルは正当なリクエストを確実に処理する(精度>95%)が、禁止事項の執行では壊滅的に失敗し、敵対的な拒否リスト違反をわずか13〜40%しか拒否しない。これらの結果は、現在のLLMがポリシー重視の導入に必要なロバスト性を欠いていることを示しており、COMPASSが組織的AI安全性のための必須の評価フレームワークであることを確立する。
半教師ありリモートセンシング(RS)画像セマンティックセグメンテーションは、煩雑なアノテーション作業の負担を軽減する有望な解決策を提供するが、擬似ラベルのドリフトという根本的な問題に直面している。これは、訓練過程中に確認バイアスによって誤差が蓄積される現象である。本研究では、視覚言語モデルと自己教師ありモデルからの事前知識を協調的に融合させる、安定した半教師ありRSセグメンテーション枠組みであるCo2Sを提案する。具体的には、事前学習済みのCLIPとDINOv3で初期化された2つの異なるViTベースの視覚基盤モデルから構成される異種デュアルステューデントアーキテクチャを構築し、誤差蓄積と擬似ラベルドリフトを緩和する。これらの異なる事前知識を効果的に組み込むため、テキスト埋め込みと学習可能なクエリをそれぞれ明示的および暗黙的なクラスレベル指導として利用する明示的-暗黙的セマンティック共誘導機構を導入し、セマンティック一貫性の共同強化を実現する。さらに、CLIPが捕捉する大域的な文脈情報とDINOv3が生成する局所的な詳細情報を効果的に融合させる大域-局所特徴協調融合戦略を開発し、高精度なセグメンテーション結果の生成を可能にする。6つの人気データセットを用いた大規模な実験により、本手法の優位性が実証され、様々な分割プロトコルと多様なシナリオにおいて一貫して最先端の性能を達成する。プロジェクトページはhttps://xavierjiezou.github.io/Co2S/で公開されている。
本論文では、ソフトウェア工学(SWE)における課題解決でState-of-the-Art(SOTA)性能を達成するために設計された教師ありファインチューニング(SFT)手法「SWE-Lego」を提案する。複雑な訓練パラダイム(例:中間訓練、SFT、強化学習、およびそれらの組み合わせ)に依存する既存手法とは対照的に、我々はSWEタスクにおいて軽量なSFTのみのアプローチの限界をどこまで押し上げられるかを探求する。SWE-Legoは以下の3つの核心的構成要素からなり、主な知見は次のように要約される:1) **SWE-Legoデータセット**:32,000の高品質タスクインスタンスと18,000の検証済み軌跡から成るデータセット。実データと合成データを組み合わせ、質と量の両面で互いに補完する。2) **改良されたSFT手順**:エラーマスキングと難易度に基づくカリキュラム学習を導入したSFT手順。これにより、アクションの質と全体的な性能が顕著に向上することを実証する。実証実験の結果、これら2つの構成要素のみで、SWE-Legoモデルは同等規模のオープンソースモデルの中でSWE-bench VerifiedにおいてSOTA性能を達成した(SWE-Lego-Qwen3-8Bは42.2%、SWE-Lego-Qwen3-32Bは52.6%を達成)。3) **テスト時スケーリング(TTS)の評価と改善**:SFTの基盤の上に構築されたTTSをさらに評価・改善する。十分に訓練された検証器に基づくことで、SWE-Legoモデルは大幅に性能向上する(例:8Bモデルで42.2%→49.6%、32Bモデルで52.6%→58.8%、いずれもTTS@16条件下)。
査読における新規性評価は重要であるが、課題も多い。審査者は限界なく拡大し急速に進化する学術文献と照合しつつ投稿論文を評価する必要がある。本報告では、透明性のある証拠に基づく新規性分析のためのLLM駆動エージェントシステム「OpenNovelty」を提案する。本システムは4段階で動作する:(1)中核的タスクと貢献主張を抽出し検索クエリを生成、(2)セマンティック検索エンジンによる抽出クエリに基づく関連先行研究の検索、(3)中核的タスク関連研究の階層的分類体系の構築と各貢献主張に対する全文比較の実施、(4)明示的な引用と証拠スニペットを伴う構造化新規性報告書への統合。単純なLLMベース手法と異なり、OpenNoveltyは全ての評価を検索された実在論文に基づき検証可能な判断を保証する。500件以上のICLR 2026投稿論文に本システムを適用し、全報告書を当ウェブサイトで公開している。予備分析では、著者が見落としがちな密接関連論文を含む関連先行研究を特定可能であることが示唆された。OpenNoveltyは、公平で一貫性があり証拠に基づく査読を促進するスケーラブルなツールとして研究コミュニティへの貢献を目指す。
本論文では、物質の階層的構造と音楽の作曲論理を結び付ける生成的枠組みとして「マテリオミュージック」を提案する。タンパク質、クモの巣、火炎ダイナミクスにわたって、振動的・建築的原理が音階の階層性、和声進行、長大な音楽形式として反復的に現れる。分子スペクトルから楽音へ、3次元ネットワークから演奏可能な楽器へという可逆的マッピングを通じて、音響が科学的探査手段として機能することを示す。これは認識論的転倒であり、聴取が視覚的モードとなり、音楽作曲が物質設計の青写真となる。これらのマッピングは深遠な時間を掘り起こす——フェムト秒単位の分子振動や数十億年にわたる進化史に起源を持つパターンが可聴化される。科学と芸術における革新性は、既存の自由度内では制約条件が満たせず、許容配置の空間拡張を強要される際に生じると我々は仮定する。選択的不完全性が、一貫性と適応性の均衡を回復するメカニズムを提供する。2^12通りの音楽音階を網羅的に列挙した定量分析により、文化的に意義深い音楽体系が中エントロピー・中欠陥領域に集中することを明らかにする。これは中間欠陥密度が材料強度を最大化するホール・ペッチ最適値と直接並行する現象である。これらのマッピングを反復適用することで、人間の創造性と物理学の生産的衝突が生じ、音楽構造が進化的制約と遭遇することで新たな情報が生成される。群知能AIモデルが作曲する音楽には、スモールワールド結合性、モジュラー統合、長距離一貫性といった人間的な構造特性が表れ、補間を超えた発明への道筋を示唆する。科学と芸術は、制約下における世界構築の生成的営為であり、振動はスケールを超えて構造を組織化する共有文法なのである。
マルチアノテーター医療画像セグメンテーションは重要な研究課題であるが、収集にコストがかかる注釈付きデータセットを必要とする。ダーモスコピック皮膚病変画像は、通常の臨床写真では識別できない形態学的構造を人間の専門家やAIシステムが観察することを可能にする。しかし、現在、アノテーターラベル付きの大規模な公開マルチアノテーター皮膚病変セグメンテーション(SLS)データセットは存在しない。本研究では、ISICアーカイブの画像を用いた大規模な公開マルチアノテーター皮膚病変セグメンテーションデータセットであるISIC MultiAnnot++を紹介する。最終データセットは14,967枚のダーモスコピック画像にまたがる17,684のセグメンテーションマスクを含み、うち2,394枚の画像には1画像あたり2~5個のセグメンテーションが付与されており、公開されているSLSデータセットとしては最大規模である。さらに、アノテーターの技能レベルや使用ツールなどのセグメンテーションに関するメタデータを含むため、セグメンテーションにおけるアノテーター固有の選好モデリングやメタデータ分析などの研究を可能にする。本データセットの特性分析、精選されたデータ分割、および合意セグメンテーションマスクについても提供する。
Geo-Foundation Models(GFM)は、セマンティックセグメンテーション、分類、回帰タスクなど、多様なダウンストリームアプリケーションにおいて有効性が実証されている。しかし、下流タスクとしてSen1Flood11データセットを用いた洪水マッピングの場合、GFMはベースラインのU-Netを凌駕することができず、重要な局所的なニュアンスを捉えるモデルの限界が浮き彫りとなった。この問題に対処するため、我々はPrithvi-Complementary Adaptive Fusion Encoder(CAFE)を提案する。これは、Prithvi GFMの事前学習済みエンコーダと、Convolutional Attention Modules(CAM)によって強化された並列CNN残差ブランチを統合するものである。Prithvi-CAFEは、Prithvi内のアダプターによる高速かつ効率的なファインチューニングを可能にし、CNN特徴量とのマルチスケール・マルチレベル融合を実行することで、長距離依存関係を保持しつつ重要な局所詳細を捉える。我々は、2つの包括的な洪水マッピングデータセット(Sen1Flood11とFloodPlanet)において、State-of-the-artの結果を達成した。Sen1Flood11テストデータでは、Prithvi-CAFE(IoU 83.41)は、元のPrithvi(IoU 82.50)や他の主要なGFM(TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02)を上回った。この改善は、ホールドアウトテストサイトにおいてさらに顕著で、Prithvi-CAFEはIoU 81.37を達成したのに対し、ベースラインU-Netは70.57、元のPrithviは72.42であった。FloodPlanetにおいても、Prithvi-CAFEはベースラインU-Netや他のGFMを凌駕し、U-Net(60.14)、Terramind(62.33)、DOFA(59.15)、Prithvi 2.0(61.91)に対してIoU 64.70を達成した。我々が提案するこのシンプルかつ効果的なPrithvi-CAFEは、マルチチャネルおよびマルチモーダルデータが相補的な情報を提供し、局所詳細が極めて重要となるセグメンテーションタスクの改善における強力な可能性を示している。コードはhttps://github.com/Sk-2103/Prithvi-CAFEで公開されている。
大規模言語モデル(LLM)エージェントが高リスクな自律的意思決定を担う機会が増えるにつれ、その推論プロセスの透明性は重大な安全性課題となっている。思考連鎖(Chain-of-Thought: CoT)プロンプティングによりエージェントが人間可読な推論痕跡を生成できる一方、これらの痕跡がモデル出力の真の生成要因なのか、単なる事後的合理化なのかは不明瞭である。本研究では、構造的因果モデル(SCM)と反事実論理を用いてエージェント推論の因果的一貫性を検証する新規XAIフレームワーク「プロジェクト・アリアドネ」を提案する。表面的なテキスト類似性に依存する既存の解釈可能性手法とは異なり、本フレームワークは中間推論ノードに対し厳密な介入(do-計算)を実施——論理の体系的逆転、前提の否定、事実主張の反転——することで最終回答の因果的感受性(φ)を測定する。先端モデルを用いた実証評価により、一貫した忠実性ギャップ(Faithfulness Gap)が明らかとなった。我々は「因果的デカップリング」と命名した広範な故障モードを定義・検出し、エージェントが事実及び科学領域で最大0.77の違反密度(ρ)を示すことを確認した。この現象では、エージェントは矛盾する内部論理にも関わらず同一の結論に到達し、推論痕跡が「推理の茶番(Reasoning Theater)」として機能する一方、意思決定は潜在的なパラメトリック事前分布に支配されていることを証明する。知見は、現行のエージェント構造が本質的に不忠実な説明を生じやすいことを示唆しており、表明された論理とモデル行動の整合性を測る新たなベンチマークとしてアリアドネスコアを提案する。
テキストから画像への拡散モデルは、有害または著作権で保護されたコンテンツを生成する可能性があり、概念消去に関する研究の動機となっている。しかし、既存のアプローチは主にテキストプロンプトからの概念消去に焦点を当てており、画像編集やパーソナライズ生成といった実世界アプリケーションで重要性を増している他の入力モダリティを見過ごしている。これらのモダリティは攻撃対象となり得、防御策があるにもかかわらず消去された概念が再出現する可能性がある。このギャップを埋めるため、我々はM-ErasureBenchを提案する。これは、テキストプロンプト、学習済み埋め込み、反転潜在表現という3つの入力モダリティにわたって概念消去手法を体系的に評価する新しいマルチモーダル評価フレームワークである。後者2つについては、ホワイトボックスアクセスとブラックボックスアクセスの両方を評価し、5つの評価シナリオを構築した。分析の結果、既存手法はテキストプロンプトに対する消去性能は高いが、学習済み埋め込みと反転潜在表現に対してはほぼ失敗し、ホワイトボックス設定では概念再現率(CRR)が90%を超えることが明らかになった。これらの脆弱性に対処するため、我々はIRECE(推論時頑健性強化型概念消去)を提案する。これは、クロスアテンションを通じて対象概念を局在化し、デノイジング過程で関連する潜在表現を摂動させるプラグアンドプレイモジュールである。実験により、IRECEが頑健性を一貫して回復させ、最も困難なホワイトボックス潜在反転シナリオにおいてCRRを最大40%低減しつつ、視覚的品質を維持することが実証された。我々の知る限り、M-ErasureBenchはテキストプロンプトを超えた概念消去の初の包括的ベンチマークを提供する。IRECEとともに、本ベンチマークはより信頼性の高い保護的生成モデル構築のための実用的な保護策を提供する。