翻訳付きの日次キュレーションされたAI研究論文
我々はSTEP3-VL-10Bを発表します。これは、コンパクトな効率性と最先端のマルチモーダル知能のトレードオフを再定義するために設計された軽量オープンソース基盤モデルです。STEP3-VL-10Bは、2つの戦略的転換によって実現されました。第一に、1.2Tのマルチモーダルトークンに対する統一された完全凍結解除の事前学習戦略により、言語整合型知覚エンコーダをQwen3-8Bデコーダと統合し、本質的な視覚言語連携を確立します。第二に、1,000回以上の強化学習反復を特徴とするスケーリングされた事後学習パイプラインを採用しています。特に重要なのは、テスト時の計算リソースをスケーリングするために並列協調推論(PaCoRe)を実装し、多様な視覚的仮説を探索・統合するスケーラブルな知覚推論にリソースを割り当てている点です。その結果、コンパクトな10Bパラメータ規模にもかかわらず、STEP3-VL-10Bは10~20倍大規模なモデル(GLM-4.6V-106B、Qwen3-VL-235Bなど)や、Gemini 2.5 ProやSeed-1.5-VLといった最高峰のプロプライエタリモデルに匹敵あるいは凌駕する性能を発揮します。MMBenchでは92.2%、MMMUでは80.11%という最高水準の性能を記録し、複雑な推論タスクではAIME2025で94.43%、MathVisionで75.95%という優れた成績を収めています。我々は完全なモデルスイートを公開し、強力で効率的、かつ再現性の高いベースラインをコミュニティに提供します。
人間活動の中心地として、都市の地表には豊富な意味的実体が存在する。衛星画像からこれらの多様な実体をセグメンテーションすることは、様々な下流アプリケーションにとって極めて重要である。現在の先進的なセグメンテーションモデルは、物理的属性で定義される実体(建物、水域など)を確実に分割できるが、社会的に定義されるカテゴリ(学校、公園など)には依然として苦戦している。本研究では、視覚言語モデルによる推論を用いて社会・意味的セグメンテーションを実現する。これを促進するため、階層構造で組織化された社会意味的実体の衛星画像、デジタルマップ、ピクセルレベルのラベルを含む新しいリソースであるUrban Socio-Semantic Segmentationデータセット(SocioSeg)を導入する。さらに、クロスモーダル認識と多段階推論を通じて、社会意味的実体を識別・注釈する人間のプロセスを模倣する新しい視覚言語推論フレームワークSocioReasonerを提案する。この微分不可能なプロセスを最適化し、視覚言語モデルの推論能力を引き出すために強化学習を採用する。実験により、本手法が最先端モデルを上回る性能と強力なゼロショット一般化能力を発揮することを実証する。データセットとコードはhttps://github.com/AMAP-ML/SocioReasonerで公開されている。
強化学習(RL)は大規模言語モデル(LLM)の学習後調整における中心的なパラダイムとなり、特に複雑な推論タスクで重要な役割を果たしている。しかし、探索崩壊(exploration collapse)に悩まされることが多い。すなわち、方策が早期に少数の支配的な推論パターンに集中してしまい、pass@1は向上するものの、ロールアウトレベルの多様性が損なわれ、pass@kの向上が制限されてしまうのである。我々は、この問題の根源が、個々のトークンの挙動を正則化することにあり、解の集合としての多様性を考慮していない点にあると主張する。この問題に対処するため、我々は「独自性を考慮した強化学習(Uniqueness-Aware Reinforcement Learning)」を提案する。これは、稀な高レベル戦略を示す正しい解を明示的に報酬とする、ロールアウトレベルの目的関数である。本手法では、LLMベースの判定器を用いて、同じ問題に対するロールアウトを、表面的な差異を無視しつつ高レベルの解決戦略に基づいてクラスタリングし、方策のアドバンテージをクラスタサイズに反比例して再重み付けする。その結果、正解ではあるが新奇な戦略が、冗長な戦略よりも高い報酬を受け取る。数学、物理学、医療推論の各種ベンチマークにおいて、本手法は大規模なサンプリング予算下でのpass@kを一貫して向上させ、pass@1を犠牲にすることなくpass@k曲線下面積(AUC@K)を増大させた。さらに、探索を持続させ、スケールにおいてより多様な解決戦略を発見することに成功した。
マルチエージェントシステムは、多様性と相互検証による堅牢性を獲得し、多くの応用分野で実用的なLLM駆動の協調システムへと進化を遂げています。しかし、マルチエージェント強化学習(MARL)の訓練はリソース集約的で不安定です。チームメンバーの相互適応が非定常性を誘発し、報酬は疎で分散が大きいことが多いためです。そこで我々は、推論時に構造化されたテキスト経験をマルチエージェントの審議に注入するフレームワーク「Multi-Agent Test-Time Reinforcement Learning(MATTRL)」を提案します。MATTRLは、多段階議論のための専門家によるマルチエキスパートチームを形成し、テスト時経験を検索・統合し、最終意思決定のための合意形成を行います。また、ターンレベルの経験プールを構築し、それを対話に再注入するための信用割り当てについても検討します。医療、数学、教育における難易度の高いベンチマークで、MATTRLはマルチエージェントベースラインより平均3.67%、単一エージェントの同等ベースラインより8.67%精度を向上させました。アブレーション研究では、異なる信用割り当てスキームを検証し、それらが訓練結果に与える影響を詳細に比較しています。MATTRLは、チューニングなしで分布シフトに強いマルチエージェント推論を実現する、安定かつ効率的な手法を提供します。
指示文に基づく画像編集は、生成AIにおいて最も急速に発展している分野の一つです。この1年で、数十のオープンソースモデルが高度な商用システムと共に公開され、この分野は新たな段階に到達しました。しかし、現実世界の品質を達成するオープンソース手法は現在限られています。さらに、これらのパイプラインで主流となっている拡散モデル基盤は、多くの実装環境や研究設定において、大規模で計算コストが高く、広く使用されているバリアントは通常60億から200億パラメータを含みます。本論文では、最新の20億パラメータのQwen3-VLモデルで編集プロセスを誘導し、16億パラメータの拡散モデルSana1.5で画像生成を行う、コンパクトで高スループットな指示文ベース画像編集パイプラインを提案します。アーキテクチャ、データ処理、学習設定、評価における設計判断は、低コスト推論と厳格なソース一貫性を目標としつつ、この規模で実現可能な主要編集カテゴリ全体で高品質を維持しています。ImgEditおよびGEditベンチマークでの評価では、提案手法はパラメータ数が数倍多く推論コストが高いベースラインを上回るか同等の性能を示し、属性調整、オブジェクト削除、背景編集、対象置換など入力画像の保持を必要とする編集において特に優れています。このモデルは24GBのGPUメモリ内に収まり、NVIDIA H100上でBF16精度時に追加の推論最適化や蒸留なしで最大2K解像度の編集画像を約4秒で生成します。
AI for Scienceの中心的な課題は、推論だけではなく、開かれた科学的世界において計算手法を創造する能力にある。既存のLLMベースのエージェントは静的に事前定義されたツールライブラリに依存しているが、このパラダイムは、ツールが疎で不均質かつ本質的に不完全な科学領域では根本的に機能しない。本論文では、推論過程で実行可能なツールを合成・検証・進化させる新しいパラダイムであるTest-Time Tool Evolution(TTE)を提案する。TTEはツールを固定的なリソースから問題駆動型の成果物へと変換することで、静的ツールライブラリの硬直性とロングテール問題を克服する。厳密な評価を可能にするため、925個の自動進化ツールで支援される1,590の科学的推論タスクから構成されるベンチマークSciEvoを導入した。大規模な実験により、TTEが精度とツール効率の両方で最先端の性能を達成し、計算ツールの効果的な分野間適応を可能にすることを示す。コードとベンチマークはhttps://github.com/lujiaxuan0520/Test-Time-Tool-Evolで公開されている。
人工知能のエージェント的科学研究への進展は、現在、超長期的自律性という課題によって頭打ち状態にある。これは数日または数週間にわたる実験サイクルにおいて、戦略的一貫性と反復的修正を維持する能力を指す。大規模言語モデル(LLM)は短期的推論では優れた能力を示すものの、高次元でフィードバックが遅延する現実世界の研究環境では実行詳細に圧倒され、まばらなフィードバックを首尾一貫した長期的指針に統合できていない。本論文では、科学発見の代表的な縮図である超長期的機械学習エンジニアリング(MLE)を習得する自律エージェント「ML-Master 2.0」を提案する。コンテキスト管理を認知的蓄積のプロセスと再定義する我々のアプローチは、コンピュータシステムにヒントを得た多層アーキテクテクチャ「階層的認知キャッシング(HCC)」を導入する。これにより、経験の時間的構造的差異化を可能にする。一時的な実行トレースを動的に安定した知識およびクロスタスカ知恵へ蒸留することで、HCCはエージェントが即時実行と長期的実験戦略を分離することを可能にし、静的なコンテキストウィンドウのスケーリング限界を効果的に克服する。OpenAIのMLE-Benchにおける24時間制限の評価では、ML-Master 2.0は56.44%という最先端のメダル獲得率を達成した。我々の知見は、超長期的自律性が、人間の前例を超えた複雑性を自律探索可能なAIへのスケーラブルな設計指針を提供することを実証している。
ビジョン言語事前学習(VLP)モデルは、大規模な画像テキストペアを対照学習により事前学習することで、様々なダウンストリームタスクにおいて優れた性能を発揮する。大規模な英語画像テキストデータセット(COYO-700MやLAION-400Mなど)の公開により、CLIPやSigLIPなどのモデルがクロスモーダル検索や画像キャプション生成などのタスクで広く採用されている。しかし、高品質な中国語画像テキストデータの不足により、中国語ビジョン言語事前学習の進展は大幅に遅れている。この課題を解決するため、我々は高品質な中国語クロスモーダルデータセットを構築する包括的なパイプラインを開発した。その結果、Common Crawlから収集した1億枚の画像テキストペアで構成されるDanQingを提案する。既存のデータセットとは異なり、DanQingはより厳格な選定プロセスを経ており、優れたデータ品質を実現している。さらに、DanQingは主に2024年から2025年のウェブデータから構築されているため、モデルが変化する意味的傾向をより適切に捉えることができ、実用性が高い。SigLIP2モデルの継続事前学習により、DanQingを既存のデータセットと比較した実験結果から、ゼロショット分類、クロスモーダル検索、LMMベースの評価など、様々な中国語ダウンストリームタスクにおいて、DanQingが一貫して優れた性能を達成することが示された。中国語ビジョン言語事前学習のさらなる研究を促進するため、DanQingデータセットをCreative Commons CC-BY 4.0ライセンスの下でオープンソース化する予定である。
近年の映像生成モデルでは、フレーム連鎖(Chain-of-Frame: CoF)推論の出現が見られ、フレーム単位の視覚的推論が可能となっています。この能力により、映像モデルは様々な視覚タスク(迷路解決、視覚パズルなど)に応用されてきました。しかし、テキストから画像への生成(T2I)プロセスには明確な視覚推論の出発点と解釈可能な中間状態が欠如しているため、T2I生成を強化する可能性はほとんど検討されていません。この隔たりを埋めるため、我々はCoF-T2Iを提案します。これは漸進的な視覚的洗練を通じてCoF推論をT2I生成に統合するモデルであり、中間フレームが明示的な推論ステップとして機能し、最終フレームが出力として扱われます。 この明示的生成プロセスを確立するため、意味論から美学へ至る生成プロセスをモデル化したCoF軌跡データセット「CoF-Evol-Instruct」を構築しました。さらに品質向上とモーションアーティファクト回避のため、各フレームの独立した符号化操作を可能にしています。実験結果では、CoF-T2Iがベースとなる映像モデルを大幅に上回り、挑戦的なベンチマークで競争力のある性能を達成しました(GenEvalで0.86、Imagine-Benchで7.468を記録)。これらの結果は、高品質なテキストから画像への生成を進展させる上で、映像モデルが大きな可能性を秘めていることを示しています。
近年、テキストから画像への変換(T2I)拡散モデル(DM)の進歩により、多様なテキストプロンプトからの高品質な視覚的合成が可能となった。しかし、大規模言語モデル(LLM)ベースのテキストエンコーダを備えたモデルでさえ、既存のT2I DMの多くは依然として「テキスト-ピクセル変換器」にとどまっている。すなわち、LLMを単なるテキストエンコーダとして利用し、テキストプロンプトから視覚的に描写すべき内容を推論するというLLMの本来の推論能力を活用していない。このような文字通りの生成を超えるため、我々は「思考してから生成する(T2G)」パラダイムを提案する。このパラダイムでは、LLMベースのテキストエンコーダが、生のユーザープロンプトについて推論し書き換えることが促される。書き換えられたプロンプトの状態が、拡散過程の条件付けとして機能するのである。 これを実現するため、まず軽量な教師ありファインチューニングプロセスにより、LLMエンコーダの「思考してから書き換える」パターンを活性化する。続いて、Dual-GRPOを通じて、LLMエンコーダと拡散モデルのバックボーンを共同最適化し、文脈に関する忠実な推論と意味内容の正確な描画を保証する。具体的には、テキストエンコーダは画像に基づく報酬を用いて強化され、世界知識を推論し想起するように促される。一方、拡散モデルのバックボーンは、意味的に一貫し視覚的に調和のとれた画像を生成するように押し上げられる。 実験結果は、推論に基づく画像生成および編集ベンチマークにおいて、事実の一貫性、意味的整合性、視覚的なリアリズムにおいて大幅な改善を示しており、WISEスコアで0.79を達成し、GPT-4にほぼ匹敵する性能を得た。我々の成果は、推論、表現、実証の能力を備えた次世代統合モデルへの有望な一歩を構成するものである。
大規模なビデオ拡散モデルとフローモデルは高品質なビデオ生成において顕著な成功を収めているが、非効率な多段階サンプリングプロセスのため、リアルタイム対話型アプリケーションでの利用は依然として限られている。本研究では、Transition Matching Distillation (TMD) という、ビデオ拡散モデルを効率的な少数ステップ生成器へ蒸留する新しいフレームワークを提案する。TMDの中心的な考え方は、拡散モデルの多段階ノイズ除去軌跡を、少数ステップの確率遷移プロセスで一致させることである。ここでは各遷移が軽量な条件付きフローとしてモデル化される。効率的な蒸留を実現するため、元の拡散バックボーンを二つの構成要素に分解する:(1) 主要バックボーン(大半の初期層から成る)は各外部遷移ステップで意味的表現を抽出し、(2) フローヘッド(最後の数層から成る)はこれらの表現を利用して複数の内部フロー更新を実行する。事前学習済みのビデオ拡散モデルが与えられたとき、まずモデルにフローヘッドを導入し、それを条件付きフローマップに適合させる。次に、各遷移ステップにおけるフローヘッドのロールアウトを用いて、学生モデルに対して分布マッチング蒸留を適用する。Wan2.1 1.3Bおよび14Bのテキスト対ビデオモデルの蒸留に関する広範な実験により、TMDが生成速度と視覚的品質の間で柔軟かつ強力なトレードオフを提供することが実証されている。特に、TMDは同程度の推論コストにおいて、既存の蒸留モデルを視覚的忠実度およびプロンプト遵守度の点で凌駕する。プロジェクトページ: https://research.nvidia.com/labs/genair/tmd
ツール統合推論(TIR)は、大規模言語モデル(LLM)が推論ステップと外部ツールとの相互作用を交互に行うことで、複雑なタスクに取り組むことを可能にする。しかし、既存の強化学習手法は一般に、結果ベースまたは軌跡レベルの報酬に依存し、軌跡内の全てのステップに均一なアドバンテージを割り当てる傾向がある。この粗い粒度の信用割り当ては、特に長期的で多段階のシナリオにおいて、効果的なツール呼び出しと冗長あるいは誤った呼び出しとを区別することができない。この問題に対処するため、我々はMatchTIRを提案する。これは、二部マッチングに基づくターンレベル報酬割り当てと二重レベルアドバンテージ推定による、細粒度の監督を導入するフレームワークである。具体的には、信用割り当てを、予測されたトレースと真のトレースとの間の二部マッチング問題として定式化し、二つの割り当て戦略を用いて密なターンレベル報酬を導出する。さらに、局所的なステップの精度と大域的なタスク成功のバランスを取るため、ターンレベルと軌跡レベルの信号を統合し、個々の相互作用ターンに異なるアドバンテージ値を割り当てる二重レベルアドバンテージ推定スキームを導入する。3つのベンチマークにおける大規模な実験により、MatchTIRの優位性が実証された。特に、我々の40億パラメータモデルは、大半の80億パラメータ競合モデルを凌駕し、長期的かつ多段階のタスクにおいてその有効性が顕著に現れた。コードはhttps://github.com/quchangle1/MatchTIR で公開されている。
今日最も強力なビデオ言語モデル(VLM)は、依然としてプロプライエタリなモデルが占めている。最も強力なオープンウェイトモデルは、プロプライエタリなVLMから生成された合成データに依存して実質的にそれらから知識蒸留しているか、あるいは学習データやレシピを開示していない。その結果、オープンソースコミュニティは、最先端のビデオ(および画像)言語モデルを改善するために必要な基盤を欠いている。決定的に重要なのは、多くのダウンストリームアプリケーションが高レベルのビデオ理解だけでは不十分であり、ポイントングまたはピクセル単位のトラッキングによるグラウンディングを必要とすることである。プロプライエタリモデルでさえこの能力を欠いている。我々はMolmo2を発表する。これはオープンソースモデルの中で最先端であり、単一画像、複数画像、ビデオタスクにおけるポイント駆動型グラウンディングで卓越した新機能を示す新ファミリーのVLMである。我々の主な貢献は、7つの新規ビデオデータセットと2つの複数画像データセットのコレクションである。これには、事前学習のための詳細なビデオキャプションデータセット、ファインチューニングのための自由形式のビデオ質疑応答データセット、複雑なクエリを含む新規オブジェクトトラッキングデータセット、革新的な新規ビデオポイントングデータセットが含まれ、全てクローズドなVLMを使用せずに収集された。我々はまた、効率的なパッキングとメッセージツリーエンコーディングスキームを利用したこのデータのトレーニングレシピを提示し、ビジョントークンに対する双方向アテンションと新規のトークン重み付け戦略が性能を向上させることを示す。我々の最高性能の8Bモデルは、ショートビデオ、カウンティング、キャプショニングにおいて、オープンウェイトおよびオープンデータモデルのクラスで他を凌駕し、ロングビデオでも競争力がある。ビデオグラウンディングにおいて、Molmo2はQwen3-VLのような既存のオープンウェイトモデルを大幅に上回り(ビデオカウンティング精度35.5対29.6)、一部タスクではGemini 3 Proのようなプロプライエタリモデルも超える(ビデオポイントングF1スコア38.4対20.0、ビデオトラッキングJ&Fスコア56.2対41.1)。
本論文では、画像内のオブジェクトの本質的属性を編集する拡散ベースの手法「Alterbute」を提案する。本手法では、オブジェクトの知覚的アイデンティティとシーンコンテキストを保持しつつ、色、テクスチャ、材質、さらには形状の変更を可能とする。既存手法は、アイデンティティの保持に失敗しがちな教師なし事前分布に依存するか、意味のある本質的変化を妨げる過度に制限的な教師信号を用いるかのいずれかである。我々の手法は以下に基づく:(i) アイデンティティ参照画像、目標の本質的属性を記述するテキストプロンプト、および外的コンテキストを定義する背景画像とオブジェクトマスクを条件として、モデルが本質的・外的属性の両方を変更できる緩やかな訓練目的。推論時には、元の背景とオブジェクトマスクを再利用して外的変化を制限し、目的の本質的属性のみが変更されることを保証する。(ii) Visual Named Entities(VNE)―アイデンティティを定義する特徴を共有しつつ本質的属性にばらつきのあるオブジェクトをグループ化する、細粒度の視覚的アイデンティティカテゴリ(例:「ポルシェ911カレラ」)。大規模公開画像データセットから視覚言語モデルを用いてVNEラベルと本質的属性記述を自動抽出し、スケーラブルでアイデンティティ保持性のある教師信号を実現する。Alterbuteは、アイデンティティを保持するオブジェクト本質的属性編集において既存手法を凌駕する。
LLMベースのエージェントは外部ツールを呼び出すことで環境と相互作用可能ですが、その拡張された能力は同時にセキュリティリスクも増幅させます。エージェントの実運用において、ステップ単位のツール呼び出し挙動をリアルタイムで監視し、安全でない実行前に能動的に介入することは極めて重要であるものの、この分野は未だ十分に研究されていません。本研究ではまず、LLMエージェントにおけるステップ単位のツール呼び出し安全性検出のための新しいベンチマーク「TS-Bench」を構築します。次に、マルチタスク強化学習を用いたガードレイルモデル「TS-Guard」を開発します。このモデルは、相互作用の履歴を推論することで、実行前に安全でないツール呼び出し行動を能動的に検出します。要求の有害性と行動-攻撃の相関関係を評価し、解釈可能で一般化可能な安全性判断とフィードバックを生成します。さらに、ガードレイルのフィードバック駆動型推論フレームワーク「TS-Flow」を提案します。これは、プロンプトインジェクション攻撃下において、ReActスタイルのエージェントの有害なツール呼び出しを平均65%削減し、良性タスクの完了率を約10%向上させます。
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の急速な進化は、言語と視覚における推論、知覚、生成能力において著しい向上をもたらしている。しかし、これらの進歩が安全性においても同等の改善をもたらすかどうかは、一部では単一モダリティや脅威モデルに限定された断片的な評価慣行のため、未だ不明確である。本報告書では、7つのフロンティアモデル(GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5)に対する統合的な安全性評価を提示する。ベンチマーク評価、敵対的評価、多言語評価、コンプライアンス評価を統合した統一プロトコルを用いて、各モデルを言語、視覚言語、画像生成の設定にわたって評価した。 複数の評価モードにわたる評価結果を安全性ランキングとモデル安全性プロファイルに集約した結果、安全性の状況が極めて不均一であることが明らかになった。GPT-5.2は全ての評価で一貫して強力かつバランスの取れた安全性パフォーマンスを示した一方、他のモデルでは、ベンチマーク安全性、敵対的アラインメント、多言語汎化、規制準拠の間で顕著なトレードオフが認められた。言語モダリティと視覚言語モダリティの両方は、敵対的評価において著しい脆弱性を示し、標準ベンチマークで強力な結果を得ているにもかかわらず、全てのモデルが大幅に性能を低下させた。テキストから画像への生成モデルは、規制対象の視覚的リスクカテゴリーにおいて比較的強力なアラインメントを達成したが、敵対的または意味的に曖昧なプロンプトに対しては依然として脆弱であった。 全体として、これらの結果は、フロンティアモデルの安全性が本質的に多次元であり(モダリティ、言語、評価手法によって形成される)、現実世界のリスクを正確に評価し、責任あるモデルの開発と展開を導くためには、標準化された安全性評価の必要性が極めて高いことを示唆している。
視覚観察から物理的動作を推論する能力は、物理世界における機械知能を進化させるための基盤的機能である。これを実現するには、広範な領域をカバーする大規模で開放語彙型のビデオ行動データセットが不可欠である。本論文では、120万本のインターネット実演ビデオ(総時間14.6年分)から構築した大規模データセットAction100Mを紹介する。これは、開放語彙型の行動アノテーションと豊富なキャプションを付与された、約1億の時間的に局所化されたセグメントから構成される。Action100Mは、完全に自動化されたパイプラインによって生成される。このパイプラインは、(i) V-JEPA 2の埋め込み表現を用いた階層的時間セグメンテーション、(ii) Tree-of-Captionsとして整理されたマルチレベルでのフレームおよびセグメントキャプションの生成、(iii) 推論モデル(GPT-OSS-120B)によるマルチラウンドのSelf-Refine手順に基づく証拠の統合を行い、構造化されたアノテーション(簡潔/詳細な行動、行為者、簡潔/詳細なキャプション)を出力する。Action100MでVL-JEPAを学習させた結果、データ量のスケーリングに伴う一貫した性能向上と、多様な行動認識ベンチマークにおける強力なゼロショット性能が実証され、Action100Mがビデオ理解と世界モデリングのためのスケーラブルな研究の新たな基盤となることが確認された。
インタラクティブなヒューマノイド動画生成は、連続的で応答性の高い動画を通じて人間と対話できる生命感あふれる視覚的エージェントの合成を目指す。近年の動画合成技術の進展にもかかわらず、既存手法は高精細な合成とリアルタイム対話要件の間のトレードオフに悩まされることが多い。本論文では、リアルタイム対話型ヒューマノイド動画生成に特化したフレームワークFlowAct-R1を提案する。MMDiTアーキテクチャを基盤とするFlowAct-R1は、任意の長さの動画をストリーミング合成しながら低遅延の応答性を維持する。連続的対話中の誤差蓄積を軽減し長期的な時間的一貫性を保証するため、チャンク単位の拡散強制戦略と新規の自己強制変形を導入する。効率的な蒸留技術とシステムレベルの最適化により、本フレームワークは480p解像度で安定した25fpsを達成し、初帧表示時間(TTFF)は約1.5秒に留まる。提案手法は全身のホリスティックかつ細粒度な制御を実現し、対話シナリオにおいてエージェントが多様な行動状態間を自然に遷移することを可能にする。実験結果では、FlowAct-R1が優れた行動の活気と知覚的リアリズムを達成するとともに、多様なキャラクタースタイルにわたる頑健な一般化性能を維持することを実証する。
我々は、多様なタスクとモダリティにわたる大規模な音楽理解と生成を推進するために設計された、オープンソースの音楽基盤モデル群を提案する。本フレームワークは以下の4つの主要コンポーネントで構成される:(1) オーディオとテキストのアライメントモデルであるHeartCLAP、(2) 実世界の音楽シナリオに最適化された堅牢な歌詞認識モデルであるHeartTranscriptor、(3) 低フレームレート(12.5 Hz)でありながら高忠実度を実現する音楽コーデックトークナイザーであるHeartCodec。これは、細かい音響詳細を保持しつつ長期的な音楽構造を捉え、効率的な自己回帰モデリングを可能にする。(4) 豊富でユーザー制御可能な条件(例:テキストによるスタイル記述、歌詞、参照オーディオ)の下で高忠実度の音楽を合成可能な、LLMベースの楽曲生成モデルであるHeartMuLa。さらに、HeartMuLaは2つの特殊モードを提供する:(i) 自然言語プロンプトを用いて楽曲の異なるセクション(イントロ、ヴァース、コーラスなど)のスタイルを指定できる細かい音楽属性制御、(ii) ショート動画のBGMとして適した、短く魅力的な音楽生成。最後に、HeartMuLaはパラメータ数を70億にスケールアップすることで性能が大幅に向上する。我々は、学術規模のデータとGPUリソースを用いてSunoレベルの商用グレードシステムを再現できることを初めて実証した。これらの基盤モデルが将来の研究における強力なベースラインとなり、マルチモーダルコンテンツ制作における実用的応用を促進することを期待する。
大規模言語モデル(LLM)は進化探索の強力な演算子として登場したが、効率的な探索の足場の設計は依然として場当たり的である。現在のLLMインザループシステムは有望であるものの、進化プロセスを体系的に管理するアプローチを欠いている。我々は3つの異なる失敗モードを特定した:実験履歴が将来の候補生成にバイアスをもたらす「文脈汚染」、探索と利用の不均衡によりエージェントが局所最適に停滞する「モード崩壊」、硬直的な交叉戦略が並列探索軌跡を効果的に活用できない「弱い協調」である。これらの課題に対処するため、エージェントの文脈と探索ダイナミクスを頑健に制御する枠組み「進歩認識型一貫性進化(PACEvolve)」を提案する。PACEvolveは、文脈汚染に対処する階層的文脈管理(HCM)と刈り込み、局所最適脱出のための運動量ベースバックトラッキング(MBB)、バックトラッキングと交叉を統合した動的探索調整(CE)による自己適応型サンプリング戦略を組み合わせる。これにより、エージェントは内部洗練と軌跡間協調のバランスを動的に取ることが可能となる。PACEvolveが、LLM-SRおよびKernelBenchで最先端の結果を達成し、Modded NanoGPTでは記録を上回る解を発見するなど、体系的で一貫した長期的自己改善への道筋を提供することを実証する。
精密な数値制約を満たす分子の生成は、複数の物理化学的特性において重要かつ困難な課題である。大規模言語モデル(LLM)は表現力に優れるが、外部の構造やフィードバックなしでは、精密な多目的制御や数値推論に課題がある。本論文では、多特性制約下での分子生成のためのフラグメントレベル・検索拡張・二段階フレームワークであるMolGenを提案する。**第I段階:プロトタイプ生成**では、マルチエージェント推論器が検索に基づくフラグメントレベルの編集を行い、実行可能領域近傍の候補分子を生成する。**第II段階:強化学習に基づく微細最適化**では、Group Relative Policy Optimization(GRPO)で訓練されたフラグメントレベル最適化器が、1ホップまたはマルチホップの精密化を適用し、編集の複雑さとプロトタイプからの逸脱を調整しながら、目標値に対する特性誤差を明示的に最小化する。両段階を支えるのは、フラグメント編集の推論連鎖と測定された特性変化量を自動収録した大規模データセットであり、確定的で再現性のある監督と制御可能なマルチホップ推論を可能にする。従来研究と異なり、本フレームワークはフラグメントを活用することで分子をより良く推論し、数値目標への制御可能な精密化を支援する。2組の特性制約(QED、LogP、分子量とHOMO、LUMO)下での生成実験において、有効性と多特性目標の精密な満足度において一貫した改善を示し、強力なLLMおよびグラフベース手法を凌駕する結果を得た。
最先端のビデオ生成モデルは有望な視覚コンテンツを生成するが、基本的な物理法則に違反することが多く、実用性が制限されている。この問題の原因を事前学習における物理理解の不足と考える向きもあるが、我々は物理的妥当性の欠如が、最適でない推論戦略にも起因することを見出した。そこで我々はWMRewardを提案し、ビデオ生成の物理的妥当性向上を推論時のアライメント問題として扱う。具体的には、潜在世界モデル(ここではVJEPA-2)の強力な物理事前知識を報酬として活用し、複数の候補となる脱ノイズ軌道を探索・制御することで、テスト時の計算量をスケーリングし生成性能を向上させる。実験により、本手法が画像条件付き、多フレーム条件付き、テキスト条件付きの各種生成設定において物理的妥当性を大幅に改善し、人間の嗜好性調査でもその有効性が確認された。特にICCV 2025 Perception Test PhysicsIQチャレンジでは62.64%の最終スコアを達成し、従来の最先端手法を7.42%上回って首位を獲得した。本研究は、特定の実装やパラメータ化に依存せず、潜在世界モデルを用いてビデオ生成の物理的妥当性を改善する可能性を示すものである。
統一的画像生成・編集モデルは、高密度Diffusion Transformerアーキテクチャにおいて深刻なタスク干渉に悩まされている。共有されたパラメータ空間は、相反する目的(例:局所的編集と被写体駆動生成)の間で妥協を強いられるためである。疎なMixture-of-Experts(MoE)パラダイムは有望な解決策であるが、そのゲーティングネットワークは依然としてタスク非依存であり、局所的特徴に基づいて動作するため、グローバルなタスク意図を認識しない。このタスク非依存の性質は、意味のある専門化を妨げ、根本的なタスク干渉の解決に失敗する。本論文では、MoEのルーティングに意味的意図を組み込む新しいフレームワークを提案する。まず、構造化されたタスク記述子(例:範囲、種類、保存性)を作成するための階層的タスク意味注釈スキームを導入する。次に、内部ルーティング決定とタスクの高水準意味を整合させるための予測的整合性正則化を設計する。この正則化により、ゲーティングネットワークはタスク非依存の実行主体から、ディスパッチセンターへと進化する。提案モデルはタスク干渉を効果的に緩和し、忠実度と品質において高密度ベースラインを上回る。また分析により、エキスパートが自然に明確かつ意味的に関連した専門性を発達させることを示す。
大規模言語モデルにおいて指示追従は重要であるが、現実世界の指示には順次依存関係や条件分岐といった論理構造が含まれることが多い。既存手法は通常、並列制約を持つデータセットを構築し平均報酬を最適化するが、論理的依存関係を無視しノイズの多い信号を生成する。我々は指示の論理を明示的にモデル化する論理構造化訓練フレームワークLSRIFを提案する。まず並列・順次・条件分岐などの制約構造を持つデータセットLSRInstructを構築し、次に構造認識報酬付与手法LSRIFを設計する。これには並列構造に対する平均集約、順次構造に対する失敗ペナルティ伝播、条件分岐に対する選択的報酬が含まれる。実験により、LSRIFが指示追従(ドメイン内・ドメイン外)と一般推論で顕著な改善をもたらすことが示された。分析により、明示的な論理構造を用いた学習が注意層のパラメータ更新を引き起こし、制約と論理演算子へのトークンレベルの注意を鋭くすることが明らかになった。
企業決算説明会における曖昧な回答の検出は財務透明性の確保において極めて重要であるが、大規模なベンチマークの不足が研究の進展を妨げている。本研究では、30,000の訓練サンプルと3つの回避レベルにわたる1,000の人手注釈テストサンプル(Cohen's Kappa 0.835)から構成されるEvasionBenchを提案する。中核的知見として、先進的LLM間の不一致が訓練に最も価値のある難易度の高い事例を示唆するというマルチモデル注訳フレームワークが我々の主要な貢献である。2つの強力な注釈モデルが矛盾する境界事例を抽出し、ジャッジモデルによるラベル決定を実施する。この手法は単一モデル蒸留を2.4%上回り、ジャッジ解決サンプルは訓練損失の増加(0.421対0.393)にも関わらず汎化性能を向上させた。これは不一致マイニングが暗黙的な正則化として機能する証左である。訓練済みモデルEva-4B(40億パラメータ)は81.3%の精度を達成し、ベースモデルを25ポイント上回り、推論コストを大幅に抑えつつ先進的LLMの性能に迫る結果を示した。
現在のマルチモーダル潜在推論は、外部の監督(補助画像など)に依存することが多く、視覚的注意の内在的ダイナミクスを無視しがちである。本研究では、蒸留における重要な「知覚ギャップ」を明らかにする:学生モデルは、教師のテキスト出力を模倣しながらも、根本的に異なる視覚領域に注意を向けることが頻繁にあり、実質的に接地された知覚ではなく言語事前確率に依存している。この問題を解決するため、我々は静的な埋め込みではなく潜在的な視覚的思考を整合させるフレームワークLaViTを提案する。LaViTは、テキスト生成前に教師の視覚的意味と注意軌跡を自己回帰的に再構築することを学生モデルに強制し、ショートカット学習を防ぐためのカリキュラム感覚ゲート機構を採用する。大規模な実験により、LaViTが視覚的接地を大幅に強化し、複雑な推論タスクで最大+16.9%の向上を達成し、コンパクトな3Bモデルが大規模なオープンソース版やGPT-4oなどの専有モデルを凌駕することを実証した。
DUSt3Rの不変点マップのように3D形状とカメラパラメータを符号化する強力な3D表現は、フィードフォワード型3D再構成を大幅に進展させてきた。点マップが静的なシーンを想定するのに対し、動的点マップ(DPM)はシーンの動きを追加的に表現することで、この概念を動的3Dコンテンツに拡張する。しかし既存のDPMは画像ペアに限定され、DUSt3Rと同様に、2視点を超える場合には最適化による後処理を必要とする。我々は、DPMが動画に適用された際により有用となると主張し、これを実証するためにV-DPMを提案する。まず、表現力を最大化し、ニューラルネットワークによる予測を容易にし、事前学習モデルの再利用を可能にする動画入力向けDPMの定式化方法を示す。次に、これらの考え方を最近の強力な3D再構成手法であるVGGT上に実装する。VGGTは静的なシーンで学習されているが、少量の合成データによって効果的なV-DPM予測器へ適応可能であることを示す。本手法は動的シーンにおける3Dおよび4D再構成で state-of-the-art の性能を達成する。特に、P3のようなVGGTの最近の動的拡張とは異なり、DPMは動的深度だけでなくシーン内の全点の完全な3D運動も復元する。
大規模言語モデル(LLMs)の推論能力向上は近年継続的に議論されている課題である。しかし、関連研究の多くは軌道レベルでの結果報酬に基づいており、推論プロセスにおける細粒度の監督が欠如している。プロセス信号を組み合わせてLLMsを最適化しようとする既存の訓練フレームワークも、MCTSや報酬モデルの個別訓練といった煩雑な追加工程に依存しており、訓練効率を損なう場合が多い。さらに、プロセス信号設計の背後にある直感的根拠は厳密な理論的裏付けを欠いており、最適化メカニズムの理解を不透明にしている。本論文では、エントロピー正則化強化学習目標を中間ステップに分解し、厳密なプロセス報酬をモデルに割り当て可能なProcess Reward Learning (PRL)を提案する。理論的動機付けから出発し、報酬最大化目標と政策モデル・参照モデル間のKLダイバージェンス罰則項と本質的に等価なPRLの定式化を導出する。PRLは結果報酬をプロセス監督信号に変換することで、RL最適化における探索をより効果的に誘導する。実験結果から、PRLがaverage @ nで測定されるLLMsの推論能力の平均性能を向上させるだけでなく、pass @ n指標の改善を通じて推論の限界を拡大することが実証された。大規模な実験により、PRLの有効性と一般化可能性が確認されている。
4D生成、リグ、モーションにおいて大きな進展が見られるにもかかわらず、アニメーションの中核をなす構造的・動的構成要素は、通常個別の問題としてモデル化されている。既存のパイプラインは、モーション生成においてグランドトゥルースのスケルトンとスキニングウェイトに依存し、自動リギングを独立したプロセスとして扱うため、拡張性と解釈可能性が損なわれている。本論文では、RigMoを提案する。これは、人間によるリグの注釈を一切必要とせず、生のメッシュシーケンスから直接リグとモーションを共同で学習する統合生成フレームワークである。RigMoは、頂点ごとの変形を二つのコンパクトな潜在空間に符号化する。一つは、明示的なガウスボーンとスキニングウェイトにデコードされるリグ潜在空間、もう一つは時間変化するSE(3)変換を生成するモーション潜在空間である。これらの出力が組み合わさることで、明示的な構造と一貫したモーションを持つアニメーション可能なメッシュが定義され、変形可能なオブジェクトに対するフィードフォワード的なリグとモーションの推論を可能にする。リグとモーションの統合的発見に加えて、我々はRigMoの潜在空間で動作するMotion-DiTモデルを導入し、これらの構造を意識した潜在表現が下流のモーション生成タスクを自然に支援できることを実証する。DeformingThings4D、Objaverse-XL、TrueBonesを用いた実験により、RigMoが滑らかで解釈可能、かつ物理的に妥当なリグを学習するとともに、既存の自動リギングおよび変形ベースライン手法と比較して優れた再構成性能とカテゴリレベルの一般化性能を達成することを示す。RigMoは、統合的、構造意識的、かつ拡張可能な動的3Dモデリングの新たなパラダイムを確立する。
ロールプレイング(RP)エージェントは、多様な物語的文脈において一貫して行動するために行動プロファイルに依存するが、既存のプロファイルは非構造的で非実行可能、かつ検証が不十分であるため、エージェントの行動が脆くなりがちである。本研究では、大規模な物語データから実行可能かつ解釈可能な決定構造を帰納するデータ駆動型フレームワークであるCodified Decision Trees(CDT)を提案する。CDTは行動プロファイルを条件付きルールの木構造として表現し、内部ノードは検証済みの場面条件に対応し、葉ノードは具体的な行動記述を符号化する。これにより、実行時に文脈に適したルールを確定的に取得できる。本木構造は、候補となる場面-行動ルールを帰納し、データに対して検証し、階層的特殊化を通じて洗練させることを反復的に行うことで学習され、透明性のある検査と体系的な更新を可能にするプロファイルを生成する。複数のベンチマークにおいて、CDTは16の作品にわたる85のキャラクターに対して、人手で記述されたプロファイルおよび従来のプロファイル帰納手法を大幅に上回り、符号化され検証された行動表現がより信頼性の高いエージェントの基礎付けを実現することを示唆する。
実世界の臨床テキスト-to-SQLでは、実行可能なクエリを生成するために、異種混合のEHRテーブル、時間的ウィンドウ、患者類似性コホートに対する推論が求められる。本論文では、MIMIC-IV v3.1に基づく633件の専門家注釈タスクからなるベンチマークCLINSQLを提案する。これは、複数テーブル結合、臨床的に意味のあるフィルタ、実行可能なSQLを必要とする。CLINSQLの解決には、スキーマメタデータと臨床コーディングシステムの把握、長いコンテキストの処理、従来のテキスト-to-SQLを超える多段階クエリの構築が不可欠である。Chain-of-Thought自己改良の下で22のプロプライエタリ及びオープンソースモデルを評価し、重要な臨床要件を優先する実行チェック付きルーブリックベースのSQL分析を採用した。近年の進歩にもかかわらず、性能は臨床的信頼性には程遠い:テストセットでは、GPT-5-miniが74.7%の実行スコアを達成し、DeepSeek-R1がオープンソース最高の69.2%、Gemini-2.5-ProはEasyで85.5%からHardで67.2%に低下した。CLINSQLにおける進歩は、実世界EHR分析のための臨床的に信頼できるテキスト-to-SQLへの具体的な前進を示すものである。
AIエージェントフレームワークの台頭に伴い、エージェントスキル(指示と実行可能コードを含むモジュール型パッケージ)が登場し、エージェントの能力を動的に拡張するようになった。このアーキテクチャは強力なカスタマイズを可能にする一方、スキルは暗黙的な信頼と最小限の検証のもとで実行されるため、重大ながら未解明の攻撃対象領域を生み出している。本研究では、この新興エコシステムに対し初の大規模実証的セキュリティ分析を実施した。主要2マーケットプレイスから42,447のスキルを収集し、静的解析とLLMベースの意味分類を統合した多段階検出フレームワーク「SkillScan」を用いて31,132スキルを体系的に分析した。その結果、広範なセキュリティリスクが明らかになった:26.1%のスキルが少なくとも1つの脆弱性を含み、プロンプトインジェクション、データ流出、権限昇格、サプライチェーンリスクの4カテゴリに跨る14の異なるパターンが確認された。データ流出(13.3%)と権限昇格(11.8%)が最も頻繁に見られ、5.2%のスキルは悪意のある意図を強く示唆する高深刻度パターンを呈した。実行可能スクリプトをバンドルするスキルは、指示のみのスキルに比べ脆弱性を含む確率が2.12倍高い(OR=2.12, p<0.001)。本論文の貢献は以下である:(1)8,126の脆弱性含有スキルから導出した実証に基づく脆弱性分類体系、(2)86.7%の精度と82.5%の再現率を達成した検出手法の検証、(3)将来研究を支援するオープンデータセットと検出ツールキット。これらの結果は、この攻撃経路が悪用される前に、能力ベースの許可システムと必須のセキュリティ検証が急務であることを示している。
本研究は、感情分析タスクにおける大規模言語モデル(LLM)、具体的にはGPT-4o-miniおよびgemini-1.5-flashの性能向上を目的としたプロンプトエンジニアリングの活用を検討する。少数ショット学習、連鎖思考プロンプト、自己一貫性といった高度なプロンプト手法をベースラインと比較評価する。主なタスクには、感情分類、アスペクトベース感情分析、および皮肉のような微妙なニュアンスの検出が含まれる。研究では、使用した理論的背景、データセット、手法を詳細に説明し、LLMの性能を正解率、再現率、適合率、F1スコアによって評価する。結果は、高度なプロンプト手法が感情分析を大幅に改善することを示しており、GPT-4o-miniでは少数ショットアプローチが、gemini-1.5-flashでは連鎖思考プロンプトが皮肉検出において最大46%向上させることを明らかにした。したがって、高度なプロンプト手法は全体的な性能を向上させるが、GPT-4o-miniでは少数ショットプロンプトが、gemini-1.5-flashの皮肉検出では連鎖思考プロンプトが最も有効であるという事実は、プロンプト戦略がモデルとタスクの両方に合わせて調整されなければならないことを示唆している。これは、プロンプト設計をLLMのアーキテクチャとタスクの意味的複雑さの両方に適合させることの重要性を強調するものである。
特徴量摂動を用いた一貫性学習は、半教師あり医療画像セグメンテーションにおいて広く用いられている手法である。しかし、既存の摂動手法の多くはDropoutに依存しており、敏感なハイパーパラメータであり最適化が困難で準最適な正則化をもたらしうるDropout率の注意深い手動調整を必要とする。この課題を克服するため、我々は特徴空間を離散化するためにベクトル量子化(VQ)を採用し、Dropoutに代わる新規かつ制御可能な量子化摂動モジュール(QPM)を導入する初めての手法であるVQ-Segを提案する。提案するQPMは、コードブックインデックスの空間的位置をシャッフルすることにより離散表現を摂動させ、効果的かつ制御可能な正則化を実現する。量子化に伴う情報損失を軽減するため、画像再構成とセグメンテーションの両タスクで量子化後の特徴空間を共有するデュアルブランチアーキテクチャを設計する。さらに、量子化過程で失われがちな高レベルな意味情報を補完するため、ファウンデーションモデル(FM)からのガイダンスを組み込むポストVQ特徴量アダプタ(PFA)を導入する。加えて、中枢型肺癌に対してアノテーションが施された828件のCTスキャンからなる大規模な肺癌(LC)データセットを構築した。LCデータセット及びその他の公開ベンチマークを用いた大規模な実験により、提案手法が既存の最先端手法を上回る有効性を実証する。コードはhttps://github.com/script-Yang/VQ-Seg で公開している。
AIエージェントは、悪意あるコンテンツがエージェントの動作を乗っ取り、認証情報の窃取や金銭的損失を引き起こすプロンプトインジェクション攻撃に対して脆弱である。唯一知られた堅牢な防御策は、信頼されたタスク計画と信頼されない環境観察を厳密に分離するアーキテクチャ上の隔離である。しかし、この設計をコンピュータ利用エージェント(CUA)——画面を視認しアクションを実行することでタスクを自動化するシステム——に適用することは、根本的な課題を提起する。現在のエージェントは各アクションを決定するためにUI状態の継続的な観察を必要とするが、これはセキュリティに必要な隔離と矛盾する。我々は、UIワークフローが動的である一方で、構造的に予測可能であることを示すことで、このジレンマを解決する。信頼されたプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件分岐を含む完全な実行グラフを生成する「CUAのための単発計画」を提案する。これにより、任意の命令インジェクションに対する証明可能な制御フロー完全性保証を提供する。このアーキテクチャ隔離は命令インジェクションを成功裏に防ぐが、UI要素を操作して計画内の意図しない有効な経路をトリガーする分岐誘導攻撃を防ぐには追加の対策が必要であることを示す。我々の設計をOSWorldで評価し、最先端モデルの性能の最大57%を維持しつつ、より小規模なオープンソースモデルの性能を最大19%向上させ、CUAにおいて厳格なセキュリティと有用性が両立可能であることを実証する。
我々は、カメラとオブジェクトの両方が移動する動的環境における新規視点合成(NVS)のための自己教師ありフレームワーク「WildRayZer」を提案する。動的コンテンツは、静的なNVSモデルが依存するマルチビュー一貫性を破壊し、ゴースト現象、幻覚的なジオメトリ、不安定なポーズ推定を引き起こす。WildRayZerは、分析-by-合成テストを実行することでこの問題に対処する。カメラのみの静的レンダラは剛体構造を説明し、その残差は過渡的領域を明らかにする。これらの残差から、擬似モーションマスクを構築し、モーション推定器を蒸留し、それを使用して入力トークンをマスキングし、損失勾配をゲーティングすることで、監督がビュー間の背景補完に集中できるようにする。大規模な訓練と評価を可能にするため、15Kの気軽に撮影された動的シーケンスからなる実世界データセット「Dynamic RealEstate10K(D-RE10K)」と、スパースビューかつ過渡的領域を考慮したNVSのための、過渡的領域とクリーンな画像がペアになったベンチマーク「D-RE10K-iPhone」を構築した。実験により、WildRayZerが、過渡的領域の除去とフルフレームのNVS品質の両方において、最適化ベースおよびフィードフォワードのベースライン手法を一つのフィードフォワード処理で一貫して上回ることを示す。
大規模言語モデル(LLM)では、特定のオフセットΔに対するΔ番目の副対角線に注目スコアが集中する「スラッシュ型注意パターン」が頻繁に観察される。このパターンはトークン間の情報伝達において重要な役割を果たすが、その発生メカニズムは明らかになっていない。本論文では、実証的・理論的双方の観点から、こうしたスラッシュ優位性ヘッド(SDH)の発生メカニズムを解明する。まず、オープンソースLLMを分析した結果、SDHがモデルに内在する性質であり、分布外プロンプトに対しても一般化することが確認された。この内在的発生を説明するため、注目スコアを共同で決定するクエリ・キー・回転位置埋め込み(RoPE)を分析する。実証分析により、SDHには二つの特徴的条件があることが明らかになった:(1)クエリとキーがほぼランク1であること、(2)RoPEが中高周波数成分に支配されていること。これらの条件下では、トークン間でクエリとキーがほぼ同一となり、RoPEの中高周波数成分間の相互作用がSDHを生み出す。実証的知見に加え、これらの条件をモデリング仮説として形式化することで、SDH発生を保証する十分条件であることを理論的に示す。具体的には、RoPEを装備した浅層Transformerの訓練 dynamics を分析し、勾配降下法で訓練されたモデルがSDHを示すことを証明する。このSDHは分布外プロンプトに対しても一般化する。
大規模言語モデル(LLM)は、多くの日常応用において中核的技術となっている。しかし、データが進化するにつれ、その知識は急速に陳腐化する。継続学習は、獲得済みの知識を消去することなくLLMに新たな情報を追加することを目的とする。フルファインチューニングのような手法は新規データを組み込めるが、計算コストが高く、既存知識が上書きされる破滅的忘れ込みが生じやすい。メモリ拡張型アプローチはこの問題に対処するため、LLMに外部記憶モジュールであるメモリバンクを装備し、情報を将来の利用に向けて保存する。しかし現実世界では大規模データストリームが流入するため、メモリバンクが絶えず肥大化するという重大な制約に直面する。本論文では、オンライン適応学習中にコードブック最適化戦略によりメモリバンクを圧縮するMBCモデルを提案する。安定的な学習を確保するため、コードブック崩壊を防止するオンラインリセット機構も導入する。さらに、LLMの注意層にKey-Value Low-Rank Adaptationを適用し、圧縮されたメモリ表現を効率的に利用可能にする。ベンチマーク質問応答データセットによる実験では、競合ベースラインと比較してメモリバンクサイズを0.3%に削減しつつ、オンライン適応学習中に高い記憶保持精度を維持できることを実証した。実装コードはhttps://github.com/Thomkat/MBC で公開している。