翻訳付きの日次キュレーションされたAI研究論文
我々は、従来のプロジェクトHY-World 1.0を発展させたマルチモーダル世界モデルフレームワーク「HY-World 2.0」を提案する。HY-World 2.0は、テキストプロンプト、単一視点画像、多視点画像、動画など多様な入力モダリティに対応し、3D世界表現を生成する。テキストまたは単一視点画像を入力とした場合、モデルは世界生成を行い、高精細でナビゲーション可能な3D Gaussian Splatting(3DGS)シーンを合成する。これは4段階の手法で実現される:(a)HY-Pano 2.0によるパノラマ生成、(b)WorldNavによる軌道計画、(c)WorldStereo 2.0による世界拡張、(d)WorldMirror 2.0による世界合成。具体的には、パノラマの忠実度向上、3Dシーン理解と計画の実現、一貫性メモリを備えたキーフレームベースの視点生成モデルであるWorldStereoのアップグレードといった重要な革新を導入する。また、フィードフォワード型の普遍的な3D予測モデルであるWorldMirrorについて、モデル構造と学習戦略を改良し、多視点画像や動画からの世界再構築を可能にするアップグレードを行う。さらに、エンジンに依存しない柔軟なアーキテクチャ、自動IBLライティング、効率的な衝突検出、トレーニングとレンダリングの協調設計を特徴とする高性能3DGSレンダリングプラットフォーム「WorldLens」を導入し、キャラクター対応のインタラクティブな3D世界探索を実現する。大規模な実験により、HY-World 2.0がオープンソース手法において複数のベンチマークで最先端の性能を達成し、クローズドソースモデルMarbleに匹敵する結果をもたらすことが実証された。再現性を確保し3D世界モデルの研究を促進するため、全てのモデル重み、コード、技術詳細を公開する。
高水準な自律走行には、マルチモーダルな将来の不確実性をモデル化できるとともに、閉ループ相互作用においてロバスト性を維持するモーションプランナーが求められる。拡散モデルベースのプランナーは複雑な軌道分布のモデル化に有効であるが、模倣学習のみで訓練された場合、確率的な不安定性や修正的ネガティブフィードバックの欠如に悩まされることが多い。これらの課題に対処するため、我々は閉ループ計画のための統合型生成器-識別器フレームワークであるRAD-2を提案する。具体的には、拡散モデルベースの生成器が多様な軌道候補を生成し、RLで最適化された識別器がそれらを長期的な走行品質に基づいて再ランク付けする。この分離設計により、疎なスカラー報酬を高次元軌道空間全体に直接適用することを回避し、最適化の安定性を向上させる。強化学習をさらに強化するため、時間的一貫性を利用して信用割当問題を緩和するTemporally Consistent Group Relative Policy Optimizationを導入する。加えて、閉ループフィードバックを構造化された縦方向最適化信号に変換し、生成器を高報酬軌道多様体に向けて漸進的にシフトさせるOn-policy Generator Optimizationを提案する。効率的な大規模訓練を支援するため、空間ワーピングを介してBird's-Eye View特徴空間で直接閉ループ評価を実行する高スループットシミュレーション環境BEV-Warpを導入する。RAD-2は強力な拡散モデルベースのプランナーと比較して衝突率を56%削減する。実世界での展開では、複雑な市街地交通における知覚安全性と走行平滑性の向上が実証された。
深層研究エージェント(DRA)は、計画、検索、マルチモーダル理解、レポート生成を含む複雑で長期的な研究タスクの解決を目指すが、動的なウェブ環境と曖昧なタスク定義により、その評価は依然として困難である。本論文では、マルチモーダル・マルチファイルのレポート生成における深層研究エージェントを評価するため、現実的かつ再現性のあるベンチマークDR^{3}-Evalを提案する。DR^{3}-Evalは実際のユーザ提供資料から構築され、支援文書、妨害情報、ノイズを含みつつオープンウェブの複雑性を模擬しつつ完全に検証可能な、タスク毎の静的研究サンドボックスコーパスと組み合わされる。さらに、情報想起率、事実正確性、引用網羅性、指示遵守度、深さ品質を測定する多次元評価フレームワークを導入し、人間の判断との整合性を検証する。複数の先進的言語モデルに基づく我々の開発したマルチエージェントシステムDR^{3}-Agentによる実験により、DR^{3}-Evalが極めて挑戦的であり、検索ロバスト性と幻覚制御における重大な失敗モードを明らかにすることを実証する。コードとデータは公開されている。
モデル強化において広く採用されている戦略は、より強力なモデルが生成した合成データを用いて教師ありファインチューニング(SFT)を実施する手法である。しかし、Qwen3-8Bのような新興の推論モデルでは、このアプローチは推論能力の向上に寄与せず、むしろ性能を大幅に低下させる場合が多い。本研究では、教師モデルが生成するデータと生徒モデルの分布との間に生じる大きなスタイルの相違が、SFTに影響を与える主要因であることを明らかにする。この隔たりを埋めるため、教師モデルと生徒モデルを交互に動作させ、スタイルトークンと非スタイルトークンを交互に生成するTeacher-Student Cooperation Data Synthesisフレームワーク(TESSY)を提案する。これにより、TESSYは教師モデルの高度な推論能力を継承しつつ、生徒モデルの分布とのスタイル一貫性を維持した合成シーケンスを生成する。GPT-OSS-120Bを教師モデルとしたコード生成実験では、教師モデル生成データでQwen3-8Bをファインチューニングすると、LiveCodeBench-Proで3.25%、OJBenchで10.02%の性能低下が生じたのに対し、TESSYではそれぞれ11.25%および6.68%の改善を達成した。
大規模言語モデル(LLM)は安全性が調整されているにもかかわらず、脆弱な拒否行動を示し、それは単純な言語的変更によって回避され得る。時制ジャイルブレイキングが示すように、有害な要求を拒否するモデルも、過去形で言い換えられた場合にはしばしば従うことから、現行の調整手法には根本的メカニズムが十分に理解されていない重大な一般化ギャップが存在することが明らかとなった。本研究では、活性化スケーリングガード(ASGuard)を提案する。これは、この特定の脆弱性を外科的に軽減する、機構論的知見に基づいた洞察的な枠組みである。第一段階では、回路分析を用いて、時制変更攻撃などの標的型ジャイルブレイキングに因果的に関与する特定のアテンションヘッドを同定する。第二に、時制に脆弱なヘッドの活性化を再調整するための精密なチャネル単位のスケーリングベクトルを学習する。最後に、これを「予防的ファインチューニング」に適用し、モデルにより頑健な拒否メカニズムを学習させる。4つのLLMにわたり、ASGuardは標的型ジャイルブレイキングの攻撃成功率を効果的に低減しつつ、一般的な能力を保持し、過剰拒否を最小化することで、安全性と有用性のパレート最適なバランスを達成した。我々の知見は、機構論的分析に基づき、敵対的サフィックスが拒否仲介方向の伝播を如何に抑制するかを明らかにする。さらに本研究は、モデルの内部構造に対する深い理解が、実用的かつ効率的で標的を絞ったモデル行動調整手法の開発に如何に活用できるかを示し、より信頼性高く解釈可能なAI安全性への道筋を示すものである。
エンドツーエンドの視覚言語行動(VLA)モデルはロボットマニピュレーションにおいて有望なパラダイムを提供するが、限定的な制御データでファインチューニングを行うと、基盤となる視覚言語モデル(VLM)から継承した高度な推論能力が損なわれることが多い。この根本的なトレードオフを解決するため、我々はHiVLAを提案する。これは、高レベルの意味的計画と低レベルの運動制御を明示的に分離する、視覚接地中心の階層的フレームワークである。高レベル部では、VLMプランナーがまずタスク分解と視覚接地を実行し、サブタスク指示と精密なターゲットバウンディングボックスから構成される構造化された計画を生成する。次に、この計画を物理的な行動に変換するため、低レベル部には新規のカスケード型クロスアテンション機構を備えたフローマッチング拡散Transformer(DiT)行動エキスパートを導入する。この設計は、大域的な文脈、高解像度の対象物中心のクロップ、技能意味論を順次融合し、DiTがロバストな実行に専念できるようにする。この分離されたアーキテクチャは、VLMのゼロショット推論能力を保持しつつ、両コンポーネントの独立した改善を可能にする。シミュレーションと実世界における大規模な実験により、HiVLAが既存の最先端エンドツーエンドベースラインを大幅に上回り、特に長期的な技能構成と、雑然とした場景における微小物体の細粒度マニピュレーションにおいて優れた性能を発揮することを実証した。
プリミティブの効率的な空間的割り当ては、3Dガウシアンスプラッティングの基盤をなす。これは、表現のコンパクト性、再構築速度、およびレンダリングの忠実性の間の相乗効果を直接決定するためである。従来の解決策は、反復的最適化ベースであれ順伝播型推論ベースであれ、主に大域的なシーン認識を欠く局所的・ヒューリスティック主導の割り当て戦略に依存しているため、これらの目標間で重大なトレードオフに悩まされてきた。具体的には、現在の順伝播型手法は大部分がピクセル位置合わせまたはボクセル位置合わせである。ピクセルを密なビュー位置合わせのプリミティブに逆投影することで、それらは3Dアセットに冗長性を組み込んでしまう。入力ビューが増えるにつれて、表現サイズは増大し、大域的一貫性は脆くなる。このため、我々は「まず位置合わせ、その後デコード」の原則に基づくフレームワーク、GlobalSplatを提案する。我々の手法は、明示的な3Dジオメトリをデコードする前に、マルチビュー入力を符号化し、ビュー間の対応関係を解決する、コンパクトで大域的な潜在シーン表現を学習する。決定的に、この定式化により、事前学習済みのピクセル予測バックボーンや、密なベースラインからの潜在特徴の再利用に依存することなく、コンパクトで大域的一貫性のある再構築が可能となる。デコード能力を段階的に増加させる段階的訓練カリキュラムを利用することで、GlobalSplatは表現の肥大化を本質的に防止する。RealEstate10KおよびACIDにおいて、本モデルは、密なパイプラインで必要とされる数よりも遥かに少ない、わずか16K個のガウシアンを用いながら、競争力のある新規視点合成性能を達成し、軽量な4MBのフットプリントを実現する。さらに、GlobalSplatはベースラインよりも大幅に高速な推論を可能とし、単一の順伝播で78ミリ秒未満で動作する。プロジェクトページは https://r-itk.github.io/globalsplat/ で利用可能である。
Retrieval-Augmented Generation (RAG) は、大規模視覚言語モデル (LVLM) を外部の視覚的知識で拡張する技術である。しかし、既存の視覚的 RAG システムは一般に、複雑な推論に不可欠なきめ細かい視覚的意味情報を見落としがちな、汎用的な検索信号に依存している。この限界に対処するため、我々は LVLM エージェントが検索、再ランキング、能動的視覚的知覚、推論を統合的に実行する強化学習フレームワーク、UniDoc-RL を提案する。UniDoc-RL は、視覚的情報の獲得を階層的な行動空間を持つ逐次意思決定問題として定式化する。具体的には、粗い粒度の文書検索から、細かい粒度の画像選択、能動的な領域切り出しへと、視覚的証拠を段階的に洗練させることで、モデルが無関係なコンテンツを抑制し、情報密度の高い領域に注意を向けることを可能にする。効果的なエンドツーエンド学習のために、各行動に対してタスクを意識した監督信号を提供する高密度マルチ報酬スキームを導入する。Group Relative Policy Optimization (GRPO) に基づく UniDoc-RL は、分離した価値関数ネットワークに依存することなく、エージェントの行動を複数の目的に沿わせる。この学習パラダイムを支援するため、細粒度の行動アノテーションが付いた高品質な推論軌跡の包括的データセットを構築した。3つのベンチマークによる実験では、UniDoc-RL が既存の最先端ベースラインを一貫して上回り、従来の強化学習ベース手法に対して最大 17.7% の性能向上をもたらすことを実証した。
Vision-Language Models(VLM)は視覚言語統合理解において顕著な能力を示すが、その大規模性はリソース制約のある環境での展開に重大な課題をもたらす。知識蒸留(KD)はモデルサイズやデータ要件を増加させることなくモデル能力を向上させる有効な手法であり、展開効率を高める。しかし、VLMへのKD適用はモダリティ固有の監督に課題がある:VLMのマルチモーダル知識は言語空間内で融合されているにもかかわらず、既存手法は各モダリティを個別に監督し、マルチモーダル整合性を明示的に扱わないため、一貫性のないマルチモーダル知識転移が生じる。この問題に対処するため、本論文ではテキスト確率空間内で視覚言語知識転移を統合するVisual-Switch蒸留フレームワーク「Switch-KD」を提案する。Switch-KDは二つの核心要素で構成される:(1)生徒モデルの視覚出力を教師モデルの言語経路に切替えることで暗黙的視覚知識転移のためのクロスモーダル確率参照を構築するVisual-Switch Distillation、(2)情報量の多い確率領域を適応的に整合させつつ双方向監督により教師・生徒の分布構造を保存するDynamic Bi-directional Logits Difference(DBiLD)損失である。Switch-KDの指導により、0.5BパラメータのTinyLLaVAが3B教師モデルから豊富なマルチモーダル知識を効果的に蒸留し、アーキテクチャ変更なしで10種のマルチモーダルベンチマークにおいて平均3.6ポイントの改善を達成した。
Claude Codeは、ユーザーに代わってシェルコマンドの実行、ファイルの編集、外部サービスの呼び出しが可能なエージェント型コーディングツールである。本研究では、公開されているTypeScriptソースコードを分析し、さらに異なるデプロイメントコンテキストから同じ設計課題に異なる解答を与える独立オープンソースAIエージェントシステムであるOpenClawとの比較を通じて、その包括的なアーキテクチャを記述する。分析により、アーキテクチャの動機となる5つの人間的価値・哲学・ニーズ(人間の意思決定権限、安全性とセキュリティ、信頼性の高い実行、能力増幅、文脈適応性)を特定し、それらが13の設計原則を経て具体的な実装選択に至る経路を追跡する。システムの核心は、モデル呼び出し、ツール実行、繰り返しから成る単純なwhileループである。しかしコードの大部分はこのループを支える周辺システムに存在する:7つのモードとMLベース分類器を備えた許可システム、文脈管理のための5段階圧縮パイプライン、4つの拡張性メカニズム(MCP、プラグイン、スキル、フック)、作業ツリー分離を伴うサブエージェント委譲機構、追記型セッションストレージである。マルチチャネル個人用アシスタントゲートウェイであるOpenClawとの比較により、同じ設計課題がデプロイメントコンテキストの変化に応じて異なる建築的解答を生むことが明らかになった:アクション単位の安全性分類から境界レベルアクセス制御へ、単一CLIループからゲートウェイ制御プレーン内埋め込みランタイムへ、文脈ウィンドウ拡張からゲートウェイ全体の機能登録へ。最後に、近年の実証研究・建築学・政策文献に基づき、将来のエージェントシステムに向けた6つの未解決設計課題を提示する。
LLM分類エンドポイントへの各呼び出しは、プロダクションログに既に保持されているラベル付き入力-出力ペアを生成します。これらのペアは、無料で増殖するトレーニングセットを構成します。これらで訓練された軽量なサロゲートモデルは、将来のトラフィックの大部分を、限界推論コストほぼゼロで吸収できます。未解決の課題は、サロゲートをデプロイするのに十分な信頼性がいつ得られるか、サロゲートが処理する内容と defer(先送り)する内容の違い、そしてデータが蓄積されるにつれてその境界がどう進化するかです。 我々はTRACER(Trace-based Adaptive Cost-Efficient Routing)を提案します。これは、LLM自身のプロダクショントレースでMLサロゲートを訓練し、パリティゲートを通じてデプロイを管理するオープンソースシステムです。サロゲートは、LLMとの一致率がユーザー指定の閾値αを超えた場合にのみ活性化されます。ルーティング境界を透明化するため、TRACERは、サロゲートがどの入力領域を処理するか、どこで性能が頭打ちになるか、なぜ defer するのかを説明する解釈可能性の成果物を生成します。 77クラスのインテントベンチマーク(教師モデル:Sonnet 4.6)では、TRACERは品質目標αに応じて83〜100%のサロゲートカバレッジを達成しました。150クラスのベンチマークでは、サロゲートが教師モデルを完全に置き換えました。自然言語推論タスクでは、埋め込み表現が信頼性のある分離をサポートできないため、パリティゲートは正しくデプロイを拒否しました。本システムはオープンソースソフトウェアとして利用可能です。
正確な未来の動画予測には、高い視覚的忠実度と一貫したシーン意味論の両方が必要であり、特に自動運転のような複雑で動的な環境ではその重要性が増す。本論文では、予測を意味的表現の予測と表現誘導型の視覚的合成の2段階に分解する階層的動画予測フレームワーク「Re2Pix」を提案する。将来のRGBフレームを直接予測する代わりに、本手法ではまず凍結された視覚基盤モデルの特徴空間において将来のシーン構造を予測し、その後、潜在拡散モデルをこれらの予測された表現に条件付けすることで、写実的なフレームを生成する。この分解により、モデルはまずシーンのダイナミクスに、次に外観生成に集中することが可能となる。重要な課題は、学習時に利用可能な正解表現と、推論時に使用される予測表現との間の訓練-テストミスマッチから生じる。これに対処するため、ネスト化ドロップアウトと混合教師あり学習という2つの条件付け戦略を導入し、不完全な自己回帰的予測に対するロバスト性を向上させる。挑戦的な運転ベンチマークでの実験により、提案する意味論優先の設計が、強力な拡散ベースラインと比較して、時間的意味的一貫性、知覚的品質、学習効率を大幅に改善することを実証する。実装コードはhttps://github.com/Sta8is/Re2Pix で公開している。
マルチモーダル大規模言語モデル(MLLM)は多くの視覚言語タスクで優れた性能を発揮するが、細粒度の視覚的推論を必要とする視覚中心の問題には苦戦することが多い。最近の研究によれば、この制限は視覚表現の弱さによるものではなく、指示チューニングにおける視覚情報の未活用に起因する。多くのタスクは言語事前分布のみで部分的に解決可能であるためである。本論文では、自然言語指示で表現された少数の視覚基盤型自己教師ありタスクを視覚的指示チューニングに追加する、シンプルで軽量な手法を提案する。回転予測、色一致、異視点対応といった古典的な自己教師あり事前タスクを画像-指示-応答の三つ組として再構成することで、視覚的証拠に依存せずには解決できない監督情報を導入する。本手法は人的アノテーション、アーキテクチャ変更、追加の学習段階を一切必要としない。複数のモデル、学習方法、ベンチマークにおいて、このような視覚基盤型指示をわずか(3-10%)注入するだけで、視覚中心の評価課題における性能が一貫して向上する。本研究結果は、学習データ分布へのシンプルな調整を通じてMLLMの視覚的推論能力を改善する有力な手段として、視覚基盤型自己教師あり学習タスクを用いた指示チューニングの有効性を明らかにする。コードは以下で公開:https://github.com/sirkosophia/V-GIFT
生成的モデルを用いたテキスト駆動逆変換は、2Dまたは3Dコンテンツを操作するための核心的なパラダイムであり、テキストベース編集、スタイル転送、逆問題解決などの数多くの応用を可能にする。しかし、これは生成的モデルが自然言語プロンプトに対して感応性を維持するという前提に依存している。我々は、最先端のネイティブなテキスト-to-3D生成的モデルにおいて、この前提がしばしば崩壊することを実証する。生成軌道が潜在的な「シンクトラップ」に引き込まれる重大な失敗モードを特定した。この領域では、モデルはプロンプト変更に対して感応性を失い、入力テキストの変更が出力形状を変化させるような内部表現の変更を引き起こさなくなる。決定的に、これはモデルの幾何学的表現力の限界ではないことを確認した。同一の生成的モデルは多様な形状を生成する能力を有するが、分布外のテキスト誘導に対して感応性を失うことを実証する。生成的モデルのサンプリング軌道を分析することでこの挙動を調査し、モデルの無条件生成的事前分布を活用することで複雑な幾何形状が依然として表現・生成可能であることを明らかにする。これにより、モデルの幾何学的表現力と言語的感応性を分離して潜在的なシンクを回避する、より頑健なテキストベース3D形状編集フレームワークを導出する。本手法は現行の3Dパイプラインの限界に対処し、分布外3D形状の高精度な意味的操作を実現する。プロジェクトWebページ: https://daidedou.sorpi.fr/publication/beyondprompts
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させる重要な駆動力として台頭してきた。近年の進歩は報酬設計やデータ合成に焦点が当てられてきたが、学習プロセスを導くためにモデルの内在的な表現特性を活用する研究はほとんどない。本論文ではまず、長文コンテキストを処理する際に、クエリベクトルとキーベクトル内に高振幅の活性化が存在することを観察する。このような高振幅の活性化の重要性を確立するモデル量子化と、長文コンテキスト推論が本質的に疎な構造を示すという知見に着想を得て、我々はこれらの重みが効果的なモデル最適化の pivotal な駆動力となると仮説を立てる。この知見に基づき、我々は一様な更新から顕著性に基づく疎な更新へと転換する戦略、LongActを提案する。これらの重要な活性化に関連する重みのみを選択的に更新することにより、LongActはLongBench v2で約8%の改善を達成し、RULERベンチマークでの汎化性能を向上させる。さらに、本手法は顕著な普遍性を示し、GRPOやDAPOといった様々なRLアルゴリズムにおいて性能を一貫して向上させる。詳細なアブレーション研究は、これらの顕著な特徴に焦点を当てることが長文コンテキストの潜在能力を解放する鍵であることを示唆している。
検索拡張生成(RAG)は大規模言語モデル(LLM)の応答を外部エビデンスに基づかせるが、モデルを検索結果の受動的消費者として扱う。すなわち、コーパスの構造や未検索の情報を認識できないため、バックトラックや分散したエビデンスの統合が制限される。本論文ではCorpus2Skillを提案する。これは文書コーパスをオフラインで階層的なスキルディレクトリに蒸留し、LLMエージェントが実行時にこれを探索できるようにするものである。コンパイルパイプラインは文書の反復的クラスタリング、各階層でのLLM要約生成を実行し、探索可能なスキルファイルのツリーとして結果を具現化する。実行時には、エージェントはコーパスの全体像を把握し、粒度を段階的に細かくした要約を通じてトピック分支を掘り下げ、IDによる全文書検索を行う。階層構造が明示的に可視化されるため、エージェントは探索対象の論理的判断、非生産的経路からの撤退、分支を跨ぐエビデンスの統合が可能となる。RAGの企業カスタマーサポートベンチマークであるWixQAにおいて、Corpus2Skillは密ベクトル検索、RAPTOR、エージェント型RAGベースラインを全ての品質指標で上回った。
本論文は、フローマッチングモデルと人間の選好の整合性に焦点を当てる。有望なアプローチとして、フローマッチングの微分可能な生成過程を通じて報酬勾配を直接逆伝播させるファインチューニングが挙げられる。しかし、長い軌跡を通じた逆伝播は、膨大なメモリコストと勾配爆発を引き起こす。そのため、直接勾配法は、最終画像の大域的な構造を決定する上で重要な初期生成ステップの更新が困難である。この問題に対処するため、我々は計算コストを削減し、報酬から初期生成ステップへの直接的な勾配伝播を可能にするファインチューニング手法LeapAlignを提案する。具体的には、複数のODEサンプリングステップを飛び越し、将来の潜在変数を1ステップで予測する2つの連続した「跳躍」を設計することで、長い軌跡をわずか2ステップに短縮する。跳躍の開始・終了タイムステップをランダム化することにより、LeapAlignは任意の生成ステップにおいて効率的かつ安定したモデル更新を実現する。さらに、このように短縮された軌跡を効果的に活用するため、長い生成経路との整合性が高い軌跡により大きな学習重みを割り当てる。勾配安定性をさらに向上させるため、従来研究のように大きい勾配項を完全に除去するのではなく、その重みを低減する。Fluxモデルのファインチューニングにおいて、LeapAlignは様々な指標で最新のGRTOベース手法および直接勾配法を一貫して上回り、優れた画像品質と画像-テキスト整合性を達成した。
大規模言語モデル(LLM)は、推論遅延を最小化するためにKey-Value(KV)キャッシュに大きく依存している。しかし、標準的なKVキャッシュは文脈依存性を持つ。すなわち、キャッシュされた文書を新しい文脈で再利用するには、注意分布の変化を考慮するためにKV状態を再計算する必要がある。CacheBlend、EPIC、SAM-KVなどの既存の解決策は、トークンの一部を選択的に再計算することでこの問題を軽減するが、依然として無視できない計算量(FLOPs)のオーバーヘッドと、初回トークン出力までの遅延(TTFT)の増加が生じる。本論文では、KV Packetを提案する。これは、キャッシュされた文書を不変の「パケット」として扱い、軽量な学習可能なソフトトークンアダプタで包むことで、再計算を不要とするキャッシュ再利用フレームワークである。これらのアダプタは自己教師あり蒸留により学習され、文脈の不連続性を橋渡しする。Llama-3.1およびQwen2.5を用いた実験により、提案するKV Packet手法が、再計算ベースのベースラインと比較して、ほぼゼロのFLOPsと低いTTFTを達成しつつ、完全再計算ベースラインに匹敵するF1スコアを維持することを実証する。
異なるトークナイザーを使用する教師言語モデルから生徒言語モデルへの知識転送である、クロストークナイザー蒸留(CTD)は、現在もほとんど解決されていない問題である。既存の手法は、不一致のある語彙を調整するために経験則的な戦略に依存しており、かなりの複雑さを伴う。本論文では、Byte-Level Distillation(BLD)と呼ばれるシンプルかつ効果的なベースラインを提案する。これは、トークナイザー間で共通のインターフェースであるバイトレベルで動作することでCTDを可能にする。詳細には、教師モデルの出力分布をバイトレベルの確率に変換し、生徒モデルに軽量なバイトレベルのデコーダヘッドを接続し、この共有されたバイトレベルインターフェースを通して蒸留を行う。その単純さにもかかわらず、BLDは、1Bから8Bパラメータのモデルを用いた一連の蒸留タスクにおいて、はるかに複雑なCTD手法と同等か、いくつかのベンチマークではそれを上回る性能を示す。我々の結果は、バイトレベルがクロストークナイザー知識転送のための自然な共通基盤であることを示唆する一方で、全てのタスクとベンチマークで一貫した改善を達成することは依然として困難であり、CTDが未解決の問題であることを改めて強調するものである。
視覚言語モデル(VLM)は、コンピュータ断層撮影(CT)などの複雑な医用画像のAI駆動による解釈とレポート作成において著しい進歩を遂げてきた。しかし、既存の手法では、臨床医は最終出力を単に受動的に観察する立場に留まり、検証や修正が可能な解釈可能な推論過程を提供していない。この問題に対処するため、我々は段階的で解釈可能なプロセスを通じてCTレポートを生成するツール利用型AIエージェント「RadAgent」を提案する。生成される各レポートには、中間決定とツール相互作用の完全に検証可能なトレースが付随し、臨床医は報告された所見がどのように導出されたかを確認できる。実験では、RadAgentが胸部CTレポート生成において、3D VLMベースの比較手法であるCT-Chatと比較して3つの次元で改善が見られることを確認した。臨床的精度では、マクロF1スコアが6.0ポイント(36.4%相当)、マイクロF1スコアが5.4ポイント(19.6%相当)向上した。敵対的条件下でのロバスト性は24.7ポイント(41.9%相当)向上した。さらに、RadAgentは忠実性において37.0%を達成し、これは3D VLMベース手法では完全に欠如していた新たな能力である。胸部CTの解釈を明示的でツール拡張された反復的推論過程として構造化することにより、RadAgentは放射線医学における透明性と信頼性の高いAIの実現に貢献する。
ヒューマンオブジェクトインタラクション(HOI)モデリングは、人間が物体に作用し関係する方法を捉え、通常は<人物、動作、物体>の三つ組として表現される。既存のアプローチは二つの分離した系統に分かれる:HOI生成は構造化された三つ組とレイアウトからシーンを合成するが、HOIと物体のみのエンティティといった混合条件の統合に失敗する;HOI編集はテキスト経由でインタラクションを修正するが、ポーズと物理的接触の分離や複数インタラクションへの拡張に苦戦する。我々は、HOI生成と編集を共有された構造化インタラクション表現に駆動された単一の条件付きノイズ除去プロセスに統合する、統一Diffusion TransformerフレームワークであるOneHOIを提案する。中核となるRelational Diffusion Transformer (R-DiT) は、動詞を媒介とした関係を、役割及びインスタンスを意識したHOIトークン、レイアウトベースの空間的Action Grounding、インタラクションのトポロジーを強制する構造化HOI注意機構、そして複数HOIシーンの分離を可能にするHOI RoPEを通じてモデル化する。HOI-Edit-44K及びHOI中心、物体中心のデータセットに対しモダリティドロップアウトを適用して共同学習されたOneHOIは、レイアウト誘導、レイアウト非依存、任意マスク、混合条件制御をサポートし、HOI生成と編集の両方において最先端の結果を達成する。コードはhttps://jiuntian.github.io/OneHOI/ で公開されている。
AIコーディングエージェントはパラドックスに直面している:膨大なパラメトリック知識を有しながら、1時間前の会話すら記憶できない。既存のメモリシステムは、テキストをベクトルデータベースに単一チャネル検索で保存し、中核処理にクラウドLLMを必要とし、人間の記憶を効果的にする認知プロセスを一切実装していない。 我々はSuperLocalMemory V3.3(「生きた脳」)を発表する。これは、数学的生命周期ダイナミクスを備えた完全な認知的記憶分類を実装した、ローカルファーストのエージェントメモリシステムである。V3.2(arXiv:2603.14588)の情報幾何学的基盤に基づき、5つの新規貢献を導入する:(1) Fisher-Rao量子化考慮距離(FRQAD)――ガウス統計多様体上の新しい計量で、量子化された埋め込みより高忠実度な埋め込みを選好する精度100%(コサイン類似度は85.6%)を達成、先行技術は皆無。(2) エビングハウス適応忘却とライフサイクル対応量子化――ローカルエージェントメモリで初めての数学的忘却曲線を進行的埋め込み圧縮と連動させ、6.7倍の識別力を達成。(3) 意味、キーワード、エンティティグラフ、時間、拡散活性化、統合、ホップフィールド連想の7チャネル認知的検索を実装、LLM不使用のモードAでLoCoMoベンチマーク70.4%を達成。(4) ソフトプロンプトによる長期暗黙記憶を実現するメモリパラメータ化。(5) 完全なメモリライフサイクルを自動化するゼロ摩擦自動認知パイプライン。 LoCoMoベンチマークにおいて、V3.3はモードA(LLM不使用)で70.4%を達成、マルチホップで+23.8pp、敵対的タスクで+12.7ppの改善を示した。V3.2はモードAで74.8%、モードCで87.7%を達成しており、4.4ppの差は意図的なアーキテクチャ上のトレードオフを反映する。SLM V3.3はElastic License 2.0の下でオープンソース化され、CPUのみで完全動作し、月間5,000以上のダウンロードを記録している。
大規模言語モデル(LLMs)は、科学発見を加速させる有望なアプローチとして近年注目を集めている。しかし、生物学のようなオープンエンドな科学領域への応用は、事実に基づいた実践可能な説明の欠如により、依然として限られている。この問題に対処するため、我々は生物学的推論をメカニスティックなアクショングラフとして表現し、体系的な検証と反証を可能とする、仮想細胞のための構造化説明形式を提案する。これを基盤として、生物学的に基礎付けられた知識検索と検証ベースのフィルタリング手法を統合し、メカニスティックな推論を自律的に生成・検証するマルチエージェントフレームワーク「VCR-Agent」を開発した。本フレームワークを用いて、Tahoe-100Mアトラスから導出された検証済みメカニスティック説明から成る「VC-TRACES」データセットを公開する。実証実験により、これらの説明を用いた学習が事実精度を向上させ、下流の遺伝子発現予測タスクにおいてより効果的な教師信号を提供することを示す。これらの結果は、マルチエージェント技術と厳密な検証の相乗効果によって達成される、仮想細胞における信頼性の高いメカニスティック推論の重要性を裏付けるものである。
本論文では、行動正則化強化学習(RL)を扱う。ここでは、参照分布(オフラインRLにおけるデータセットやLLM RLファインチューニングにおける基底モデル)への正則化が、分布外補間の誤りに起因する価値の過剰最適化を防ぐ上で重要である。既存手法は、大規模生成モデルへのスケーリングが困難な再パラメータ化ポリシー勾配に依存するか、あるいは行動サポートを超えた移動を試みる際に過度に保守的になりうる棄却サンプリングに依存している。本論文では、行動正則化RLのためのスケーラブルな新たなパラダイムであるValue Gradient Flow(VGF)を提案する。VGFは、行動正則化RLを、参照分布から価値関数が誘導する最適方策分布への写像としての最適輸送問題として定式化する。この輸送問題を、参照分布から初期化された粒子を価値勾配が誘導する離散勾配流によって解く。分析により、VGFが輸送バジェットを制御することで暗黙的に正則化を課すことを示す。VGFは明示的な方策のパラメータ化を排除しながらも表現力と柔軟性を維持し、これにより輸送バジェットを調整することで適応的なテスト時スケーリングを可能にする。広範な実験により、VGFが従来手法を大幅に上回り、オフラインRLベンチマーク(D4RL, OGBench)およびLLM RLタスクにおいて最先端の結果を達成することを実証する。コードと実行結果はhttps://ryanxhr.github.io/vgf で公開されている。
人工知能生成コンテンツ(AIGC)ツールの急速な進歩により、ウェブページデザインにおいて画像や動画、ビジュアライゼーションをオンデマンドで作成できるようになり、現代のUI/UXにおける柔軟で採用の広がるパラダイムを提供している。しかし、このようなツールを自動ウェブページ生成に直接統合すると、要素が個別に生成されるため、スタイルの不一致や全体的な一貫性の欠如が生じることが多い。本研究では、階層的計画と反復的自己反省を通じてAIGCベースの要素生成を調整する、マルチモーダルなウェブページ生成のための階層的エージェントフレームワーク「MM-WebAgent」を提案する。MM-WebAgentは、グローバルなレイアウト、ローカルなマルチモーダルコンテンツ、およびそれらの統合を共同で最適化し、一貫性があり視覚的に統一されたウェブページを生成する。さらに、マルチモーダルウェブページ生成のためのベンチマークと、体系的な評価のための多段階評価プロトコルを導入する。実験により、MM-WebAgentはコード生成ベースやエージェントベースのベースライン手法を凌駕し、特にマルチモーダル要素の生成と統合において優れた性能を示すことを実証する。コードとデータは https://aka.ms/mm-webagent で公開されている。
我々は、標準的なSwiGLU + RMSNorm + RoPE + GQAを基盤とするDecoder-Only型Transformer向けに、残差ストリーム構造の事前分布であるThree-Phase Transformer(3PT)を提案する。隠れベクトルはN個の等サイズの循環チャネルに分割され、各チャネルは位相を考慮した演算により維持される:チャネル毎のRMSNorm、注意機構とFFNの間で各チャネルをtheta + i*(2*pi/N)だけ回転させる2Dギヴンス回転、そしてGQAヘッドを分割構造に整合させるヘッド数制約である。このアーキテクチャは、スクランブリングと再適用の自己安定平衡状態であり、後付けのモジュールではない。分割によりチャネルに直交する一次元のDC部分空間が形成され、ここにガブリエルのホーンプロファイルr(p) = 1/(p+1)を固定値として注入する。これは絶対位置情報のサイドチャネルとして、RoPEの相対位置回転と直交的に合成される。標準設定N=3は、平衡三相交流の比喩に由来する。つまり、120度位相の異なる3つの正弦波は、反相の組を持つことなく和がゼロとなる。WikiText-103で123Mパラメータのモデルにおいて、3PTは対応するRoPE-Onlyベースラインに対して、+1,536パラメータ(総パラメータの0.00124%)の追加のみで、パープレキシティ-7.20%(ビット/バイト-2.62%)を達成し、ステップ数収束速度は1.93倍(実時間で1.64倍)向上した。Nは最適値ではなくパラメータ共有の調整ノブとして振る舞う:5.5Mパラメータでは{1,2,3,4,6,8,12}のNスイープでN=1が優位となるほぼ単調な結果であったが、123Mパラメータでは3シードでのスイープにおいてN=3とN=1は統計的に識別不能であった。荷重支持メカニズムは、チャネル分割された残差ストリーム、ブロック毎の回転、位相毎の正規化、およびホーンDC注入である。我々は以下の特性を明らかにした:(a) 幾何学構造の明示的強制なしでの自己安定化(ニューラルネットワークにおける保存則フレームワークの新たな事例)、(b) 12層における回転角ドリフトのU字型深度プロファイル、(c) RoPE、注意機構、FFNとの直交合成。
ルーブリック拡張検証は、明示的な評価基準によって報酬モデルを導くことで、単一モデル検証よりも信頼性の高い判断を可能にする。しかし、既存手法の多くは高コストなルーブリック注釈を必要とするため、拡張性に課題がある。さらに、ルーブリック生成は「協調不全」に陥りやすいことが明らかになった。低品質なルーブリックは支援ではなく、報酬モデルを積極的に誤った方向に導くのである。この問題に対し、協調的コミュニケーションの原理に着想を得て、我々は報酬モデルがルーブリック生成器と批判的協調を行うフレームワーク「Cooperative yet Critical reward modeling (C²)」を提案する。C²では、二値選好データのみで学習したルーブリック生成器と、報酬モデルが批判的検証機能を備えることで、判断の大幅な改善を実現する。具体的には、各ルーブリックが報酬モデルの判断を正しい選好に近づけるか遠ざけるかを測定し、支援的ルーブリックと誤導的ルーブリックの対照ペアを合成する。これらの対照ペアを用いて、支援的ルーブリックを提案する協調的生成器と、ルーブリックの有効性を評価する批判的検証器を学習する。推論時には、検証器が有効と判断したルーブリックのみに従って最終判断を行う。C²は、同じ二値選好データで学習した推論型報酬モデルを上回り、RM-Benchで最大6.5ポイント、AlpacaEval 2.0の長さ調整済み勝率で6.0ポイントの性能向上を達成した。外部のルーブリック注釈なしで、8Bパラメータの報酬モデルが4倍大規模なモデルから得たルーブリックを用いた場合と同等の性能を発揮する。本研究成果は、ルーブリック拡張検証において意図的協調を引き出すことで、拡張性を維持しつつ報酬モデルの信頼性を高められることを実証する。
複数のLLM試行に対する多数決は数学的推論を改善するが、相関誤差が実効サンプルサイズを制限する。自然な解決策は、異なる投票者に異なる推論戦略を割り当てることである。このアプローチ「Diverse Prompt Mixer」をAIMO 3競争で検証:3モデル、23以上の実験、50問のIMOレベル問題、H100 80GB 1台、5時間制限。プロンプトレベルの介入はすべて失敗。高温サンプリングは既に誤差の相関を除去し、弱い戦略は相関を減らす以上に精度を低下させる。N=8均等条件での8ポイントの能力格差及び全ての最適化試験において、モデル能力が支配的。最良の多数決スコア(42/50)とpass@20(~45.5)の差は選択損失であり、プロンプト損失ではない。検証器ベースの選択器で埋められる可能性がある。プロンプトエンジニアリングでは不可能。
オンラインインクリメンタル学習において、データは分布シフトを伴い連続的に到着するため、過去のサンプルが新たなタスクを学習する際の再生価値が限定的となる重大な課題が生じる。従来研究では、潜在空間におけるクラス表現として、単一の適応的重心または複数の固定重心に依存する手法が一般的であった。しかし、クラスデータストリームが本質的にマルチモーダルであり重心の継続的更新を要する場合、こうした手法は困難に直面する。この問題を克服するため、我々は最適輸送理論に基づくオンライン混合モデル学習フレームワーク(MMOT)を提案する。本手法では、重心が新規データとともにインクリメンタルに進化する。このアプローチには二つの主要な利点がある:(i) 複雑なデータストリームをより精密に特徴付け可能であること、(ii) MMOTから導出された重心により、推論時の未見サンプルに対するクラス類似性推定の精度向上が図れることである。さらに、表現学習の強化と破滅的忘却の緩和を目的として、潜在空間を調整しクラス分離性を時間的に維持する動的保存戦略を設計する。ベンチマークデータセットを用いた実験的評価により、提案手法の有効性が確認された。