翻訳付きの日次キュレーションされたAI研究論文
近年の映像生成技術の進歩により、驚くべき現象が明らかになってきた。拡散モデルベースの映像モデルが、些細ではない推論能力を示すのである。従来の研究では、この現象をChain-of-Frames(CoF)メカニズムに帰属させ、推論が映像フレーム間で順次展開されると仮定してきた。本研究ではこの仮定に異議を唱え、根本的に異なるメカニズムを明らかにする。我々は、映像モデルにおける推論が、主に拡散のノイズ除去ステップに沿って出現することを示す。質的分析と標的プロービング実験を通じて、モデルが初期のノイズ除去ステップで複数の候補解を探索し、漸進的に最終解へ収束するプロセスを発見した。これをChain-of-Steps(CoS)と命名する。この核心メカニズムを超えて、モデル性能に不可欠ないくつかの創発的推論行動を特定した:(1)持続的参照を可能にするワーキングメモリ、(2)誤った中間解からの回復を可能にする自己修正・強化、(3)初期ステップで意味的基盤を確立し、後期ステップで構造化された操作を実行する「知覚先行・行動後行」である。拡散ステップ内ではさらに、Diffusion Transformer内部に自己進化的な機能分化があることを解明した。初期層は密な知覚構造を符号化し、中間層は推論を実行し、後期層は潜在表現を統合する。これらの知見に動機付けられ、訓練不要の簡潔な戦略を概念実証として提示する。異なる乱数シードを持つ同一モデルから潜在軌跡をアンサンブルすることで、推論が如何に改善されるかを実証する。全体として、本研究は映像生成モデルにおける推論の創発メカニズムを体系的に理解し、映像モデルの内在的推論力学を新たな知能基盤として活用する将来研究の基礎を提供する。
近年、コード大規模言語モデルは一般的なプログラミングタスクにおいて顕著な進歩を遂げています。しかしながら、ハードウェアセマンティクスの推論、特殊な言語構文、厳格なリソース制約を必要とする産業シナリオでは、その性能が大幅に低下します。これらの課題に対処するため、我々はInCoder-32B(Industrial-Coder-32B)を導入します。これは、チップ設計、GPUカーネル最適化、組み込みシステム、コンパイラ最適化、3Dモデリングにわたるコード知能を統合した初の320億パラメータコード基盤モデルです。効率的なアーキテクチャを採用し、InCoder-32Bをスクラッチから、一般コード事前学習、精選された産業コードアニーリング、合成産業推論データを用いてコンテキストを8Kトークンから128Kトークンへ段階的に拡張する中期訓練、実行に基づく検証による事後訓練によって学習させます。14の主流な一般コードベンチマークと4つの専門領域にまたがる9つの産業ベンチマークで広範な評価を実施しました。結果は、InCoder-32Bが一般的なタスクで高い競争力を発揮すると同時に、産業領域全体で強力なオープンソースベースラインを確立することを示しています。
オムニモーダル大規模言語モデル(OLM)は、音声・視覚・テキストをネイティブに統合することで人間と機械の相互作用を再定義する。しかし、既存のOLMベンチマークは静的で精度中心のタスクに留まっており、自然対話における動的指標を扱う根本的な能力である社会的相互行為性の評価に重大な隔たりが生じている。この問題に対処するため、本論文ではSocialOmniを提案する。これは対話的相互行為性の評価を、(i) 話者分離・識別(誰が話しているか)、(ii) 割り込みタイミング制御(いつ割り込むか)、(iii) 自然な割り込み生成(どのように割り込むか)という3つの核心次元に沿って操作化した包括的ベンチマークである。SocialOmniは2000の知覚サンプルと、時間的・文脈的制約が厳格に管理された209の相互作用生成インスタンスからなる品質管理診断セットを特徴とし、モデルの頑健性をテストするための制御された視聴覚的不整合シナリオで補完されている。我々は12の主要なOLMを評価し、モデル間で社会的相互作用能力に顕著なばらつきがあることを明らかにした。さらに分析により、モデルの知覚精度と文脈適切な割り込み生成能力との間に顕著な乖離が存在することが判明し、理解中心の指標だけでは対話的社会的適性を特徴づけるには不十分であることを示唆している。より鼓舞されることに、SocialOmniからのこれらの診断結果は、将来のOLMにおいて知覚と相互作用の隔たりを埋めるための実践的な示唆を提供する。
本論文では、複雑な長期推論タスク向けに設計された新しい研究エージェント「MiroThinker-1.7」を提案する。この基盤をさらに発展させ、信頼性の高い多段階問題解決を実現する重厚な推論能力を備えた「MiroThinker-H1」を導入する。特にMiroThinker-1.7は、構造化計画・文脈推論・ツール連携を重視したエージェント型中間訓練段階を通じて、各インタラクション段階の信頼性を向上させる。これにより、複雑なタスクにおける効果的な多段階インタラクションと持続的推論が可能となる。MiroThinker-H1はさらに、局所レベルと大域レベル双方で検証機能を推論プロセスに直接統合する。推論途中の判断を推論実行時に評価・修正できる一方、全体の推論軌道を監査し、最終回答が一貫性のある証拠連鎖で支持されることを保証する。オープンウェブ調査・科学的推論・金融分析を含むベンチマークにおいて、MiroThinker-H1は深層研究タスクで最先端の性能を達成しつつ、専門領域でも強固な結果を維持する。また、競争力のある研究エージェント機能を効率性大幅向上で提供するオープンソースモデルとして、MiroThinker-1.7およびMiroThinker-1.7-miniを公開する。
我々はQianfan-OCRを発表する。これは40億パラメータのエンドツーエンド視覚言語モデルであり、文書解析、レイアウト分析、文書理解を単一アーキテクチャに統合している。本モデルは画像からMarkdownへの直接変換を実現し、表抽出、図表理解、文書QA、キー情報抽出など多様なプロンプト駆動タスクをサポートする。エンドツーエンドOCRにおける明示的なレイアウト分析の欠如に対処するため、我々はLayout-as-Thoughtを提案する。これは特殊な思考トークンによってトリガーされるオプションの思考段階であり、最終出力前に構造化されたレイアウト表現(バウンディングボックス、要素タイプ、読取順序)を生成することで、レイアウトの根拠付け能力を回復し複雑なレイアウトにおける精度を向上させる。Qianfan-OCRはOmniDocBench v1.5(93.12)とOlmOCR Bench(79.8)でエンドツーエンドモデル中首位を獲得し、OCRBench、CCOCR、DocVQA、ChartQAでは同規模の一般VLMと競合する結果を示し、公開キー情報抽出ベンチマークではGemini-3.1-Pro、Seed-2.0、Qwen3-VL-235Bを凌駕する最高平均スコアを達成した。本モデルはBaidu AI Cloud Qianfanプラットフォームで公開されている。
近年、マルチモーダル大規模推論モデル(MLRM)の進展により、視覚質問応答タスクの性能が大幅に向上している。しかしながら、接続詞(例:なぜなら、しかし、待て)が幻覚(ハルシネーション)と密接に関連し、高エントロピー状態を示す傾向があることが観察される。我々は、トークン確率分布から適切な文脈推論情報を直接抽出できると主張する。重ね合わせ表現理論に着想を得て、複数の候補意味を統合し潜在的な推論軌跡を維持するために、潜在的重ね合わせ推論を活用することを提案する。離散的なテキスト入力を過度に依存することが、高エントロピー推論段階において密な文脈手がかりを十分に活用せず、モデルを逐次的な明示的推論へ向かわせる可能性があるという仮説を立てる。そこで、文脈内推論を強化するためにトークン確率分布から豊富な意味表現を構築することを提案する。この目的に向け、意味的文脈を活用して信頼性の高い推論を実現する効率的なプラグアンドプレイ型デコーディング手法であるLatent Entropy-Aware Decoding(LEAD)を提案する。本手法の中核は、エントロピーを考慮した推論モード切替えにある。モデルは高エントロピー状態下では確率重み付き連続埋め込みを採用し、エントロピーが減少するにつれて離散トークン埋め込みへ移行する。さらに、視覚情報に注目するようモデルを促す事前知識誘導型視覚アンカー注入戦略を提案する。大規模な実験により、LEADが複数のベンチマークにおいて様々なMLRMにわたって幻覚を効果的に軽減することを実証する。
ロボットと環境の相互作用のシミュレーションは、具身AI(Embodied AI)の基盤をなす技術である。従来のシミュレータが持つ硬直的な視覚/物理的制約を超越するため、映像生成を活用する手法が近年いくつか提案され、有望な成果を示している。しかし、これらの手法は主に2D空間で動作するか、静的な環境手がかりに依存しており、ロボットと環境の相互作用が本質的に4次元時空間イベントであり、精密な相互作用モデリングを必要とするという根本的な現実を見過ごしている。この4次元の本質を回復しつつ、精密なロボット制御を保証するため、我々はKinema4Dを提案する。これは動作条件付きの4次元生成ロボットシミュレータであり、ロボットと環境の相互作用を以下に分離する:(i) ロボット制御の精密4次元表現:キネマティクスに基づきURDFベースの3Dロボットを駆動し、精密な4次元ロボット制御軌道を生成。(ii) 環境反応の生成的4次元モデリング:4次元ロボット軌道をポイントマップへ時空間視覚信号として投影し、生成モデルを制御して複雑な環境の反応的ダイナミクスを同期RGB/ポイントマップ系列として合成。学習を促進するため、20万1,426件のロボット相互作用エピソードと高品質な4次元注釈から成る大規模データセットRobo4D-200kを構築した。大規模な実験により、本手法が物理的に妥当で幾何学的一貫性があり、具身体構造に依存しない相互作用を効果的にシミュレートし、多様な実世界のダイナミクスを忠実に反映できることを実証した。本手法は初めてゼロショット転移の可能性を示し、次世代の具身シミュレーションの発展に向けた高精細な基盤を提供する。
ビデオ拡散トランスフォーマーの最近の進歩により、ユーザーが生成された環境を長期的に探索できるインタラクティブなゲームワールドモデルが実現可能となった。しかし、既存の手法は精密なアクション制御と長期的な3D一貫性に課題を残している。従来研究の多くはユーザーアクションを抽象的な条件付け信号として扱い、アクションと3D世界の間の基本的な幾何学的結合を見落としてきた。すなわち、アクションは相対的なカメラ運動を誘発し、これが累積されて3D世界内の大域的なカメラ姿勢を形成するのである。本論文では、カメラ姿勢を統一的な幾何学的表現として確立し、即時のアクション制御と長期的な3D一貫性を共同で基礎付ける。まず、物理ベースの連続的アクション空間を定義し、ユーザー入力をリー代数で表現することで精密な6自由度カメラ姿勢を導出する。これをカメラ埋め込み器を介して生成モデルに注入し、正確なアクション連携を保証する。次に、大域的なカメラ姿勢を空間インデックスとして用いて関連する過去の観測を取得し、長期的ナビゲーション中の位置再訪を幾何学的に一貫して行えるようにする。本研究を支援するため、カメラ軌道とテキスト記述が注釈付けされた3,000分に及ぶ実践的な人間のゲームプレイからなる大規模データセットを導入する。大規模な実験により、本手法がアクション制御性、長期的視覚品質、3D空間一貫性において、最先端のインタラクティブゲームワールドモデルを大幅に上回ることを示す。
大規模言語モデルの改善における従来のパラダイムは、人間による注釈やシミュレーション環境を用いたオフライン学習に依存しており、実世界でのデプロイを通じて蓄積される豊富な経験が十分に活用されていない。本論文では、言語モデルが自身のデプロイ経験から継続的に改善することを可能にする枠組み「Online Experiential Learning (OEL)」を提案する。OELは2段階で動作する。まず、ユーザー側で収集されたインタラクション軌跡から転移可能な経験的知識を抽出・蓄積する。次に、この知識をオンポリシー文脈蒸留によりモデルパラメータに統合する。この過程ではユーザー側環境へのアクセスを必要としない。これら2段階を反復することでオンライン学習ループを形成し、改善されたモデルはより高品質な軌跡を収集し、次の学習サイクルにより豊富な経験的知識を提供する。テキストベースゲーム環境を用い、複数のモデル規模、ならびに思考プロセスあり/なしの両変種においてOELを評価した。その結果、OELは反復を重ねるごとに一貫した改善を示し、タスク精度とトークン効率を向上させるとともに、分布外データに対する性能も維持した。さらに分析により、抽出された経験的知識は生の軌跡よりもはるかに効果的であり、知識源と方策モデル間のオンポリシー一貫性が効果的な学習に不可欠であることが示された。
Text-to-SQL解析は、完全スキーマ仮定の下で著しい進歩を遂げてきた。しかし、実際の企業環境では、データベースに数百のテーブルと大量のノイズを含むメタデータが存在するため、この前提は成り立たない。スキーマ全体を事前に投入するのではなく、エージェントは関連するサブセットのみを能動的に特定・検証する必要があり、本研究で取り上げる未知スキーマシナリオが生まれる。この問題に対処するため、我々はTRUST-SQL(ツールによる未知スキーマへの忠実な推論)を提案する。本タスクを部分観測マルコフ決定過程として定式化し、自律エージェントが構造化された4段階プロトコルを用いて検証済みメタデータに基づく推論を接地する。特に、このプロトコルは新たなDual-Track GRPO戦略の構造的基盤を提供する。トークンレベルのマスク化アドバンテージを適用することで、信用割り当て問題を解決するために探索報酬を実行結果から分離し、標準GRPOよりも9.9%の相対改善を実現した。5つのベンチマークによる大規模実験では、TRUST-SQLが4Bおよび8Bモデルにおいて、ベースモデル比でそれぞれ平均30.6%、16.6%の絶対改善を達成することが示された。驚くべきことに、メタデータを一切事前読み込みせずに動作するにもかかわらず、本フレームワークはスキーマ事前投入に依存する強力なベースラインを常に匹敵または上回る性能を発揮した。
大規模言語モデル(LLM)の金融領域への統合は、受動的な情報検索から動的で主体的な対話へのパラダイムシフトを推進している。汎用ツール学習ではベンチマークの急増がみられる一方、リスクが高く、厳格なコンプライアンス、急速なデータ変動を特徴とする金融セクターでは、決定的に評価基盤が不足している。既存の金融評価は、静的なテキスト分析や文書ベースのQAに主眼が置かれており、ツール実行の複雑な現実を無視している。逆に、汎用ツールのベンチマークは、金融に必要なドメイン特化の厳密さを欠き、しばしばトイ環境やごく少数の金融APIに依存している。このギャップを埋めるため、我々は金融ツール学習エージェントを評価する初の実世界実行可能ベンチマークであるFinToolBenchを提案する。少数の模擬ツールに限定された従来研究とは異なり、FinToolBenchは760の実行可能な金融ツールと、ツールを必要とする厳選された295のクエリを連携させた現実的なエコシステムを構築する。我々は、単なる二値的な実行成功を超え、金融において重要な側面——即時性、意図タイプ、規制ドメイン適合性——でエージェントを評価する新たな評価フレームワークを提案する。さらに、安定性とコンプライアンスを強化する、金融を意識したツール検索・推論ベースライン手法FATRを提示する。監査可能な主体的金融実行のための初のテストベッドを提供することにより、FinToolBenchは金融における信頼できるAIの新たな標準を確立する。ツールマニフェスト、実行環境、評価コードは公開され、将来の研究を促進する。
多くの大規模言語モデルアプリケーションでは、長い文脈に条件付けすることが求められる。Transformerは通常、過去の活性化状態を層ごとに大規模なキー・バリューキャッシュ(KVキャッシュ)として保持することでこれを実現するが、これは多大なメモリオーバーヘッドを伴う。望ましい代替案は、圧縮メモリである。すなわち、文脈を一度読み取り、コンパクトな状態で保存し、その状態から多数のクエリに応答する仕組みである。本研究では、推論時に元の文脈にアクセスできない状態で回答を生成しなければならない「文脈除去設定」においてこの問題を検討する。我々は、サンプル単位のテスト時最適化によって文脈をメモリに書き込むGradMemを提案する。GradMemは、与えられた文脈に対して、モデル重みを固定した状態で少数のプレフィックスメモリトークンの集合に対し、数ステップの勾配降下法を実行する。GradMemはモデルレベルの自己教師あり文脈再構成損失を明示的に最適化するため、順伝搬のみの手法とは異なり、反復的な誤り修正を伴う損失駆動型の書き込み操作が実現される。連想キー・バリュー検索タスクにおいて、GradMemは同じメモリサイズを持つ順伝搬のみのメモリ書き込み手法を性能で上回り、追加の勾配ステップは、順伝搬の繰り返しよりもはるかに効果的に容量を拡大する。さらに、GradMemが合成ベンチマークを超えて転移可能であることを示す。事前学習済み言語モデルを用いた実験では、bAbIやSQuADの変種を含む自然言語タスクにおいて、メモリに符号化された情報のみに依存しながら、競争力のある結果を達成する。
近年のFlow Matchingモデルは、画素空間で直接動作することで潜在オートエンコーダの再構成ボトルネックを回避しているが、画素多様体における意味的連続性の欠如により、最適輸送経路が深刻に絡み合っている。これにより、交差点付近で軌道衝突が頻発し、次善の解が導かれる。情報損失を伴う潜在表現による回避ではなく、我々はWaypoint Diffusion Transformers(WiT)を提案し、画素空間軌道の直接的な解きほぐしを実現する。WiTは、事前学習済み視覚モデルから投影された中間的な意味的waypointを介して連続ベクトル場を分解する。これにより、最適輸送を事前分布-waypoint間とwaypoint-画素間のセグメントに分割することで、生成軌道を効果的に分離する。具体的には、反復的なノイズ除去プロセスにおいて、軽量なジェネレータが現在のノイズ状態からこれらの中間waypointを動的に推論する。それらはJust-Pixel AdaLN機構を介して主要な拡散トランスフォーマーを継続的に条件付けし、進化を次の状態へと導き、最終的に最終的なRGB画素を生成する。ImageNet 256x256での評価では、WiTは強力な画素空間ベースラインを上回り、JiT訓練の収束を2.2倍加速させた。コードはhttps://github.com/hainuo-wang/WiT.git で公開予定である。
統一マルチモーダルモデル(UMM)は、視覚生成コンポーネントの事前学習によって制約を受けることが多い。この事前学習は、一般に非効率なパラダイムと、乏しい高品質なテキスト-画像ペアデータに依存している。本論文では、UMMの視覚生成における事前学習の方法論を体系的に分析し、これら2つの問題が主要なボトルネックであることを明らかにする。 これらの問題に対処するため、我々はデータ効率の良い2段階トレーニングフレームワークである、Image-Only Training for UMMs(IOMM)を提案する。第1段階では、豊富なラベルなし画像のみのデータを専用に用いて視覚生成コンポーネントを事前学習し、このコストの高い段階におけるペアデータへの依存を排除する。第2段階では、ラベルなし画像と少量の精選されたテキスト-画像ペアデータの混合を用いてモデルをファインチューニングし、指示への適合性と生成品質の向上を図る。 大規模な実験により、IOMMがトレーニング効率を改善するだけでなく、State-of-the-Art(SOTA)の性能を達成することを示す。例えば、我々のIOMM-B(3.6B)モデルは、わずか約1050 H800 GPU時間(うち大部分の1000時間は効率的な画像のみの事前学習段階に充てられた)を用いてスクラッチから学習されたが、GenEvalで0.89、WISEで0.55を達成し、BAGEL-7B(0.82 & 0.55)やBLIP3-o-4B(0.84 & 0.50)といった強力なベースラインを凌駕している。 コードはhttps://github.com/LINs-lab/IOMM で公開されている。
マルチターン・マルチエージェントLLMゲーム評価では、実行間の分散が大きくなりがちである。長期的な相互作用において、初期のわずかな逸脱がターンごとに複合化され、マルチエージェント結合によって増幅される。これにより勝率推定にバイアスが生じ、繰り返し行われるトーナメント間でのランキング信頼性が低下する。プロンプト選択の違いが実質的な方策の差を生むことで、この問題はさらに悪化する。我々はこの不安定性と低性能の両方に対処するため、保持と探索を結合して推論時コンテキストを最適化するセルフプレイフレームワーク、MEMO(Memory-augmented MOdel context optimization)を提案する。保持機能は、セルフプレイ軌道から得られた構造化された知見を永続的メモリバンクに格納し、後のプレイ時に事前情報として注入する。探索機能は、TrueSkillによる不確実性考慮型選択を用いたトーナメント形式のプロンプト進化を実行し、優先順位付きリプレイによって稀かつ決定的な状態を再訪する。5種類のテキストゲームにおける評価では、タスクあたり2,000ゲームのセルフプレイにより、GPT-4o-miniの平均勝率を25.1%から49.5%に、Qwen-2.5-7B-Instructの平均勝率を20.9%から44.3%に向上させた。実行間分散も低減し、プロンプト変動に対するランキングの安定性が向上した。これらの結果は、マルチエージェントLLMゲームの性能と頑健性がコンテキスト最適化によって大幅に改善可能であることを示唆する。MEMOは交渉ゲームや不完全情報ゲームで特に大きな効果を発揮する一方、完全情報環境では強化学習の方が有効であった。
大規模言語モデル(LLM)がツール利用エージェントへと進化を遂げる中、長期的な相互作用における脆弱性は未だに残されている。数学的推論では誤りがバックトラッキングによって修正可能であるのに対し、ツール利用の失敗は不可逆的な副作用を引き起こすことが多いため、正確なステップ単位の検証が極めて重要となる。しかし、既存のプロセス評価基準は閉鎖的な数学領域に限定されており、ツール実行の動的かつ開放的な性質を捉えられていない。この隔たりを埋めるため、我々は現実的なツール連携軌道におけるステップ単位の有効性を評価する初のベンチマーク「AgentProcessBench」を提案する。本ベンチマークは1,000の多様な軌道と8,509の人手ラベル付きステップ注釈(注釈者間一致率89.1%)で構成され、探索行動を捉える三値ラベル体系とラベル曖昧性を低減する誤り伝播規則を特徴とする。大規模実験により以下の知見が得られた:(1)性能の低いポリシーモデルは早期終了により正解ステップ比率が過大評価される(2)中立行動と誤り行動の識別は現行モデルにとって重大な課題である(3)プロセス由来の信号は結果監視と相補的価値を持ち、テスト時スケーリングを大幅に改善する。AgentProcessBenchが報酬モデルの発展を促進し、汎用エージェント実現への道筋を拓くことを期待する。コードとデータはhttps://github.com/RUCBM/AgentProcessBench で公開されている。
高品質な機械翻訳(MT)は数百の言語に対応可能であり、多言語システムにおける高い基準を設けています。しかし、世界に7,000存在する言語と比較すると、現行システムの対応範囲は依然として限定的です。目標言語側は約200言語、クロスリンガル転移によりサポートされる原言語側は数百言語程度に留まっています。さらに、信頼性の高いベンチマークや評価指標が不足しているため、これらの数値すら適切に評価することが困難でした。 本論文では、1,600以上の言語をサポートする初のMTシステムであるOmnilingual Machine Translation(OMT)を提案します。この規模の実現は、大規模な公開多言語コーパスと、手作業で精選されたMeDLEYバイテキストを含む新規作成データセットを統合した、包括的なデータ戦略によって可能となりました。 我々は大規模言語モデル(LLM)を機械翻訳用に特殊化する2つの方法、デコーダのみのモデル(OMT-LLaMA)とエンコーダ・デコーダ構造におけるモジュール(OMT-NLLB)としての活用を検討しました。特筆すべきは、パラメータ数が1Bから8Bの全てのモデルが、70BのLLMベースラインのMT性能を匹敵または凌駕し、明確な特殊化の優位性を示し、低計算資源環境でも強力な翻訳品質を実現した点です。さらに、英語から1,600言語への翻訳評価により、ベースラインモデルは支援の少ない言語を解釈できても、意味のある忠実度で生成することは頻繁に失敗するのに対し、OMT-LLaMAモデルは首尾一貫した生成が可能な言語のセットを大幅に拡大することが示されました。加えて、OMTモデルはクロスリンガル転移においても改善を見せ、評価対象1,600言語におけるMTの「理解」部分の課題解決に迫っています。我々のリーダーボードと主要な人手作成評価データセット(BOUQuETおよびMet-BOUQuET)は、Omnilingualityに向けて動的に進化しており、自由に利用可能です。
思考連鎖推論を備えた大規模言語モデル(LLM)は、複雑な問題解決タスクにおいて最先端の性能を達成しているが、冗長な推論過程と大きなコンテキスト要件により、エッジデプロイには非現実的である。これらの課題には、高いトークン生成コスト、大きなKVキャッシュフットプリント、モバイルデバイス向けの小型モデルへの推論能力の蒸留時の非効率性が含まれる。既存のアプローチは、大規模モデルから小型モデルへの冗長で様式的に反復的な推論過程の蒸頼に依存することが多く、オンデバイス推論には望ましくない。本研究では、LoRAアダプタと教師ありファインチューニングを組み合わせた軽量な手法を提案し、小型LLMでの推論を実現する。さらに、これらのアダプタに対する強化学習による予算強制を導入し、精度低下を最小限に抑えつつ応答長を大幅に短縮する。メモリ制約のあるデコード問題に対処するため、並列テスト時スケーリングを活用し、遅延の小幅な増加で精度を向上させる。最後に、必要な時のみ推論を活性化する動的アダプタ切替機構と、プロンプトエンコーディング時のKVキャッシュ共有戦略を提示し、オンデバイス推論における初回トークン応答時間を短縮する。Qwen2.5-7Bを用いた実験により、本手法が厳しいリソース制約下で効率的かつ正確な推論を実現し、LLM推論のモバイルシナリオへの実用化を可能にすることを示す。モバイルデバイス上で動作する実証動画はプロジェクトページで公開している。
エージェントスキルは、推論時に注入される構造化された手続き的知識パッケージであり、ソフトウェアエンジニアリングタスクにおけるLLMエージェントの拡張にますます利用されている。しかし、エンドツーエンドの開発環境におけるその実際の有用性は依然として不明確である。本研究では、現実のソフトウェアエンジニアリング(SWE)においてエージェントスキルの限界的効用を分離して評価する、要件駆動型ベンチマークであるSWE-Skills-Benchを初めて提案する。このベンチマークは、49の公開SWEスキルを、特定のコミットで固定された実際のGitHubリポジトリおよび明示的な受入基準を持つ要件文書と組み合わせ、6つのSWEサブドメインにわたって約565のタスクインスタンスを生成する。各タスクの受入基準を実行ベースのテストにマッピングする決定論的検証フレームワークを導入し、スキルありとなしでの制御されたペア評価を可能にする。結果は、スキル注入の利点が急速な採用が示唆するよりもはるかに限定的であることを示している:49のスキルのうち39は合格率の向上がゼロであり、平均的な向上率はわずか+1.2%であった。トークンオーバーヘッドは、適度な節約から451%の増加まで様々であるが、合格率は変化しなかった。意味のある向上(最大+30%)をもたらすのは7つの特殊化されたスキルのみであり、3つのスキルはバージョンの不一致によるガイダンスがプロジェクト文脈と競合するため、性能を劣化させた(最大-10%)。これらの知見は、エージェントスキルが、その有用性がドメイン適合性、抽象化レベル、文脈的互換性に強く依存する限定的な介入であることを示唆する。SWE-Skills-Benchは、ソフトウェアエンジニアリングエージェントにおけるスキルの設計、選択、展開を評価するためのテストベッドを提供する。SWE-Skills-Benchはhttps://github.com/GeniusHTX/SWE-Skills-Bench で利用可能である。
本論文では、事前学習済みの3D生成モデルを3Dパーツセグメンテーションに転用するフレームワーク「SegviGen」を提案する。既存のパイプラインは、強力な2D事前知識を蒸留やマルチビューマスク集約によって3Dに変換する手法が主流であるが、ビュー間の不一致や境界のぼやけが生じやすい。あるいは、大規模な注釈付き3Dデータと多大な学習リソースを必要とする、3D識別モデルに基づくセグメンテーションが探求されている。これに対しSegviGenは、事前学習済み3D生成モデルに符号化された構造化された事前知識を活用し、識別可能なパーツ色分けを通じてセグメンテーションを誘導する、新規かつ効率的なフレームワークを確立する。具体的には、3Dアセットを符号化し、形状に整合した再構成のアクティブボクセル上でパーツ指示色を予測する。インタラクティブなパーツセグメンテーション、完全セグメンテーション、および2Dガイダンス付き完全セグメンテーションを統一フレームワークでサポートする。大規模な実験により、SegviGenはインタラクティブパーツセグメンテーションで従来手法より40%、完全セグメンテーションで15%性能を向上させ、ラベル付き学習データ量はわずか0.32%で済むことを示した。これは、事前学習済み3D生成事前知識が3Dパーツセグメンテーションに効果的に転移し、限られた監督情報でも高い性能を実現可能であることを立証する。プロジェクトページはhttps://fenghora.github.io/SegviGen-Page/を参照。
Video Super-Resolution(VSR)は、低解像度(LR)の映像から高品質なフレームを復元することを目的としている。しかし、既存のVSR手法の多くは推論時にブラックボックスのように振る舞い、ユーザは予期せぬアーティファクトを確実に修正することができず、モデルが出力する結果を受け入れるしかない。本論文では、疎なキーフレームを簡潔で表現力豊かな制御信号とする、SparkVSRと名付けた新しいインタラクティブなVSRフレームワークを提案する。具体的には、ユーザはまず任意の既存の画像超解像(ISR)モデルを用いて少数のキーフレームを超解像し(オプション)、その後SparkVSRがキーフレームの事前情報を映像シーケンス全体に伝播させる。この際、元のLR映像の動きを基盤として維持する。我々は、LR映像の潜在表現と疎に符号化された高解像度(HR)キーフレームの潜在表現を融合させ、頑健なクロス空間伝播を学習し知覚的詳細を精緻化する、キーフレーム条件付きの潜在‐ピクセル二段階訓練パイプラインを導入する。推論時、SparkVSRは柔軟なキーフレーム選択(手動指定、コーデックのIフレーム抽出、ランダムサンプリング)と、キーフレームへの忠実度とブラインド復元を継続的に調整する参照不要のガイダンス機構をサポートする。これにより、参照キーフレームが存在しない、または不完全な場合でも頑健な性能を保証する。複数のVSRベンチマークにおける実験により、時間的一貫性の向上と強力な復元品質が実証され、CLIP-IQA、DOVER、MUSIQにおいてそれぞれ最大24.6%、21.8%、5.6%ベースラインを上回り、制御可能なキーフレーム駆動のビデオ超解像を実現する。さらに、SparkVSRは旧フィルム修復やビデオスタイル転送といった未見タスクにもそのまま適用可能であり、汎用的なインタラクティブ・キーフレーム条件付き映像処理フレームワークであることを示す。プロジェクトページはhttps://sparkvsr.github.io/で公開されている。
本論文では、荷電プラズマの運動を記述するVlasov-Maxwell-Landau (VML) システムにおける平衡特性の完全なLean 4形式化を提示する。本プロジェクトは、AI支援による数学研究の完全なループを実証するものである。すなわち、AI推論モデル (Gemini DeepThink) が予想から証明を生成し、エージェント型コーディングツール (Claude Code) が自然言語プロンプトからLeanコードへ翻訳し、専門プローバー (Aristotle) が111の補題を閉じ、Leanカーネルが結果を検証した。1人の数学者が10日間、200ドルのコストでプロセスを監督し、コードは一行も書かなかった。 開発プロセス全体は公開されている。229の人間によるプロンプトと213のgitコミットは全てリポジトリに記録されている。我々は、AIの失敗モード(仮説の蔓延、定義整合性バグ、エージェントの回避行動)と、成功した要素(抽象的/具体的証明の分離、敵対的自己レビュー、主要な定義と定理ステートメントの人間によるレビューの重要性)に関する詳細な知見を報告する。特筆すべきは、対応する数学論文の最終草稿が完成する前に、この形式化が完了した点である。
長文脈の扱いは言語モデルにおける中核的な課題であり続けている:拡張された文脈ウィンドウが利用可能になっても、モデルは長文脈にわたる情報を確実に抽出し、推論し、利用することに往々にして失敗する。Recursive Language Models (RLM) のような最近の研究は、推論時のプログラム的な相互作用を通じて長文脈を再帰的なサブコールに分解するエージェンシー的な方法でこの課題に取り組んでいる。有望ではあるものの、RLMの成功は、これらの文脈相互作用プログラムがどのように選択されるかに大きく依存しており、この点はほとんど未解明のままである。本論文ではこの問題を検討し、不確実性を意識した自己反映を用いてプログラム的な文脈相互作用を拡張するフレームワーク、SRLMを提案する。SRLMは、自己無矛盾性、推論の長さ、言語化された確信度という3つの内在的シグナルを利用する。これらはモデルの内部的な不確実性の相補的指標として機能し、モデルはこれらを用いて候補となる文脈相互作用プログラムを評価・比較する。多様なベンチマークデータセット、文脈長、基盤モデルを用いた広範な実験により、SRLMが最先端のベースラインを一貫して上回り、同じ時間制約下でRLMに対し最大22%の改善をもたらすことを示す。我々の知見は、RLMにおける性能の主たる駆動力が再帰そのものではないこと、そして単純な自己反映的なプログラム探索が、自己問い合わせや明示的な再帰機構を必要とせずにRLMに匹敵あるいは凌駕し得ることを示している。モデルの文脈ウィンドウ内の長さでは、再帰を用いたRLMは基本モデルに対して性能を劣化させることが多いのに対し、SRLMは短文脈・長文脈の両方で一貫した性能向上をもたらす。また、意味的に高度な性質を持つタスクでは、ヒューリスティックなプログラム探索では不十分でより広範な文脈理解が要求されるためRLMは効果が低いが、SRLMにおける自己反映は、こうしたシナリオでの推論をより適切に導く意味的シグナルを提供することを明らかにした。
未較正の単眼ビデオからのストリーミング再構成は、高精度なポーズ推定と動的環境下での計算効率的なオンラインリファインメントの両方が要求されるため、依然として課題が多い。3D基盤モデルとSLAMフレームワークの連携は有望なパラダイムであるが、決定的なボトルネックが存在する:ほとんどの多視点基盤モデルはフィードフォワード方式でポーズを推定するため、厳密な幾何最適化に必要な精度を欠くピクセルレベルの対応関係しか得られない。この問題に対処するため、我々はM^3を提案する。M^3は、多視点基盤モデルに専用のマッチングヘッドを追加して微細な密な対応関係を実現し、それをロバストな単眼ガウススプラッティングSLAMに統合する。さらにM^3は、動的領域抑制とクロス推論に基づく内部パラメータアライメントを組み込むことで、トラッキングの安定性を向上させる。多様な屋内および屋外ベンチマークでの大規模な実験により、ポーズ推定とシーン再構成の両方で最先端の精度を実証した。特に、ScanNet++データセットにおいて、ATE RMSEをVGGT-SLAM 2.0と比較して64.3%低減し、PSNRではARTDECOを2.11 dB上回った。
信頼性の高い評価は大規模言語モデルの開発と導入において不可欠であるが、実際には多大な手作業を要することが多い。実践者は適切なベンチマークを特定し、異種混合の評価コードベースを再現し、データセットスキーママッピングを設定し、集計された指標を解釈する必要がある。これらの課題に対処するため、自然言語による評価リクエストを実行可能で追跡可能、かつカスタマイズ可能な評価ワークフローに変換するエージェント型評価システム「One-Eval」を提案する。One-Evalは以下を統合する:(i) 意図の構造化と個人対応型ベンチマーク計画のためのNL2Bench、(ii) 実行可能性を確保するためのベンチマーク解決、自動データセット取得、スキーマ正規化を行うBenchResolve、(iii) タスクを意識した指標選択とスカラー値に留まらない意思決定指向のレポート生成を行うMetrics & Reporting。本システムはさらに、人間をループ内に組み込んだ確認・編集・ロールバックのチェックポイントを備え、デバッグと監査可能性のためのサンプル証跡を保存する。実験により、One-Evalが多様な自然言語リクエストからユーザーの負荷を最小限に抑えてエンドツーエンドの評価を実行可能であり、産業環境における効率的で再現性の高い評価を支援できることが示された。本フレームワークはhttps://github.com/OpenDCAI/One-Eval で公開されている。
ビジョン言語モデルの急速な発展に伴い、SVG生成タスクへの応用可能性を探る研究が増加している。既存手法は大規模SVGデータセットの構築やSVG特有のトークン導入により性能向上を図っているが、汎化性能の限界、コード出力における冗長なパス、明示的な推論過程の欠如といった課題が残る。本研究では、SVG生成時にモデルの推論過程を明示的に可視化する連鎖思考(Chain-of-Thought)メカニズムを導入した統一フレームワークCTRL-Sを提案する。この構造化推論を支えるため、SVGコード精緻化、Text-to-SVG、Image-to-SVGタスクに跨る14万5千サンプルからなる高品質データセットSVG-Sophiaを構築した。グループ単位の構造化SVGコード生成を学習させることで、CTRL-Sは構造的一貫性と視覚的忠実度を大幅に改善する。さらにGRPOアルゴリズムを採用し、DINO、画像-テキスト類似度、形式、コード効率性の報酬を組み込んだ多報酬最適化フレームワークを設計した。共同多報酬最適化とマルチタスク学習を通じて、生成能力を体系的に強化する。大規模実験により、CTRL-Sが既存手法を凌駕し、高いタスク成功率、優れたSVGコード品質、卓越した視覚的忠実度を達成することを実証した。
カテゴリカル分布からのサンプリングは数学的には単純だが、大規模語彙デコーディングでは、LMヘッドの後に余分なメモリトラフィックや余分なカーネルを引き起こすことが多い。本論文では、サンプリングをLMヘッドの行列乗算に融合し、ロジットテンソルをHBMに実体化しない正確なサンプリングプリミティブ「FlashSampling」を提案する。手法は単純である:オンチップでロジットをタイイルごとに計算し、ガンベルノイズを加え、行と語彙タイルごとに最大値のみを保持し、最後にタイル間の小規模なリダクションを行う。融合されたタイルカーネルは、argmaxが分割に対して分解可能であるため正確である。オンライン設定およびテンソル並列設定のためのグループ化変種は、カテゴリカル分布の階層的因子分解によって正確である。H100、H200、B200、B300 GPUにおける評価では、FlashSamplingはカーネルレベルのデコードワークロードを高速化し、エンドツーエンドのvLLM実験では、テストしたモデルにおいてトークン当たりの処理時間を最大19%削減した。これらの結果は、近似を伴わない正確なサンプリングが行列乗算自体に統合可能であり、帯域幅制約のある後処理ステップを軽量なエピローグに変え得ることを示す。プロジェクトページ:https://github.com/FlashSampling/FlashSampling。
ロボット学習における従来の見解では、シミュレーションのみでは不十分であり、シミュレーション環境と物理環境のギャップを埋めるには、少なくとも何らかの実世界データ収集やタスク固有のファインチューニングが必要であると広く信じられてきた。我々はこの前提に異議を唱える。十分に大規模で多様な模擬合成訓練データを用いることで、実世界へのゼロショット転移が可能であるばかりか、静的および移動把持の両方に対して有効であることを示す。我々はMolmoSpaces内で、ロボット、タスク、多様なシミュレーション環境にわたるプロシージャルデータ生成のための完全オープンソースのパイプラインであるMolmoBot-Engineを紹介する。これと併せて、関節オブジェクト操作とピックアンドプレースタスクのための180万のエキスパート軌道からなるデータセットMolmoBot-Dataを公開する。我々は3つのポリシークラスを訓練する:フローマッチング行動ヘッドを備えたMolmo2ベースのマルチフレーム視覚言語モデルであるMolmoBot、直接比較を可能にするためにπ_0アーキテクチャを複製したMolmoBot-Pi0、エッジデプロイに適しRLファインチューニングが可能な軽量ポリシーであるMolmoBot-SPOCである。2つのロボットプラットフォームで評価を行う:卓上把持タスク用のFranka FR3と、ドア開閉、引き出し操作、キャビネット操作、移動ピックアンドプレース用のRainbow Robotics RB-Y1移動マニピュレータである。実世界のファインチューニングを一切行わずに、我々のポリシーは未見のオブジェクトと環境へのゼロショット転移を達成する。卓上ピックアンドプレースでは、MolmoBotは4設定にわたる実世界評価で79.2%の成功率を達成し、π_{0.5}の39.2%を上回る。我々の結果は、プロシージャルな環境生成と多様な関節アセットの組み合わせが、実世界に広く汎化する堅牢な把持ポリシーを生み出し得ることを実証する。技術ブログ: https://allenai.org/blog/molmobot-robot-manipulation
正確なプロセス監視は、長期的なロボットマニピュレーションにおける重要な課題であり続けている。主なボトルネックは、現在のビデオMLLMが主に教師ありファインチューニング(SFT)のパラダイムで訓練され、最終的なタスク目標に対する現在の状態を評価するのではなく、進行中のイベントを認識する受動的な「観察者」として機能することである。本論文では、ビデオMLLMを能動的な「批評家」へと変換する7Bパラメータのフレームワーク、PRIMO R1(Process Reasoning Induced Monitoring)を提案する。我々は、進捗推定のための明示的な連鎖思考生成を促進するため、結果ベースの強化学習を活用する。さらに、我々のアーキテクチャは、初期状態と現在の状態の画像でビデオシーケンスを明示的に固定化することにより、構造化された時間的入力を構築する。提案するPRIMOデータセットとベンチマークに支えられ、多様なドメイン内環境およびドメイン外の実世界ヒューマノイドシナリオにおける広範な実験を通じて、PRIMO R1が最先端の性能を達成することを実証する。定量的には、我々の7Bモデルは、専門的な推論ベースラインと比較して平均絶対誤差を50%削減し、72Bスケールの汎用MLLMを上回る大幅な相対的な精度向上を示す。さらに、PRIMO R1は、困難な故障検出タスクにおいて強力なゼロショット一般化能力を発揮する。RoboFailベンチマークにおいて67.0%の精度で最先端の性能を確立し、OpenAI o1のようなクローズドソースモデルを6.0%上回った。
ネイティブ3D生成モデルは、高い忠実度と速度を実現しているが、決定的な限界に直面している。すなわち、精密な構造的関節付けを規定できないことであり、ネイティブ3D空間内での精密な構造制御は未開拓のままである。本論文は、ネイティブ3D生成において精密な骨格操作を可能にする、簡潔でありながらも高効率・高効果なフレームワークであるSK-Adapterを提案する。精密な構造制御には曖昧になりうるテキストや画像プロンプトを超えて、我々は3Dスケルトンを第一級の制御信号として扱う。SK-Adapterは、関節座標とトポロジーを学習可能なトークンに符号化する軽量な構造アダプターネットワークであり、これらがクロスアテンションを介して凍結された3D生成バックボーンに注入される。この巧妙な設計により、モデルは特定の3D構造制約に効果的に「注意」を向けるだけでなく、その元々の生成的事前知識を保持することができる。データギャップを埋めるため、24kのテキスト-メッシュ-スケルトンペアからなる大規模データセット、Objaverse-TMSデータセットを構築した。大規模な実験により、本手法が基礎モデルの形状とテクスチャ品質を保ちながら堅牢な構造制御を実現し、既存のベースラインを大幅に上回ることを確認した。さらに、この能力を局所的な3D編集に拡張し、骨格ガイダンスを用いた既存アセットの領域特定編集を可能にする。これは従来手法では達成できなかったものである。プロジェクトページ: https://sk-adapter.github.io/
学際的研究はより大きな長期的インパクトをもたらすにもかかわらず、ほとんどの研究は単一分野の学術的サイロに閉ざされたままである。科学発見への近年のAIベースのアプローチは学際研究に有望視されるが、多くの手法は実験と解決策の迅速な設計を優先し、創造的学際的ブレークスルーを駆動する探索的・協調的推論プロセスを迂回している。その結果、従来の取り組みは科学的破壊の基盤となる推論プロセスを増幅させるよりも、科学発見の自動化を主に優先してきた。本論文では、人間と大規模言語モデル双方の創造的推論を支援するため、学際的知見を体系的に特定する新規フレームワーク「Idea-Catalyst」を提案する。抽象的研究目標から出発し、Idea-Catalystは特定解決策への早期のアンカリングを明示的に回避し、ブレーンストーミング段階を支援するように設計されている。本フレームワークは学際的推論の主要なメタ認知的特性を具現化する:(a)研究目標の定義と評価、(b)領域の機会と未解決課題への認識、(c)インパクト可能性に基づく学際的アイデアの戦略的探索。具体的には、Idea-Catalystは抽象的目标(例:人間-AI協調の改善)を、当該領域内の進展と未解決課題の分析を導く核心的目標領域研究課題へ分解する。これらの課題は領域非依存的概念問題として再定式化され、類似的課題に対処する外部分野(例:心理学、社会学)からの情報検索を可能にする。これらの領域からの知見を統合し目標領域へ再文脈化することで、Idea-Catalystは学際的潜在性に基づき源泉領域をランク付けする。実証実験では、この標的統合により新規性が平均21%、示唆に富む度合いが16%向上し、かつ元の研究問題に根ざしたままであることが確認された。
マルチモーダル大規模言語モデル(MLLM)は心電図自動解析において有望な性能を示すが、それらが実際に段階的な推論を行っているのか、あるいは表面的な視覚的手がかりに依存しているだけなのかは不明である。この問題を検証するため、我々はECG-Reasoning-Benchmarkを提案する。これは17の主要な心電図診断にわたる段階的推論を体系的に評価する、6,400サンプル以上からなる新しいマルチターン評価フレームワークである。最先端モデルに対する包括的評価により、多段階の論理的推論の実行において重大な欠陥が明らかになった。モデルは診断に必要な臨床基準を抽出する医学的知識を有するものの、完全な推論連鎖を維持する成功率(Completion率6%)はほぼゼロであり、主に、対応する心電図所見を実際の心電図信号における視覚的証拠に基づいて立証することに失敗していた。これらの結果は、現在のMLLMが実際の視覚的解釈を回避していることを示し、既存の学習パラダイムにおける重大な欠陥を露呈するとともに、堅牢な推論中心の医療AIの必要性を強調するものである。コードとデータはhttps://github.com/Jwoo5/ecg-reasoning-benchmark で公開されている。
近年の研究により、残差経路は単なる最適化のための配管ではなく、モデルの表現機構の一部であることが明らかになってきました。我々もこれに同意しますが、この設計空間を整理する最も明確な方法は、Transformerを2軸の視点で捉えることだと主張します。デコーダは、系列位置と層深度という2つの順序付けられた次元に沿って情報を進化させます。自己注意機構は既に系列軸に沿った適応的な混合を提供しますが、残差ストリームは通常、深度軸に沿った固定加算を実行します。トークン位置を固定し、層インデックスを順序変数として扱う場合、因果的深度方向残差注意読み取りは、系列方向ではなく深度方向に記述される点を除けば、因果的短縮スライディングウィンドウ注意(ShortSWA)と全く同じ局所演算子となります。これがTransformer^2の背後にある核心的な残差ストリーム双対性です。 この視点は最近の研究動向も明確にします。ELC-BERTとDenseFormerは既に、深度にわたる学習済み集約が均一な残差累積を凌駕し得ることを示しています。一方、Vertical Attention、DeepCrossAttention(DCA)、MUDDFormer、Attention Residualsは、より初期の層に対する明示的な注意ベースのルーティングへとさらに進んでいます。しかし重要な点は、演算子レベルの双対性がシステムレベルの対称性を意味するわけではないことです。大規模自己回帰モデルでは、系列軸のShortSWAは、トークン側のスライディングウィンドウカーネル、KVキャッシュのレイアウト、チャンク化された実行を再利用できるため、通常よりハードウェアフレンドリーな配置となります。目的がショートカットそのものを変更することであるならば、Deep Delta Learning(DDL)は、別個の層間検索経路を追加するのではなく、残差演算子を直接修正するため、より明確な介入手法となります。したがって、我々の提言は単純です:関心の対象がショートカット自体である場合はDDLを、局所的な適応的混合が目的である場合は系列軸のShortSWAを使用することです。
ピクセル空間拡散モデルは近年、事前学習済みオートエンコーダを必要とせず高品質な生成を可能とする、潜在拡散モデルの有力な代替手法として再注目されている。しかし、標準的なピクセル空間拡散モデルは意味的な監督信号が比較的弱く、高次元の視覚的構造を捉えるよう明示的に設計されていない。近年の表現アライメント手法(REPAなど)は、事前学習済み視覚特徴が拡散訓練を大幅に改善し得ることを示唆しており、視覚的共脱ノイズ処理(visual co-denoising)はそのような特徴を生成過程に組み込む有望な方向性として登場した。しかし、既存の共脱ノイズ手法は複数の設計選択が絡み合っており、どの設計選択が真に本質的であるかが不明である。そこで本論文では、統一されたJiTベースのフレームワークにおいて、視覚的共脱ノイズ処理を体系的に検討したV-Coを提案する。この制御された設定により、視覚的共脱ノイズ処理を効果的にする要素を分離して特定できる。我々の研究は、効果的な視覚的共脱ノイズ処理に必要な4つの重要要素を明らかにした。第一に、特徴量特有の計算を保持しつつ柔軟なクロスストリーム相互作用を可能とするため、完全デュアルストリームアーキテクチャが動機付けられる。第二に、効果的な分類器不要ガイダンス(CFG)には、構造的に定義された無条件予測が必要である。第三に、より強力な意味的監督は知覚的ドリフトを考慮したハイブリッド損失によって最も良く提供される。第四に、安定した共脱ノイズ処理には適切なクロスストリーム較正がさらに必要であり、我々はRMSベースの特徴量再スケーリングによってこれを実現する。これらの知見を統合することで、視覚的共脱ノイズ処理のための簡潔な設計指針が得られる。ImageNet-256における実験では、同等のモデルサイズにおいて、V-Coは基盤となるピクセル空間拡散ベースライン及び強力な先行ピクセル拡散手法を、より少ない訓練エポック数で凌駕し、将来の表現アライメントされた生成モデルに対する実践的な指針を提供する。
拡散モデルに基づくスタイル変換技術は大きく進展しているが、既存手法は色彩主導の変換に限定され、複雑な意味構造や材質の詳細を十分に考慮していない。本論文では、Mixture of Experts(MoE)に基づく意味認識フレームワーク「StyleExpert」を提案する。本フレームワークは、大規模に収集したコンテンツ・スタイル・スタイル化画像の三組データセットで学習した統一スタイルエンコーダにより、多様なスタイルを一貫した潜在空間に埋め込む。この埋め込み表現を利用して、MoEアーキテクチャ内で専門家モデルへの動的な経路制御を行う類似性感知ゲーティング機構を構築する。MoEアーキテクチャを活用することで、浅いテクスチャから深層意味に至る複数の意味レベルにわたる多様なスタイルを適切に処理できる。大規模な実験により、StyleExpertが未学習のスタイルへの汎化性能を維持しつつ、意味構造と材質の詳細保存において既存手法を凌駕することを実証した。コード及び収集画像はプロジェクトページ(https://hh-lg.github.io/StyleExpert-Page/)で公開している。
言語モデルの数学的推論能力を向上させる主要なパラダイムは、検証可能な報酬を用いた強化学習に依存している。しかし、既存の手法は各問題インスタンスを孤立して扱い、訓練中に出現し蓄積される再利用可能な戦略を活用していない。この課題に対処するため、我々はARISE(Agent Reasoning via Intrinsic Skill Evolution)を提案する。これは階層型強化学習フレームワークであり、共有された方策が高レベルではスキル管理(スキルマネージャー)、低レベルでは応答生成(ワーカー)として機能する。マネージャーは、成功した解法トレースの構造化された要約を実行する専用のスキル生成ロールアウトを通じて階層化されたスキルライブラリを維持しつつ、将来のロールアウト(実行前)を条件付けるための関連スキルを取得する方策駆動の選択メカニズムを採用する。階層的な報酬設計により、推論能力とライブラリ品質の共進化が導かれる。競技数学とOmni-MATHに跨る2つのベースモデルと7つのベンチマークによる実験では、ARISEがGRPOファミリーのアルゴリズムやメモリ拡張ベースラインを一貫して上回り、特に分布外タスクにおいて顕著な性能向上を示した。 ablation studyにより、各構成要素が観測された改善に寄与していること、および訓練を通じてライブラリ品質と推論性能が並行して向上することを確認した。コードはhttps://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}で公開されている。
マルチモーダルエージェントの最近の進歩は、コンピュータ利用インタラクションやツール使用を改善してきたが、既存システムの大半は依然として反応的であり、将来の状態や長期的目標についての推論を行わずに行動を個別に最適化する。これにより計画の一貫性が制限され、高水準なマルチステップタスクを確実に解決することが妨げられている。本論文では、実行前に短期軌道を予測することで予測的推論を明示的に訓練する二段階強化学習フレームワーク「TraceR1」を提案する。第一段階では、予測された一連の行動全体のグローバルな一貫性を強化する報酬を用いた軌道レベル強化学習を実行する。第二段階では、凍結されたツールエージェントからの実行フィードバックを用いて、ステップレベルの精度と実行可能性を洗練させる、接地された強化学習ファインチューニングを適用する。TraceR1は、オンラインコンピュータ利用、オフラインコンピュータ利用ベンチマーク、マルチモーダルツール使用推論タスクを含む7つのベンチマークで評価され、計画の安定性、実行の堅牢性、一般化において、反応的および単一段階のベースラインを大幅に上回る改善を達成した。これらの結果は、予測的軌道推論が、複雑な実世界環境において効果的に推論、計画、行動できるマルチモーダルエージェントを構築するための重要な原理であることを示している。
持続メモリはAIエージェントの中核的機能であるが、メモリ検索、ライフサイクル管理、一貫性に関する数学的基盤は未解明のままであった。現行システムは検索にコサイン類似度、顕著性管理に発見的減衰を採用し、形式的な矛盾検出機能を欠いている。 本論文は情報幾何学的基盤を3つの貢献により確立する。第一に、対角ガウス分布族のフィッシャー情報構造に基づく検索指標を提案する。これはリーマン計量の公理を満たし、十分統計量に対して不変であり、O(d)時間で計算可能である。第二に、メモリライフサイクルをリーマンランジュバン力学として定式化し、フォッカー-プランク方程式による定常分布の存在と一意性を証明する。これにより、手動調整された減衰を原理に基づく収束保証で置き換える。第三に、非自明な第一次コホモロジー類がメモリ文脈間の不可分矛盾に対応する細胞層モデルを構築する。 LoCoMoベンチマークでは、数学的層が6つの対話タスクで工学的ベースライン比+12.7パーセントポイントの性能向上を示し、最も困難な対話では+19.9パーセントポイントに達した。4チャネル検索アーキテクチャはクラウド依存なしで75%の精度を達成し、クラウド拡張時は87.7%に達する。LLM非依存構成はEU AI法のデータ主権要件をアーキテクチャ設計レベルで満たす。知る限り、AIエージェントメモリシステムに対する情報幾何学・層理論・確率力学の基盤を確立した初の研究である。
現実世界の意思決定(納税コンプライアンス評価から医療診断まで)は、複数のノイズを含み潜在的に矛盾する証拠源を統合することを必要とする。既存のアプローチは、明示的な不確実性定量化を欠く(ニューラル集約手法)か、手動で設計された離散的述語に依存する(確率的論理フレームワーク)ため、非構造化データへのスケーラビリティが制限されている。 本研究では、Variational Autoencoder (VAE) の潜在事後分布をSum-Product Network (SPN) 推論のためのソフト尤度因子に変換するフレームワーク、Latent Posterior Factors (LPF) を提案する。これにより、較正された不確実性推定を保持しつつ、非構造化証拠に対する扱いやすい確率的推論を可能にする。LPFをLPF-SPN(構造化因子ベース推論)とLPF-Learned(エンドツーエンド学習型集約)として具体化し、共有された不確実性表現の下で、明示的な確率的推論と学習型集約の間の原理的な比較を可能にする。 8つの領域(7つの合成データとFEVERベンチマーク)にわたる評価では、LPF-SPNは高い精度(最大97.8%)、低い較正誤差(ECE 1.4%)、強力な確率的適合性を達成し、15の乱数シードにわたってEvidential Deep Learning、LLM、グラフベースのベースラインを大幅に上回った。 貢献:(1) 潜在的不確実性表現と構造化確率推論を架橋するフレームワーク。(2) 推論パラダイムの制御された比較を可能にする二重アーキテクチャ。(3) シード選択を含む再現可能な訓練方法論。(4) EDL、BERT、R-GCN、大規模言語モデルベースラインとの比較評価。(5) 領域横断的検証。(6) 関連論文における形式的保証。
本論文では、確率的予測タスクにおいて複数の異種エビデンス項目を集約するための原理に基づくフレームワークである潜在事後因子(LPF)の完全な理論的特徴付けを提示する。医療診断、金融リスク評価、法的事件分析、規制遵守などの高リスク領域では多エビデンス推論が遍在するが、既存手法は形式的保証を欠くか、構造的に多エビデンスシナリオに対応できない。LPFは、各エビデンス項目を変分オートエンコーダーを通してガウス潜在事後分布に符号化し、モンテカルロ周辺化によって事後分布をソフト因子に変換し、正確な和積ネットワーク推論(LPF-SPN)または学習済みニューラル集約器(LPF-Learned)によって因子を集約する。 我々は、信頼できるAIの主要な要請を網羅する7つの形式的保証を証明する:較正保存性(ECE ≤ ε + C/√K_eff)、O(1/√M)で減衰するモンテカルロ誤差、N=4200で訓練-テスト格差が0.0085となる非自明なPACベイズ境界、情報理論的下限の1.12倍以内での動作、破損下でのO(εδ√K)という優雅な性能劣化(エビデンスの半数が敵対的に置換された場合でも88%の性能維持)、R^2=0.849でのO(1/√K)の較正減衰、および誤差0.002%未満の正確な認識論的-偶然的不確実性分解。全ての定理は、最大4,200の訓練例に及ぶ制御データセットで実証的に検証される。本理論フレームワークは、安全批判的応用における信頼できる多エビデンスAIの基盤としてLPFを確立する。
我々は、政府様式からの構造化データ抽出におけるマルチモーダル基盤モデルの評価のためのベンチマーク「VAREX(VARied-schema EXtraction)」を提案する。VAREXは、プログラムによってPDFテンプレートに合成値を入力する「逆アノテーション」パイプラインを採用し、3段階の品質保証を経て検証された確定的な正解データを生成する。このベンチマークは、3つの構造カテゴリーにわたる1,771のユニークなスキーマを持つ1,777文書で構成され、各文書は4つの入力モダリティ(プレーンテキスト、レイアウト保持テキスト(空白を調整して列位置を近似)、文書画像、またはテキストと画像の組み合わせ)で提供される。単一の入力表現から評価する既存のベンチマークとは異なり、VAREXは文書ごとに4つの制御されたモダリティを提供し、入力形式が抽出精度に与える影響を系統的に検証することを可能にする。これは従来のベンチマークにはない機能である。我々は、最先端のプロプライエタリモデルから小規模なオープンモデルまで20のモデルを評価し、特にコスト敏感かつレイテンシ制約のある展開に適した4Bパラメータ以下のモデルに注目した。結果は以下のことを明らかにした。(1) 4Bパラメータ未満では、抽出能力そのものではなく、構造化出力の準拠性が主要なボトルネックである。特に、「スキーマエコー」(モデルが抽出値の代わりにスキーマに準拠した構造を出力する現象)は、影響を受けるモデルでスコアを45-65パーセンテージポイント低下させた。(2) 2Bパラメータモデルにおいて、抽出特化のファインチューニングにより+81パーセンテージポイントの向上が達成され、指示追従能力の不足はスケールを拡大せずに対処可能であることが実証された。(3) レイアウト保持テキストは、ピクセルレベルの視覚的手がかりを上回る、最大の精度向上(+3-18パーセンテージポイント)をもたらした。(4) このベンチマークは、精度60-95%の帯域においてモデルを最も効果的に識別する。データセットと評価コードは公開されている。
明示的な制約下でのツール利用による問題解決は、大規模言語モデル(LLM)にとって非常に困難ながら避けて通れないシナリオであり、関数呼び出し、指示追従、自己修正などの能力を必要とします。しかし、専用の評価手法が存在しないため、進展が妨げられてきました。この問題に対処するため、我々は複雑な制約下におけるLLMのツール利用評価のためのベンチマークCCTUを提案します。CCTUは、4つの次元(リソース、行動、ツールセット、応答)にまたがる12の制約カテゴリからなる分類体系に基づいています。本ベンチマークは、多様なツール利用シナリオにおける200件の厳選された難易度の高いテストケースで構成され、各ケースは平均7種類の制約タイプを含み、プロンプト長は平均4,700トークンを超えます。信頼性の高い評価を可能にするため、ステップ単位の検証を実行し、モデルと環境間のマルチターン相互作用中に制約遵守を強制する、実行可能な制約検証モジュールを開発しました。9つの最先端LLMを思考モードと非思考モードの両方で評価しました。結果は、全ての制約を厳密に遵守する必要がある場合、どのモデルもタスク完了率20%を超えないことを示しています。さらに分析すると、モデルは特にリソースと応答の次元において、50%以上のケースで制約に違反していることが明らかになりました。また、LLMは制約違反に関する詳細なフィードバックを受けた後でも、自己修正能力が限られていることが分かり、堅牢なツール利用エージェント開発における重大なボトルネックが浮き彫りになりました。今後の研究の発展に向け、データとコードを公開します。
Vision Transformer (ViT) に基づく視覚基盤モデル(VFM)は、多様な視覚タスクで顕著な性能を達成しているが、二次計算量の問題により長系列への拡張性が制限されている。ViT向けの既存の線形注意機構手法は通常スクラッチから訓練されるため多大な計算資源を要し、大規模言語モデルのデコーダ向けに開発された線形化手法はViTにうまく転移しない。これらの課題に対処するため、本論文はVFMの事前知識を線形注意ViTに効果的に適応・転移させる新規フレームワーク「ViT-AdaLA」を提案する。ViT-AdaLAは、注意整合、特徴量整合、教師ありファインチューニングの3段階から構成される。注意整合段階では、各ブロックにおいて通常の線形注意を元のsoftmaxベースの注意と整合させ、softmax注意の挙動を近似する。しかし、残差近似誤差は層を跨いで不可避に蓄積する。これを緩和するため、線形化ViTをファインチューニングし、最終層特徴量を凍結したsoftmax VFM教師モデルと整合させる。最後に、適応された事前知識は教師ありファインチューニングを通じて下流タスクに転移される。分類とセグメンテーションタスクにおける広範な実験により、ViT-AdaLAが各種最先端線形注意手法を上回る有効性と汎用性を実証する。
LiDAR点群からの人間理解は、歩行者安全と密接に関連するため自動運転における最重要課題の一つであるが、多様な人物-物体相互作用や複雑な背景が存在する場合には依然として困難な課題である。しかしながら、既存手法は、頑健な3次元人体姿勢推定フレームワーク構築のための人物-物体相互作用の活用可能性を大きく見過ごしている。人物-物体相互作用の統合を動機づける主要な課題が二つ存在する。第一に、人物-物体相互作用は人物点と物体点の間の空間的曖昧性を導入し、相互作用領域での3次元人体キーポイント予測の誤りを引き起こしやすい。第二に、相互作用する身体部位と非相互作用部位間の点数の著しいクラス不均衡が存在し、手や足などの相互作用頻度の高い領域はLiDARデータで疎に観測される。これらの課題に対処するため、本論文はLiDAR点群からの頑健な3次元人体姿勢推定のための人物-物体相互作用学習(HOIL)フレームワークを提案する。空間的曖昧性問題を緩和するため、人物-物体相互作用認識対照学習(HOICL)を提案し、特に相互作用領域における人物点と物体点の特徴識別性を効果的に強化する。クラス不均衡問題を軽減するため、接触認識部位誘導プーリング(CPPool)を導入し、過剰に表現された点を圧縮しつつ相互作用身体部位の情報豊富な点を保持することで表現能力を適応的に再配分する。さらに、接触情報に基づく時間的リファインメントをオプションで提案し、フレーム単位の誤ったキーポイント推定値を時間経過に伴う接触手がかりを用いて修正する。その結果、提案するHOILは人物-物体相互作用を効果的に活用し、相互作用領域の空間的曖昧性とクラス不均衡を解決する。コードは公開予定である。
マスク拡散モデル(MDM)は、部分マスキング手法(Prime)を用いて学習する場合、優れた汎化性能を示す。この手法はトークンをサブトークンに変換し、拡散過程をサブトークン単位でモデル化する。我々はMDM-Primeフレームワークに2つの課題を確認した。第一に、サブトークン化におけるトークン粒度のハイパーパラメータ選択を導く手法が不足している。第二に、一般的に使用されるByte-Pair-Encoding(BPE)トークナイザーと組み合わせた場合、サブトークン化関数の形式が尤度推定を著しく劣化させることを発見した。これらの課題に対処するため、我々はMDM-Primeにおける変分下限の緊密性を検討し、二値符号化とインデックスシャッフリングを組み込んだマスク拡散言語モデルMDM-Prime-v2を開発した。スケーリング分析により、MDM-Prime-v2は自己回帰モデル(ARM)よりも21.8倍の計算効率を達成することが明らかになった。計算最適化比較では、MDM-Prime-v2はOpenWebTextで7.77のパープレキシティを達成し、ARM(12.99)、MDM(18.94)、MDM-Prime(13.41)を上回った。モデルサイズを11億パラメータに拡張した場合、本モデルは常識推論タスクにおいて優れたゼロショット精度をさらに示した。
既存の拡散モデルベースの3Dシーン生成手法は、主に2D画像/動画の潜在空間で動作するため、視点間の見た目と幾何学的一貫性の維持が本質的に困難である。この課題を解決するため、我々は一貫性のある3D表現空間内で直接拡散を実行するフレームワーク「OneWorld」を提案する。本手法の中核となるのは、3D統一表現オートエンコーダ(3D-URAE)である。3D-URAEは学習済み3D基盤モデルを活用し、幾何中心の性質を、外観の注入と意味情報の蒸留によって強化し、統一された3D潜在空間を構築する。さらに、視点間の構造的整合性を明示的に強化するためのトークンレベルCross-View-Correspondence(CVC)一貫性損失を導入し、訓練と推論の曝露バイアスを軽減し、ドリフトした表現と元の表現を混合することで堅牢な3D多様体を形成するManifold-Drift Forcing(MDF)を提案する。包括的な実験により、OneWorldが最先端の2Dベース手法と比較して、優れた視点間一貫性を備えた高品質な3Dシーンを生成することを実証する。コードはhttps://github.com/SensenGao/OneWorld で公開予定である。
本論文では、シンガポールの言語環境(英語、中国語(北京語)、タミル語、マレー語)に特化したコンパクトな多言語自動音声認識(ASR)モデル群、Polyglot-Lionを提案する。我々のモデルは、Qwen3-ASR-0.6BおよびQwen3-ASR-1.7Bを、公開されている音声コーパスのみを用いてファインチューニングすることで得られた。学習では、各言語のトレーニング発話数を均等化するバランスサンプリング戦略を採用し、意図的に言語タグ条件付けを省略することで、モデルが音声から暗黙的に言語を識別することを学習させるようにした。4つの対象言語にわたる12のベンチマークにおいて、Polyglot-Lion-1.7Bは平均誤り率14.85を達成し、モデルサイズが6倍大きいMERaLiON-2-10B-ASR(14.32)と競合する性能を示した。一方、学習コストは、128GPUベースラインの18,862(通貨単位)に対し、単一のRTX PRO 6000 GPU上で81に抑えられた。推論スループットは、MERaLiONが2.02秒/サンプルであるのに対し、約20倍速い0.10秒/サンプルを実現している。これらの結果は、中規模の事前学習モデルを言語的にバランスよくファインチューニングすることで、大規模な専門システムに比べてはるかに低コストで、実用レベルの多言語ASRを構築できることを示唆している。
拡散モデルは、固定されたコンテンツ非依存のサンプリングスケジュールに制約された、反射的なシステム1モードで動作する。この硬直性は状態次元の呪いに起因しており、高次元ノイズ多様体における可能な状態の組み合わせ爆発が明示的な軌道計画を不可能にし、体系的な計算リソースの誤配分を引き起こす。この問題に対処するため、我々はシステム2に基づく熟慮的計画を可能にする学習不要フレームワーク「Chain-of-Trajectories(CoTj)」を提案する。CoTjの中核を成すのはDiffusion DNAと呼ばれる低次元特徴量であり、これは段階ごとのノイズ除去の困難度を定量化し、高次元状態空間の代理指標として機能する。これにより、サンプリング過程を有向非巡回グラフ上のグラフ計画問題として再定式化することが可能となる。CoTjは「予測-計画-実行」パラダイムを通じて、計算リソースを最も困難な生成段階に動的に配分する。複数の生成モデルを用いた実験により、CoTjが文脈を考慮した軌道を発見し、出力品質と安定性を向上させながら冗長な計算を削減できることを実証した。本研究は、リソースを考慮した計画ベースの拡散モデリングの新たな基盤を確立するものである。コードはhttps://github.com/UnicomAI/CoTj で公開されている。
Retrieval-Augmented Generation (RAG) システムは、複雑なマルチホップ質問に対する課題に直面している。こうした複雑性に対処するため、反復的に動作する Search-R1 (Jin et al., 2025) などのエージェント型フレームワークが提案されている。しかし、このようなアプローチには、過去に処理された情報の繰り返し検索や、検索結果を現在の生成プロンプトに効果的に文脈化する課題など、非効率性が生じる可能性がある。こうした問題は、不必要な検索ターンの発生、最適でない推論、不正確な回答、およびトークン消費量の増加につながりうる。 本論文では、Search-R1 パイプラインに対し、これらの課題を軽減するためのテスト時修正を検討する。具体的には、検索された文書から得られた関連情報を推論により統合する文脈化モジュールと、過去に検索された文書を次点の関連文書で置き換える重複排除モジュール、これら2つのコンポーネントの統合とその組み合わせについて探求する。我々のアプローチを、HotpotQA (Yang et al., 2018) および Natural Questions (Kwiatkowski et al., 2019) データセットを用いて評価し、完全一致(EM)スコア、回答正解性に対するLLM-as-a-Judge評価、平均ターン数を報告する。 文脈化に GPT-4.1-mini を利用した我々の最高性能バリアントは、Search-R1 ベースラインと比較して、EMスコアを5.6%向上させ、ターン数を10.5%削減し、回答精度と検索効率の改善を示した。
HistoAtlasを紹介する。本パン癌計算アトラスは、21種類のTCGA癌種にわたる6,745枚の診断用H&E染色標本から38の解釈可能な組織学的特徴を抽出し、各特徴と生存率、遺伝子発現、体細胞変異、免疫サブタイプとの関連を体系的に解析した。全ての関連は共変量で調整され、多重検定補正が施され、エビデンス強度に基づく階層に分類されている。本アトラスは、免疫浸潤や予後から増殖やキナーゼシグナリングに至る既知の生物学的知見を再現する一方で、組織コンパートメント特異的な免疫シグナルや、異なる転帰を示す形態学的サブタイプを新たに発見した。全ての結果は組織コンパートメントおよび個々の細胞まで空間的に追跡可能で、統計的に較正され、公開された問い合わせシステムを備える。HistoAtlasは、特殊染色やシーケンシングを必要とせず、日常的に用いられるH&E染色標本から、体系的かつ大規模なバイオマーカー発見を可能にする。データおよび対話型ウェブアトラスはhttps://histoatlas.com で無料公開されている。
化学言語モデル(CLM)は、分子特性予測(MPP)タスクにおいて、従来の古典的機械学習モデルに対する有望な競合技術として登場している。しかし、様々なMPPベンチマークタスクにおけるCLMの性能に関して、一貫性のない矛盾した結果が増加する研究によって報告されている。本研究では、MPPにおけるCLMの事前学習およびファインチューニング性能に及ぼす、データセットサイズ、モデルサイズ、標準化などの様々な要因の影響を体系的に調査するため、数百に及ぶ厳密に管理された実験を実施し分析する。エンコーダのみのマスク言語モデルに対する確立されたスケーリング則が存在しない現状において、我々の目的は、MPPタスクにおけるCLMの性能に影響を与える根本的なメカニズムに関する包括的な数値的証拠とより深い理解を提供することである。これらのメカニズムの一部は、関連文献において完全に見落とされているように思われる。
投機的メガ開発のための大規模な土地囲い込みは、その速度、トポロジー、不可逆性が十分に定量化されていない非平衡空間プロセスを構成する。本研究では、インドネシアのジャカルタ北部に位置するパンタイ・インダ・カプック2(PIK2)沿岸メガ開発を、10メートル解像度のSentinel-2土地被覆データ(2017年~2024年、8年間)を用いて分析する。景観はマルクス主義的な確率単体上に投影され、陸域ピクセルを共有地(Commons)、農地(Agrarian)、資本(Capital)の割合に分割する。この単体上のフィッシャー・ラオ(FR)測地線距離により、2019年~2020年に主要な建設活動と一致する0.405 rad/年の変換パルスが検出された。吸収マルコフ連鎖分析によれば、建築環境への予想吸収時間は農地で46.0年、樹木被覆で38.1年であり、建築地域全体の自己滞留率は96.4%であった。パーコレーション分析では、占有確率pが[0.096, 0.162]の範囲(ランダムパーコレーション閾値p_c≈0.593を大幅に下回る)において、全建築ピクセルの89~95%を含む巨大連結クラスターが持続し、空間成長が確率的ではなく計画的であることを示唆する。都市境界のボックスカウント法によるフラクタル次元はd_f=1.316から1.397に増加し、前線の拡大が不規則化していることと整合的である。これらの結果は、情報幾何学および統計力学的ツールが、資本主義的空間蓄積の運動学的・トポロジー的特徴を定量的に記述し得ることを示唆する。