翻訳付きの日次キュレーションされたAI研究論文
物語を紡ぐAIが自らのストーリーを見失う時、何が起きるのか?現在の大規模言語モデル(LLM)は数万字に及ぶ長編ナラティブを生成可能だが、一貫性を維持できないケースが多々見られる。長編ストーリー生成において、これらのモデルは既に設定された事実やキャラクター特性、世界観のルールに矛盾する内容を生成してしまう。既存のストーリー生成評価指標は主にプロットの質と流暢性に焦点を当てており、一貫性の誤りはほとんど検証されていなかった。この課題を解決するため、我々は長編ストーリー生成におけるナラティブの一貫性を評価するベンチマーク「ConStory-Bench」を開発した。本ベンチマークは4つのタスクシナリオにわたる2,000のプロンプトを包含し、19の細粒度サブタイプからなる5つの誤りカテゴリの分類体系を定義する。さらに、矛盾を検出し各判断を明示的なテキスト証拠に基づいて行う自動パイプライン「ConStory-Checker」も構築した。5つの研究課題を通じて様々なLLMを評価した結果、一貫性の誤りには明確な傾向があることが判明:事実関係と時間的次元で最も頻発し、物語の中盤に出現しやすく、トークンレベルのエントロピーが高いテキストセグメントで発生し、特定の誤りタイプは併存しやすい。これらの知見は、長編ナラティブ生成の一貫性改善に向けた今後の取り組みに貢献し得る。プロジェクトページはhttps://picrew.github.io/constory-bench.github.io/で公開中。
空間知能の追求は、大規模で詳細な3Dデータへのアクセスに根本的に依存している。しかし既存の手法では、新たな大規模3Dシーンの体系的なアノテーションではなく、限られた手動注釈データセットから質問応答(QA)ペアを生成することで空間理解ベンチマークを構築するのが主流である。その結果、手法の拡張性は深刻に制約され、モデル性能はこれらの狭く選別されたデータセットに内在するドメインギャップによってさらに阻害されている。 本研究では、提案するデータ精製パイプラインを用いて、人間の介入なしに生の動画入力から構築された、初の完全自動化・大規模・空間認識型マルチモーダルデータセットであるHoli-Spatialを提案する。Holi-Spatialは、深度マップをレンダリングした幾何学的に正確な3D Gaussian Splatting(3DGS)再構成から、オブジェクトレベルおよび関係的意味論的アノテーション、対応する空間的質問応答(QA)ペアまで、マルチレベルの空間的教師信号をサポートする。 原理に基づいた体系的なパイプラインに従い、我々はさらに初の大規模高品質3D意味論データセットであるHoli-Spatial-4Mを構築した。これは12Kの最適化された3DGSシーン、130万の2Dマスク、32万の3Dバウンディングボックス、32万のインスタンスキャプション、120万の3Dグラウンディングインスタンス、そして多様な幾何学的・関係的・意味論的推論タスクに跨る120万の空間的QAペアを含む。 Holi-Spatialはデータ精製品質において卓越した性能を示し、ScanNet、ScanNet++、DL3DVなどのデータセットにおいて、既存のフィードフォワード手法やシーン単位最適化手法を大幅に上回る。さらに、このデータセットを用いて空間推論タスクでVision-Languageモデル(VLM)をファインチューニングした結果、モデル性能の大幅な改善も達成されている。
フィードフォワード型幾何学基礎モデルは短時間ウィンドウの再構成において強力な性能を発揮するが、分単位の長尺ビデオへのスケーリングは、二次的な注意機構の計算量やリカレント設計における限定的な有効メモリによってボトルネックとなっている。本論文ではLoGeR(Long-context Geometric Reconstruction)を提案する。これはポスト最適化を必要とせず、極めて長いシーケンスに対する高密度3次元再構成を可能にする新たなアーキテクチャである。LoGeRはビデオストリームをチャンク単位で処理し、強力な双方向事前分布を活用して高精度なチャンク内推論を実現する。チャンク境界を越えた一貫性維持という重要な課題に対処するため、学習ベースのハイブリッドメモリモジュールを提案する。この二重構成システムは、大域的座標系を固定化しスケールドリフトを防止するパラメトリックなテストタイムトレーニング(TTT)メモリと、高精度な隣接位置合わせのために非圧縮の文脈を保持する非パラメトリックなスライディングウィンドウ注意機構(SWA)を組み合わせたものである。特筆すべきは、このメモリアーキテクチャにより、LoGeRが128フレームのシーケンスで学習しながら、推論時には数千フレームにまで汎化できる点である。標準ベンチマークと、最大19kフレームのシーケンスを有する新たに再構成したVBRデータセットによる評価において、LoGeRは従来の最先端フィードフォワード手法を大幅に上回り(KITTIにおけるATEを74%以上低減)、前例のない長尺シーケンスにわたる頑健で大域的一貫性のある再構成を達成する。
教師なし強化学習による検証可能な報酬(URLVR)は、正解ラベルなしで報酬を導出することで、LLM学習を教師データのボトルネックを超えてスケールさせる経路を提供する。最近の研究ではモデル内の内在的信号を活用する手法が提案され、初期段階で有望な成果を示しているが、その可能性と限界は未だ不明確である。本論文ではURLVRを再検討し、分類体系、理論、および広範な実験にわたる包括的分析を提供する。まずURLVR手法を報酬源に基づいて内在的手法と外部的手法に分類し、次に統一理論フレームワークを確立して、全ての内在的手法がモデルの初期分布のシャープ化に向けて収束することを明らかにする。このシャープ化メカニズムは、初期の信頼度が正しさと一致する場合には成功するが、不一致の場合には壊滅的に失敗する。体系的な実験を通じて、内在的報酬は手法を問わず一貫して「上昇後下降」のパターンに従い、崩壊のタイミングは工学的手法ではなくモデルの事前分布によって決定されることを示す。これらのスケーリング限界にもかかわらず、内在的報酬は小規模データセットに対するテスト時学習において依然として価値があり、モデルの事前分布を測定する「モデル崩壊段階」を提案して、RLの学習可能性に関する実用的指標として機能させる。最後に、計算的非対称性に基づく検証を実現する外部報酬手法を探求し、これらが信頼度-正確性の天井を回避し得る予備的証拠を示す。我々の知見は、内在的URLVRの境界を明示するとともに、スケーラブルな代替手法への道筋を示唆するものである。
大規模推論モデルは、テスト時スケーリング技術の進歩により顕著な性能を発揮している。この技術は、複数の候補回答を生成し、最も信頼性の高い回答を選択することで予測精度を向上させる。従来の研究では、信頼度スコアのような内部モデル信号が回答の正しさを部分的に示し、精度との分布的相関を示すことが分析されてきたが、このような分布情報は回答選択を導くために十分に活用されていなかった。この動機から、我々はDistriVotingを提案する。この手法は、投票時に信頼度に加えて別の信号として分布的事前情報を組み込む。具体的には、本手法は(1)まず混合信頼度分布をガウス混合モデルを用いて正例と負例の成分に分解し、(2)次にそれらから得られた正例/負例サンプルに基づく棄却フィルタを適用して、二つの分布間の重なりを緩和する。さらに、分布そのものの観点から重なりを緩和するため、ステップ単位の信頼度を用いて推論プロセスを動的に調整するSelfStepConfを提案する。これにより、二つの分布間の分離を増大させ、投票における信頼度の信頼性を向上させる。16のモデルと5つのベンチマークにわたる実験により、本手法が最先端手法を大幅に上回ることを実証した。
統合的な拡散モデル編集器は、多様なタスクに対して固定された共有バックボーンに依存することが多く、タスク間の干渉や異種の要求(例:局所的 vs 全局的、意味的 vs 測光的)への適応の悪さに悩まされている。特に広く使われているControlNetやOmniControlの変種では、複数の条件付け信号(例:テキスト、マスク、参照画像)を静的な結合や加法的アダプターで統合しており、矛盾するモダリティを動的に優先または抑制できない。このため、マスク境界を越えた色滲み、アイデンティティやスタイルのドリフト、複数条件入力時の予測不能な動作などのアーティファクトが生じる。この問題に対処するため、我々はモデルの計算を特定の編集能力に合わせるCondition-Aware Routing of Experts (CARE-Edit)を提案する。中核となる軽量な潜在注意ルーターは、マルチモーダル条件と拡散タイムステップに基づいて、符号化された拡散トークンを4つの専門家(テキスト、マスク、参照、ベース)に割り当てる:(i) Mask Repaintモジュールがまず粗いユーザー定義マスクを精密な空間ガイダンスのために修正する;(ii) ルーターはスパースなtop-K選択を適用し、最も関連性の高い専門家への計算を動的に割り当てる;(iii) Latent Mixtureモジュールが専門家の出力を統合し、意味的、空間的、様式的情報をベース画像に首尾一貫して統合する。実験により、CARE-Editが消去、置換、テキスト駆動編集、スタイル転送などの文脈的編集タスクで強力な性能を発揮することを検証した。実証分析はさらに、専門家のタスク特異的な振る舞いを明らかにし、複数条件の衝突を緩和する動的で条件認識的な処理の重要性を示している。
統合マルチモーダルモデル(UMM)の最近の進展は、特に連鎖思考(CoT)推論の統合を通じて、テキストから画像への生成(T2I)を大幅に発展させてきた。しかし、既存のCoTベースのT2I手法は、複雑な空間配置、構造化された視覚要素、高密度のテキスト内容に必要な精度を欠く、抽象的な自然言語計画に大きく依存している。本研究では、推論プロセスを実行可能なコードとして表現し、画像生成のための明示的かつ検証可能な中間計画を可能にするコード駆動型推論フレームワーク「CoCo(Code-as-CoT)」を提案する。テキストプロンプトが与えられると、CoCoはまずシーンの構造的レイアウトを指定する実行可能なコードを生成し、これをサンドボックス環境で実行して決定論的ドラフト画像をレンダリングする。その後、モデルはこのドラフトを細粒度の画像編集によって洗練し、最終的な高忠実度の結果を生成する。この学習パラダイムを支援するため、構造化ドラフト構築と修正的視覚洗練の両方を学習させるために設計された、構造化されたドラフト-最終画像ペアを含む精選データセットCoCo-10Kを構築した。StructT2IBench、OneIG-Bench、LongText-Benchによる実証的評価では、CoCoが直接生成法に対してそれぞれ+68.83%、+54.8%、+41.23%の改善を達成し、CoTを活用した他の生成手法も凌駕することを示した。これらの結果は、実行可能コードが、精密で制御可能かつ構造化されたテキストから画像への生成のための、効果的かつ信頼性の高い推論パラダイムであることを実証している。コードは以下で公開されている:https://github.com/micky-li-hd/CoCo
オートリグレッシブ(AR)拡散は、理論的に無限の長さのビデオを生成する有望なフレームワークを提供する。しかし、誤差蓄積による画質の漸次的劣化を防ぎながら時間的連続性を維持することが主要な課題である。既存手法では連続性を確保するため、高度にノイズ除去されたコンテキストを条件付けすることが一般的だが、この手法は予測誤差を高い確実性で伝播させ、劣化を悪化させる。本論文では、高度にクリーンなコンテキストは不要であると主張する。双方向拡散モデルから着想を得て、フレームを共有ノイズレベルでノイズ除去しながら一貫性を維持する手法に基づき、現在のブロックと同一ノイズレベルのコンテキストを条件付けることで、時間的一貫性のための十分な信号を提供しつつ、誤差伝播を効果的に軽減できることを提案する。この知見に基づき、我々はHiARを提案する。これは従来の生成順序を逆転させた階層的ノイズ除去フレームワークであり、各ブロックを順次完了させる代わりに、すべてのノイズ除去ステップにおいて全ブロックにわたって因果的生成を行う。これにより、各ブロックは常に同一ノイズレベルのコンテキストを条件付けされる。この階層構造はパイプライン化された並列推論を自然に可能とし、我々の4ステップ設定では実時間で1.8倍の高速化を実現した。さらに、このパラダイム下での自己ロールアウト蒸留は、最頻値指向の逆KL目的関数に内在する低モーションショートカットを増幅することが観察された。これに対抗するため、双方向アテンションモードにおける順方向KL正則化を導入し、蒸留損失を妨げることなく因果推論のためのモーション多様性を保持する。VBench(20秒生成)において、HiARは比較対象全ての手法の中で最高の総合スコアと最低の時間的ドリフトを達成した。
言語モデル(LM)がチャットアシスタントから、多段階推論やツール利用が可能な長期的エージェントへと進化する中、既存のベンチマークは依然として、現実世界の専門的な要求に十分対応できない構造化された試験形式の課題に留まっています。この問題に対処するため、我々は **OneMillion-Bench** を提案します。これは、法律、金融、産業、医療、自然科学にわたる専門家によって精選された400のタスクから構成されるベンチマークであり、経済的に重要なシナリオにおけるエージェントの評価を目的として構築されました。従来の研究とは異なり、このベンチマークでは、信頼できる情報源の検索、矛盾する証拠の解決、ドメイン固有のルールの適用、制約条件下での意思決定が要求され、その正しさは最終的な答えだけでなく推論プロセスにも依存します。我々は、事実の正確性、論理的一貫性、実現可能性、専門的な遵守状況を評価するルーブリックベースの評価プロトコルを採用し、専門家レベルの問題に焦点を当てることで、エージェント間の有意義な差別化を保証します。OneMillion-Benchは、ドメイン集約的なシナリオにおいて、エージェントの信頼性、専門性の深さ、実用性の準備状態を評価するための統一的なテストベッドを提供します。
自己回帰(AR)型LLMベースの音声認識システムは高い精度を達成する一方で、その逐次的な復号化プロセスは並列性に制限があり、高レイテンシを招く。本研究では、音声認識を条件付き転記編集として定式化し、完全並列予測を可能とする非自己回帰(NAR)アプローチ「NLE」を提案する。NLEは、事前学習済み音声エンコーダから音響埋め込みと初期仮説を抽出し、潜在アライメント目的で学習した双方向LLMエディタを用いて仮説を精緻化する。インターリーブ・パディング戦略はTransformerの恒等写像バイアスを活用し、モデルが完全再構成ではなく修正に集中できるようにする。Open ASRリーダーボードでは、NLE++が5.67%の平均WERと1630のRTFx(実時間係数の逆数)を達成した。単一発話シナリオでは、NLEはARベースライン比27倍の高速化を実現し、リアルタイム応用に適している。
大規模なツールエコシステム上で動作するエージェントシステムは、検証が困難あるいは不可能な監督条件下で、長期的なワークフローの計画と実行を求められる。フロンティアモデルは、スケールと大きなコンテキスト予算によってこれらの課題を緩和するが、小型言語モデル(SLM)は依然として脆いままである。すなわち、ツールの過剰読み込みはコンテキストを飽和させ、実行エラーは時間とともに増幅し、希薄な報酬は学習を制限する。本論文では、SLMが大規模ツール空間環境で効果的に動作することを可能にする強化学習ファインチューニングフレームワーク「ATLAS」を提案する。本手法は、コンテキストの取得方法とアクションの実行方法を学習させるものである。我々のアプローチは2つの主要な貢献をもたらす。第一に、コンテキスト制御と実行構造を学習可能な意思決定として扱い、反復的なツール読み込みとプログラム的なツールオーケストレーションを組み合わせることで、コンテキストの肥大化を抑制し、長期的な軌道を安定させる。第二に、ルーブリックに基づく強化学習ファインバーニングを提案する。これはタスクの成功を構造化されたタスク整合的な基準に分解し、小型の判定モデルを用いたスケーラブルな訓練を可能にする。MCPベンチマークにおける実験では、これらの設計選択が汎用的な強化学習ベースラインを大きく上回る一貫した性能向上をもたらし、40億パラメータのSLMが、はるかに厳しいパラメータとコンテキスト予算のもとでフロンティアエージェントの性能に迫ることを可能にした。
本論文ではAutoResearch-RLを提案する。これは、強化学習エージェントが人間の監督なしにオープンエンドなニューラルアーキテクチャとハイパーパラメータの研究を実施し、終了オラクルが収束またはリソース枯渇を通知するまで永続的に実行するフレームワークである。各ステップで、エージェントは対象の訓練スクリプトに対するコード修正を提案し、固定されたウォールクロック時間予算の下でそれを実行し、検証ビット毎バイト(val-bpb)から導出されたスカラー報酬を観測し、近接方策最適化(PPO)を用いて方策を更新する。 重要な設計上の洞察は、以下の3つの関心の分離にある。(i) 実験間の公平な比較を保証する固定環境(データパイプライン、評価プロトコル、定数)、(ii) エージェントが編集可能な状態を表す変更可能な対象ファイル(train.py)、(iii) 実験結果の軌跡を蓄積し、その後の提案に活用するメタ学習器(RLエージェント自体)である。 これをマルコフ決定過程として定式化し、穏やかな仮定の下で収束保証を導出する。さらに、単一GPUを用いたナノチャット事前学習ベンチマークにおける実証実験により、AutoResearch-RLが約300回の夜間反復後に、人手で調整されたベースラインを匹敵または凌駕する設定を発見できることを示す。この過程に人間は一切関与しない。
現在のグラフィカルユーザーインターフェース(GUI)エージェントは、主に反応的なパラダイムの下で動作している。つまり、ユーザーがエージェントにタスクを実行させるためには、明示的な指示を与える必要がある。しかし、知能的なAIアシスタントは能動的であるべきであり、モバイルやデスクトップのスクリーンショットのような連続的な視覚入力を直接読み取り、ユーザーの意図を予測し、明示的なプロンプトなしでタイムリーな提案を行う能力を備えている必要がある。この能動的パラダイムへの移行には、重大な課題が存在する。現実世界の画面活動は線形的であることは稀であり、ノイズの多いブラウジング、無意味なアクション、マルチスレッドによるタスク切り替えに満ちた長期的な軌跡で構成されている。このギャップを埋めるため、我々はPIRA-Bench(Proactive Intent Recommendation Agent Benchmark)を提案する。これは、連続的で弱教師付きの視覚入力に対するマルチモーダル大規模言語モデル(MLLM)の評価を目的とした新しいベンチマークである。反応的なデータセットとは異なり、PIRA-Benchは、複数の意図が交錯する複雑な軌跡と、様々なユーザープロファイルコンテキストを含むノイズの多いセグメントを特徴とし、エージェントがユーザーの嗜好に合わせながら実行可能なイベントを検出する能力に挑戦する。さらに、我々はPIRFベースラインを提案する。これはメモリを考慮した状態追跡フレームワークであり、汎用MLLMが複数のタスクスレッドを管理し、誤解を招く視覚入力を処理することを可能にする。PIRA-Benchは、堅牢で能動的なGUIベースの個人用アシスタントに向けた第一歩として機能する。
拡散モデルはノイズを通じて画像を劣化させ、この過程を逆転させることで時間ステップ間の情報階層が明らかになる。スケール空間理論も、ローパスフィルタリングを通じて同様の階層性を示す。本研究ではこの関連性を形式化し、高ノイズの拡散状態が、小さなダウンサンプリング画像以上の情報を含まないことを示す。これは、なぜそれらがフル解像度で処理されなければならないのかという疑問を提起する。この問題に対処するため、一般化された線形劣化と実用的な実装を備えた拡散モデルのファミリーを定式化し、スケール空間を拡散過程に融合させる。ダウンサンプリングを劣化として用いることで、我々が提案するScale Space Diffusionが得られる。Scale Space Diffusionを支援するため、ネットワークの必要な部分のみを使用して解像度維持および解像度向上のノイズ除去を行うUNet変種であるFlexi-UNetを導入する。CelebAとImageNetにおいて本フレームワークを評価し、解像度とネットワーク深度にわたるスケーリング挙動を分析する。プロジェクトウェブサイト(https://prateksha.github.io/projects/scale-space-diffusion/)は公開されている。
現在の動画生成モデルは高い計算遅延に悩まされており、リアルタイム応用の実現にはコストがかかりすぎる課題がある。本論文では、動画潜在パッチに内在する時間的冗長性を活用することでこの課題に取り組む。具体的には、重複した潜在パッチの再計算を検出・スキップするLIPAR(Latent Inter-frame Pruning with Attention Recovery)フレームワークを提案する。さらに、刈り込まれたトークンのアテンション値を近似する新しいAttention Recovery機構を導入し、単純な刈り込み手法の適用によって生じる視覚的ノイズを除去する。実験では、本手法により動画編集の処理効率が1.45倍向上し、NVIDIA A6000においてベースラインの8.4 FPSに対し平均12.2 FPSを達成した。提案手法は生成品質を損なわず、追加の学習なしでモデルにシームレスに統合可能である。本アプローチは、従来の圧縮アルゴリズムと現代的な生成パイプラインの間の隔たりを効果的に埋めるものである。
数ステップ生成モデルは、大幅に低コストで強力な画像・動画生成を可能にしたが、数ステップモデル向けの汎用的な強化学習(RL)パラダイムは未解決の問題である。既存の数ステップ拡散モデル向けRL手法は、微分可能な報酬モデルによる誤差逆伝播に強く依存しており、人間の二値的嗜好性や物体数など、非微分可能な報酬を含む現実世界の重要な報酬信号の大半を排除してしまう。非微分可能な報酬を適切に組み込み、数ステップ生成モデルを改善するため、我々は主要な数ステップモデルであるTrajectory Distribution Matching (TDM) に基づく新しい強化学習パラダイム、TDM-R1を提案する。TDM-R1は学習プロセスを代理報酬学習と生成器学習に分離する。さらに、TDMの決定論的生成軌跡に沿ったステップ単位の報酬信号を取得する実用的な手法を開発し、数ステップモデルの汎用報酬への適応能力を大幅に改善する統一RL事後学習法を実現した。テキスト描画、視覚的品質、選好順応にわたる広範な実験を実施し、全ての結果がTDM-R1が数ステップテキストto画像モデル向けの強力なRLパラダイムであり、ドメイン内・ドメイン外指標の両方で最先端のRL性能を達成することを示す。さらに、TDM-R1は最近の強力なZ-Imageモデルにも効果的にスケールし、4NFEのみで100-NFE版及び数ステップ版の両方を一貫して上回る。プロジェクトページ: https://github.com/Luo-Yihong/TDM-R1
大規模言語モデル(LLM)は強力な汎用能力を示しているが、金融分野への適用は、専門用語の密集、厳密な数値推論要件、事実誤りへの許容度の低さから依然として困難である。我々は制御された実証研究を通じ、専門的な垂直領域では性能が学習後データの品質と難易度/検証可能性の特性に大きく依存することを示す。高品質な連鎖的思考(Chain-of-Thought)教師データを構築するため、多段階の蒸留と検証を経て作成したODA-Fin-SFT-318kと、報酬精度と課題多様性のバランスが取れた検証可能な難易度の高い課題向けに精選したODA-Fin-RL-12kを提案する。標準的なSFTとRLパイプラインを用いた実験により、高品質なCoT蒸留がSFT段階で堅牢な基盤を構築し、難易度と検証可能性を考慮したサンプリングがRLの汎化性能を向上させることを実証する。一般的な金融タスク、感情分析、数値推論を含む9種類のベンチマークで評価した結果、我々のODA-Fin-RL-8Bモデルは同等規模のオープンソース金融LLMの最先端性能を一貫して上回った。データ中心の金融AI研究の推進に向け、ODA-Fin-SFT-318kとODA-Fin-RL-12kデータセット、および学習済みモデルを公開する。
大規模言語モデル(LLM)を自律エージェントとして訓練する際、初期段階では模倣学習が用いられることが多い。しかし、この方法ではエージェントに「何をすべきか」は教えられるものの、「なぜそうすべきか」という理解が欠如している。エージェントは成功した行動と最適でない代替案を対比することがないため、行動の質に対する認識が育たないのである。この問題に対処するため、最近の研究では専門家の行動と代替行動の対比から得られる自己内省の監督信号を導入する手法が提案されている。しかし、その訓練パラダイムは根本的には模倣学習の枠組みを脱しておらず、モデルは事前に構築された内省テキストを模倣するだけで、自律的に推論する能力を学習しているわけではない。 本研究では、強化学習のパラダイムであるAgentic Critical Training(ACT)を提案する。ACTは、エージェントが複数の選択肢の中からより良い行動を特定することを学習させる。モデルの判断が正しいかどうかに基づいて報酬を与えることで、ACTはモデルが自律的に行動の質に関する推論能力を発達させ、模倣ではなく真の自己内省を生み出すように導く。 3つの難易度の高いエージェントベンチマークにおいて、ACTは様々な事後訓練手法と組み合わせることで、一貫してエージェントの性能を向上させた。平均改善点は、模倣学習ベースラインに対して5.07ポイント、強化学習ベースラインに対して4.62ポイントに達した。知識蒸留によって内省能力を付与する手法と比較しても、ACTは明確な優位性を示し、平均2.42ポイントの改善を達成した。さらに、ACTはエージェントベンチマークにおいて強力な分布外一般化を実現し、推論専用の訓練データを一切用いない場合でも、一般的な推論ベンチマークの性能を向上させた。これは本手法の価値を際立たせている。 これらの結果は、ACTがより内省的で能力の高いLLMエージェントを開発するための有望な道筋であることを示唆している。
Vision Transformer (ViT) は、意味的に有意義な特徴ではなく、背景の手がかりなどの擬似的相関に依存するため、分布シフトの下で性能が低下することが多い。既存の正則化手法は、通常、単純な前景-背景マスクに依存しており、オブジェクトを定義する細粒度の意味的概念(例:「鳥」に対する「長いくちばし」や「翼」)を捉えることができない。その結果、これらの手法は分布シフトに対する頑健性が限られている。この限界に対処するため、我々はモデルの推論を概念レベルの意味論に向けて誘導する新しいファインチューニングフレームワークを提案する。本手法は、モデルの内部的な関連性マップを、空間的に接地された概念マスクに整合するように最適化する。これらのマスクは、手動のアノテーションを必要とせず自動的に生成される:クラス関連概念は、まずLLMベースのラベル不要手法を用いて提案され、次にVLMを用いてセグメンテーションされる。ファインチューニングの目的は、関連性をこれらの概念領域に整合させると同時に、擬似的な背景領域への注目を抑制することである。特筆すべきは、このプロセスがごく少数の画像セットのみを必要とし、データセットクラスの半分を使用することである。5つの分布外ベンチマークにおける大規模な実験により、本手法が複数のViTベースモデルにおいて頑健性を向上させることを実証した。さらに、得られた関連性マップが意味的オブジェクトパーツとの強い整合性を示し、より頑健で解釈可能な視覚モデルへのスケーラブルな道筋を提供することを示す。最後に、概念誘導マスクが従来のセグメンテーションマップよりもモデルの頑健性に対してより効果的な監督を提供することを確認し、我々の中心的な仮説を支持する。
マルチモーダル大規模推論モデル(MLRM)の学習において、コールドスタート初期化段階は極めて重要な役割を果たすが、そのメカニズムは十分に解明されていない。本論文ではこの段階を分析するため、視覚トークンへのモデルの注目度を定量化するアテンションベースの指標であるVisual Attention Score(VAS)を提案する。推論性能とVASには強い相関(r=0.9616)が認められ、VASが高いモデルほどマルチモーダル推論性能が大幅に向上することが明らかになった。驚くべきことに、マルチモーダル条件でのコールドスタートはVASを向上させず、ベースモデルに近いアテンション分布を示す一方、テキストのみのコールドスタートでは明確なVASの上昇が観測された。この直感に反する現象を我々はLazy Attention Localizationと命名する。その因果関係を検証するため、推論時にアテンション配分を直接制御するトレーニング不要な介入手法を設計したところ、再学習を一切行わずに1-2%の性能向上を達成した。これらの知見に基づき、視覚的アンカーに基づくデータ合成、アテンション誘導型目的関数、視覚的アンカーに基づく報酬形成を統合した総合的なコールドスタートフレームワークAVARを提案する。Qwen2.5-VL-7Bへの適用実験により、7種のマルチモーダル推論ベンチマークで平均7.0%の性能向上を実現した。削除実験により、AVARの各構成要素が段階的に全体の性能向上に寄与していることも確認された。コード、データ、モデルはhttps://github.com/lrlbbzl/Qwen-AVAR で公開している。
既存の概念カスタマイズ手法は、高忠実度かつ複数概念のカスタマイズにおいて顕著な成果を上げている。しかしながら、新しい個人化概念を学習する際に、元のモデルの振る舞いや能力へ与える影響が軽視されがちである。この問題に対処するため、我々はPureCCを提案する。PureCCは、概念カスタマイズのための新しい分離学習目標を導入し、ターゲット概念の暗黙的ガイダンスと元の条件付き予測を組み合わせる。この分離形式により、PureCCは学習過程中に元のモデルに大幅に集中することが可能となる。さらに、この目標に基づき、PureCCは、精製されたターゲット概念表現を暗黙的ガイダンスとして提供する凍結エキストラクタと、元の条件付き予測を生成する学習可能なフローモデルを含むデュアルブランチ学習パイプラインを設計し、個人化概念のための純粋な学習を共同で達成する。加えて、PureCCは新しい適応的ガイダンススケールλ^*を導入し、ターゲット概念のガイダンス強度を動的に調整することで、カスタマイズの忠実度とモデル保存のバランスを取る。大規模な実験により、PureCCが高忠実度な概念カスタマイズを可能にしながら、元の振る舞いと能力の保存において最先端の性能を達成することが示された。コードはhttps://github.com/lzc-sg/PureCC で公開されている。
AIコーディング支援の状況は、複雑なIDEプラグインから多機能なターミナルネイティブエージェントへと、根本的な転換を遂げつつある。開発者がソース管理、ビルド実行、環境デプロイを直接行う場で動作するCLIベースのエージェントは、長期にわたる開発タスクに対して前例のない自律性を提供する。本論文では、この新たなパラダイムに特化して設計されたオープンソースのコマンドラインコーディングエージェント「OPENDEV」を提案する。効果的な自律支援には、コンテキストの肥大化と推論能力の低下を防ぐため、厳格な安全制御と高効率なコンテキスト管理が不可欠である。OPENDEVは、ワークロード特化型モデルルーティングを備えた複合AIシステムアーキテクチャ、計画と実行を分離したデュアルエージェントアーキテクチャ、レイジーツールディスカバリ、古い観察結果を段階的に削減する適応的コンテキスト圧縮を通じて、これらの課題を克服する。さらに、自動化されたメモリシステムを採用してセッションを跨いだプロジェクト固有の知識を蓄積し、イベント駆動型のシステムリマインダーにより指示のフェードアウトに対抗する。明示的な推論フェーズの強制とコンテキスト効率の優先化により、OPENDEVはターミナルファーストのAI支援に向けた安全で拡張性の高い基盤を提供し、堅牢な自律的ソフトウェアエンジニアリングの青写真を提示する。
自己回帰(AR)言語モデルは因果的トークン化に依存するが、このパラダイムを視覚領域に拡張することは依然として容易ではない。現在の視覚トークナイザーは、2Dパッチを非因果的系列に平坦化するか、「次トークン予測」パターンと整合しないヒューリスティックな順序付けを強制している。最近の拡散オートエンコーダも同様に限界がある:デコーダを全トークンで条件付けると因果性が欠如し、ネストされたドロップアウト機構を適用すると不均衡が生じる。これらの課題に対処するため、本論文ではMeanFlowデコーダを備えた1D因果的画像トークナイザーCaTokを提案する。図1に示すように、時間間隔でトークンを選択しMeanFlow目的関数に紐付けることで、CaTokは高速な1ステップ生成と高精細なマルチステップサンプリングを両立しつつ、トークン間隔にわたる多様な視覚概念を自然に捕捉する因果的1D表現を学習する。訓練の安定化と高速化をさらに図るため、エンコーダ特徴を視覚基盤モデル(VFM)と整合させる単純な正則化REPA-Aを提案する。実験により、CaTokがImageNet再構築において0.75 FID、22.53 PSNR、0.674 SSIMというstate-of-the-art結果を少ない訓練エポックで達成し、ARモデルが主要手法に匹敵する性能を得ることを実証する。
CLIPベースのプロンプトチューニングは、事前学習済み視覚言語モデル(VLM)が下流タスクに効率的に適応することを可能にする。既存研究は大きな進展を見せているが、チューニング過程におけるVLMの内部注意表現の変化には十分な注意が払われていない。本論文では、プロンプトチューニング予測の失敗モードを視覚エンコーダの前景注意のシフトに帰因させ、このシフトを緩和するために適応的プラグアンドプレイ型の前景注意ガイダンスモジュールであるForeground View-Guided Prompt Tuning(FVG-PT)を提案する。具体的には、FVG-PTは学習可能な前景信頼性ゲートを導入して前景ビューの品質を自動的に向上させ、前景蒸留補償モジュールを適用して視覚的注意を前景に向けさせ、さらに前景への過度な集中による一般化性能の低下を軽減するための事前較正モジュールを導入する。複数のバックボーンモデルとデータセットを用いた実験により、FVG-PTの有効性と互換性が示されている。コードはhttps://github.com/JREion/FVG-PT で公開されている。
次世代コード生成モデルの訓練には高品質なデータセットが不可欠であるが、既存のデータセットは難易度の不均衡、形式の不一致、データ品質の問題に直面している。我々はこれらの課題を、体系的なデータ処理と難易度スケーリングによって解決する。収集、処理、フィルタリング、検証の4段階からなるデータ処理フレームワークを導入し、LLMベースの予測-較正-選択フレームワークによる自動難易度フィルタリングを組み込む。この手法は5つの重み付け次元にわたる多次元難易度指標を活用し、単純な問題を除去しながら挑戦的な問題を保持する。その結果得られたMicroCoderデータセットは、多様なプラットフォームから収集された数万件の精選された実競技プログラミング問題で構成され、新規性と難易度を重視している。厳密に未見のLiveCodeBenchによる評価では、MicroCoderが同等規模の広く使用されているベースラインデータセットと比較して、300訓練ステップ以内で3倍大きな性能向上を達成し、GRPO及びその変種訓練アルゴリズムの両方で一貫した優位性を示した。MicroCoderデータセットは、様々なモデルサイズにおいて中程度及び困難な問題で明らかな改善をもたらし、モデル能力が最大限に引き出される場面では総合性能で最大17.2%の相対的向上を達成した。これらの結果は、難易度を考慮したデータ選定が困難な課題におけるモデル性能を向上させることを実証し、コード生成におけるデータセット作成に複数の示唆を提供する。
現代のコード生成モデルは、より長い出力、加速する能力向上、変化する学習ダイナミクスを示し、従来の学習方法論・アルゴリズム・データセットでは性能向上が困難となっている。これらの学習ボトルネックに対処するため、本論文ではMicroCoder-GRPOを提案する。これは改良版Group Relative Policy Optimizationアプローチであり、3つの革新を備える:(1) 学習安定性を維持しつつ長文出力の可能性を高める条件付き切り捨てマスキング、(2) 出力多様性を維持・促進する多様性基準温度選択、(3) 解の多様性を促進する高クリップ比率でのKL損失除去である。MicroCoder-GRPOはLiveCodeBench v6において強力なベースライン比で最大17.6%の相対改善を達成し、拡張コンテキスト評価ではより顕著な効果を示した。さらに、300学習ステップで主流データセット比3倍の性能向上を実現する高難度学習コーパスMicroCoder-Datasetと、評価精度約25%向上・実行速度約40%高速化を実現する頑健な評価フレームワークMicroCoder-Evaluatorを公開する。30以上の制御実験を通じた包括的分析により、7つの主要側面にわたる34の学習知見を明らかにし、適切に学習されたモデルが大規模モデルに匹敵する性能を達成可能であることを実証する。
半構造化N:Mスパース性と低ビット量子化(例:1.58ビットBitNet)は、大規模言語モデル(LLM)の効率化を図る上で有望な二つの手法であるが、これまで個別に研究されることがほとんどであった。本研究では、これらの相互作用を調査し、1.58ビットBitNetが、フル精度モデルと比較してN:Mスパース性と自然に高い互換性を持つことを示す。この効果を検証するため、我々はSparse-BitNetを提案する。これは、1.58ビット量子化と動的N:Mスパース化を統合的に適用し、かつ初めて安定した訓練を実現するフレームワークである。様々なモデル規模と訓練方式(スパース事前学習および密からスパースへの段階的適用)において、1.58ビットBitNetは、同じスパース性レベルにおいてフル精度ベースラインよりも一貫して性能劣化が小さく、精度が急落する前に高い構造化スパース性を許容できる。さらに、カスタム設計したスパーステンソルコアを利用することで、Sparse-BitNetは訓練と推論の両方で実質的な高速化を達成し、最大1.30倍に達する。これらの結果は、極低ビット量子化と半構造化N:Mスパース性の組み合わせが、効率的なLLMの実現に向けた有望な方向性であることを示唆している。コードはhttps://github.com/AAzdi/Sparse-BitNet で公開されている。
視覚言語モデル(VLM)は、視覚的観測、運転コンテキスト、言語ベースの推論を統合的にモデル化することで、エンドツーエンドの自動運転(AD)における有望な方向性として登場した。しかし、既存のVLMベースのシステムは、高水準の推論と動作計画の間でトレードオフに直面している。大規模モデルは強力な意味理解を提供するが、精密な制御への適応コストが高く、一方で小型VLMモデルは効率的に微調整可能であるが、往々にして推論能力が弱い。本論文では、大規模ナビゲータと軽量学習可能なドライバを用いて、推論と行動生成を分離する脱結合型フレームワークNaviDriveVLMを提案する。この設計は推論能力を保持し、学習コストを削減し、下流の計画のための明示的で解釈可能な中間表現を提供する。nuScenesベンチマークによる実験では、NaviDriveVLMがエンドツーエンドの動作計画において大規模VLMベースラインを上回ることを示す。
動画コンテンツ制作が長編ナラティブへと移行する中、短いクリップを首尾一貫したストーリーラインに構成することの重要性が高まっている。しかし、現在主流の検索手法は、推論時に文脈を考慮せず、局所的な意味的整合性を優先する一方で、状態やアイデンティティの一貫性を軽視している。この構造的限界に対処するため、我々は一貫性のある動画検索(Consistent Video Retrieval: CVR)タスクを形式化し、YouCook2、COIN、CrossTaskにまたがる診断ベンチマークを導入する。さらに、多様な凍結された視覚言語埋め込み空間と互換性のある、軽量でプラグアンドプレイ可能なアダプタであるCAST(Context-Aware State Transition)を提案する。CASTは、視覚的履歴から状態を条件付けた残差更新(Δ)を予測することにより、潜在状態の遷移に対して明示的な帰納的バイアスを導入する。大規模な実験により、CASTがYouCook2およびCrossTaskでの性能を向上させ、COINでは競争力を維持し、様々な基盤バックボーンにおいてゼロショットベースラインを一貫して上回ることを示す。さらに、CASTはブラックボックス型の動画生成候補(例:Veoからの出力)に対して有用な再ランキング信号を提供し、より時間的に一貫性のある続編の生成を促進する。
自己回帰(AR)言語モデルは左から右への予測を通じて段階的に表現を形成するのに対し、拡散言語モデル(dLLM)は全文のノイズ除去によって学習されます。近年のdLLMはARモデルと同等の性能を達成していますが、拡散目標が内部表現を深層にわたって根本的に再形成するかどうかは未解明のままでした。本研究では、ネイティブdLLM(LLaDA)、ネイティブARモデル(Qwen2.5)、AR初期化dLLM(Dream-7B)を比較し、層単位・トークン単位での表現分析を初めて実施しました。その結果、拡散目標はより階層的な抽象化をもたらし、下位層で大幅な冗長性と近接バイアスの低減が見られる一方、AR目標は密結合で深度依存的な表現を生成することが明らかになりました。決定的に、AR初期化dLLMは拡散学習後もAR的な表現動態を保持し、初期化バイアスの持続性が示されました。この観測された表現の冗長性を活用し、アーキテクチャ変更やKVキャッシュ共有を必要としない静的・タスク非依存の推論時層スキップ手法を提案します。ネイティブdLLMは推論・コード生成ベンチマークで90%以上の性能を維持しつつ最大18.75%のFLOPs削減を達成したのに対し、ARモデルは同等のスキップ条件下で性能が急激に劣化しました。これらの結果は学習目標と表現構造の関連性を明示するとともに、キャッシュ機構と直交する実用的な効率化手法を可能にします。
直接的なプロンプトベースの編集は、複雑な変換においてしばしば失敗します。それは、曖昧で主観的なプロンプトが、画像のどの部分を変更すべきかという微妙な理解を必要とするためです。我々の核心的な直感は、直接的なプロンプトではなく、構成的な画像編集ツールを活用することが、明示的な推論を伴う構造化されたエージェントレベルの計画から利益を得られ、より良い結果につながるというものです。この構造化された計画フレームワークは、品質評価された軌跡に対する効率的なオフライン強化学習による事後学習を可能にし、性能を向上させます。本論文では、連鎖的思考推論による構造化された計画を通じてこの問題に取り組む、ツールベースのエージェント的強化学習事後学習フレームワークを提案します。我々の主な貢献は以下の通りです:(1) 直交的な原始変換の構成的ライブラリ、構造化されたコンテキスト表現、明示的なステップごとの推論を組み合わせることで、複雑なスタイリングを解釈可能なツール列に分解する、ツールベースのエージェント的計画手法。(2) 既存のデータセットには存在しない、推論連鎖、計画、品質スコアを含む3つの大規模データセット(各シミュレーション10,000軌跡)を生成する合成データ生成パイプライン。データセットとコードはHuggingFaceリポジトリで公開しています。(3) 推論機能を持つ計画器を学習するためのオフライン強化学習手法(我々の核心的なアルゴリズム的貢献)。これは視覚的品質と指示追従性においてEdit-Onlyベースラインを一貫して改善します。(4) 40億パラメータおよび80億パラメータのQwen3-VLモデルを用いた包括的評価により、我々の手法が大部分の構成的タスクにおいて他のベースラインを上回ることを示し、人間による評価で検証しました。
我々はOfficeQA Proを紹介する。これは、大規模で多様な文書コーパスに対する、文書に基づいた(grounded)複数文書推論においてAIエージェントを評価するためのベンチマークである。コーパスは約100年にわたる米国財務省公報(U.S. Treasury Bulletins)で構成され、89,000ページ、2,600万を超える数値を含む。OfficeQA Proは、非構造化テキストと表形式データの両方にわたる、精密な文書解析、検索、分析的推論を必要とする133の質問から成る。Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro PreviewなどのフロンティアLLMは、パラメトリック知識のみに依存した場合、OfficeQA Proでの正解率が5%未満であり、ウェブへの追加アクセスがあっても12%未満である。文書コーパスを直接与えられた場合でも、フロンティアエージェントは質問の半数以上で困難を示し、平均スコアは34.1%であった。Databricksのai_parse_documentによって生成された構造化文書表現をエージェントに提供すると、エージェント間で平均16.1%の相対的性能向上が得られることがわかった。我々はさらに、モデル選択、表表現、検索戦略、テスト時スケーリングが性能に与える影響を調査するため、追加の ablation 実験を実施した。これらの改善にもかかわらず、エージェントが企業レベルの文書に基づく推論において信頼できると見なされるには、まだ大きな改善の余地が残されている。
基盤モデルは、オフラインの予測器から、長期的な運用が期待される配備システムへと移行しつつある。実際の運用環境では、目的は固定されていない。ドメインは変動し、ユーザーの嗜好は変化し、モデル配布後に新たなタスクが出現する。これにより、継続学習と即時パーソナライゼーションは、オプション機能から中核的なアーキテクチャ要件へと格上げされている。しかし、現在の適応パイプラインの多くは依然として静的な重みのパラダイムに従っている:学習後(あるいは適応ステップ後)の推論では、ユーザーの意図やドメイン、インスタンス固有の制約に関わらず、単一のパラメータベクトルが実行される。これは、学習済みまたは適応済みのモデルをパラメータ空間内の単一点として扱うことになる。不均質で継続的に進化する環境では、異なる目的がパラメータ空間内で分離した実行可能領域を誘導するため、単一の共有更新は妥協、干渉、または過度の特化を強いられる。結果として、継続学習とパーソナライゼーションは、共有重みの繰り返し上書きとして実装されることが多く、以前に学習した振る舞いの劣化リスクを伴う。本研究では、HY-WU(Weight Unleashing)を提案する。これは、単一の共有パラメータ点の上書きから適応の負荷を移す、メモリファーストの適応フレームワークである。HY-WUは、機能的な(演算子レベルの)メモリをニューラルモジュールとして実装する。これは、インスタンスの条件から重み更新をオンザフライで合成するジェネレータであり、テスト時の最適化なしでインスタンス固有の演算子を生成する。
近年の生成的ビデオ世界モデルは、視覚環境の進化をシミュレートし、観察者がカメラ制御を通じてインタラクティブにシーンを探索できることを目指している。しかし、これらのモデルは暗黙的に、世界の進化が観察者の視野内でのみ生じることを前提としている。一度オブジェクトが観察者の視界から外れると、その状態は記憶内で「凍結」され、後で同じ領域を再訪しても、その間に発生しているはずの事象が反映されないことが多い。本研究では、この見過ごされていた限界を「視野外ダイナミクス」問題として特定し、形式化する。この問題は、ビデオ世界モデルが継続的に進化する世界を表現することを妨げている。この問題に対処するため、我々はビデオ世界モデルを拡張し、永続的な世界進化をサポートする新しいフレームワークであるLiveWorldを提案する。LiveWorldは、世界を静的な観測記憶として扱うのではなく、静的な3D背景と、観測されていない間も進化し続ける動的エンティティから構成される永続的なグローバル状態をモデル化する。これらの見えないダイナミクスを維持するために、LiveWorldはモニターベースのメカニズムを導入する。これは能動的なエンティティの時間的進行を自律的にシミュレートし、再訪時に進化した状態を同期することで、空間的に一貫したレンダリングを保証する。評価のために、我々は視野外ダイナミクス維持タスク専用のベンチマークであるLiveBenchをさらに導入する。大規模な実験により、LiveWorldが永続的なイベント進化と長期的なシーン一貫性を実現し、既存の2D観測ベースの記憶と真の4D動的世界シミュレーションの間のギャップを埋めることが示された。ベースラインとベンチマークはhttps://zichengduan.github.io/LiveWorld/index.html で公開予定である。
本論文では,接触を伴うタスクに対する触覚シミュレーションtoリアル(sim-to-real)政策転移の問題に取り組む.既存手法は主に視覚ベースのセンサに焦点を当て,画像のレンダリング品質を重視する一方で,力及びせん断力のモデルを過度に単純化している.その結果,これらのモデルは多くの巧緻性タスクにおいて,大きなsim-to-realギャップを示す.本研究では,非完備なハイドロエラスティック触覚シミュレータであるHydroShearを提案する.本シミュレータは,a) 滑り‐静止遷移,b) 経路依存的な力及びせん断力の蓄積,c) 完全なSE(3)におけるオブジェクト‐センサ相互作用をモデル化することで,最新技術を進歩させる.HydroShearは,符号付き距離関数(SDF)を用いたハイドロエラスティック接触モデルを拡張し,センサ膜との物理的相互作用中の圧子表面点の変位を追跡する.本手法は,任意の水密形状から物理ベースで計算効率の良い力場を生成し,基盤となる物理エンジンに依存しない.GelSight Miniを用いた実験において,HydroShearは既存手法と比較して,実触覚のせん断力をより忠実に再現した.この忠実度により,強化学習政策のゼロショットsim-to-real転移が,4つのタスク(ペグ挿入,ビンパッキング,本の棚上げ挿入,把持子の滑り下での微細制御のための引き出し操作)で可能となった.本手法は93%の平均成功率を達成し,触覚画像で訓練した政策(34%)や他のせん断力シミュレーション手法(58%-61%)を上回った.
知識蒸留(KD)は大規模モデルの圧縮のためにセマンティックセグメンテーションに広く応用されているが、従来の手法は主にドメイン内精度の維持に重点を置き、分布シフト下で重要となるドメイン外汎化性能を軽視してきた。この限界は視覚基盤モデル(VFM)の登場により一層顕著になっている:VFMは未見データに対して強い頑健性を示すものの、従来のKDで蒸留するとこの能力が損なわれがちである。本研究では、汎化性能を明示的に強化する多段階フレームワークGeneralizable Knowledge Distillation(GKD)を提案する。GKDは表現学習とタスク学習を分離する。第一段階では学生モデルが選択的特徴蒸留を通じてドメイン不変の表現を獲得し、第二段階ではこれらの表現を凍結した状態でタスク適応を行うことで、既知ドメインへの過適合を緩和する。更なる転移を支援するため、学生モデルの特徴をクエリとして教師モデルの表現に問い合わせ、VFMから転移可能な空間的知識を選択的に抽出するクエリベースの軟蒸留機構を導入する。5つのドメイン汎化ベンチマークによる大規模実験により、GKDが既存のKD手法を一貫して上回り、基盤モデル間蒸留(F2F)で平均+1.9%、基盤モデルから局所モデルへの蒸留(F2L)で平均+10.6%の性能向上を達成することを実証する。コードはhttps://github.com/Younger-hua/GKD で公開予定である。
現代の言語モデルは依然として固定化された事前定義のサブワードトークン化に依存している。一度トークナイザが学習されると、言語モデルはこの固定された粒度レベルでしか動作できず、強力な推論モデルであっても脆く直感に反する振る舞いを引き起こすことが多い。本論文では、トークナイザを完全に排除し、代わりにモデルが生のバイトストリームを意味的に有意義な単位へと自己分割することを可能にする新しい階層的アーキテクチャ、ByteFlow Netを提案する。ByteFlow Netは潜在表現の符号化率に基づく圧縮駆動型セグメンテーションを実行し、Top-K選択による静的な計算グラフを保ちつつ適応的な境界を生成する。人手設計の帰納バイアスに依存した脆いヒューリスティクスを用いる従来の自己トークン化手法とは異なり、ByteFlow Netは内部表現の粒度を入力自体に適応させる。実験により、この圧縮ベースのチャンキング戦略が大幅な性能向上をもたらすことが示され、ByteFlow NetはBPEベースのTransformerおよび従来のバイトレベルアーキテクチャを両方とも上回った。これらの結果は、エンドツーエンドのトークナイザ不要モデリングが単に実現可能であるだけでなく、より効果的であることを示唆しており、より適応的で情報に根ざした言語モデルへの道を開くものである。
GPUカーネルの手動最適化は、困難で時間を要する作業である。大規模言語モデル(LLM)の急速な発展に伴い、GPUカーネルの自動最適化が現実のものとなりつつある。しかし、現在のLLM駆動の自動最適化手法は、PyTorchオペレータの最適化など機械学習アプリケーションに限定されており、科学技術計算における疎行列演算など、より広範な領域が見過ごされている。これらの広範な応用への拡張は、ベンチマークとアルゴリズムに新たな課題をもたらす。そこで我々は、汎用的な自動カーネル最適化手法の開発を主眼とした。本論文では、複数シナリオ設定に対する体系的な評価が欠如している問題に対処するため、MSKernelBenchを提案する。これは基本代数演算、一般的なLLMカーネル、疎行列演算オペレータ、科学技術計算ルーチンといった複数シナリオを網羅し、各シナリオはFP32とBF16の両精度をサポートする。このベンチマークを基盤として、プロファイリング情報を活用し、コンパイル及び実行ツールチェーン全体を自動構築する、マルチエージェントでハードウェアを意識したカーネル最適化システムCUDAMasterを導入する。実験結果により、CUDAMasterは大半のオペレータで大幅な高速化を達成し、Astraを約35%上回ることを示す。いくつかのケースでは、cuBLASのような高度に最適化されたクローズドソースライブラリの性能に匹敵あるいは凌駕する。各オペレータの元のコードと最適化されたコードを実演するデモはhttps://hanyx2021.github.io/MSKernelBenchDemo/ で公開されている。
細胞が遺伝的擾乱にどのように応答するかを予測することは、遺伝子機能、疾患メカニズム、治療法開発を理解する上で重要である。近年の深層学習アプローチは単一細胞の擾乱応答のモデル化において有望な成果を示しているが、生成時の文脈情報が限られているため、細胞タイプや擾乱コンテキストを超えた汎化が困難である。本研究では、Retrieval-Augmented Generation(RAG)を従来の言語モデル応用から細胞生物学に拡張する新規フレームワーク、PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation)を提案する。事前学習済み大規模言語モデルを用いたテキスト検索向けに設計された標準的なRAGシステムとは異なり、擾乱検索には確立された類似度指標がなく、関連する文脈の構成要素を学習する必要があるため、微分可能な検索が不可欠である。PT-RAGは、2段階のパイプラインによってこの課題に対処する。まず、GenePT埋め込みを用いて候補擾乱Kを検索し、次に、細胞状態と入力擾乱の両方を条件としたGumbel-Softmax離散サンプリングを通じて適応的に選択を絞り込む。この細胞タイプを考慮した微分可能検索により、検索目的関数と生成を共同でエンドツーエンド最適化することが可能となる。Replogle-Nadig単一遺伝子擾乱データセットにおいて、PT-RAGは同一実験条件下でSTATEおよびバニラRAGを上回り、特に分布類似性指標(W_1, W_2)で顕著な改善を示した。特筆すべきは、バニラRAGの顕著な失敗自体が重要な知見である点である。これは、この領域では微分可能かつ細胞タイプを考慮した検索が本質的に重要であり、単純な検索が積極的に性能を損なうことを実証している。我々の結果は、遺伝子擾乱に対する細胞応答のモデル化において、検索拡張生成が有望なパラダイムであることを立証する。実験を再現するコードはhttps://github.com/difra100/PT-RAG_ICLRで公開されている。
都市交通流は、土地利用構造と時空間的に不均質な移動需要との間の複雑な非線形相互作用によって支配されている。従来の大域的回帰分析や時系列モデルでは、複数の交通手段にわたるこれらのマルチスケールな動態を同時に捉えることはできない。本研究では、自動車、公共交通、アクティブモビリティという3つの移動手段において、交通流パターンの時空間的異質性と土地利用との相互作用をモデル化するため、マルチスケール地理空間重み回帰(MGWR)、ランダムフォレスト(RF)、時空間グラフ畳み込みネットワーク(ST-GCN)を逐次統合したGeoAIハイブリッド分析フレームワークを提案する。対照的な2つの都市形態にまたがる6都市の350交通分析ゾーンからなる実証的に較正されたデータセットに本フレームワークを適用した結果、以下の4つの主要な知見が得られた:(i)GeoAIハイブリッド手法はRMSE 0.119、R^2 0.891を達成し、全てのベンチマークを23-62%上回った;(ii)SHAP分析により、自動車交通流には土地利用の混合度が、公共交通には停留所密度が最も強力な予測因子であると特定された;(iii)DBSCANクラスタリングはシルエットスコア0.71で機能的に異なる5つの都市交通タイポロジーを同定し、GeoAIハイブリッドモデルの残差はモーランI=0.218(p<0.001)を示し、OLSベースライン比72%低減した;(iv)都市間転移実験では、クラスター内での適度な転移可能性(R^2>=0.78)とクラスター間での限定的な一般化可能性が明らかとなり、都市形態的文脈の重要性が確認された。本フレームワークは、計画担当者や交通技術者に対して、エビデンスに基づくマルチモーダル移動管理と土地利用政策設計のための解釈可能かつ拡張性の高いツールキットを提供するものである。
Tracking any point (TAP) は、コンピュータビジョンにおける基本的でありながら困難なタスクであり、高精度な位置推定と長期的な動きの推論を必要とします。RGBフレームとイベントストリームを組み合わせる最近の試みは有望ですが、それらは通常、同期または非適応的な融合に依存しており、一方のモダリティが機能不全に陥った場合に時間的な不一致や深刻な性能劣化を引き起こします。本論文では、フレームとイベントの非同期で時間的に一貫した融合を実現し、ロバストかつ高頻度な任意点追跡を可能とする、TransformerベースのフレームワークであるTAPFormerを提案します。中核となる革新は、Transient Asynchronous Fusion (TAF) メカニズムです。これは、連続的なイベント更新を通じて離散フレーム間の時間的変化を明示的にモデル化し、低レートのフレームと高レートのイベントの間のギャップを埋めます。さらに、Cross-modal Locally Weighted Fusion (CLWF) モジュールは、モダリティの信頼性に応じて空間的注意を適応的に調整し、ブラーや低照度条件下でも安定した識別性の高い特徴を生成します。現実的な条件下での提案手法の評価のために、様々な照明と動きの条件下で新しい実世界のフレーム-イベントTAPデータセットを構築しました。提案手法は既存のポイントトラッカーを上回り、閾値内での平均ピクセル誤差において28.2%の改善を達成しました。さらに、標準的なポイントトラッキングベンチマークにおいても、提案トラッカーは一貫して最高の性能を達成しました。プロジェクトウェブサイト: tapformer.github.io
フローマップは、単一のフォワードパスで高品質な画像生成を可能にする。しかし、反復的な拡散モデルとは異なり、明示的なサンプリング軌道を欠くため、条件付き生成における外部制約の組み込みや逆問題の解決が妨げられる。本研究では、条件付きサンプリングのためのフレームワークであるVariational Flow Maps (VFM) を提案する。このフレームワークは、条件付けの視点を「サンプリング経路の誘導」から「適切な初期ノイズの学習」へと転換する。具体的には、観測値が与えられたとき、ノイズ適応モデルを学習し、それが出力するノイズ分布をフローマップ経由でデータ空間に写像した後、得られるサンプルが観測値とデータ事前分布を満たすようにする。この目的のために、ノイズ適応モデルとフローマップを共同で訓練し、ノイズとデータの整合性を改善する、原理に基づいた変分目的関数を開発する。これにより、複雑なデータ事後分布からのサンプリングが単純な適応器で達成できる。様々な逆問題における実験により、VFMが単一(または少数)のステップで較正の取れた条件付きサンプルを生成することを示す。ImageNetでは、VFMは競争力のある忠実度を達成し、他の反復的な拡散/フローモデルと比較してサンプリング速度を桁違いに高速化する。コードはhttps://github.com/abbasmammadov/VFM で公開されている。
スライドは、学術、教育、ビジネスなどのプレゼンテーション中心の場において、情報を伝達する重要な媒体である。その重要性にもかかわらず、質の高いスライドデッキの作成は、時間がかかり、認知的負荷も大きい。Nano Banana Proのような生成モデルの最近の進歩により、自動スライド生成はますます現実的になってきている。しかし、既存のスライド生成の評価は、大まかで全体的な判断に依存することが多く、モデルの能力を正確に評価したり、分野における意味のある進歩を追跡したりすることを困難にしている。実際には、細粒度で検証可能な評価基準の欠如が、研究と実世界での展開の両方における重大なボトルネックとなっている。本論文では、自動的な実世界のスライド生成を評価するための、細粒度でルーブリックベースのベンチマークであるPresentBenchを提案する。PresentBenchは238の評価インスタンスを含み、各インスタンスにはスライド作成に必要な背景資料が補足されている。さらに、生成されたスライドデッキを細粒度かつインスタンス特化的に評価するため、インスタンスごとに平均54.1個のチェックリスト項目を手動で設計し、それぞれを二値質問として定式化した。大規模な実験により、PresentBenchが既存の手法よりも信頼性の高い評価結果を提供し、人間の選好との整合性が有意に強いことが示された。さらに、本ベンチマークは、NotebookLMが他のスライド生成手法を大きく上回ることを明らかにし、この領域における最近の顕著な進歩を浮き彫りにしている。
医療画像データ拡張における拡散モデルの利用が増加しているが、テキストプロンプトでは因果的トレーニングデータを生成できない。再プロンプトでは生成軌道全体が再実行され、解剖学的構造、テクスチャ、背景が変化してしまう。反転ベースの編集手法では再構成誤差が生じ、構造的ドリフトを引き起こす。我々は内視鏡合成のための学習不要な活性化誘導フレームワークMedSteerを提案する。MedSteerはDiffusion Transformerのクロスアテンション層において、対照的プロンプトペアごとに病理ベクトルを特定する。推論時には、このベクトルに沿って画像活性化を誘導し、唯一の違いが誘導された概念である反事実的ペアをゼロから生成する。その他すべての構造は構成的に保存される。Kvasir v3とHyperKvasirを用いた3つの実験でMedSteerを評価した。3つの臨床概念ペアにわたる反事実的生成では、MedSteerは0.800、0.925、0.950のフリップ率を達成し、概念フリップ率と構造保存の両方で最良の反転ベースベースラインを上回った。色素分離タスクでは、MedSteerは75%の色素除去率を達成し(PnPは20%、h-Editは10%)、ポリープ検知の下流タスクでは、MedSteerの反事実的ペアで拡張した場合、ViTのAUCが0.9755となり、量を合わせた再プロンプト(0.9083)を上回り、反事実的構造が性能向上の要因であることを確認した。コードはhttps://github.com/phamtrongthang123/medsteer で公開されている。
複雑な推論タスク(コード生成や数学的難問解決など)において、効果的な探索のためにはテキスト生成の多様な出力が不可欠である。このようなPass@k問題では、解空間を網羅する異なる候補が有益となる。しかし、従来のサンプリング手法では、繰り返し発生する失敗モードに計算資源が浪費されがちである。拡散言語モデルは、主流の自己回帰モデルに匹敵する選択肢として登場したものの、この冗長性に対して依然脆弱であり、独立したサンプルが類似のモードに収束するケースが頻繁に見られる。この問題に対処するため、我々は拡散言語モデルの生成的多様性を向上させる、訓練不要かつ低コストな介入手法を提案する。本手法は、バッチ内の中間サンプルを逐次的に修正し、各サンプルが前のサンプルの特徴空間から反発するようにすることで、冗長性を積極的に抑制する。再訓練やビームサーチを必要とする従来手法とは異なり、本戦略は無視できる程度の計算オーバーヘッドしか生じさせず、各サンプルがバッチに独自の視点をもたらすことを保証する。我々はLLaDA-8B-Instructモデルを用い、HumanEvalおよびGSM8Kベンチマークで本手法を評価した。その結果、様々な温度設定において、多様性とPass@k性能が大幅に向上することを実証した。サンプリングプロセスへの単純な修正として、本手法は多様な解探索が有益なタスクにおいて、現在及び将来の拡散言語モデルに対し、即時的かつ低コストな改善を提供する。コードはhttps://github.com/sean-lamont/odd で公開している。
我々は、平面かつ非透過性の壁近傍における化学的に活性な球状粒子の自己拡散泳動を研究し、特に粒子の配向が推進に及ぼす影響に焦点を当てる。非対称な表面化学活性を持つジャナス粒子を解析対象とし、これは触媒活性キャップ内に小さな不活性領域を含む構成である。このような粒子を研究するために数値シミュレーションが用いられてきたが、幾何学的閉塞と急峻な溶質濃度勾配により、壁極近傍領域での流れと輸送現象の解像に困難が生じている。我々は、粒子と壁の間隔が狭い近接限界における漸近解析を通じてこの限界に取り組む。特に、不活性領域のサイズが潤滑領域のサイズと漸近的に同程度となる特異極限を考察する。不活性面が壁に対して平行に配向した軸対称配置を解析し、その解析をわずかに傾いた配向へと拡張する。その結果、傾いた粒子が軸対称状態へ回転復帰するか、あるいは再配向を継続するかはキャップサイズによって決定され、これにより近接領域における回転安定性が特徴づけられることが明らかとなった。
現代の視覚言語モデル(VLM)ベースのグラフィカルユーザーインターフェース(GUI)エージェントには、アクションを正確に実行するだけでなく、低遅延でユーザー指示に応答することが求められる。既存のGUIエージェントのセキュリティ研究は主にアクションの正確性の操作に焦点を当てており、応答効率に関連するセキュリティリスクはほとんど検討されていない。本論文では、VLMベースGUIエージェントの応答性を標的とした新しいバックドア攻撃「SlowBA」を提案する。核心的なアイデアは、特定のトリガーパターン下で過度に長い推論チェーンを誘導することにより、応答遅延を操作する点にある。これを実現するため、まず長い応答形式に適合させ、その後強化学習を通じてトリガーを意識した活性化を学習する、2段階の報酬レベルバックドア注入(RBI)戦略を提案する。さらに、GUI環境に自然に出現する現実的なポップアップウィンドウをトリガーとして設計し、攻撃の潜行性を高めている。複数のデータセットとベースラインを用いた広範な実験により、SlowBAがタスク精度をほぼ維持しつつ、応答長と遅延を大幅に増加させ得ることを実証する。本攻撃は、低い毒入れ比率や複数の防御設定下でも有効性を維持する。これらの知見は、GUIエージェントにおいて従来看過されてきたセキュリティ脆弱性を明らかにするとともに、アクションの正確性と応答効率の両方を考慮した防御の必要性を浮き彫りにする。コードはhttps://github.com/tu-tuing/SlowBAで公開されている。
模倣学習(IL)は、ロボットが専門家のデモンストレーションから操作スキルを獲得することを可能にする。Diffusion Policy(DP)はマルチモーダルな専門家の行動をモデル化するが、観測ホライズンが長くなるほど性能が低下し、長期的な操作の課題となっている。本研究では、Self-Evolving Gated Attention(SEGA)を提案する。これは、ゲート付きアテンションを通じて時間発展する潜在状態を維持する時間モジュールであり、長期的な観測を固定サイズの表現に圧縮しつつ無関係な時間情報をフィルタリングする、効率的なリカレント更新を実現する。SEGAをDPに統合したSelf-Evolving Diffusion Policy(SeedPolicy)は、時間モデリングのボトルネックを解決し、適度なオーバーヘッドでスケーラブルなホライズン拡張を可能にする。50の操作タスクを含むRoboTwin 2.0ベンチマークにおいて、SeedPolicyはDPおよびその他のILベースライン手法を上回った。CNNとTransformerの両バックボーン平均では、SeedPolicyはDPに対し、標準設定で36.8%、ランダム化された困難設定で169%の相対的改善を達成した。12億パラメータを持つRDTなどの視覚言語行動モデルと比較して、SeedPolicyは1~2桁少ないパラメータ数で同等の性能を達成し、優れた効率性とスケーラビリティを示した。これらの結果は、SeedPolicyが長期的ロボット操作における最先端の模倣学習手法であることを立証する。コードはhttps://github.com/Youqiang-Gui/SeedPolicy で公開されている。
World modelsは、予測された未来空間における計画立案を可能にし、具身化ナビゲーションの有望なフレームワークを提供する。しかし、既存のナビゲーション用world modelsは、行動条件付きの一貫性を欠いていることが多く、視覚的に妥当な予測であっても多段階のロールアウト下ではドリフトが生じ、計画立案の質を低下させる。さらに、効率的なデプロイには少ステップの拡散推論が求められるが、既存の蒸留手法はロールアウト一貫性を明示的に保持しないため、訓練と推論の間に不一致が生じる。これらの課題に対処するため、我々は計画ベースの画像目標ナビゲーションのための移動型world model、MWMを提案する。具体的には、構造事前訓練と行動条件付き一貫性(ACC)事後訓練を組み合わせた二段階訓練フレームワークを導入し、行動条件付きロールアウトの一貫性を改善する。さらに、ロールアウト一貫性が改善された少ステップ拡散蒸留のための推論一貫状態蒸留(ICSD)を提案する。ベンチマークおよび実世界タスクにおける実験により、視覚的忠実度、軌道精度、計画成功率、推論効率において一貫した向上が実証された。コード: https://github.com/AIGeeksGroup/MWM. ウェブサイト: https://aigeeksgroup.github.io/MWM.