翻訳付きの日次キュレーションされたAI研究論文
マルチステップ検索拡張生成(RAG)は、グローバルな理解と集中的な推論を要求するタスクにおいて大規模言語モデル(LLM)を強化するために広く採用されている戦略である。多くのRAGシステムは、検索された情報を統合する作業記憶モジュールを組み込んでいる。しかし、既存の記憶設計は主に、長い入力を要約し、演繹を通じて新しいサブクエリを生成する目的で、孤立した事実を蓄積する受動的な記憶として機能する。この静的な性質は、原始的な事実間の重要な高次相関を見落としており、それらの組み合わせはしばしば後続のステップに対する強力な指針を提供しうる。したがって、その表現力およびマルチステップ推論と知識進化への影響は限定的であり、拡張された文脈において断片化された推論と弱いグローバルな意味構成能力をもたらす。本論文では、ハイパーグラフに基づく記憶メカニズムであるHGMemを提案する。これは、記憶の概念を単純な記憶領域から、複雑な推論とグローバルな理解のための動的で表現力豊かな構造へと拡張する。我々のアプローチでは、記憶はハイパーエッジが個別の記憶単位に対応するハイパーグラフとして表現され、記憶内での高次相互作用の漸進的形成を可能にする。このメカニズムは、焦点となる問題を中心に事実と考えを結びつけ、後続ステップでの深い推論に対する強力な命題を提供する、統合的かつ状況に埋め込まれた知識構造へと進化する。HGMemをグローバルな意味構成向けに設計された複数の挑戦的データセットで評価する。大規模な実験と詳細な分析により、本手法がマルチステップRAGを一貫して改善し、様々なタスクにおいて強力なベースラインシステムを大幅に上回ることを示す。
大規模言語モデル(LLM)は、言語が高度に非一様な情報密度を示すにもかかわらず、全てのトークンに対して均一な計算を適用する。このトークン均一的な体制は、局所的に予測可能な範囲では容量を浪費し、意味的に重要な遷移には計算リソースを過少配分している。本論文では、動的大規模概念モデル(DLCM)を提案する。これは、潜在表現から意味的境界を学習し、計算をトークンから圧縮された概念空間へ移行することで、推論を効率化する階層的言語モデリングフレームワークである。DLCMは、事前定義された言語単位に依存せず、可変長の概念をエンドツーエンドで発見する。階層的圧縮はスケーリング挙動を根本的に変化させる。我々は、トークンレベルの容量、概念レベルの推論容量、圧縮率を分離した最初の圧縮対応スケーリング則を導入し、固定FLOPsにおける原理的な計算配分を可能にする。この不均一アーキテクチャを安定して訓練するため、幅と圧縮体制を跨いだゼロショットハイパーパラメータ転送をサポートする分離型μPパラメータ化をさらに開発した。実用的な設定(R=4、つまり1概念あたり平均4トークンに相当)において、DLCMは推論計算の約3分の1を高容量の推論バックボーンに再配分し、推論FLOPsが同等の条件下で12のゼロショットベンチマークにおいて平均+2.69%の改善を達成した。
近年、マルチモーダル大規模言語モデル(MLLM)はマルチモーダル推論において著しい進歩を遂げているが、その推論プロセスは依然としてテキスト中心が主流であり、複雑な長期視野の視覚中心タスクでは性能が十分に発揮されていない。本論文では、新たな生成的マルチモーダル推論パラダイムを確立し、拡散モデルベースの推論フレームワークであるDiffThinkerを提案する。概念的には、DiffThinkerはマルチモーダル推論を本来の生成的画像変換タスクとして再定式化し、視覚中心タスクにおいて優れた論理的一貫性と空間的精度を実現する。我々はDiffThinkerとMLLMの体系的比較を行い、このパラダイムの内在的特性に関する初の詳細な調査を提供し、効率性、制御性、本来の並列性、協調性という四つの核心的特性を明らかにする。4つの領域(逐次的計画、組合せ最適化、制約充足、空間配置)にわたる大規模な実験により、DiffThinkerがGPT-5(+314.2%)、Gemini-3-Flash(+111.6%)といった主要なクローズドソースモデルや、ファインチューニングされたQwen3-VL-32Bベースライン(+39.0%)を大幅に上回ることを実証し、生成的マルチモーダル推論が視覚中心推論における有望なアプローチであることを示す。
拡散モデルは、並列デコードや反復的な精緻化など、言語生成において魅力的な特性を提供する。しかし、テキストの離散的かつ高度に構造化された性質は、拡散原理の直接的な適用に課題をもたらす。本論文では、拡散過程と言語モデリングの観点から拡散言語モデリングを再検討し、拡散メカニズムと言語固有の要件を分かつ5つの特性を提示する。まず、既存のアプローチを、埋め込み空間における連続的拡散とトークン上の離散的拡散に分類する。次に、各アプローチが5つの必須特性の一部しか満たさず、構造的なトレードオフを反映していることを示す。最近の大規模拡散言語モデルの分析を通じて、二つの核心的問題を特定する:(i) 一様な劣化は情報が位置間でどのように分布するかを考慮しておらず、(ii) トークン単位の周辺学習は並列デコード時の複数トークン間の依存関係を捕捉できない。これらの知見は、テキストの構造により整合した拡散過程の必要性を動機づけ、より一貫性のある拡散言語モデルに向けた将来の研究を促すものである。
本研究では、モデル容量の影響がタイムステップによって異なることを示す。特に初期段階と後期段階では容量が重要である一方、中間段階ではほぼ無視できることを明らかにした。これに基づき、容量感受性段階では大規模モデルを、中間段階では小規模モデルをそれぞれ用いる段階対応型マルチモデルサンプリング戦略「FlowBlending」を提案する。さらに、段階境界を選択する簡便な基準を導入し、容量感受性領域を特定する効果的な代理指標として速度発散解析を提供する。LTX-Video (2B/13B) とWAN 2.1 (1.3B/14B) での実験により、FlowBlendingは大規模モデルと同等の視覚的品質、時間的一貫性、意味的整合性を維持しつつ、推論速度を最大1.65倍、FLOPsを57.35%削減できることを実証した。本手法は既存のサンプリング高速化技術とも互換性があり、最大2倍の追加高速化が可能である。プロジェクトページはhttps://jibin86.github.io/flowblending_project_pageで公開されている。
生成的ビデオモデリングは、オープンワールドにおける操作のための物理的相互作用をゼロショット推論する有力なツールとして登場している。しかし、このような人間主導の動作をロボットシステムが要求する低レベルのアクションに変換することは依然として課題である。我々は、初期画像とタスク指示が与えられた場合、これらのモデルが妥当な物体運動を合成することに優れていることを観察した。そこで本論文では、ビデオ生成とロボット制御を3次元物体フローを中間表現として橋渡しするフレームワーク、Dream2Flowを提案する。本手法は、生成されたビデオから3次元物体運動を再構築し、操作を物体軌道追跡問題として定式化する。状態変化とその変化を実現するアクチュエータを分離することにより、Dream2Flowはエンボディメントギャップを克服し、事前学習済みビデオモデルからのゼロショット指導により、剛体、関節構造体、変形体、粒状体など多様なカテゴリの物体を操作することを可能にする。軌道最適化または強化学習を通じて、Dream2Flowは再構築された3次元物体フローを、タスク固有の実演データなしで実行可能な低レベルコマンドに変換する。シミュレーションおよび実世界実験により、3次元物体フローがビデオ生成モデルをオープンワールドロボット操作に適応させるための汎用的かつスケーラブルなインターフェースとして有効であることが示された。ビデオおよび可視化結果はhttps://dream2flow.github.io/で公開されている。
シミュレーション最適化(SO)は、ノイズを含む評価、高い計算コスト、複雑で多峰性の探索空間によって頻繁に課題に直面する。本論文では、適応的探索とメモリベース戦略を統合した新しいメタヒューリスティックフレームワークであるTabu-Enhanced Simulation Optimization(TESO)を提案する。TESOは、短期記憶であるタブーリストを利用して循環を防止し、多様化を促進する。また、長期記憶であるエリートメモリは、高性能な解を摂動させることで集中化を導く。アスピレーション基準により、卓越した候補解に対してはタブー制限を解除する。この組み合わせにより、確率的環境下での探索と活用の動的バランスが実現される。待ち行列最適化問題を用いた検証により、TESOの有効性と信頼性を実証し、ベンチマーク比較で性能向上を示すとともに、そのメモリ構成要素の貢献を検証する。ソースコード及びデータは以下で公開されている:https://github.com/bulentsoykan/TESO。