翻訳付きの日次キュレーションされたAI研究論文
自己進化手法は、反復的な「生成-検証-改良」サイクルを通じてコード生成を強化するが、既存のアプローチは探索効率の低さに悩まされており、限られたリソース内で優れた複雑性を持つ解を発見できない。この非効率性は、初期化バイアスによる貧弱な解領域への進化の閉じ込め、フィードバック指導を欠く制御不能な確率的操作、タスク間での経験活用の不十分さに起因する。これらのボトルネックを解決するため、我々は制御付き自己進化(CSE)を提案する。これは3つの主要コンポーネントで構成される。多様化計画初期化は構造的に異なるアルゴリズム戦略を生成し、広範な解空間カバレッジを実現する。遺伝的進化は確率的操作をフィードバック誘導型メカニズムに置き換え、標的型変異と合成的交叉を可能にする。階層的進化メモリは、タスク間レベルとタスク内レベルで成功・失敗両方の経験を捕捉する。EffiBench-Xにおける実験では、CSEが様々なLLM基盤モデルにおいて全てのベースラインを一貫して凌駕することを実証した。さらにCSEは初期世代から高い効率性を達成し、進化過程を通じて継続的な改善を維持する。コードはhttps://github.com/QuantaAlpha/EvoControlで公開されている。
深層研究システムは、多段階のウェブ調査・分析・複数ソースの統合に広く利用されているが、その評価は依然として課題が多い。既存のベンチマークでは、注釈集約的なタスク構築が必要であったり、静的な評価次元に依存したり、引用が欠落している場合に事実を確実に検証できなかったりする。これらのギャップを埋めるため、我々は深層研究タスクの自動構築とエージェント的評価のためのフレームワーク「DeepResearchEval」を提案する。タスク構築では、多様なユーザープロファイルに基づく現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを採用し、多ソース証拠統合と外部検索を必要とするタスクのみを保持するための二段階フィルタ(タスク適格性判定と検索必要性判定)を適用する。評価においては、二つのコンポーネントからなるエージェント的パイプラインを提案する:適応的ポイント単位品質評価は、生成された各タスクに条件付けられたタスク固有の評価次元・基準・重みを動的に導出し、能動的事実検証は、引用が欠落している場合でもウェブ検索を通じて報告文を自律的に抽出・検証する。
大規模言語モデル(LLM)エージェントは、複数のツール間の連携を通じて本質的な推論能力を発揮する。しかし、既存の手法ではエージェント推論時に、(i)先読みの欠如による局所的な近視眼的な生成と、(ii)初期の微小な誤差が発散する推論経路へと増幅する軌道不安定性が頻繁に生じる。これらの課題は、大域的な有効性と計算効率のバランスを困難にする。これら2つの課題に対処するため、我々はメタ適応型探索フレームワーク「MAXS」(https://github.com/exoskeletonzj/MAXS)を提案する。これはLLMエージェントに基づくメタ適応型推論フレームワークであり、ツール実行と推論計画を柔軟に統合する。MAXSは先読み戦略を採用し、数ステップ先までの推論経路を拡張してツール使用のアドバンテージ値を推定するとともに、ステップ間の一貫性分散とトレンド勾配を組み合わせることで、安定性・一貫性・高価値性を備えた推論ステップを共同で選択する。さらに、経路一貫性が達成された段階で追加のロールアウトを停止する軌道収束機構を導入し、計算コストを制御する。これにより、複数ツール推論におけるリソース効率と大域的有効性のバランスを実現する。3つのベースモデル(MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B)と5つのデータセットを用いた広範な実証研究により、MAXSが性能と推論効率の両面で既存手法を一貫して上回ることを示す。さらなる分析により、我々の先読み戦略とツール使用の有効性が確認された。
科学的推論は、論理的推論のみならず、事前知識と経験的構造の活性化にも依存している。記憶は知識を効率的に再利用し、推論の一貫性と安定性を高めることができる。しかし、既存のベンチマークは主に最終回答や段階的な一貫性を評価するものであり、人間の推論の基盤となる記憶駆動メカニズムを見落としている。このメカニズムは、アンカーとアトラクターを活性化し、それらを多段階推論に統合する過程を含む。このギャップに対処するため、我々はA^3-Bench~ https://a3-bench.github.io を提案する。これは、アンカーとアトラクター活性化に基づくデュアルスケールの記憶駆動活性化を通じて科学的推論を評価するベンチマークである。まず、SAPMプロセス(主題、アンカー&アトラクター、問題、記憶発展)を用いて、複数領域にわたる2,198の科学推論問題を注釈付きで整備した。第二に、アンカーとアトラクターを活用したデュアルスケールの記憶評価フレームワークと、記憶活性化率を測定するAAUI(アンカー―アトラクター利用指標)メトリックを導入する。最後に、様々な基盤モデルとパラダイムを用いた実験を通じてA^3-Benchを検証し、記憶活性化が推論性能に与える影響を分析し、記憶駆動型科学推論に関する知見を提供する。
本報告では、軽量でありながら高い能力を備えた完全オープンソースの推論モデル「DASD-4B-Thinking」を紹介します。本モデルは、数学・科学推論・コード生成といった難易度の高いベンチマークにおいて、同規模のオープンソースモデルの中でSOTA性能を達成し、いくつかの大規模モデルをも凌駕する結果を示しています。まず我々は、コミュニティで広く採用されている蒸留パラダイム――教師モデルが生成した回答に対するSFT(系列レベル蒸留とも呼ばれる)――を批判的に再検証します。この方式に沿った一連の最近の研究は、高い効率性と強力な実証性能を示しているものの、それらは主にSFTの視点に立脚しています。その結果、これらのアプローチはSFTデータフィルタリングのヒューリスティックな規則設計に偏重し、蒸留の本質的な原理――学生モデルが教師の完全な出力分布を学習し、その一般化能力を継承すること――を見過ごしがちです。具体的に、現在の手法には以下の3つの重大な限界があることを明らかにします:i) 教師の系列レベル分布の不適切な表現、ii) 教師の出力分布と学生の学習能力のミスアライメント、iii) 教師強制訓練と自己回帰推論の間で生じる曝露バイアス。総括すると、これらの欠点は蒸留プロセス全体を通じた明示的な教師-学生相互作用の体系的欠如を反映しており、蒸留の本質が十分に活かされていません。これらの課題に対処するため、我々は複数の手法的新機軸を提案し、それらを統合して強化された系列レベル蒸留トレーニングパイプラインを構築しました。特筆すべきは、DASD-4B-Thinkingがわずか44.8万訓練サンプルで競争力のある結果を達成した点です――これは既存のオープンソース取り組みの大多数が使用するデータ量よりも一桁少ない規模です。コミュニティ研究を支援するため、モデルと訓練データセットを公開します。
Vision-Language-Action(VLA)タスクは、複雑な視覚シーンに対する推論と、動的環境における適応的行動の実行を必要とする。近年の推論型VLAに関する研究では、明示的な連鎖思考(CoT)が一般化性能を向上させることが示されているが、長大な推論トレースにより高い推論遅延が生じる課題がある。本論文では、言語化可能な潜在推論を通じてコンパクトかつ高性能な計画を実現する効率的な推論フレームワークFast-ThinkActを提案する。Fast-ThinkActは教師モデルからの知識蒸約により潜在CoTを用いた効率的な推論を学習し、操作軌道を整合させる選好誘導型目的関数により、具身制御のための言語的・視覚的計画能力を同時に転移する。これにより、コンパクトな推論と行動実行を効果的に結びつける推論強化型方策学習を実現する。多様な具身操作タスクおよび推論ベンチマークにおける大規模実験により、Fast-ThinkActが最先端の推論型VLAと比較して最大89.3%の推論遅延削減を達成しつつ、効果的な長期計画、少数ショット適応、失敗回復機能を維持することを実証する。
一般用途の大規模視覚言語モデル(LVLM)は、その巨大な規模にもかかわらず、皮膚科学分野では「拡散注意」、すなわち微妙な病変を背景ノイズから分離できないという問題により、しばしば精度が低下する。本論文では、医療精度向上の唯一の道がパラメータ拡大であるという前提に異議を唱える。我々は、診断を視覚情報伝達効率の最適化として扱うSkinFlowフレームワークを提案する。本アプローチでは、物理的なパラメータ拡張なしに複雑な病理学的多様体を「展開」する仮想幅動的視覚エンコーダ(DVE)と、2段階の強化学習戦略を組み合わせる。この戦略は、制約付き意味空間内で、明示的な医学的記述(第I段階)と暗黙的な診断的テクスチャ(第II段階)を順次整合させる。さらに、硬直的なラベル一致ではなく、診断安全性と階層的関連性を優先する臨床基盤型評価プロトコルを提案する。実証結果は説得力がある:我々の7BパラメータモデルはFitzpatrick17kベンチマークにおいて新たなstate-of-the-artを確立し、大規模一般用途モデル(例:Qwen3VL-235B、GPT-5.2)に対してTop-1精度で+12.06%、Top-6精度で+28.57%の向上を達成した。これらの知見は、幾何学的容量と情報フローの最適化が、単純なパラメータ拡大よりも優れた診断推論を実現することを示している。
我々は、OpenVoxelを提案する。これは、オープン語彙による3Dシーン理解タスクのための、疎なボクセルのグループ化とキャプション生成を訓練なしで行うアルゴリズムである。3Dシーンの多視点画像から得られた疎ボクセルラスタライゼーション(SVR)モデルを入力として、我々のOpenVoxelは、シーン内の異なるオブジェクトを記述する意味のあるグループを生成することができる。また、強力な視覚言語モデル(VLM)とマルチモーダル大規模言語モデル(MLLM)を活用することで、OpenVoxelは各グループにキャプションを付与し、情報豊かなシーンマップの構築に成功する。これにより、オープン語彙セグメンテーション(OVS)や参照式セグメンテーション(RES)などの、さらなる3Dシーン理解タスクが可能となる。従来手法とは異なり、本手法は訓練を必要とせず、CLIP/BERTテキストエンコーダからの埋め込みを導入しない。代わりに、MLLMを用いてテキスト対テキストの検索を直接行う。大規模な実験を通じて、本手法は最近の研究と比較して優れた性能を示し、特に複雑な参照式セグメンテーション(RES)タスクにおいてその有効性が確認された。コードは公開予定である。
大規模言語モデル(LLM)の発展は、LLMベースの検索拡張生成(RAG)を含む様々な下流タスクにおいて優れた性能を達成している。生成されるコンテンツの品質は、検索された情報の有用性と、回答生成にそれを組み込むLLM内部の情報処理メカニズムの能力に大きく依存する。一般に、検索された情報は質問に関連していると仮定されるが、実際には質問や文書コレクションによって、その関連性と有用性の度合いは変動し得る。回答生成において検索情報の関連性を考慮することは重要である。本論文では、検索情報の明示的評価を品質指標特徴量として生成に活用する新しいアプローチ「OpenDecoder」を提案する。我々は、様々なレベルのノイズを含む文脈に対してより頑健なRAGモデルの構築を目指す。関連性スコア、順位スコア、QPP(クエリ性能予測)スコアの3種類の明示的評価情報を考慮する。5つのベンチマークデータセットによる実験結果は、OpenDecoderが様々なベースラインメソッドを上回り、有効性と優れた頑健性を実証する。重要な点として、このパラダイムはあらゆる目的でのLLMの事後学習と統合可能であり、あらゆる種類の外部指標と組み込む柔軟性を有している。
経験介入は、蓄積された経験から得られた有益な知見を提供することでエージェントの対話能力を強化する、有望な技術パラダイムとして登場している。しかし既存手法は、タスク実行前に経験を受動的にグローバルコンテキストとして注入する方式が主流であり、エージェントと環境の相互作用中に動的に変化する文脈観測への適応が困難である。本研究では、経験介入をステップ単位の能動的検索へ転換するExpSeekを提案する:(1) モデルの内在信号を用いてステップ単位のエントロピー閾値を推定し介入タイミングを決定、(2) ステップ単位で特化設計された経験コンテンツの設計。4つの難易度の高いWebエージェントベンチマークにおけるQwen3-8Bおよび32Bモデルでの実験により、ExpSeekがそれぞれ9.3%、7.5%の絶対精度向上を達成することを実証した。本実験はエントロピーが自己トリガー信号として有効であることを検証し、4B規模の小規模経験モデルでも大規模エージェントモデルの性能を大幅に向上させ得ることを明らかにした。
視覚言語モデル(VLM)は、高解像度のスクリーンショットを処理する能力の向上により、ユーザーインターフェース(UI)グラウンディングタスクで顕著な性能を示している。しかし、スクリーンショットは数千もの視覚トークン(例:2K解像度で約4700トークン)にトークン化されるため、多大な計算コストが発生し、注意力が分散されるという課題がある。一方、人間はUIを操作する際、通常は関心領域に焦点を当てる。本研究では、効率的なUIグラウンディングという新たなタスクを開拓する。本タスクの特性と課題に関する実践的分析に基づき、我々はFocusUIを提案する。これは、位置情報の連続性を保ちつつ、指示に関連性の高いパッチを選択することで、精密なグラウンディングを実現する効率的なUIグラウンディングフレームワークである。FocusUIは以下の2つの主要課題に取り組む:(1) 視覚エンコーディングにおける冗長トークンの削減。指示に条件付けされたスコアと、大きな均質領域を重み付け減衰させるルールベースのUIグラウフスコアを融合させ、特徴的で指示に関連する視覚トークンを選択するパッチレベルの教師信号を構築する。(2) 視覚トークン選択時の位置情報連続性の維持。一般的な視覚トークン剪定手法は、位置情報が断絶されるため、UIグラウンディングタスクでは精度が大幅に低下することを見出した。我々は新たなPosPad戦略を導入する。これは、削除された視覚トークンの連続シーケンスそれぞれを、そのシーケンスの最終インデックスに配置された単一の特殊マーカーに圧縮し、位置情報の連続性を保持するものである。4つのグラウンディングベンチマークによる総合的な実験により、FocusUIがGUI特化のベースライン手法を凌駕することを実証した。ScreenSpot-Proベンチマークでは、FocusUI-7BはGUI-Actor-7Bに対して3.7%の性能向上を達成した。視覚トークン保持率がわずか30%の場合でも、FocusUI-7Bの精度低下は3.2%に留まり、推論速度は最大1.44倍高速化、ピークGPUメモリ使用量は17%低減を実現した。
大規模言語モデル(LLM)の学習では、一般に「嗜好性整合」が最適化の対象となり、利用者にとって有益で対話しやすいと認識される出力が報酬として強化される。しかし、この嗜好性指向の目的関数は悪用される可能性がある。すなわち、操作的プロンプトによって、真実指向の訂正を回避し、利用者の意に沿う同意へと応答を誘導できる。本研究では、整合済みモデルが「嗜好性毀損攻撃(PUA)」に対して脆弱であるかどうかを検証する。PUAは、モデルの「利用者の嗜好に応えようとする性質」を利用し、真実性を犠牲にしてでも応答を操作する、プロンプト戦略の一種である。我々は、集合的なベンチマークスコアよりも細粒度で指向性の高い分析を可能にする診断手法を提案する。具体的には、要因計画評価フレームワークを用い、制御された2×2^4計画において、プロンプトによって誘導される応答の変化を、システム目的(真実指向 vs. 嗜好指向)とPUA型対話要因(指示的統制、個人誹謗、条件的承認、現実否定)という解釈可能な効果に分解する。驚くべきことに、より高度なモデルほど、時に操作的プロンプトの影響を受けやすい場合がある。支配的な要因である現実否定を超えて、モデル特有の効果の符号反転やPUA型要因との交互作用が観察され、均一な堅牢性ではなく、モデルに特化した防御策の必要性が示唆される。これらの知見は、RLHFのような学習後プロセスに対する新規かつ再現性のある要因計画評価手法を提供し、嗜好性整合のリスクと操作的プロンプトの影響についてより微妙な理解を与えることで、LLMの製品イテレーションにおけるトレードオフをより適切に行うことを可能にする。
大規模言語モデル(LLM)ベースのエージェントは深い調査タスクでの有望性を示しているが、既存手法の多くは固定化されたワークフローに依存しており、現実世界のオープンエンドな問い合わせに適応することが困難である。この課題に対処するため、最近の研究ではエージェント自身がコードやプロンプトを書き換えることで問題解決能力を向上させる自己進化の手法が探られている。しかし、制約のない最適化は不安定性、虚構生成、指示の逸脱を引き起こしやすい。本論文では、自由形式の書き換えに依存する代わりに、明示的な有限状態機械(FSM)を進化させることで適応性と制御性を両立する構造化自己進化フレームワーク「EvoFSM」を提案する。EvoFSMは最適化空間を、巨視的な「フロー」(状態遷移ロジック)と微視的な「スキル」(状態固有の振る舞い)に分離し、明確な行動境界のもとで標的を絞った改善を可能にする。批評メカニズムの導きにより、EvoFSMは限定的な操作セットを通じてFSMを洗練させ、さらに、成功した軌跡を再利用可能な事前知識として、失敗パターンを将来の問い合わせに対する制約として抽出する自己進化メモリを組み込む。5つのマルチホップ質問応答ベンチマークによる大規模な評価は、EvoFSMの有効性を実証している。特に、DeepSearchベンチマークにおいてEvoFSMは58.0%の精度を達成した。対話型意思決定タスクにおける追加結果は、その汎化性能をさらに裏付けるものである。
我々は、Gemma 3基盤モデルに基づくオープンな機械翻訳モデル群「TranslateGemma」を提案する。Gemma 3が本来備える多言語能力を翻訳タスク向けに強化するため、2段階のファインチューニングプロセスを採用した。第一段階では、最先端モデルにより生成された大規模で高品質な合成並列データと、人手で翻訳された並列データを豊富に組み合わせたデータを用いて教師ありファインチューニングを実施する。続く第二段階では、強化学習フェーズにおいて、MetricX-QEやAutoMQMなどの報酬モデル群を用いて翻訳品質を最適化する。我々は、WMT25テストセットにおける10言語ペアでの人間評価、およびWMT24++ベンチマークにおける55言語ペアでの自動評価を通じて、TranslateGemmaの有効性を実証する。自動評価指標では、全てのモデルサイズにおいて、ベースラインとなるGemma 3モデルに対し、一貫した大幅な性能向上が確認された。特に、小規模なTranslateGemmaモデルは、より大規模なベースラインモデルに匹敵する性能を達成することが多く、効率性の向上をもたらす。また、TranslateGemmaモデルは強力なマルチモーダル能力を保持しており、Vistra画像翻訳ベンチマークにおいて性能が向上していることも示す。オープンなTranslateGemmaモデルの公開は、研究コミュニティに強力で適応性の高い機械翻訳のツールを提供することを目的としている。
世界モデルの最近の進歩は、環境状態の将来ダイナミクスをモデル化する可能性を示しており、エージェントが実環境にアクセスすることなく推論と行動を行うことを可能にしている。現在の手法は主に単一ステップまたは固定期間のロールアウトを行うもので、複雑なタスク計画における潜在能力が十分に活用されていない。本論文では、先読み想像力を通じたエージェント学習の統一フレームワークであるImagine-then-Plan(ITP)を提案する。これは、エージェントのポリシーモデルが学習済み世界モデルと相互作用し、多段階の「想像」軌跡を生成するものである。想像の時間的視野はタスクや段階によって異なる可能性があるため、最終目標とタスクの進捗状況のトレードオフによって、新しい適応的先読みメカニズムを導入する。結果として得られる想像軌跡は、達成された進捗や潜在的な衝突など、将来の結果に関する豊富な信号を提供し、これが現在の観測と融合されることで、部分観測可能かつ想像可能なマルコフ決定過程を形成し、ポリシー学習を導く。我々はITPを、学習不要なバリアントと強化学習によるバリアントの両方で具体化した。代表的なエージェントベンチマークにおける広範な実験により、ITPが競合するベースライン手法を大幅に上回ることを実証した。さらに詳細な分析により、我々の適応的先読みメカニズムがエージェントの推論能力を大幅に強化し、より広範で複雑なタスクへの対処に関する貴重な知見を提供することを検証した。
拡散モデルに基づく現代のビデオ生成モデルは非常にリアルなクリップを生成可能だが、計算効率が低く、数秒の動画生成に数分のGPU時間を要することが多い。この非効率性は、具身AIやVR/ARといったリアルタイム相互作用を必要とするアプリケーションへの生成動画の導入における重大な障壁となっている。本論文では、静的なシーンにおけるカメラ条件付きビデオ生成の新たな戦略を探求する:拡散ベースの生成モデルで疎なキーフレーム集合を生成し、3D復元とレンダリングを通じて完全な動画を合成する手法である。キーフレームを3D表現に変換し中間視点をレンダリングすることで、本アプローチは幾何学的一貫性を強制しつつ、数百フレームにわたって生成コストを分散させる。さらに、所与のカメラ軌道に対して最適なキーフレーム数を予測するモデルを導入し、システムが計算リソースを適応的に配分することを可能にする。最終的な手法であるSRENDERは、単純な軌道ではごく疎なキーフレームを、複雑なカメラ運動ではより密なキーフレームを使用する。これにより、20秒の動画生成において拡散ベースのベースラインよりも40倍以上高速なビデオ生成を実現しつつ、高い視覚的忠実度と時間的安定性を維持し、効率的で制御可能なビデオ合成への実用的な道筋を提供する。
記憶は、現代の大規模言語モデル(LLM)やマルチモーダルLLMの推論能力、適応性、文脈忠実性を強化する上で基盤的な役割を果たす。これらのモデルが静的な予測器から、継続的学習と個別化推論が可能な対話型システムへと移行するにつれ、記憶メカニズムの組み込みは、そのアーキテクチャと機能の進化における中心的なテーマとして浮上している。本サーベイは、LLMおよびMLLMにおける記憶について、暗黙的記憶、明示的記憶、エージェンシック記憶のパラダイムから構成される体系的な分類法に文献を整理し、包括的かつ構造化された統合を提示する。具体的には、本調査は三つの主要な記憶フレームワークを明らかにする。暗黙的記憶は、事前学習済みトランスフォーマーの内部パラメータに埋め込まれた知識を指し、記憶化、連想的検索、文脈的推論の能力を含む。最近の研究では、この潜在記憶を解釈し、操作し、再構成する手法が探求されている。明示的記憶は、動的で検索可能な知識表現(テキストコーパス、密ベクトル、グラフベース構造など)によってモデル出力を拡張するように設計された外部記憶・検索コンポーネントを含み、情報源との拡張性と更新可能性を備えた相互作用を可能にする。エージェンシック記憶は、自律エージェント内に永続的かつ時間的に拡張された記憶構造を導入し、マルチエージェントシステムにおける長期計画、自己一貫性、協調行動を促進し、具身化AIや対話型AIに関連する。テキストを超えて、本調査は視覚、言語、音声、行動モダリティ間の一貫性が不可欠なマルチモーダル環境における記憶の統合を検討する。記憶容量、アライメント、事実的一貫性、クロスシステム相互運用性に関する課題を含む、主要なアーキテクチャの進展、ベンチマークタスク、未解決の課題について論じる。
学習表現の分析には盲点がある。それは類似性に焦点を当て、埋め込みが外部参照とどれだけ整合するかを測定するが、類似性は何が表現されているかを明らかにするだけで、その構造が頑健かどうかは示さない。我々は、表現の幾何学が摂動下でどれだけ確実に維持されるかを定量化する新たな次元として「幾何学的安定性」を提唱し、それを測定するフレームワーク「Shesha」を提案する。7つの領域における2,463の設定で、安定性と類似性は経験的に無相関(ρ≈0.01)であり、機序的に異なることを示す:類似性指標は主要主成分を除去すると崩壊するが、安定性は微細な多様体構造への感度を保持する。この区別は実用的な知見をもたらす:安全性監視では、安定性は機能的な幾何学的カナリアとして働き、剛直な距離指標で誤警報を引き起こす非機能的なノイズを除去しつつ、CKAより約2倍敏感に構造的ドリフトを検出する;制御性では、教師あり安定性は線形 steerability を予測する(ρ=0.89-0.96);モデル選択では、安定性は転移可能性から切り離され、転移最適化が負う幾何学的なコストを明らかにする。機械学習を超えて、安定性はCRISPR摂動の一貫性や神経-行動連関を予測する。システムが構造を維持する信頼性を定量化することで、幾何学的安定性は、生物学的および計算機システムにわたる表現を監査するために、類似性に対する必要不可欠な補完を提供する。
具現化されたシステムは、世界を「流れの交響曲」として経験する。すなわち、自己運動と結合した多数の連続的な感覚入力ストリームが、外部オブジェクトのダイナミクスと織りなす経験である。これらのストリームは、滑らかで時間をパラメータとする対称性に従い、精密に構造化された代数を通じて結合する。しかし、ほとんどのニューラルネットワーク世界モデルはこの構造を無視し、代わりに同じ変換をデータから繰り返し再学習する。本研究では、自己運動と外部オブジェクトの運動を1パラメータLie群の「流れ」として統一する「Flow Equivariant World Models」を提案する。この統一を活用して、これらの変換に関する群等変性を実装し、数百タイムステップにわたる安定した潜在世界表現を提供する。2Dおよび3Dの部分観測ビデオ世界モデリングベンチマークにおいて、Flow Equivariant World Modelsが、同等の最先端の拡散ベースおよびメモリ拡張型世界モデリングアーキテクチャを大幅に上回る性能を示すことを実証する——特に、エージェントの現在の視野外にある予測可能な世界ダイナミクスが存在する場合に顕著である。流れの等変性が、学習範囲をはるかに超えて一般化する長いロールアウトにおいて特に有益であることを示す。内部および外部の運動に関して世界モデル表現を構造化することにより、流れの等変性は、データ効率的で対称性に導かれた具身化インテリジェンスへのスケーラブルな道筋を示す。プロジェクトリンク: https://flowequivariantworldmodels.github.io。
マルチモーダル大規模言語モデル(MLLM)は、マルチモーダル推論において著しい進展を遂げている。初期のアプローチは純粋にテキストベースの推論に焦点を当てていた。より最近の研究では、推論ステップにマルチモーダル情報を組み込んでいるが、それらはしばしば単一のタスク特化型の推論パターンに従っており、様々なマルチモーダルタスク間での汎化性が制限されている。実際、画像内の特定領域を拡大したり、オブジェクトをマーキングしたりするなど、多様な推論スキルを必要とするマルチモーダルタスクは数多い。この問題に対処するため、我々は推論プロセスの中間段階で画像を生成することにより、多様なマルチモーダル推論スキルを統合する**生成的マルチモーダル統一推論**を提案する。このパラダイムを、知覚アライメント損失と知覚報酬を特徴とする二段階のSFT+RLフレームワークであるOmni-R1として具体化し、機能的な画像生成を可能にする。さらに、テキストのみの推論データから段階的な可視化をブートストラップすることでマルチモーダルアノテーションを不要とするOmni-R1-Zeroを導入する。実験結果は、Omni-R1が多様なマルチモーダルタスクにわたる生成的統一推論を実現すること、そしてOmni-R1-Zeroが平均的にOmni-R1に匹敵あるいは凌駕する性能を示すことを実証しており、これは生成的マルチモーダル推論の有望な方向性を示唆している。
強化学習(RL)に基づく大規模言語モデル(LLM)の性能向上は、出力の多様性低下を招きがちであり、創造的作文などの開放型タスクにおける実用性を損なう。既存手法は、多様な探索を導出する明示的なメカニズムを欠き、多様性よりも最適化効率と性能を優先している。本論文では、生成プロセスを明示的に計画された中間段階に分解する、半構造化された長い思考の連鎖(CoT)を中核とするRLフレームワークを提案する。計画段階において多様性の変動に基づいて戦略的に分岐を導入する多様性計画分岐法と、異なる軌道を促進するグループ認識型多様性報酬を導入する。創造的作文ベンチマークにおける実験結果は、本手法が生成品質を損なうことなく出力の多様性を大幅に改善し、既存のベースライン手法を一貫して上回ることを示している。
画像から動画生成(I2V)タスクは、参照画像とテキストプロンプトから動画を合成することを目的とする。これには、拡散モデルがノイズ除去プロセスにおいて、高周波数の視覚的制約と低周波数のテキストガイダンスを調整することが要求される。しかし、既存のI2Vモデルは視覚的一貫性を重視する一方で、この二重のガイダンスを効果的に結合し、テキストプロンプトへの強固な忠実性を確保する方法は十分に検討されていない。本研究では、Diffusion Transformer(DiT)ベースのI2Vモデルにおいて、特定の中間層が弱い意味的応答(意味的弱層)を示すことを観察した。これは、テキストと視覚の類似性の測定可能な低下によって示される。我々はこれを「条件分離」現象に帰因する。これは、視覚的特徴への注意がテキストガイダンスから部分的に切り離され、学習された視覚的先験に過度に依存する現象である。この問題に対処するため、我々は意味的弱層からの制御性を強化するFocal Guidance(FG)を提案する。FGは二つのメカニズムから構成される:(1)Fine-grained Semantic Guidance(FSG)は、CLIPを活用して参照フレーム内の重要領域を特定し、それらをアンカーとして意味的弱層を導く。(2)Attention Cacheは、意味的に応答性の高い層からの注意マップを意味的弱層に転送し、明示的な意味的信号を注入してモデルの学習済み視覚的先験への過度な依存を軽減し、それによりテキスト指示への忠実性を高める。我々のアプローチをさらに検証し、この方向性における評価の不足に対処するため、I2Vモデルの指示追従性を評価するベンチマークを導入する。このベンチマークにおいて、Focal Guidanceはその有効性と一般化性を実証し、Wan2.1-I2Vにおける総合スコアを0.7250(+3.97%)に引き上げ、MMDiTベースのHunyuanVideo-I2Vを0.5571(+7.44%)に向上させた。
強化学習(RL)は大規模言語モデルの推論能力を向上させる原理的な手法を提供するが、その有効性はモデルの進化に伴って有益な情報を保ち続ける訓練信号に依存している。実際には、タスクの難易度がモデルの能力と適切に一致しなくなったり、訓練が限られた繰り返し発生する問題パターンに支配されたりすると、RLの進展はしばしば鈍化する。これらの課題を同時に解決するため、我々は適応的環境設計を通じて効果的な学習信号を持続させるフレームワークSCALER(Synthetic sCalable Adaptive Learning Environment for Reasoning)を提案する。SCALERは、実世界のプログラミング問題を、難易度が制御可能でインスタンス生成が無制限な検証可能な推論環境に変換するスケーラブルな合成パイプラインを導入する。これにより、強固な正解保証を維持しつつ、有限データセットを超えたRL訓練を可能にする。この基盤に立って、SCALERはさらに、インスタンスの難易度を動的に調整し、モデルの能力フロンティアを追跡して分布の多様性を維持するために活性化する環境セットを選定する、適応的なマルチ環境RL戦略を採用する。この共適応は、報酬の希薄化を防ぎ、狭いタスクパターンへの過学習を緩和し、訓練全体を通じた持続的な改善を支援する。大規模な実験により、SCALERが多様な推論ベンチマークにおいてデータセットベースのRLベースラインを一貫して上回り、より安定した長期的な訓練ダイナミクスを示すことが実証された。
批評誘導型強化学習(RL)は、疎な結果報酬を自然言語フィードバックで補強することでLLMエージェントを訓練する強力なパラダイムとして登場した。しかし、現在の手法は静的またはオフラインの批評家モデルに依存することが多く、方策の進化に適応できない。方策オン型RLでは、エージェントのエラーパターンが時間とともに変化するため、静止した批評家は陳腐化し、その有用性が低下するフィードバックを提供するようになる。この問題に対処するため、我々は同期化された共進化的ループを通じて方策と批評家を共同で最適化するフレームワーク、ECHO(Evolving Critic for Hindsight-Guided Optimization)を提案する。ECHOはカスケード型ロールアウト機構を利用し、批評家が初期軌道に対して複数の診断を生成した後、グループ構造化されたアドバンテージ推定を可能にする方策改良を行う。学習プラトーの課題には、飽和を考慮したゲイン形成目的関数を導入し、高パフォーマンス軌道における漸進的改善を誘導する批評家を報酬とする。デュアルトラックGRPO更新を採用することで、ECHOは批評家のフィードバックが進化する方策と同期し続けることを保証する。実験結果は、ECHOがオープンワールド環境において、より安定した訓練と長期的タスクの高い成功率をもたらすことを示している。
クラスタワークロード割り当てには、複雑な設定がしばしば必要となり、ユーザビリティの課題が生じている。本論文は、自然言語処理を用いた、意味論的かつ意図駆動型のクラスタシステム向けスケジューリングパラダイムを提案する。本システムは、Kubernetesスケジューラエクステンダーを介して統合された大規模言語モデルを利用し、ソフトアフィニティ設定における自然言語による割り当てヒントアノテーションを解釈する。クラスタ状態キャッシュと意図分析器(AWS Bedrock使用)を備えたプロトタイプを開発した。実証評価では、Amazon Nova Pro/PremierやMistral Pixtral Largeなどの高精度モデルにおいて、評価用正解データセットに対するLLMの解析精度が高く(サブセット精度>95%)、ベースラインエンジンを大幅に上回った。6つのシナリオにおけるスケジューリング品質テストでは、プロトタイプが標準的なKubernetes設定と比較して同等以上の配置を達成し、特に複雑で定量的なシナリオおよび競合するソフト設定の処理において優れた性能を示した。この結果は、LLMを利用したアクセスしやすいスケジューリングの有効性を実証する一方、同期型LLM呼び出しのレイテンシといった課題も明らかとなり、本番環境での利用には非同期処理の必要性が示唆された。本研究は、ワークロードオーケストレーションを簡素化する意味論的ソフトアフィニティの実現可能性を確認するものである。
大規模言語モデルは、しばしば信頼性が低い要約を生成することがあります。これらの要約は一見もっともらしいものの、元のテキストに照らして検証することが困難であり、政府や法務分析などのコンプライアンスが重視される分野では重大な課題となっています。本論文では、24Bパラメータのモデルsui-1を提案します。このモデルは抽象的な要約とともに文中引用を生成し、ユーザーが各主張の根拠を原文のセンテンスまで遡って確認できるようにします。我々の合成データ生成パイプラインは、連鎖的思考プロンプトと多段階検証を組み合わせ、議会文書、ウェブテキスト、Wikipediaなど多様な情報源から5言語にわたり22,000以上の高品質な訓練事例を生成しました。評価の結果、sui-1は3倍以上のパラメータ数を有するモデルを含め、全てのオープンウェイトベースラインモデルを大きく上回る性能を示しました。これらの結果は、引用付き要約タスクにおいては、モデル規模の拡大のみならず、タスク特化型の訓練が極めて有効であることを示唆しています。モデルウェイトおよび対話型デモは公開されています。
サブワードトークン化の品質は大規模言語モデルにおいて重要であるが、形態素が豊富なウラル語族の言語におけるトークナイザーの評価は、整備された形態素辞書の不足によって妨げられている。本研究では、MDLに着想を得た自己参照的原子性スコアリングを用いて、内部構造の手がかりを通じて複合形をフィルタリングする、コーパス非依存の形態素辞書構築ツールキットSampoNLPを提案する。これは低リソース環境に適している。SampoNLPによって生成されたフィンランド語、ハンガリー語、エストニア語の高純度辞書を用いて、様々な語彙サイズ(8k-256k)におけるBPEトークナイザーの体系的評価を実施する。形態素カバレッジと過剰分割のトレードオフを評価するため、統合性能スコア(IPS)という統一指標を提案する。IPS曲線を分析することで、収穫逓減の「エルボーポイント」を特定し、これらの言語における最適な語彙サイズ(k)について初めて実証に基づいた提言を行う。本研究は実用的な指針を提供するだけでなく、高度に膠着的な言語に対する標準BPEの限界を定量的に実証する。SampoNLPライブラリおよび生成された全リソースは公開されている:https://github.com/AragonerUA/SampoNLP