翻訳付きの日次キュレーションされたAI研究論文
ビデオベースの世界モデルは、主に2つの主流パラダイムとして発展してきた:ビデオ生成と3D再構成である。しかし、既存の評価ベンチマークは、生成モデルに対する視覚的忠実度とテキスト-ビデオ整合性に狭く焦点を当てるか、あるいは時間的ダイナミクスを本質的に無視する静的な3D再構成メトリクスに依存している。我々は、世界モデリングの未来は空間構造と時間的進化を統合的にモデル化する4D生成にあると主張する。このパラダイムにおいて中核となる能力は、インタラクティブな応答性、すなわち相互作用アクションが時間と空間を跨ぐ状態遷移をどのように駆動するかを忠実に反映する能力である。しかし、この重要な次元を体系的に評価する既存のベンチマークは存在しない。このギャップを埋めるため、我々は4D設定における世界モデルのインタラクティブ応答能力を評価するために特別に設計された包括的ベンチマーク、Omni-WorldBenchを提案する。Omni-WorldBenchは2つの主要コンポーネントから構成される:多様なインタラクションレベルとシーンタイプを体系化したプロンプトスイートであるOmni-WorldSuite、および相互作用アクションの最終結果と中間状態進化軌道の両方に対する因果的影響を測定することで世界モデリング能力を定量化するエージェントベース評価フレームワークであるOmni-Metricsである。我々は複数のパラダイムに跨る18の代表的な世界モデルに対して広範な評価を実施した。分析により、現在の世界モデルがインタラクティブ応答性において抱える重大な限界が明らかになり、将来の研究に向けた実践的な示唆が得られた。Omni-WorldBenchは、インタラクティブな4D世界モデリングの進展を促進するため公開される。
我々は、人間中心の生成に特化したオープンソースの音声-映像生成基盤モデル「daVinci-MagiHuman」を提案する。daVinci-MagiHumanは、テキスト・映像・音声を統一されたトークン系列として単一ストリームのTransformerで処理し、自己注意機構のみを用いて同期した映像と音声を共同生成する。この単一ストリーム設計により、マルチストリームやクロスアテンション構造の複雑さを回避しつつ、標準的な学習・推論インフラで最適化が容易である。本モデルは人間中心のシナリオにおいて特に優れ、豊かな表情表現、自然な発話と表情の連動、写実的な身体動作、精密な音声-映像同期を実現する。中国語(標準語・広東語)、英語、日本語、韓国語、ドイツ語、フランス語に跨る多言語音声生成をサポートする。効率的な推論のために、単一ストリーム基盤にモデル蒸留、潜在空間超解像、Turbo VAEデコーダを組み合わせ、単一H100 GPUで5秒間の256p映像を2秒で生成可能とする。自動評価では、daVinci-MagiHumanは主要オープンモデル中最高の視覚品質とテキスト整合性を達成し、音声明瞭度では最低の語誤り率(14.60%)を記録した。2000回の比較による人間評価では、Ovi 1.1対して80.0%、LTX 2.3に対して60.9%の勝率を達成した。基本モデル、蒸留モデル、超解像モデル、推論コードベースを含む完全なモデルスタックをオープンソースとして公開する。
深層研究エージェントの訓練には、検索、証拠の集約、多段階推論を組み合わせた長期的な軌跡が必要です。しかし、既存のデータ収集パイプラインは一般的に独自のWeb APIに依存しており、大規模な軌跡合成はコストが高く、不安定で、再現性に欠けるという課題があります。本研究ではOpenResearcherを提案します。これは再現性のあるパイプラインであり、一度限りのコーパス構築と多対話軌跡合成を分離し、検索・閲覧ループを1500万ドキュメントのコーパス上で3つの明示的なブラウザ基本操作(検索、開く、検索)を用いて完全オフラインで実行します。GPT-OSS-120Bを教師モデルとして使用し、10万回以上のツール呼び出しを含む長期的な軌跡を多数含む9万7千以上の軌跡を合成しました。これらの軌跡で30B-A3Bバックボーンを教師ありファインチューニングした結果、BrowseComp-Plusで54.8%の精度を達成し、ベースモデル比+34.0ポイントの改善を示しました。同時にBrowseComp、GAIA、xbench-DeepSearchでも競争力のある性能を維持しています。環境がオフラインかつ完全に計装されているため、制御された分析も可能であり、データフィルタリング戦略、エージェント設定の選択肢、検索成功率と最終回答精度の関係など、深層研究パイプライン設計に関する実用的な知見が得られました。パイプライン、合成軌跡、モデルチェックポイント、オフライン検索環境はhttps://github.com/TIGER-AI-Lab/OpenResearcherで公開しています。
視覚言語モデル(VLM)は通常、高解像度の画像をそのまま処理するため、精度と計算効率の間でトレードオフが生じます。高解像度入力は細部を捉えられますが計算コストが大きく、低解像度入力は効率的であるものの、小さな文字などの重要な視覚情報を見落とす可能性があります。本論文では、この精度と効率のトレードオフを解決するAwaResを提案します。これは、低解像度の全体像を処理しつつ、クエリに応じてツール呼び出しにより必要な高解像度部分のみを取得する、オンデマンド空間フレームワークです。教師データは自動構築します。すなわち、判定器が低解像度と高解像度の回答を比較してクロップの必要性をラベル付けし、正解の根拠を位置特定するオラクルグラウンディングモデルを用いて、離散的なクロップ集合にマッピングし、マルチターンツール使用軌跡を形成します。本フレームワークは、コールドスタートSFTで初期化後、意味的正答率と明示的なクロップコストペナルティを組み合わせた複合報酬を用いたマルチターンGRPOで学習します。プロジェクトページ: https://nimrodshabtay.github.io/AwaRes
我々は、エージェント的ツール統合推論(TIR)を通じてLean4におけるネイティブ形式推論を推進する、5600億パラメータのフラッグシップオープンソースMixture-of-Experts(MoE)モデル「LongCat-Flash-Prover」を紹介する。ネイティブ形式推論タスクを、自動形式化、スケッチング、証明の3つの独立した形式的能力に分解する。これらの能力を促進するため、高品質なタスク軌道を拡張するハイブリッドエキスパート反復フレームワークを提案し、与えられた非形式的問題に基づく形式ステートメントの生成、ステートメントからの完全証明の直接生成、または補題スタイルのスケッチの生成を含む。エージェント的強化学習では、階層的重要度サンプリング方策最適化(HisPO)アルゴリズムを提示し、このような長期タスクにおけるMoEモデル学習の安定化を図る。これは、方策の陳腐化とシーケンスレベル・トークンレベル双方における訓練-推論エンジンの本質的差異を考慮した勾配マスキング戦略を採用する。加えて、定理の一貫性と合法性検出メカニズムを組み込み、報酬ハッキング問題を排除する。大規模評価により、当モデルが自動形式化と定理証明の両方においてオープンウェイトモデルの新たなstate-of-the-artを確立することを示す。顕著なサンプル効率を実証し、問題あたり72回の推論予算のみでMiniF2F-Testにおいて97.1%の合格率を達成する。より困難なベンチマークでは、問題あたり最大220試行でProverBenchの70.8%、PutnamBenchの41.5%を解決し、既存のオープンウェイトベースラインを大幅に上回る。
長文ビデオ理解は、マルチモーダル大規模言語モデル(MLLM)において、限られたコンテキストウィンドウの制約により依然として課題となっている。この制約に対処するには、クエリに関連する疎なビデオセグメントを特定する必要がある。しかし、既存手法の多くはクエリのみに基づいて手がかりの局所化を行うため、ビデオの内在的構造やセグメント間の関連性の差異を十分に考慮していない。この問題に対処するため、我々は長文ビデオ質問応答において、クエリとセグメントの関連性とセグメント間の親和性を統合的に活用するフレームワーク「VideoDetective」を提案する。具体的には、ビデオを複数のセグメントに分割し、視覚的類似性と時間的近接性に基づく視覚-時間親和性グラフとして表現する。その後、仮説-検証-洗練化のループを実行し、観測済みセグメントのクエリに対する関連性スコアを推定するとともに、未観測セグメントへのスコア伝播を行い、疎な観測に基づく最終回答に必要な重要セグメントの局所化を導く全球的な関連性分布を生成する。実験結果から、本手法が代表的なベンチマークにおいて広範な主流MLLMで一貫して大幅な性能向上を達成し、VideoMME-longでは最大7.5%の精度向上を実現することが示された。実装コードはhttps://videodetective.github.io/で公開している。
大規模事前学習画像表現モデル(視覚エンコーダ)は様々な視覚タスクで顕著な成功を収めているものの、これらのモデルは主に2D画像データで学習されているため、現実世界における物体と背景の3D空間的関係を十分に捉えられず、多くの下流アプリケーションでの効果が制限されている。この問題に対処するため、我々は言語記述で表現された3D空間知識を注入することで、既存の事前学習視覚エンコーダの空間認識能力を強化するスケーラブルなフレームワーク「SpatialBoost」を提案する。中核となるアイデアは、2D画像から得られる高密度な3D空間情報を言語表現に変換し、大規模言語モデル(LLM)を介してその空間知識を視覚エンコーダに注入するというものである。この目的のために、多段階の連鎖思考(Chain-of-Thought)推論プロセスを採用し、高密度な空間知識を段階的に取り込み、階層的な空間理解を構築する。有効性を検証するため、DINOv3などの最先端視覚エンコーダにSpatialBoostを適用し、3D知覚と一般的な視覚能力の両方を必要とする広範なベンチマークで性能向上を評価した。例えばSpatialBoostは、ADE20KにおけるDINOv3の性能を55.9 mIoUから59.7 mIoUに向上させ、事前学習済みDINOv3比3.8%の性能向上で最先端の性能を達成した。
生成的潜在空間の最近の進歩により単一画像生成は大きく発展したが、新規視点合成(NVS)における最適な潜在空間はほとんど未開拓のままである。特にNVSは視点間での幾何学的に一貫した生成を必要とするが、既存手法は典型的に視点非依存のVAE潜在空間で動作する。本論文では、幾何学基盤モデルの幾何学的に一貫した特徴空間を多視点拡散の潜在空間として再利用するフレームワーク、Geometric Latent Diffusion(GLD)を提案する。これらの特徴量が高忠実度RGB再構成を可能にするだけでなく、強力な視点間幾何学的対応を符号化しており、NVSに適した潜在空間を提供することを示す。実験により、GLDが2D画像品質および3D一貫性指標においてVAEおよびRAEを上回り、VAE潜在空間と比較してトレーニングを4.4倍以上高速化することを実証する。特にGLDは、大規模なテキストから画像への事前学習を活用する最新手法と互角の性能を発揮するが、そのような生成的事前学習なしで拡散モデルをゼロから学習している点が特筆される。
現在の言語モデル学習では、均一な計算予算をすべてのサブデータセットに適用するマルチタスク教師ありファインチューニング(SFT)が一般的に行われている。このアプローチは根本的に最適とは言えない。なぜなら、異種の学習ダイナミクスにより、学習の速いタスクは早期に過学習を起こし、遅いタスクは未学習のまま残るためである。この問題に対処するため、我々はマルチタスクデータ混合のための反復的で過学習を考慮した探索アルゴリズムであるmSFTを提案する。mSFTは、アクティブな混合データでモデルを学習し、最も早期に過学習するサブデータセットを特定して除外し、その特定の最適チェックポイントに戻った上で学習を継続する。大規模な評価により、mSFTが10のベンチマークと6つのベースモデルにおいて、一貫して4つのベースライン手法を上回ることを実証した。さらに詳細な分析により、mSFTが様々なデータセットサイズやタスクの粒度において堅牢な性能向上を維持し、その単一の新規ハイパーパラメータ(計算予算)に対して感度が低いことを確認した。特筆すべきは、低計算予算条件下において、mSFTが学習FLOPsを削減しつつ性能を向上させ得る点である。最終的に、mSFTは多様なデータ混合においてモデルの潜在能力を最大化する、実用的な過学習考慮型マルチタスクSFTアルゴリズムを確立する。
動画生成におけるGroup Relative Policy Optimization(GRPO)手法、例えばFlowGRPOは、言語モデルや画像向けの手法と比較して、依然として信頼性が大幅に低い。この隔たりは、動画生成が複雑な解空間を持ち、探索に用いられるODEからSDEへの変換が過剰なノイズを注入することで、ロールアウトの品質を低下させ、報酬推定の信頼性を損ない、学習後のアライメントを不安定にするために生じる。この問題に対処するため、我々は事前学習済みモデルが有効な動画データ多様体を定義していると見なし、探索をこの多様体の近傍に制限することが核心的な問題であると定式化する。これにより、ロールアウトの品質が維持され、報酬推定の信頼性が保たれる。我々はSAGE-GRPO(Stable Alignment via Exploration)を提案する。これはミクロレベルとマクロレベルの両方で制約を適用する。ミクロレベルでは、対数曲率補正を伴う精密な多様体考慮型SDEを導出し、タイムステップ間のサンプリングと更新を安定化するための勾配ノルム均等化器を導入する。マクロレベルでは、周期的に移動するアンカーと段階的制約を備えた二重信頼領域を用いることで、信頼領域が多様体に近いチェックポイントを追跡し、長期的なドリフトを抑制する。我々はSAGE-GRPOをHunyuanVideo1.5で評価し、元のVideoAlignを報酬モデルとして使用した。VQ、MQ、TA、および視覚的指標(CLIPScore、PickScore)において、従来手法を一貫して上回る改善を観察し、報酬最大化と全体的な動画品質の両方で優れた性能を示す。コードとビジュアルギャラリーはhttps://dungeonmassster.github.io/SAGE-GRPO-Page/で公開されている。
フィードフォワード3Dガウシアンスプラッティング手法は、単一パスでの再構成とリアルタイムレンダリングを可能にする。しかしながら、これらの手法は一般に、画素からガウシアン、あるいはボクセルからガウシアンへの固定的なパイプラインを採用し、ガウシアンを均一に割り当てるため、視点間で冗長なガウシアンが生じる。さらに、再構成の忠実度を維持しつつガウシアンの総数を制御する効果的な機構を欠いている。これらの課題を解決するため、本論文ではF4Splatを提案する。本手法はフィードフォワード3Dガウシアンスプラッティングのためのフィードフォワード予測的密度化を実行し、空間的複雑度と多視点重複度に応じてガウシアンを適応的に分配する、密度化スコア誘導型の割り当て戦略を導入する。我々のモデルは、必要なガウシアン密度を推定する領域毎の密度化スコアを予測し、再学習なしで最終的なガウシアン数の明示的な制御を可能とする。この空間適応型割り当てにより、単純な領域における冗長性が削減され、重複する視点間でのガウシアンの重複が最小化され、コンパクトかつ高品質な3D表現が生成される。大規模な実験により、本モデルが、従来の較正不要なフィードフォワード手法と比較して、極めて少ない数のガウシアンを使用しながら、優れた新視点合成性能を達成することを実証する。
オープン語彙3D物体検出は、固定された学習タクソノミーを超えた物体の位置特定と認識を目的とする。マルチビューRGB設定において、最近のアプローチは、幾何学ベースのインスタンス構築と意味的ラベリングを分離し、クラス非依存のフラグメントを生成した後、オープン語彙カテゴリを事後的に割り当てる手法が一般的である。この手法は柔軟性が高い一方、この分離によりインスタンス構築は主に幾何学的一貫性によって支配され、マージ処理中の意味的制約が欠如する。幾何学的証拠が視点依存性かつ不完全である場合、この幾何学のみに基づくマージは、異なる物体の過剰統合や単一インスタンスの断片化といった、修復不能な関連付けエラーを引き起こす可能性がある。 本研究では、意味的制約をインスタンス構築プロセスに直接統合するマルチビューオープン語彙3D検出フレームワーク「Group3D」を提案する。Group3Dは、マルチモーダル大規模言語モデル(MLLM)から導出されたシーン適応型語彙を維持し、それを、視点間のカテゴリ等価性の可能性を符号化する意味的互換性グループへと編成する。これらのグループはマージ時の制約として機能する:3Dフラグメントは、意味的互換性と幾何学的一貫性の両方を満たす場合にのみ関連付けられる。この意味的にゲートされたマージ処理により、幾何学主導の過剰統合を軽減しつつ、マルチビューにおけるカテゴリの変動性を吸収する。Group3Dはポーズ既知およびポーズ未設定の両方の環境をサポートし、RGB観測のみに依存する。ScanNetおよびARKitScenesでの実験により、Group3Dがマルチビューオープン語彙3D検出において最先端の性能を達成し、ゼロショットシナリオにおいて強力な一般化性能を示すことを実証する。プロジェクトページは https://ubin108.github.io/Group3D/ で公開されている。
マルチモーダル大規模言語モデル(MLLM)における具象的推論能力の向上は、マルチモーダル理解を低レベル行動へ変換する視覚-言語-行動モデル(VLA)を構築する上で極めて重要である。これに伴い、近年の研究では視覚質問応答型の教師信号を用いてMLLMの具象的推論を強化する手法が探求されてきた。しかしながら、これらのアプローチではVLAの性能が不安定になり、わずかな向上あるいはむしろ悪化をもたらすことが報告されている。本論文では、VLA性能を確実に改善する体系的なMLLM学習フレームワークRoboAlignを提案する。我々の核心的なアイデアは、ゼロショット自然言語推論により行動トークンをサンプリングし、強化学習(RL)を用いてこの推論を洗練させることで行動精度を高めることである。その結果、RoboAlignはMLLMにおける言語と低レベル行動のモダリティギャップを埋め、MLLMからVLAへの知識転移を促進する。RoboAlignの有効性を検証するため、MLLMバックボーン上に拡散ベースの行動ヘッドを追加したVLAを学習し、主要なロボティクスベンチマークで評価した。驚くべきことに、データの1%未満を用いたSFT後にRLベースのアライメントを実施するだけで、RoboAlignはLIBERO、CALVIN、実環境において、SFTベースラインに対してそれぞれ17.5%、18.9%、106.6%の性能向上を達成した。
大規模言語モデル(LLM)は知識集約型タスクにおいて幻覚を示す。グラフベースの検索拡張生成(RAG)は有望な解決策として登場したが、既存の手法はブラックボックス知識グラフ(スキーマと構造が事前に未知なグラフ)上で動作する際、基本的な再現率と適合率の限界に直面している。本論文では、再現率損失(意味的インスタンス化不確実性と構造的経路不確実性)と適合率損失(証拠比較不確実性)を引き起こす3つの核心的課題を特定する。これらの課題に対処するため、検索タスクを最適情報部分グラフ検索(OISR)問題(Group Steiner Treeの変種)として定式化し、これがNP困難かつAPX困難であることを証明する。我々はBubbleRAGを提案する。これは、意味的アンカーグループ化、候補証拠グラフ(CEG)発見のためのヒューリスティックなバブル拡張、複合ランキング、推論考慮型拡張を通じて、再現率と適合率を体系的に最適化するトレーニング不要のパイプラインである。マルチホップQAベンチマークによる実験では、BubbleRAGがプラグアンドプレイ性を維持しつつ、F1と精度の両方で強力なベースラインを上回り、最先端の結果を達成することを実証する。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデルの推論能力を大幅に向上させてきた。既存の分析では、RLVRによって引き起こされる変化がスパースであることが指摘されているが、それらは主に更新の大きさに焦点を当てており、その方向性はほぼ見過ごされている。本研究では、更新の方向性がRLVRの効果を理解する上でより重要な視点であると主張する。この方向性は、ベースモデルと最終的なRLVRモデル間の、符号付きトークンレベル対数確率差Δlog pによって捕捉できる。統計分析とトークン置換介入を通じて、Δlog pが、大きさに基づく指標(例えば、ダイバージェンスやエントロピー)よりも、スパースでありながら推論に決定的な更新をより効果的に特定することを実証する。この知見に基づき、我々は二つの実用的な応用法を提案する:(1)学習されたΔlog pの方向に沿って方策を増幅し、追加の学習なしで推論精度を向上させるテスト時外挿法、(2)学習を低確率(より高いΔlog pに対応)のトークンに集中させる学習時再重み付け法。これはモデルやベンチマークを超えて推論性能を向上させる。我々の研究は、変化の方向性をRLVRを分析し改善するための重要な原理として確立する。
長期的なエージェントタスクにおけるポストトレーニングでは、計算効率と汎化性能の間に緊張関係が存在する。教師ありファインチューニング(SFT)は計算効率が高いが、ドメイン外(OOD)での性能低下に悩まされることが多い。逆に、エンドツーエンド強化学習(E2E RL)はOOD性能を維持するが、多数のオンポリシーロールアウトによる高い計算コストが発生する。本論文では、既存のSFT軌道上で動作し、SFTの計算効率とE2E RLのOOD精度を組み合わせる新規フレームワーク「PivotRL」を提案する。PivotRLは二つの主要メカニズムに依存する。第一に、局所的かつオンポリシーなロールアウトを実行し、サンプリングされたアクションの結果に高い分散が現れる情報豊富な中間ターンである「ピボット」をフィルタリングする。第二に、SFTデータのデモンストレーションとの厳密な文字列一致を要求するのではなく、機能的に等価なアクションに対して報酬を利用する。理論的に、これらのメカニズムが高い自然勾配ノルムを持つ強力な学習信号を促進しつつ、トレーニングタスクに関連しないアクションに対する方策確率の順序を最大限に維持することを示す。同一データでの標準SFTと比較して、PivotRLは4つのエージェント領域で平均して+4.17%高いドメイン内精度を、非エージェントタスクでは+10.04%高いOOD精度を達成することを実証する。特に、エージェント的コーディングタスクでは、PivotRLはE2E RLと同等の精度を、ロールアウトターン数を4分の1に抑えて達成する。PivotRLはNVIDIAのNemotron-3-Super-120B-A12Bで採用され、生産規模のエージェント的ポストトレーニングにおける主力技術として機能している。
既存のプロンプト最適化技術は、行動の更新に局所的な信号に依存することが多く、タスク間で広く繰り返し発生するパターンを見落とし、汎化性能の低下を招いています。さらに、プロンプト全体の書き換えや非構造化された結合に依存するため、知識の損失が生じます。これらの限界は、異種混在のリポジトリ、未詳細な環境、弱いフィードバックを伴い、公開コードベースからの結果再現が確立された評価手法である研究用コーディングワークフローにおいて、特に顕著になります。本研究では、Reflective Evolving Research Engineer (REVERE) を提案します。このフレームワークは、グローバルなトレーニングコンテキストから継続的に学習し、リポジトリ横断的な実行軌跡における繰り返し発生する失敗モードを認識し、それらを再利用可能なヒューリスティクスに蒸留し、システムプロンプト、タスクプロンプトテンプレート、累積的なチートシートという3つの設定可能なフィールドに対して的を絞った編集を行います。REVEREは、この反射的最適化フレームワークにより、研究コーディングタスクにおいて、従来の最先端の専門家作成の指示と比較して、SUPERでは4.50%、ResearchCodeBenchでは3.51%、ScienceAgentBenchでは4.89%(それぞれの評価指標に基づく)性能向上を達成しました。これらの結果は、継続的学習とグローバルな記憶統合のメカニズムを備えたエージェントが、時間の経過とともにその能力を意味的に進化させ得ることを実証しています。
CLIPに代表される視覚と言語を橋渡しするモデルはマルチモーダルAIの中核をなすが、大規模で未整理の訓練データには深刻な社会的バイアスや疑似相関バイアスが含まれている。既存の事後的なバイアス除去手法は、多くの場合、CLIPの密な埋め込み空間において直接操作されるが、この空間ではバイアスとタスク関連情報が強く絡み合っている。この絡み合いが、意味的忠実性を損なうことなくバイアスを除去する能力を制限している。本研究では、スパースオートエンコーダ(SAE)の潜在空間で動作する、事後的・ゼロショットのバイアス除去フレームワークであるSparse Embedding Modulation(SEM)を提案する。SEMはCLIPのテキスト埋め込みを分離された特徴量に分解し、クエリ関連ニューロンを保持しつつバイアス関連ニューロンを特定・変調する。これにより、より精緻な非線形介入が可能となる。4つのベンチマークデータセットと2つのCLIPバックボーンを用いた実験において、SEMは検索およびゼロショット分類タスクで大幅な公平性の向上を達成した。我々の結果は、スパースな潜在表現が視覚言語モデルの事後的バイアス除去における有効な基盤を提供することを示唆している。
生成的モデルと視覚エンコーダは、これまで異なる目標に最適化され、異なる数学的原理に基づいて別々に発展してきました。しかし両者には、潜在空間のガウス性という根本的な共通点があります。生成的モデルはガウスノイズを画像に写像し、エンコーダは画像を意味的埋め込みに写像しますが、その座標は経験的にガウス分布に従います。本研究では、両者が共通の潜在源「Universal Normal Embedding(UNE)」の異なる表現であると仮説を立てます。UNEは近似ガウス的な潜在空間であり、エンコーダの埋め込みとDDIM逆変換ノイズは、これに対する線形射影として生じると考えられます。この仮説を検証するため、DDIM逆拡散ノイズと対応するエンコーダ表現(CLIP、DINO)から構成される画像単位の潜在変数データセット「NoiseZoo」を構築しました。CelebAデータセットにおいて、両空間での線形プローブは強力かつ整合性のある属性予測を実現し、生成的ノイズが線形方向に意味情報を符号化していることを示唆しました。これらの方向性を利用することで、アーキテクチャ変更なしに忠実な制御編集(笑顔、性別、年齢など)が可能となり、単純な直交化処理によって偽の絡み合いを軽減できました。総合的に、本研究結果はUNE仮説を実証的に支持し、符号化と生成を具体的に結び付けるガウス型潜在幾何学の共通性を明らかにしています。コードとデータはhttps://rbetser.github.io/UNE/で公開されています。
重み分解型低ランク適応(DoRA)は、LoRAを拡張し重みの大きさと方向を分離するが、その順方向計算にはW + sBAの行ごとのノルムが必要であり、我々が調査した主要フレームワークの全ては、密な[d_out, d_in]積BAを実体化することでこの計算を実装している。d_in = 8192、ランクr = 384の場合、単一モジュールのノルム計算にはbf16で約512MBの一時作業メモリが必要となり、数百の適応モジュールとチェックポイント処理が伴う一般的なシングルGPU環境では、高ランクのDoRAはコストが高く、多くの場合実行不可能となる。 本論文では2つのシステム面での貢献を示す。分解ノルム法は、二乗ノルムを基底項、交差項、グラム項に分解し、O(d_out r + r^2)の中間データを通じて計算可能とし、密な積計算を不要にする。融合型Tritonカーネルは、4つのカーネルからなるDoRA合成処理を単一パスに統合し、メモリ転送量を約4分の1に削減するとともに、実際に大きさのスケールが集中するほぼ1の再スケーリング領域において数値的に安定し、桁落ちを回避する形式を採用する。 bf16、r=384の条件下で、3種類のNVIDIA GPU(RTX 6000 PRO, H200, B200)上で6つの8-32B規模ビジョン言語モデル(VLM)を評価した結果、融合型実装は、推論においてHugging Face PEFTのDoRA実装比1.5-2.0倍、勾配計算(オプティマイザステップ除く)において1.5-1.9倍高速であり、ピークVRAM使用量は最大7GB低減した。4世代のアーキテクチャに跨る6種類のGPU(L40S, A100, RTX 6000 PRO, H200, B200, B300)でのマイクロベンチマークにより、合成カーネルで1.5-2.7倍の高速化を確認した。全てのモデル/GPUペアにおいて最終出力ロジットのコサイン類似度は0.9999を超え、2000ステップにわたるマルチシード学習曲線はステップ当たり平均損失差7.1 x 10^-4以内で一致した。
大規模言語モデル(LLM)は、長時間の推論時間を活用することで、驚異的な信頼性と高度な能力を実現している。しかし、高品質な長鎖推論データと最適化された学習パイプラインが決定的に不足しているため、これらの能力をマルチモーダル大規模言語モデル(MLLM)に拡張することは依然として大きな課題である。このギャップを埋めるため、我々は画像中心の基盤モデルInsight-Vから体系的に発展させた、統一的なマルチエージェント視覚推論フレームワークInsight-V++を提案する。まず、人的介入なしで画像および映像ドメインにわたる構造化された複雑な推論軌跡を自律的に合成する、マルチ粒度評価を備えたスケーラブルなデータ生成パイプラインを提案する。このような複雑なデータでMLLMを直接指導すると最適ではない結果が得られることを認識し、大規模な分析チェーンを実行する推論エージェントと、最終結果を批判的に評価・要約する要約エージェントからなるデュアルエージェントアーキテクチャを設計する。初期フレームワークでは直接選好最適化(DPO)を採用したが、そのオフポリシー性が強化学習の可能性を根本的に制約していた。特に長編映像理解におけるこれらの制限を克服するため、Insight-V++は時空間推論を強化し評価の頑健性を向上させる二つの新規アルゴリズム、ST-GRPOとJ-GRPOを導入する。要約エージェントからの信頼性の高いフィードバックを活用することで、反復的な推論パス生成プロセスを導き、マルチエージェントシステム全体を継続的かつ自己改善的なループで再学習する。LLaVA-NeXTやQwen2.5-VLなどの基盤モデルを用いた大規模実験により、従来の知覚中心タスクでの強力な能力を維持しつつ、難易度の高い画像・映像推論ベンチマークで顕著な性能向上が実証された。
本論文では、大規模な離散状態空間における任意のノイズ付加プロセスをサポートする、離散拡散モデリングの統一フレームワークであるGeneralized Discrete Diffusion from Snapshots(GDDS)を提案する。本定式化は既存のすべての離散拡散手法を包含しつつ、劣化ダイナミクスの選択において大幅に高い柔軟性を可能にする。順方向ノイズ付加プロセスは均一化法に基づき、高速な任意の劣化を実現する。逆プロセスについては、ノイズ付加経路全体ではなくスナップショット潜在変数に基づく単純なエビデンス下界(ELBO)を導出し、明確な確率的解釈を持つ標準的な生成モデリングアーキテクチャの効率的な学習を可能にする。大規模語彙における離散生成タスクでの実験結果から、提案フレームワークは学習効率と生成品質の面で既存の離散拡散手法を上回り、この規模では初めて自己回帰モデルを凌駕することが示された。コードおよびブログ記事はプロジェクトページ(https://oussamazekri.fr/gdds)で公開している。
「AIシンギュラリティ」はしばしば、単一の神のような知性として誤って描かれる。しかし、進化が示唆するのは別の道筋である。知性は本質的に複数的、社会的、関係的なものだ。エージェント型AIの最近の進歩が明らかにしているのは、DeepSeek-R1のような最先端の推論モデルは、単に「より長く考える」ことで進化するわけではないということである。むしろそれらは、複雑な課題を解決するために、議論し、検証し、調整する自発的な認知的な議論、すなわち内的な「思考の社会」をシミュレートしている。さらに我々は、人間とAIのケンタウロス(融合体)の時代に入りつつある。これは、集合的なエージェンシーが個人の制御を超越するハイブリッドな行為主体である。この知性をスケールさせるには、二者間の調整(RLHF)から、制度的な調整へと視点を移す必要がある。組織や市場をモデルにしたデジタルなプロトコルを設計することで、抑制と均衡の社会的インフラを構築できるのである。次の知性の爆発は、単一のシリコンブレインではなく、都市のように専門化し拡張する、複雑で組み合わさった社会となるだろう。いかなる心も孤島ではない。
プロンプトルーティングは、クエリごとに候補モデル群から最適な大規模言語モデルを動的に選択し、コストを管理しながら性能を最適化する技術である。モデル群が数十のフロンティアモデルに拡大し、性能差が狭まってくると、既存手法は重大な課題に直面する。手動定義のタスク分類では細かな能力差を捉えられず、単一のルーターでは多様なタスク間の微妙な差異を識別できない。本論文では、自動的な細粒度タスク発見とタスク考慮型品質推定による二段階ルーティングアーキテクチャを提案する。第一段階ではグラフベースクラスタリングにより潜在タスクを発見し、分類器を訓練してプロンプトをタスク割り当てする。第二段階では、タスク専門の予測ヘッドを持つ専門家混合アーキテクチャにより、特化した品質推定を行う。推論時には両段階の予測を統合し、タスクレベルの安定性とプロンプト固有の適応性のバランスを実現する。11のフロンティアモデルと10のベンチマークによる評価では、本手法は既存手法を一貫して上回り、最強の単一モデルを性能で凌駕しながら、その半額以下のコストで動作した。
既存コードの再利用と呼び出しは、依然としてコストが高く信頼性に欠ける。その理由は、実用的なツールの大半が異種混在のコードリポジトリに埋め込まれており、標準化された実行可能なインターフェースを備えていないためである。大規模言語モデルやModel Context Protocolに基づくツール呼び出しフレームワークは自然言語によるタスク実行を可能にするが、現在のアプローチはツールの手動選定と標準化に大きく依存しており、スケーラビリティが根本的に制限されている。本論文では、オープンソースのコードリポジトリとAPIをMCP互換ツールに自動変換し、LLMによる確実な呼び出しを可能にする統一フレームワーク「ToolRosetta」を提案する。ToolRosettaは、ユーザータスクが与えられると、ツールチェーンの自律的計画、関連コードベースの特定、それらを実行可能なMCPサービスへの変換を実行し、人的介入を最小限に抑えたエンドツーエンドのタスク完了を実現する。さらに、任意コード実行に内在するリスクを軽減するため、セキュリティ検査層を組み込んでいる。様々な科学分野における大規模な実験により、ToolRosettaが多数のオープンソースツールを自動標準化し、コードの再現とデプロイに必要な人的労力を削減できることを実証した。特に、専門的なオープンソースツールをシームレスに活用することにより、ToolRosettaを搭載したエージェントは、商用LLMや既存のエージェントシステムと比較して、タスク完了性能を一貫して向上させることが確認された。
Low Rank Adaptation (LoRA) は、事前学習済み拡散モデルから個人化された画像を生成するためのデファクトスタンダードなファインチューニング手法である。性能とメモリ消費量のトレードオフを考慮すると、適切なランクの選択は極めて重要であるが、現在では個人化対象の複雑さに関わらず、コミュニティの合意に基づいて決定されることが多い。その理由は明らかである。各LoRAコンポーネントに対して良いランクを選択するコストは組み合わせ爆発的に増大するため、すべてのコンポーネントに同じランクを固定するといった実用的な近道が採られる。本論文では、この課題を克服するための第一歩を踏み出す。ニューラルネットワークの適応的幅を学習する変分法に着想を得て、対象に対するファインチューニング中に各層のランクを自由に適応させる手法を提案する。これは、ランクの位置に重要性の順序付けを課すことで実現し、真に必要な場合にのみ高いランクが形成されるよう効果的に促す。定性的・定量的に、我々の手法であるLoRA^2は、29の対象においてDINO、CLIP-I、CLIP-Tの間で競争力のあるトレードオフを達成し、高ランク版LoRAと比べてはるかに少ないメモリと低いランクを必要とする。コード: https://github.com/donaldssh/NotAllLayersAreCreatedEqual。
AIエージェントは、GitHub上の課題解決などの個別のソフトウェアエンジニアリング(SWE)タスクにおいて、その能力を急速に高めている。しかし、複数の相互依存するサブタスクを含む長期タスクは、正確性と期限までの完了の両面において、依然として課題を提起している。このような長期タスクを効率的に解決するための自然なアプローチが、非同期マルチエージェント協調である。これは、複数のエージェントがタスクの異なる部分を同時並行で作業する手法である。しかし、マルチエージェントシステムの効果的な応用は、予想以上に困難であることが証明されている。複数のエージェントによる同時編集は互いに干渉し、依存関係の同期は難しく、部分的な進捗を首尾一貫した全体に統合することは困難である。一方、人間の開発者は、大規模なソフトウェアプロジェクトにおいてこれらの課題を管理するために、長年にわたり成熟した協調インフラを利用してきた。このような協調の基本要素に着想を得て、我々は「集中型非同期分離委任(CAID: Centralized Asynchronous Isolated Delegation)」を提案する。これは、集中型タスク委任、非同期実行、分離されたワークスペースという3つの核心的なSWE基本要素に基づく、構造化されたマルチエージェント調整パラダイムである。CAIDは、中央管理マネージャーを通じて依存関係を考慮したタスク計画を構築し、分離されたワークスペースでサブタスクを並行実行し、実行可能なテストベースの検証による構造化された統合を通じて進捗を統合する。実証評価において、CAIDは論文再現タスク(PaperBench)で単一エージェントベースラインと比較して26.7%(絶対値)、Pythonライブラリ開発タスク(Commit0)で14.3%の精度向上をもたらすことがわかった。体系的分析を通じて、ブランチ・アンド・マージがマルチエージェント協調の中心的な調整メカニズムであり、git worktree、git commit、git mergeなどのSWE基本要素が、これを信頼性高く実行可能な形で実現することを可能にしていることが明らかになった。
大規模視覚言語モデル(LVLM)は意味理解において優れる一方、複雑な幾何学を空間解釈を生成することなく暗黙的に推論する必要があるため、細粒度の空間的基礎付けに課題を残す。本論文ではPerceptioを提案する。これは、自己回帰系列内で直接生成される明示的なセマンティックセグメンテーショントークンと深度トークンを介して、2Dおよび3Dの空間推論能力を備えた知覚強化型LVLMである。具体的には、(i) 強力な単眼教師モデルからVQ-VAE深度コードブックを蒸留し、密な深度をコンパクトな系列にトークン化し、(ii) LLM内部にSAM2ベースのセマンティックセグメンテーショントークンとVQ-VAE深度トークンを統合し、モデルがまず空間トークンを生成した上で回答するようにした。深度トークン生成を安定化させるため、新規の複合深度トークン目的関数(マーカー、トークン、カウント損失)と微分可能再構成のためのソフトマージ手法を導入する。多様なデータセットに跨るマルチタスク共同学習戦略を採用し、モデルが知覚トークンを学習して複数の下流タスクに取り組めるようにした。InternVLを基盤とするPerceptioは、ベンチマークで最先端の性能を達成:RefCOCO/+/gの参照表現セグメンテーションでcIoUをそれぞれ+0.8/+1.4/+1.1向上、HardBLINK空間理解精度を10.3%、MMBench精度を1.0%向上させ、明示的な空間的思考の連鎖がLVLMの空間的基礎付けを実質的に強化することを実証した。
Diffusion Transformer(DiT)は高精細なビデオ世界モデルを実現するが、逐次的なノイズ除去と高コストな時空間アテンションにより計算コストが高い。訓練不要な特徴キャッシングは、ノイズ除去ステップ間で中間アクティベーションを再利用することで推論を高速化する。しかし、既存手法の多くは、大域的ドリフトが小さい場合にキャッシュされた特徴を静的なスナップショットとして再利用するというゼロ次ホールド仮定に依存している。これにより、動的シーンではゴーストアーティファクト、ぼやけ、動きの不整合が生じやすい。本研究では、特徴を「いつ」「どのように」再利用するかを両面から改善する、知覚制約付き動的キャッシングフレームワーク「WorldCache」を提案する。WorldCacheは、動き適応型閾値、顕著性重み付きドリフト推定、ブレンディングとワーピングによる最適近似、拡散ステップ間での位相認識型閾値スケジューリングを導入する。これらを統合したアプローチにより、再訓練なしで適応的かつ動きに一貫した特徴再利用を実現する。PAI-Benchで評価したCosmos-Predict2.5-2Bにおいて、WorldCacheはベースライン品質の99.4%を維持しつつ2.3倍の推論高速化を達成し、従来の訓練不要キャッシング手法を大幅に上回る。コードはhttps://umair1221.github.io/World-Cache/{World-Cache}で公開されている。
オフライン安全強化学習(RL)は、厳格な安全制約の下で静的データセットから報酬を最大化する方策を求める。既存手法は、ソフトな期待コスト目的関数や反復的生成推論に依存することが多いが、安全性がクリティカルなリアルタイム制御には不十分な場合がある。本論文では、FQLを安全なオフラインRLに拡張したSafe Flow Q-Learning (SafeFQL) を提案する。SafeFQLは、ハミルトン-ヤコビ到達可能性解析に着想を得た安全価値関数と、効率的なワンステップフロー方策を組み合わせる。SafeFQLは、自己無撞着性ベルマン再帰により安全価値を学習し、行動クローニングによりフロー方策を訓練し、それをワンステップのアクターに蒸留して、デプロイ時に棄却サンプリングなしで報酬最大化かつ安全な行動選択を実現する。学習された安全境界における有限データ近似誤差を考慮するため、コンフォーマル予測による較正ステップを追加し、安全しきい値を調整して有限サンプルにおける確率的安全保証を提供する。実験により、SafeFQLは、拡散型の安全生成ベースラインと比較して、オフライン訓練コストがわずかに高い代わりに、推論レイテンシを大幅に低減でき、リアルタイムの安全クリティカルなデプロイに有利であることが示された。ボート航行およびSafety Gymnasium MuJoCoタスクにおいて、SafeFQLは従来のオフライン安全RLの性能を同等以上に維持しつつ、制約違反を大幅に減少させた。
動物の鳴き声は、特に森林のような複雑な環境において、種の同定や生態モニタリングに貢献し、野生生物評価に重要な知見を提供する。深層学習の近年の進歩により、鳴き声からの自動的な種分類が可能となった。しかし、学習時に未経験の種を分類することは依然として課題である。この制約を解決するため、我々は階層的な生物学的情報を統合した新しいデータセットとモデルからなる、分類学を意識した言語-音響フレームワーク「AnimalCLAP」を提案する。具体的には、本鳴き声データセットは6,823種をカバーする4,225時間の録音から構成され、22の生態形質で注釈が付けられている。AnimalCLAPモデルは、分類学的構造を用いて音響とテキストの表現を整合させるようにこのデータセットで学習され、未経験の種の認識を改善する。提案モデルが、鳴き声から直接種の生態的・生物学的属性を効果的に推論し、CLAPと比較して優れた性能を達成することを実証する。データセット、コード、モデルは https://dahlian00.github.io/AnimalCLAP_Page/ で公開予定である。
世界モデルは環境の未来状態を予測することを学習し、計画立案とメンタルシミュレーションを可能にする。現在のアプローチでは、学習された潜在空間で動作するTransformerベースの予測器がデフォルトとなっている。これには代償が伴う:O(N^2)の計算量と、明示的な空間的帰納バイアスの欠如である。本論文は基礎的な疑問を投げかける:予測的世界モデリングにおいて自己注意は必須なのか、あるいは他の計算基盤が同等または優れた結果を達成し得るのか?私はFluidWorldを提案する。これは概念実証的な世界モデルであり、その予測ダイナミクスは反応拡散型の偏微分方程式(PDE)によって支配される。別個のニューラルネットワーク予測器を使用する代わりに、PDEの数値積分自体が未来状態の予測を生成する。条件付けなしのUCF-101動画予測(64x64, ~80万パラメータ, 同一のエンコーダ、デコーダ、損失関数、データ)における厳密なパラメータ一致3者間アブレーション研究において、FluidWorldはTransformerベースライン(自己注意)およびConvLSTMベースライン(畳み込みリカレンス)と比較された。3モデル全てが同等の単一ステップ予測損失に収束した一方で、FluidWorldは2倍低い再構成誤差を達成し、10-15%高い空間構造保存性と18-25%高い有効次元数を有する表現を生成した。さらに決定的な点として、両ベースラインが急速に劣化する中で、一貫性のある多ステップのロールアウトを維持した。全ての実験は単一のコンシューマーグレードPC(Intel Core i5, NVIDIA RTX 4070 Ti)で実施され、大規模計算資源は一切使用していない。これらの結果は、本質的にO(N)の空間計算量、適応的計算、拡散による大域的な空間的一貫性を提供するPDEベースのダイナミクスが、世界モデリングにおける注意機構および畳み込みリカレンスの両方に対する、実行可能でパラメータ効率の高い代替手段であることを示唆している。
拡散言語モデル(DLM)は、完全注意による並列デコードや柔軟な生成など、自己回帰(AR)モデルに比べて魅力的な利点を提供する。しかし、DLMは顕著な訓練-推論ミスマッチに悩まされている。すなわち、訓練時には静的な単一段階のマスク予測目標を用いるが、推論時には多段階の漸進的ノイズ除去軌道を通じて展開される。本論文では、MemDLM(メモリ拡張DLM)を提案する。これは、二段階最適化を介してノイズ除去プロセスを訓練に組み込むことで、この隔たりを狭める。内側のループは高速重みのセットを更新し、各サンプルの局所的な軌道経験を捉えるパラメトリックメモリを形成する。一方、外側のループはこのメモリを条件として基本モデルを更新する。トークン表現からパラメータへ記憶負荷をオフロードすることで、MemDLMはより高速な収束と低い訓練損失を実現する。さらに、内側のループは推論時に適応ステップとして再活性化でき、長文脈理解において追加の性能向上をもたらす。推論時に活性化された場合、このパラメトリックメモリは創発的な重み内検索機構として機能し、MemDLMが困難なNeedle-in-a-Haystack検索タスクにおけるトークンレベルの注意ボトルネックをさらに軽減することを我々は見出した。コード:https://github.com/JarvisPei/MemDLM。
近年のテキスト音声合成技術の進歩により、実音声とほとんど区別が付かない高精細な合成音声の生成が可能となっている。深層偽造検出において自己教師あり学習に基づく音声エンコーダの有効性が示されているが、これらのモデルは未見話者への汎化に課題を残す。定量的分析により、これらのエンコーダ表現が話者情報に大きく影響を受け、検出器がアーティファクト関連の手がかりではなく話者特有の相関に依存していることが明らかとなった。我々はこの現象を「話者エンタングルメント」と呼ぶ。この依存性を軽減するため、話者情報無効化フレームワークSNAPを提案する。話者部分空間を推定し、直交射影を適用することで話者依存成分を抑制し、残差特徴量内に合成アーティファクトを分離する。話者エンタングルメントの低減により、SNAPは検出器がアーティファクト関連パターンに注目することを促進し、State-of-the-artの性能を実現する。
深層ニューラルネットワーク(DNN)はコンピュータビジョンにおいて顕著な成功を収めているが、敵対的攻撃に対して依然として極めて脆弱である。中でも、カモフラージュ攻撃は物体の視覚的外観を操作し、検出器を欺く一方で人間には目立たないようにする手法である。本論文では、車両カモフラージュ攻撃を条件付き画像編集問題として定式化する新たなフレームワークを提案する。具体的には、画像レベルとシーンレベルの両方のカモフラージュ生成戦略を探求し、ControlNetをファインチューニングして実画像上に直接カモフラージュ車両を合成する。車両の構造的忠実度、スタイル一貫性、敵対的有效性を同時に強化する統合目的関数を設計した。COCOおよびLINZデータセットを用いた大規模な実験により、本手法は既存手法と比較して、車両構造をより良く保持し、人間の知覚におけるステルス性を向上させつつ、38%以上のAP50低下をもたらす、有意に強力な攻撃効果を達成することが示された。さらに、本フレームワークは未学習のブラックボックス検出器に対しても効果的に一般化し、物理世界への有望な転移性を示す。プロジェクトページはhttps://humansensinglab.github.io/CtrlCamo で公開されている。
視覚聴覚ナビゲーションは、聴覚的・視覚的手がかりを活用することで、エンボディードエージェントが音源ターゲットへと移動することを可能にする。しかし、既存手法の多くはバイノーラル音響レンダリングに事前計算された室内インパルス応答(RIR)に依存しており、エージェントを離散的なグリッド位置に制限し、空間的に不連続な観測を引き起こしている。より現実的な設定を確立するため、本論文では、エージェントが3D空間内を自由に移動し、時間的・空間的に連続した視覚聴覚ストリームを認識できるSemantic Audio-Visual Navigation in Continuous Environments (SAVN-CE)を提案する。この設定では、ターゲットが断続的に沈黙したり、発音を完全に停止したりするため、エージェントは目標情報を失う可能性がある。この課題に対処するため、我々はMAGNetを提案する。これは、空間的・意味的目標表現を共同で符号化し、履歴コンテキストと自己運動手がかりを統合することで、メモリ拡張型の目標推論を実現するマルチモーダルトランスフォーマーベースのモデルである。包括的な実験により、MAGNetが既存の最先端手法を大幅に上回り、成功率で最大12.1%の絶対改善を達成することを実証した。これらの結果は、短時間音響や長距離ナビゲーションシナリオに対するその頑健性も浮き彫りにしている。コードはhttps://github.com/yichenzeng24/SAVN-CE で公開されている。
強化学習(RL)は、大規模言語モデル(LLM)を長期的計画が可能な自律エージェントへと進化させる上で不可欠である。しかし、複雑で多段階的な環境においてRLをスケーリングする実用的な方法論は未だ確立されていない。本論文では、多様な制約を満たすためのツール調整を必要とする挑戦的なテストベッドであるTravelPlannerを用いた、体系的な実証研究を提示する。我々は、エージェントのRL設計空間を、報酬設計、モデル規模、データ構成、アルゴリズム選択、環境安定性の5つの軸に沿って分解する。制御実験から得られた7つの主要な知見は以下の通りである:(1) 報酬とアルゴリズムの選択は規模に依存し、小規模モデルは段階的報酬と探索の強化から恩恵を受けるのに対し、大規模モデルは単純な密な報酬で効率的に収束する、(2) 難易度が均衡した約1,000の訓練サンプルが、ドメイン内性能とドメイン外性能の両方において最適点となる、(3) 方策の劣化を防ぐには環境安定性が極めて重要である。我々が抽出した方法論に基づき、RLで訓練したモデルはTravelPlannerにおいて state-of-the-art の性能を達成し、主要なLLMを大幅に上回った。
ビヘイビアクローニングは、ロボティクス、自動運転、生成モデルなどにおける専門家の実演からの方策学習を可能にする、機械学習の基本的なパラダイムである。トランスフォーマーに代表される自己回帰モデルは、大規模言語モデル(LLM)から視覚言語行動システム(VLA)に至るまで、非常に効果的であることが実証されている。しかし、連続制御に自己回帰モデルを適用するには、量子化による行動の離散化が必要となり、この手法は広く採用されているものの、理論的な理解が十分に進んでいない。本論文は、この手法に対する理論的基盤を提供する。我々は、量子化誤差が時間経過に沿ってどのように伝播し、統計的サンプル複雑性と相互作用するかを分析する。動的システムが安定であり、方策が確率的平滑性条件を満たす限り、量子化された行動と対数損失を用いたビヘイビアクローニングは、既存の下限と一致する最適なサンプル複雑性を達成し、量子化誤差に対する時間依存性も多項式的に抑えられることを示す。さらに、異なる量子化スキームがこれらの要件を満たす場合と違反する場合を特徴付け、方策の平滑性を要求することなく誤差限界を改善することが証明されたモデルベースの拡張手法を提案する。最後に、量子化誤差と統計的複雑性の効果を統合的に捉える根本的な限界を確立する。
非周期階層が、周期的代替構造に対してロスレス圧縮において構造的優位性を提供し得るかどうかを検討する。我々は、フィボナッチ準結晶タイル張りが周期的階層に影響する有限深度崩壊を回避することを示す:使用可能なn-gram検索位置はあらゆるレベルで非ゼロのまま維持されるが、周期pに対する周期的タイル張りはO(log p)レベル後に崩壊する。これにより非周期階層の優位性が生じる:辞書の再利用性は有限深度を超えて消失するのではなく、すべてのスケールにわたって利用可能であり続ける。我々の分析は4つの主要な帰結をもたらす。第一に、黄金補償特性により、位置数の指数的減少は句長の指数的増加によって正確に均衡され、潜在的なカバレッジは漸近値Wφ/5でスケール不変性を維持する。第二に、Sturmian複雑性法則p(n)=n+1を用いて、フィボナッチ/Sturmian階層が二元非周期タイル張りの中でコードブックカバレッジ効率を最大化することを示す。第三に、長距離依存性の下では、結果として生じる階層は同等の周期的階層よりも低い符号化エントロピーを達成する。第四に、冗長性は深度とともに超指数的に減衰するが、周期系は崩壊が発生する深度でロックされたままとなる。これらの結果を、句長{2,3,5,8,13,21,34,55,89,144}の10段階フィボナッチ階層に基づくロスレステキスト圧縮器Quasicrythで検証する。同一コードブックを用いた制御A/B実験では、周期5ベースラインに対する非周期優位性は、3MBで36,243バイトから、より深い階層レベルの活性化により1GBで11,089,469バイトに増大する。enwik9において、Quasicrythは225,918,349バイト(22.59%)を達成し、タイル張りなしと比較してフィボナッチタイル張りにより20,735,733バイトが節約された。
知識に基づく対話システムは、外部知識源を条件として情報量が豊富で文脈に関連する応答を生成することを目的としている。しかし、既存手法の大半は英語に特化しており、事実主張を検証するための明示的な引用機構を欠き、モデルの意思決定過程の透明性も限られている。本論文では、二言語(英語-ヒンディー語)設定における説明可能な知識基盤型対話生成のための漸進的4段階トレーニングパイプライン「XKD-Dial」を提案する。これは、(1)多言語適応、(2)引用基盤付き英語対話SFT、(3)二言語対話SFT、(4)引用認識報酬を用いたGRPOアライメントから構成される。エンコーダ-デコーダ(250M-3B)およびデコーダのみ(1B-7B)のアーキテクチャにわたる6つのモデルをパイプラインの各段階で評価した。主な貢献は以下の通りである:(i)訓練軌跡全体に体系的に適用された3つの事後説明可能性分析(クロスアテンションアライメント、統合勾配帰属推定、オクルージョンベース因果的基盤付け)により、引用行動が「学習されるか否か」だけでなく、「どのように学習されるか」を明らかにする;(ii)引用基盤付きSFTにより、エンコーダ-デコーダモデルのStage 2以降における幻覚生成率が0.0%に低減される;(iii)漸進的パイプラインは破滅的忘録を防止しつつヒンディー語能力を向上させる;(iv)SFT後、小規模モデルは英語タスクにおいて大規模モデルと同等の性能を発揮する;(v)構造化された引用タスクにおいて、GRPOはよく設計されたSFTに対して限定的な改善をもたらす。6つの自動評価指標(BLEU、ROUGE、BERTScore、FactScore、Citation-F1、幻覚生成率)を用いて評価を行った。
本論文では、約5000万トークンの比較的小規模なデータセットを用いて、Gemma 3モデルの指示チューニング版を基盤としたマルチモーダル・ドメイン適応型大規模言語モデルAdditiveLLM2を提案する。データセット(AdditiveLLM2-OA)は、オープンアクセスの積層造形学術論文から構成され、ドメイン適応事前学習と視覚的指示チューニングプロセス向けに抽出されたデータを含む。開発モデルの各段階は、公開リソースから編纂された積層造形ドメイン固有のタスク群から成るAdditive-Manufacturing-Benchmarkを用いて評価された。AdditiveLLM2は言語タスクと視覚タスクの両方に熟達し、一般的な積層造形知識において90%以上の精度を達成している。このドメイン適応事前学習と指示チューニング戦略は、積層造形のような特定分野への大規模言語モデルの効率的な専門化手法の枠組みを示すものである。