翻訳付きの日次キュレーションされたAI研究論文
現在のエージェントスキルは、手作業で作成されるか、ワンショットで生成されるか、あるいは緩やかに制御された自己修正によって進化するものであり、そのいずれもスキルに対する深層学習のオプティマイザのように動作せず、フィードバックのもとで初期状態から確実に改善されるものではありません。我々は、スキルをフリーズされたエージェントの外部状態として訓練すべきであり、その際、重み空間の最適化を再現可能にするのと同じ原則を適用すべきだと主張する。我々の知る限り、SkillOptはエージェントスキルに対する初めての体系的で制御可能なテキスト空間オプティマイザである。別個のオプティマイザモデルが、スコア化されたロールアウトを、単一のスキル文書に対する制限付きの追加/削除/置換編集に変換し、編集は、保持された検証スコアを厳密に改善する場合にのみ受け入れられる。テキスト学習率バジェット、拒否編集バッファ、およびエポック単位の遅い/メタ更新により、スキル訓練を安定させると同時に、デプロイ時には推論時のモデル呼び出しを一切追加しない。6つのベンチマーク、7つのターゲットモデル、3つの実行ハーネス(直接チャット、Codex、Claude Code)にわたって、SkillOptは評価された52すべての(モデル、ベンチマーク、ハーネス)セルで最高または同点であり、人間、ワンショットLLM、Trace2Skill、TextGrad、GEPA、EvoSkillの各スキルの中から、各セルの競合相手すべてを上回る。GPT-5.5では、直接チャットでスキルなしの平均精度を+23.5ポイント引き上げ、Codexエージェントループ内で+24.8、Claude Code内で+19.1引き上げる。転送実験はさらに、最適化されたスキル成果物が、モデル規模をまたいで、CodexとClaude Codeの実行環境間で、そしてさらなる最適化なしで近接した数学ベンチマークに移した場合でも、価値を保持することを示している。
拡散トランスフォーマーは現代のビジュアル生成において事実上の基盤アーキテクチャとなっており、トークン化、アテンション、条件付け、目的関数、潜在オートエンコーダといった設計上の主要な軸のほぼすべてが広範に再検討されてきた。しかしながら、層間で情報が蓄積される仕組みを司る残差ストリームは、オリジナルのTransformerから直接継承されたままである。本論文では、DiTにおける層間情報フローの系統的実証分析を深さ方向とノイズ除去タイムステップ方向の両方に沿って行い、従来の残差加算に固有の三つの具体的な兆候、すなわち単調な順方向の大きさの増大、急峻な逆方向の勾配減衰、顕著なブロック単位の冗長性を特定する。この診断結果に基づき、我々はDiffusion-Adaptive Routing(DAR)を提案する。これはドロップインで置き換え可能な残差構造であり、サブレイヤ出力の履歴に対して学習可能、タイムステップ適応的、かつ非増分的な集約を実行する。さらに、提案するDARはREPAなどの多くの現代的なTransformer拡張手法と互換性がある。ImageNet 256×256において、DARはSiT-XL/2のFIDを2.11改善し(9.67から7.56へ)、ベースラインと同等の品質を8.75分の1の学習イテレーションで達成する。REPAと組み合わせた場合、初期段階で2倍の学習高速化をもたらし、これは拡散モデリングにおける未開拓の設計軸としての層間情報ルーティングが、既存の表現整合目的関数とは直交して機能することを示唆している。事前学習に加えて、DARは大規模T2Iモデルのファインチューニング段階にも適用可能であり、Distribution Matching Distillationにおいて高周波の詳細情報を保持する。
Lensは、38億パラメータのT2Iモデルであり、60億パラメータを超える最先端モデルと同等以上の性能を複数のベンチマークで達成しつつ、トレーニングに必要な計算量を大幅に削減しています。例えば、Lensのトレーニング計算量はZ-Imageの約19.3%に過ぎません。このトレーニング効率の高さは、コンパクトなモデルサイズに加えて、以下の2つの主要な戦略に起因します。第一に、各トレーニングバッチにおけるデータ情報密度を最大化するため、(i) キャプションがGPT-4.1により生成され、平均約109語を含む、800万の高密度キャプション付き画像テキストペアからなるデータセットLens-800Mでトレーニングすることで、従来の短いキャプションよりも豊かな意味的監督を提供し、(ii) 複数の解像度と多様なアスペクト比を持つ画像から各バッチを構成することで、各最適化ステップの実効的な視覚的カバレッジを拡大しています。第二に、より優れた潜在表現を提供するセマンティックVAEの採用や、最適化を加速し英語のみのトレーニングデータから多言語汎化を可能にする強力な言語エンコーダの使用など、注意深いアーキテクチャ選択を通じて収束速度を改善しています。事前トレーニング後には、分類学に基づくプロンプト(Lens-RL-8K)と構造化報酬ルーブリックを用いた強化学習を適用し、アーティファクトを抑制して視覚品質を向上させます。また、トレーニング不要のシステムプロンプト探索を用いたリーズナーモジュールにより、ユーザー要求とモデルの整合性を高め、蒸留ベースの高速化により4ステップ推論を実現します。効率的なトレーニングと体系的な最適化により、Lensは1:2から2:1までの任意のアスペクト比と、最大1440^2の解像度に汎化し、複数の一般的な言語でのプロンプトに対応します。コンパクトなサイズのおかげで、Lensは単一のNVIDIA H100 GPU上で1024^2の画像を3.15秒で生成し、蒸留版のターボバージョンでは4ステップ生成を0.84秒で実行します。
世界的な学術成果の指数的な増加により、研究者やAIエージェントはかつてない「情報爆発」に直面している。断片的で非構造化された知識の整理は、深い分野横断的な統合を妨げている。現在の学術検索ツールの大半は、表面的なキーワードマッチングやベクトル空間に基づく意味検索に依存しており、複雑な論理的関係を把握するために必要なトポロジカルな推論能力を欠いている。エージェント型の深層研究フレームワークは、しばしば論理的ハルシネーションを起こしやすく、高い推論コストを要する。この課題を解決するため、本報告書では、パノラマ的な科学進化ネットワークとして設計された、大規模・多分野・異種混在の学術リソース知識グラフ「SciAtlas」を紹介する。SciAtlasは、26分野にわたる4300万件以上の論文、合計1億5700万のエンティティと30億のトリプレットを統合することで、構造化されたトポロジカルな認知基盤を提供し、分野間の障壁を取り除き、AIエージェントにグローバルな視点をもたらす。さらに、トリパス協調的リコール(tri-path collaborative recall)とグラフ再ランキングを特徴とするニューロシンボリック検索アルゴリズムを開発し、単純な意味マッチングから決定論的な関連性発見へのシームレスな移行を実現した。また、文献レビュー、自動研究トレンド合成、アイデアポジショニング、学術的軌跡の探求など、SciAtlasの主要な応用方向性を示し、SciAtlasが推論コストを大幅に削減しながら、自動化された科学研究の全ループを強化する効果的な「認知マップ」として機能することを実証する。我々は、GitHubリポジトリにおいて、知識グラフ検索のためのインターフェースや各種下流タスクを公開している。
統合音声言語モデリングは、現代の音声システムにおける顕著なトレンドとして台頭しており、大規模言語モデルの推論能力を聴覚タスクにもたらすことを約束している。しかしながら、既存の統合基盤モデルは、自動音声認識(ASR)、テキスト音声合成(TTS)、リアルタイム音声対話において、専門特化型システムが持つ深みにまで到達するのが難しいのが現状である。このギャップを埋めることは、現在も未解決の課題である。本報告書は、これら三つの能力すべてにおいて専門特化型システムに匹敵、あるいは凌駕する統合音声言語基盤モデル、StepAudio 2.5 を紹介する。我々は、これらのタスクをアーキテクチャ的に異なるものとして扱うのではなく、テキストと音声がマルチモーダルな表現空間を共有するならば、タスクの特化は動作レジーム(データ構築、最適化目標、復号化制約)の問題となるという前提に基づいて研究を進めている。この洞察に導かれ、我々はポストトレーニングパラダイムを標準的な教師あり学習からタスクに特化したRLHF(人間からのフィードバックによる強化学習)へと発展させ、それを複雑な最適化目標を定義する主要なメカニズムとして用いる。我々は、このRLHF中心のアライメントを、特殊な復号化と組み合わせて活用し、共有バックボーンを三つの異なる動作モードへと形成する。具体的には、ASRブランチは、検証可能なマルチトークン復号化により転写効率を向上させる。TTSブランチは、嗜好に基づくRLHFと文脈豊かな教師信号を通じて、制御可能で表現力豊かな合成を実現する。リアルタイムブランチは、RLHFフレームワーク内での生成的報酬モデリングにより、低遅延かつ人物像に一貫した対話を実現する。標準ベンチマークにおいて、StepAudio 2.5 はASR、TTS、リアルタイムの各タスクで最先端の結果を達成し、単一の音声言語基盤が、音声理解、生成、ライブ対話というそれぞれ異なる展開上の目的を首尾よく内面化できることを実証している。
我々はSWIM (See What I Mean) を提案する。これは、テキストプロンプトのみから高精度なオブジェクト理解を可能にする、視覚と言語の表現を整合させる新規な学習戦略である。マスクや点などの明示的な視覚プロンプトを必要とする既存手法とは異なり、SWIMは訓練時のみマスクによる教師信号を利用してクロスモーダルな注意機構を誘導し、推論時にはユーザが指定したオブジェクトにモデルが自動的に注目できるようにする。事前学習済みマルチモーダル大規模言語モデル(MLLM)のクロスアテンション解析により、系統的な不一致が明らかになった。すなわち、属性語は視覚モダリティにおいて鋭く局所的な活性化を示すのに対し、物体名詞は意味的参照バイアスと分散した高次表現のために拡散したパターンを生じる。このミスアライメントに対処するため、我々はNL-Referという拡張データセットを構築し、各オブジェクトマスクを正確な自然言語による指示表現と対応付けた。SWIMは物体名詞から多層のクロスアテンションマップを抽出し、正解マスクとの空間的な整合性を強制する。実験結果は、SWIMがテキストと視覚のアライメントを大幅に改善し、高精度なオブジェクト理解ベンチマークにおいて、視覚プロンプトに基づく手法を上回る性能を示すことを実証している。コードとデータは https://github.com/HumanMLLM/SWIM で公開されている。
言語エージェントは、過去の経験から抽出された構造化された手続き的成果物であるスキルを再利用することで、ますます改善されている。特に、ドメインレベルのスキルとモデル生成スキルは有望である。これらは、ドメイン固有の反復手順を符号化することでドメイン内での迅速な適応を可能にし、労力を要する手作業を超えてスケールする。 しかし、抽出方法が増え続けている一方で、理解は限られたままであり、スキルのライフサイクル全体(経験生成、スキル抽出、スキル消費)を網羅して、そのようなスキルが実際に機能するのか、いつ機能するのか、何が成功または失敗の要因なのかを問う包括的な研究は存在しない。このギャップを埋めるために、我々は、抽出器と対象エージェントにわたって体系的な実験結果を提供し、5つの多様なエージェント型タスクドメインをカバーする、実用性に基づく評価フレームワークを構築する。 我々は、モデル生成スキルは平均的には有益であるが、無視できない負の転移を示すこと、また抽出器も対象エージェントも一様に振る舞うわけではないことを発見した。あるモデルは強力な抽出器である一方で弱い消費者であることも、その逆もあり得る。スキルの有用性はモデル規模やベースラインタスクの強度とは無関係である。 これらのパターンを説明するために、次に各ライフサイクル段階を詳細に分解し、経験の構成がどのようにスキルの品質を形成するか、有用なスキルを特徴付ける特性は何か、同じスキルが異なる消費者間でどのように転移するかを分析する。最後に、これらの知見を、実際の有用性に関連する特徴へとスキル抽出を導く具体的なメタスキルに変換する。これにより、ドメイン全体でスキルの品質が一貫して向上し、負の転移が大幅に低減される。
近年の潜在外挿拡散モデルや自己回帰モデルを含む、実用的な高解像度テキスト・画像生成システムの多くは、コンパクトな潜在空間で生成を行い、デコーダーが生成された潜在表現をピクセルにマッピングする。しかし、潜在表現からピクセルへのデコーダーは再構成型であり、エンコーダーを反転させることに特化して最適化されており、詳細を合成するようには設計されていない。また、メガピクセル規模ではコストが増大する。この欠点に対処するため、より表現力が高く効率的な復号パラダイムが求められている。スケーラブルなピクセル空間拡散の近年の進展に着目し、我々はPiD(Pixel diffusion Decoder)を導入する。PiDは潜在表現の復号を条件付きピクセル拡散として再定義し、復号とアップサンプリングを一つの生成モジュールに統合する。高解像度のピクセル空間で直接ノイズ除去を行うことにより、PiDは4倍、さらには8倍にアップスケールされた画像を低レイテンシで合成する。潜在条件付けには、軽量なシグマ認識アダプターを用いてノイズが付加された潜在表現をピクセル拡散バックボーンに注入し、PiDが部分的にノイズ除去された潜在表現を復号できるようにし、潜在拡散プロセスを早期に終了させる。さらに効率を向上させるため、DMD2を用いてモデルを蒸留し、推論をわずか4ステップに削減する。PiDは従来のVAE潜在表現だけでなく、近年のRAEベースモデルで使用される意味的潜在表現(SigLIP、DINOv2など)にも適用可能である。PiDは512×512画像の潜在表現を、コンシューマ向けRTX 5090上で1秒未満、ピークメモリ13GBで2048×2048ピクセルに復号し、GB200 GPUでは210ミリ秒と、カスケード型拡散ベースの超解像パイプラインよりも約6倍高速であり、かつより優れた視覚的忠実度を実現する。
バーチャルフォトグラフィは、エージェントに対して、カメラポーズや参照画像が事前に選択されていない準備済みの3Dシーンに入り、シーン情報と言語による意図から適切なショットを推論し、実行可能なカメラパラメータを選択して最終的な写真をレンダリングすることを要求する。近年の視覚言語モデルの進歩により、この種の空間エージェントはますます実現可能になりつつあるが、このタスクは、複雑な3D空間理解と抽象的な美的判断という、一緒に評価することが難しい二つの能力を強調する。我々は、閉ループカメラ探索のためのDirector-Reviewer-ReflectorエージェントであるPhotoFlowを導入する。Directorはソフトな写真設計図を構築し、多様な候補カメラを提案する。Reviewerはルールチェック、視覚的批評、およびペアワイズ現行選択を組み合わせる。Reflectorは失敗を領域メモリ、デッドゾーン抑制、高探索再配置に変換する。また、被写体配置、関係構図、雰囲気・スタイルにわたる47のオープンライセンスのBlenderシーンと141の言語条件付き写真撮影ミッションからなるベンチマークVPhotoBenchも導入する。ホールドアウト実験において、PhotoFlowは6ラウンドのレンダリング予算の下で、ワンショット予測、単一連鎖リフレクション、アンカーバンク選択、ランダム探索の中で最も高い外部品質-アラインメント複合スコアと成功率を達成した。我々の知る限り、これは任意のBlenderシーンにおける言語条件付きバーチャルフォトグラフィを実行可能なエージェントタスクとする初めての研究であり、我々の結果は、3D推論と美的選択の両方に挑戦するように設計された設定において、LLM中心の空間エージェントがすでに強力な写真を生成できることを示している。
時空間推論は、実世界で動作するマルチモーダル大規模言語モデル(MLLM)にとって中核的な能力である。そのため、これを正確に評価することは重要な課題となっている。しかし、既存の時空間推論ベンチマークデータセットは主に静的な画像セットや受動的に収集されたビデオデータに依存しており、細粒度の推論能力の評価を制限している。本論文では、生成モデルを用いて高度に制御された多様な評価シナリオを能動的に合成するビデオベンチマーク、VGenST-Benchを提案する。VGenST-Benchを構築するために、人間による品質管理段階を組み込んだマルチエージェントパイプラインを導入し、生成されるすべてのビデオとQAペアの品質を保証する。また、空間スケール、視点、シーンダイナミクスを含む包括的な3×2×2のビデオ分類体系を確立し、多様なシナリオを網羅する。さらに、低レベルの視覚知覚と高レベルの時空間推論を分離する階層的タスクスイートを設計する。受動的なキュレーションから能動的な合成へのパラダイムシフトにより、VGenST-BenchはMLLMにおける時空間理解の詳細な診断を可能にする。
離散自己回帰(AR)テキスト画像生成(T2I)モデルは、VQトークナイザとARポリシーを組み合わせたものであり、現在のポストトレーニングパイプラインでは、VQデコーダを固定したままポリシーのみを最適化しています。REPA-Eに代表される近年の拡散T2I研究では、VAEそのものが重要なアラインメントのボトルネックを構成することが示されていますが、離散ARモデルに関する同様の調査は未だ行われていません。本稿では、ポリシーのみの最適化が「潜在共変量シフト」を引き起こすことを示します。すなわち、ポリシーが進化するにつれて、生成されるトークン分布がデコーダの学習に用いられた真の分布から乖離し、報酬スコアは向上する一方で、復号された画像品質は低下するのです。このミスマッチに対処するため、本稿では離散T2I生成のための初のエンドツーエンドポストトレーニングフレームワークであるRankEを提案します。RankEは、固定デコーダに対してポリシーを最適化するのではなく、交互最適化によって両方のコンポーネントを共進化させます。すなわち、各モジュールがランキングベースのアラインメント目的関数を最大化しつつ、自身のパラメータ空間に適した安定性を保持するアンカーによって正則化されます。この共進化により、デコーダ固定アプローチに付きまとう「忠実度とアラインメントのトレードオフ」が解消されます。LlamaGen-XL(775M)において、標準的な強化学習はCLIPを向上させる一方でFIDを悪化させますが、RankEは両方を同時に改善します(MS-COCO 30KにおいてFID 15.21、CLIP 33.76)。Janus-Pro(1B)での一貫した改善により、デコーダの共進化が報酬最適化を確実にピクセル空間の品質向上へと変換することが確認されました。
マルチモーダル大規模言語モデルは視覚的推論を進歩させてきたが、微細な焦点や視点変換を必要とする質問に対しては、テキストのみの連鎖思考が依然としてボトルネックとなっている。「画像を用いた思考」パラダイムはこのギャップを縮めるが、既存の手法は固定された事前定義ツールキットに制約されるか、統合マルチモーダル手法からノイズの多い中間画像を生成する。我々は第三の選択肢、すなわち専用の画像編集モデルを使用し、それを理解モデルと分離する方法を追求する。しかし、既製の画像エディタは推論アシスタントとして機能する際に、二つの相補的なギャップを抱えている。すなわち、受動的な指示追従型として訓練されたエディタが抽象的な質問を適切な視覚変換にマッピングできないという言語側のギャップと、推論の深さが増すにつれて編集の正確性が低下するという生成側のギャップである。この分析に基づき、我々はETCHR(Editing To Clarify and Harness Reasoning)を導入する。これは質問条件付きで推論を認識する画像エディタであり、下流の理解モデルから分離され、二つのギャップを対象とした二段階の手法で訓練される。すなわち、編集軌跡に関する教師ありファインチューニングによる推論模倣と、それに続くVLM由来の報酬を用いた編集正確性および下流の推論精度に対する推論強化である。エディタが分離されているため、ETCHRは学習不要の方法で様々なオープンソースおよびクローズドソースのMLLMにプラグイン可能である。5つのタスクファミリー(微細知覚、グラフ理解、論理推論、ジグソー復元、3D理解)において、ETCHRは平均Pass@1をQwen3-VL-8Bで55.95から60.77(+4.82)、Gemini-3.1-Flash-Liteで65.08から70.55(+5.47)、1TパラメータのMoEモデルKimi K2.5で76.55から81.16(+4.61)に引き上げた。
一人称視点シューティング(FPS)ゲーム向けのインタラクティブ世界モデルは、各フレームにおいて高頻度で重複する制御信号を解決しつつ、影響を受けない領域を乱さないことが求められる。既存手法はアクションを全体的に注入し、単一タイトルで学習するため、密度の高いFPS入力には対応できない。我々は、FPSアクションが空間的に選択的であることを観察した。すなわち、発射やリロードといった離散的イベントは、武器周辺の局所領域(スコープ)にのみ影響し、一方で連続的なカメラや移動の信号は安定した周囲環境を支配する。本稿ではSCOPEを提案する。これは、事前学習済みビデオ拡散モデルの各トランスフォーマーブロックに条件付けモジュールを挿入するものである。特徴量をピクセル単位の時間系列に再構成することで、各位置が局所的な視覚情報からアクション応答を計算できるようにする。これにより、セグメンテーションラベルを用いずに、スコープ内の効果とスコープ外の生成を分離する。また、フレーム同期されたアクションテレメトリを持つ初のマルチゲームFPSデータセットであるCrossFPSを導入する。これは7タイトルから69,000クリップで構成され、10自由度のコントローラー信号を含み、ゲームプレイの偏りを除去するようキュレーションされている。モデルはゲーム固有のパターンではなく、汎用的な視覚-アクション対応を学習し、未見のシーンへのゼロショット転送を可能にする。実験により、高いアクション応答性、正確なスコープ分離、および効果的なクロスゲーム汎化が確認された。
大規模言語モデル(LLM)の既存のスケーリング則は、主に単調な冪乗則であり、計算資源を増やしても性能が低下するカタストロフィックな過学習や量子化による劣化などの非単調現象を説明できない。 我々は、シャノン・ハートレーの定理に基づき、LLMの学習をノイズのある通信路における情報伝送としてモデル化する統一的な理論的枠組みである「シャノンスケーリング則」を提案する。モデルパラメータをチャネル帯域幅に、学習トークン数を信号電力に対応付けることで、我々の定式化は学習信号と内在ノイズの間の相互作用を明示的に捉える。この視点は、LLMにおける基本的なシャノン容量を明らかにする。すなわち、十分な信号対雑音比(SNR)を維持せずにモデルサイズやデータを拡大すると、必然的にノイズが増幅され、単調な改善からU字型の性能低下への移行が引き起こされる。 我々は、PythiaおよびOLMo2に対して、ガウスノイズ、量子化、数学・QA・コードタスクにおける教師ありファインチューニングなどの摂動を加えた実験により理論を検証する。シャノンスケーリング則は、従来のスケーリング則や最近の摂動を考慮したスケーリング則を一貫して上回り、高いR²スコアを達成し、従来手法では捉えられなかった損失の谷を正確に捉える。また、外挿性能も優れており、6.9B以下のPythiaモデルを180B以下のトークンで学習させてフィッティングしたところ、未見の12Bモデルを最大307BトークンまでプールR²=0.847で予測でき、単調なベースラインは機能しなくなる。
近年の視覚言語モデル(VLM)の進歩は長い思考連鎖推論を重視しているが、我々は視覚タスクにおけるその性能が、推論そのものではなく視覚知覚の欠如によって主に制限されていることを見出した。本研究では、VLMのポストトレーニングにおける知覚と推論の相互作用を体系的に調査するため、その能力を視覚知覚、視覚推論、テキスト推論の3つの独立したトレーニング段階に分解し、それぞれに特化したトレーニングデータを組み込む。我々は、視覚知覚が(a)特殊なデータを用いた的を絞った最適化を必要とすること、(b)視覚推論を洗練する前に段階的トレーニングによって強化すべき基本的な基盤として機能すること、(c)キャプションベースのSFTよりも強化学習(RL)によってより効果的に学習されることを実証する。複数のVLMにわたる実験により、段階的トレーニングがマージトレーニングよりも一貫して視覚知覚と推論性能の両方を向上させることを示す。特筆すべきは、我々のアプローチで訓練されたモデルが推論精度を1.5%向上させ、推論トレースを20.8%短縮したことであり、優れた知覚が過剰な推論の必要性を低減することを示唆している。さらに、この能力ベースの段階化が従来の難易度ベースのカリキュラムとは直交する新たなカリキュラム次元を表しており、両者を組み合わせることでさらなる相加的利益が得られることを示す。我々の段階的トレーニングモデルはオープンウェイトのVLMの中で優れた性能を達成し、ベースモデルと比較して、複数の視覚数学および知覚タスク(例:WeMathで+5.2%、RealWorldQAで+3.7%)において高度な結果を確立した。
近年、カメラ制御による動画生成は目覚ましい進歩を遂げている。しかしながら、既存のビデオ・ツー・ビデオ再レンダリング手法は主に合成データセットを用いた教師ありファインチューニングに依存している。現状、同期された多視点の実世界動画データは極めて不足している。その結果、主流のパラダイムは分布外の実世界動画を処理する際に汎化性能が限定的であり、モデルは物理的スケールやカメラ軌道に正確に従うのに苦労している。このギャップを埋めるため、我々はGeo-Alignを提案する。これはカメラ制御による動画再レンダリングのために特別に設計された初の強化学習フレームワークである。事前学習済みモデルを基盤とし、スケール認識に基づく知覚的報酬メカニズムを通じてモデルを最適化する。具体的には、計量3D推定器を導入し、生成された動画から正確なカメラ軌道を抽出し、回転と並進の偏差を明示的にペナルティとして与える。さらに、実世界の条件動画と合成データから得られた目標カメラ軌道に基づくデータパイプライン戦略を緻密に設計し、ペアデータへの依存を排除した。広範な実験により、Geo-Alignは正確なカメラ制御性と視覚的忠実度の両方において既存の教師あり学習ベースラインを一貫して上回り、本手法の有効性が示された。
Muonは、Newton-Schulz反復を活用して運動量行列の全特異値を1に近づけることでスペクトル勾配直交化を実現する、行列認識型オプティマイザである。この一様なスペクトル白色化は探索を促進しLLM事前学習においてAdamWを上回るものの、事前学習以外の二つの領域で本質的な限界が生じる可能性を示す。すなわち、(i) 本質的に低ランクな行動モジュール勾配がノイズ性のテール方向の増幅を引き起こすクロスモダリティ視覚-言語-行動学習、および(ii) 低SNR勾配と事前学習からのヘッド単位の専門性維持の必要性により白色化が不安定になる検証可能な報酬を用いた強化学習である。これらの課題に対処するため、Pionを提案する。これはMuonのドロップイン代替であり、計算効率を維持しつつ、一様なスペクトル白色化を二段階の促進+抑制機構(ハイパスNS反復と呼ぶ)に置き換える。この設計は鋭いスペクトルハイパス効果を誘発し、支配的な特異値を1に固定しながらノイズ性のテール成分を0に近づけ、フィルタ強度も制御可能である。事前学習済みのヘッド単位の異質性を維持するため、Pionはさらにヘッド単位モードをサポートし、簡単な再整形により注意ヘッド間で独立に更新を適用する(追加コストなし)。LIBEROおよびLIBERO-PlusにおけるVLA学習では、Pionはl1回帰型VLA-Adapterとフローマッチング型VLANeXtの両方のアーキテクチャで一貫してベースラインを上回った。例えばVLA-AdapterではLIBERO Objectにおいて1500ステップ後100%の成功率を達成し、Muonの97.0%、AdamWの32.2%を大きく凌駕する。Pionの優位性はさらに、DROID設定下のpi0.5バックボーンを搭載した実機Franka Research 3ロボットによる3つの把握・配置タスクにも拡張される。また、GRPOおよびGMPOを用いたQwen3-1.7B/4BのRLVR事後学習においても、PionはMATHおよびGSM8KでAdamWを上回り、Muonはゼロに崩壊した。
本稿では、多視点RGB画像からの高忠実度3Dシーン再構成に対する新しいアプローチを提案する。このアプローチでは、再構成を強力な生成的3D事前分布と密接に結合する。シーン再構成を、シーン全体をタイル状に覆う空間的に局所化された重なり合うチャンクの集合に対する条件付き3D生成として定式化し、生成を大規模なシーン範囲にスケーリングする。重要なのは、最先端の生成的形状モデル(例としてTrellis.2を使用)の忠実度と完全性を継承し、それをシーンレベルに一般化している点である。このために、投影ベースの条件付け機構を提案する。これは、ポーズ付き多視点画像特徴を、生成モデルに整合した一貫性のある3D表現へと変換するものであり、視点の順序に依存せず、空間的にシーンに固定される。これにより、高忠実度で多視点一貫性のある生成幾何形状が得られる。これにより、Trellis.2の強力なオブジェクトレベルの事前分布を多視点シーンスケール生成に適用することが可能となり、屋内環境の忠実で編集可能なPBRメッシュ再構成を生成する。その結果、最先端の再構成手法を16%上回る高忠実度の結果を得る。
統一マルチモーダルモデル (UMMs) は、共有潜在空間を学習することで理解と生成の両方において優れた性能を達成する一方、これら二つの能力間でしばしば機能的不整合が生じる。我々は、この問題が共有表現の欠如に起因するのではなく、潜在空間への写像と潜在空間からの写像を結ぶ変換の間に明示的な整合性が欠けていることに起因することを観測する。その結果、生成と再符号化が一貫性のない軌跡をたどり、モダリティ遷移時にセマンティックドリフトが生じる。本研究では、これらの変換を明示的に整合させ、クロスモーダルな一貫性を向上させる拡張共有潜在空間を構築するフレームワーク LatentUMM を提案する。LatentUMM は二つの段階からなる。第一に、二重潜在整合はモダリティレベルと容量レベルの両方で一貫性を強制する。クロスモーダル整合はより強力な埋め込みモデルを用いて構造化されたクロスモーダル意味を課し、二重容量整合は生成と再符号化の下での双方向の一貫性を強制する。第二に、潜在動的安定化は確率的潜在ロールアウトと優先最適化によりロバスト性を向上させ、セマンティック一貫性をより良く保持する軌跡を優先する。実験により、LatentUMM が多様なアーキテクチャにわたってマルチモーダル一貫性を一貫して向上させることを示す。コードは以下から入手可能: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM
ビジュアルジオメトリトランスフォーマーは、多視点3次元再構成のための強力なアーキテクチャとして確立され、複数の3次元属性をフィードフォワード方式で同時に予測することを可能にしています。しかし、これらのモデル内のグローバルアテンション層により、計算コストは入力シーケンス長の二乗に比例して増大します。このことは、拡張性と効率性の両方を制限します。本研究では、シンプルながら一般的な戦略、すなわちグローバルアテンションにおいて各クエリが相互作用するキー/バリュートークンの数を制限することで、この課題に取り組みます。効果的なトークン選択を実現するために、我々は二段階のフレームワークを導入します。まず、フレーム間選択ステップでは、フレームレベルで動作し、保持すべきフレームを識別します。次に、フレーム内選択ステップでは、選択されたフレーム内でさらに冗長なトークンを破棄します。我々の分析は、フレーム間選択における多様性ベースの戦略の利点を明らかにし、これによりシーンの広範なカバレッジが確保されます。フレーム内選択については、グローバルアテンションパターンのエントロピーによって導かれる選択プロセスにおいて、レイヤー認識スパース化が必要であることを示します。本手法は、既存のソリューションと比較して優れた速度と精度のトレードオフを提供します。広範な実験により、500枚の画像からなるシーンにおいて、ビジュアルジオメトリトランスフォーマーを85%以上高速化しつつ、ベースラインの性能を維持または改善することが示されました。これは、我々のトークン選択戦略が、ビジュアルジオメトリトランスフォーマーの今後の応用において重要な役割を果たし得ることを示唆しています。プロジェクトのウェブサイトは https://zsh2000.github.io/good-token-hunting.github.io で公開されています。
視覚言語モデル(VLM)の急速な普及は、しばしば統一的なマルチモーダル知識発見を可能にするものとして捉えられているが、その根底には未検証の前提が存在する。すなわち、現在のVLMがマルチモーダルデータを忠実に統合しているという前提である。本稿では、実際にはそうではないことが多いと主張し、この乖離が、主流である視覚エンコーダ・プロジェクタ・LLMパラダイムにおける信頼性の問題を反映していると論じる。最先端のモデルは、視覚入力から根拠に基づいた知識を抽出する代わりに、強い言語事前知識を利用して深刻な視覚表現のボトルネックを回避する、すなわち機能的盲目を示すことが頻繁にある。本研究では、データアブレーションや新しいデータセットの作成に依存し、その結果データセットバイアスとアーキテクチャの能力不足とを混同する従来のマルチモーダル評価方法論に挑戦する。我々は情報理論的な転換として、モダリティ翻訳プロトコルを提案する。これは「見ることの代償」を定量化するために設計されたものである。意味的ペイロードをアブレーションするのではなく翻訳することで、我々は三つの新しい指標——「見ることの通行料(ToS)」「見ることの呪い(CoS)」「見ることの誤謬(FoS)」——を定式化し、最終的に意味的十分性基準(SSC)へと集約する。さらに、マルチモーダルスケーリングの発散法則という仮説を提示する。すなわち、基盤となる言語エンジンが前例のない推論能力へとスケールするにつれて、視覚知識ボトルネックのペナルティは減少するどころか増大する可能性がある。我々は、コミュニティが「マルチモーダル利得」を主要な評価目標とすることから脱却すべきであると主張する。SSCを受動的な診断制約から能動的なアーキテクチャ設計図へと昇華させることにより、次世代のAIシステムを真のマルチモーダル推論へと導く基盤を提供する。
強化学習を用いた長期的視野を持つLLMエージェントの訓練は困難である。なぜなら、疎な結果報酬はタスクの成功可否を示すものの、どの中間行動がその結果を引き起こしたか、またそれらをどのように修正すべきかは明らかにしないからである。最近の手法では、ターンレベルの行動出力信号から報酬やテキストヒントを生成するか、フィードバック条件付き自己蒸留を用いることでこの問題を軽減している。しかし、中間のターンの多くが既に成功または中立である場合に毎ターンフィードバックを生成するのは非効率であり、固定されたまたは不適切なタイミングでフィードバックを適用すると、失敗に寄与した行動を監督できないことが多い。このギャップを埋めるために、我々はHINT-SDを提案する。これはターゲットを絞った自己蒸留フレームワークであり、全軌跡のハインドサイトを用いて失敗関連行動を選択し、フィードバック条件付き蒸留を選択した行動スパンにのみ適用する。BFCL v3およびAppWorldでの実験により、我々の手法は密な毎ターンフィードバックベースラインと比較して最大18.80%の改善を達成し、同時に訓練ステップあたりの時間を2.26倍削減した。これにより、蒸留対象の選択が効果的かつ効率的な長期的エージェント訓練の鍵であることが示唆される。
大規模言語モデル(LLM)は、多岐にわたるタスクにおいて顕著な推論能力を示してきたが、データ汚染がこれらの能力の客観的評価を損なっている。この問題は、悪意あるモデル公開者によってさらに悪化しており、彼らは既存の検出手法を回避してリーダーボードのパフォーマンスを人工的に向上させるために、ベンチマークデータを言い換えるなどの回避的、あるいは間接的な汚染戦略を採用している。現在の手法では、このような巧妙な汚染を確実に検出することは困難である。本研究では、モデルが生成する推論ステップが、その背後にある記憶(memorization)を積極的に隠蔽するという重要な現象を明らかにする。これに着想を得て、我々はZero-CoT Probe(ZCP)を提案する。これは、チェーン・オブ・ソート(CoT)プロセス全体を意図的に打ち切ることで、潜在的な近道写像(shortcut mapping)を露呈させる、新しいブラックボックス検出手法である。さらに、記憶をモデルの本来の問題解決能力から分離するために、ZCPは元のベンチマークにおけるモデルのゼロCoTパフォーマンスと、同型に摂動を加えた参照データセットにおけるそれを比較する。また、単純な二値分類を超えて、汚染の可能性とその深刻度の両方を定量化する指標、Contamination Confidenceを導入する。既に特定された汚染モデルと、特別にファインチューニングされた汚染モデルの両方を用いた広範な実験により、ZCPが直接的なデータ汚染と回避的なデータ汚染の両方を頑健に検出できることが示された。ZCPのコードはhttps://github.com/Yifan-Lan/zero-cot-probe で公開されている。
潜在状態を反復的に更新することでテスト時計算をスケーリングすることは、推論のための強力なパラダイムとして登場している。しかし、これらの反復モデルが記憶されたパターンを超えて汎化することを可能にする内部メカニズムは依然として不明である。我々は、汎化可能な推論はタスク条件付きアトラクタ(安定な不動点が有効な解に対応する潜在力学系)を学習することから生じると仮定する。 我々はこのプロセスをEquilibrium Reasoners (EqR) を通じて形式化する。EqRは外部検証器やタスク固有の事前知識なしでテスト時スケーリングを可能にする。EqRは内部ダイナミクスを二つの軸でスケーリングする:深さ(より多くの反復を実行する)と幅(複数の初期化からの確率的軌跡を集約する)。経験的に、テスト時スケーリングによる利得は、解に整合したアトラクタへのより強い収束と密接に関連している。 このアトラクタの視点により、ニューラルネットワークはタスクの難易度に基づいてテスト時計算を適応的に割り当てることができる。簡単なケースは1~5反復ステップで収束する一方、より難しいケースは大規模なテスト時スケーリングから利益を得る。最大40,000層に相当する展開により、スケーラブルな潜在推論はフィードフォワードモデルの2.6%からSudoku-Extremeで99%超へと精度を向上させる。 これらの結果は、学習されたアトラクタランドスケープが反復潜在モデルにおけるスケーラブルな推論を理解するための有用なメカニズム的レンズを提供することを示唆している。
MRI再構成は、不完全な測定データから多くの妥当な解が導かれるため、本質的に不良設定の逆問題です。この曖昧さは高加速条件下でさらに顕著となり、画素領域の連続予測器は実行可能な再構成結果を平均化し、高周波の解剖学的構造を抑制する傾向があります。本研究では、再構成を離散的なマルチスケール潜在空間へと移行し、これを自己回帰型の次段階加速スケール予測として定式化することで、この限界に対処します。視覚的自己回帰モデリングで有効性が実証された離散的先行確率を活用し、本手法は解をコンパクトなコードブックトークン列に制限することで、極めて疎な測定データからも鮮明な再構成を可能にします。この離散的自己回帰定式化は、また、現代の大規模言語モデルのポストトレーニング手法とも自然に調和します。この知見に基づき、我々は視覚的自己回帰モデリングのためのオン方策特権情報蒸留を導入します。ここでは、教師モデルに対して、推論時には利用できない特権的な文脈(本ケースでは完全サンプリングされた取得データ)のみを訓練時に与え、自身のロールアウトに基づいて訓練される生徒モデルを指導することで、一貫した再構成性能の向上をもたらします。fastMRIベンチマークを用いた広範な実験を通じて、本手法が極端な間引きサンプリング下における多様なサンプリングパターンに対して、改善された再構成性能を提供することを実証します。プロジェクトウェブサイトはhttps://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}です。