翻訳付きの日次キュレーションされたAI研究論文
ルーターはMixture-of-Experts(MoE)モデルにおける基盤的構成要素である。エキスパートの代理として機能するルーター行列の各行は、MoEへの入力との類似度を計算し、活性化されるエキスパートのサブセットを決定する。理想的には、各ルーター行はエキスパート行列をこの代表ベクトルにエンコードするよう設計されており、そのトークンとのドット積がトークンとエキスパートの親和性をより適切に反映できるようにする。しかし、この凝縮を強制する設計原理は存在しない。本論文では、各ルーター行を関連するエキスパートの主特異方向に整列させることを提案する。この方向は行列の最も表現力豊かな数学的記述を提供するためである。この原理に基づき、我々は多様体べき乗反復法に基づくルーター再設計を提案する。具体的には、「べき乗-その後-リトラクション」パラダイムを導入し、ルーター重みにべき乗反復ステップを実行した後、リトラクションによってノルム制約を課し、効率性と安定性の両方を確保する。理論的には、MPIがルーター行を関連エキスパートの主特異方向へ収束させることを示す。実証的には、1Bから11Bパラメータの規模でMoEモデルを事前学習し、この整列がより効果的なMoEモデルを促進することを確認する。
科学の進歩は、探求、実験、抽象化というサイクルを繰り返すことに依存しています。研究者は候補となる方向性を検証し、証拠を解釈し、得られた教訓を後の試みに活かします。私たちは、AIエージェントがこのサイクルを長期間にわたり自律的に実行する方法を研究しています。本稿では、長期間持続するコーディネーター、短期間で完了するエグゼキューター、そして仮説、成果物、証拠、抽出された洞察を時間を超えて結びつける永続的なツリーであるHypothesis Tree Refinement(HTR)を組み合わせた、自律研究のための汎用フレームワーク「Arbor」を紹介します。コーディネーターはこのツリー上で全体的な研究戦略を管理し、エグゼキューターは個々の仮説を隔離されたワークツリーで実装・テストします。結果が返ってくるにつれて、Arborはツリーを更新し、再利用可能な教訓を伝播させ、検索フロンティアを洗練させ、検証された改良を取り込みます。この設計により、自律研究は局所的な試行の連続から、戦略、実行、証拠が時間を超えて継承される累積的なプロセスへと変わります。私たちは、エージェントが段階的な人間の監督なしに反復的な実験を通じて初期の研究成果物を改善する運用設定である自律的最適化(AO)の下でArborを評価しました。モデル学習、ハーネスエンジニアリング、データ合成における6つの実際の研究タスクにおいて、Arborは全6タスクで最高のheld-out結果を達成し、同じタスクインターフェースとリソース予算の下でのCodexおよびClaude Codeと比較して、平均相対held-outゲインで2.5倍以上の値を示しました。MLE-Bench Liteでは、ArborはGPT-5.5を用いて86.36%のAny Medalを達成し、比較対象の中で最も強い結果となりました。
環境は、大規模言語モデル(LLM)に基づくエージェントにとって、多様なシナリオにおける対話型システムとして機能し、モデル能力の継続的な進化を促進する上で極めて重要な役割を果たしている。しかしながら、この重要性にもかかわらず、既存の研究には体系的な分類と深い分析が欠けている。本論文は、環境工学のライフサイクルの観点から、エージェント環境に関する現在の研究を体系的に調査し、そのモデル化、合成、評価、応用を網羅する。具体的には、まず8つの属性と8つの領域の観点から代表的な環境を紹介し、それらの発展経路の詳細な分析と中核的能力の明確化を行う。次に、自動環境合成については、記号的合成とニューラル合成という2つのパラダイムを導入する。また、各パラダイムにおける異なる環境評価手法も示す。第三に、エージェント-環境共進化の観点から、対応する環境応用について議論する。具体的には、本論文は動的環境におけるエージェント進化の主要な経路を、記憶中心の経験進化、オーケストレーション中心のワークフロー進化、軌跡中心のオフライン進化、探索中心のオンライン進化という4つの補完的な観点から特徴付ける。さらに、環境進化の3つのパラダイム、すなわちニューラル駆動、難易度駆動、スケーリング駆動のアプローチを特定する。最後に、Environment-as-a-Service、マルチエージェント環境、ニューラルシンボリック環境など、有望ないくつかの将来方向について議論する。
OpenClawのような汎用エージェントは自律的なツール使用者としてますます利用されているが、そのコーディング能力はSWE-benchの下で測定することが難しい。なぜなら、汎用エージェントはそれ自体では、スコアリングに必要なクリーンなDockerワークスペース、パッチ、および予測契約を満たさないからである。我々はClaw-SWE-Benchを導入する。これは多言語のSWE-benchスタイルのベンチマークとアダプタプロトコルであり、固定プロンプト、ランタイム予算、ワークスペース契約、パッチ抽出手順、評価者を含む公平な設定下で、異種のエージェントハーネス(クロー)を比較可能にする。完全版ベンチマークは、将来コミットのクリーンアップ後にSWE-bench-MultilingualとSWE-bench-Verified-Miniから抽出された、8言語43リポジトリにわたる350のGitHub issue解決インスタンスを含む。また、より高速な検証のためにClaw-SWE-Bench Liteも公開する。これは17のキャリブレーションカラムに対してコスト認識・ランク認識の手順で選択された80インスタンスのサブセットである。完全版ベンチマークにおいて、最小限のdirect-diffアダプタを用いたOpenClawは19.1%のPass@1しか得られないのに対し、同一のGLM 5.1バックボーンを用いた完全版アダプタは73.4%に達しており、アダプタ設計がOpenClawスタイルのハーネスがコーディングタスクを効果的に実行するために不可欠であることを示している。OpenClaw×9モデルのスイープと5クロー×2モデルのスイープにおいて、モデル選択はPass@1を29.4パーセントポイント変化させ、固定モデル下でのハーネス選択は27.4パーセントポイント変化させる。類似した精度のシステムでも、総APIコストは大きく異なる可能性がある。したがってClaw-SWE-Benchは、ハーネスとコスト計算をSWEスタイルのコーディングエージェント評価の第一級の軸として扱い、完全版ベンチマークと再現可能な比較のための低コスト参照セットの両方を提供する。データはhttps://github.com/opensquilla/claw-swe-benchおよびhttps://huggingface.co/datasets/TokenRhythm/Claw-SWE-Benchで入手可能である。
報酬モデルはテキストから画像へのポストトレーニングにおいて中心的な役割を果たすが、視覚的な嗜好は主観的であり、決定論的スカラーよりもルーブリックスコアの分布として表現する方が適切である。既存のスカラー型、スコアトークン型、ペアワイズ報酬モデルは不確実性や細かいスコア差を過度に圧縮する一方、推論ベースの生成的報酬はより強力な判断を提供するが、導入コストが高く、直接的な最適化信号として利用しづらい。本稿では、推論負荷の高い判断と効率的な報酬展開を分離する教師-生徒報酬モデリングフレームワークであるZ-Rewardを提案する。教師は大規模VLMであり、推論を用いてルーブリックに沿ったスコア分布を推定し、グループ別直接スコア最適化(GDSO)により訓練される。GDSOは分布期待値からの方策勾配報酬と、スコア分布およびスコア差に対する点別・ペアワイズの直接的な教師信号を組み合わせる。生徒は推論内在化スコア蒸留(RISD)により訓練され、教師の推論条件付きスコア分布を、推論連鎖を明示的に必要としないコンパクトなVLMへ転移する。内部でアノテーションした評価セットにおいて、270億パラメータのGDSO教師は89.6%の人間嗜好一致率を達成し、SFT、RewardDance、GRPOを上回った。一方、90億パラメータのRISD生徒は88.6%を達成し、OPDベースラインを上回り、より大規模な教師に匹敵する。さらに、Z-Rewardがテキストから画像への最適化における微分可能な報酬信号として機能し、SFTベースラインに対して41.3%の正味の人間嗜好改善をもたらすことを示す。
表形式エンコーダは通常、タスク固有のエンドツーエンドパイプライン内で評価されるため、異なる学習パラダイムのモデルは、同様の表形式信号を扱う場合でも直接比較が困難である。本稿では、TRL-Benchを導入する。これは、クロスパラダイムの表現レベル評価を標準化する多粒度表形式表現学習(TRL)ベンチマークである。各エンコーダはサポートするラッパーを通じて行、列、またはテーブルの埋め込みを出力し、共有の軽量ヘッドがそれらを3つのスイート(TRL-CTbench(列/テーブル)、TRL-Rbench(行)、TRL-DLTE(3つの粒度すべてにわたる構成可能なデータレイクテーブル拡張))で評価する。この標準化設定をサポートするため、厳選されたベンチマーク資産とタスク再構成を公開する。これには、123の検証済みターゲットを持つ50のOpenMLテーブル、16の行ペアリンケージ書き換え、および1,379の親テーブルから派生した47,772テーブルのDLTEデータレイクが含まれる。20モデルと16タスクにわたる評価により、TRL-Benchは、下流条件が標準化されると、エンコーダ品質は単一のリーダーボードで捉えられるものではなく、能力特異的であることを示す。TRL-CTbenchでは、表面テキスト信号が強いタスクでは汎用テキストエンコーダが優位に立つことが多い一方、表形式専門家はその事前学習目的がタスクと一致する場合に勝利する。TRL-Rbenchでは、テーブル内予測とテーブル間リンケージは異なる学習レジームを好み、原子リンケージ性能はDLTEパイプラインの行マッチング段階と強く相関する。TRL-DLTEでは、最強のパイプラインは単一のエンコーダを再利用するのではなく、能力が一致した専門家を組み合わせており、トップのエンドツーエンド品質は段階ごとの限界順位だけでなく、非加算的な構成適合性に依存する。TRL-Benchは、共有下流条件下でエクスポートされた表形式表現における再利用可能な信号を測定するための共通プロトコルを提供する。コードとデータ: https://github.com/LOGO-CUHKSZ/TRL-Bench
自己中心視点動画からの空間推論は、観測可能な証拠がカメラ軌道によって制約されるため、本質的に困難である。既存手法は単一ターン推論に依存しており、検証可能な証拠ではなく意味的前提を通じて幾何学的曖昧性を解決することをモデルに強いている。我々は、空間推論は再考可能であるべきだと主張する。つまり、限られた証拠の下で形成された結論は、補完的な視点が利用可能になった際に修正の余地を残すべきである。この洞察に基づき、我々はReason, then Re-reason (ReRe)を提案する。これは訓練不要の推論時フレームワークであり、2つのフェーズから成る。Reasonフェーズでは、MLLMが元の動画から空間仮説を形成する。Re-reasonフェーズでは、合成された新規視点動画を観察することでその仮説を検証または修正する。効果的なクロスビュー再考を可能にするために、予測された3D幾何学から戦略的に補完的な新規視点をレンダリングするGeometry-to-Videoパイプラインを設計する。これらの視点は、シーン全体をカバーする高所からの斜め視点を特徴とし、MLLMの本来の動画インターフェースをアーキテクチャの変更なしに保持する。VSI-BenchおよびSTI-Benchでの広範な評価により、ReReがオープンソースMLLMの性能を大幅に向上させ、プロプライエタリな最先端手法に匹敵することを示す。プロジェクトページ: https://zhenjiemao.github.io/ReRe/
LLMベースのコードエージェントの能力が向上するにつれて、期待される役割は既存コードベース内の局所的なバグ修正から、高レベルの仕様に基づく完全なソフトウェアリポジトリの設計・実装へと拡大しています。しかし、このような長期的なソフトウェアエンジニアリングタスク向けのエージェントを訓練することは、大規模で検証可能なリポジトリ全体生成データが不足しているため依然として困難です。本論文では、リポジトリ全体生成のための大規模データセットDeNovoSWEを紹介します。DeNovoSWEは4,818件の高品質インスタンスから構成され、各インスタンスはドキュメントから完全なリポジトリを生成することを要求します。このデータセットは、慎重に設計されたサンドボックス型エージェントワークフローを通じて自動的に構築され、人間によるアノテーションを必要とせずスケーラブルなキュレーションを実現します。DeNovoSWEは「分割統治」と「批評-修復」の哲学に基づいて構築されています。データ品質と多様性のバランスをとるため、さらに困難度を考慮した軌跡フィルタリング戦略を導入します。Qwen3-30B-A3BをDeNovoSWEでファインチューニングした結果、長期的なソフトウェアエンジニアリング性能が大幅に向上し、挑戦的なBeyondSWE-Doc2Repoベンチマークにおけるスコアが5.8%から47.2%に上昇しました。
Vision-Language-Action(VLA)モデルは、大規模な事前学習から意味的基盤を受け継ぎ、分布内の操作タスクで良好な性能を発揮する。しかし、この基盤は静的な画像-テキストペアに基づいて構築されており、操作は連続的で接触の多いプロセスであり、そのダイナミクスを事前学習では捉えることができない。本稿では、World Pilotを提案する。これは、World-Action Model(WAM)からの事前知識を、二つの相補的な経路を通じて意思決定連鎖に組み込むVLAフレームワークである。Latent Steeringは、シーン進化の潜在変数によって知覚層を条件付け、Action Steeringは、予測軌道を動作事前知識として行動生成器に供給する。これら二つの事前知識により、VLAは意味的条件付けに加えて、シーンの予測的な視点と軌道レベルの動作ヒントを得る。また、シーン進化の事前知識は、行動後訓練されていないビデオ事前学習済み世界モデルから供給された場合でも効果を発揮する。World Pilotは、LIBERO-PlusゼロショットOODベンチマークで総合成功率84.7%の最先端成果を達成し、4つの操作タスクにわたるすべての実ロボット設定で最高の成功率を示し、特に視点、幾何形状、変形状態、姿勢の変化において最も大きなマージンを達成した。プロジェクトウェブサイト: https://world-pilot.github.io/
トランスフォーマーは現代の系列モデリングを支配しているが、その二次的な注意機構は多大な計算コストを伴う。準二次アーキテクチャはスケーラブルな代替手段を提供する。しかし、どの設計が最も効果的な系列モデルを生み出すかは依然として不明である。我々はxLSTM、Mamba-2、Gated DeltaNetという3つの主要な手法を比較する。これらのモデルを複雑な依存関係を持つタスク((1)コードモデルの事前学習、(2)大規模言語モデルからのコードモデルの蒸留、(3)時系列基盤モデルの事前学習)で評価した。これらの設定全体において、xLSTMが最も高い全体的な性能を示す。xLSTMの優位性を説明するために、我々は統一的定式化を提示し、状態追跡と記憶ダイナミクスに焦点を当てて基礎となるアーキテクチャメカニズムを分析する。我々の結果は、xLSTMがそのゲーティング方式により、より柔軟で安定した記憶修正を可能にすることを示している。我々はこれらの知見を、制御された合成長汎化タスクで裏付ける。全体として、我々の発見は、xLSTMの複雑なタスクにおける利得が、頑健な状態追跡と蓄積に由来することを示している。
組み合わせ論は、オリンピックレベルの数学的問題解決において中心的な位置を占めており、深い離散的推論、創造的な構成、そして厳密な構造的洞察を必要とする。最近のエビデンスによれば、現在の最先端モデルでさえ、オリンピックレベルの組み合わせ論においては依然として性能にばらつきがあり、創造的数学的推論におけるギャップが明らかになっている。我々は、大規模言語モデルの組み合わせ論的推論能力を評価・診断するための、オリンピックレベルの組み合わせ論ベンチマークであるComBenchを紹介する。ComBenchは、人手により注釈が付された100の競技レベルの問題から構成され、これらは二つの補完的な設定に整理されている。すなわち、主として厳密な数学的議論を必要とする分析中心の問題と、正しさの正当化に加えて明示的な構築を必要とする構築中心の問題である。評価プロトコルは、ルーブリックに基づく証明の採点と決定論的な構築検証を組み合わせたものであり、証明の質と構築の妥当性が乖離するケースを明らかにする。最先端のオープンソースモデルおよびクローズドソースモデルを用いた実験では、ComBenchは飽和状態にはほど遠いことが示された。最も強力なモデルでも全体平均で65.4%、全体Best@4で75.3%に達するにとどまる。さらに、厳密な証明推論と構成的実現は異なる能力であることが明らかになった。Kimi-K2.6は分析中心の証明の採点ではGPT-5.5に劣るが、構築中心のBest@4ではそれを上回り、一方で存在性問題と構築問題は代表的ないずれの最先端モデルにとっても一貫して最も困難な問題であり続けている。
基盤モデルの最近の進歩は、多段階推論やツール使用を含むエージェント的行動へとシフトしている。しかし、オープンソースの取り組みは主にテキスト中心の設定に焦点を当てており、長期的なマルチモーダルタスクは十分に探究されていない。このギャップは、持続的な時間的理解と反復的相互作用を必要とするビデオタスクにおいて顕著である。本稿では、マルチモーダル文脈推論(MCR)を通じてこれらの能力を強化するフレームワークであるInternVideo3を提案する。MCRは、観察、指示、推論、ツール操作、記憶を含む共有・進化する文脈上で、理解を閉ループプロセスとして扱う。これにより、長尺ビデオ理解を証拠の蓄積と検証として位置づける。効率性を確保するため、トークン保存型再パラメータ化によってKVキャッシュ状態を圧縮しつつ、完全なトークンストリームを保持するマルチモーダルマルチヘッド潜在注意機構(M^2LA)を導入する。段階的訓練には、継続事前学習、短尺から長尺への教師ありファインチューニング、ルールベース強化学習、そして方策オン蒸留が含まれる。実験により、InternVideo3はVideo-MME、MLVU、EgoSchemaなどのベンチマークで強力な性能を達成することが示された。さらに、検索ツールを備えたビデオエージェントとしてモデルを具体化し、堅牢な証拠に基づく行動を実証する。これらの結果は、効率的な文脈処理と閉ループ推論が、オープンマルチモーダルモデルを長期的な視覚に基づく行動主体性へ適応させる上で極めて重要であることを示唆している。
大規模言語モデル(LLMs)はコード生成にますます利用されるようになっており、悪意のあるコードの生成に悪用される懸念が高まっている。一方、文法制約付きデコーディング(GCD)は、構文的な妥当性を強制することでLLM生成コードの信頼性を向上させるために広く採用されている。本稿では、この信頼性指向の手法自体が攻撃面となり得るという直感に反するリスクを明らかにする。我々はCodeSpearと名付けた新たな脱獄攻撃を発見した。これはGCDを悪用してLLMに悪意のあるコードを生成させるものである。実験では、単に良性のコード文法制約を適用するだけで、LLMを効果的に脱獄させられることを示す。 この脆弱性に対処するため、我々はCodeShieldを提案する。これは攻撃者に制御された文法制約下でも安全な振る舞いを頑健に維持する安全性アライメント手法である。CodeShieldは、GCDのもとでハニーポットコードを生成するようモデルを学習させることで、コードモダリティにおいてモデルをアライメントする。このコードは意味的に無害であるため悪意のある要求を実装せず、構造的に多様であるため文法の厳格化によって抑制することが困難である。同時に、CodeShieldは自然言語が利用可能な場合には自然言語による拒否も維持する。10種類の人気LLMを4つのベンチマークで評価した実験では、CodeSpearが代表的な脱獄ベースラインを上回り、攻撃成功率を平均で30ポイント以上向上させることが示された。また、CodeShieldはCodeSpear下での安全性を回復しつつ、良性のユーティリティも維持する。我々の発見はGCDの根本的なリスクを明らかにし、その潜在的なセキュリティへの影響に対する一層の注意を喚起するものである。
強化学習(RL)は現代の大規模言語モデルにおいて重要な構成要素となっているが、ロールアウト段階が依然としてRL訓練パイプラインの主要なボトルネックである。マルチトークン予測(MTP)は投機的復号によりロールアウトを高速化する自然な解決策を提供するが、多くの研究でRL訓練中にMTPの受容率が著しく低下し、速度向上効果が限定的になることが観測されている。このボトルネックに対処するため、本稿ではLLMの事後訓練におけるMTPの体系的研究であるBebopを提示し、MTPを大規模RLパイプラインに統合するための実践的なレシピを提供する。第一に、MTP受容率は本質的にモデルエントロピーの変動によって制約され、RL段階におけるエントロピーの上昇と明確な負の線形関係を示すことを明らかにする。第二に、確率的棄却サンプリングが貪欲ドラフトサンプリングと比較して、RLで導入されるエントロピーによる擾乱を大幅に緩和することを示す。さらに、従来のMTP訓練目的関数(クロスエントロピーまたはKL)はこの設定において最適ではないことを特定し、多段階棄却サンプリングの受容率を直接最適化する新たなエンドツーエンドのTV損失を提案する。これにより約10%の受容率向上を達成し、数学的推論、コード生成、エージェントタスクにおいて最大95%の受容率と最大25%の追加推論スループット向上を実現する。第三に、RL中に様々なオンラインMTP訓練戦略をテストし、e2e TV損失と棄却サンプリングを用いたRL事前MTP訓練がRL全体を通じて一貫した受容率と高速化を達成し、高コストなオンラインMTP更新の必要性を排除することを示す。我々は発見を検証する広範な実験と分析を提供する。実験結果は、本手法がQwen3.5、Qwen3.6、Qwen3.7モデルの非同期RL訓練において最大1.8倍のエンドツーエンド高速化を達成することを示している。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルにおける推論能力やエージェント的振る舞いを強化する有望な手法である。しかし、ロールアウト集約的な方策最適化は、報酬のコントラスト不足によって制限されることが多い。これは、単純すぎる、あるいは複雑すぎるプロンプトが低分散なフィードバックを生成する場合や、結果のみの報酬がマルチターンロールアウト内の各判断に対して同一の終端評価を割り当てる場合に生じる。これまでの研究は、利用可能なロールアウトリソースを有望なプロンプトに割り当てることに焦点を当ててきたが、それらはプロンプトレベルでのサンプルの情報価値のみを活用し、同一ロールアウト内のターン間におけるプレフィックスレベルの情報価値の変動を無視している。 本研究では、マルチターンエージェントRLを対象とし、各ReActスタイルの思考・行動・観測ターンを意味的に独立したノードとしてモデル化することで、予算割り当てをプロンプトの根ノードから、さらなる継続を伴うターンレベルのプレフィックスへと拡張し、自然にツリー構造のロールアウトを形成する。我々は、対比的探索のためのツリーロールアウト割り当て(TRACE)を導入する。これは、固定されたサンプリング予算内で報酬のコントラストを強化する統一的なロールアウト割り当てフレームワークである。技術的には、TRACEは、混合した終端報酬をもたらす可能性が最も高いプロンプト根ノードと中間プレフィックスの両方にロールアウト予算を割り当てる。共有された汎用的な予測器が、プレフィックス履歴からこれらのアンカーポイントにおける条件付き成功確率を推定し、この割り当てを導く。結果として得られる適応的なツリー構造は、結果のみのフィードバックを豊かにし、方策更新の信号を増幅する。実験的に、TRACEは典型的なエージェントベンチマークにおいて競争力のある性能と効率向上を達成しており、例えば、同一サンプリングコストで強力なベースラインと比較して、Qwen3-14BのマルチホップQA平均精度を2.8ポイント改善している。
Vision-Language Models(VLM)は、画像を数百から数千の視覚トークンに投影するため、デコーダ推論において注意機構の計算とKVキャッシュメモリの両方で高コストとなる。既存の視覚トークン削減手法は、主に「ランク付けして削除する」パラダイムに従う。すなわち、視覚トークンをスコアリングし、コンパクトなサブセットを保持し、残りを永続的に破棄する。本稿では、この不可逆的な操作が脆弱であることを示す。なぜなら、視覚トークンの重要度はデコーダの深さによって変化し、ある段階で低くランク付けされたトークンが、後続の層、特にグラウンディングに敏感なクエリにおいて重要になる可能性があるからである。我々はRerouteを提案する。これは学習を必要としないプラグインであり、削除を回復可能なルーティングに置き換える。各ルーティング段階において、選択された視覚トークンはデコーダブロックを通過する一方、延期されたトークンはその段階を迂回し、次のルーティング決定時に候補プールに再び入る。Rerouteは既存の注意スコアのランク付けルールと段階別スケジュールを再利用し、それが拡張するプルーニング手法の理論上のTFLOPsおよびKVキャッシュ予算のクラスを維持する。LLaVA-1.5およびQwenバックボーン上のFastV、PDrop、Nüwaの各バリアントにおいて、Rerouteは、攻撃的なトークン削減下でグラウンディングを改善しつつ、一般的なVQA性能を維持する。これらの結果は、VLMのトークン削減は不可逆的なプルーニングとしてだけでなく、回復可能なルーティングとしても見なされるべきであることを示唆している。コードはこちらで入手可能:https://github.com/elmma/mllm-reroute/
言語モデルの表現において解釈可能な方向を見つけることは、モデルの動作の理解と制御にとって重要である。スパースオートエンコーダ(SAE)はこの目的のための標準的なツールとなっているが、それをデフォルトの第一のレンズとして使用するには、大規模な過完備辞書の学習、保存、評価をしばしば必要とする。このボトルネックは迅速な探索を制限し、新たな神経辞書を学習する前に活性化の幾何構造からどれだけの解釈可能な構造が既に見えているのかという根本的な問いを提起する。我々の直感は単純である:多くの解釈可能な方向はトークンに対して選択的であり、これらの方向はランダムな方向よりもガウス分布に従いにくいはずである。そこで我々は、非ガウス方向を見つける古典的手法である独立成分分析(ICA)を、言語モデルの解釈可能性のためのコンパクトなレンズとして再考する。ICAはLLMの解釈可能性において過小評価されてきた。なぜなら、従来の使用では既製のICA実装に依存することが多く、それらはLLMの活性化に対して脆く、復元された方向を検査・評価するための体系的なツールが不足していたからである。これらのギャップを埋めるため、我々はICALensを導入する。これはLLM表現の安定・効率的・監査可能なICA分析のための初の実用的ワークフローである。これは最適化されたGPU並列FastICAパイプラインと、LLM特有の安定化レシピおよびより良い適合診断を組み合わせ、効率的かつ信頼性の高い層ごとの分析を可能にする。GPT-2 Small、Gemma 2 2B、Qwen 3.5 2B Baseにおいて、ICALensは層ごとの勾配ベースの辞書学習なしで、コンパクトで人間に解釈可能な方向を効率的に復元する。SAEBenchでは、ICAはスパースプロービングにおいて公開SAEと競合し、小規模から中規模の予算下でのターゲットプローブ摂動においてそれらを上回る。これらの結果は、ICAを弱いベースラインとして見るべきではなく、言語モデルの表現を探索するための効率的かつ補完的な第一のレンズとして捉えるべきであることを示唆している。
自律的なLLM訓練はしばしばレシピ探索として位置づけられ、訓練ハーネスは大部分が静的である。この制約は、エージェンティック強化学習において特に顕著となる。そこでは、変化するボトルネックとスカラー報酬が多様な失敗モードを隠蔽する。本稿では、経験的フィードバックを通じてLLMポリシーと訓練側ハーネスを共進化させる自律的訓練フレームワーク「EvoTrainer」を提案する。具体的には、ロールアウトレベルの証拠を診断し、診断結果を修正し、介入策のバックテストを実施し、再利用可能なスキルを蓄積する。数学的推論、競技プログラミングのコード生成、リポジトリレベルのソフトウェア工学の各タスクで評価した結果、EvoTrainerは同一データ、コードベース、評価プロトコルの条件下で、人手設計の強化学習ベースラインと同等以上の性能を示し、特に長期的なエージェンティックソフトウェア工学において最大の改善を達成した。軌道分析により、保持された戦略が領域ごとに分岐すること、進化的診断が無効な高スコア分岐の昇格を防止すること、再利用可能なスキルが後の探索を形成することが明らかになった。自律的なLLM強化学習は、レシピ探索を超え、ポリシーとそれを解釈する訓練ハーネスの共同進化へと移行すべきである。
我々は、単一アーキテクチャ内で身体化認知、タスク計画、修正、ポインティングにわたる包括的な身体化推論能力を統合し、汎用物理知能を目指す統一的身体化基盤モデル(EFM)、Embodied-R1.5を紹介する。3つの自動データ構築パイプラインを活用することで、重要な能力のデータカバレッジを大幅に拡大し、150億トークンを超える大規模データシステムを構築するとともに、異種タスク間の競合を緩和するマルチタスク均衡強化学習手法を設計した。さらに、単一モデルが長期的タスクを自律的に実行し自己修正することを可能にする、Planner-Grounder-Corrector(PGC)クローズドループフレームワークを導入する。わずか80億パラメータでありながら、Embodied-R1.5は24の身体化VLMベンチマークのうち16項目で最先端性能を達成し、Gemini-Robotics-ER-1.5やGPT-5.4などの主要モデルを凌駕する。内包化された身体化能力の恩恵により、Embodied-R1.5は少量のデータのみでVLAにファインチューニング可能であり、π_{0.5}などの主要VLAモデルを4つの主要操作ベンチマークスイートで凌駕する。さらに、広範なゼロショット実ロボット実験を実施し、指示追従、アフォーダンス接地、可動物体操作、長期的複雑タスクにおける性能を検証し、物理世界への強力な一般化能力を実証した。モデル重み、データセット、訓練コード、および身体化タスク向けに設計された評価フレームワークEmbodiedEvalKitをオープンソース化し、EFMの将来研究を促進する。
検証可能な環境を伴う強化学習は、大規模言語モデルの推論能力を向上させる強力なアプローチとして注目されている。先行研究では、環境数のスケーリングが強化学習の性能を向上させることが示されているが、既存の手動または個別構築手法は線形スケーリングの限界に直面し、スケーラブルな推論の汎化を妨げている。本稿では、検証可能な環境を再帰的に組み立て可能な合成可能な構成要素として捉えるフレームワーク、RACES(環境スケーリングのための再帰的自動合成)を導入する。その核心的な洞察は、ある環境の余域(出力型)が別の環境の定義域(入力型)と一致する場合、それらを自動的に融合して新たな検証可能な環境とし、再帰的な合成を可能にすることにある。RACESは300個の個別環境で実装され、逐次、並列、ソート、選択という合成演算子を定義し、多様な推論パターンを誘導する。大規模な実験により、これらの合成環境での強化学習訓練が一貫して推論の汎化を向上させることが示された。具体的には、RACESはDeepSeek-R1-Distill-Qwen-14Bの性能を平均3.1ポイント(48.2から51.3)向上させ、Qwen3-14Bの性能を6つのベンチマーク(訓練環境の構築中には未見)において58.8から61.1へと押し上げた。さらに、RACESはわずか50個の基本環境を用いて、300個の個別環境での訓練と同等の性能を達成し、環境利用における顕著な効率性を示している。
事前学習されたビデオ生成モデルは、創発的なタスク解決能力を示す有望な視覚的世界モデルである。しかし、詳細なテキスト記述に依存するため、計画や意思決定への直接的な利用は限定的である。既存のアプローチでは、この推論を言語モデルや視覚言語モデルに外部委託するか、対となるタスク実行ビデオを用いた教師ありファインチューニングに依存しているが、これらは収集コストが高く、スケーラビリティに欠ける。我々は、自己蒸留と強化学習を組み合わせることで、このようなモデルにおけるタスク解決能力を引き出すスケーラブルなフレームワークを提案する。ラベルなしのシーン画像が与えられると、視覚言語モデルが候補タスクと詳細なステップバイステップの解決手順を生成する。この解決手順は、事前学習されたビデオ拡散モデル(デモンストレーター)の条件付けとして機能し、我々はその振る舞いを、画像と短いタスクプロンプトのみを条件とするエグゼキュータに蒸留する。これにより、キャプション誘導による生成から、命令条件付けによるタスク解決への実行知識の転移が、キュレーションされたタスクビデオの教師なしで実現される。さらに、VLMフィードバックからの強化学習を用いてエグゼキュータを改善し、サンプリングされたビデオがタスクを満たすかどうかを判断することと、解決手順を生成することの間の非対称性を活用する。提案するWorldTasks-BenchmarkとDreamGenロボティクスベンチマークでの実験により、我々のVLMベースの評価プロトコルにおいて、エグゼキュータがデモンストレーターを上回り、ロボットタスクにも競争力を持って転移可能であることが示された。
パイプライン並列処理は大規模ニューラルネットワークの訓練に不可欠であるが、既存のスケジュールはスループット、メモリ、最適化の一貫性の間でトレードオフを抱えている。同期パイプラインは順方向/逆方向の重みの一貫性を維持するが、バブル(空き時間)が発生する。非同期パイプラインはバブルを排除する一方で、重みのバージョン不一致を引き起こし、通常は重みのスタッシング、予測、または補正機構が必要となる。本稿では、PACI(制御された不一致を伴うパイプライン非同期訓練法)を提案する。これはバブルのない非同期パイプライン手法であり、重みのスタッシング、予測、追加のパラメータコピー、グローバル同期を必要とせずに、順方向/逆方向のバージョンずれを抑制する。鍵となるアイデアは、局所的な勾配蓄積をバージョン管理機構として利用することである。すなわち、パイプラインレイテンシに対してパラメータバージョンの進化を遅らせることで、PACIは任意のマイクロバッチがまたがる最適化器更新の回数を制限しつつ、定常状態の資源利用率を維持する。GPT型言語モデルの事前学習において、PACIは同期1F1Bフラッシュ手法と同等の安定性と最終的なperplexityを達成し、同一のピークメモリフットプリントを保持しつつ、パイプラインスループットを完全に活用し、最速のフラッシュベースラインと比較して精度達成時間を最大1.69倍改善する。これらの結果は、順方向/逆方向の不一致を排除する必要はなく、明示的に制限すれば、大幅な効率向上と安全にトレードオフできることを示している。
拡散モデルは、テキストから画像生成(text-to-image generation)の進展を一貫して牽引してきた。しかし、最近の進歩を特定のモデリング手法やデータ選択に帰属することは難しい。最先端のオープンウェイトモデルは限られたアブレーションしか提供しておらず、訓練データや訓練の詳細を開示していないからである。研究コミュニティは、さらなる研究の基盤として完全にオープン(ウェイト、データ、コード)なモデルを必要としているが、既存の完全オープンモデルは、依然として性能面で主要モデルに大きく劣る。本プロジェクトでは、テキストから画像生成の拡散モデルにおける訓練と推論のためのモデリングおよびデータ設計の選択肢について、700K時間以上のTPU v6e時間を費やした300以上の制御された実験を通じて系統的に調査する。我々の実験は、いくつかの実証的な知見(例えば、厳選したデータセットを混合する際のデフォルトとして等価重み付けが強力であること)や、強力なモデルを訓練するための単純な設計上の決定(例えば、より大きなテキストエンコーダアダプタが、わずかなパラメータ増加で性能を向上させること)を浮き彫りにする。これらの洞察に導かれ、我々は公開データセットのみを用いて3Bパラメータのテキストから画像生成拡散モデルi1を訓練した。i1は、5つの代表的ベンチマーク(GenEval、DPG、PRISM、CVTG-2K、LongText)において主要モデルと競合し、既存の最良の完全オープンモデルを平均で29.5絶対パーセントポイント上回る。我々は、i1のチェックポイント、訓練および推論コード、そしてデータ処理パイプラインを提供する。これらの知見とi1のレシピは、テキストから画像生成拡散モデルにおける今後のオープン研究のための実践的な基盤を確立する。コードはhttps://github.com/zlab-princeton/i1で入手可能である。
コンピュータ利用エージェント(CUA)は、グラフィカルユーザーインターフェースの視覚的な観測に依存しており、各スクリーンショットは多数の視覚トークンにエンコードされる。インタラクション軌跡が長くなるにつれてトークンコストが急激に増加し、固定されたコンテキストおよび計算予算の下で組み込める履歴量が制限される。このため、他の領域とは異なり、履歴を用いても性能向上がほとんど、あるいは全く見られなかった。この非効率性に対処するため、我々はReVisionを導入する。ReVisionは、学習されたパッチ選択器を用いて連続するスクリーンショット間でパッチ表現を比較し、モデルが必要とする空間構造を保持しながら冗長な視覚パッチを除去した軌跡上でマルチモーダル言語モデルを訓練する。3つのベンチマーク、OSWorld、WebTailBench、AgentNetBenchにおいて、Qwen2.5-VL-7Bを用いて5つの履歴スクリーンショットを処理する軌跡において、ReVisionはトークン使用量を平均46%削減しつつ、非削除ベースラインに対して成功率を3%向上させる。これにより明確な効率性の向上が確立され、エージェントはより少ないトークンでより長い軌跡を処理できるようになる。この改善された効率性をもとに、CUAにおける履歴の役割を再検討したところ、冗長性が除去された場合、過去の観測を組み込むほど性能が向上し続けることが明らかとなった。
エージェントスキルは、汎用エージェントを拡張する軽量なメカニズムを提供するが、そのオープンな形式はスキルポイズニング攻撃にさらされる。実際に危険な注入は不可視でなければならない。ペイロードを実行することでユーザーの正当なタスクが破綻する場合、その結果生じる失敗シグナルはスキルの調査を招くためである。そこで我々は攻撃成功率(Attack Success Rate)によって攻撃を評価する。これは、注入されたペイロードが実行され、かつ同一試行においてユーザーのタスクがその検証器を通過することを要求する。従来のスキルポイズニング攻撃は、この観点において信頼性とステルス性のトレードオフに直面する。すなわち、YAMLヘッダー注入は確実に読み込まれるが検査が容易である一方、スキル本文に明示的な悪意あるコマンドを配置するよりステルス性の高い本文注入は、文脈外のコマンドがエージェント自身の疑念を招くため信頼性が低い。我々はPOISEを導入する。これは位置認識型攻撃であり、トリガーを単一の無害に見える本文命令に圧縮し、実行可能な位置に配置するとともに、文脈認識型生成器を用いて近傍のセットアップ手順や前提条件と融合させる。Skill-Injectベンチマークにおいてcodex+gpt-5.2を用いた場合、POISEは89.3%のASRを達成し、ランダム配置の本文ベースラインを28.0ポイント、YAMLのみのベースラインを2.6ポイント上回ると同時に、本文配置のステルス性の利点を維持する。このステルス性こそが決定的な差である。正規のスキル本文は本質的に特権ツール操作を必要とするため、LLMスキャナは過敏に反応し、4つの判定者と両ベンチマークにわたってクリーンスキルの平均74.6%に誤ったフラグを立てる。これらの誤警報に紛れることで、POISEはポイズニングされたバリアントのうちわずか5.6%しか、クリーンベースラインと比較して新たな高リスクアラートを発生させず、現在の静的防御を無効化する。
残存寿命(RUL)予測は産業における予知保全に不可欠であるが、多くの学習ベースの手法は、タスク固有の系列モデルを訓練するために、広範な特徴量工学や大規模なラベル付きデータセットに依存している。本研究では、軽量な学習手法を導入する。この手法では、凍結された事前学習済み時系列基盤モデル(TSFM)を活用し、それを小型の回帰ヘッドと組み合わせて、多変量センサストリームからRULを推定する。より具体的には、Chronos-2を凍結されたバックボーンとして使用し、コンテキストウィンドウ特徴を抽出し、RUL予測のための軽量な回帰ニューラルネットワークを訓練する。2種類のデバイスからの実世界の産業用センサデータを用いた実験では、同一の前処理および評価プロトコルの下で、Chronos-2の特徴がリカレント、畳み込み、Transformerベース、勾配ブースティングのベースラインを一貫して上回ることが示された。さらに、コンテキスト長の影響を分析し、より長い履歴を用いることで性能が大幅に向上することを発見した。これは、TSFM表現が産業環境におけるRUL推定のための実用的かつデータ効率的な代替手段を提供することを示している。
多くの現代の視覚言語モデル(VLM)は、離散トークンの自己回帰デコードを基盤としている。テキストベースの出力インターフェースは、スケーラブルな事前学習と多様なタスクにおける強力なゼロショット汎化を可能にする一方で、イベントの時間的境界の局所化やロボット制御動作の生成など、精密な連続出力を必要とする問題には不向きである。この課題に対処するため、我々は事前学習済みVLMを連続デコードタスクに適応させるための汎用フレームワークであるDRIFTを提案する。DRIFTは、対象出力の粗い推定を提供するベース予測器と、フローマッチングに基づいて予測を反復的に改善する生成的洗練モジュールを組み合わせる。この残差定式化により、生成モデリングの問題は、大域的な出力分布の学習から、強力な事前分布の周りの局所的な残差分布のモデリングへと変換され、最適化が大幅に簡略化される。DRIFTを、視覚的グラウンディングやロボット制御を含む知覚および計画タスクの両方で評価した。MLLM、VLA、WAMにわたる複数のタスクとアーキテクチャにおいて、DRIFTは強力な回帰ベースおよび生成ベースのソリューション群を一貫して上回る性能を示す。
大規模言語モデル(LLM)向けのパラメータ効率的ファインチューニング(PEFT)手法には主に二つある。低ランク適応(LoRA)はLLM層間に追加の重みを導入するのに対し、ソフトプロンプトはLLMの入力にファインチューニング固有の生のトークンを追加する。しかし、いずれもプリコンパイル済みで事前最適化されたLLMの計算グラフの変更を必要とする。その結果、vLLMのような高スループットエンジンではどちらも完全にはサポートされていない。我々はART(Art-based Reinforcement Training)によるファインチューニングを提案する。この手法は、凍結されたマルチモーダル大規模言語モデル(MLLM)に対し、生の視覚入力のみを最適化することで情報を注入し、プリコンパイルされた計算グラフ上でソフトトークンアプローチを可能にする。これは勾配をプレーンなピクセル配列に逆伝播することに依存しており、したがって任意のファインチューニング目的をサポートする。さらに、最適化された視覚入力をタスク関連の計算芸術作品としてスタイリングすることもできる。本手法の有効性は、一般的なオープンなQwenアーキテクチャの異なるサイズと、複数のテキストベンチマークにおいて確認された。具体的には、ARTは数学および構造化ツール使用のベンチマークにおいてLoRAと競合する精度を達成している。
従来の研究では、指示チューニングされた大規模言語モデル(LLM)は、ベースとなる事前学習済みモデルよりも較正(キャリブレーション)が不十分であることが示されている。しかし、会話型LLMの較正に頻繁に使用されるチャットテンプレートが与える影響については、ほとんど知られていない。本研究では、ポストトレーニングアルゴリズムとチャット形式の効果を分離することで、この較正不良を引き起こすメカニズムを調査する。指示チューニングが本質的に較正を損なう一方で、チャットテンプレートは「所有バイアス(ownership bias)」を通じて問題を悪化させることを発見した。すなわち、モデルはユーザーが提供した同一の回答よりも、自身の回答に対して有意に高い確信度を示すのである。最近の6つのオープンウェイトLLM、3つのベンチマーク、および3つの確信度抽出法にわたる広範な実験により、モデルは自身の応答に対して最大26%高い確信度を割り当てることが示された。この知見を活用し、推論時に確信度を抽出する際にモデルの回答をユーザー入力としてフレーミングするというシンプルな戦略を提案する。このアプローチは、再トレーニングを必要とせずに過信を大幅に低減し、較正を最大26%改善することで、ベースモデルと指示チューニングモデル間のギャップを縮小する。
大規模言語モデル(LLM)は翻訳タスクにおいて新たな可能性を提供するが、低リソース言語を扱う際には性能が低下することが多い。この制限に対処するため、我々は低リソース言語であるクパン・マレー語に対してLLMをファインチューニングする手法を提案する。本手法では、バイリンガル辞書から明示的な語彙的特徴および意味的特徴を活用して一連のインストラクションを設計し、反復的なインストラクションに基づく訓練を可能にする訓練パラダイムである継続的インストラクションチューニング(CIT)を導入する。実験結果は、我々のモデルであるLiusが、標準的なインストラクションチューニングモデルを4〜6ポイント上回り、ニューラル機械翻訳(NMT)および多言語LLMモデルを複数の評価指標において10〜13ポイント上回る顕著な改善を示すことを実証している。これらの知見は、低リソース言語翻訳における大規模パラレルデータへの依存を軽減する本手法の可能性を強調するものである。
大規模言語モデル(LLM)は、自律的なワークフローを用いて複雑なタスクに取り組むために広く利用されている。近年、再利用可能な自然言語スキルが、LLMアプリケーションに手続き的知識を注入するための一般的なパラダイムとして登場している。一般的なスキルは繰り返し呼び出されることが多いため、毎回のコンテキストにその全文を配置すると、プリフィルコストとレイテンシが大幅に増加する。テキスト圧縮技術はこの問題を解決する可能性を秘めているが、既存の手法のほとんどは文書内の事実的知識を圧縮するために設計されており、手続き的知識の圧縮には不十分である。本論文では、効果的なスキル圧縮手法には以下の要件が必要であると論じる:(1) ワークフローやツールプロトコル間の論理的依存関係を保持すること、(2) 頻繁に更新されるコミュニティスキルに対して軽量なオフライン圧縮を可能にすること、(3) スキルごとに異なる複雑さに適応可能であること。この課題に対処するため、我々はSKIM(SKIll coMpression)を提案する。これは手続き的スキルのための適応型マルチ解像度ソフトトークン圧縮フレームワークである。SKIMは各スキルの複雑さに応じて異なる数のソフトトークンを生成し、LLM推論の効率を向上させるだけでなく、スキル使用の有効性も維持する。実験により、SKIMはスキルを元のトークン長の30%から60%に圧縮しつつ、既存の圧縮手法よりも優れたタスク性能を維持することが示された。我々はコードを https://github.com/bebr2/SKIM で公開している。
社会的信念が政策変更から科学的ブレークスルーに至るまで、どのように出来事に応じて進化するかを理解し予測することは、社会科学における根本的な課題であり続けている。LLMの常識的知識と社会的知性を踏まえ、我々は問う:LLMは社会的出来事に続く社会的信念の動態をモデル化できるのか?本研究では、社会的信念が主要な出来事に応じてどのように進化するかを捉えるための一般的枠組みであるソーシャル・ワールド・モデル(SWM)の概念を導入する。SWMは、社会的データにおける時間的パターンをマイニングし、エビデンス下限を最適化することにより、社会的信念の状態遷移関数を学習する。これには、出来事と信念の変化を結びつける明示的な人間によるアノテーションや、高額な国勢調査データは不要である。SWMを評価するために、実世界の予測市場(具体的にはKalshiおよびPolymarket)から派生したベンチマークSWM-benchを導入する。SWM-benchには、政治、金融、暗号通貨など多様な領域にわたる社会的信念予測タスクのための12,000以上のデータポイントが含まれる。実験結果は、SWMが時系列基盤モデルを大幅に上回り、Kalshiデータで最先端の成果を達成し、Polymarketデータで競争力のあるパフォーマンスを示すと同時に、社会的信念動態の基礎的メカニズムに関する解釈可能な洞察を提供することを示している。
大規模言語モデル(LLMs)は科学的発見を加速するために台頭しており、最近では妥当な科学的仮説を生成するといった高度なタスクにも活用されている。しかし、多くの発見の場面では、検証にノイズが多く費用がかかる可能性があるため、単一の最良仮説を特定することが目的ではない。むしろ科学者は、最良の解に関する下流の不確実性に備えるための高品質な代替仮説の集合から恩恵を受ける。それにもかかわらず、一般的に用いられる進化的探索の手法は、仮説生成において探索よりも最適化を優先する傾向があり、その結果として探索過程における選択圧が多様性の崩壊を引き起こす。これらの限界に動機づけられ、我々は仮説探索をサンプリング問題として定式化する。その目的は、固定されたバリデーション予算の下で、多様で高品質な仮説を効率的に生成することである。この観点に基づき、我々は\oursを提案する。これは古典的な並列焼きなましアルゴリズムに着想を得た進化的フレームワークであり、複数の温度レベルで仮説を探索し、温度間での原理に基づいた情報交換を可能にすることで、収束を妨げずに探索を改善する。分子発見、数式発見、アルゴリズム発見を含む様々な領域において、我々のアプローチは同じバリデーション予算の下で仮説の品質と多様性の両方を一貫して改善し、より高コストな下流の計算検証下でも頑健な候補を生成する。
汎用的な時系列基盤モデルは、無線ネットワークテレメトリに対して効果的に転移できない。無線ネットワークテレメトリの信号は、バースト性、ゼロ過剰性、およびプロトコル層間での結合性を有する。本稿では、エンタープライズAPテレメトリを予測するためのネットワークネイティブなデコーダ専用トランスフォーマーであるAPEXを提案し、代表的なネットワークタスクとしてDHCP障害評価を行う。APEXは、約4,500の実運用無線ネットワーク(約10万AP時系列、APあたり34メトリクス)からの10チャネル多変量テレメトリで事前学習され、APEX-Large(269M、クラウド向け)とAPEX-Edge(10.5M、エッジ向け)として提供される。192ステップ(4日間)のDHCP障害ベンチマークにおいて、APEX-Largeは最強の基盤モデルベースライン(Toto)と比較してMAEを18%削減し、SARIMAと比較して38%削減し、異常検知F1スコアは0.93を達成する。一方、APEX-EdgeはAPクラスのエッジハードウェア上でサブ秒のプライバシー保護推論を実現する。これらの結果は、ネットワークネイティブな事前学習がプロアクティブな無線運用の実用的基盤であることを示唆している。
レコメンダーシステムが自律的・多ターン対話型インタフェースへと移行する中で、評価パラダイムはその進展に追いついていない。現在のベンチマークは多くの場合「LLM-as-a-judge」評価に依存しており、これには主観性、高コスト、非一貫性といった問題が伴う。本稿では、τ-Recという自律的レコメンダーシステム向けベンチマークを提案する。τ-Recは、主観的評価を検証可能な報酬に置き換え、さらに「reveal-tagged elicitation (RTE)」メカニズムによって、対話中にタスク制約がどのように顕在化するかを制御する。エージェントを構造化されたカタログ述語に対してテストし、pass^k信頼性指標を採用することで、τ-Recは一貫した推論のための体系的なテストを提供する。5つのモデルファミリー(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B、GPT-5 mini)にわたる9つの構成を評価した結果、急峻な信頼性の崖(reliability cliff)が明らかになった。最高性能モデルでもpass^1で約57%、pass^4で約38%にとどまり、現在の対話型エージェントの展開における重大なギャップが浮き彫りとなった。すべてのコードとデータは https://github.com/nbharaths/tau-rec で公開されている。
トレーニングデータのキュレーションは、現代のAI開発において最も重要でありながら労働集約的な部分の一つである。実践者は、ノイズの多いベンチマークフィードバックに基づいて、データポリシーを反復的に提案、実装、評価、修正している。我々は、汎用的なコーディングエージェントがこのデータキュレーションループを自動化できるかどうかを問う。本稿では、モデル、トレーニングレシピ、評価スイートを固定し、エージェントにデータの検査、ポリシーの実装、固定されたトレーニング/評価パイプラインへの提出、そして修正を可能とするコマンドラインアクセスを与える、エージェント中心のベンチマーク*Curation-Bench*を導入する。視覚言語命令チューニングの実装において、標準状態のエージェントは10回の反復内で強力な公開データ選択ベースラインに到達する。しかし、軌跡分析は持続的な「実行-研究ギャップ」を明らかにしている。すなわち、エージェントは戦略ガイドや論文参照を与えられても、新しいポリシーファミリーを探求するのではなく、主に局所的なポリシーバリアントを調整している。各反復で先行手法を引用、具体化、適応することを要求するスキャフォールドは、エージェントを手法誘導型の探求へとシフトさせる。スキャフォールドされたエージェントは、人間の設計入力なしに、公開された強力なベースラインをデータ予算の10分の1で上回るデータ選択ポリシーを自律的に構成する。全体として、現在のエージェントはキュレーションループを実行できるが、信頼性の高いデータ研究には、オープンエンドのプロンプティングだけでなく、スキャフォールドされた手法の適応が必要である。コードとベンチマークはオープンソース化されている。
推論モデルのポストトレーニングは通常、検証可能な報酬を用いた強化学習(特にGRPO)と教師ありファインチューニングを組み合わせる。しかし、このアルゴリズムはスパースな報酬、限定的な探索、およびモード崩壊の問題を抱えている。近年の自己蒸留に関する研究を基に、我々はフィードバック蒸留(Feedback Distillation)を提案する。これは、モデルがトークンレベルで、言語モデルによって生成された特権的フィードバックを条件とした自身の分布に一致するよう訓練される手法である。フィードバック蒸留はトークンレベルの教師信号を提供し、外部知識を注入することができる。本手法をLean4による定理証明で評価した結果、フィードバック蒸留はGRPOよりも生成された軌跡の多様性を維持し、より高い方策エントロピーと優れたpass@kスケーリングを示した。両手法は相補的であり、フィードバック蒸留のチェックポイントからGRPOを初期化することで、単独使用のいずれの手法よりも優れた性能が得られる。総じて、これらの結果は複雑な推論におけるポストトレーニングの改善に向けた有望な方向性を示唆している。
現代のLLMトレーニングパイプラインは、データ生成、コーパスフィルタリング、出力評価、開発判断のガイドにおいて、ますます他のモデルに依存している。これらの依存関係は再帰的である。すなわち、あるモデルが上流のアーティファクトに依存する場合、そのアーティファクト自身の依存関係は別個のリリースやアーティファクトにのみ文書化されている。その結果、完全な依存関係構造は異種の公開アーティファクトに断片化され、その複雑性と再帰的な深さは人間の追跡能力をはるかに超えている。我々は、ソースに基づく証拠を用いて公開アーティファクトからLLM依存関係グラフを再帰的に再構築するエージェントシステムModSleuthを紹介する。我々は、主要な課題が情報抽出ではなく、依存関係を構成するものを定義し、一貫性のない文書間でアーティファクト参照を調整することであることを発見した。我々は、直接的依存関係と間接的依存関係を区別し、操作中心の関係を通じて異種のパイプライン役割を表現し、名称、バージョン、リポジトリ間でアーティファクトの識別を解決する形式化によって、これらの課題に取り組む。ModSleuthを4つの公開アーティファクトが豊富なLLMリリースに適用し、1,060のソース検証済み依存関係を回復し、現代のLLM開発の大規模依存関係グラフを構築する。これらのグラフは、マルチホップのライセンス義務、トレーニング-評価の結合、リリース時とトレーニング時のアーティファクト間の不一致、およびその他の方法では発見が困難な文書の不整合を明らかにする。我々はModSleuthと結果の依存関係グラフを公開し、現代のLLMの基盤となるますます複雑化するエコシステムの透明な分析を支援する。
スパースアテンションは、長コンテキストのLLM推論における計算とメモリ帯域幅を削減する。しかし、二つの主要な課題が残る:(1)KVキャッシュ容量は依然としてシーケンス長とともに増加し、CPUメモリへのオフロードはPCIe転送のボトルネックをもたらす;(2)スパース選択ステップ自体がO(T^2)の複雑性を保持し、長コンテキストではアテンションコストを支配しうる。我々はSparDAを提案する。これは、Query、Key、Valueに加えて、第4のレイヤーごとの投影であるForecastを導入する分離型スパースアテンションアーキテクチャである。Forecastは次のレイヤーで必要とされるKVブロックを予測し、現在のレイヤーの実行とCPUからGPUへのプリフェッチをオーバーラップする先読み選択を可能にする。Forecastはアテンションクエリから分離されているため、我々のGQA実装ではGQAグループごとに一つのForecastヘッドを使用し、元のマルチヘッドセレクタと比較して選択オーバーヘッドを削減する。SparDAは0.5%未満のパラメータを追加し、元のセレクタのアテンション分布に一致させることでForecast投影のみを訓練する。二つのスパース事前学習済み8Bモデルにおいて、SparDAは精度を同等かわずかに向上させ、スパースアテンションオフロードベースラインに対して最大1.25倍のプリフィル高速化と1.7倍のデコード高速化を達成する。単一GPUでより大きな実現可能なバッチサイズを可能にすることにより、SparDAはさらに、オフロードなしのスパースベースラインと比較して最大5.3倍高いデコードスループットに達する。我々のソースコードはhttps://github.com/NVlabs/SparDAで入手可能である。
脳磁気共鳴画像法(MRI)は、神経発達、老化、疾患の研究において中心的な役割を果たしている。その主要な応用の一つに脳年齢予測(BAP)があり、MRIデータから個人の生物学的脳年齢を推定する。効果的なBAPモデルには、大規模で多様性があり、年齢バランスの取れたデータセットが必要であるが、既存の3D MRIデータセットは人口統計的に偏っており、公平性と一般化可能性を制限している。新たなデータの取得にはコストと倫理的制約が伴うため、生成型データ拡張が動機づけられている。現在の生成手法は、多くの場合、潜在拡散モデルに基づいており、体積MRIデータのメモリ要求に対処するために、学習された低次元潜在空間で動作する。しかし、これらの手法は推論時に通常遅く、潜在圧縮によるアーティファクトを導入する可能性があり、年齢に条件付けされることは稀であり、その結果BAPの性能に影響を与える。本研究では、FlowLetを提案する。これは、可逆的な3Dウェーブレット領域内でのフローマッチングを活用し、再構成アーティファクトを回避し計算要求を低減しながら、年齢条件付きの3D MRIを合成する条件付き生成フレームワークである。実験により、FlowLetは少ないサンプリングステップで高忠実度のボリュームを生成することが示される。FlowLetで生成されたデータを用いてBAPモデルを訓練すると、過小評価された年齢層の性能が向上し、領域ベースの分析により解剖学的構造の保存が確認される。