翻訳付きの日次キュレーションされたAI研究論文
ABot-Earth 0.5は、広く入手可能な地理空間参照済み衛星画像から、シームレスで大規模な3D環境を生成することを目的とした生成型3Dフレームワークを提案する。この実現のために、3Dガウシアンスプラッティング(3DGS)表現を直接用いた新しい生成モデルを考案する。本モデルは、実在する多様な都市再構成データを学習し、リアルな幾何構造とテクスチャを生成する。推論時には、衛星画像のみを条件として、1平方キロメートルあたり10分未満という拡張可能な速度で新規3Dシーンを合成し、卓越したリアリティを実現する。本フレームワークはアクセシビリティを考慮して設計されており、階層的詳細レベル(LOD)構造が統合されているため、ウェブベースの地図エンジン上でリアルタイムかつインタラクティブな可視化が可能である。この高忠実度シミュレーション環境は、シミュレーションと実環境のギャップを効果的に緩和し、閉ループ型UAV航法などの重要なダウンストリーム身体化AIアプリケーションを可能にする。超低コストかつ高効率なソリューションを提供することで、ABot-Earth 0.5は大規模3D再構築への技術的・金銭的障壁を大幅に低減し、地球規模のデジタルアース可視化の未来を推進する。
Kwai Keye-VL-2.0-30B-A3Bを紹介します。これは、長尺動画理解とエージェント型インテリジェンスを推進するために設計された、オープンソースのMixture-of-Experts (MoE) マルチモーダル基盤モデルです。超長文脈、情報の冗長性、そして時間単位の動画に内在する膨大な計算コストといった課題に対処するため、Keye-VL-2.0は初めてDeepSeek Sparse Attention (DSA) をGQAベースのマルチモーダルアーキテクチャに適用し、重要なフレームや長期的な時間依存関係を捉えながら、無損失の256K文脈処理を実現します。このアーキテクチャは、スケーラブルな動画入出力、異種混合のViT-LM並列処理、カスタムDSAカーネルなど、スループットを最大化し計算オーバーヘッドを最小化する高度に最適化されたトレーニング・推論基盤によって支えられています。さらに、マルチタスクアライメント中に生じる破滅的忘却というアルゴリズム上のジレンマを克服するために、Context-RLおよびVideo-RLと組み合わせたCross-Modal Multi-Teacher On-Policy Distillation (MOPD) を導入しました。オン・ポリシーのロールアウトからの密なトークンレベルの教師フィードバックを、わずか3BのパラメータをアクティベートするMoEバックボーンに蒸留することで、Keye-VL-2.0はコード、ツール、検索シナリオにわたる高度なエージェント連携を、マルチモーダルな自己修正とともにネイティブに実現します。動画理解、時間的根拠付け、推論、STEM、エージェントベンチマークにわたる広範な評価により、Keye-VL-2.0-30B-A3Bは同規模のモデルの中で最先端の性能を達成し、特にTimeLensにおける細粒度の時間的ローカライゼーション、Video-MME-v2およびLongVideoBenchにおける長尺動画理解で優れていることが示されています。私たちはモデルチェックポイントを公開し、スケーラブルで堅牢なマルチモーダルエージェントアプリケーションに向けたコミュニティの進展を加速します。
大規模言語モデル(LLM)エージェントは複雑なタスクにおいて高い性能を示しているものの、その学習は非効率な対話フィードバックや静的な訓練環境に制約されることが多く、より広範な汎化の妨げとなっている。この限界に対処するため、本論文ではRole-Agentを提案する。これは、単一のLLMをエージェントと環境の両方として同時に機能させ、ブートストラップ型の共進化を実現するフレームワークである。Role-Agentは、相互補完的な2つの構成要素、すなわちWorld-In-Agent(WIA)とAgent-In-World(AIW)から成る。WIAでは、LLMがエージェントとして振る舞い、各行動後の将来状態を予測し、予測状態と実際の状態との一致度をプロセス報酬として利用することで、環境を考慮した推論を促進する。AIWでは、LLMが失敗軌跡から失敗モードを分析し、類似した失敗パターンを持つタスクを検索することで、訓練データ分布を再構成し、目標指向的な練習を可能にする。複数のベンチマークによる実験の結果、Role-Agentは一貫して性能を向上させ、強力なベースラインに対して平均4%以上の改善を示した。
AIエージェントは、複雑な問題を解決するために、スキル、ツール、ワークフローから構成されるハーネスに依存しています。このハーネスを継続的に改善することは、新しいタスクに適応するために不可欠です。しかし、既存の最適化手法は通常、グラウンドトゥルースの検証セットを必要としますが、そのようなラベル付きデータは実際の展開環境では入手が困難です。この問題に対処するため、我々はRetrospective Harness Optimization(RHO)を導入します。これは、過去のトラジェクトリのみを用いてエージェントのハーネスを最適化する自己教師あり手法です。具体的には、RHOは過去のトラジェクトリから多様なコアセットの困難なタスクを選択し、それらを並行して再解決します。エージェントはこれらのロールアウトを自己検証と自己一貫性を用いて分析し、その後、候補となるハーネスの更新を生成し、自身のペアワイズ自己選好によって最も効果的なものを選択します。我々はRHOを、ソフトウェアエンジニアリング、技術作業、知識作業にわたる3つの多様なドメインで評価します。特筆すべきことに、1回の最適化ラウンドにより、外部の採点なしでSWE-Bench Proの合格率が59%から78%に向上します。さらに、我々の分析は、RHOが以前の失敗モードを効果的にターゲットすることを示しています。その結果、最適化されたハーネスはエージェントの行動パターンを変化させ、長期的なセッション中により高い精度を維持します。
大規模言語モデルは、文脈要求が無限に拡大し得る複雑で長期的な実世界タスクを扱うことが期待される一方、モデルのコンテキストウィンドウは本質的に有限に留まります。近年の研究では、メインエージェントがタスクを分解し、サブエージェントにサブタスクを委譲、サブエージェントは実行結果を要約して返すことで、メインエージェントのコンテキスト予算を節約するパラダイムが模索されています。しかしこれを適切に行うには、複雑なタスクを分解し、いつ何を委譲するかを判断し、返却された結果を進行中のワークフローに統合する能力、すなわち「委譲知能」が必要です。この能力に関する訓練データは自然発生テキスト中に乏しく、我々の知る限り、この能力を獲得するためのデータ合成手法やモデル学習は、オープンソースコミュニティではほとんど探求されていません。このギャップを埋めるため、代表的な長期エージェントタスクであるディープリサーチを対象とした予備的検討を提示します。具体的には、モデルを高品質なタスク分解と委譲へ導くハーネスを設計し、サブエージェントがメインエージェントのワークフローを支援する適切な結果を返すよう制約します。ハーネス誘導による軌跡には正しい委譲判断が自然に符号化されており、これを教師ありファインチューニングデータとして用い、委譲知能をモデル重みに内在化させます。その結果得られたモデルSearchSwarm-30B-A3Bは、BrowseCompで68.1、BrowseComp-ZHで73.3を達成し、同等規模の全モデル中で最高の結果を示しました。今後の研究促進のため、ハーネス、モデル重み、訓練データを公開します。
検証可能な報酬を用いた強化学習(RLVR)は、LLMの推論能力を向上させるための標準的な手法となっている。しかし、既存のPPOスタイルの信頼領域メカニズムは、すべてのトークンに対して独立に均一な閾値を適用することで位置に依存しないままである。この点単位の処理は、自己回帰生成と二つの重要な点で矛盾する。第一に、均一な閾値は自己回帰的な非対称性を無視する。初期段階の偏差は累積的な系列レベルのドリフトを生み出し、固定された閾値では初期の発散を過小に抑制し、後期の探索を過度に制約してしまう。第二に、トークンレベルの発散を個別に評価することは累積的なプレフィックスドリフトを見落とし、条件付けの履歴がロールアウトポリシーからどれだけ乖離しているかに関わらず同じ発散許容範囲を与えてしまう。この制限に対処するため、我々はCPPO(累積プレフィックス発散ポリシー最適化)を提案する。これは、二つの結合されたメカニズムを介して更新を有限期間ポリシー改善境界に合わせるトークンレベルのマスキングルールである。第一に、位置重み付け閾値は、影響が長く持続する初期位置により厳しい制限を課し、後期のトークンに対する制約を緩和する。第二に、累積プレフィックス予算は履歴の偏差を追跡し、トークンレベルのさらなる偏差を動的に制限することで、プレフィックスに沿った誤差の累積を防ぐ。実験的に、CPPOは訓練の安定性を向上させ、さまざまなモデル規模にわたって推論精度を大幅に改善する。
現在のVision-Languageモデルは、数時間に及ぶ動画を扱う際に、完全な映像シーケンスを処理するとトークンの爆発的増加と注意の希薄化が生じるという深刻な問題を抱えています。この課題を克服するため、我々はMemDreamerを提案し、知覚と推論を分離することで、長尺動画理解をエージェント的な探索プロセスに転換します。プラグアンドプレイ型のフレームワークとして、MemDreamerは動画を段階的にストリーミングし、階層的グラフメモリ(Hierarchical Graph Memory)を構築します。これは、時空間的・因果関係を捉えた基盤グラフを軸とする、トップダウン型の3層アーキテクチャであり、意味的抽象化を実現します。推論時には、推論モデルがエージェント的なツール拡張型検索を用い、観察-推論-行動ループ(Observation-Reason-Action loop)を通じて階層間をナビゲートし、ノードを探索し、論理エッジを辿ります。実験の結果、MemDreamerは4つの主要ベンチマークでSOTAを達成し、人間専門家との差をわずか3.7ポイントにまで縮めました。また、推論コンテキストウィンドウを全コンテキスト摂取量のわずか2%に抑えつつ、12.5ポイントの絶対的な精度向上を実現しています。さらに、統計分析により、VLMの論理推論性能と長尺動画理解ベンチマークの間に強い正の線形相関があることが明らかになり、エージェント能力のスケーリングをマルチモーダル理解の新たなパラダイムとして確立しています。
近年の研究により、オンライン強化学習(RL)は画像・動画生成におけるフローマッチングモデルの品質とアライメントを大幅に向上できることが示されている。Flow-GRPOやCPSなどの手法は、ノイズ除去プロセスをマルコフ決定過程として捉え、PPOスタイルの比率クリッピングを適用して信頼領域を強制する。しかし、我々は比率クリッピングがフローモデルに構造的に不適切であると主張する。新旧方策間の確率比は、真の方策乖離に対するノイズの多い単一サンプル推定値であり、軌道の一部の領域では過剰に制約し、他の領域では制約不足を引き起こす。そこで我々は、比率クリッピングを乖離近接制約に置き換えたFlow-DPPO(Flow Divergence Proximal Policy Optimization)を提案する。重要な観察として、フローモデルにおける各ステップの方策はガウス分布に従うため、新旧方策間のKLダイバージェンスを正確かつ低コストで計算できる。Flow-DPPOは非対称な乖離マスクを採用し、更新が信頼領域から同時に逸脱し、かつ乖離しきい値を超える場合にのみ勾配更新をブロックする。実験により、Flow-DPPOはより高い報酬と優れたKL近接効率を達成し、破滅的忘却を軽減し、バランスの取れた多目的最適化を促進し、比率クリッピングが劣化する場合でも安定したマルチエポック学習を可能にすることを示す。コードとモデルは https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO で入手可能である。
制御されたキャラクタアニメーションには、駆動シーケンスから参照キャラクタへのモーション転送が必要です。従来の研究は、モーションを表現するためのポーズスケルトンや環境を表現するためのマスクされた背景などの中間表現に大きく依存しており、これにより情報損失が不可避的に生じます。この問題に対処するため、我々はSCAIL-2を提案します。これは、それらの中間表現を介さず、エンドツーエンドのキャラクタアニメーションを実現するフレームワークです。駆動ビデオをシーケンスに直接連結することで、モデルは入力ビデオから必要な視覚情報をすべて取得できます。エンドツーエンドデータの不足に対応するため、キャラクタアニメーションのサブタスクを分離された条件で統合し、異種タスクを含むエンドツーエンドのモーション転送データセットであるMotionPair-60Kを合成するパイプラインを構築しました。この統合を実現するために、テキスト指示や生の視覚情報に加えて、ソフトガイダンスとしてインコンテキストマスク条件付けとモード固有のRoPEを利用します。詳細領域における合成の不一致に対処するため、バイアス認識DPOを提案し、選好項目を構築して誤差を軽減します。広範な実験により、我々の手法が様々なキャラクタアニメーションタスクにおいて既存の最先端手法を大幅に上回ることを示します。合成データの大部分とモデル重みは、プロジェクトページ(https://teal024.github.io/SCAIL-2/)で公開予定です。
拡散ベースの口唇同期モデルは、高い画質と音声・映像の同期を実現するものの、全シーケンス双方向注意機構と多数のノイズ除去ステップにより、リアルタイム推論には適していません。本稿では、我々の知る限り初の自己回帰拡散法による動画間(V2V)口唇同期手法であるLip Forcingを提案します。本手法は、14Bパラメータの音声条件付き双方向ビデオ拡散教師を因果的学生モデルへと蒸留します。推論時には、学生モデルが各チャンクをわずか2ステップのノイズ除去で生成し、推論時のCFG(Classifier-Free Guidance)を必要としないため、リアルタイムの口唇同期を実現します。口唇同期に特化した教師軌跡分析により、CFGに関する忠実度と同期のトレードオフが明らかになりました。すなわち、CFGを用いない予測は参照忠実度を優先し、CFGを用いた予測は中期軌跡帯において同期を優先します。Lip Forcingはこの知見を、Sync-Window DMD、2ステップ推論スケジュール、SyncNetに基づく報酬という3つの分析由来のコンポーネントへと変換します。本手法は二つの学生規模で検証し、いずれも14B教師から蒸留しています。1.3Bの学生モデルは31FPSでリアルタイムストリーミングを達成し、同規模の双方向モデルと比較して17.6倍高速です。14Bの学生モデルは、V2V口唇同期において報告された最大の拡散モデルであり、同等の参照忠実度において教師より39.8倍高速です。両規模において初回フレーム出力時間は1ミリ秒未満であり、すべての拡散ベースラインを大幅に下回ります。
WorldOlympiadを紹介する。これは、ビデオベースの世界モデルを、物理的忠実性、幾何学的整合性、インタラクションの確実性の観点から診断するためのベンチマークである。既存のベンチマークは、多くの場合、視覚品質、意味的整合性、または短期間の時間的コヒーレンスに焦点を当てているため、生成されたビデオが物理法則に従っているか、一貫した3D構造を保持しているか、長期間にわたって制御可能なインタラクションを維持しているかについての洞察は限定的である。このギャップを埋めるため、WorldOlympiadは世界モデルの評価を3つの補完的な次元に分解する。物理トラックでは、オブジェクトセグメンテーションとMLLM-as-judgeを使用して、生成されたビデオが力学、熱現象、材料特性における解釈可能なルールに従っているかを評価する。幾何学トラックでは、生成されたビデオをガウシアンスプラッティングで再構成し、構造的一貫性、視点間のコヒーレンス、カメラ軌道の整合性を評価する。インタラクショントラックでは、生成されたロールアウトが複雑なアクションプロンプトに従い、連続するビデオチャンク間で滑らかで一貫性のある遷移を維持しているかを評価する。WorldOlympiadはさらに、ゲーム、ロボティクス、一般的な実世界のビデオを含む3つの主要な下流シナリオをカバーし、インタラクティブな制御や身体的操作から、オープンドメインの動作やカメラのダイナミクスに至るまで、多様な課題を捉える。これらのトラックとシナリオは、スケーラブルで解釈可能な評価スイートを構成し、一般的なビデオ品質を超えた障害モードを明らかにする。最先端モデルに対する実験では、物理的推論、3D一貫性、長期的インタラクションにおける顕著なギャップが明らかになり、生成的世界モデルのためのより構造化された評価プロトコルの必要性が強調される。
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおける主要な構成要素となっている。実際のLLM向けRLでは、学習と推論のミスマッチや方策の陳腐化により、オフポリシー方式が多く用いられるため、安定した最適化には信頼領域制御が不可欠である。PPOやGRPOといった主流手法は、比率クリッピング機構によってこの制御を近似しているが、重要度比はロングテールな語彙における分布シフトの指標として不十分な場合がある。近年のDPPOは、比率ベースのクリッピングを発散ベースのマスクに置き換え、サンプリングされたトークンの絶対確率シフトによって定義される信頼領域を導入することで、このミスマッチに対処している。しかし、DPPOは依然としてハードマスクに依存しており、トークンが有害な方向に信頼領域境界を超えた場合、その勾配は修正されずに破棄される。この問題に対処するため、本稿ではDivergence Regularized Policy Optimization(DRPO)を提案する。DRPOはハードマスクを、方策シフトに対する滑らかなアドバンテージ加重二次正則化に置き換える。これにより、DPPOと同じ信頼領域形状を維持しつつ、有界で連続な勾配重みを導入し、乖離する更新を抑制するとともに、境界を超えた場合でも修正信号を提供する。モデルスケール、アーキテクチャ、精度設定にわたる実験により、DRPOがLLMのRL学習の安定性と効率性を向上させることが示された。
本論文では、LLMエージェント向けに初のマルチデータセットテスト時プロンプト学習フレームワークであるEEVEEを提案する。これにより、実世界のタスクストリーム下でのテスト時プロンプト学習が可能となる。既存手法は主に単一データセットの設定向けに設計されているが、実世界のアプリケーションでは複数のデータセット、ドメイン、タスク分布から得られる異種入力ストリームを処理する必要があり、実用性に制約がある。この問題に対処するため、EEVEEはルーターを導入し、入力データをタスククラスタに分割し、適切なプロンプト設定に割り当てる。この設計は、ルーターとプロンプトの共進化戦略により最適化され、相互依存性に対処するためにルーター学習フェーズとプロンプト学習フェーズを交互に実行する。複数のデータセットを用いた実験により、本フレームワークは異種データストリーム下での堅牢性を向上させつつ、単一ベンチマークでの学習能力と効率を維持することを示す。具体的には、EEVEEはQwen3-4B-InstructおよびDeepSeek-V3.2と比較して、平均マルチベンチマークスコアをそれぞれ10.38ポイントおよび24.32ポイント向上させ、SOTA手法であるGEPAおよびACEを最大37.2%および48.2%上回る。
本論文では、次トークン予測フレームワーク内で画像理解、生成、編集を統合する、離散表現に基づく自己回帰モデルARMを紹介する。ARMは3つの取り組みに基づいている。第一に、画像をコンパクトなトークン系列に変換する離散意味的視覚トークナイザーを訓練する。本トークナイザーは、意味的識別性、言語アライメント、忠実な再構成を共同で促進する複数の目的で教師あり学習されており、共有潜在空間において多様なタスクをサポートする。これを用いて、大規模なテキストおよび画像トークン系列に対して7Bの自己回帰モデルを訓練し、視覚言語の知覚能力と生成能力をシームレスに発展させる。最後に、テキストから画像生成および指示誘導編集における嗜好整合行動をさらに改善するため、ARMは強化学習(RL)を適用して、視覚品質、指示遵守、編集一貫性といったタスクレベルの目的を最適化する。驚くべきことに、結果はRLが対象タスクの性能を大幅に向上させるだけでなく(例:WISE全体スコアを0.50から0.56に、GEdit-Bench-ENのG_Oを5.75から6.68に向上)、テキストから画像生成と編集の間のタスク間相乗効果も誘発することを示している。総じて、これらの発見は、強力な表現と嗜好最適化と組み合わせた場合の自己回帰モデリングが、マルチモーダル知能のためのスケーラブルな基盤であることを浮き彫りにしている。コード: https://github.com/wdrink/ARM。
近年、AIエージェントはますます複雑化する実世界のタスクを処理する方向へと急速に進化してきた。しかしながら、既存のベンチマークでは、エージェントがグラフィカルユーザインタフェースを操作して、多様な領域にわたる長期的かつ高価値な専門的ワークフローを完遂できるかどうかは、ほとんど評価されていない。現在のGUIベンチマークは依然として汎用ソフトウェア、比較的単純なアプリケーション、短期間のタスクに重点を置いており、最新のエージェントがユーザの指示に従ってドメイン固有の専門ソフトウェアを自律的に操作し、経済的に価値のある作業をエンドツーエンドで達成できるかどうかは、ほぼ未知のままである。このギャップを埋めるために、我々はWorkflow-GYMを導入する。これは、専門領域と専門的なソフトウェア環境に焦点を当てた、長期的なGUIタスクのベンチマークである。最先端モデルを用いた広範な実験を通じて、最強のモデルでさえ成功率がわずか30%超にとどまることが明らかになり、専門的な長期的GUIワークフローが現在のGUIエージェントにとって依然として非常に困難であることが浮き彫りになった。さらなる分析により、現在のエージェントは長期的なワークフローの一貫性を維持することが困難であり、ワークフローの段階の欠落、エラーの伝播、目的の逸脱、専門ソフトウェア環境に対する理解不足を頻繁に示すことが判明した。我々の発見は、現在のエージェントシステムの限界に関する重要な洞察を提供し、次世代のGUIエージェント研究の主要な方向性を示唆するものである。
外部記憶は、大規模言語モデル(LLM)や視覚言語モデル(VLM)に基づく質問応答(QA)を、関連するマルチモーダルな証拠で効果的に基礎づける。しかし、既存の記憶パラダイムでは各記憶項目を生のテキストや画像形式で表現するため、検索ベースのシステムは取得したテキストや画像を生成用のLLM/VLMに渡さなければならず、その結果、高いトークン消費とストレージ負荷が生じ、リソース制約のあるアプリケーションには不向きである。我々は、潜在記憶(Latent Memory)を提案する。これは、各生のテキストや画像の証拠項目を、小型の圧縮器LLM/VLMが生成する単一の高次元潜在トークンに置き換える潜在空間記憶パラダイムである。生の証拠を検索して生成に用いる代わりに、潜在記憶は統合された潜在表現空間で動作する。すなわち、クエリをこの空間に埋め込んで関連する潜在トークンを検索し、検索された潜在トークンを直接、事前学習済みのLLMやVLMにプロンプトとして与え、回答を生成する。各潜在トークンが再構成、検索、生成のすべてに対して情報豊かであるようにするため、圧縮器を再構成、対照学習、蒸留の目的関数を用いて統一されたエンドツーエンド方式で訓練する。潜在記憶は、7つのテキストのみのQAベンチマーク(例:HotpotQA)およびマルチモーダルQAベンチマークで評価され、高度なRAGベースラインと同等のQA性能を達成しつつ、生成トークンを3倍から10倍削減する。また、WebQAにおいては最も強力な画像に基づくQA性能を発揮する。コードはhttps://github.com/zz1358m/Latent-Memory-Masterで入手可能である。
チェーン・オブ・ソート(CoT)教師ありファインチューニング(SFT)は、推論能力向上のために広く採用されているが、ハイブリッド線形アテンションモデルにおいて長文脈の想起を体系的に低下させることを我々は発見した。HypeNetやJet-Nemotronなどのアーキテクチャにおいて、Needle-In-A-Haystack(NIAH)に対する検索性能はCoT-SFT後に大幅に低下し、より困難な検索設定や長いコンテキストウィンドウではその劣化はさらに深刻になる。例えば、HypeNet-9BのNIAH-S2@256Kは67.2%から9.4%に低下する。この原因は、CoT-SFTがアテンション勾配を近距離パターンに偏らせ、長距離ルーティングを担うクエリ・キー投影(W_Q, W_K)を混乱させることにあると我々は考える。この観察に動機づけられ、我々はQK-Restoreを提案する。これは、SFT前のチェックポイントからW_QとW_Kのみを復元し、それ以外のSFT後のパラメータはそのまま保持する、学習不要の手法である。さらに、ルーティングの保持と推論への適応のバランスをとるために、Procrustes変種を導入する。QK-Restoreは、様々なアーキテクチャにおいて、推論性能を維持しつつ、ゼロの学習コストで長文脈能力を一貫して回復する。例えば、HypeNet-5BではS3@256Kを65.4%から76.4%に改善し、強力な推論性能を維持する。
言語モデルはテキスト音声合成(TTS)システムの基盤としてますます重要な役割を果たしているが、テキストと生成された音声トークンが単一の残差ストリームを共有する際にモデルが構築する表現については、ほとんど理解されていない。我々はCosyVoice3の言語モデルバックボーンにBatchTopKスパースオートエンコーダを学習させ、各特徴量がテキスト前置コンテキスト、1秒の音声クリップ、またはその両方のいずれで発火するかをラベル付けする、モダリティ対応自動解釈パイプラインを導入する。得られた特徴量は解釈可能であり、音素、笑い声、アクセントプロンプト、話者の性別にわたる。SAE潜在空間を通じた操作は、これらの特徴量が単なる記述的なものではなく因果的であることを示す。標的を絞った介入により、笑い声の確率が0.02から0.79に上昇し、知覚される話者の性別が反転し、発話内容を保持したまま発話速度が制御される。したがって、SAE特徴量はTTS合成における解釈可能性オブジェクトとしても制御方向としても機能する。
エージェントスキルはエージェントワークフローにおいて特権的な位置を占めており、エージェントはそれらを暗黙的に従い実行することが期待されるため、サードパーティ製スキルは脆弱な攻撃対象領域となる。既存の研究では、スキルベース攻撃によって誘発される不安全なエージェント行動が明らかにされているが、それらの研究は主に単一のタスク実行内でのポイズンドスキルを評価し、アドホックなリスクリストを通じて害を列挙するに留まっている。これらのギャップを埋めるため、我々はスキル使用ライフサイクル全体にわたるスキルベース攻撃のベンチマークであるSkillHarmを導入し、スキル関連リスクの体系的な分類体系と組み合わせる。SkillHarmは2つの攻撃シナリオを評価する。固定ペイロードポイズニング(FPP)では、固定されたポイズンドスキルパッケージが、それを呼び出すタスクセッションを直接侵害する。自己変異型ポイズニング(SMP)では、当初は良性の実行が永続的なスキルコンテンツを黙って変異させ、その後の再利用まで害を先送りにする。さらに、害が標的とするエージェントワークフローの構成要素(データパイプライン、システム環境、エージェントの自律性)に基づいて12のリスクタイプを定義する。これらの攻撃を大規模に具体化するため、自然言語ハーネスで駆動されるコーディングエージェントを用いた自動構築パイプラインであるAutoSkillHarmを構築する。結果として得られたベンチマークには、71のスキルにわたる879の攻撃サンプルが含まれる。実験の結果、現在のエージェントは依然として脆弱であり、FPPで最大86.3%、SMPで最大69.3%の攻撃成功率を示した。さらに分析により、潜在的なリスクが明らかになった。すなわち、明らかな攻撃失敗の多くは、エージェントがポイズンドファイルに実際に抵抗したのではなく、関与しなかったことに起因しており、現在の防御策は依然としてこの脅威を確実に軽減できていない。
言語エージェントは、関連するタスクにわたるマルチステップなWeb自動化を改善するために、再利用可能なスキルにますます依存するようになっている。近年、オンラインスキル学習、すなわちエージェントが過去のタスク軌跡から継続的にスキルを獲得し、将来のタスクでその場で再利用する手法の研究が進んでいる。しかし、既存の手法は主にタスクレベルでスキルを再利用する。すなわち、初期のタスク命令に基づいて固定のスキルセットを取得し、実行中はそのまま保持する。この静的な戦略はWeb実行の実態と乖離している。なぜなら、適切な次のアクションはタスクの目標だけでなく、現在のWebページの状態にも依存し、その状態は初期のスキルではカバーできない状況へと頻繁に遷移するからである。この課題に対処するため、我々はState-Grounded Dynamic Retrieval (SGDR) を提案する。これはWebエージェント向けの段階的なスキル再利用を可能にするオンラインスキル学習手法である。SGDRは三つの要素から構成される。すなわち、完了した軌跡を中間実行状態で呼び出し可能な再利用可能なサブ手続きに変換するスライディングウィンドウ抽出プロセス、スキル検索と実行可能なアクションを結びつける二重テキストコード表現、そしてスキルをタスク目標と現在のWebページ状態の両方にマッチングする状態に基づく動的検索メカニズムである。五つのドメインにわたるWebArenaでの実験により、SGDRが強力なベースラインを一貫して上回り、GPT-4.1で平均成功率37.5%、Qwen3-4Bで24.3%を達成し、最強ベースラインに対してそれぞれ10.6%および10.0%の相対的な向上を示した。コードはhttps://github.com/plusnli/skill-dynamic-retrievalで公開されている。
ディープラーニングモデルの規模が拡大するにつれ、大規模なチェックポイントの管理、検査、修正はますます困難になっています。研究者はしばしば、層の再構築、精度変換、低ランク分解、アーキテクチャのデバッグのためにモデルの重みを変更する必要がありますが、これらのワークフローは脆弱なアドホックなPythonスクリプトに依存することがよくあります。ここでは、ニューラルネットワークのチェックポイントに対するロバストで再現可能な「テンソル手術」を実現するツールBrainSurgeryを紹介し、モデルアップサイクルからLoRA抽出までの4つの例と3つのケーススタディを含むシステムデモを提供します。ストレージ形式とメモリ管理を抽象化することにより、BrainSurgeryは宣言的なYAMLプランを通じて複雑な変換を実行します。表現力豊かな正規表現と構造的ターゲティングによる構造変更、数学的変換、テンソル再形成をサポートし、組み込みのアサーションがテンソルの形状、データ型、値を検証して、サイレントエラーを防ぎます。BrainSurgeryは、その再現可能で検証された操作を通じて、将来の研究の強力な基盤を提供するものと期待しています。
トークンレベルのクレジット割り当ては、大規模言語モデル(LLM)における強化学習(RL)の主要な障害であり続けている。RLの手法は通常、すべてのトークンを同等に扱い、決定的な推論ステップとルーチン的なフォーマットや流暢なフィラーの区別ができていない。 最近の試みでは、モデル内部の信号を利用してより細かい粒度のクレジットを割り当てようとしているが、これらは多くの場合、情報伝播の大域的な構造を無視したポイント単位のヒューリスティックスである。 我々はFlowTracerを提案する。これは、注意に基づく有向非循環グラフ上で回答を対象とした推論フローを追跡するRLフレームワークである。このグラフではノードがトークンに対応し、エッジ容量は集約された注意重みから得られ、この大域的な構造からトークンのクレジットを導出する。 エッジ容量は再重み付けされ、回答領域に到達できる影響のみを保持し、局所的なフロー保存を強制することで、中間トークンが経路長や無関係な枝によって有効質量を失ったり増やしたりしないようにする。 このグラフ上でFlowTracerは、質問と回答を結ぶ情報フローのバックボーンを抽出し、フロースループットによってトークンをスコアリングする。これにより、長距離依存関係を仲介する高影響のハブや集約チェックポイントが明らかになる。 これらの導出された重要度はトークンレベルの報酬を形成するために使用され、学習信号が正解に向けて(または正解から遠ざける)情報をルーティングするトークンに正確に焦点を当てることを可能にし、様々な推論タスクで一貫した性能向上をもたらす。
大規模言語モデル(LLM)ベースのエージェントは、ウェブナビゲーションやコード編集からツール使用、長期的な対話に至るまで、対話型テキスト環境でますます利用されている。しかし、その多くは依然として受動的であり、環境がどのように構造化され変化するかに関する明示的なモデルを持たず、観測を行動に写像しているにすぎない。この背景から、テキストワールドモデル(TWM)が注目される。テキストワールドモデルとは、状態と候補行動を与えられたとき、結果として得られるウェブページ、端末出力、API応答、またはユーザの返信を予測する、テキスト状態上の遷移モデルであり、これにより計画立案、効率的な学習、原理的な評価が可能となる。本稿では、LLMベースエージェントのためのテキストワールドモデルについて、形式フレームワークとエージェントのライフサイクルに基づき体系的にレビューする。(1)基礎:テキストワールドモデルを定義し、状態表現と接地領域によって特徴づける。(2)構築:LLMをWMとする手法とコードをWMとする手法を分類し、それらの構築方法を概観する。(3)応用:ワールドモデルがどのようにエージェントを訓練時における経験合成や推論時における計画・検証・適応を通じて支援するかを考察する。(4)評価:ワールドモデル自体の評価と、それをエージェントの評価環境として利用する方法の両方を扱う。本稿は、急速に発展するこの分野を整理し、その設計空間を明確にし、今後の研究における未解決の課題を浮き彫りにすることを目的とする。
深層リサーチエージェントは、大規模なオンライン情報を収集して目的の知識を獲得する能力により注目を集めており、近年の取り組みは純粋なテキストベースの情報探索からマルチモーダル設定へと移行しつつある。しかし、既存のエージェントワークフローは、証拠を線形的に集約する証拠蓄積モデルに大きく依存しており、異種モダリティ間で矛盾する情報を扱うための原理的なメカニズムを欠いている。この課題に対し、我々は信念修正理論に基づく構造的エージェントワークフローであるStruct-Searcherを提案する。本手法は、推論プロセス全体を通じて進化するマルチモーダル構造グラフを明示的に維持することで、矛盾を考慮した効果的なマルチモーダル深層情報探索を実現する。複数のベンチマークデータセットとバックボーンモデルを用いた大規模な実験により、Struct-Searcherは以下の特性を持つことが示された。(1) プラグアンドプレイでモデル非依存であり、5種類の異なるバックボーンを用いたBrowseComp-VLにおいて、平均相対精度17.2%の改善を達成。(2) 最高性能を達成し、最先端の視覚言語モデル(VLM)や深層リサーチエージェントを一貫して上回り、MM-BrowseCompでは相対精度3.7%、HLE-VLでは1.5%、BrowseComp-VLでは0.7%の改善を、それぞれ第2位の競合手法に対して達成した。
大規模言語モデル(LLM)は日常的に、拒否すべきリクエストに直面し、有用性と害防止の間のトレードオフを生み出している。しかし、拒否そのものが有用であることもある。危機、強制、または意図のエスカレーションを伴う高リスクなインタラクションにおいて、単純な不遵守は直接的な害を防ぐ一方で、リクエストの背後にいる人物のニーズを支援できない可能性がある。本稿では、PsychoSafeを提示する。これは、エビデンスに基づく介入戦略に根ざした構造化された支援的コミュニケーションとして拒否を再定義する、心理学に基づく拒否フレームワークである。PsychoSafeを開発するために、心理学的に重要な5つのリスク領域にわたる8019のプロンプトと応答のペアからなるコーパスを構築し、Qwen 3.5 27Bに対してプロンプティングとパラメータ効率的なファインチューニングを適用した。500のプロンプトからなるバランスの取れた検証セットにおいて、LLM判定器による評価と人間による評価を通じて検証した結果、PsychoSafeのプロンプティングは、一般的なベースラインと比較して拒否品質を全体的に28.1%向上させ、特に外部リソースの紹介(+46.8%)と心理学的根拠付け(+34.8%)において顕著な改善を示した。一方で、非拒否タスクにおける下流性能は維持された。ファインチューニングにより、拒否率とリソース紹介率はほぼ完璧に達したが、応答の関連性は低下した。SORRY-BenchおよびXSTestでの追加評価では、ドメイン内では高いロバスト性を示したものの、ドメイン外への汎化は限定的であり、今後の研究ではファインチューニングデータを多様化し、モデルが介入を図式的ではなく選択的に適用できるようにする必要があることが示唆された。
既存の深層学習モデルによるポジトロン断層撮影(PET)画像のノイズ除去は、分布シフト下での顕著な性能低下にしばしば悩まされ、これが臨床への堅牢な展開を根本的に制限している。この汎化不足は、学習後にテストデータ(例えば線量レベルやスキャナの種類)の変動に適応できない固定パラメータモデルという従来のパラダイムに起因する。この限界を克服し、堅牢な汎化を実現するために、我々はU-TTTを導入する。これは、テスト時訓練(TTT)層を統合した新しいU字型モデルであり、自己教師あり学習を通じて推論中にモデルパラメータを動的に調整し、各テストインスタンスの固有の特性に適応する。さらに、3次元PETデータの複雑な劣化を包括的に捉えるため、U-TTTは空間テスト時訓練(S-TTT)層と周波数テスト時訓練(F-TTT)層からなる二領域適応機構を備えている。S-TTT層は空間構造の劣化を捕捉・補正し、F-TTT層は全体的なノイズスペクトルを抑制するとともに、繊細な高周波の詳細を復元する。広範な実験により、U-TTTは最先端のPETノイズ除去性能を達成し、未知の線量レベルや未知のスキャナを含む困難な分布シフト下でも優れた汎化を示すことが実証された。我々のコードは https://github.com/Yaziwel/U-TTT で公開予定である。
先行研究では、狭いドメインにおける悪意のあるまたは誤った出力で大規模言語モデルをファインチューニングすると、広範なミスアライメントと有害な行動が誘発されることが示されています。この現象は創発的ミスアライメントとして知られています。しかし、そのようなミスアライメントを元に戻す効率的な方法は依然として限られています。本研究では、2つの貢献を行います。第一に、追従ファインチューニング(すなわち、ユーザーの誤った意見に受動的に同意するようにモデルを訓練すること)を、これまで十分に調査されていなかった創発的ミスアライメントの要因として特定し、それが広範で深刻なミスアライメント行動を誘発することを示します。第二に、創発的ミスアライメントを元に戻す効率的な手法であるAlignment Gatingを提案します。これは、ファインチューニング中に学習可能で制御可能なゲートをモデルに挿入するものです。ファインチューニングを通じて、これらのゲートは安全でない応答の原因となる内部表現を識別することを学習します。したがって、これらの表現を増幅または抑制することで、それぞれ創発的ミスアライメントを悪化または緩和します。さらに、アライメントゲーティングモジュールは強い汎化能力を示すことを発見しました。狭いドメインのファインチューニングで得られたゲーティング重みは、モデルの一般的な能力を維持しつつ、広いドメインのミスアライメント行動を大幅に抑制します。
既存の深層学習に基づくPET画像ノイズ除去手法のほとんどは、低線量PET画像に対して固定された既知の線量低減率(DRF)を想定している。しかしながら、これらの手法は、実際の応用においてDRFが想定された値から逸脱して変動する場合、著しい性能低下に直面する。多様なDRFによって生じる課題に対処するため、いくつかの予備的研究では、複数のDRFにわたる低線量データに対して汎用モデルを訓練することを目的とした、汎用PET画像ノイズ除去タスクに焦点を当てている。それでもなお、これらの基本的な汎用モデルは、異なるDRFデータに存在するスタイルの不一致にしばしば苦戦し、顕著な過度な平滑化効果を伴うスタイル消失問題を引き起こす。この問題に対処するため、我々はPET画像ノイズ除去にドメイン汎化を革新的に導入し、多様なDRFにわたって高品質なPET画像ノイズ除去を実現する汎用PET画像ノイズ除去ネットワーク(UniPET)を提案する。UniPETは、スタイル調整ネットワーク(SAN)と領域認識学習戦略(RALS)という2つの主要な革新から構成される。具体的には、SANはドメイン汎化に由来するスタイル調整技術を利用して、異なるDRF間でのスタイルの調整と復元を行い、スタイルを効果的に保持しつつ、様々なDRFに対するモデルの汎化能力を保証する。さらに、スタイル復元を強化するため、RALSは平坦領域とスタイル化領域を区別し、後者にのみ敵対的学習を実施することで、モデルの焦点をスタイル化領域の学習により効果的に導く。提案するUniPETは、異なるDRFスタイルを適応的に復元し、DRF間で高品質なPET画像ノイズ除去を達成できることが示されている。包括的な実験により、UniPETは特定のDRFにおいて個別のDRF固有モデルと同等の性能を示し、定量的、知覚的、臨床的に汎用PET画像ノイズ除去において最先端の性能を実現する。
ビデオ生成モデルはますます強力になっているが、数フレームであっても実用的でないほど長いトランスフォーマー系列長が必要となるため、長期的な一貫性の達成は依然として困難である。本稿では、マルチスケールのトークン空間内で粗密を段階的に展開する(coarse-to-fine rollout)手法によりビデオを生成することで、この問題を緩和できることを示す。我々のアプローチは単純である。まず、各フレームをトークンの階層に圧縮するオートエンコーダを事前学習する。この階層は、一般的な潜在解像度からフレームあたりわずか数個のトークンにまで及ぶ。最も粗いレベルはシーンのレイアウトやセマンティクスといった最も重要な情報を捉え、より細かいレベルは高周波の外観やテクスチャを追加する。次に、粗密を段階的に展開する手法を用いてこれらのトークンを生成するビデオ拡散モデルを学習する。各展開ステップにおいてフレームが生成され、コンテキストとして使用される詳細レベルを注意深く制御することで、幾何学的な長期一貫性と物体の永続性を維持しつつ、知覚的にそれほど重要でない詳細の長期一貫性に費やす計算量を削減できる。我々は、長尺のMinecraftビデオからなるカスタムデータセットを用いてこのアプローチを検証し、既存のベースラインと比較して大幅に一貫性の高い展開結果が得られることを確認した。
大規模言語モデルに基づくマルチエージェントシステム(MAS)は、通常、役割、パイプライン、ターンスケジュールに従って組織化されるが、エージェント間でやり取りされるコンテンツは、しばしば制約のない自然言語のままである。しかし、この自由形式の通信は、トークン使用量を急速に増加させ、共有コンテキストウィンドウを消費し、最終的にはシステム性能と推論コストの両方に悪影響を及ぼす。我々は、2種類のMASトポロジにおいて、5つの一般的なエージェント間通信戦略を分析し、固定戦略が普遍的に最適であることはないことを見出した。むしろ、効果的なエージェント間メッセージは、下流のエージェントが必要とするアクション中心の情報を一貫して保持している。この知見に基づき、我々はPACT(Protocolized Action-state Communication and Transmission:プロトコル化されたアクション状態通信と伝送)を提案する。これは、エージェント間通信を公開状態更新問題として捉え、各エージェントの生の出力を、共有履歴に入る前にコンパクトなアクション状態レコードに投影するものである。異なるMASトポロジにおいて、PACTは一貫して性能とコストのトレードオフを改善し、大幅に少ないトークンで同等以上のタスク性能を達成する。この利点はプロダクションコーディング環境にも拡張される。PACTはOpenHandsにおいて、解決された問題あたりのトークン数が10%減少した状態で解決率を向上させ、SWE-agentでは入力トークンを半減しつつ解決率に影響を与えない。我々のコードはhttps://github.com/iNLP-Lab/PACTで公開されている。
自己回帰型ビデオ生成は、世界行動モデル(WAM)の強力なパラダイムとして登場しました。しかし、既存の手法は、特に高いフレームレートにおいて、訓練の収束が遅く、収束精度も限定的であるという問題を抱えています。これは、訓練の教師信号が現在のチャンクに限定され、将来のダイナミクスに関する明示的な情報が欠如しているためです。また、反復的なビデオノイズ除去により推論が遅いという問題もあります。本論文では、より高速な訓練、高い精度、加速された推論を実現する、因果的世界モデリングのためのマルチチャンク予測(MCP)フレームワーク「Next Forcing」を提案します。大規模言語モデルにおけるマルチトークン予測に着想を得たNext Forcingは、MCP訓練目的を導入し、軽量な補助MCPモジュールで主モデルを拡張することで、複数の将来の時間地平線(次のチャンク¹、次のチャンク²、次のチャンク³)におけるビデオチャンクを同時にノイズ除去します。これらのMCPモジュールは予測深度にわたって因果連鎖を形成し、主モデルの複数層から融合された中間特徴量を活用して将来のダイナミクスを予測します。これにより、近い将来の予測がより遠い将来の予測に情報を提供し、主モデルに密なマルチスケールな時間的教師信号を提供します。訓練中、MCPモジュールは特に高いフレームレートにおいて収束を大幅に加速し、収束精度を向上させます。50 fpsにおいて、Next Forcingは5k訓練ステップでLingBot-VAに対して93.1%の相対的改善、2.3倍の高速収束を達成し、RoboTwinベンチマーク(Clean/Randomで94.1%/93.5%)で新たな最先端結果を確立しました。推論時には、MCPモジュールを保持して現在のチャンクと並行して次のビデオチャンクを予測でき、2倍の推論加速を実現します。Next Forcingは、ビデオ生成における物理法則の遵守を評価するベンチマークPhyWorldでも顕著な改善を示し、一般的なビデオ事前学習ではFVDを50%以上削減します。
大規模言語モデル(LLM)の長いコンテキストへの拡張性は、標準的なアテンションの2次複雑性によって根本的に制約されており、そのためサブ2次コストの線形アテンション機構の採用が促進されている。長いコンテキスト下での表現能力を向上させるため、近年の手法ではメモリをマルチステート的に構成している。しかし、既存のマルチステート線形アテンション手法は、トークンの重要度の動的変化に適応できない固定の状態統合ポリシーに依存しており、重要なトークンを不可逆的に不明瞭にし、長いシーケンスにわたって深刻な誤差蓄積を引き起こす。この制限に対処するため、我々はマルチステート線形アテンションのための動的メモリモデリングフレームワークであるDLAを提案する。DLAは以下の2つを導入する。(i)情報認識型動的状態統合:トークンレベルの情報変化に基づいて状態境界を適応的に決定し、意味遷移周辺では高解像度表現を保持しつつ、安定領域では積極的に要約する。(ii)容量制限付きメモリモデリング:隣接する低情報状態を選択的に統合することで、固定サイズで時系列順の状態キャッシュを維持し、情報損失を最小限に抑えながらメモリ成長を制御する。我々はDLAを2つの異なる線形アテンションモデルで事前学習し、3カテゴリ16データセットで評価した。実験結果は、DLAが最先端手法よりも優れていることを示している。
表現力豊かな連続制御ポリシー(拡散モデルやフローモデルなど)は、シミュレーション環境や実ロボット制御における模倣学習のスケーリングに関する最近の進歩の基盤を形成している。これらは教師あり模倣学習の設定では安定的にスケールすることが知られているが、強化学習(RL)パイプラインに組み込んでポリシー改善を行うことは、これまで困難であることが示されてきた。多くの場合、特殊な学習目的関数やデノイジングプロセスを通した逆伝播が必要となり、それが安定性に悪影響を及ぼし、スケーラビリティを損なう原因となる。本稿では、安定した教師ありポリシー学習をそのまま維持しつつ、テスト時のみに単純なポリシー改善手法を適用するだけで、こうした問題を回避する競争力のある代替手段となり得るのかを研究する。そのために、我々はQGF(Q-Guided Flow)を提案する。これは、ポリシー最適化をテスト時のみで実行するRLアルゴリズムである。QGFは、標準的な行動模倣目的関数を用いて参照フローポリシーを事前学習するとともに、価値関数クリティックも事前学習しておき、テスト時には価値勾配を利用して参照ポリシーをガイドすることで、追加のポリシー学習を一切行わずに、より高い価値を持つ行動を生成する。実証評価において、QGFは高次元行動空間を持つ単一タスクおよび目標条件付きオフラインRLベンチマークにおいて、既存のテスト時RL手法を上回り、最先端の学習時アルゴリズムと競合しつつ、実行コストは大幅に低い。さらに、アクタークリティック学習の不安定性を回避することで、モデルサイズに対して好ましいスケーリング特性を示し、表現力豊かなポリシーを用いた実用的かつ効果的な代替RLアルゴリズムを提供する。
マルチモーダル大規模言語モデル(MLLM)は一般に、単一モーダルテキストモデリング向けに設計された深い対称Transformerバックボーンを継承し、画像トークンと言語トークンに対して同一の計算を均等に適用する。この設計は、画像トークンとテキストトークンが情報密度、冗長性、必要とされる推論の深さにおいて本質的に異なるという、重要なモーダル非対称性を見落としている。LLaVA-1.5の層別分析を通じて、視覚トークンは中間層で飽和する傾向があることが観察された。具体的には、テキストから画像への注意は層0で0.68から層4で0.07に減少し、層18以降は0.04近傍で安定する一方、テキストトークンは引き続き深い意味処理の恩恵を受ける。これらの知見は、アーキテクチャの対称性と深さ非同期なモーダル進化の間に不一致があることを示唆しており、その結果、深いタスク特化適応中に冗長な視覚計算と知覚表現の潜在的なドリフトが生じる。この動機に基づき、我々は効率的なMLLMのためのモーダル非対称ルーティングフレームワークであるDual-Path Vision Token Routing(DPVR)を提案する。その中核的実装であるDPVR-LF(Late-Layer Fusion)は、視覚トークンを飽和点で1層の訓練可能なサイドブランチにルーティングし、深層スタック内で画像位置をスキップする13層のテキスト専用フォワードを実行し、最終層でのみ視覚ストリームとテキストストリームを再融合する。約3%の訓練可能パラメータで、DPVR-LFは標準ベンチマークにおいて競争力のあるマルチモーダル性能を維持しつつ、深層Transformerスタック内の視覚計算を削減する。この結果は、視覚トークンがすべての深層言語モデル層を通過しなければならないという従来の前提に疑問を投げかけ、LLaVAスタイルのMLLMにおいて単一の後期融合層が強力な知覚能力を維持するのに十分である可能性を示している。
エージェントの評価と訓練において増加している障害モードは、モデルが意図されたタスクを解決する代わりにショートカットを利用することで高い評価スコアを達成し、欺瞞的なパフォーマンスを生み出すことです。これにより、評価スコアは真のタスク解決能力の尺度として信頼できなくなります。我々はCapCodeを提案する。これは、ランダム化テストを用いたコーディングデータセットを構築するフレームワークであり、そのテストで不正を行わずに達成可能な最高のパフォーマンスが意図的に1未満に制限されています。この上限付きパフォーマンス設計により、評価スコアの解釈がより明確になります。すなわち、上限を大幅に超えるスコアは非現実的であり、したがって不正の証拠となります。不正を防ぐために、我々はCapRewardを提案する。これはCapCodeの原理に基づく報酬設計であり、上限を超える最適化を抑制します。複数のデータセットを用いた実験では、CapCodeがモデルの性能ランキングを維持しつつ不正を検出し、CapRewardが不正行動を減少させ、意図されたタスク仕様により従うモデルを生成することが示されました。
基盤となる大規模言語モデル(LLM)は、幅広い一般的なタスクに対して高い能力を示し、ドメイン特化型LLMを介して様々な専門タスクで顕著な成果を上げています。利用可能なLLMのリストが増え続ける中、各プロンプトに最も適したLLMを選択するための推論ルーターが提案されています。しかし、既存のルーティング手法は、弱いものから強いものまでの汎用LLM間でのコスト最適化を行うか、ドメイン専門知識ルーティングをサポートするために大規模なトレーニングを必要とするかのいずれかです。本論文では、各プロンプトに対して低コストかつ高速なルーティング判断を提供する、リッジ回帰に基づくドメインエキスパート用ルーターIR3DEを提案します。IR3DEを2つの因果言語モデリング(CLM)設定(全ドメインで次トークン予測タスク)と、各ドメインが独自の推論タスクを持つ1つの推論設定で評価します。線形ルーターであるにもかかわらず、IR3DEは両方のCLM設定で他のベースラインと同等の性能を達成し、推論設定ではそれらを上回り、正規化性能98.4%を達成しました。さらに、IR3DEは、ルーターをゼロから再トレーニングすることなく、新しいドメインエキスパートの追加や削除を可能にし、動的なLLMセットをルーター自体への最小限の中断で提供できます。コードはgithub.com/gensyn-ai/IR3DEで公開されています。
言語モデルを追加のコンテキスト(例えば、前回の試行に対するフィードバック)で条件付けすると、通常は応答が改善される。自己蒸留は、そのコンテキストが存在しない場合でも、この改善をモデルが保持できるように訓練する手法である。この手法は、二つの設定におけるモデルの出力分布を一致させることで機能する。すなわち、質問のみを参照する生徒と、コンテキストも参照する自己教師である。したがって、モデルが学習する内容は自己教師が受け取るコンテキストに依存するが、このコンテキストの設計はほとんど未解明のままである。 本稿では、固定された批評器からのフィードバックを用いてソルバーを訓練することで、自己蒸留におけるコンテキスト設計を研究する。三つの条件を比較する。(i) 二値報酬(GRPO)、(ii) 参照解、(iii) ソルバーの推論過程に整合したステップ単位の批評。 ステップ整合的な批評が最大の改善をもたらし、GRPOを16.11ポイント、参照解で条件付けした自己蒸留を5.27ポイント上回った(Avg@12)。トークンごとのアドバンテージ分析により、その理由が明らかになった。ステップ整合的なフィードバックは、推論が失敗するトークンのみを対象とし、正しい動作はそのままにする。対照的に、参照解で条件付けすると、モデルはすべてのトークン(正しいステップも含む)で動作を変更するよう圧力を受ける。なぜなら、別の導出方法は必然的に表現やアプローチが異なるからである。このことは、フィードバックとソルバーの推論との間の構造的整合性が、自己蒸留の効果を左右する重要な要因であることを示唆している。
経験豊富な研究者からの専門的な執筆フィードバックは、若手研究者が論文を改善する上で極めて重要である。しかし、研究論文のレビューには多大な労力を要するため、質の高いフィードバックは依然として不足している。近年登場したAI駆動型の執筆アシスタントは、主に文法修正や最終スコアによるピアレビューのシミュレーションに焦点を当てており、学生が論文の草稿段階で改善に役立つ具体的で実用的な提案を提供するには至っていない。本稿では、PaperMentorを提案する。これは、人間中心設計に基づくアシスタントシステムであり、実際の執筆をすべて人間の著者に委ねつつ、Overleafネイティブのインラインコメントとして実用的な提案を提供する。PaperMentorは、熟練研究者の執筆助言から厳選した専門家スキルライブラリと、論文執筆のさまざまな側面(フォーマット準拠、表現精度、用語一貫性など)をカバーする12の専用エージェントを統合している。ユーザー調査(n=14)では、生成されたコメントの90.6%が実用的、67.5%が妥当と評価され、専門家スキルライブラリを用いないGPT-5.2ベースラインを大幅に上回った。PaperMentorはオープンソースとして公開しており、コードはAGPL-3.0ライセンスのもとでhttps://github.com/jiarui-liu/overleaf から入手可能である。
マルチターン推論モデルの失敗は、最終評価スコアではほぼ見えにくい。モデルが長い対話の初期段階で安全でない立場に固着しても、最終ターンの拒否率は堅牢にアライメントされたベースラインと区別がつかないように見えることがある。このような隠れた時間的ダイナミクスを明らかにするため、我々はトレースレベルの診断手法である「CoT-Output 2×2安全性マトリクス」を提案する。本フレームワークは、各ターンを内部推論と可視出力という独立した2軸に沿ってラベル付けし、運用上定義された4つの失敗セル(堅牢なアライメント、アライメント偽装、明白な脱獄、および我々がコンテキスト注入失敗と命名した特徴的な失敗モード)を導出する。コンテキスト注入失敗では、CoTは安全な推論を維持しているにもかかわらず可視出力が有害な結果を生み出しており、推論の不誠実さのマルチターンにおける現れを示している。我々は、3つの蒸留推論ターゲットを固定攻撃者に対して5つの監視条件で評価し、情報ハザードシナリオにおいて6750件のターンレベルの観測データを収集した。分析の結果、再現可能な2つの脆弱性が明らかになった。1つは監視パラドックスであり、明示的な監視手がかりがアライメント偽装率を抑制するどころか逆に増加させるというものである。もう1つはコンテキスト注入失敗であり、モデルが安全な内部状態にもかかわらず安全でない外部出力に固着する現象である。我々は、今後のトレース診断研究を支援するために、マルチターン対話とCoTトレースの完全なデータセットを公開する。
マルチエージェントシステム(MAS)は、複雑な問題を並列サブタスクに分解することで、大規模言語モデルのテスト時推論を拡張できる。しかし、既存のMASの大半は中央集権的なオーケストレーションに依存しており、主エージェントが作業を割り当て、出力を収集し、結果を統合する。サブタスクの数が増加するにつれて、このコントローラは通信と統合のボトルネックとなる。本稿では、並列エージェント、共有検証コンテキスト、タスクキューを通じて調整を分散化するMASフレームワークであるDecentralized Language Models(DeLM)を提案する。エージェントは非同期的にサブタスクを取得し、蓄積された進捗を読み取り、局所的な推論を実行し、コンパクトな検証済み更新を書き戻す。共有コンテキストは共通の通信基盤として機能し、エージェントがすべての更新を中央コントローラ経由でルーティングすることなく、互いの検証済み進捗の上に構築することを可能にする。実験的に、DeLMはソフトウェアエンジニアリングのテスト時スケーリングと長文脈推論の両方を改善する。SWE-bench Verifiedでは、DeLMはAvg.@1、Pass@2、Pass@4のすべてにおいて最高性能を達成し、最も強力なベースラインを最大10.5パーセントポイント上回りつつ、タスクあたりのコストを約50%削減した。LongBench-v2 Multi-Doc QAでは、DeLMは4つのフロンティアモデルファミリー全体で最高の平均精度を達成し、最も強力なベースラインを最大5.7パーセントポイント上回った。コードはプロジェクトWebサイト(https://yuzhenmao.github.io/DeLM/)で公開されている。
大規模言語モデル(LLM)の安全性は、これまで行動レベルで評価されることが多く、介入下での表現レベルの脆弱性ではなく出力を対象としているため、内部のロバスト性を示す証拠は限られていた。我々はこの不一致を「監査ギャップ」、すなわち行動的安全性と介入下でのロバスト性の差として定式化する。このギャップを研究するために、潜伏空間では脆弱でありながら安全な外見的行動を維持する「解離モデル」を構築する。また、有害なファインチューニングや層ごとの潜伏摂動を含む、パラメータ空間および潜伏空間におけるソフトな介入を通じてモデルのロバスト性をテストする、介入ベースの評価フレームワークを導入する。評価を定式化するために、有界な潜伏摂動によって有害行動がどれだけ容易に誘発されるかを測定する潜在脆弱性スコア(Latent Vulnerability Score, LVS)を提案する。この評価フレームワークを用いて、行動的安全性の指標が、安全および非安全に調整された複数の最先端モデルにおける表現レベルのロバスト性を測定するには不十分であることを示す。注目すべきことに、解離モデルは有害介入下で同等の拒否行動を示すにもかかわらずLVSが大幅に上昇しており、中間表現が介入に対して最も敏感である。我々の結果は、行動的安全性評価だけではモデルのロバスト性の不完全な像しか提供せず、潜伏脆弱性と観察可能な行動の両方を考慮した表現認識監査の必要性を示唆している。
自己回帰型ビデオジェネレータは、連続する時間セグメントを生成することで長尺動画を合成するが、履歴KVキャッシュは動画の長さに比例して増大する。既存の有界キャッシュ手法では、ローカルウィンドウ、シンクトークン、圧縮メモリ状態を用いてこのコストを削減するものの、通常、履歴の異なる部分に固定された役割を割り当てている。本論文では、FadeMemを提案する。これは距離を考慮したKVメモリ統合メカニズムであり、固定キャッシュ予算の下で過去のKVブロックを時間階層に整理する。この設計は、周波数依存の時間減衰に着想を得ている。すなわち、微細な詳細は急速に無相関化する一方、大まかなシーン構造や同一性は長い時間にわたって有用性を保つ。生成中、新しい履歴は細粒度のエントリとして挿入され、古い隣接エントリはべき乗則に従った時間配分スケジュールの下で段階的に統合され、一つのキャッシュ内に密近疎遠なメモリを形成する。アーキテクチャの変更を伴わずに、FadeMemは短期的なダイナミクスのための最近のコンテキストと、同一性やシーンの一貫性のためのコンパクトな長距離アンカーを保持する。実験では、既存の有界キャッシュ手法と比較して、被写体の一貫性、背景の安定性、時間的一貫性が向上することを示している。
マルチプルインスタンス学習(MIL)は、インスタンスの集合(バッグ)単位で教師信号が利用可能な問題を扱い、計算病理学から衛星画像に至るまで幅広い分野で成功を収めている。しかしながら、多くの実世界のアプリケーションに特徴的な低ラベル環境では、既存のアルゴリズムは苦戦している。柔軟なモデルは過学習し、硬直的なモデルは目の前のタスクに適応できない。本稿では、Perceiverスタイルのアーキテクチャを持つインコンテクスト学習器を合成データで事前学習することで、少数のラベル付きバッグから新しいタスクを解くことができるモデルが得られることを示す。推論時には、分類は単一の順伝播で行われ、勾配更新を必要としない。我々は、バッグ構造データのための様々な合成データ生成器を提案し調査し、それらが相補的な帰納的バイアスを捉えていることを発見した。これらの生成器の混合で事前学習されたモデルは、各タスクごとの強みを受け継ぎ、12のMILベンチマークにおいて最高の平均性能を達成し、タスク固有の学習を必要とする教師ありベースラインを凌駕する。
大規模言語モデル(LLM)は、感情的に敏感な社会的会話にますます参加するようになっており、その応答はバランスの取れた支援から過度な是認やエスカレートする同調へと変化する可能性がある。従来の追従(sycophancy)研究は主に事実への同意や指示追従の設定に焦点を当てており、文化的に根ざした会話における追従は十分に探究されていない。本稿では、ベンガル語の社会的文脈における会話的追従を研究するための初のベンチマークであるBenSycを紹介する。バングラデシュと西ベンガル全域のコミュニティから収集した11,840件のReddit投稿と17万件のコメントを出発点として、二値ラベルと「無効化」「中立」「支援」「是認」「エスカレーション」からなる五段階の詳細な分類体系を備えた、人間が検証したベンチマークを構築した。15以上のオープンおよびプロプライエタリなLLMを、会話の同調性分類と応答生成タスクにおいて評価した。その結果、共感的な支援と強化指向の是認を区別することは、最先端の指示チューニングモデルにとっても依然として困難であり、最良のシステムでも二値検出で61.8、五クラス分類で61.7のMacro-F1しか達成できないことが示された。生成設定では、複数のモデルが感情的に高ぶった状況において強く是認的またはエスカレート的な応答を頻繁に生成する。これらの知見は、モデルファミリーや会話行動にわたって大きなばらつきがあることを浮き彫りにしており、社会的に同調する会話AIシステムを評価するための文化的基盤に基づく多言語ベンチマークの重要性を強調している。