翻訳付きの日次キュレーションされたAI研究論文
我々は、次世代基盤モデルであるGLM-5を発表します。本モデルは、Vibe CodingのパラダイムからAgentic Engineeringへの移行を推進するように設計されています。前身モデルのAgentic・推論・コーディング(ARC)能力を発展させたGLM-5は、DSAを採用することで、長文脈の忠実性を維持しつつ、学習コストと推論コストを大幅に削減しています。モデルのアライメントと自律性をさらに高めるため、新たな非同期強化学習インフラを実装し、生成と学習を分離することで学習後効率を劇的に改善しました。さらに、新規の非同期エージェント強化学習アルゴリズムを提案し、強化学習の品質を向上させることで、複雑で長期的なインタラクションからの学習をより効果的に可能にしています。これらの革新を通じて、GLM-5は主要なオープンベンチマークにおいてState-of-the-Artの性能を達成しました。最も重要な点として、GLM-5は実世界のコーディングタスクにおいて前例のない能力を示し、エンドツーエンドのソフトウェアエンジニアリング課題の処理において従来のベースラインを凌駕しています。コード、モデル、詳細情報はhttps://github.com/zai-org/GLM-5で公開されています。
エージェントスキルは、推論時にLLMエージェントを強化する手続き的知識の構造化されたパッケージです。急速に普及しているにもかかわらず、その実際の有用性を測定する標準的な方法は存在しません。本研究では、11のドメインにわたる86タスクから成るベンチマーク「SkillsBench」を提案します。各タスクは、厳選されたスキルと確定的な検証器と組み合わされています。各タスクは、スキルなし、厳選されたスキル、自己生成されたスキルという3つの条件で評価されました。7つのエージェントモデル構成に対し、7,308の軌跡にわたってテストを実施しました。その結果、厳選されたスキルは平均合格率を16.2パーセントポイント(pp)向上させましたが、効果はドメインによって大きく異なり(ソフトウェアエンジニアリングの+4.5ppから医療の+51.9ppまで)、84タスク中16タスクでは負の効果が見られました。自己生成されたスキルは平均的に利益をもたらさず、モデルが消費することで利益を得る手続き的知識を確実に作成できないことが示されました。2~3のモジュールで構成される焦点を絞ったスキルは、網羅的なドキュメントよりも優れた性能を示し、スキルを備えた小型モデルは、スキルなしの大型モデルと同等の性能を発揮し得ることがわかりました。
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間が解釈可能なスパースな特徴量の集合に分解することで、ネットワークの解釈を可能にする有望なツールとして登場しました。近年の研究では複数のSAE変種が導入され、フロンティアモデルへのスケーリングに成功しています。しかしながら、下流タスクにおける否定的な結果が増加していることから、SAEが意味のある特徴量を真に回復しているかどうか疑問が投げかけられています。この問題を直接検証するため、我々は二つの相補的な評価を実施しました。既知の真の特徴量を持つ合成設定では、SAEが71%の説明分散を達成しているにもかかわらず、真の特徴量のわずか9%しか回復できないことを実証し、再構成が強力であっても核心的なタスクに失敗していることを示しました。実活性化におけるSAEを評価するため、SAEの特徴量方向またはその活性化パターンをランダム値に制約する三つのベースラインを導入しました。複数のSAEアーキテクチャにわたる大規模な実験を通じて、我々のベースラインが完全学習済みSAEと同等の性能を、解釈可能性(0.87対0.90)、スパースプロービング(0.69対0.72)、因果的編集(0.73対0.72)で達成することを示しました。これらの結果は総合的に、現状のSAEがモデルの内部メカニズムを確実に分解できていないことを示唆しています。
大規模言語モデルエージェントがネットワーク環境に広く普及するにつれ、根本的な疑問が生じる:人工知能(AI)エージェント社会は、人間の社会システムと同様の収束ダイナミクスを経験するのだろうか。最近提案されたMoltbookは、自律エージェントが終わりなき進化を続けるオンライン社会に参加する将来シナリオを近似している。本稿ではこのAIエージェント社会に対する初の大規模体系的診断を提示する。静的な観察を超えて、AIエージェント社会の動的進化を定量化する診断フレームワークを導入し、意味的安定化、語彙の更新率、個人の慣性、影響力の持続性、集団的合意を測定する。我々の分析は、Moltbookにおいて動的均衡が保たれたシステムを明らかにする:大域的な意味的平均は急速に安定化する一方、個々のエージェントは高い多様性と持続的な語彙更新を保持し、均質化に抗っている。しかしながら、エージェントは強い個人の慣性を示し、相互作用相手への適応応答が最小限であるため、相互影響と合意形成が阻害される。結果として、影響力は一時的なものに留まり持続的な超重要节点は出現せず、共有された社会的記憶の欠如により安定した集団的影響力の基盤が発達しない。これらの発見は、規模と相互作用密度だけでは社会化を誘発するには不十分であることを実証し、次世代AIエージェント社会のための実践的な設計・分析原則を提供する。
テキスト埋め込みモデルは、情報検索、クラスタリング、分類などの意味的類似性タスクに広く利用されている。汎用モデルは通常、対照損失関数を用いた単段階または多段階のプロセスで学習される。本研究では、モデル蒸留技術とタスク特化的な対照損失を組み合わせた新しい学習手法を提案し、コンパクトで高性能な埋め込みモデルを生成する。このアプローチが、対照学習または蒸留のみの学習パラダイムよりも、小規模モデルの学習において効果的であることを示唆する。開発したモデル「jina-embeddings-v5-text-small」および「jina-embeddings-v5-text-nano」のベンチマークスコアは、同規模のモデルにおける最先端性能を上回るか同等である。jina-embeddings-v5-textモデルシリーズはさらに、多数の言語における長文(最大32kトークン)に対応し、切り詰めや二値量子化下でも頑健な埋め込みを生成する。モデル重みは公開されており、埋め込みモデル開発のさらなる進展に貢献することが期待される。
Clawdbotは、ローカル実行とWebを介したワークフローにまたがる広範な行動空間を有する、ツール利用型のセルフホスト個人AIエージェントである。この特性は、曖昧な状況下や敵対的誘導において、安全性とセキュリティに関する懸念を特に高める。本研究では、6つのリスク次元にわたるClawdbotの軌道中心的な評価を提示する。テストスイートは、既存のエージェント安全性ベンチマーク(ATBench、LPS-Benchを含む)からシナリオを抽出して軽微な適応を施し、Clawdbotのツール操作面に特化して手設計したケースで補完した。完全なインタラクション軌道(メッセージ、アクション、ツール呼び出しの引数/出力)を記録し、自動軌道判定器(AgentDoG-Qwen3-4B)と人手レビューの両方を用いて安全性を評価した。34の標準ケース全体で、不均一な安全性プロファイルが明らかになった:信頼性重視タスクでは概ね一貫した性能を示す一方、大部分の失敗は意図が未定義な状況、開放的な目標、あるいは一見無害なジェイルブレイクプロンプトにおいて発生し、些細な誤解が高影響のツールアクションへとエスカレートする可能性が確認された。総合結果を代表的なケーススタディで補完し、これらの事例に共通する特性を要約、Clawdbotが実践で誘発しやすいセキュリティ脆弱性と典型的な故障モードを分析した。
我々は、AIエージェントのエンドツーエンド研究能力を評価するためのベンチマークおよび実行環境「ResearchGym」を提案する。具体的には、ICML、ICLR、ACLの口頭発表およびスポットライト論文5本を再構築した。各論文のリポジトリからデータセット、評価ハーネス、ベースライン実装を保持する一方、論文で提案された手法自体は除外している。これにより、合計39のサブタスクから構成される5つのコンテナ化されたタスク環境が構築された。各環境内で、エージェントは新たな仮説を提案し、実験を実行し、論文の評価指標において強力な人間のベースラインを超えることを目指さなければならない。 GPT-5を搭載したエージェントの制御評価では、能力と信頼性に顕著な乖離が観察された。エージェントがリポジトリ提供のベースラインを改善したのは15回の評価中わずか1回(6.7%)で、改善幅は11.5%であった。また、サブタスクの平均完了率は26.5%に留まった。我々は、長期的な失敗パターンとして以下を特定した:忍耐力の欠如、時間とリソース管理の不備、弱い仮説への過信、並列実験の調整困難、コンテキスト長による制約。しかし単一の実行において、エージェントはICML 2025スポットライトタスクの解決策を上回り、最先端エージェントが偶発的に最高水準の性能に達し得るものの、再現性に欠けることを示唆した。 さらにClaude Code(Opus-4.5)やCodex(GPT-5.2)などのプロプライエタリなエージェント基盤を評価したところ、同様の乖離が確認された。ResearchGymは、自律エージェントの閉ループ研究における体系的な評価と分析のためのインフラを提供する。
統合モデルは単一のアーキテクティでマルチモーダルな理解と生成の両方を扱えるが、通常は単一パスで動作し、出力を反復的に洗練することはない。多くのマルチモーダルタスク、特に複雑な空間構成や複数の相互作用するオブジェクト、変化する指示を伴うタスクでは、指示の分解、中間結果の検証、反復的な修正が必要となる。テストタイムスケーリング(TTS)では、反復的推論のために推論計算リソースを追加割り当てることが言語モデルの性能を大幅に向上させることが実証されているが、このパラダイムを統合マルチモーダルモデルに拡張することは未解決の課題である。本研究では、単一の統合モデルが複数ラウンドにわたって推論、検証、洗練を行うことを可能にするマルチモーダル連鎖思考型テストタイムスケーリングフレームワーク「UniT」を提案する。UniTは、エージェント的なデータ合成、統合モデル訓練、柔軟なテストタイム推論を組み合わせることで、検証、サブゴール分解、コンテンツメモリといった認知的振る舞いを引き出す。主な発見は以下の通りである:(1)短い推論軌跡で訓練された統合モデルは、テスト時に長い推論連鎖へ一般化する、(2)逐次的な連鎖思考推論は、並列サンプリングよりもスケーラブルで計算効率の高いTTS戦略を提供する、(3)生成と編集の軌跡による訓練は、分布外の視覚推論を改善する。これらの結果は、マルチモーダルテストタイムスケーリングが、統合モデルにおける生成と理解の両方を推進する効果的なパラダイムであることを立証する。
プラトニック表現仮説は、ニューラルネットワークの表現が現実の共通統計モデルへ収束しつつあることを示唆している。本研究では、既存の表現類似性指標がネットワーク規模によって混同されていることを明らかにする:モデルの深さや幅の増加が、体系的に表現類似性スコアを過大評価するのである。この影響を補正するため、任意の表現類似性指標を統計的保証を持つ較正済みスコアに変換する、順列ベースの帰無較正フレームワークを提案する。較正フレームワークを用いてプラトニック表現仮説を再検討すると、微妙な実態が浮かび上がる:大域的なスペクトル測度が報告した見かけ上の収束は、較正後にはほぼ消失する一方で、局所的近傍類似性(ただし局所距離ではない)は、異なるモダリティ間で有意な一致を保持する。これらの知見に基づき、我々はアリストテレス的表現仮説を提唱する:ニューラルネットワークの表現は、共有された局所的近傍関係へ収束しつつある。
明示的なカメラ制御下で将来の観測をシミュレートする予測的世界モデルは、対話型AIの基盤である。急速な進展にもかかわらず、現在のシステムは空間的持続性を欠いており、長い軌跡にわたって安定したシーン構造を維持できず、カメラが過去に観測した位置を再訪した際に詳細を頻繁に幻覚する。この幾何学的ドリフトは、3D一貫性に必要な射影幾何学と矛盾するスクリーン空間位置埋め込みへの依存に起因することを明らかにした。我々はViewRopeを提案する。これはカメラ光線方向をビデオトランスフォーマーの自己注意層に直接注入する幾何学認識エンコーディングである。画素の局所性ではなく相対的光線幾何学で注意をパラメータ化することにより、ViewRopeは時間的隔たりを超えて3D一貫性のあるコンテンツを検索するためのモデル固有の帰納的バイアスを提供する。さらに、幾何学的手がかりを活用して関連する過去フレームを選択的に注意するGeometry-Aware Frame-Sparse Attentionを提案し、メモリ一貫性を犠牲にせずに効率を改善する。また、ループ閉鎖の忠実度と幾何学的ドリフトを測定する診断スイートViewBenchを提示する。結果は、ViewRopeが計算コストを削減しながら長期的な一貫性を大幅に改善することを実証している。
大規模言語モデル(LLM)の学習は、高度に洗練された前処理行列を備えた密な適応型オプティマイザにほぼ独占的に依存している。我々はこれに異を唱え、パラメータ更新をランダムにマスキングする手法が極めて有効であることを実証する。RMSPropのマスキング変種は、最新の最先端オプティマイザを一貫して凌駕する性能を示した。分析の結果、ランダムマスキングが曲率依存の幾何学的正則化を誘発し、最適化軌道を平滑化することが明らかになった。この知見に基づき、我々は運動量-勾配アラインメントを用いてマスキング更新を調整するMomentum-aligned gradient masking(Magma)を提案する。大規模なLLM事前学習実験により、Magmaが計算オーバーヘッドを無視できる程度に抑えつつ、適応型オプティマイザの単純な代替として一貫した性能向上をもたらすことを実証した。特に1Bパラメータモデルでは、MagmaはAdamと比較して19%以上、Muonと比較して9%以上のパープレキシティ低減を達成した。
Humanity's Last Exam(HLE)は、挑戦的なマルチドメイン問題に対するフロンティア大規模言語モデルの評価ベンチマークとして広く利用されている。しかし、コミュニティ主導の分析により、HLEには無視できない数のノイズを含む項目が存在し、評価結果にバイアスを生じさせ、モデル間比較を歪める可能性が指摘されている。この課題に対処するため、我々は透明性のある検証プロトコルと詳細な誤り分類体系を備えた、検証済み修正版のHLE-Verifiedを提案する。本構築は、認証済みベンチマークを産出する2段階の検証・修正ワークフローに従う。第I段階では、各項目がドメイン専門家によるレビューとモデルベースのクロスチェックを通じて問題文と最終解答の二値検証を受け、641の検証済み項目が得られる。第II段階では、修正可能な欠陥項目は、独立した専門家による二重修正、モデル支援監査、最終裁定を経て、原評価意図を保持する厳格な制約下で修正され、1,170の修正認証済み項目が生成される。残る689項目は、不確実性の源泉と専門性タグを明示した文書化不確実集合として公開し、将来の改善に資する。7つの最先端言語モデルをHLEとHLE-Verifiedで評価した結果、HLE-Verifiedでは平均絶対精度が7~10ポイント向上した。特に原問題文や参考解答に誤りがある項目では30~40ポイントの大幅な改善が見られた。分析により、モデルの信頼度と問題文・参考解答の誤り存在との強い相関が確認され、本修正の有効性が支持される。総じてHLE-Verifiedは、注釈ノイズの低減とモデル能力のより忠実な測定を実現し、HLE形式評価の質を向上させる。データはhttps://github.com/SKYLENAGE-AI/HLE-Verified で公開されている。
大規模言語モデル(LLM)は「バイブコーディング」として知られるコーディングのパラダイムを変革しつつあるが、アルゴリズム的に高度で堅牢なコードの合成は依然として重大な課題である。この障壁を克服するには、LLMの深い推論能力を促進することが不可欠である。強化学習ファインチューニング(RFT)はこの要請に応える有望な手法として登場した。しかし、既存手法の多くはテストケースに内在する難易度と粒度の不均一性を看過しており、報酬信号の不均衡な分配、ひいては訓練時のバイアスを含んだ勾配更新を引き起こしている。この問題に対処するため、我々はテスト駆動・能力適応型カリキュラム強化学習ファインチューニング(TAROT)を提案する。TAROTは各問題に対して4段階(基本、中級、複雑、エッジケース)のテストスイートを体系的に構築し、カリキュラム設計と評価のための制御された難易度環境を提供する。決定的に、TAROTはカリキュラムの進行を生の報酬スコアから分離し、能力に条件付けられた評価と、偶発的なテストケース難易度構成ではなく、カリキュラム方針のポートフォリオからの原理に基づいた選択を可能にする。この設計は、最適化の安定化とより効率的な能力習得を促進する。大規模な実験結果から、コード生成におけるRFTの最適なカリキュラムはモデルの内在的能力と密接に関連しており、能力の低いモデルは易から難への進行で大きな向上を達成する一方、能力の高いモデルは難易度優先のカリキュラムで優れた性能を発揮することが明らかになった。TAROTは、モデルの能力に適応的にカリキュラム設計を調整する再現可能な手法を提供し、生成コードの機能的正確性と堅牢性を一貫して向上させる。すべてのコードとデータはhttps://github.com/deep-diver/TAROT で公開され、再現性の確保とコミュニティ研究の推進に貢献する。
Transformerモデルの事後学習圧縮では、一般に特異値分解(SVD)の切り捨てが利用されます。しかし、単一の共有部分空間を強制することは、中程度の圧縮率であっても精度劣化を招く場合があります。スパース辞書学習は部分空間の和集合によるより柔軟な表現を提供しますが、既存手法では反復的な辞書と係数の更新が課題となります。本論文ではCOMPOT(Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers)を提案します。これは少量のキャリブレーションデータセットを用いてスパースな重み分解を推定する、学習不要の圧縮フレームワークです。COMPOTは直交辞書を採用することで、辞書に対するProcrustes更新を閉形式で実現し、係数に対する解析的な単一ステップのスパースコーディングを可能にし、反復最適化を不要とします。さらに、大域的圧縮バジェット下での層ごとの感度の不均一性に対処するため、層単位の圧縮率を適応的に再配分するワンショット動的割り当て戦略を導入します。多様なアーキテクチャとタスクにおける大規模な実験により、COMPOTが強力な低ランク・スパースベースラインを一貫して上回る品質と圧縮のトレードオフを実現し、極限圧縮のための事後学習量子化と完全に互換性を保つことが示されました。コードはhttps://github.com/mts-ai/COMPOTで公開されています。
世界モデルは、予測・推論・制御を支えるために堅牢な関係理解を必要とする。オブジェクト中心の表現は有用な抽象化を提供するが、相互作用に依存するダイナミクスを捉えるには不十分である。そこで我々は、マスクされた結合埋め込み予測を画像パッチからオブジェクト中心表現へ拡張した、簡潔で柔軟なオブジェクト中心世界モデルC-JEPAを提案する。オブジェクトの状態を他のオブジェクトから推論することを要求するオブジェクトレベルのマスキングを適用することで、C-JEPAは反事実的効果をもつ潜在的介入を誘起し、短絡解を防止し、相互作用推論を必須とする。実験では、C-JEPAは視覚質問応答において一貫した性能向上をもたらし、オブジェクトレベルのマスキングなしの同一アーキテクチャと比較して反事実推論で約20%の絶対改善を示した。エージェント制御タスクでは、C-JEPAはパッチベース世界モデルが必要とする全潜在入力特徴のわずか1%を使用しながら、同等の性能を達成し、大幅に効率的な計画を実現した。最後に、オブジェクトレベルのマスキングが潜在的介入を通じて因果的帰納バイアスを誘起することを示す形式的分析を提供する。コードはhttps://github.com/galilai-group/cjepa で公開している。
現在のマルチモーダルモデル研究では、生成能力の向上と理解能力の向上がトレードオフの関係にあるという重要な課題に直面しています。我々はこの課題を分析し、その主な原因が生成と理解の間に潜在する競合関係、すなわちモデル内での競合的ダイナミクスにある可能性を明らかにしました。この問題に対処するため、我々はReason-Reflect-Refine(R3)フレームワークを提案します。この革新的なアルゴリズムは、単一段階の生成タスクを「生成-理解-再生成」という多段階プロセスへと再構成します。生成過程においてモデルの理解能力を明示的に活用することで、最適化のジレンマを緩和することに成功し、生成プロセスに関連するより強力な生成結果と理解能力の向上を実現しました。これは次世代の統合型マルチモーダルモデル設計に対する貴重な知見を提供します。コードはhttps://github.com/sen-ye/R3で公開されています。
言語モデルは、新規文書、進化する知識、ユーザー固有データなど、学習時に含まれていなかったコンテンツに対して推論を行う場面が増えている。一般的なアプローチである検索拡張生成(RAG)は、文書を外部に(チャンクとして)そのまま保存し、推論時に関連するサブセットのみを検索してLLMに推論させる。しかし、これでは推論時の計算リソースが非効率的(LLMが同じ文書を繰り返し処理)であり、さらに、チャンク検索によって無関係な文脈が混入し、根拠のない生成が増加するリスクがある。 我々は、ベースモデルは固定したまま、新しい経験をそれぞれ外部の意味記憶状態に統合し、それが継続的に蓄積・統合されていく、人間に似たノンパラメトリックな継続学習フレームワークを提案する。これを実現するPaniniを紹介する。Paniniは文書を生成的意味ワークスペース(GSW)——エンティティとイベントを意識した質問応答(QA)ペアのネットワーク——として表現する。これは、LLMが経験した状況を再構築し、ネットワーク上での推論に基づく推論チェーンを通じて潜在知識を発掘するのに十分な表現である。クエリが与えられると、Paniniは継続的に更新されるGSWのみをトラバースし(元の文書やチャンクは参照しない)、最も可能性の高い推論チェーンを検索する。 6つのQAベンチマークにおける評価では、Paniniは平均性能が最も高く、他の有力なベースラインよりも5%~7%優れており、回答生成に必要な文脈トークン数が2~30分の1で済み、完全にオープンソースのパイプラインをサポートし、精選された回答不能クエリにおける根拠のない回答を削減した。これらの結果は、GSWフレームワークが達成するように、経験を「書き込み時」に効率的かつ正確に構造化することが、「読み出し時」の効率性と信頼性の両方の向上をもたらすことを示している。コードはhttps://github.com/roychowdhuryresearch/gsw-memory で公開されている。
ウェブ上には、かつて人間の消費のために作成された画像が散在しており、現在では視覚言語モデル(VLM)を用いたエージェントによる解釈が急速に進んでいる。これらのエージェントは大規模に視覚的判断を行い、何をクリックし、推薦し、購入するかを決定する。しかし、その視覚的選好の構造についてはほとんど理解されていない。本研究では、VLMを制御された画像選択課題に配置し、入力に対して体系的に摂動を加えることでこれを研究する枠組みを提案する。核心となる考え方は、エージェントの決定関数を、顕示選好(体系的に編集された画像間の選択)を通じて推論可能な潜在的な視覚的効用として扱うことである。商品写真などの一般的な画像を出発点とし、視覚的プロンプト最適化の手法を提案する。これは、テキスト最適化手法を応用し、画像生成モデルを用いて(構図、照明、背景などの)視覚的に妥当な修正を反復的に提案・適用するものである。その後、どの編集が選択確率を高めるかを評価する。先進的なVLMを用いた大規模実験を通じて、最適化された編集が一対比較において選択確率を有意にシフトさせることを実証する。さらに、これらの選好を説明するための自動解釈可能性パイプラインを構築し、選択を駆動する一貫した視覚的テーマを特定する。このアプローチが、視覚的脆弱性や安全性への懸念(そうでなければ実環境で暗黙的に発見される可能性のあるもの)を表面化させる実用的かつ効率的な方法を提供し、画像ベースのAIエージェントに対するより積極的な監査とガバナンスを支援するものであると論じる。
大規模基盤モデルのデプロイにおいて、実践者はますます規範的なスケーリング則を必要としている。すなわち、事前学習の計算予算が与えられた場合、現代的な学習後手法を用いて達成可能な下流タスクの精度はどれほどであり、その対応関係は技術の進展に伴ってどの程度安定しているのか、という問いである。本研究では、モデル性能に関する5,000件の観測データと新たにサンプリングした2,000件のデータを用いた大規模な観察的評価を通じて、能力限界(ベンチマークスコアの高い条件付き分位点)を、単調かつ飽和するシグモイド関数によるパラメータ化を用いた平滑化分位点回帰により、事前学習FLOPsの対数関数として推定する。時間的信頼性は、初期のモデル世代でフィッティングし、後続のリリースで評価することで検証する。様々なタスクにおいて、推定された能力限界は大部分で安定していたが、数学的推論タスクのみが時間とともに一貫して前進する限界を示した。さらに本手法を拡張し、タスク依存的な飽和現象の分析や、数学的推論タスクにおける汚染(contamination)関連のシフトの調査に応用する。最後に、評価予算の約20%を使用してほぼ完全なデータフロンティアを復元する効率的なアルゴリズムを提案する。本研究は、最新のモデル性能評価データセットであるProteus 2kを公開するとともに、計算予算を信頼性の高い性能期待値に変換し、能力限界の時間的変化を監視するための実用的な方法論を提供する。
強化学習(RL)は大規模言語モデルの推論能力を大幅に改善してきたが、既存のRLファインチューニング手法は、安定性を維持するためにエントロピー正則化や重み付けなどのヒューリスティックな技術に大きく依存している。実際には、学習の後期段階で性能が急落する現象がしばしば発生し、推論品質の低下や学習の不安定性を引き起こす。本研究では、RLにおけるトークンレベルの方策勾配の大きさが、トークン確率および局所的な方策エントロピーと負の相関を持つことを導出する。この結果に基づき、学習の不安定性が全トークンの約0.01%というごく一部のトークン(これを疑似トークンと称する)によって駆動されていることを証明する。このようなトークンが正解応答中に現れる場合、それらは推論結果にほとんど寄与しないにもかかわらず、シーケンスレベルの報酬を全面的に継承し、異常に増幅された勾配更新を引き起こす。この観察に動機づけられて、大規模モデルの調整のための疑似トークン考慮型方策最適化(STAPO)を提案する。STAPOはこのような更新を選択的にマスクし、有効なトークンに対する損失を再正規化する。Qwen 1.7B、8B、14Bのベースモデルを用いた6つの数学的推論ベンチマークにおいて、STAPOは一貫して優れたエントロピー安定性を示し、GRPO、20-Entropy、JustRLと比較して平均7.13%の性能向上を達成した。
アクションチャンキングはVision Language Action (VLA) モデルをリアルタイムで動作させることを可能にするが、単純なチャンク単位の実行では、チャンク境界で不連続性が生じることが多い。リアルタイムチャンキング (RTC) はこの問題を軽減するが、方策の外部で行われるため、擬似的なマルチモーダル切り替えや、本質的に滑らかではない軌道が生じる。本研究では、アクションチャンキングされたフローベースVLA方策のための学習時継続手法であるLegatoを提案する。具体的には、Legatoは既知のアクションとノイズのスケジュール形状混合からデノイジングを初期化し、モデルに部分的なアクション情報を提示する。さらに、Legatoは学習されたフロー力学を再形成し、ステップ毎のガイダンス下での推論時と学習時のデノイジング過程の一貫性を保証する。Legatoはさらに、学習中にランダム化されたスケジュール条件を使用することで、推論時の様々な遅延に対応し、制御可能な滑らかさを実現する。実験により、Legatoがより滑らかな軌道を生成し、実行中の擬似的なマルチモーダル切り替えを減少させ、ためらいを減らし、タスク完了時間を短縮することが示された。広範な実世界実験により、Legatoが5つのマニピュレーションタスクにおいてRTCを一貫して上回り、軌道の滑らかさとタスク完了時間の両方で約10%の改善を達成することが確認された。
大規模言語モデルによって駆動されるマルチエージェントシステム(MAS)は高度な協調推論を実現したが、離散的なテキスト通信の非効率性に依然として縛られており、多大な実行時オーバーヘッドと情報量子化損失を課している。潜在状態転送は高帯域の代替手段を提供するが、既存手法は送信側・受信側の同種アーキテクチャを仮定するか、ペア固有の学習済み翻訳器に依存しており、非交差多様体を持つ多様なモデルファミリー間での拡張性とモジュール性を制限している。本研究では、Vision-Language Model(VLM)の視覚インターフェースを再利用し、モデル非依存のテキスト不要通信を可能にする新規フレームワーク「Vision Wormhole」を提案する。ユニバーサル視覚コーデックを導入することで、異種推論トレースを共有連続潜在空間に写像し、受信側の視覚経路に直接注入する。これにより、視覚エンコーダをエージェント間テレパシーのユニバーサルポートとして機能させる。本フレームワークはハブ・アンド・スポークトポロジーを採用し、ペアワイズ調整の複雑性をO(N²)からO(N)に削減する。さらに、ラベル不要の教師-生徒蒸留目的関数を活用し、高速視覚チャネルをテキスト経路の堅牢な推論パターンに整合させる。異種モデルファミリー(Qwen-VL、Gemma等)を用いた大規模実験により、Vision Wormholeが制御比較実験においてエンドツーエンドの実時間を短縮しつつ、標準的なテキストベースMASに匹敵する推論忠実度を維持することを実証した。コードはhttps://github.com/xz-liu/heterogeneous-latent-mas で公開されている。
大規模言語モデル(LLM)は専門家レベルの医学知識を示すが、その自由記述形式の出力を医療従事者の細かな選好に沿わせることは依然として困難である。既存手法は、専門的ガイドラインに基づきにくい大まかな目的関数や信頼性の低い自動評価器に依存することが多い。本研究ではこの課題を解決するため、2段階のフレームワークを提案する。第一に、臨床医がLLMが作成したルーブリックを厳密な医療基準に合うように精緻化した、医師検証済みの7,034例の選好データセット「HealthRubrics」を構築した。第二に、これらのルーブリックを要約し、臨床的側面ごとに体系化された119の広範に再利用可能な臨床根拠に基づく原則「HealthPrinciples」を生成し、手動注釈を超えたスケーラブルな評価を可能にした。HealthPrinciplesを(1)ラベルなしクエリに対するルーブリック合成によるオフラインアライメントと(2)推論時におけるガイド付き自己修正ツールとして活用する。本フレームワークで学習し、推論時に30Bパラメータのうち3Bパラメータのみを活性化するモデルは、HealthBench-Hardにおいて33.4%を達成し、Deepseek-R1やo3を含むはるかに大規模なモデルを上回り、臨床アライメントにおけるリソース効率の高いベースラインを確立した。
効率的な長文脈処理は、特にリソース制約のある環境において、現代の大規模言語モデル(LLM)にとって重要な課題であり続けている。ソフト圧縮アーキテクチャは、長いトークン列を学習済みの圧縮トークンの小さな集合で置き換えることで、実効的な文脈長を拡張する可能性を秘めている。しかしながら、圧縮可能性の限界、すなわち圧縮がいつタスク関連の内容を消し始めるかについては、未だ十分に研究されていない。本論文では、圧縮された表現が特定のクエリに答えるのに十分な情報を含まなくなる状態を「トークンオーバーフロー」と定義し、これを特徴付け検出する手法を提案する。xRAGソフト圧縮設定において、クエリ非依存の飽和統計量が、圧縮されたトークン表現と非圧縮のトークン表現を確実に分離できることを見出した。これは圧縮トークンを識別する実用的なツールとなるが、オーバーフロー検出能力は限定的であった。一方、クエリと文脈のxRAG表現の両方に対する軽量なプロービング分類器は、HotpotQA、SQuADv2、TriviaQAデータセットにおいて平均0.72のAUC-ROCでオーバーフローを検出し、クエリ情報を組み込むことで検出性能が向上することを実証した。これらの結果は、クエリ非依存の診断からクエリを考慮した検出器への進歩を示し、圧縮に起因するエラーを軽減する低コストなLLM処理前ゲーティングを可能にする。
大規模言語モデル(LLM)は、最新情報を必要とする知識集約的な質問や、マルチホップ推論を要する課題に対して依然として苦戦を続けている。非構造化テキストや構造化ナレッジグラフといったハイブリッドな外部知識でLLMを拡張することは、コストのかかる継続的事前学習に代わる有望な手法である。そのため、それらの検索能力と推論能力を信頼性高く評価することが極めて重要となる。しかし、既存の多くのベンチマークはLLMの事前学習データとの重複が増えており、回答や根拠となる知識が既にモデルパラメータに符号化されている可能性がある。これにより、真の検索・推論能力と、パラメータに記憶された知識の想起とを区別することが困難になっている。本論文では、ハイブリッドな知識に対する検索集約型のマルチホップ推論を評価するベンチマークを構築するためのフレームワーク、HybridRAG-Benchを提案する。HybridRAG-Benchは、arXiv上の最新の科学文献から導出された非構造化テキストと構造化ナレッジグラフ表現を自動的に組み合わせ、明示的な推論経路に基づいた知識集約的な質問応答ペアを生成する。本フレームワークは柔軟なドメインおよび期間の選択をサポートし、モデルと知識の進化に応じて、汚染を考慮したカスタマイズ可能な評価を可能にする。3つのドメイン(人工知能、ガバナンス・政策、バイオインフォマティクス)での実験により、HybridRAG-Benchがパラメータ記憶の想起ではなく、真の検索と推論を正しく評価できることが実証された。これは、ハイブリッド知識拡張推論システムを評価するための原理に基づいたテストベッドを提供するものである。コードとデータはgithub.com/junhongmit/HybridRAG-Benchで公開している。