翻訳付きの日次キュレーションされたAI研究論文
RLVRは大規模言語モデル(LLM)における高度な推論能力の開発において不可欠な要素となっているが、近年の研究では、数千回の最適化ステップ後に生じる訓練の停滞が報告されており、計算資源の増加にもかかわらず性能向上が顕著に低下する現象が確認されている。この制約は、現在のRLVR手法に内在する探索パターンの希薄さに起因しており、モデルが限定的なロールアウトに依存することで、重要な推論経路を見逃し、解空間を体系的にカバーできないことが原因である。本論文では、モンテカルロ木探索をRLVR訓練に直接統合するフレームワークであるDeepSearchを提案する。既存手法が推論時にのみ木探索を利用するのに対し、DeepSearchは訓練ループに構造化された探索を組み込むことで、推論ステップ全体にわたる体系的な探索と細粒度の信用割り当てを可能にする。訓練時の探索を通じて、DeepSearchは、長期間の訓練ステップに伴う性能向上の鈍化の根本的なボトルネックである探索不足に対処する。我々の貢献は以下の通りである:(1)探索木全体で有望なノードを優先するグローバルフロンティア選択戦略、(2)確信度の高い経路を特定するエントロピー基盤のガイダンスを伴う選択、(3)効率性のための解キャッシュを活用した適応型リプレイバッファ訓練。数学的推論ベンチマークにおける実験では、DeepSearchは平均62.95%の精度を達成し、1.5B規模の推論モデルにおいて新たな最先端を確立した。これは、拡張訓練アプローチと比較して5.7倍少ないGPU時間で達成された。これらの結果は、力任せのスケーリングではなく戦略的な探索の重要性を強調し、RLVR手法を進化させるためのアルゴリズム革新の可能性を示している。DeepSearchは、長時間の計算ではなく体系的な探索を通じて推論能力を拡張する新たな方向性を確立する。
大規模言語モデル(LLM)のトレーニングパラダイムは、静的なデータセットから経験ベースの学習へと移行しつつあり、エージェントは複雑な環境との相互作用を通じてスキルを獲得する。この移行を促進するため、我々はGEM(General Experience Maker)を導入する。これはLLM時代に向けて設計されたオープンソースの環境シミュレータであり、従来の強化学習(RL)におけるOpenAI-Gymに相当する。GEMは、環境とエージェントのインターフェースを標準化するフレームワークを提供し、非同期ベクトル化実行による高スループットや、容易な拡張性を実現する柔軟なラッパーを含む。また、GEMは多様な環境スイート、堅牢な統合ツール、および5つの主要なRLトレーニングフレームワークとGEMを使用する単一ファイルのサンプルスクリプトを特徴とする。これに加えて、我々はReBN(Return Batch Normalization)を適用したREINFORCEを用いて、24の環境にわたるベースラインを提供する。ReBNはGRPOとは異なり、密なターンごとの報酬を伴う完全なRL設定と互換性があり、より優れたクレジット割り当てを提供する。さらに、PPO、GRPO、およびREINFORCEをGEMを使用してシングルターンおよびマルチターンの設定で公平にベンチマークし、アルゴリズム設計に関する洞察を提供する。最後に、GEMはトレーニング環境だけでなく、便利な評価ツールキットとしても機能する。このフレームワークが、将来のエージェント型LLM研究の加速に役立つことを期待する。
ポストトレーニング量子化は、大規模言語モデルを低精度で展開するための最も広く使用されている戦略として登場した。しかし、現在の手法では、ビット幅が4以下の場合にパープレキシティの劣化が生じる。これは、外れ値を表現する際に、これらの外れ値と同じスケールを共有するパラメータで精度の問題が生じるためである。この問題は、特にキャリブレーションフリーの均一量子化手法において顕著である。本論文では、SINQを導入し、既存のポストトレーニング量子化器に追加の第二軸スケール係数と、行ごとおよび列ごとの分散を正規化するスケールを見つける高速なSinkhorn-Knoppスタイルのアルゴリズムを組み込むことで、量子化のための新しいマトリックスプロキシターゲットであるマトリックス不均衡を最小化する。本手法は層間の相互作用を持たず、新しいアーキテクチャに簡単に適用して任意の線形層を量子化することができる。Qwen3モデルファミリーとDeepSeek-V2.5に対して本手法を評価した結果、SINQはキャリブレーションなしの均一量子化ベースラインに対してWikiText2とC4のパープレキシティを大幅に改善し、キャリブレーションと非均一量子化レベルを組み合わせることでさらに向上させることができる。本研究成果を再現し、SINQを使用してモデルを簡単に量子化するためのコードはhttps://github.com/huawei-csl/SINQで公開されている。
Vision-Language-Action(VLA)モデルは、具現化された意思決定を可能にするが、模倣学習に大きく依存しており、分布シフト下での誤差の累積やロバスト性の低さを引き起こす。強化学習(RL)はこれらの問題を緩和できるが、通常、現実世界での高コストなインタラクションを必要とするか、シミュレーションから現実へのギャップに悩まされる。本論文では、データ駆動型の世界モデルを制御可能なシミュレータとして活用する強化学習ファインチューニングフレームワーク、VLA-RFTを提案する。実インタラクションデータから訓練されたこのシミュレータは、行動に条件付けられた将来の視覚観測を予測し、目標達成に基づく密な軌跡レベルの報酬を用いたポリシーロールアウトを可能にする。この設計により、効率的で行動に整合した学習信号が提供され、サンプル要件が大幅に削減される。400回未満のファインチューニングステップで、VLA-RFTは強力な教師ありベースラインを上回り、シミュレータベースのRLよりも高い効率を達成する。さらに、摂動条件下でも強いロバスト性を示し、安定したタスク実行を維持する。我々の結果は、世界モデルベースのRFTが、VLAモデルの汎化性とロバスト性を向上させる実用的なポストトレーニングパラダイムであることを示している。詳細については、https://vla-rft.github.io/を参照されたい。
大規模言語モデル(LLMs)は、強化学習を通じて自己改善を行うことが可能であり、軌跡を生成して探索し、より良い解決策を発見する。しかし、この探索プロセスは計算コストが高く、現在の手法では各タスクに限られた探索予算を割り当てざるを得ないことが多い。この均一な割り当ては、問題のあるエッジケースを生み出す:容易なタスクは一貫して成功し、困難なタスクは一貫して失敗するため、広く使用されているGroup Relative Policy Optimization(GRPO)の訓練更新中に勾配がゼロとなる。我々はこの問題を探索予算の割り当てという観点から取り組む。各タスクの探索を、異なる「価値」と「コスト」を持つ「アイテム」と見なし、古典的なナップサック問題との関連性を確立する。この定式化により、モデルの現在の学習状況に基づいてリソースを適応的に分配する最適な割り当てルールを導出することができる。GRPOに適用すると、我々の手法は訓練中に非ゼロのポリシー勾配の有効比率を20-40%増加させる。計算上の「無料のランチ」として機能するこのアプローチは、学習が飽和しているタスクから最も影響力のあるタスクへ探索予算を再分配することが可能である。これにより、特に困難な問題に対して大幅に大きな予算(例:93ロールアウト)を割り当てることができ、均一な割り当て下では計算上不可能であった。これらの改善は、数学的推論ベンチマークにおいて有意な向上をもたらし、平均で2-4ポイント、特定のタスクでは最大9ポイントの向上が見られた。特に、従来の均一な割り当てで同等の性能を達成するには、約2倍の計算リソースが必要となる。
最近の生成モデルはピクセル空間でのビデオ合成を進化させていますが、専門的な教育用ビデオの作成には限界があります。教育用ビデオでは、分野固有の知識、正確な視覚的構造、一貫した遷移が求められるため、教育シナリオでの適用性が制限されています。直感的に、これらの要件はレンダリング可能な環境の操作を通じてより適切に対処できます。この環境は、論理的なコマンド(例:コード)によって明示的に制御可能です。本研究では、実行可能なPythonコードを介して教育用ビデオを生成するためのコード中心のエージェントフレームワーク「Code2Video」を提案します。このフレームワークは、以下の3つの協調エージェントで構成されます:(i) Planner(プランナー)は、講義内容を時間的に一貫した流れに構造化し、対応する視覚的アセットを準備します;(ii) Coder(コーダー)は、構造化された指示を実行可能なPythonコードに変換し、スコープガイド付きの自動修正を組み込むことで効率を向上させます;(iii) Critic(クリティック)は、視覚言語モデル(VLM)と視覚的アンカープロンプトを活用して、空間レイアウトを洗練させ、明瞭さを確保します。体系的な評価を支援するため、専門的に制作された分野固有の教育用ビデオのベンチマーク「MMMC」を構築しました。MMMCを多様な次元で評価し、VLM-as-a-Judgeの美的スコア、コード効率、特に「TeachQuiz」という新しいエンドツーエンドの指標を用いました。TeachQuizは、VLMが生成されたビデオを視聴した後に知識を回復できるかを定量化するものです。結果は、Code2Videoがスケーラブルで解釈可能かつ制御可能なアプローチとしての潜在能力を示し、直接的なコード生成よりも40%の改善を達成し、人間が作成したチュートリアルに匹敵するビデオを生成しました。コードとデータセットはhttps://github.com/showlab/Code2Videoで公開されています。
環境設定—特定のソフトウェアプロジェクトで動作するようにシステムを構成するプロセス—は、ソフトウェア工学(SE)における持続的な課題である。自動化された環境設定手法は、開発者が手動での作業なしに任意のリポジトリに対して完全に構成された環境を提供することで支援する。これはまた、SE研究者が実行ベースのベンチマークを拡張するのにも役立つ。しかし、最近の研究では、最先端の大規模言語モデル(LLM)でさえ、このタスクの自動化において限定的な成功しか収めていないことが明らかになっている。この制限に対処するため、我々は環境設定に特化したモデルを調整する。正しいBashスクリプトを生成するための教師ありファインチューニングと、検証可能な報酬を用いた強化学習(RLVR)を組み合わせて、環境設定タスクに適応させる。EnvBench-Pythonにおいて、我々の手法は、消費者向けハードウェアで動作可能なモデルであるQwen3-8Bを、より大規模なモデルであるQwen3-32BおよびGPT-4oと同等の性能に導く。トレーニングコードとモデルのチェックポイントはオンラインで公開されている:https://github.com/JetBrains-Research/PIPer。
大規模言語モデル(LLM)は、動的で現実世界の環境においてエージェントとしてますます展開されており、成功には推論と効果的なツール使用の両方が必要です。エージェントタスクにおける中心的な課題は、コンテキスト長の増加であり、エージェントは行動と観察の長い履歴を蓄積しなければなりません。この拡張は、長期的なタスクにおいてコストを増加させ効率を低下させますが、これまでのコンテキスト圧縮に関する研究は、主に単一ステップのタスクや限定的なアプリケーションに焦点を当ててきました。本論文では、環境観察と相互作用履歴の両方を簡潔でありながら情報量の多い凝縮に最適化する統一フレームワークであるAgent Context Optimization(ACON)を紹介します。ACONは、自然言語空間における圧縮ガイドライン最適化を活用します。完全なコンテキストでは成功するが圧縮されたコンテキストでは失敗するペアの軌跡が与えられた場合、能力のあるLLMが失敗の原因を分析し、それに応じて圧縮ガイドラインを更新します。さらに、最適化されたLLM圧縮器をより小さなモデルに蒸留して、追加モジュールのオーバーヘッドを削減することを提案します。AppWorld、OfficeBench、およびMulti-objective QAでの実験により、ACONがメモリ使用量を26-54%(ピークトークン)削減しながらタスク性能をほぼ維持し、より小さな圧縮器に蒸留した場合でも95%以上の精度を保持し、長期的なエージェントとしての小さなLMの性能を最大46%向上させることが示されました。
グループ相対政策最適化(Group Relative Policy Optimization, GRPO)は、大規模言語モデル(LLMs)のポストトレーニングにおける主要な強化学習アルゴリズムである。一般的に、GRPOは安定したトレーニングを確保するために正確な統計的推定を必要とし、そのために大規模なグループサイズが不可欠であると考えられており、これが大幅な計算コストを引き起こしている。本研究では、この前提に挑戦し、GRPOをコントラスティブ学習の一形態として再解釈することで、Direct Preference Optimization(DPO)との根本的な関連性を明らかにする。DPOの実証的な成功に動機づけられ、これまで実行不可能とされていた最小の2ロールアウト構成(2-GRPO)を調査する。2-GRPOを検証するための厳密な理論分析を提供し、ロールアウト数を1/8に削減し、トレーニング時間を70%以上短縮しながらも、16-GRPOと同等の性能を達成することを実証的に示す。
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデルにおける複雑な推論能力を引き出すための重要な要素として注目を集めている。最近の研究であるProRLは、訓練ステップ数を増やすことで強化学習のスケーリングに有望な成果を示した。しかし、数千ステップを超えると性能が頭打ちとなり、追加の訓練に計算リソースを割り当てても明らかな収穫逓減が生じる。本研究では、強化学習のスケーリングに対する補完的なパラダイムとして、BroRLを提案する。これは、各サンプルあたりのロールアウト数を数百に増やし、探索を徹底的に拡大(Broaden)することで、ProRLで観察された飽和点を超えた継続的な性能向上を実現するものである。我々のアプローチは、確率質量の変化率を特徴付けるための物質収支方程式の分析に基づいており、強化学習プロセス中における正しいトークンと誤ったトークンの確率質量の変化率を明らかにする。1ステップ強化学習の仮定の下では、サンプリングされたロールアウトトークンは常に正しい質量の拡大に寄与する一方、ロールアウト外の未サンプルトークンはその分布と正味の報酬バランスに応じて増減をもたらす可能性がある。重要な点として、サンプルあたりのロールアウト数Nが増加するにつれて、未サンプル項の影響が減少し、全体として正しい質量の拡大が保証される。理論分析を検証するため、より緩和された条件下でシミュレーションを行い、十分に大きなロールアウトサイズN(十分な探索に対応)が全ての正しいトークンの確率質量の増加を保証することを確認した。実験的には、BroRLは3,000ステップのProRL訓練後に飽和したモデルを復活させ、堅牢かつ継続的な改善を示し、1.5Bモデルにおいて多様なベンチマークで最先端の結果を達成した。
大規模言語モデル(LLM)は、外部ツールを装備することで複雑な推論タスクにおいて顕著な能力を発揮することが実証されています。しかし、現在のフレームワークは主に逐次処理に依存しており、特にツールとの広範な相互作用を必要とするタスクにおいて非効率な実行をもたらしています。本論文では、Flash-Searcherという新しい並列エージェント推論フレームワークを紹介します。このフレームワークは、実行パラダイムを逐次チェーンから有向非巡回グラフ(DAG)へと根本的に再構築します。Flash-Searcherは複雑なタスクを明示的な依存関係を持つサブタスクに分解し、論理的な制約を維持しながら独立した推論パスの並列実行を可能にします。動的なワークフロー最適化を通じて、本フレームワークは中間結果に基づいて実行グラフを継続的に改良し、要約モジュールを効果的に統合します。複数のベンチマークにわたる包括的な評価により、Flash-Searcherが既存のアプローチを一貫して上回ることが示されています。具体的には、BrowseCompで67.7%、xbench-DeepSearchで83%の精度を達成し、現在のフレームワークと比較してエージェントの実行ステップを最大35%削減します。さらに、この並列推論パイプラインを単一モデルに蒸留すると、多様なバックボーンアーキテクチャにわたって大幅な性能向上が観察され、本手法の汎用性が強調されます。したがって、本研究はエージェントアーキテクチャ設計における重要な進展を表し、複雑な推論タスクのためのよりスケーラブルで効率的なパラダイムを提供します。
大規模言語モデル(LLMs)のバイアス軽減手法に関する既存の研究では、多様なベースラインと評価指標が使用されており、それらの間の比較が一貫していない。さらに、これらの評価は主に、バイアスがある文脈とバイアスがない文脈におけるLLMsの確率の比較に基づいており、そのような評価と現実世界のユースケースとのギャップを無視している。現実世界では、ユーザーはモデルの応答を読み取り、公平で安全な出力を期待してLLMsと対話するが、LLMsの確率を直接参照することはない。このギャップを埋め、バイアス軽減手法間で一貫した評価を可能にするため、我々はBiasFreeBenchを導入する。これは、既存のデータセットを統一されたクエリ-応答設定に再編成し、8つの主流なバイアス軽減手法(4つのプロンプトベース手法と4つのトレーニングベース手法をカバー)を2つのテストシナリオ(多肢選択QAとオープンエンド多ターンQA)で包括的に比較する実証的ベンチマークである。さらに、応答レベルの評価指標であるBias-Free Scoreを導入し、LLMの応答が公平で安全であり、反ステレオタイプ的である程度を測定する。バイアス軽減の性能は、プロンプト対トレーニングのパラダイム、モデルサイズ、および異なるトレーニング戦略の未見のバイアスタイプへの一般化といった主要な次元にわたって体系的に比較・分析される。我々はこのベンチマークを公開し、バイアス軽減研究のための統一されたテストベッドを確立することを目指す。
言語モデルはますます高度な能力を発揮しているが、多桁の乗算という一見単純なタスクにおいては未だに失敗する。本研究では、暗黙的な連鎖思考(chain-of-thought)を介して乗算を学習するモデルを逆解析し、以下の3つの発見を報告する:(1) 長距離構造の証拠:ロジット帰属分析と線形プローブにより、モデルが多桁乗算に必要な長距離依存性を符号化していることが示された。(2) メカニズム:モデルは、注意機構を用いて有向非巡回グラフを構築し、ペアワイズ部分積を「キャッシュ」および「取得」することで長距離依存性を符号化している。(3) 幾何学的構造:モデルは、注意ヘッド内でミンコフスキー和を形成し、フーリエ基底を用いて数字を表現することで部分積を実装している。これらは直感的かつ効率的な表現であり、標準的なファインチューニングモデルには欠けているものである。これらの知見をもとに、標準的なファインチューニングの学習ダイナミクスを再検討した結果、モデルが必要な長距離依存性を欠く局所最適解に収束することがわかった。さらに、線形回帰プローブを用いて「累積和」を予測する補助損失を導入することで、この理解を検証し、モデルが多桁乗算を成功裏に学習するための帰納的バイアスを提供した。要約すると、暗黙的な連鎖思考モデルのメカニズムを逆解析することで、Transformerにおける長距離依存性の学習における落とし穴を明らかにし、適切な帰納的バイアスがこの問題を解決する一例を示した。
近年、自然言語指示による画像編集において大きな進展が見られています。GPT-Image-1、Seedream、Google-Nano-Bananaなどのクローズドソースモデルは、非常に有望な進歩を示しています。しかし、オープンソースモデルはまだ遅れを取っています。主なボトルネックは、高品質な合成トレーニングデータを拡大するための信頼性のある報酬モデルの欠如です。この重要なボトルネックに対処するため、我々は\mnameを構築し、新たに大規模な人間の選好データセットを用いてトレーニングしました。このデータセットは、厳格なプロトコルに従って訓練された専門家によって丁寧に注釈が付けられ、20万以上の選好ペアを含んでいます。\mnameは、指示に基づく画像編集タスクにおいて、人間の選好との優れた整合性を示しています。実験では、\mnameがGenAI-Bench、AURORA-Bench、ImagenHub、そして我々の新たな\benchnameといった確立されたベンチマークにおいて、幅広いVLM-as-judgeモデルを上回る最先端の人間相関を達成することが示されました。さらに、我々は\mnameを使用して、既存のノイズの多いShareGPT-4o-Imageデータセットから高品質なサブセットを選択しました。選択されたサブセットでStep1X-Editをトレーニングした結果、フルセットでのトレーニングに比べて大幅な改善が見られました。これは、\mnameが画像編集のための高品質なトレーニングデータを拡大するための報酬モデルとして機能する能力を示しています。さらに、その強力な整合性は、強化学習に基づくポストトレーニングやテストタイムスケーリングといった高度なアプリケーションへの可能性を示唆しています。\mnameとそのトレーニングデータセットは、コミュニティがより高品質な画像編集トレーニングデータセットを構築するために公開されます。
タスク特化型量子回路の設計と最適化は、量子コンピューティングの利点を活用する上で極めて重要である。近年、大規模言語モデル(LLM)を基盤とした量子回路生成が、有望な自動化ソリューションとして登場している。しかし、根本的な課題は未解決のままである:(i)パラメータ化された量子ゲートは最適な性能を発揮するために正確な数値を必要とし、その数値は量子ゲートの数、パラメータ、回路のレイアウト/深さなど複数の要素に依存する。(ii)LLMは、量子領域特有の知識の不足から、低品質または誤った量子回路を生成することが多い。本論文では、ツール拡張型LLMに基づく量子回路生成と最適化のためのエージェント型強化学習(RL)フレームワークであるQUASARを提案する。LLMを量子特有の知識に適合させ、生成される量子回路を改善するために、QUASARは(i)外部量子シミュレータを用いた量子回路検証手法と(ii)RLトレーニングにおける高度な階層型報酬メカニズムを設計する。広範な評価により、生成された量子回路の構文および意味的パフォーマンスの向上が示された。4B LLMを拡張した場合、QUASARはPass@1で99.31%、Pass@10で100%の有効性を達成し、GPT-4o、GPT-5、DeepSeek-V3などの産業用LLMおよびいくつかの教師あり微調整(SFT)のみおよびRLのみのベースラインを上回った。
現代の大規模言語モデル(LLM)において高品質な生成を実現するためには、主に選択問題として捉えられてきた。つまり、多様なN個のサンプルプールから単一の最良の生成を選び出す、Best-of-N(BoN)というアプローチである。しかし、この方法は本質的にゼロサム的であり、プールから得られる多様で潜在的に有用な情報を捨て去ってしまう。代わりに、我々は協力的なセットアップを探求し、すべての候補が最終的な生成に貢献できる可能性を検討する。この目的のために、Fusion-of-N(FusioN)を提案する。これは、一般的なLLMジャッジを使用して、各サンプルの最も有益な要素を統合し、単一の最終的な回答を生成する手法である。我々はFusioNをBoNと比較し、2つの設定で評価する。(i) テスト時のスケーリング:テスト時に単一のモデルからサンプリングし、集約する。(ii) 合成データ生成:多様な教師モデルのプールからサンプルを融合し、学生モデルを改善する。我々は11言語、3つの多様なタスク、および様々なモデルスケールにわたって、両方の設定を広範にベンチマークする。ベンチマーク全体を通じて、FusioNは一貫してBoNを上回り、テスト時のスケーリングと合成データ生成による下流の利得の両方において、汎用性と堅牢性を示す。また、FusioNに関する詳細な分析を行い、挑戦的な設定下での驚くべき強さと堅牢性を明らかにする。これらの結果は、LLMの生成を評価し活用する方法を、単一の品質指標から、その多面的な性質を受け入れる方向にシフトすべきであることを示している。このシフトにより、多様な強みを統合し、潜在的な可能性を解き放ち、選択だけでは達成できなかった改善を実現することが可能となる。
大規模言語モデル(LLM)の推論能力における最近の進展は、主に強化学習(RL)によって推進されているが、RLトレーニング中のパラメータダイナミクスの根本的な理解はまだ不十分である。本研究では、LLMにおけるRL誘導パラメータ更新の2つの基本的な特性を明らかにした:(1)ランク1支配性(Rank-1 Dominance)、すなわちパラメータ更新行列のトップ特異部分空間が推論の改善をほぼ完全に決定し、性能向上の99%以上を回復すること;(2)ランク1線形ダイナミクス(Rank-1 Linear Dynamics)、すなわちこの支配的な部分空間がトレーニング全体を通じて線形に進化し、早期のチェックポイントから正確な予測を可能にすること。8つのLLMと7つのアルゴリズムにわたる広範な実験により、これらの特性の一般性が検証された。さらに重要なことに、これらの発見に基づいて、AlphaRLというプラグイン型の高速化フレームワークを提案した。これは、短い初期トレーニングウィンドウを使用して最終的なパラメータ更新を外挿し、追加のモジュールやハイパーパラメータチューニングなしで推論性能の96%以上を維持しながら最大2.5倍の高速化を実現する。この発見は、大規模RLにおける汎用的で実用的なツールとして位置づけられ、LLMのための原理的で解釈可能かつ効率的なトレーニングパラダイムへの道を開くものである。
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)のポストトレーニングにおける標準的なアプローチであるが、その汎化性能はしばしば限定的である。この制約は、そのデフォルトの訓練目的である負の対数尤度(NLL)に起因すると考えられる。NLLは、スクラッチからの訓練においては古典的に最適であるが、ポストトレーニングは異なるパラダイムで動作し、その最適性の仮定を満たさない場合がある。すなわち、モデルはすでにタスク関連の事前知識をエンコードしており、教師信号が長くノイズを含む可能性がある。このため、我々は確率ベースの目的関数の一般的なファミリーを研究し、異なる条件下でのその有効性を特徴づける。7つのモデルバックボーン、14のベンチマーク、3つのドメインにわたる包括的な実験と広範なアブレーション研究を通じて、目的関数の挙動を支配する重要な次元を明らかにした:モデル能力連続体である。モデル能力が高い側では、低確率のトークンを軽視する事前知識に基づく目的関数(例:-p、-p^{10}、閾値付きバリアント)が一貫してNLLを上回る;モデル能力が低い側では、NLLが優位となる;その中間では、単一の目的関数が優位となることはない。我々の理論分析はさらに、目的関数が連続体にわたってどのように入れ替わるかを明らかにし、モデル能力に応じて目的関数を適応させるための原理的な基盤を提供する。コードはhttps://github.com/GaotangLi/Beyond-Log-Likelihoodで公開されている。
視覚言語モデルに基づくグラフィカルユーザーインターフェース(GUI)エージェントは、人間とコンピュータのワークフローを自動化する有望なアプローチとして登場している。しかし、高解像度のスクリーンショットの長いシーケンスを処理し、長期的なタスクを解決する際に非効率性の課題に直面しており、推論が遅く、コストがかかり、メモリに制約される。キー・バリュー(KV)キャッシュはこれを緩和できるが、画像が豊富なコンテキストでは完全なキャッシュを保存することが困難である。既存のキャッシュ圧縮方法は、GUIの空間的および時間的な冗長性を考慮していないため、最適ではない。本研究では、まずGUIエージェントのワークロードにおけるアテンションパターンを分析し、自然画像とは異なり、すべてのトランスフォーマーレイヤーでアテンションの疎性が一様に高いことを発見した。この洞察は、単純な均一な予算配分戦略を動機づけ、経験的に複雑なレイヤー変動スキームを上回ることを示す。これに基づいて、再トレーニングを必要としないプラグアンドプレイのKVキャッシュ圧縮方法であるGUI-KVを導入する。GUI-KVは、以下の2つの新技術を組み合わせている:(i) 空間的顕著性ガイダンス。これは、隠れ状態のL2ノルムをアテンションスコアに追加し、意味的に重要な視覚トークンをより良く保存する。(ii) 時間的冗長性スコアリング。これは、前フレームのキーを現在のフレームのキー部分空間に投影し、冗長な履歴を優先的に削除する。標準的なGUIエージェントのベンチマークとモデルにおいて、GUI-KVは競合するKV圧縮ベースラインを上回り、控えめな予算で完全キャッシュの精度に近い結果を示す。特に、AgentNetBenchベンチマークにおける5スクリーンショット設定では、GUI-KVはデコードFLOPを38.9%削減し、ステップ精度を4.1%向上させた。これらの結果は、GUI固有の冗長性を活用することで、効率的で信頼性の高いエージェント性能が可能であることを示している。
本研究では、法的リスクを最小化しつつ強力なモデル性能を提供することを目的としたオープンアクセスの事前学習コーパス「MixtureVitae」を提案する。MixtureVitaeは、パブリックドメインおよび許諾ライセンス(例:CC-BY/Apache)のテキストを、慎重に正当化された低リスクの追加データ(例:政府の著作物やEUのTDM適格ソース)と組み合わせ、さらに文書化された出所を持つターゲット指向の指示、推論、および合成データを統合したリスク軽減型のソーシング戦略を採用している。本論文では、ライセンスを意識したフィルタリング、安全性と品質のスクリーニング、ドメインを意識した混合を行うための透明性の高い多段階パイプラインを詳細に説明し、再現可能な研究を支援するためにデータセットとキュレーション手法を公開する。open-sci-refトレーニングプロトコル(130M/400M/1.3B/1.7Bパラメータの固定アーキテクチャ;50Bおよび300Bトークンのトレーニング予算)を用いた制御実験において、MixtureVitaeでトレーニングされたモデルは、一連の標準ベンチマークにおいて他の許諾データセットを一貫して上回り、1.7B/300B設定ではFineWeb-Eduを上回り、トレーニングの後半段階でDCLMに接近する性能を示した。特に数学/コードタスクで強力な性能を発揮し、QAタスクでも競争力のある結果を示した。これらの結果は、許諾優先かつリスク軽減型のデータが、有能な大規模言語モデル(LLM)をトレーニングするための実用的かつ法的に軽減された基盤を提供し、競争力を犠牲にすることなく無差別なウェブスクレイピングへの依存を軽減することを実証している。コード: https://github.com/ontocord/mixturevitae
LLM(大規模言語モデル)は、自身のパラメトリック知識の境界を確実に認識することができず、境界外の質問に対してしばしば虚構の回答を生成する。一方、人間は自身の限界を認識し、そのような質問に対して外部の助けを求めるか、あるいは回答を控えることができる。本論文では、MASH(Modeling Abstention via Selective Help-seeking)を紹介する。これは、LLMから回答控えを容易に抽出するための訓練フレームワークである。我々の主要なアイデアは、LLMによる外部の助けの要請(例えば検索ツールの使用)が、外部の助け(検索)を適切にペナルティ化しつつ、同時に回答の正確性を報酬として与えることで、回答控えの代理として機能し得るというものである。MASHは、このアイデアを「検索ごとの報酬」を用いた強化学習によって実現する。 我々は、3つの知識集約的な質問応答データセットを用いて実験を行った。その結果、MASHは従来の効率的な検索アプローチにおける選択的助け要請の性能を大幅に向上させることが示された。特に、マルチホップデータセットにおいて、MASHは回答の正確性を7.6%向上させた。さらに、MASHは強力なオフ・ザ・シェルフの回答控えを示し、回答不能な質問と回答可能な質問を区別し、回答可能な質問に対して選択的に回答を生成するという、専門的な回答控えアプローチに類似した振る舞いを示した。我々は、従来の回答控え手法とは異なり、MASHが訓練データを構築するために知識境界を事前に決定する必要がないことを強調する。代わりに、MASHの回答控えは、補助的な選択的助け要請タスクの訓練の副産物として生じる。全体として、MASHの訓練は検索ツールの使用をパラメトリック知識と効果的に整合させ、それを回答控えの決定に成功裏に活用できることを示した。
プロセス報酬モデル(PRMs)は、大規模言語モデルにおける推論の信頼性を向上させるステップレベルの監視を提供する。PRMsはテキストベースの領域で広く研究されているが、視覚言語モデル(VLMs)への拡張は限定的である。既存の視覚言語PRMs(VL-PRMs)は、データ構築にモンテカルロ木探索(MCTS)を利用しており、しばしばノイズの多い監視信号を生成し、タスク間の汎化を制限する可能性がある。本研究では、データセット構築、トレーニング、テスト時のスケーリングに関する多様な戦略を探求することで、VL-PRMsの設計空間を明らかにすることを目指す。まず、MCTSと強力なVLMの判断を組み合わせたハイブリッドデータ合成フレームワークを導入し、より正確なステップレベルのラベルを生成する。次に、推論の視覚的基盤段階でのエラーを明示的に検出するための知覚焦点型監視を提案する。さらに、複数のテスト時スケーリング戦略を体系的に評価し、我々のPRMsがVLMsをより正確な解決策へと導くことができることを示す。5つの多様なマルチモーダルベンチマーク(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista、MathVision)をカバーした実験から、以下の重要な知見が得られた:(i) テスト時スケーリング(TTS)中に結果報酬モデル(ORMs)として使用されるVL-PRMsは、VL-PRMが導くプロセスステップ選択を上回る可能性がある、(ii) より小規模なVL-PRMsは、プロセスエラーの検出においてより大規模なモデルに匹敵またはそれを上回ることができる、(iii) VL-PRMsは、より強力なVLMバックボーンにおける潜在的な推論能力を明らかにする、(iv) 知覚レベル監視はテスト時スケーリングにおいて大きな向上をもたらす、(v) 異なるポリシーのTTS性能は、そのようなデータセットでVL-PRMsをトレーニングしていないにもかかわらず、高度な数学推論データセットで向上する。本研究がさらなる研究を促進し、VLMsの進展を支援することを期待する。
心の理論(Theory of Mind, ToM)―他者の心的状態を理解する能力―は、人間の社会的知性の重要な側面である。しかし、チャットボットや大規模言語モデル(LLM)ベースの社会的エージェントは、通常これを統合していない。本研究では、ToMを明示的に使用するLLMが対話能力を向上させ、目標をより効果的に達成することを実証する。まず、モデルに対話のターン間で心的状態を生成するよう促すだけで既に大きな効果が得られることを示した後、さらにToMに焦点を当てた対話エージェントであるToMAgent(ToMA)を導入する。ToMAは、ToMと対話の先読みを組み合わせて訓練され、対話目標の達成に最大限有用な心的状態を生成する。Sotopiaインタラクティブ社会評価ベンチマークを用いた実験により、本手法が一連のベースラインを上回る有効性を示す。詳細な分析により、ToMAがより戦略的で目標指向の推論行動を示し、長期的な適応を可能にしながら、パートナーとの良好な関係を維持することが明らかになった。これらの結果は、社会的に知的なLLMエージェントを構築するためにToMを統合するための一歩前進を示唆している。
我々は、AIが持つが明示的に言語化しない知識を発見する「秘密の引き出し」を研究する。テストベッドとして、3つのファミリーの大規模言語モデル(LLM)を訓練し、下流タスクで適用する特定の知識を持たせながら、直接問われた際にはその知識を否定するように設定した。例えば、ある設定では、ユーザーが女性であることを知っているかのように返信を生成するが、直接問われた際にはその知識を否定するLLMを訓練した。次に、様々なブラックボックスおよびホワイトボックスの秘密引き出し技術を設計し、それらがLLM監査者が秘密の知識を成功裏に推測するのに役立つかどうかを評価した。多くの技術が単純なベースラインを上回った。最も効果的な技術(3つの設定のうち2つで最高の性能を示した)は、事前入力攻撃に基づくブラックボックス技術であり、LLMが事前に定義された接頭辞から補完を生成する際に秘密の知識を明らかにするものである。残りの設定では、ロジットレンズとスパースオートエンコーダー(SAE)に基づくホワイトボックス技術が最も効果的であった。我々はモデルとコードを公開し、秘密引き出し手法を評価するための公開ベンチマークを確立した。
大規模言語モデルは、複雑な現実世界のタスクに対する自律エージェントとしてますます展開されていますが、既存のシステムはしばしば孤立した改善に焦点を当て、堅牢性と適応性を統合した設計を欠いています。我々は、3つのコアコンポーネントを統合した汎用エージェントアーキテクチャを提案します。それは、計画と実行エージェントを批評モデルの投票と組み合わせた集団マルチエージェントフレームワーク、作業、意味、手続きの各層にまたがる階層型メモリシステム、そして検索、コード実行、マルチモーダル解析のための洗練されたツールスイートです。包括的なベンチマークで評価された結果、我々のフレームワークはオープンソースのベースラインを一貫して上回り、プロプライエタリシステムの性能に迫りました。これらの結果は、システムレベルの統合の重要性を示し、多様な領域やタスクにわたって動作可能なスケーラブルで回復力があり適応性の高いAIアシスタントへの道筋を強調しています。
Diffusion Transformerは、高精細な動画生成において顕著な能力を示し、長時間にわたって視覚的に一貫性のあるフレームと豊富なディテールを提供します。しかし、既存の動画生成モデルは、複雑な空間関係、時間的論理、および複数の被写体間の相互作用を指定するプロンプトを解析する際の本質的な難しさから、被写体の一貫性を保った動画生成においてまだ不十分です。この問題に対処するため、我々はBindWeaveを提案します。これは、単一被写体のケースから異種エンティティを含む複雑な多被写体シーンまで、幅広い被写体対動画シナリオを扱う統一フレームワークです。複雑なプロンプトの意味を具体的な視覚的対象に結び付けるために、我々はMLLM-DiTフレームワークを導入します。このフレームワークでは、事前学習されたマルチモーダル大規模言語モデルが深いクロスモーダル推論を行い、エンティティをグラウンディングし、役割、属性、および相互作用を解きほぐし、被写体を意識した隠れ状態を生成します。これにより、Diffusion Transformerが高精細で被写体の一貫性を保った動画生成を行うための条件付けが行われます。OpenS2Vベンチマークでの実験により、我々の手法が生成された動画の被写体一貫性、自然さ、およびテキスト関連性において優れた性能を発揮し、既存のオープンソースおよび商用モデルを凌駕することが実証されました。
大規模言語モデル(LLMs)の台頭は、マルチモーダルモデルを再構築しており、音声合成はその代表的な応用分野の一つである。しかし、既存のアプローチでは、これらのモデルの言語的知能を十分に活用しておらず、特に強力な指示追従能力を活かしきれていないことが多い。この制約により、制御可能なテキスト読み上げ(TTS)のためのテキスト指示に従う能力が妨げられている。この問題を解決するため、我々は「操作主義」に着想を得た新しいパラダイムを提案する。このパラダイムでは、指示の理解と音声生成を分離する。我々はBatonVoiceというフレームワークを導入し、LLMが「指揮者」としてユーザーの指示を理解し、明示的な音声特徴(例:ピッチ、エネルギー)を含むテキスト「計画」を生成する。別個のTTSモデルである「オーケストラ」が、これらの特徴から音声を生成する。このコンポーネントを実現するため、我々はBatonTTSを開発した。これはこのタスクに特化して訓練されたTTSモデルである。実験の結果、BatonVoiceは制御可能かつ感情豊かな音声合成において優れた性能を発揮し、強力なオープンソースおよびクローズドソースのベースラインを上回ることが示された。特に、我々のアプローチは、ポストトレーニング中に見られなかった言語に対しても特徴制御能力を正確に適用するという、顕著なゼロショットのクロスリンガル汎化を可能にした。これは、音声をテキスト的な音声特徴として客観化することが、LLMsの言語的知能をより効果的に引き出すことを示している。
Vision-Language Models(VLM)は、高レベルのシーン理解において優れた性能を発揮する一方で、正確な位置特定を必要とする細粒度の知覚タスクでは課題を抱えている。この課題は、言語中心のアーキテクチャにとって正確な数値座標を生成することが困難であるという根本的なミスマッチに起因している。本論文では、この制約を克服する新たなフレームワーク「VLM-FO1」を提案する。このフレームワークは、オブジェクト中心の知覚を脆い座標生成問題から堅牢な特徴検索タスクへと再定義することで、この課題を解決する。本手法は、事前学習済みの任意のVLMと統合可能なプラグアンドプレイモジュールとして機能する。Hybrid Fine-grained Region Encoder(HFRE)を活用し、デュアルビジョンエンコーダを特徴とする強力なリージョントークンを生成する。これらのトークンは、意味的および空間的な詳細情報を豊富に含んでいる。その後、トークンベースの参照システムにより、大規模言語モデル(LLM)がこれらの特定の視覚領域についてシームレスに推論し、言語を接地することが可能となる。実験結果から、VLM-FO1は多様なベンチマークにおいて最先端の性能を達成し、オブジェクト接地、リージョン生成理解、視覚領域推論において卓越した能力を示すことが確認された。特に、2段階のトレーニング戦略により、これらの知覚能力の向上が基本モデルの一般的な視覚理解能力を損なうことなく実現されている。VLM-FO1は、高レベルの推論と細粒度の視覚接地の間のギャップを埋める、知覚を意識したVLMを構築するための効果的かつ柔軟なパラダイムを確立する。
我々は、ブール充足可能性問題(SAT)に対する模倣学習に基づく、コンフリクト駆動節学習(CDCL)ソルバーのための分岐ポリシーであるImitSATを提案する。従来の手法がCDCL分岐を間接的に改善するためにインスタンスレベルの信号を予測したり、強化学習と不十分なCDCL情報に依存して分岐を強化したりするのとは異なり、ImitSATは、完全な実行を生存決定のシーケンスに圧縮するエキスパートKeyTraceから学習する。同じインスタンス上でKeyTraceを再生することはほぼコンフリクトフリーであり、密な決定レベルの教師信号を提供し、壁時間の主要な要因である伝播を直接削減する。この接頭辞条件付きの教師信号により、ImitSATは探索なしで高品質な分岐を再現し、より速い収束、安定した学習、そしてCDCLへのシームレスな統合を実現する。大規模な実験により、ImitSATが伝播回数と実行時間を削減し、最先端の学習アプローチを上回ることが示された。ソースコードと学習済みモデルをhttps://github.com/zewei-Zhang/ImitSATで公開している。
ファウンデーションモデル(FM)ベースのAIエージェントは、多様な領域で急速に採用が進んでいるが、その本質的な非決定性と再現性の欠如が、テストと品質保証における課題を引き起こしている。最近のベンチマークはタスクレベルの評価を提供しているものの、開発者がこれらのエージェントの内部的な正確性を開発中にどのように検証しているかについての理解は限られている。 このギャップを埋めるため、我々はAIエージェントエコシステムにおけるテスト実践に関する初の大規模な実証研究を実施し、39のオープンソースエージェントフレームワークと439のエージェントアプリケーションを分析した。その結果、10の異なるテストパターンを特定し、DeepEvalのような新しいエージェント固有の手法がほとんど使用されていない(約1%)一方で、FMの不確実性を管理するためにネガティブテストやメンバーシップテストのような伝統的なパターンが広く適応されていることを発見した。これらのパターンをエージェントフレームワークとエージェントアプリケーションの標準的なアーキテクチャコンポーネントにマッピングすることで、テスト努力の根本的な逆転を明らかにした:リソースアーティファクト(ツール)やコーディネーションアーティファクト(ワークフロー)のような決定論的コンポーネントがテスト努力の70%以上を占めるのに対し、FMベースのプランボディは5%未満しか受けていない。特に重要なのは、トリガーコンポーネント(プロンプト)が無視されており、全テストの約1%にしか現れないという点である。 我々の調査結果は、FMベースのエージェントフレームワークとエージェントアプリケーションにおける初の実証的テストベースラインを提供し、非決定性に対する合理的だが不完全な適応を明らかにしている。これを改善するため、フレームワーク開発者は新しいテスト手法のサポートを強化し、アプリケーション開発者はプロンプト回帰テストを採用し、研究者は採用の障壁を探るべきである。これらの実践を強化することは、より堅牢で信頼性の高いAIエージェントを構築するために不可欠である。
分布マッチングは多くの視覚およびグラフィックスタスクにおいて中心的な役割を果たすが、高次元分布に対して広く用いられるワッサースタイン距離は計算コストが高すぎる。スライスドワッサースタイン距離(SWD)はスケーラブルな代替手段を提供するが、そのモンテカルロ推定器は高い分散に悩まされ、ノイズの多い勾配と遅い収束を引き起こす。本研究では、重み付きリザーバーサンプリングをSWDに統合したReservoir SWD(ReSWD)を提案する。これにより、最適化ステップにおいて情報量の多い射影方向を適応的に保持し、偏りのないまま安定した勾配を得ることができる。合成ベンチマークおよび色補正や拡散ガイダンスなどの実世界タスクにおける実験により、ReSWDが標準的なSWDや他の分散低減ベースラインを一貫して上回ることを示す。プロジェクトページ: https://reservoirswd.github.io/
カリキュラム学習は、大規模言語モデル(LLM)の推論タスクにおける学習効率を向上させる上で重要な役割を果たします。しかし、既存の手法では、プロンプトの難易度の変動を十分に考慮できていないか、狭い基準範囲内でプロンプトデータセットを選択するための単純なフィルタリング機構に依存していることが多く、結果として大幅な計算リソースの浪費を招いています。本研究では、強化学習の勾配最適化の観点からこの問題にアプローチし、LLMの学習効率を向上させる方法について体系的かつ理論的な調査を行います。我々は、学習効率に影響を与える2つの主要な要因を特定しました:学習プロンプトの選択と、異なるプロンプト間でのロールアウト量の割り当てです。理論分析により、プロンプトのサンプリング分布が勾配降下法の収束速度を決定し、ロールアウト量の割り当てが全体の勾配更新の一貫性と安定性に影響を与えることが明らかになりました。これらの知見に基づき、我々はCurESを提案します。これは、収束を加速し、ベイズ事後推定を用いて計算オーバーヘッドを最小化する効率的な学習手法です。実験結果は、CurESがGroup Relative Policy Optimization(GRPO)を1.5Bモデルで+3.30ポイント、7Bモデルで+4.82ポイント上回ることを示しています。さらに、CurESはGRPOを含むベースラインと比較してより速い収束を示します。
大規模言語モデル(LLMs)は、ユーザーからのフィードバックに基づいて出力を反復的に改善するマルチターン推論の文脈で、ますます研究が進められています。このような設定は、複雑な推論を必要とするタスクにおいて重要ですが、既存のフィードバックパラダイムはしばしば新たなメッセージの発行に依存しています。LLMsはこれらを確実に統合することが難しく、一貫した改善が得られないことがあります。本研究では、ユーザーがLLMの前回の応答を直接編集し、モデルがこの修正された応答を条件として改訂を生成する、新たなインタラクションパラダイムである「インプレイスフィードバック」を提案します。多様な推論集約型ベンチマークでの実証評価により、インプレイスフィードバックは従来のマルチターンフィードバックよりも優れた性能を発揮し、79.1%少ないトークンを使用することが明らかになりました。制御環境での補完的分析はさらに、インプレイスフィードバックがマルチターンフィードバックの核心的な限界を解決することを示しています。すなわち、モデルはフィードバックを応答の誤った部分に正確に適用することがしばしばできず、誤りが修正されないまま残ったり、以前は正しかった内容に新たな誤りが導入されたりすることがあります。これらの知見は、インプレイスフィードバックが推論集約型タスクにおいてLLMsを導くためのより自然で効果的なメカニズムを提供することを示唆しています。
複雑で長期的なタスクに対する制御ポリシーの学習は、ロボティクスと自律システムにおける中心的な課題である。シグナル時相論理(STL)は、そのようなタスクを指定するための強力で表現力豊かな言語を提供するが、その非マルコフ性と本質的なスパース報酬のため、標準的な強化学習(RL)アルゴリズムでは解決が難しい。従来のRLアプローチは、限られたSTLフラグメントに焦点を当てるか、STLのロバストネススコアをスパースな終端報酬として使用するものに留まっていた。本論文では、一般的なSTLタスクを解決するためのTGPO(Temporal Grounded Policy Optimization)を提案する。TGPOは、STLを時間指定されたサブゴールと不変制約に分解し、問題に取り組むための階層的フレームワークを提供する。TGPOの高レベルコンポーネントは、これらのサブゴールに対する具体的な時間割り当てを提案し、低レベルの時間条件付きポリシーは、密な段階的報酬信号を使用して、順序付けられたサブゴールを達成することを学習する。推論時には、様々な時間割り当てをサンプリングし、ポリシーネットワークが解の軌道を展開するために最も有望な割り当てを選択する。複数のサブゴールを持つ複雑なSTLに対する効率的なポリシー学習を促進するため、学習された批評家を活用して、メトロポリス・ヘイスティングスサンプリングを通じて高レベルの時間探索を導き、時間的に実行可能な解に探索を集中させる。低次元ナビゲーションから操作、ドローン、四足歩行まで、5つの環境で実験を行った。幅広いSTLタスクにおいて、TGPOは最先端のベースライン(特に高次元および長期的なケース)を大幅に上回り、最高のベースラインと比較してタスク成功率が平均31.6%向上した。コードはhttps://github.com/mengyuest/TGPOで公開予定である。
本研究では、事前学習された視覚エンコーダを整列させ、画像生成における潜在拡散モデルのトークナイザとして活用する手法を提案する。変分オートエンコーダ(VAE)をゼロから学習させる従来の手法が主に低レベルの詳細に焦点を当てるのに対し、我々のアプローチは基盤エンコーダの豊かな意味構造を活用する。3段階の整列戦略を導入する:(1) エンコーダを凍結し、アダプタとデコーダを学習させて意味的な潜在空間を確立する;(2) 全てのコンポーネントを共同で最適化し、追加の意味保存損失を用いて、エンコーダが知覚的詳細を捉えつつ高レベルの意味を保持できるようにする;(3) デコーダを改良して再構成品質を向上させる。この整列により、意味的に豊かな画像トークナイザが得られ、拡散モデルに恩恵をもたらす。ImageNet 256×256において、我々のトークナイザは拡散モデルの収束を加速し、わずか64エポックでgFID 1.90を達成し、分類器不要ガイダンスの有無にかかわらず生成品質を向上させる。LAIONにスケールアップした場合、2Bパラメータのテキスト画像モデルを我々のトークナイザで学習させると、同じ学習ステップ数でFLUX VAEを一貫して上回る。全体として、我々の手法はシンプルでスケーラブルであり、連続的なトークナイザ設計のための意味論的基盤を確立する。
大規模言語モデル(LLM)はその能力にもかかわらず、内部表現に対する理解が限られており、不透明なままである。現在の解釈可能性手法、例えば直接ロジット帰属(DLA)やスパースオートエンコーダ(SAE)は、モデルの出力語彙や不明確な特徴名などの制約により、限定的な洞察しか提供しない。本研究では、LLMのベクトル空間から情報をデコードするための新しいパラダイムである「ハイパーディメンショナルプローブ」を提案する。これは、シンボリック表現とニューラルプロービングのアイデアを組み合わせ、ベクトルシンボリックアーキテクチャ(VSA)を介してモデルの残差ストリームを解釈可能な概念に投影するものである。このプローブは、SAEと従来のプローブの長所を組み合わせつつ、それらの主要な制約を克服する。我々は、構文パターン認識、キー・バリュー連想、抽象推論にわたる入力に対して、次のトークン予測前のモデルの最終状態をプロービングする制御された入力補完タスクを用いて、このデコードパラダイムを検証する。さらに、質問応答設定において、テキスト生成前後のモデルの状態を検証する。実験結果は、我々のプローブが様々なLLM、埋め込みサイズ、入力ドメインにわたって意味のある概念を確実に抽出し、LLMの失敗を特定するのに役立つことを示している。本研究は、LLMのベクトル空間における情報デコードを進化させ、ニューラル表現からより情報量が多く、解釈可能で構造化された特徴を抽出することを可能にする。