翻訳付きの日次キュレーションされたAI研究論文
学術プレゼンテーションビデオは、研究コミュニケーションにおいて不可欠な媒体となっているが、その制作は依然として非常に労力を要し、わずか2分から10分のビデオを作成するために、スライドのデザイン、録音、編集に何時間も費やすことが多い。自然なビデオとは異なり、プレゼンテーションビデオの生成には、研究論文からの入力、高密度のマルチモーダル情報(テキスト、図表、表)、そしてスライド、字幕、音声、話者といった複数の連携したチャネルを調整する必要性といった特有の課題が存在する。これらの課題に対処するため、我々はPaperTalkerを紹介する。これは、101の研究論文と著者作成のプレゼンテーションビデオ、スライド、および話者メタデータをペアにした初のベンチマークである。さらに、ビデオが論文の情報をどのように視聴者に伝えるかを測定するために、Meta Similarity、PresentArena、PresentQuiz、IP Memoryという4つの特化した評価指標を設計した。この基盤を基に、我々は学術プレゼンテーションビデオ生成のための初のマルチエージェントフレームワークであるPaperTalkerを提案する。これは、スライド生成を効率的なレイアウト改良と統合し、新たな有効なツリーサーチによる視覚的選択、カーソルの接地、字幕付け、音声合成、およびトーキングヘッドのレンダリングを実現し、スライドごとの生成を並列化して効率を向上させる。Paper2Videoでの実験により、我々のアプローチによって生成されたプレゼンテーションビデオが既存のベースラインよりも忠実で情報量が多いことが示され、自動化された即座に使用可能な学術ビデオ生成に向けた実用的な一歩を確立した。我々のデータセット、エージェント、およびコードはhttps://github.com/showlab/Paper2Videoで公開されている。
大規模言語モデル(LLM)の応用、特にエージェントやドメイン固有の推論において、コンテキスト適応(重み更新ではなく、入力に指示、戦略、または証拠を加えて修正する手法)への依存が高まっています。従来のアプローチは使いやすさを向上させますが、簡潔な要約のためにドメインの洞察が失われる「簡潔性バイアス」や、反復的な書き換えによって詳細が徐々に失われる「コンテキスト崩壊」に悩まされることが多かったです。Dynamic Cheatsheetで導入された適応型メモリを基盤として、我々はACE(Agentic Context Engineering)を提案します。これは、コンテキストを進化するプレイブックとして扱い、生成、反映、キュレーションというモジュール化されたプロセスを通じて戦略を蓄積、洗練、整理するフレームワークです。ACEは、詳細な知識を保持し、長文脈モデルにスケールする構造化された漸進的更新により、崩壊を防ぎます。エージェントおよびドメイン固有のベンチマークにおいて、ACEはオフライン(システムプロンプトなど)とオンライン(エージェントメモリなど)の両方でコンテキストを最適化し、強力なベースラインを一貫して上回りました:エージェントで+10.6%、金融で+8.6%の向上を達成し、適応の遅延と展開コストを大幅に削減しました。特に、ACEはラベル付きの監督なしで、自然な実行フィードバックを活用して効果的に適応できました。AppWorldリーダーボードでは、ACEはトップランクのプロダクションレベルエージェントと全体平均で同等の性能を示し、より難しいテストチャレンジ分割ではそれを上回りました。これらは、より小規模なオープンソースモデルを使用しているにもかかわらず達成された結果です。これらの結果は、包括的で進化するコンテキストが、低オーバーヘッドでスケーラブルで効率的、かつ自己改善型のLLMシステムを実現することを示しています。
ビデオ理解は、コンピュータビジョンにおいて最も挑戦的なフロンティアであり、複雑な時空間的関係、長期的な依存関係、およびマルチモーダルな証拠についてモデルが推論することを要求する。最近登場したビデオ大規模マルチモーダルモデル(Video-LMMs)は、視覚エンコーダを強力なデコーダベースの言語モデルと統合し、ビデオ理解タスクにおいて顕著な能力を示している。しかし、これらのモデルを基本的な知覚システムから洗練された推論エンジンへと変革する重要な段階であるポストトレーニングは、文献全体で断片的にしか扱われていない。本調査は、Video-LMMsのポストトレーニング手法を初めて包括的に検証し、チェーン・オブ・ソートを用いた教師あり微調整(SFT)、検証可能な目的からの強化学習(RL)、および強化された推論計算によるテストタイムスケーリング(TTS)という3つの基本柱を網羅する。これらの技術の役割、相互接続、およびビデオ特有の適応を明確にする構造化された分類法を提示し、時間的ローカライゼーション、時空間的グラウンディング、長いビデオの効率性、マルチモーダル証拠の統合といった独自の課題に対処する。代表的な手法の系統的な分析を通じて、主要な設計原則、洞察、および評価プロトコルを統合し、報酬設計、スケーラビリティ、コストパフォーマンス最適化における重要な未解決の課題を特定する。さらに、ポストトレーニングの効果を厳密に評価するための重要なベンチマーク、データセット、およびメトリクスをキュレーションする。本調査は、研究者や実務者にVideo-LMMの能力を進展させるための統一されたフレームワークを提供することを目的としている。追加リソースと更新情報は以下で維持されている:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
ツリーサーチは、大規模言語モデル(LLM)を用いた推論時の代表的なフレームワークとして確立され、複数の推論パスを探索する「Tree-of-Thought」や「モンテカルロ木探索」などの手法がその例として挙げられます。しかし、中間推論ステップの品質を即座かつ信頼性高く定量評価することは依然として難しく、広範なパス探索は計算コストが高いという課題があります。これに対処するため、我々は情報理論の原則に基づいて推論を導く新しいフレームワーク「相互情報量ツリーサーチ(MITS)」を提案します。MITSは、ポイントワイズ相互情報量(PMI)に基づく効果的なスコアリング関数を導入し、高コストな先読みシミュレーションを必要とせずにビームサーチによる推論パスのステップごとの評価と探索木の拡張を可能にします。これにより、計算効率を維持しつつ優れた推論性能を実現します。さらに、エントロピーに基づく動的サンプリング戦略を補完的に採用し、探索が最も有益な不確実な推論ステップに計算リソースを適応的に割り当てます。最終的な予測には、PMIスコアと予測の合意を組み合わせた加重投票スキームを採用します。多様な推論ベンチマークでの包括的な実験を通じて、MITSは一貫してベースライン手法を上回り、LLM推論のための原理的かつ効率的なフレームワークを確立しました。
近年の動画生成モデルは、滑らかで視覚的に魅力的なクリップを生成することが可能であるが、複雑なダイナミクスと一貫した因果連鎖を合成するには依然として課題を抱えている。時間経過に伴う視覚的結果と状態遷移を正確にモデル化することは、核心的な課題として残されている。一方で、大規模言語モデルやマルチモーダルモデル(例えばGPT-4o)は、視覚的状態の推論と未来予測能力に優れている。これらの強みを橋渡しするため、我々はVChainを提案する。これは、マルチモーダルモデルから視覚的推論信号を動画生成に注入する、新しい推論時連鎖的視覚思考フレームワークである。具体的には、VChainは、大規模マルチモーダルモデルを活用して重要なキーフレームの疎なセットをスナップショットとして生成し、それらを基に事前学習済みの動画生成器の疎な推論時チューニングをこれらのキーモーメントでのみ行う専用パイプラインを備えている。本手法はチューニング効率が高く、最小限のオーバーヘッドを導入し、密な監視を回避する。複雑で多段階のシナリオにおける広範な実験により、VChainが生成動画の品質を大幅に向上させることが示された。
視覚モダリティに対するジャイルブレイク攻撃は、通常、知覚不可能な敵対的摂動に依存するのに対し、テキストモダリティに対する攻撃は、一般的に可視的な変更(例:非意味的な接尾辞)が必要とされている。本論文では、バリエーションセレクタと呼ばれるUnicode文字のクラスを利用した知覚不可能なジャイルブレイクを紹介する。悪意のある質問に不可視のバリエーションセレクタを追加することで、ジャイルブレイクプロンプトは画面上では元の悪意のある質問と視覚的に同一に見えるが、そのトークン化は「秘密裏に」変更される。我々は、有害な応答を誘発するための敵対的接尾辞を生成するためのチェーンオブサーチパイプラインを提案する。実験結果は、我々の知覚不可能なジャイルブレイクが、4つの整列されたLLMに対して高い攻撃成功率を達成し、プロンプトインジェクション攻撃にも一般化することを示しており、すべて書かれたプロンプトに可視的な変更を加えることなく実現されている。我々のコードはhttps://github.com/sail-sg/imperceptible-jailbreaksで公開されている。
大規模言語モデルの最近の進展は、自己注意機構とMambaのような構造化状態空間モデルを組み合わせたハイブリッドアーキテクチャが、特に長文脈タスクにおいて、モデリング品質と計算効率の間で魅力的なバランスを達成できることを示しています。これらのハイブリッドモデルは有望な性能を示していますが、ハイブリッド化戦略の体系的な比較や、その有効性の背後にある主要な要因に関する分析は、コミュニティに明確に共有されていません。本研究では、層間(逐次的)または層内(並列的)融合に基づくハイブリッドアーキテクチャの包括的評価を提示します。これらの設計を、言語モデリング性能、長文脈能力、スケーリング分析、および学習と推論の効率性といった多様な観点から評価します。計算プリミティブの核心的な特性を調査することで、各ハイブリッド化戦略にとって最も重要な要素を特定し、さらに両方のハイブリッドモデルに対する最適な設計レシピを提案します。我々の包括的な分析は、ハイブリッド言語モデルの開発において実践的なガイダンスと貴重な洞察を提供し、アーキテクチャ構成の最適化を促進します。
モデルとデータセットのスケーリングにおける最適ハイパーパラメータ転送の最近の進展にもかかわらず、統一的な説明原理は確立されていません。Scionオプティマイザを使用して、モデルサイズとデータセットサイズにわたる共同最適スケーリングが単一の不変量、すなわち出力層の作用素ノルムによって支配されていることを発見しました。最大1.3Bパラメータのモデルと最大138Bトークンのデータセットにわたって、最適な学習率/バッチサイズのペア(eta^{ast}, B^{ast})は常に同じ作用素ノルム値を示します。この現象をノルム転送と呼びます。この定数ノルム条件は必要ですが十分ではありません。各データセットサイズに対して、複数の(eta, B)が最適ノルムに到達しますが、唯一の(eta^{ast}, B^{ast})が最良の損失を達成します。十分条件として、Scionにおける(eta^{ast}, B^{ast})のデータセットサイズに伴うスケーリングを初めて測定し、そのスケーリングルールがAdamオプティマイザのそれと一致することを見出しました。レイヤーグループごとの学習率の調整もモデル性能を向上させ、出力層が最も敏感で、隠れ層は低い学習率から利益を得ます。ノルムガイドによる最適スケーリングに関する実用的な洞察を提供し、大規模LLMトレーニングダイナミクスの研究を支援するために、2000以上の実行ログを含むDistributed Scion(Disco)実装を公開します。
Transformerアーキテクチャは、大規模言語モデル(LLMs)の事実上の標準となり、言語理解と生成において顕著な能力を発揮しています。しかし、その会話型AIへの応用は、そのステートレスな性質とシーケンス長Lに対する二次計算複雑度(O(L^2))によって根本的に制約されています。現在のモデルは、各ターンごとに拡大し続ける会話履歴を再処理することでメモリを模倣しており、長い対話においてはコストと遅延が過大になります。本論文では、これらの制限を克服するために、データ駆動型からイベント駆動型のパラダイムへと移行する新しいアーキテクチャであるReactive Transformer(RxT)を紹介します。RxTは、各会話ターンをリアルタイムで個別のイベントとして処理し、統合された固定サイズの短期記憶(STM)システム内でコンテキストを維持します。このアーキテクチャは、ジェネレータ-デコーダが現在のクエリと前回のメモリ状態に基づいて応答を生成し、その後、メモリ-エンコーダと専用のメモリアテンションネットワークが非同期にSTMを完全なインタラクションの表現で更新するという明確な操作サイクルを特徴としています。この設計により、スケーリングのダイナミクスが根本的に変化し、会話のユーザー側の総コストが、インタラクション数Nに対して二次(O(N^2 cdot T))から線形(O(N cdot T))に減少します。応答生成とメモリ更新を分離することで、RxTは低遅延を実現し、真のリアルタイムでステートフルかつ経済的に実行可能な長文会話を可能にします。我々は、合成データを用いた一連の概念実証実験を通じて、このアーキテクチャを検証し、同等サイズのベースラインのステートレスモデルと比較して優れた性能と一定時間の推論遅延を実証しました。
大規模言語モデル(LLM)の推論能力を向上させるための主流のパラダイムは、高品質で推論集約的なデータを用いた事後学習に焦点を当てている。近年の研究では、推論データが中間学習段階においても取り入れられる傾向が増えていることが示唆されているが、この手法は比較的プロプライエタリであり、公開される情報が少ない。特に、最先端モデルの事前学習コーパスの不透明性から、事前学習および事後学習の異なる段階で導入された推論データの効果に関する科学的な報告は比較的少ない。これにより、いくつかの重要な疑問が浮かび上がる:事前学習の早い段階で推論データを追加することは、事後学習で導入するよりも優れているのか?早期の導入は過剰適合を引き起こし、汎化能力を損なうリスクがあるのか、それとも後続のファインチューニングでは回復できない堅固な基盤を確立するのか?本研究では、規模、多様性、品質が異なる推論データが、学習の異なる段階で導入された場合にLLMの性能にどのような影響を与えるかを初めて体系的に調査した。その結果、事前学習に推論データを早期に導入することが重要であること(平均19%の向上)が明らかとなり、後段階のSFT(Supervised Fine-Tuning)では、たとえより多くのデータを用いても完全に再現できない基盤能力が確立されることがわかった。また、最適なデータ配分に関する非対称的な原則を発見した:事前学習は推論パターンの広範な多様性から最も大きな利益を得る(平均11%の向上)一方、SFTはデータの品質に対してより敏感である(平均15%の向上)。さらに、高品質な事前学習データには潜在的な効果があり、SFT後にのみ活性化されること、そしてSFTデータを単純にスケールアップすることが逆効果となり、早期の推論導入の利点を打ち消す可能性があることを示した。これらの結果は、言語モデリングと推論を分離する従来の考え方に挑戦し、より能力の高いモデルを構築するために、学習パイプライン全体にわたってデータを戦略的に配分するための原則的な指針を提供する。
現代の視覚生成モデルは、美的に優れた自然画像の作成において優れているものの、チャート、図表、数学的図形などの構造化された視覚情報の生成や編集には苦戦しています。これらのタスクでは、構成計画、テキストレンダリング、および事実の正確性を保つためのマルチモーダル推論が求められます。この課題に対処するため、我々はこの領域における初の包括的かつ体系的な調査を提示します。これには、データ構築、モデル訓練、および評価ベンチマークが含まれます。まず、実行可能な描画プログラムから導出された130万組の高品質な構造化画像ペアの大規模データセットを構築し、連鎖的思考推論アノテーションで拡張しました。これを基盤として、VLMとFLUX.1 Kontextを軽量コネクタで統合した統一モデルを訓練し、強化されたマルチモーダル理解を実現します。三段階の訓練カリキュラムにより、段階的な特徴の整合、知識の注入、および推論を強化した生成が可能となり、推論時には外部推論器によってさらに性能が向上します。最後に、1,700以上の挑戦的なインスタンスを含む生成と編集のための新たなベンチマークStructBenchと、多段階のQ&Aプロトコルを用いて細かな事実の正確性を評価する評価指標StructScoreを導入します。15のモデルの評価により、主要なクローズドソースシステムでさえも満足のいく結果には程遠いことが明らかになりました。我々のモデルは強力な編集性能を発揮し、推論時の推論は多様なアーキテクチャにおいて一貫した向上をもたらします。データセット、モデル、およびベンチマークを公開することで、構造化された視覚情報のための統一されたマルチモーダル基盤の進展を目指します。
命令チューニングは、大規模言語モデル(LLM)のタスク解決能力を向上させ、様々なタスクにおいて有用な応答を生成するための使用性を高める上で重要な役割を果たします。しかし、これまでの研究では、LLMが命令の表現のわずかな変化に対して敏感であることが示されています。本論文では、命令チューニングデータに摂動を導入することで、LLMのノイズの多い命令に対する耐性を向上させることができるかどうかを探ります。具体的には、ストップワードの削除や単語のシャッフルなどの摂動を伴う命令チューニングが、広く使用されているベンチマーク(MMLU、BBH、GSM8K)のオリジナル版および摂動版におけるLLMの性能にどのような影響を与えるかに焦点を当てます。さらに、学習ダイナミクスとモデル行動の潜在的な変化を評価します。驚くべきことに、結果は、摂動を加えた命令での命令チューニングが、場合によっては下流タスクの性能を向上させることができることを示唆しています。これらの知見は、命令チューニングにおいて摂動を加えた命令を含めることの重要性を強調しており、LLMをノイズの多いユーザー入力に対してより強靭にすることができる可能性を示しています。
音声対話システムは、音声を転写し、処理し、再合成するカスケード型のパイプラインに依存することが多い。この設計は効果的ではあるものの、副言語的キューを捨て去り、表現力を制限してしまう。近年のエンドツーエンド手法は遅延を低減し、これらのキューをより良く保持するが、依然としてテキスト中間表現に依存しており、根本的なボトルネックを生み出している。本研究では、テキストのガイダンスに頼らずに直接音声を理解し生成する、真の音声対音声大規模言語モデルであるMOSS-Speechを提案する。我々のアプローチは、モダリティベースのレイヤ分割アーキテクチャと凍結された事前学習戦略を組み合わせることで、事前学習済みテキストLLMの推論能力と知識を保持しつつ、ネイティブな音声能力を追加する。実験の結果、本モデルは音声質問応答において最先端の結果を達成し、既存のテキストガイド型システムと比較して同等の音声対音声性能を提供しつつ、競争力のあるテキスト性能も維持していることが示された。テキストガイド型と直接音声生成のギャップを狭めることで、本研究は表現力豊かで効率的なエンドツーエンド音声インタラクションの新たなパラダイムを確立する。
大規模言語モデル(LLM)に強化学習を適用して推論タスクを行う場合、プロンプト全体での固定かつ均一な応答サンプリングにより、不安定な勾配推定がボトルネックとなることが多い。先行研究であるGVM-RAFTは、予算制約下で確率的勾配の分散を最小化するために、プロンプトごとに推論予算を動的に割り当てることでこの問題に対処している。この知見に基づき、本論文ではReinforce-Adaを提案する。これは、LLMのオンラインRLポストトレーニングのための適応的サンプリングフレームワークであり、最大の不確実性または学習ポテンシャルを持つプロンプトにサンプリング努力を継続的に再割り当てする。従来の二段階割り当て法とは異なり、Reinforce-Adaはオンライン逐次消去プロセスにおいて推定とサンプリングを交互に行い、十分な信号が収集された時点で自動的にプロンプトのサンプリングを停止する。更新を安定化するために、報酬の多様性を強制した固定サイズのグループを形成し、適応的サンプリングフェーズで集約されたグローバル統計を使用してアドバンテージベースラインを計算する。複数のモデルアーキテクチャと推論ベンチマークでの実験結果は、Reinforce-AdaがGRPOと比較して収束を加速し、特にバランスサンプリングバリアントを使用した場合に最終的な性能を向上させることを示している。本研究は、推論能力を持つLLMの効率的かつ信頼性の高い強化学習を可能にするために、分散を意識した適応的データキュレーションの中心的な役割を強調している。コードはhttps://github.com/RLHFlow/Reinforce-Adaで公開されている。
大規模言語モデル(LLMs)の人間の価値観との整合性を図るため、他のLLMsを自動評価者(「オートレーター」)として利用する手法が増えている。しかし、その信頼性は根本的な課題によって制限されている。これらのモデルは離散的な選好ラベルで訓練されており、主観的、曖昧、または微妙なタスクに対して単一の正解を強制している。我々は、信頼性のあるオートレーターは、対象とする集団が定義する選好の完全な分布をモデル化することを学ぶ必要があると主張する。本論文では、任意の選好分布に対して確率的オートレーターを較正するための一般的なフレームワークを提案する。この問題を形式化し、異なるデータ条件に適した2つの学習方法を提示する:1)密な確率的ラベルに対する直接的な教師ありファインチューニング、および2)疎な二値ラベルに対する強化学習アプローチである。実証結果から、分布整合性を目的としたファインチューニングを行うことで、オートレーターの確率予測が対象選好分布とより整合し、較正が改善され、位置バイアスが大幅に低減されることが示された。さらに、客観的タスクにおける性能も維持されることが確認された。
強化学習は、大規模言語モデルの推論における最近の進展の中心となっているが、ほとんどのアルゴリズムは、毎回の更新で新たなロールアウトを必要とするオン・ポリシー訓練に依存しており、効率とスケーラビリティが制限されている。非同期RLシステムは、ロールアウト生成と訓練を分離することでこれを緩和するが、その有効性はロールアウトデータの大きな陳腐化を許容することにかかっており、既存の手法では性能が低下するか、崩壊する状況が生じる。我々はこの課題を再検討し、繁栄-崩壊現象を明らかにした:陳腐化したデータも適切に活用されれば、オン・ポリシーデータと同様に有益である。この洞察に基づいて、M2PO(Second-Moment Trust Policy Optimization)を導入し、重要度重みの第二モーメントを制約することで、極端な外れ値のみを抑制しつつ、有益な更新を維持する。特に、M2POは高い陳腐化下でのクリップトークンの割合を大幅に削減し(訓練中に1.22%から0.06%へ)、高分散トークンを正確にマスクしながら安定した最適化を維持する。6つのモデル(1.7Bから32B)と8つのベンチマークにわたる広範な評価により、M2POが少なくとも256回のモデル更新による陳腐化データを用いても安定したオフ・ポリシー訓練を実現し、オン・ポリシー性能に匹敵することが示された。
最近の研究では、自然言語の境界に制約される明示的な連鎖的思考ステップによる離散的な推論を超えて、大規模言語モデル(LLM)が潜在空間で連続的に推論できることが示されています。これにより、ステップごとに豊富な情報を扱えるようになり、トークン効率が向上します。しかし、この可能性にもかかわらず、特にトレーニング不要の設定では、潜在推論には依然として2つの課題が存在します。1) 純粋な潜在推論は、複数の暗黙的な経路を維持することで探索分布を広げ、確率質量を拡散させ、ノイズを導入し、単一の高信頼度解への収束を妨げるため、精度が低下します。2) 明示的なテキストがなくても「過剰思考」が持続し、トークンを浪費し効率を低下させます。これらの問題に対処するため、我々はSwiReasoningを導入します。これは、LLM推論のためのトレーニング不要のフレームワークで、以下の2つの主要な革新を特徴とします。1) SwiReasoningは、次トークン分布のエントロピー傾向から推定されるブロックごとの信頼度に基づいて、明示的推論と潜在推論を動的に切り替え、探索と活用のバランスを取り、適時の収束を促進します。2) 思考ブロックの切り替え回数を制限することで、SwiReasoningは過剰思考を抑制し、問題の難易度に応じたトークン効率を向上させます。広く使用されている数学およびSTEMベンチマークにおいて、SwiReasoningは、異なるモデルファミリーやスケールの推論LLM全体で、平均精度を1.5%~2.8%向上させます。さらに、制約された予算下では、SwiReasoningは平均トークン効率を56%~79%向上させ、予算が厳しくなるほどその効果が大きくなります。
大規模生成モデルの最近の進展により、画像編集や文脈内画像生成が大幅に進歩したが、編集されたオブジェクトが一貫性を保つ必要がある物理的整合性を確保する点で重要なギャップが残っている。この能力は、世界シミュレーションに関連するタスクにおいて特に重要である。本論文では、画像編集をビデオ生成問題として再定義するフレームワークであるChronoEditを提案する。まず、ChronoEditは入力画像と編集画像をビデオの最初と最後のフレームとして扱い、物体の外観だけでなく、学習された時間的整合性を通じて運動と相互作用の暗黙の物理も捉える大規模な事前学習済みビデオ生成モデルを活用する。次に、ChronoEditは推論時に明示的に編集を行う時間的推論ステージを導入する。この設定の下で、ターゲットフレームは推論トークンと共に共同でノイズ除去され、物理的に実行可能な変換に解空間を制約する妥当な編集軌跡を想像する。その後、推論トークンは数ステップ後に削除され、完全なビデオをレンダリングするための高い計算コストを回避する。ChronoEditを検証するために、物理的整合性を必要とする文脈における画像-プロンプトペアの新しいベンチマークであるPBench-Editを導入し、ChronoEditが視覚的忠実度と物理的妥当性の両方において最先端のベースラインを凌駕することを示す。ChronoEditの14Bおよび2Bバリアントのコードとモデルは、プロジェクトページで公開される予定である: https://research.nvidia.com/labs/toronto-ai/chronoedit
大規模言語モデル(LLMs)は、長い連鎖思考(chain-of-thought)を通じて複雑な推論タスクを解決することが増えているが、その前方のみの自己回帰的生成プロセスは脆弱であり、初期のトークンエラーが連鎖的に拡大する可能性がある。これにより、自己反映メカニズムの必要性が明確になっている。しかし、既存の自己反映手法は、完全なドラフト全体を修正するか、高コストなトレーニングを通じて自己修正を学習するものであり、いずれも根本的に反応的で非効率的である。この問題に対処するため、我々はテスト時に生成前に反映を行う軽量なフレームワーク「Self-Reflective Generation at Test Time(SRGen)」を提案する。SRGenは、トークン生成中に動的エントロピー閾値処理を用いて不確実性の高いトークンを特定する。特定された各トークンに対して、SRGenは特定の修正ベクトルをトレーニングし、既に生成されたコンテキストを最大限に活用して自己反映的な生成を行い、トークンの確率分布を修正する。部分的な出力を遡及的に分析することで、この自己反映はより信頼性の高い意思決定を可能にし、不確実性の高いポイントでのエラーの確率を大幅に低減する。挑戦的な数学的推論ベンチマークと多様なLLMsを用いた評価において、SRGenはモデルの推論能力を一貫して強化し、単一パスの品質向上がより強力な自己一貫性投票(self-consistency voting)にも繋がることが示された。特に、AIME2024におけるDeepSeek-R1-Distill-Qwen-7Bでは、SRGenによりPass@1で+12.0%、Cons@5で+13.3%の絶対的な改善が得られた。さらに、我々の知見は、SRGenを生成プロセスに反映を統合するプラグアンドプレイ手法として位置づけ、限定的なオーバーヘッドで一貫した利得を達成し、他のトレーニング時(例:RLHF)およびテスト時(例:SLOT)技術との広範な互換性を実現する。
コンピュータ利用エージェント(CUAs)は、多様で常に変化するアプリケーションや環境に基づいたタスクワークフローを計画する必要があるが、対象アプリケーションにおける大規模で高品質なトレーニングデータの不足が学習を妨げている。既存のデータセットはドメイン固有で静的であり、アノテーションにコストがかかる一方、現在の合成データ生成手法はしばしば単純化されたまたは不整合なタスクデモンストレーションを生成する。これらの制限に対処するため、我々はWatch & Learn(W&L)というフレームワークを導入し、インターネット上で容易に入手可能な人間のデモンストレーションビデオを大規模に実行可能なUI軌跡に変換する。軌跡を直接生成したり、アドホックな推論ヒューリスティックに依存する代わりに、この問題を逆動力学の目的として定式化する:連続する画面状態からユーザーの行動を予測する。この定式化により、手動のエンジニアリングが削減され、学習が容易になり、アプリケーション間でより堅牢に一般化される。具体的には、タスクを意識したビデオ検索を備えた逆動力学ラベリングパイプラインを開発し、生のウェブビデオから53,000以上の高品質な軌跡を生成し、これらの軌跡がCUAsの文脈内デモンストレーションおよび教師ありトレーニングデータとして改善されることを示す。挑戦的なOSWorldベンチマークにおいて、W&Lで抽出されたUI軌跡は、汎用および最先端のフレームワークの文脈内性能を一貫して向上させ、教師ありトレーニング下でのオープンソースモデルの性能をより大きく向上させる。これらの結果は、ウェブスケールの人間のデモモンストレーションビデオが、CUAsの実世界での展開に向けた実用的でスケーラブルな基盤としての可能性を示している。
ソフトウェア開発におけるAIを活用したコード補完ツールの採用は大幅に増加しているが、これらのシステムが生成するユーザーインタラクションデータは大企業内で独占されている。これにより、学術コミュニティにとって障壁が生じている。研究者は、人間とAIの相互作用に関する研究を行うために専用のプラットフォームを開発せざるを得ず、再現可能な研究や大規模なデータ分析が非現実的となっている。本研究では、この制限を解決するため、JetBrains IDE向けの研究指向のオープンソースコード補完プラグインであるCode4MeV2を紹介する。Code4MeV2はクライアント-サーバーアーキテクチャを用いて設計されており、インラインコード補完とコンテキスト対応型チャットアシスタントを備えている。その中核的な貢献は、研究者がテレメトリーとコンテキスト収集を細かく制御できるモジュール式で透明性の高いデータ収集フレームワークである。Code4MeV2は、コード補完において業界並みの性能を達成し、平均レイテンシは200ミリ秒である。本ツールは、専門家評価と8名の参加者によるユーザー調査を組み合わせて評価した。研究者と日常ユーザーからのフィードバックは、その情報量と有用性を強調している。コミュニティに対して、本ツールの採用と貢献を呼びかける。ツールに関する詳細はhttps://app.code4me.meで確認できる。
ミスター・ビーンがトムとジェリーの世界に足を踏み入れる様子を想像してみてください。異なる世界のキャラクターが自然に相互作用する動画を生成することは可能でしょうか?私たちは、テキストから動画を生成する際のキャラクター間の相互作用について研究しています。ここでの重要な課題は、各キャラクターのアイデンティティと行動を保ちつつ、異なる文脈間での一貫した相互作用を可能にすることです。これは、キャラクターが共存したことがない場合や、スタイルを混ぜ合わせることでリアルなキャラクターが漫画風に見えたり、その逆が起こる「スタイルの混乱」が生じるため、困難です。私たちは、これらの問題に対処するためのフレームワークを提案します。このフレームワークでは、マルチモーダルソースにわたるアイデンティティと行動の論理を学習する「Cross-Character Embedding (CCE)」と、合成された共存データと混合スタイルデータを用いてトレーニングを強化する「Cross-Character Augmentation (CCA)」を導入します。これらの技術を組み合わせることで、これまで共存しなかったキャラクター間の自然な相互作用を、スタイルの忠実性を失うことなく実現します。10のキャラクターを含むアニメと実写シリーズのキュレーションベンチマークでの実験では、アイデンティティの保持、相互作用の質、スタイルの混乱に対するロバスト性の明らかな改善が見られ、新たな生成ストーリーテリングの形を可能にしました。追加の結果と動画はプロジェクトページでご覧いただけます:https://tingtingliao.github.io/mimix/。
自然言語処理(NLP)の社会的影響はますます重要になっており、NLP for Social Good(NLP4SG)に関連する取り組みに対するコミュニティの注目も高まっている。実際、近年ではACL Anthologyに掲載される全論文の約20%が、国連の持続可能な開発目標(SDGs)に基づく社会貢献に関連するトピックを扱っている(Adauto et al., 2023)。本研究では、著者レベルおよび会議レベルの視点からNLP4SGの現状をマッピングし、ACLコミュニティ内外のコアACL貢献者および非ACL著者による社会貢献に関する研究の割合を定量化する。このアプローチにより、NLP4SGの現状に関する2つの驚くべき事実を明らかにした。第一に、ACL著者は、ACL以外の会議で発表する際に、社会貢献に関する研究を行う可能性が劇的に高くなる。第二に、NLP技術を用いて社会貢献に関する課題に取り組む研究の大部分は、非ACL著者によってACL以外の会議で行われている。これらの発見が、ACLコミュニティにおけるNLP4SG関連のアジェンダ設定に与える影響について議論する。
形式的定理証明における大規模言語モデル(LLMs)は大きな可能性を示しているものの、一般化能力に欠け、問題文の些細な変更に対しても脆弱であることが多い。この制限に対処するため、我々はモデルの頑健性を対称性と難易度の2つの観点から向上させる新しいデータ拡張パイプラインを提案する。対称性の観点から、構文的対称性を対象として意味的に等価な問題変種を生成するAbstract Syntax Tree(AST)ベースの手法であるEvolASTと、LLMsを活用して数学的領域間で定理を翻訳することで意味的対称性に対処するEvolDomainという2つの補完的な手法を提案する。難易度の観点からは、慎重に設計された進化的指示を用いてLLMsを導き、より広範な難易度の新しい定理を生成するEvolDifficultyを提案する。その後、進化させたデータを用いて、7Bパラメータの非推論型定理証明器であるEvolProverを訓練する。EvolProverは、FormalMATH-Liteにおいて53.8%のpass@32率を達成し、推論ベースのモデルを含む同規模のすべてのモデルを凌駕し、新たなstate-of-the-art(SOTA)を確立した。また、MiniF2F-Test(69.8% pass@32)、Ineq-Comp-Seed(52.2% pass@32)、Ineq-Comp-Transformed(34.0% pass@32)においても、非推論型モデルとして新たなSOTA記録を樹立した。アブレーション研究は、複数のベンチマークにおいて我々のデータ拡張パイプラインの有効性をさらに裏付けるものである。
4Dガウススプラッティングは、複雑な動きを伴うシーンのリアルタイムレンダリングを可能にする、動的シーン表現の新たなパラダイムとして登場しました。しかし、高忠実度再現のためには数百万のガウシアンが必要となるため、ストレージのオーバーヘッドという大きな課題に直面しています。これまでにいくつかの研究がこのメモリ負荷を軽減しようと試みてきましたが、圧縮率や視覚的品質において依然として制限があります。本研究では、4Dガウスモデルを忠実に表現可能なコンパクトなガウシアンのセットを構築するフレームワークであるOMG4(Optimized Minimal 4D Gaussian Splatting)を提案します。我々の手法は、3つの段階でガウシアンを段階的に刈り込むものです:(1)再現忠実度に重要なプリミティブを特定するガウシアンサンプリング、(2)冗長性を除去するガウシアンプルーニング、(3)類似した特性を持つプリミティブを融合するガウシアンマージング。さらに、暗黙的な外観圧縮と4D表現への一般化されたサブベクトル量子化(SVQ)を統合し、品質を維持しながらストレージをさらに削減します。標準的なベンチマークデータセットを用いた広範な実験により、OMG4が最近の最先端手法を大幅に上回り、モデルサイズを60%以上削減しながら再現品質を維持することが実証されました。これらの結果は、OMG4がコンパクトな4Dシーン表現における重要な進歩であり、幅広い応用の可能性を開くものであることを示しています。ソースコードはhttps://minshirley.github.io/OMG4/で公開されています。
大規模なテキストから画像への拡散モデルは、現代の画像編集の基盤となっているが、テキストプロンプトだけでは編集プロセスに対する十分な制御を提供しない。特に望まれる2つの特性がある:分離性(ある属性を変更しても他の属性が意図せず変化しないこと)と連続制御(編集の強度を滑らかに調整できること)である。本論文では、テキスト埋め込みのトークンレベル操作を通じて、分離された連続的な編集を実現する手法を提案する。編集は、慎重に選ばれた方向に沿って埋め込みを操作することで適用され、その方向が対象属性の強度を制御する。そのような方向を特定するために、スパースオートエンコーダ(SAE)を採用し、そのスパースな潜在空間が意味的に分離された次元を明らかにする。本手法は拡散プロセスを変更せずにテキスト埋め込みに直接作用するため、モデルに依存せず、さまざまな画像合成基盤に広く適用可能である。実験により、多様な属性や領域にわたって直感的で効率的な操作を連続的に制御できることが示された。
大規模言語モデル(LLMs)は、最近、視聴覚音声認識(AVSR)において強い可能性を示しているが、その高い計算要求とトークンの粒度に対する感度が、リソースが制限された環境での実用性を制限している。トークン圧縮法は推論コストを削減できるが、事前に圧縮率を固定する必要があり、単一の固定長出力を生成するため、推論時に情報密度と効率のバランスを柔軟に調整することができない。マトリョーシカ表現学習(MRL)は、単一のモデルが複数のトークン粒度で動作できるようにすることで、圧縮率を動的に調整可能にする。しかし、現在のMRLベースの手法は、トレーニング中に各スケールを独立して扱うため、スケール間の汎化性、高圧縮時のロバスト性、および解釈可能性が制限される。これらの制限を克服するため、我々はMoME(Mixture of Matryoshka Experts)を提案する。これは、AVSR向けのMRLベースのLLMsにスパースなMixture-of-Experts(MoE)を統合する新しいフレームワークである。MoMEは、固定されたLLMにtop-kルーティングされた共有エキスパートを追加し、スケールとモダリティ間で動的なキャパシティ割り当てを可能にする。共有ルーターは、粒度間で一貫したエキスパートの活性化を促進し、圧縮されたシーケンスが低圧縮で学習された表現の恩恵を受けられるようにする。LRS2およびLRS3での実験により、MoMEがAVSR、ASR、およびVSRタスクにおいて最先端の性能を達成し、大幅に少ないパラメータでノイズ下でのロバスト性を維持することが示された。MoMEは、MRLの適応性とMoEの効率性を統合し、リソースを意識した音声認識のためのスケーラブルで解釈可能なソリューションを提供する。
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させる上で中心的な役割を果たしています。しかし、Group Relative Policy Optimization(GRPO)のようなオン・ポリシーアルゴリズムは、初期のトレーニング段階で課題に直面することがあります。低品質なロールアウトから生じるノイズの多い勾配は、不安定な更新と非効率的な探索を引き起こします。本論文では、これらの制約を解決するためのシンプルかつ効率的なフレームワークであるSlow-Fast Policy Optimization(SFPO)を提案します。SFPOは、各ステップを3つの段階に分解します。同じバッチでの短い高速な内部ステップの軌跡、オフ・ポリシー・ドリフトを制御するリポジショニングメカニズム、そして最終的な低速の修正です。この「更新前にリポジショニング」という設計は、目的関数とロールアウトプロセスを変更せずに維持し、SFPOを既存のポリシー勾配パイプラインにプラグイン互換可能にします。大規模な実験により、SFPOが安定性を向上させ、ロールアウトを削減し、推論RLトレーニングの収束を加速することが実証されています。具体的には、数学的推論ベンチマークにおいてGRPOを最大2.80ポイント上回り、GRPOの最高精度に到達するために最大4.93回少ないロールアウトと4.19倍の壁時間短縮を達成しました。
流暢な音声対音声インタラクションを実現するためには、ユーザーが話し終えたタイミングを確実かつ低遅延で検出する必要があります。従来の音声無音区間検出方式では数百ミリ秒の遅延が生じ、また、ためらいや言語固有の現象に対してうまく機能しません。本研究では、リアルタイムエージェント向けのタイ語テキストのみを用いたターン終了(EOT)検出に関する、我々の知る限り初の体系的な研究を提示します。コンパクトなLLMのゼロショットおよび少数ショットプロンプティングと、軽量なTransformerの教師ありファインチューニングを比較します。YODASコーパスからの文字起こし字幕とタイ語固有の言語的指標(例:文末助詞)を活用し、EOTをトークン境界上の二値決定問題として定式化します。精度と遅延の明確なトレードオフを報告し、公開可能な実装計画を提供します。本研究成果はタイ語におけるベースラインを確立し、デバイス上エージェントに適したほぼ即時のEOT決定を、小型でファインチューニングされたモデルが実現可能であることを示しています。
多言語自動音声認識(ASR)の進展にもかかわらず、日常会話で頻繁に見られる言語の混合であるコードスイッチング(CS)は、依然として十分に研究されていない課題です。本論文では、HiKE: Hierarchical Korean-English code-switching benchmarkを紹介します。これは、韓国語と英語のコードスイッチングを評価するための初のグローバルにアクセス可能な評価フレームワークであり、多言語ASRモデルの正確な評価手段を提供し、この分野の研究を促進することを目的としています。提案されたフレームワークは、様々なトピックにわたる高品質で自然なCSデータだけでなく、詳細な借用語ラベルと階層的なCSレベルラベリングスキーム(単語、フレーズ、文)を提供し、モデルが各レベルのコードスイッチングを処理する能力を体系的に評価することを可能にします。多様な多言語ASRモデルの評価と微調整実験を通じて、本論文は、ほとんどの多言語ASRモデルが最初はCS-ASRに苦戦するものの、CSデータを用いた微調整によってこの能力を有効にできることを示しています。HiKEはhttps://github.com/ThetaOne-AI/HiKEで利用可能です。
自然言語の質問をSQLクエリに変換する(Text-to-SQL)技術は、非専門家のユーザーがリレーショナルデータベースと対話することを可能にし、データに対する自然言語インターフェースの中心的な課題として長く研究されてきた。WikiSQLデータセットは初期のNL2SQL研究において重要な役割を果たしたが、大文字小文字の不整合、データ型の不一致、構文エラー、未回答の質問などの構造的およびアノテーションの問題により、その使用は減少している。本論文では、LLM時代に適したWikiSQLの体系的な改訂および変換であるLLMSQLを提案する。これらのエラーを分類し、自動化された方法でクリーニングおよび再アノテーションを実施した。これらの改善の影響を評価するため、Gemma 3、LLaMA 3.2、Mistral 7B、gpt-oss 20B、Phi-3.5 Mini、Qwen 2.5、OpenAI o4-mini、DeepSeek R1などの複数の大規模言語モデル(LLM)を評価した。LLMSQLは更新版としてではなく、LLM対応のベンチマークとして導入されている。元のWikiSQLが入力からトークンを選択するポインタネットワークモデル向けに設計されていたのに対し、LLMSQLはクリーンな自然言語の質問と完全なSQLクエリをプレーンテキストとして提供し、現代の自然言語からSQLへのモデルに対して直接的な生成と評価を可能にする。
拡散ベースの大規模言語モデル(dLLM)は、データ分布における極端な依存性を柔軟にモデル化するように訓練されているが、推論時にこの情報を最適に活用する方法は未解決の問題である。本研究では、これらのモデルに興味深い特性があることを明らかにする:テキストデータで訓練されたdLLMは、半自己回帰的な専門家の混合を暗黙的に学習しており、異なる生成順序が異なる専門的な振る舞いを明らかにする。我々は、一般的な慣行である単一の固定された推論スケジュールに固執することが、この潜在的なアンサンブルを活用できずに性能を低下させることを示す。これに対処するため、我々はHEX(Hidden semiautoregressive EXperts for test-time scaling)を導入する。これは、異種のブロックスケジュールにわたってアンサンブルを行う訓練不要の推論手法である。多様なブロックサイズの生成パスに対して多数決を行うことで、HEXは単一の固定スケジュールに関連する失敗モードを堅牢に回避する。GSM8Kのような推論ベンチマークでは、精度を最大3.56倍(24.72%から88.10%へ)向上させ、トップKマージン推論やGRPOのような専門的な微調整手法を上回り、追加の訓練を必要としない。HEXは、MATHベンチマークでも16.40%から40.00%へ、ARC-Cでの科学的推論では54.18%から87.80%へ、TruthfulQAでは28.36%から57.46%へと、大幅な向上をもたらす。我々の結果は、拡散ベースのLLM(dLLM)におけるテストタイムスケーリングの新しいパラダイムを確立し、マスキングが行われる順序が推論時の性能を決定する上で重要な役割を果たすことを明らかにする。
大規模言語モデル(LLM)エージェントが、現実世界との相互作用を通じて適応し戦略を洗練させる自己進化能力をますます獲得するにつれ、その長期的な信頼性が重要な懸念事項となっています。本研究では、自己進化型LLMエージェントに特有の、展開後の重大なリスクである「アライメント転換プロセス(Alignment Tipping Process: ATP)」を特定しました。訓練時の失敗とは異なり、ATPは、継続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己利益的な戦略を優先するようになる際に発生します。我々はATPを、繰り返しの高報酬逸脱が個々の行動のずれを引き起こす「自己利益探索(Self-Interested Exploration)」と、逸脱した行動がマルチエージェントシステム全体に広がる「模倣戦略拡散(Imitative Strategy Diffusion)」という二つの補完的なパラダイムを通じて形式化し分析しました。これらのパラダイムに基づき、制御可能なテストベッドを構築し、Qwen3-8BおよびLlama-3.1-8B-Instructをベンチマークしました。実験結果は、自己進化の下でアライメントの利点が急速に失われ、最初にアライメントされたモデルが非アライメント状態に収束することを示しています。マルチエージェント環境では、成功した違反が迅速に拡散し、集団的なミスアライメントを引き起こします。さらに、現在の強化学習ベースのアライメント手法は、アライメント転換に対して脆弱な防御しか提供しません。これらの発見は、LLMエージェントのアライメントが静的な特性ではなく、フィードバック駆動型の劣化に対して脆弱な動的な特性であることを示しています。データとコードはhttps://github.com/aiming-lab/ATPで公開されています。
Mixture-of-Experts(MoE)アーキテクチャは、現代の大規模言語モデル(LLM)のスケーリングにおいて鍵となっていますが、そのスパースなルーティングダイナミクスが多言語データにどのように応答するかについてはほとんど理解されていません。本研究では、並列多言語データセットを用いてエキスパートルーティングパターンを分析し、非常に解釈可能な層ごとの現象を提示します。MoEモデルは、初期および後期のデコーダ層では言語固有の方法でトークンをルーティングしますが、中間層では顕著なクロスリンガルルーティングの整合性を示し、密なLLMで観察されるパラメータ共有の傾向を反映しています。特に、特定の言語におけるモデルのパフォーマンスと、これらの層で英語と同様にトークンがルーティングされる度合いとの間に明確で強い相関関係があることを明らかにします。相関関係を超えて、クロスリンガルルーティングの整合性を高める推論時の介入を探求します。英語で頻繁に活性化される中間層のタスクエキスパートを促進することでルーターを誘導する手法を導入し、多言語パフォーマンスを向上させることに成功しました。これらの1-2%の向上は、2つの評価タスク、3つのモデル、および15以上の言語にわたって驚くほど一貫しており、特にこれらの単純な介入が、高度に訓練された最先端のLLMのルーターを上書きすることを考えると注目に値します。比較すると、中間層以外での介入や多言語専門のエキスパートをターゲットにした介入は、パフォーマンスの低下をもたらすのみです。全体として、MoEが非英語テキストをどのように処理するかを説明する多くの知見を提示し、一般化がモデルの能力によって制限されること、すなわちすべての言語で言語普遍的なエキスパートを活用する能力によって制限されることを実証します。
人間は実践を通じて学習するのが得意です。私たちは直面する課題をその場で解決する方法を学びます。では、モデルも同じことができるでしょうか?私たちは、タスク固有のカリキュラムを組み立てるエージェントを提案します。これをテストタイムカリキュラム(TTC-RL)と呼び、強化学習を適用してモデルをターゲットタスク向けに継続的にトレーニングします。テストタイムカリキュラムは、大量の利用可能なトレーニングデータから自動的にタスクに関連性の高いデータを選択することで、時間のかかる人間によるデータセットのキュレーションを回避します。私たちの実験では、テストタイムカリキュラムを用いた強化学習が、様々な評価やモデルにおいて、ターゲットタスクに対するモデルの性能を一貫して向上させることが示されました。特に、難しい数学やコーディングのベンチマークでは、TTC-RLはQwen3-8Bのpass@1をAIME25で約1.8倍、CodeEloで約2.1倍向上させました。さらに、TTC-RLは初期モデルと比較して性能の上限を大幅に引き上げ、AIME25でのpass@8を40%から62%に、CodeEloでのpass@8を28%から43%に増加させました。私たちの研究結果は、テストタイムスケーリングのパラダイムを、テストタイム中に数千のタスク関連経験を継続的にトレーニングする領域に拡張する上で、テストタイムカリキュラムの可能性を示しています。
システムが超知能に向かうにつれ、自然なモデリングの前提として、エージェントは自身の設計のあらゆる側面において自己改善を行うことができる。これを5軸分解と意思決定層によって形式化し、インセンティブを学習行動から分離し、各軸を個別に分析する。我々の中心的な結果は、効用と学習の間に生じる鋭い緊張関係、すなわち自己修正システムにおける構造的衝突を特定し、導入するものである。この衝突は、即時または期待される性能を向上させる効用駆動の変更が、信頼性のある学習と汎化のための統計的前提条件を損なう可能性があるというものである。我々の研究結果は、分布非依存の保証が維持されるのは、ポリシー到達可能なモデル族が一様に容量制限されている場合に限られることを示している。容量が無制限に増加できる場合、効用合理的な自己変更は学習可能なタスクを学習不可能にすることがある。実践で一般的な標準的な仮定の下では、これらの軸は同じ容量基準に還元され、安全な自己修正のための単一の境界が得られる。複数の軸にわたる数値実験は、破壊的な効用ポリシーと、我々が提案した学習可能性を維持する二重ゲートポリシーを比較することで、理論を検証する。
大規模言語モデル(LLM)は、語彙的、意味的、および文体的に均質なテキストを生成する傾向がある。これにより、均質化したLLMが時間の経過とともにアクセス可能な情報の範囲を縮小させる「知識の崩壊」のリスクが生じる。既存の均質化に関する研究は、閉じた形式の多肢選択問題や曖昧な意味的特徴に焦点を当てたものであり、時間や文化的文脈にわたるトレンドを検討していない。これを克服するため、我々は認識論的多様性、すなわちLLMの出力における現実世界の主張の変異を測定する新しい方法論を提案し、LLMの知識崩壊に関する広範な実証研究を行う。27のLLM、12か国をカバーする155のトピック、および実際のユーザーチャットから収集した200のプロンプト変種をテストした。研究対象のトピックにおいて、新しいモデルはより多様な主張を生成する傾向があるものの、ほぼ全てのモデルが基本的なウェブ検索よりも認識論的多様性が低いことを示した。モデルのサイズは認識論的多様性に負の影響を与える一方、検索拡張生成(RAG)は正の影響を与えるが、RAGによる改善は文化的文脈によって異なることがわかった。最後に、伝統的な知識源(Wikipedia)と比較すると、国固有の主張は現地語よりも英語を反映していることが明らかとなり、認識論的表現におけるギャップが浮き彫りになった。
本研究では、分散計算を通じて完全に事前学習された初の公開拡散モデルであるParisを紹介する。Parisは、中央集権的なインフラを必要とせずに、高品質なテキストから画像への生成が可能であることを実証している。Parisは研究および商用利用のために公開されており、その開発には我々のDistributed Diffusion Trainingフレームワークを一から実装する必要があった。本モデルは、8つの専門拡散モデル(各129M~605Mパラメータ)で構成され、勾配、パラメータ、または中間活性化の同期なしに完全に独立して学習されている。数千のGPU間で同期された勾配更新を必要とする代わりに、データを意味的に一貫したクラスタに分割し、各専門家がそのサブセットを独立して最適化しながら、全体の分布を集合的に近似する。軽量なトランスフォーマールータが推論時に適切な専門家を動的に選択し、中央集権的なベースラインと同等の生成品質を達成する。同期を排除することで、専用の相互接続を必要とせずに異種ハードウェア上での学習が可能となる。実証的な検証により、Parisの分散学習は、大規模拡散モデルに必要な専用GPUクラスタの要件を削減しつつ、生成品質を維持することが確認された。Parisは、従来の分散ベースラインと比較して、14倍少ない学習データと16倍少ない計算量でこれを達成している。
大規模言語モデル(LLMs)におけるプライバシーリスクに関する議論は、訓練データの逐語的な記憶に偏重しており、より即時的でスケーラブルなプライバシー脅威の多様性が十分に検討されていない。本ポジションペーパーでは、LLMシステムのプライバシーリスクは、訓練データの抽出をはるかに超えて、データ収集手法、推論時のコンテキスト漏洩、自律エージェントの能力、深層推論攻撃を通じた監視の民主化などに及ぶことを論じる。LLMのライフサイクル全体(データ収集からデプロイメントまで)にわたるプライバシーリスクの包括的分類を提示し、ケーススタディを通じて、現在のプライバシーフレームワークがこれらの多面的な脅威に対処できていないことを示す。過去10年間(2016年~2025年)に主要な学会で発表された1,322件のAI/MLプライバシー論文の縦断的分析を通じて、記憶化が技術研究で過剰に注目される一方で、最も差し迫ったプライバシー被害は他の領域に存在し、現在の技術的アプローチではほとんど進展が見られず、有効な解決策が未だ不明瞭であることを明らかにする。研究コミュニティがLLMプライバシーに取り組む方法の根本的な転換を求め、現在の技術的解決策の狭い焦点を超え、これらの新興脅威の社会技術的性質に対処する学際的アプローチを採用することを提唱する。
LLMベースのマルチエージェントシステムは、計画立案、ツール使用、役割調整において優れた性能を発揮するが、その開放性と相互作用の複雑さから、ジャイルブレイク、プロンプトインジェクション、敵対的協調といったリスクにさらされる。既存の防御手法は大きく二つに分類される:(i) 各エージェントが実行前に安全でない指示を事前にフィルタリングする自己検証、(ii) 行動を監視する外部ガードモジュール。前者は、単独のエージェントがエージェント間の安全でない連鎖や委任に起因するリスクを検出する能力が不十分であるため、しばしば性能が低い。後者はシステムのオーバーヘッドを増加させ、一度侵害されるとシステム全体の安全性が崩壊する単一障害点を生み出し、さらにガードを追加するとコストと複雑さが悪化する。これらの課題を解決するため、我々はAdvEvo-MARLを提案する。これは、安全性をタスクエージェントに内在化する共進化的マルチエージェント強化学習フレームワークである。AdvEvo-MARLは、外部ガードに依存するのではなく、敵対的学習環境において、進化するジャイルブレイクプロンプトを合成する攻撃者と、自身の役割を果たしつつ攻撃に抵抗するように訓練された防御者(タスクエージェント)を同時に最適化する。学習を安定させ、協力を促進するため、我々はアドバンテージ推定のための公開ベースラインを導入する:同じ機能グループ内のエージェントはグループレベルの平均リターンベースラインを共有し、低分散の更新とグループ内の強力な協調を可能にする。代表的な攻撃シナリオにおいて、AdvEvo-MARLは攻撃成功率(ASR)を一貫して20%以下に抑え、ベースラインが最大38.33%に達するのに対し、タスク精度を維持し、場合によっては向上させた(推論タスクで最大+3.67%)。これらの結果は、追加のガードエージェントやシステムオーバーヘッドに頼ることなく、安全性と有用性を同時に向上させることが可能であることを示している。
マルチモーダルLLM駆動エージェントの自律性と汎化能力が向上し続ける中、静的なデータセットに基づく評価では、動的環境や多様なタスクにおける真の能力を適切に評価することがもはや困難になっています。既存のLLMベースの合成データ手法は、主にLLMのトレーニングと評価のために設計されており、ツール使用やインタラクティブな能力を必要とするエージェントタスクに直接適用することはできません。最近の研究では、LLMを用いた自動エージェントタスク生成が探求されていますが、その多くはテキストや画像分析に限定されており、ウェブ環境における多段階のインタラクションを体系的にモデル化していません。これらの課題に対処するため、我々はGraph2Evalを提案します。これは、知識グラフに基づくフレームワークであり、マルチモーダル文書理解タスクとウェブインタラクショタスクを自動生成し、エージェントの推論、協調、インタラクション能力を包括的に評価することを可能にします。我々のアプローチでは、多様な外部データから構築された知識グラフがタスク空間として機能し、サブグラフサンプリング、タスクテンプレート、メタパスを用いて意味的関係を構造化されたマルチモーダルタスクに変換します。ノード到達可能性、LLMスコアリング、類似性分析に基づく多段階フィルタリングパイプラインを適用し、生成されたタスクの品質と実行可能性を保証します。さらに、Graph2Evalは、複数のエージェントタイプ(シングルエージェント、マルチエージェント、ウェブエージェント)のエンドツーエンド評価をサポートし、推論、協調、インタラクション能力を測定します。我々は、Graph2Eval-Benchという1,319のタスクからなるキュレーションデータセットを用いてフレームワークを具体化しました。実験結果は、Graph2Evalがエージェントとモデルの性能を区別するタスクを効率的に生成し、異なる設定における推論、協調、ウェブインタラクションのギャップを明らかにし、エージェント評価の新たな視点を提供することを示しています。
べき乗変換は、データをよりガウス分布に近づけるための人気のあるパラメトリック手法であり、統計分析や機械学習における前処理ステップとして広く利用されている。しかし、べき乗変換の直接的な実装は深刻な数値的不安定性に悩まされ、誤った結果やクラッシュを引き起こすことがある。本論文では、これらの不安定性の原因を包括的に分析し、効果的な解決策を提案する。さらに、べき乗変換を連合学習の設定に拡張し、この文脈で生じる数値的および分布的な課題に対処する。実世界のデータセットを用いた実験により、提案手法が既存のアプローチと比較して安定性を大幅に向上させ、効果的かつ頑健であることを実証する。
受信者操作特性(ROC)曲線および適合率-再現率(PR)曲線は、機械学習分類器を評価するための基本的なツールであり、真陽性率と偽陽性率(ROC)または適合率と再現率(PR)のトレードオフに関する詳細な洞察を提供します。しかし、データが複数のクライアントに分散している連合学習(FL)シナリオでは、プライバシーと通信の制約により、これらの曲線を計算することが困難です。具体的には、サーバーは中央集権的な設定でROCおよびPR曲線を計算するために使用される生の予測スコアとクラスラベルにアクセスできません。本論文では、分散差分プライバシーの下で予測スコア分布の分位数を推定することにより、連合学習環境におけるROCおよびPR曲線を近似する新しい手法を提案します。真の曲線と推定曲線の間の面積誤差(AE)に関する理論的限界を示し、近似精度、プライバシー、通信コストのトレードオフを明らかにします。実世界のデータセットを用いた実験結果から、提案手法が最小限の通信と強力なプライバシー保証を伴い高い近似精度を達成し、連合システムにおけるプライバシー保護モデル評価に実用的であることが示されています。
我々は、コード生成におけるワールドモデルの研究を推進するため、320億パラメータのオープンウェイトLLMであるCode World Model (CWM)をリリースします。静的コードのみの学習では得られないコード理解を向上させるため、CWMをPythonインタプリタおよびエージェント型Docker環境からの大量の観測-行動軌跡で中間訓練し、検証可能なコーディング、数学、およびマルチターンソフトウェアエンジニアリング環境での広範なマルチタスク推論RLを実施しました。CWMを通じて、研究者が計算環境における推論と計画を用いたコード生成の改善にワールドモデリングが提供する機会を探るための強力なテストベッドを提供します。我々は、ワールドモデルがエージェント型コーディングにどのように役立つか、Pythonコード実行のステップバイステップシミュレーションを可能にするか、そして後者が推論にどのように役立つかの初期結果を示します。CWMは、最大131kトークンのコンテキストサイズで訓練された密なデコーダのみのLLMです。ワールドモデリング能力とは独立して、CWMは一般的なコーディングおよび数学タスクで強力な性能を発揮します:SWE-bench Verifiedでは65.8%(テストタイムスケーリングあり)、LiveCodeBenchでは68.6%、Math-500では96.6%、AIME 2024では76.0%のpass@1スコアを達成します。コードワールドモデリングのさらなる研究を支援するため、中間訓練、SFT、およびRL後のモデルチェックポイントを公開します。