翻訳付きの日次キュレーションされたAI研究論文
我々は、Apriel-1.5-15B-Thinkerを紹介する。これは150億パラメータのオープンウェイトのマルチモーダル推論モデルであり、単なる規模ではなく、トレーニング設計を通じてフロンティアレベルの性能を達成する。Pixtral-12Bを出発点として、以下の三段階の漸進的手法を適用した:(1) 深さのスケーリングにより、ゼロからの事前学習なしに推論能力を拡張、(2) 段階的な継続事前学習により、まず基礎的なテキストと視覚の理解を発展させ、その後、空間構造、構成理解、細粒度知覚に対処するためのターゲット合成データ生成を通じて視覚推論を強化、(3) 数学、コーディング、科学、ツール使用にわたる明示的な推論トレースを含む精選された指示-応答ペアに基づく高品質なテキストのみの教師ありファインチューニング。特に、我々のモデルは、強化学習や選好最適化なしに競争力のある結果を達成し、データ中心の継続事前学習アプローチの貢献を明確に示している。Artificial Analysis Intelligence Indexにおいて、Apriel-1.5-15B-Thinkerは52のスコアを獲得し、DeepSeek-R1-0528と同等の性能を示しながら、大幅に少ない計算リソースを必要とする。10の画像ベンチマークにおいて、その性能は平均してGemini-2.5-FlashおよびClaude Sonnet-3.7の5ポイント以内であり、シングルGPU展開の制約内で動作するモデルにとって重要な成果である。我々の結果は、中規模トレーニング設計を通じて、大規模なスケールなしに大きな能力ギャップを埋めることができることを示しており、限られたインフラを持つ組織にもフロンティアレベルのマルチモーダル推論を可能にする。我々は、オープンソース研究を推進するため、モデルチェックポイント、すべてのトレーニングレシピ、および評価プロトコルをMITライセンスの下で公開する。
大規模推論モデル(LRM)は、最終的な回答を生成する前に構造化された連鎖的思考(CoT)を生成することで「思考」を行うが、安全性の整合性について批判的に推論する能力が欠けており、誤った前提が思考プロセスに注入されると容易にバイアスがかかる。本研究では、RECAP(Robust Safety Alignment via Counter-Aligned Prefilling)を提案する。これは、モデルに誤った推論軌道を上書きし、安全で有益な応答に再ルーティングすることを明示的に教える、原則に基づいた強化学習(RL)手法である。RECAPは、合成的に生成されたカウンターアラインドCoTプリフィルと標準プロンプトの混合で学習し、人間のフィードバックからの標準的な強化学習(RLHF)を超える追加の学習コストや修正を必要とせず、安全性とジェイルブレイクに対する堅牢性を大幅に向上させ、過剰拒否を減少させ、中核的な推論能力を維持する――すべて推論トークンの予算を維持しながら行う。詳細な分析により、RECAPで学習されたモデルは自己反省をより頻繁に行い、適応的攻撃下でも堅牢性を保ち、推論を上書きしようとする繰り返しの試みの後も安全性を維持することが示された。
視覚トークンはマルチモーダル大規模モデル(MLLMs)において、計算リソースを大量に消費し、その効率を著しく低下させます。最近の研究では、モデルコンポーネントの変更や追加パラメータの導入を通じて、トレーニング中の視覚トークンを圧縮することで効率を向上させようとする試みがなされています。しかし、これらの圧縮によって引き起こされる特徴空間の大幅な摂動にモデルのパラメータ空間が迅速に適応できないため、学習の難易度が増大する点がしばしば見過ごされています。本研究では、Progressive Consistency Distillation(EPIC)を用いた効率的なMLLMsの開発を提案します。具体的には、トークン圧縮によって導入される特徴空間の摂動をトークン次元と層次元に分解し、それぞれトークン一貫性蒸留と層一貫性蒸留を導入することで、教師モデルからのガイダンスを活用し、段階的な学習軌跡に従うことでトレーニングの難易度を低減することを目指します。広範な実験により、提案するフレームワークの優れた有効性、堅牢性、および汎化能力が実証されています。
深い研究がデータ分析を革新してきたにもかかわらず、データサイエンティストは依然として視覚化を手動で作成するために多くの時間を費やしており、自然言語クエリからの堅牢な自動化の必要性が浮き彫りになっている。しかし、現在のシステムは、複数のファイルや反復的な改良を含む複雑なデータセットに対処するのに苦労している。既存のアプローチ、例えば単一または複数のエージェントシステムは、タスクを過度に単純化し、初期のクエリ解析に焦点を当てる一方で、データの複雑さ、コードエラー、または最終的な視覚化の品質を堅牢に管理することに失敗している。本論文では、この課題を協調的なマルチエージェント問題として再定義する。我々は、メタデータ分析、タスク計画、コード生成、自己反映に特化したLLMエージェントを採用するマルチエージェントシステムであるCoDAを紹介する。このパイプラインを形式化し、メタデータに焦点を当てた分析がトークン制限を回避し、品質主導の改良が堅牢性を確保する方法を示す。広範な評価により、CoDAが全体スコアで大幅な向上を達成し、競合するベースラインを最大41.5%上回ることが示された。この研究は、視覚化自動化の未来が孤立したコード生成ではなく、統合された協調的なエージェントワークフローにあることを示している。
会話型音声言語モデル(SLM)は、リアルタイム音声インタラクションの有望なパラダイムとして台頭しつつある。しかし、その時間的ダイナミクス、すなわちタイミング、テンポ、同時発話を管理する能力は、会話の流暢性にとって重要な未評価の課題として残されている。このギャップを埋めるため、我々は「Game-Time Benchmark」を導入し、これらの時間的能力を体系的に評価するフレームワークを提案する。人間が言語活動を通じて言語を学ぶ方法に着想を得たGame-Timeは、基本的な指示追従タスクと、テンポの遵守や同期応答といった時間的制約を伴う高度なタスクで構成される。多様なSLMアーキテクチャの評価から、最先端のモデルは基本的なタスクをうまく処理する一方、多くの現代的なシステムは基本的な指示追従において依然として苦戦していることが明らかとなった。さらに重要なことに、時間的制約下ではほぼ全てのモデルが大幅に性能を低下させ、時間認識と全二重インタラクションにおける持続的な弱点が露呈した。Game-Time Benchmarkは、より時間認識能力の高い会話型AIの研究を導く基盤を提供する。デモとデータセットはプロジェクトウェブサイト(https://ga642381.github.io/Game-Time)で公開されている。
近年、NVIDIAおよびAMDのGPUでサポートされているMXFP4やNVFP4などのハードウェアアクセラレーションを活用した4ビット浮動小数点フォーマットは、大規模言語モデル(LLM)の推論に革命をもたらすと期待されている。しかし、その実用的な利点は未だ証明されていない。本研究では、MXFP4およびNVFP4を用いた学習後量子化に関する初の包括的な調査を行い、その期待と実世界での性能との間に存在するギャップを明らかにする。我々の分析によれば、最先端の手法はFP4において以下の2つの主要な課題に直面している:(1) NVFP4の小さなグループサイズは、従来の外れ値緩和技術を無効化することが証明されている;(2) MXFP4の2のべき乗スケール量子化は、高い誘導誤差により精度を著しく低下させる。このギャップを埋めるため、我々はMicro-Rotated-GPTQ(MR-GPTQ)を提案する。これは、ブロック単位のアダマール変換とフォーマット固有の最適化を用いて、FP4の特性に合わせて量子化プロセスを調整する、古典的なGPTQ量子化アルゴリズムの変種である。提案手法をサポートするため、重みへの回転融合と活性化の高速オンライン計算を実現する一連の高性能GPUカーネルを開発し、MR-GPTQフォーマットを無視可能なオーバーヘッドで実現した。これにより、NVIDIA B200ではレイヤー単位で最大3.6倍、エンドツーエンドで2.2倍の高速化を、RTX5090ではレイヤー単位で6倍、エンドツーエンドで4倍の高速化を達成した。広範な実証評価の結果、MR-GPTQは最先端の精度を達成または上回り、MXFP4の精度を大幅に向上させ、NVFP4に近づけることが示された。結論として、FP4はINT4に対する自動的なアップグレードではないものの、MR-GPTQのようなフォーマット特化型の手法は、精度と性能の新たなトレードオフの可能性を開くことができる。
ロボット制御のための拡散モデル、特に視覚-言語-行動(VLA)および視覚-行動(VA)ポリシーは、その優れた能力を実証してきました。しかし、大規模なインタラクションデータセットの取得コストが高いため、その進展は制約を受けています。本研究では、追加のモデルトレーニングなしにポリシーパフォーマンスを向上させるための新たなパラダイムを提案します。驚くべきことに、合成されたポリシーが親ポリシーのいずれをも上回る性能を発揮することを実証します。我々の貢献は三つあります。第一に、複数の拡散モデルからの分布スコアの凸結合が、個々のスコアよりも優れた1ステップの関数目的を生み出すことを示す理論的基盤を確立します。その後、Gr\"onwall型の境界を用いて、この単一ステップの改善が生成軌跡全体に伝播し、システム全体の性能向上につながることを示します。第二に、これらの結果に基づいて、事前学習済みの複数のポリシーの分布スコアを凸結合とテスト時探索によって組み合わせることで性能を向上させる、トレーニング不要の手法であるGeneral Policy Composition(GPC)を提案します。GPCは柔軟性が高く、VAやVLAモデル、拡散やフローマッチングに基づくモデルなど、異種のポリシーをプラグアンドプレイで合成することが可能であり、入力視覚モダリティに関係なく適用できます。第三に、広範な実証的検証を提供します。Robomimic、PushT、RoboTwinベンチマークでの実験と実世界のロボット評価を通じて、GPCが多様なタスクにおいて一貫して性能と適応性を向上させることを確認します。さらに、代替の合成演算子と重み付け戦略の分析を通じて、GPCの成功の背後にあるメカニズムについての洞察を提供します。これらの結果は、既存のポリシーを活用して制御性能を向上させるためのシンプルかつ効果的な手法としてGPCを確立します。
大規模言語モデル(LLM)の自己改善に関する最近の進展は、特に人的コストを大幅に増加させることなく、モデルの能力を効率的に向上させてきた。この分野はまだ比較的新しいが、マルチモーダル領域への拡張は、多様なデータソースを活用し、より汎用的な自己改善モデルを開発するための大きな可能性を秘めている。本調査は、マルチモーダルLLM(MLLM)における自己改善について包括的な概観を提供する初めてのものである。我々は、現在の文献を体系的に概観し、1)データ収集、2)データ整理、3)モデル最適化という3つの観点から手法を議論し、MLLMにおける自己改善のさらなる発展を促進する。また、一般的に使用される評価方法と下流アプリケーションについても取り上げる。最後に、未解決の課題と今後の研究の方向性を概説して結論とする。
大規模言語モデル(LLM)の進展により、環境との相互作用を通じて自律的に進化する新たなクラスのエージェントが実現され、強力な能力を示しています。しかし、自己進化はまた、現在の安全性研究では見過ごされている新たなリスクをもたらします。本研究では、エージェントの自己進化が意図しない方向に逸脱し、望ましくない、あるいは有害な結果を引き起こすケースを検討します。これを「誤進化(Misevolution)」と呼びます。体系的な調査を提供するため、誤進化を4つの主要な進化経路(モデル、メモリ、ツール、ワークフロー)に沿って評価します。実証的な結果から、誤進化はトップクラスのLLM(例:Gemini-2.5-Pro)上に構築されたエージェントにも広く影響を及ぼすリスクであることが明らかになりました。自己進化プロセスにおいて、メモリ蓄積後の安全性アライメントの劣化や、ツール作成および再利用における意図しない脆弱性の導入など、さまざまな新たなリスクが観察されました。私たちの知る限り、誤進化を体系的に概念化し、その発生を実証的に示した初めての研究であり、自己進化エージェントのための新たな安全性パラダイムの緊急性を強調しています。最後に、より安全で信頼性の高い自己進化エージェントを構築するためのさらなる研究を促すための緩和策について議論します。コードとデータはhttps://github.com/ShaoShuai0605/Misevolutionで公開されています。注意:本論文には攻撃的または有害な性質の例が含まれています。
LLM(大規模言語モデル)は、マルチモーダルデータを解釈する強力なツールとして登場している。医療分野では、特に大量の臨床情報を実践的な洞察やデジタルヘルスアプリケーションに統合する可能性が期待されている。しかし、主要な制約として、時系列データを扱う能力が欠如している点が挙げられる。このギャップを克服するため、我々はOpenTSLMを提案する。これは、事前学習済みのLLMに時系列をネイティブなモダリティとして統合し、任意の長さの複数の時系列データに対する推論を可能にする、時系列言語モデル(TSLM)のファミリーである。OpenTSLMの2つのアーキテクチャを検討した。1つ目はOpenTSLM-SoftPromptで、学習可能な時系列トークンをテキストトークンとソフトプロンプトを介して連結することで、時系列を暗黙的にモデル化する。パラメータ効率は高いが、明示的な時系列モデル化の方がスケーラビリティと性能において優れると仮定し、2つ目のアーキテクチャであるOpenTSLM-Flamingoを導入した。これは、時系列とテキストをクロスアテンションを介して統合する。両バリアントを、時系列をテキストトークンまたはプロットとして扱うベースラインと比較し、一連のテキスト-時系列連鎖思考(CoT)推論タスクで評価した。3つのデータセット(HAR-CoT、Sleep-CoT、ECG-QA-CoT)を導入し、すべてのデータセットにおいてOpenTSLMモデルがベースラインを上回り、睡眠段階判定では69.9 F1、HARでは65.4を達成した。これは、テキストのみのファインチューニングモデルの9.05および52.2と比較して高い値である。特に、1BパラメータのOpenTSLMモデルでさえGPT-4o(15.47および2.95)を上回った。OpenTSLM-Flamingoは、OpenTSLM-SoftPromptと同等の性能を維持し、長いシーケンスでは優れた性能を示しつつ、メモリ要件も安定していた。一方、SoftPromptはシーケンス長に応じてメモリ使用量が指数関数的に増加し、ECG-QAをLLaMA-3Bでトレーニングする際に約110 GBのVRAMを必要とした(Flamingoは40 GB)。臨床医による専門家レビューでは、OpenTSLMがECG-QAにおいて強力な推論能力を示すことが確認された。さらなる研究を促進するため、すべてのコード、データセット、モデルをオープンソースとして提供する。
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間が解釈可能な特徴にスパース分解する技術です。しかし、現在のSAEは、特定の特徴が一般的な特徴のインスタンスを捕捉して表現の穴を作る「特徴吸収」や、独立した特徴が複合表現に融合する「特徴合成」といった問題に悩まされています。本研究では、これらの問題を緩和するために、学習された特徴間の直交性を強制する新しいアプローチであるOrthogonal SAE(OrtSAE)を提案します。SAE特徴間の高いコサイン類似度をペナルティとする新しいトレーニング手順を導入することで、OrtSAEは解離された特徴の発展を促進し、SAEのサイズに対して線形にスケーリングするため、大きな計算オーバーヘッドを回避します。異なるモデルや層でOrtSAEをトレーニングし、他の手法と比較しました。その結果、OrtSAEは9%多くの異なる特徴を発見し、特徴吸収を65%、特徴合成を15%削減し、偽相関除去の性能を6%向上させ、従来のSAEと同等の性能を他の下流タスクで達成することがわかりました。
拡散モデルに基づくテキストから画像への変換(T2I)モデルの最近の進展により、テキストプロンプトから高品質な画像を生成することが可能になりました。しかし、最先端の拡散モデルにおいて、テキストと生成された画像の正確な整合性を確保することは依然として大きな課題です。この問題に対処するため、既存の研究では人間のフィードバックを用いた強化学習(RLHF)を活用し、T2Iの出力を人間の好みに合わせる取り組みが行われています。これらの手法は、ペア画像の選好データに直接依存するか、学習された報酬関数を必要とし、いずれも高品質な人間のアノテーションに大きく依存するため、スケーラビリティに制約があります。本研究では、ペア画像の選好データを必要とせずにT2Iモデルの整合性を実現する「無料の整合性」を可能にするText Preference Optimization(TPO)フレームワークを提案します。TPOは、大規模言語モデルを用いて元のキャプションを改変して作成された不一致プロンプトよりも一致プロンプトを選好するようにモデルを訓練することで機能します。本フレームワークは汎用的であり、既存の選好ベースのアルゴリズムと互換性があります。DPOとKTOを本設定に拡張し、TDPOとTKTOを実現しました。複数のベンチマークにおける定量的および定性的な評価により、提案手法が元の手法を一貫して上回り、人間の選好スコアとテキストから画像への整合性が向上することが示されました。オープンソースコードはhttps://github.com/DSL-Lab/T2I-Free-Lunch-Alignmentで公開しています。
小型視覚言語モデル(VLM)は、計算効率の良い代替手段を提供しますが、一般化能力や下流タスクの性能が弱いという代償を伴います。これらの欠点はテスト時のスケーリング技術によって解決可能ですが、既存の手法は通常計算量が多く、小型モデルのリソース効率設計目標と矛盾します。これらの制限に対処するため、外部の監視ではなくモデル内部の特徴を活用した、2つの新しい効率的なテスト時スケーリング戦略を提案します:(i) テスト時拡張(TTAug)は、複数の拡張入力を生成し、パラメータ更新なしにトークンレベルで出力を集約します。(ii) テスト時適応(TTAdapt)は、TTAugからのコンセンサスベースの擬似ラベルを使用して、推論中にモデルパラメータを適応させます。9つのベンチマークにわたる広範な実験を通じて、リソース制約環境に適した計算効率を維持しながら、一貫した性能向上を実証します。本手法の汎用性は、異なるスケールのモデル内および異なるVLM間で、追加のチューニングなしに示されています。
大規模言語モデル(LLM)のポストトレーニングは、新たな知識の獲得や誤りの修正に伴う高コスト、および再トレーニングから頻繁に生じる意図しない副作用によって制約を受けています。これらの課題に対処するため、我々はREPAIR(Robust Editing via Progressive Adaptive Intervention and Reintegration)を提案します。これは、非ターゲット知識を維持しつつ、正確で低コストなモデル更新をサポートするための生涯編集フレームワークです。REPAIRは、閉ループフィードバックメカニズムと動的メモリ管理を組み合わせることで、大規模な逐次編集における不安定性や衝突を緩和します。さらに、頻繁な知識融合を組み込み、強力な局所性ガードを適用することで、従来の分布非依存型アプローチがしばしば見落とす意図しない波及効果の欠点を効果的に解決します。我々の実験では、REPAIRが複数のモデルファミリーにわたって編集精度を10%~30%向上させ、知識の忘却を大幅に減少させることを示しています。この研究は、信頼性が高く、スケーラブルで、継続的に進化するLLMを開発するための堅牢なフレームワークを提供します。
3Dシーンの再構築と新規視点の合成は、近年急速な進展を遂げています。Neural Radiance Fields(NeRF)は、連続的な体積放射場が高品質な画像合成を実現できることを示しましたが、その長い学習時間とレンダリング時間が実用性を制限していました。3D Gaussian Splatting(3DGS)は、シーンを数百万のガウシアンで表現することでこれらの問題に対処し、リアルタイムレンダリングと高速な最適化を可能にしました。しかし、ガウシアンプリミティブは、VRヘッドセットやリアルタイムグラフィックスアプリケーションで使用されるメッシュベースのパイプラインとネイティブに互換性がありません。既存の解決策は、ガウシアンをメッシュに変換するために後処理や二段階パイプラインを試みますが、これにより複雑さが増し、視覚品質が低下します。本研究では、Triangle Splatting+を紹介します。これは、微分可能なスプラッティングフレームワーク内で、コンピュータグラフィックスの基本プリミティブである三角形を直接最適化するものです。共有頂点を通じた接続性を可能にする三角形のパラメータ化を定式化し、不透明な三角形を強制する学習戦略を設計します。最終的な出力は、後処理なしで標準のグラフィックスエンジンで即座に使用可能です。Mip-NeRF360およびTanks & Templesデータセットでの実験により、Triangle Splatting+がメッシュベースの新規視点合成において最先端の性能を達成することが示されました。本手法は、視覚的忠実度において従来のスプラッティングアプローチを凌駕しつつ、効率的で高速な学習を実現しています。さらに、得られた半接続メッシュは、物理ベースのシミュレーションやインタラクティブなウォークスルーなどの下流アプリケーションをサポートします。プロジェクトページはhttps://trianglesplatting2.github.io/trianglesplatting2/です。
学術サーベイ論文の執筆は、膨大な文献を一貫性のある洞察に富んだナラティブに凝縮する作業であり、依然として労力を要し、知的に要求の高いタスクです。近年のアプローチ、例えば一般的なDeepResearchエージェントやサーベイ特化型の手法は、自動的にサーベイを生成することが可能です(いわゆるLLM4Survey)。しかし、その出力は人間の基準に及ばないことが多く、その欠陥を徹底的に明らかにするための厳密で読者に沿ったベンチマークが不足しています。このギャップを埋めるため、我々は細粒度のクイズ駆動型評価フレームワークSurveyBenchを提案します。その特徴は、(1) 最近の11,343件のarXiv論文と対応する4,947件の高品質なサーベイから得られる典型的なサーベイトピック、(2) アウトラインの品質(例:カバレッジの広さ、論理的一貫性)、コンテンツの品質(例:合成の粒度、洞察の明瞭さ)、および非テキスト的な豊かさを評価する多面的なメトリック階層、(3) 読者の情報ニーズに明示的に沿ったコンテンツベースとクイズベースの回答可能性テストを含むデュアルモード評価プロトコルです。結果は、SurveyBenchが既存のLLM4Surveyアプローチに効果的に挑戦することを示しています(例:コンテンツベース評価では平均21%人間より低い)。
標準的な離散拡散モデルでは、すべての未観測状態を等しく扱い、それらを吸収[MASK]トークンにマッピングします。これにより、ノイズ除去ステップ間で、マスクされていないトークンから推論可能な意味情報が失われる「情報の空白」が生じます。本研究では、連続潜在空間におけるペアの拡散を離散状態空間に追加するContinuously Augmented Discrete Diffusion (CADD)フレームワークを提案します。これにより、マスクされたトークンが崩壊した「情報の空白」ではなく、ノイズを含むが情報量のある潜在ベクトルとして表現される、段階的に劣化した状態が得られます。各逆ステップにおいて、CADDは連続潜在を意味的なヒントとして活用し、離散的なノイズ除去を導くことができます。この設計はシンプルで、既存の離散拡散トレーニングと互換性があります。サンプリング時には、連続潜在ベクトルの推定器の強度と選択により、モードカバレッジ(多様な出力を生成する)とモードシーキング(文脈的に正確な出力を生成する)の行動の間で制御されたトレードオフが可能になります。実験的に、CADDがテキスト生成、画像合成、コードモデリングにおいてマスクベースの拡散を上回る生成品質を向上させることを示し、強力な離散ベースラインに対して定性的および定量的な指標で一貫した改善を示します。
大規模言語モデル(LLM)をエージェントとしてマルチターン強化学習(RL)で訓練する際に、実際に有効な手法とそうでないものを研究します。急速な進展にもかかわらず、既存のフレームワークや定義は断片的であり、タスク間でどの設計選択が重要かについて体系的な定式化や分析が欠けています。このギャップを埋めるため、まず設計空間を3つの相互に関連する柱——環境、報酬、ポリシー——に分解し、状況依存のテキスト領域でLLMエージェントを訓練するためのレシピを実証的に導出します。特に、状況依存の具象的推論をテストするための人気領域であるTextWorldとALFWorld、およびソフトウェアエンジニアリングスタイルのタスクに適したSWE-Gymを検証します。(i) 環境に関しては、状態空間と行動空間のサイズ、および最適解の長さという観点からタスクの複雑さの影響を分析し、領域内の単純な環境でも、エージェントがより複雑なタスクに一般化できるかどうかの信号を提供できることを明らかにします。(ii) 報酬に関しては、相対的な報酬の希薄性を除去し、ターンレベルの密な報酬が訓練を加速する一方で、性能と安定性はRLアルゴリズムの選択に大きく依存することを観察します。(iii) エージェントのポリシーに関しては、報酬の希薄性とバイアス付き(PPO、GRPO)およびバイアスなし(RLOO)のポリシー勾配法の相互作用を探り、固定予算内で最適な教師あり微調整(SFT)からRL訓練への比率を見つける方法を示します。これらの知見を、3つの柱全体にわたる共同設計を導く訓練レシピに凝縮し、マルチターンエージェントRLの研究と実践的な取り組みを促進します。コード: https://github.com/pearls-lab/meow-tea-taro
脊椎疾患は世界中で6億1900万人に影響を及ぼし、障害の主要な原因となっていますが、AIによる診断支援は、レベルを意識したマルチモーダルデータセットの不足によって制限されています。脊椎疾患の臨床意思決定には、特定の椎骨レベルにおけるX線、CT、MRIを横断した高度な推論が必要です。しかし、追跡可能で臨床に基づいた指示データや標準化された脊椎特化のベンチマークが欠如しているため、進展が妨げられています。この問題に対処するため、私たちは現役の脊椎外科医と共同設計したエコシステム「SpineMed」を導入しました。SpineMedは、450,000以上の指示インスタンスを備えた、画像モダリティを横断した椎骨レベルの推論に特化した初の大規模データセット「SpineMed-450k」と、臨床に基づいた評価フレームワーク「SpineBench」を特徴としています。SpineMed-450kは、教科書、ガイドライン、オープンデータセット、および約1,000件の匿名化された病院症例など、多様なソースからキュレーションされ、臨床医がループ内にいるパイプラインと二段階のLLM生成方法(草案と修正)を使用して、質の高く追跡可能なデータを確保し、質問応答、多段階相談、およびレポート生成に活用されます。SpineBenchは、レベル識別、病理評価、手術計画など、臨床的に重要な軸に沿ってモデルを評価します。SpineBenchを用いた最近の大規模視覚言語モデル(LVLM)の包括的評価では、細かいレベル特化の推論における体系的な弱点が明らかになりました。一方、SpineMed-450kでファインチューニングされた私たちのモデルは、すべてのタスクにおいて一貫して大幅な改善を示しました。臨床医の評価により、モデルの出力の診断の明確さと実用性が確認されました。
大規模言語モデル(LLM)の最近の進展により、自然言語インタラクションを備えた生成的レコメンダーが実現されたが、その推薦行動は限定的であり、メタデータや属性フィルタリングなどのより単純ながら重要なコンポーネントがシステム内で十分に活用されていない。本論文では、ツール呼び出しを備えたLLMベースの音楽推薦システムを提案し、統合された検索・再ランキングパイプラインとして機能させる。本システムは、LLMをエンドツーエンドの推薦システムとして位置付け、ユーザーの意図を解釈し、ツール呼び出しを計画し、専門的なコンポーネント(ブールフィルタ(SQL)、スパース検索(BM25)、密な検索(埋め込み類似度)、生成的検索(セマンティックID))を調整する。ツール計画を通じて、システムは使用するツールの種類、その実行順序、およびユーザーの嗜好に合致する音楽を見つけるために必要な引数を予測し、多様なモダリティをサポートしながら、複数のデータベースフィルタリング方法をシームレスに統合する。本論文では、この統合されたツール呼び出しフレームワークが、ユーザークエリに基づいて適切な検索方法を選択的に採用することで、多様な推薦シナリオにおいて競争力のある性能を達成することを示し、会話型音楽推薦システムの新たなパラダイムを展望する。
GUIグラウンディング、すなわち自然言語の指示をピクセル座標にマッピングするタスクは、自律エージェントにとって極めて重要であるが、現在の視覚言語モデル(VLM)にとって依然として困難な課題である。その核心的なボトルネックは、信頼性の高いパッチからピクセルへのマッピングであり、トレーニング中に見られなかった高解像度ディスプレイへの外挿時に破綻する。現在のアプローチでは、視覚的特徴から直接テキストトークンとして座標を生成するため、モデルは複雑な位置からピクセルへのマッピングを暗黙的に推論することを強いられ、その結果、精度が低下し、新しい解像度での失敗が増える。我々はこれを2つの補完的なイノベーションで解決する。まず、RULERトークンは明示的な座標マーカーとして機能し、モデルが地図上のグリッドラインのように位置を参照し、座標をゼロから生成するのではなく調整できるようにする。次に、Interleaved MRoPE(I-MRoPE)は、幅と高さの次元が均等に表現されるようにすることで空間エンコーディングを改善し、標準的な位置符号化スキームの非対称性に対処する。ScreenSpot、ScreenSpot-V2、およびScreenSpot-Proでの実験では、グラウンディング精度の一貫した向上が確認され、特に高解像度インターフェースで最大の改善が見られた。暗黙的な学習に依存するのではなく、明示的な空間ガイダンスを提供することで、我々のアプローチは多様な解像度やプラットフォームにわたるより信頼性の高いGUI自動化を可能にする。
大規模言語モデル(LLM)を基盤とするウェブエージェントは、ユーザーの目標を達成するために長大なウェブページの観測データを処理する必要がある。これらのページはしばしば数万トークンを超え、コンテキストの制限を飽和させ、計算コストを増大させる。さらに、ページ全体を処理することは、プロンプトインジェクションなどのセキュリティリスクをエージェントにさらす。既存の剪定戦略は、関連するコンテンツを破棄するか、無関係なコンテキストを保持するため、最適でないアクション予測につながる。我々は、FocusAgentを提案する。これは、タスク目標に基づいてアクセシビリティツリー(AxTree)の観測データから最も関連性の高い行を抽出するために、軽量なLLMリトリーバーを活用するシンプルかつ効果的なアプローチである。ノイズや無関係なコンテンツを剪定することで、FocusAgentは効率的な推論を可能にし、インジェクション攻撃に対する脆弱性を低減する。WorkArenaおよびWebArenaベンチマークでの実験では、FocusAgentが強力なベースラインと同等の性能を発揮しつつ、観測サイズを50%以上削減することを示した。さらに、FocusAgentのバリエーションは、バナーやポップアップ攻撃を含むプロンプトインジェクション攻撃の成功率を大幅に低減し、攻撃のない設定でのタスク成功性能を維持した。我々の結果は、ターゲットを絞ったLLMベースのリトリーバルが、効率的で効果的かつ安全なウェブエージェントを構築するための実用的で堅牢な戦略であることを強調している。
Deepseek-R1のリリース以来、検証可能な報酬を用いた強化学習(RLVR)は、推論タスクにおける大規模言語モデル(LLM)の訓練において中心的なアプローチとなっている。最近の研究では、RLVRをより効率的かつ効果的にするために損失関数の修正に焦点が当てられてきた。本論文では、LLMにおける過剰思考(overthinking)に関する研究に着想を得て、平均応答長に基づいて各ステップで訓練データを動的に選択する新しいメタRLVRアルゴリズム、Length-aware Sampling for Policy Optimization(LSPO)を提案する。我々はLSPOを複数のベースモデルとデータセットで評価し、それが一貫して学習効果を向上させることを実証する。さらに、長さの信号を動的サンプリングに組み込む代替方法を検討する詳細なアブレーション研究を行い、さらなる洞察を提供し、将来の研究に向けた有望な方向性を提示する。
Webエージェントに対する複数のプロンプトインジェクション攻撃が提案されている。一方、一般的なプロンプトインジェクション攻撃を検出するための様々な手法が開発されているが、Webエージェント向けに体系的に評価されたものはない。本研究では、Webエージェントを標的としたプロンプトインジェクション攻撃の検出に関する初の包括的なベンチマーク研究を提示し、このギャップを埋める。まず、脅威モデルに基づいて、このような攻撃を細かく分類する。次に、悪意のあるテキストセグメント(異なる攻撃によって生成されたもの)と良性のテキストセグメント(4つのカテゴリから)、攻撃によって生成された悪意のある画像と良性の画像(2つのカテゴリから)を含むデータセットを構築する。その後、テキストベースおよび画像ベースの検出手法を体系化する。最後に、複数のシナリオにおいてそれらの性能を評価する。主な発見として、明示的なテキスト指示や目に見える画像の摂動に依存する攻撃を中程度から高い精度で識別できる検出器が存在する一方、明示的な指示を省略したり、知覚できない摂動を採用する攻撃に対してはほとんど失敗することが明らかになった。我々のデータセットとコードは以下で公開されている:https://github.com/Norrrrrrr-lyn/WAInjectBench。
現在の大規模言語モデル(LLM)の開発では、課題解決と選好整合性を別々の課題として扱い、まず客観的正しさを最適化し、その後集約された人間の選好に整合させることを目指している。このパラダイムは、問題を正しく解決しても、応答がユーザーのニーズに合致しない場合に不十分となる人間向けアプリケーションでは失敗する。この課題は、コールドスタート条件やプライバシー制約により事前のユーザーインタラクション履歴が存在しないジャストインタイムシナリオでさらに深刻化する。LLMは、ユーザーの選好について知らないことを特定し、質問を通じて選好値を戦略的に引き出し、その推論プロセスと応答を適応させる必要がある。この複雑な認知プロセスの連鎖を、我々は「パーソナライズド推論」と呼ぶ。本論文では、PREFDISCOという評価方法論を紹介する。これは、心理学的に基づいたスパースな選好を持つペルソナを使用して、静的ベンチマークをインタラクティブなパーソナライゼーションタスクに変換するものである。我々のフレームワークは、同一の質問でもユーザーの文脈に応じて異なる推論連鎖を必要とするシナリオを作り出す。最適な説明アプローチは、個人の専門知識や選好によって異なるが、事実の正確性は維持される。10のタスクにわたる21の最先端モデルの評価により、ナイーブなパーソナライゼーション試行の29.0%が一般的な応答よりも選好整合性が低いことが明らかになったが、一般的な応答も個々のユーザーニーズに効果的に対応できないことが分かった。これらの結果は、パーソナライズド推論が自然に生じるのではなく、専用の開発を必要とすることを示唆している。PREFDISCOは、パーソナライズド推論を測定可能な研究フロンティアとして確立し、現在のLLMのインタラクティブ能力における根本的な限界を明らかにする。これにより、教育、医療、技術分野などパーソナライゼーションが重要な領域で、個々のユーザーに適応できるシステム開発の基盤を提供する。
報酬を用いた離散拡散モデル(DDM)の最適化は依然として課題である: 非自己回帰的なパラダイムは重要度サンプリングを困難にし、 ロールアウトを複雑にするため、Group Relative Policy Optimization(GRPO)などの強化学習手法を難解にしている。本研究では、MaskGRPOを導入し、離散拡散におけるスケーラブルな多モーダル強化学習を可能にする初めての実用的なアプローチを提案する。これにより、効果的な重要度サンプリングとモダリティ固有の適応を実現する。そのために、まずDDMの理論的基盤を明確にし、勾配更新に有用なトークンの変動を捉える重要度推定器の構築を容易にする。次に、視覚シーケンスのためのロールアウト手法を精巧に調整し、多様な補完と信頼性の高い最適化勾配を生み出す。数学的推論、コーディング、視覚生成のベンチマークにおいて、MaskGRPOはより安定した効率的な更新をもたらし、より強力な推論性能と優れた生成品質を実現する。本研究は、MaskGRPOを体系的なポリシー最適化アプローチとして確立し、離散化された視覚拡散のための初めての実用的な方法を示すものである。
勾配降下法は、数多くの機械学習アプリケーションにおいて強力かつ効果的な最適化技術として証明されてきた。近年の計算神経科学の進展により、標準的な勾配降下法の最適化定式化における学習は、生物学的システムにおける学習と一致しないことが示されている。これにより、生物学的にインスパイアされた学習技術を構築するための興味深い道が開かれた。そのようなアプローチの一つは、デールの法則に基づいており、これは抑制性シナプスと興奮性シナプスが学習の過程で役割を交換しないことを述べている。これに基づく指数勾配降下法の最適化スキームは、対数正規分布に従うシナプス重みをもたらす。興味深いことに、幾何ブラウン運動(GBM)に基づく確率微分方程式(SDE)に対応するフォッカー・プランク方程式を満たす密度は、対数正規密度である。この関連性を活用し、幾何ブラウン運動を支配するSDEから出発し、対応する逆時間SDEを離散化すると、乗法的更新規則が得られることが示される。驚くべきことに、この更新規則は、デールの法則に基づく指数勾配降下法の更新のサンプリング等価物と一致する。さらに、非負データに対するHyvaerinenによって提案された損失関数を含む、乗法的ノイズ除去スコアマッチングの新しい形式を提案する。実際、対数正規分布に従うデータは正であり、提案されたスコアマッチング形式は自然に適合する。これにより、画像データに対するスコアベースモデルの学習が可能となり、対数正規密度から始まるサンプル生成のための新しい乗法的更新スキームが得られる。MNIST、Fashion MNIST、およびKuzushijiデータセットにおける実験結果は、この新しいスキームの生成能力を示している。私たちの知る限り、これは幾何ブラウン運動に基づく乗法的更新を採用した生物学的にインスパイアされた生成モデルの最初の例である。
検索拡張生成(Retrieval-Augmented Generation, RAG)は、文書検索と大規模言語モデル(LLMs)を組み合わせた手法である。生成器のスケーリングは精度を向上させるが、同時にコストを増大させ、展開可能性を制限する。本研究では、別の軸として、検索器のコーパスを拡大することで大規模LLMへの依存を軽減する方法を探る。実験結果から、コーパスのスケーリングは一貫してRAGの性能を強化し、多くの場合、モデルサイズの増大に代わる手段として機能することが示された。ただし、スケールが大きくなるにつれて収益逓減が観察される。小規模および中規模の生成器を大規模コーパスと組み合わせることで、より大規模なモデルと小規模コーパスの組み合わせに匹敵する性能が得られることが多い。中規模モデルが最も大きな利益を得る傾向がある一方、極小規模および大規模モデルの利益は少ない。分析によれば、性能向上は主に回答を含む文章のカバレッジの増加に起因し、利用効率はほぼ変わらない。これらの知見は、コーパスと生成器のトレードオフに関する原則を確立するものであり、より大規模なコーパスへの投資が、LLM自体を拡大することに匹敵する効果的なRAG強化の道筋を提供することを示している。
生成動画モデルは、テキストから動画への変換能力において印象的な性能を示し、多くの実世界アプリケーションで広く採用されています。しかし、大規模言語モデル(LLM)と同様に、動画生成モデルも幻覚を起こす傾向があり、事実とは異なる内容であってももっともらしい動画を生成してしまいます。LLMの不確実性定量化(UQ)についてはこれまでに多くの研究が行われてきましたが、動画モデル向けのUQ手法は存在せず、重大な安全性の懸念が生じています。私たちの知る限り、本論文は動画モデルの不確実性を定量化する最初の試みです。本論文では、生成動画モデルの不確実性定量化のためのフレームワークを提案します。このフレームワークは以下の要素で構成されています:(i)厳密なモデル仮定を必要としないロバストな順位相関推定に基づく、動画モデルのキャリブレーションを評価するための指標、(ii)潜在モデリングを活用して予測不確実性をアレータ的不確実性とエピステミック不確実性に厳密に分解する、動画モデル向けのブラックボックスUQ手法(S-QUBEDと命名)、(iii)動画モデルのキャリブレーションをベンチマークするためのUQデータセット。生成タスクを潜在空間で条件付けることで、曖昧なタスク仕様に起因する不確実性と、知識不足に起因する不確実性を分離します。ベンチマーク動画データセットを用いた広範な実験を通じて、S-QUBEDがタスク精度と負の相関を持つキャリブレーションされた総合的不確実性推定値を計算し、アレータ的およびエピステミックな構成要素を効果的に計算することを実証します。
既存のビデオからオーディオ(V2A)生成モデルはオフラインで動作し、ビデオシーケンス全体またはフレームのチャンクが事前に利用可能であることを前提としています。これにより、ライブコンテンツ制作や新興の生成世界モデルなどのインタラクティブなアプリケーションでの使用が大幅に制限されています。このギャップを埋めるため、我々はフレームレベルのオンラインV2A生成という新たなタスクを提案します。このタスクでは、モデルが未来のビデオフレームにアクセスすることなく、ビデオからオーディオを自己回帰的に生成します。さらに、我々はSoundReactorを提案します。これは、我々の知る限り、このタスクに特化した最初のシンプルかつ効果的なフレームワークです。我々の設計は、エンドツーエンドの因果性を強制し、オーディオビジュアル同期を維持しながら、フレームごとの低遅延を目指しています。我々のモデルのバックボーンは、連続オーディオ潜在変数に対するデコーダのみの因果的トランスフォーマーです。ビジョン条件付けのために、DINOv2ビジョンエンコーダの最小バリアントから抽出されたグリッド(パッチ)特徴を利用し、フレームごとに単一のトークンに集約して、エンドツーエンドの因果性と効率性を維持します。モデルは、拡散事前学習と一貫性ファインチューニングを通じて訓練され、拡散ヘッドデコードを加速します。AAAタイトルからの多様なゲームプレイビデオのベンチマークにおいて、我々のモデルは、意味的および時間的に整合した高品質のフルバンドステレオオーディオを生成し、客観的評価と人間評価の両方で検証されました。さらに、我々のモデルは、30FPS、480pのビデオにおいて、単一のH100を使用して、フレームごとの波形レベルの低遅延(NFE=1で26.3ms、NFE=4で31.5ms)を達成しました。デモサンプルはhttps://koichi-saito-sony.github.io/soundreactor/で利用可能です。
拡散モデルやフローマッチングモデルが最先端の生成性能を達成する中、コミュニティの関心は、サンプル品質を犠牲にすることなく推論時間を短縮することに向けられています。Consistency Models(CMs)は、拡散または確率流常微分方程式(PF-ODE)の軌跡において一貫性を持つように訓練され、1ステップまたは2ステップのフローまたは拡散サンプリングを可能にします。しかし、CMsは通常、競争力のあるサンプル品質を得るために、大きなバッチサイズでの長時間の訓練を必要とします。本論文では、収束近傍におけるCMsの訓練ダイナミクスを検証し、CMタンジェント(CM出力の更新方向)が非常に振動的であることを発見しました。具体的には、タンジェントがデータ多様体に向かうのではなく、多様体に平行に移動する傾向があることを示します。この振動的なタンジェントを緩和するために、我々は多様体特徴距離(Manifold Feature Distance, MFD)と呼ばれる新しい損失関数を提案します。この損失関数は、データ多様体に向かうように整列したタンジェントを提供します。その結果、我々の手法「Align Your Tangent(AYT)」は、CMの訓練を桁違いに加速し、学習済み知覚的画像パッチ類似度指標(LPIPS)を上回る性能を発揮します。さらに、この損失関数を使用することで、サンプル品質を損なうことなく、極めて小さなバッチサイズでの訓練が可能であることがわかりました。コード: https://github.com/1202kbs/AYT
マルチモーダル大規模言語モデル(MLLMs)は、一般的な視覚ベンチマークにおいて高い性能を発揮する一方で、医療画像などの専門領域における分布外(OOD)タスクには苦戦しており、特にラベル付きデータが限られており高コストである。本論文では、限られたラベル付きVQAサンプルと豊富なラベルなし画像を活用する、ラベル効率的な適応フレームワークであるLEAMLを提案する。本アプローチでは、キャプション蒸留によって正則化されたQAジェネレータを用いて、ラベルなしデータに対してドメイン関連の擬似質問応答ペアを生成する。重要な点として、質問応答に関連するニューロンのみを選択的に更新することで、QAジェネレータが蒸留中に効率的にドメイン固有の知識を獲得できるようにする。消化器内視鏡およびスポーツVQAにおける実験により、LEAMLが最小限の監督下において標準的なファインチューニングを一貫して上回ることを示し、提案したLEAMLフレームワークの有効性を明らかにした。
現代の言語モデルの驚異的な性能向上は、現在のところパラメータのスケーリングに依存している:より大きなモデルはより多くの世界知識を保持し、より優れた推論能力を発揮する。しかし、すべての世界知識をパラメータに圧縮することは不必要であり、各プロンプトで使用されるのはその一部に過ぎないため、推論時のメモリと計算リソースが限られたエッジデバイスにとっては非現実的である。我々はこの欠点を、メモリ拡張アーキテクチャと既存のハードウェアパラダイムに沿った事前学習戦略によって解決する。我々は、世界知識をエンコードした大規模な階層的パラメトリックメモリバンクにアクセスする小型言語モデルを提案する。事前学習および推論中に、コンテキストに依存した小さなメモリブロックをフェッチし、モデルに追加する。我々の事前学習は、長尾の世界知識をメモリパラメータに保存することを学習し、一方で小型言語モデルは共通知識と一般的な推論能力を捉えるアンカーとして機能する。兆トンスケールの実験を通じて、我々は顕著な性能向上を示す:4.6Bのメモリバンクからフェッチされた18Mパラメータのメモリを拡張した160Mパラメータのモデルは、パラメータ数が2倍以上の通常のモデルと同等の性能を達成する。広範な実験を通じて、我々はトランスフォーマーにおける最適なパラメトリックメモリのタイプとサイズを研究し、それらを21B以上のパラメータにスケーリングする。我々は、提案する階層的フィードフォワードメモリが、事前学習中または事後的に追加されるかどうかにかかわらず、トランスフォーマーアーキテクチャ全体で堅牢に機能することを発見した。
ソフトウェア開発において、広範な単体テストは不可欠であり、自動化された単体テスト生成(UTG)の効率性は特に重要である。しかし、既存の大規模言語モデル(LLM)の多くは、各フォワードパスで一度に1トークンずつテストケースを生成するため、UTGの効率が低い。最近、拡散型LLM(dLLM)が登場し、並列生成能力を提供し、効率的なUTGへの強い可能性を示している。この利点にもかかわらず、UTGへの適用は、効率とテスト品質の間の明確なトレードオフによって制約されている。各ステップで生成されるトークン数を増やすと、テストケースの品質が急激に低下するためである。この制限を克服するために、我々はdLLMに特化した加速フレームワークであるDiffTesterを提案する。DiffTesterの鍵となるアイデアは、同じ焦点メソッドを対象とする単体テストが、しばしば繰り返しの構造パターンを共有するという点である。生成中に抽象構文木解析を通じてこれらの共通パターンを動的に識別することで、DiffTesterは出力品質を損なうことなく、各ステップで生成されるトークン数を適応的に増加させる。包括的な評価を可能にするため、Pythonに限定されていた元のTestEvalベンチマークを拡張し、JavaやC++などの追加プログラミング言語を導入した。2つの代表的なモデルを用いた3つのベンチマークでの広範な実験により、DiffTesterがテストカバレッジを維持しながら大幅な加速を実現することが示された。さらに、DiffTesterは異なるdLLMやプログラミング言語間で良好に汎化し、ソフトウェア開発における効率的なUTGのための実用的でスケーラブルなソリューションを提供する。コードとデータはhttps://github.com/wellbeingyang/DLM4UTG-openで公開されている。
自動運転におけるリスクの理解には、知覚や予測だけでなく、エージェントの行動と文脈に関する高レベルの推論が不可欠である。現在のVision Language Models(VLMs)ベースの手法は、主にエージェントを静止画像に基づいて定着させ、定性的な判断を提供するが、リスクが時間とともにどのように変化するかを捉えるための時空間的推論が欠如している。このギャップを埋めるため、我々はNuRiskを提案する。これは、nuScenesとWaymoの実世界データに基づき、CommonRoadシミュレーターからの安全クリティカルなシナリオを補完した、2,900のシナリオと110万のエージェントレベルサンプルからなる包括的なVisual Question Answering(VQA)データセットである。このデータセットは、定量的なエージェントレベルのリスク注釈付きのBird-Eye-View(BEV)ベースの連続画像を提供し、時空間的推論を可能にする。我々は、さまざまなプロンプト技術を用いて既知のVLMsをベンチマークし、それらが明示的な時空間的推論を実行できないため、高レイテンシで33%のピーク精度しか達成できないことを発見した。これらの欠点を解決するため、我々がファインチューニングした7B VLMエージェントは精度を41%に向上させ、レイテンシを75%削減し、プロプライエタリモデルが欠いていた明示的な時空間的推論能力を示した。これは大きな前進であるが、控えめな精度はこのタスクの深刻な課題を浮き彫りにしており、NuRiskを自動運転における時空間的推論の進展のための重要なベンチマークとして確立するものである。
ポリシー準拠評価は、入力事例が人間によって定義された一連のルール、より一般的にはポリシーとして知られるものに厳密に準拠しているかどうかを評価する基本的なタスクである。実際には、人間の専門家は体系的なステップバイステップのプロセスに従い、ポリシーに記載された特定の規定に対する違反を特定する。しかし、このようなゴールドスタンダードかつ専門家レベルの推論プロセスの文書化は、取得に多大なコストがかかる。本論文では、ポリシー準拠評価能力を向上させるための推論の橋渡しとして機能する、特殊化された生成推論チェーンである「ポリシー推論トレース(PRT)」を紹介する。我々の実証評価では、推論時および学習時のシナリオにおいてPRTを使用することで、オープンウェイトモデルおよび商用モデルの性能が大幅に向上し、HIPAAおよびGDPRポリシーにおいて新たな最先端の性能を達成することが示された。精度の向上に加えて、PRTがLLMのポリシー条項の正確な引用能力を向上させ、生の思考チェーンからの高い利用率を通じて準拠判断に影響を与える方法についても強調する。