翻訳付きの日次キュレーションされたAI研究論文
深層学習は多くの分野で目覚ましい成功を収めてきたが、表形式データの学習タスクにおいては歴史的にパフォーマンスが低く、勾配ブースティング決定木(GBDT)が依然として主流となっている。しかし、最近の進展により、実世界の知識を活用し、特に自由記述テキストを含むデータセット間で汎化可能な「表形式基盤モデル(Tabular Foundation Models)」の道が開かれつつある。言語モデルの能力を表形式タスクに組み込む試みはこれまでにも行われてきたが、既存の手法の多くは静的でターゲットに依存しないテキスト表現を利用しており、その効果が制限されていた。本論文では、意味的にターゲットを意識した表現を備えた基盤表形式モデル「TabSTAR」を提案する。TabSTARは、テキスト特徴量を含む表形式データに対して転移学習を可能にするよう設計されており、データセット固有のパラメータを必要としないアーキテクチャを採用している。事前学習済みのテキストエンコーダを解凍し、ターゲットトークンを入力として受け取ることで、タスク固有の埋め込みを学習するために必要なコンテキストをモデルに提供する。TabSTARは、テキスト特徴量を伴う分類タスクの既知のベンチマークにおいて、中規模および大規模データセットの両方で最先端のパフォーマンスを達成し、その事前学習フェーズではデータセット数に応じたスケーリング則を示すことで、さらなる性能向上の道筋を提供する。
近年の大規模推論モデル(LRM)は、強化学習(RL)を通じて強力な推論能力を示してきました。これらの改善は主に短い文脈の推論タスクで観察されています。一方で、RLを用いてLRMを長い文脈の入力を効果的に処理し推論するように拡張することは、依然として重要な未解決の課題です。このギャップを埋めるため、我々はまず長文脈推論RLのパラダイムを形式化し、最適でない訓練効率と不安定な最適化プロセスという主要な課題を特定しました。これらの問題に対処するため、我々はQwenLong-L1を提案します。これは、段階的な文脈スケーリングを通じて短い文脈のLRMを長い文脈のシナリオに適応させるフレームワークです。具体的には、堅牢な初期ポリシーを確立するためのウォームアップ教師あり微調整(SFT)段階を利用し、その後、カリキュラムに基づく段階的RL技術を用いてポリシーの進化を安定化し、難易度を考慮した回顧的サンプリング戦略を強化してポリシーの探索を促進します。7つの長文脈文書質問応答ベンチマークでの実験により、QwenLong-L1-32BはOpenAI-o3-miniやQwen3-235B-A22Bといった主要なLRMを上回り、Claude-3.7-Sonnet-Thinkingと同等の性能を達成し、最先端のLRMの中でリーダーシップを発揮することが示されました。この研究は、情報集約的な環境で堅牢な推論が可能な実用的な長文脈LRMの開発を前進させます。
大規模言語モデル(LLM)は複雑な推論タスクに優れているが、計算コストが高く、実用的な展開が制限されている。この問題に対処するため、最近の研究では、教師LLMからの連鎖思考(CoT)トレースを用いて、推論能力をより小規模な言語モデル(sLM)に蒸留することに焦点が当てられている。しかし、このアプローチは、稀な事実知識や精密な計算を必要とするシナリオでは、sLMが能力の限界から虚構を生成するため、苦戦する。本研究では、推論能力だけでなく、LLMベースのエージェントから検索およびコードツールを備えたsLMへ、タスク解決行動全体を転送するためのフレームワークである「エージェント蒸留」を提案する。我々は、エージェント蒸留を2つの補完的な軸に沿って改善する:(1)教師生成軌跡の品質を向上させるための「初めの思考プレフィックス」と呼ばれるプロンプト手法を導入し、(2)小規模エージェントのテスト時のロバスト性を向上させるための自己一貫性のある行動生成を提案する。我々の手法を、事実および数学領域にわたる8つの推論タスクで評価し、ドメイン内およびドメイン外の一般化をカバーする。結果として、0.5B、1.5B、3BパラメータのsLMが、CoT蒸留を用いてファインチューニングされた次の階層の1.5B、3B、7Bモデルと競争力のある性能を達成できることを示し、実用的なツール使用型小規模エージェントを構築するためのエージェント蒸留の可能性を実証する。我々のコードはhttps://github.com/Nardien/agent-distillationで公開されている。
大規模言語モデル(LLMs)の急速な進展に伴い、計算需要も前例のない速度で増加しており、最先端モデルのトレーニングコストは数ヶ月ごとに倍増しています。低精度演算で直接モデルをトレーニングすることは、計算スループットとエネルギー効率の両方を向上させる解決策を提供します。特に、NVIDIAの最近のBlackwellアーキテクチャは、極めて低精度の操作、具体的にはFP4バリアントを可能にし、大幅な効率向上を約束しています。しかし、現在のFP4精度でのLLMトレーニングアルゴリズムは、精度の大幅な低下に直面し、しばしば混合精度のフォールバックに依存しています。本論文では、ハードウェアサポートによるFP4トレーニングを体系的に調査し、主要な計算(例えば線形層)が低精度で行われる正確なエンドツーエンドのFP4トレーニングを可能にする新しいアプローチ、Quartetを紹介します。Llamaタイプのモデルに対する広範な評価を通じて、異なるビット幅にわたるパフォーマンスのトレードオフを定量化し、精度対計算の観点で「ほぼ最適」な低精度トレーニング技術を特定する新しい低精度スケーリング則を明らかにします。私たちは、NVIDIA Blackwell GPU向けに最適化されたCUDAカーネルを使用してQuartetを実装し、FP4精度で最先端の精度を達成し、数十億規模のモデルのトレーニングに成功することを示します。私たちの手法は、完全なFP4ベースのトレーニングが標準精度やFP8トレーニングに匹敵する競争力のある代替手段であることを実証しています。私たちのコードはhttps://github.com/IST-DASLab/Quartetで公開されています。
大規模言語モデルは、長く複雑な推論タスクにおいて顕著な能力を発揮することが実証されています。しかし、これらのモデルはしばしば慣れ親しんだ推論パターンに過度に依存するという問題を抱えており、この現象を我々は「推論の硬直性」と呼んでいます。ユーザーからの明確な指示があるにもかかわらず、これらのモデルはしばしば明示された条件を無視し、慣習的な推論経路に戻ってしまい、誤った結論を導くことがあります。このような振る舞いは、特に数学や論理パズルのような領域において、指定された制約を厳密に遵守することが重要な場合に重大な課題を引き起こします。推論の硬直性を体系的に調査するため、これまでほとんど研究されていないこの現象を探るために、我々は専門家がキュレートした診断用データセットを導入しました。このデータセットには、既存の数学ベンチマークであるAIMEとMATH500を特別に修正したバージョンや、慣れ親しんだ推論戦略から逸脱することを意図的に要求するように再設計された有名なパズルが含まれています。このデータセットを使用して、モデルが染みついた推論に戻る際に発生する繰り返しの汚染パターンを特定しました。具体的には、この汚染を3つの特徴的なモードに分類します:(i) 解釈過剰、(ii) 入力不信、(iii) 部分的な指示注意、それぞれがモデルに提供された指示を無視または歪める原因となります。我々は、言語モデルの推論の硬直性を緩和するための今後の研究を促進するために、この診断用データセットを公開します。
強化学習(Reinforcement Learning, RL)は、視覚言語モデル(Vision-Language Models, VLMs)の推論能力を大幅に進化させてきた。しかし、推論タスクを超えたRLの活用、特に物体検出やグラウンディングといった知覚集約型タスクへの応用は、ほとんど未開拓の領域である。本論文では、V-Triune(Visual Triple Unified Reinforcement Learning)を提案する。これは、VLMsが単一のトレーニングパイプライン内で視覚推論と知覚タスクを同時に学習することを可能にするシステムである。V-Triuneは、3つの補完的コンポーネントで構成される:サンプルレベルのデータフォーマット(多様なタスク入力を統一するため)、検証者レベルの報酬計算(専門検証者を通じてカスタム報酬を提供するため)、およびソースレベルのメトリック監視(データソースレベルで問題を診断するため)。さらに、V-Triuneが扱う知覚タスクに対して、適応的、漸進的、かつ明確なフィードバックを提供する新しいDynamic IoU報酬を導入する。我々のアプローチは、オープンソースの7Bおよび32Bバックボーンモデルを使用した既存のRLトレーニングフレームワーク内で実装されている。その結果得られたモデル、Orsta(One RL to See Them All)は、推論と知覚タスクの両方で一貫した改善を示す。この広範な能力は、4つの代表的な視覚推論タスク(数学、パズル、チャート、科学)と4つの視覚知覚タスク(グラウンディング、検出、計数、OCR)を中心に構築された多様なデータセットでのトレーニングによって大きく形作られている。その後、OrstaはMEGA-Bench Coreにおいて、7Bおよび32Bモデルの各バリエーションで+2.1から印象的な+14.1までの改善を達成し、その性能向上は幅広い下流タスクにも及んでいる。これらの結果は、VLMsに対する我々の統合RLアプローチの有効性と拡張性を強調している。V-TriuneシステムとOrstaモデルは、https://github.com/MiniMax-AI で公開されている。
既存のベンチマークは、知性の重要な側面である物理的推論、すなわちドメイン知識、記号的推論、現実世界の制約理解を統合する能力を捉えられていません。このギャップを埋めるため、我々はPhyXを導入します。PhyXは、視覚的シナリオにおける物理的基盤に基づく推論能力を評価する初の大規模ベンチマークです。PhyXは、熱力学、電磁気学、力学、現代物理学、光学、波動・音響学の6つの核心物理領域にわたる25のサブドメインと6つの推論タイプをカバーする3,000の入念に選ばれたマルチモーダル問題を含んでいます。我々の包括的評価では、最先端のモデルでさえ物理的推論に大きな苦戦を強いられています。GPT-4o、Claude3.7-Sonnet、GPT-o4-miniはそれぞれ32.5%、42.2%、45.8%の精度しか達成できず、人間の専門家との性能差は29%以上に及びます。我々の分析は、現在のモデルにおける重大な限界を明らかにしています:記憶された学問的知識への過度の依存、数学的定式化への過剰な依存、そして真の物理的理解ではなく表面的な視覚的パターンマッチングです。我々は、細かな統計、詳細なケーススタディ、複数の評価パラダイムを通じて、物理的推論能力を徹底的に検証するための詳細な分析を提供します。再現性を確保するため、VLMEvalKitなどの広く使用されているツールキットに基づいた互換性のある評価プロトコルを実装し、ワンクリックでの評価を可能にしています。
本技術レポートでは、明示的な長文脈最適化のために設計されたコンテキスト圧縮フレームワーク「QwenLong-CPRS」を紹介する。このフレームワークは、プリフィル段階での過剰な計算コストと、長文シーケンス処理における大規模言語モデル(LLM)の「中間消失」性能低下という課題に対処する。新しい動的コンテキスト最適化メカニズムを通じて実装されたQwenLong-CPRSは、自然言語指示に基づく多粒度のコンテキスト圧縮を可能にし、効率性の向上と性能改善の両方を実現する。 Qwenアーキテクチャシリーズから進化したQwenLong-CPRSは、以下の4つの主要な革新を導入している:(1) 自然言語誘導型動的最適化、(2) 境界認識を強化する双方向推論層、(3) 言語モデリングヘッドを備えたトークン批評メカニズム、(4) ウィンドウ並列推論。 5つのベンチマーク(4K-2M単語のコンテキスト)にわたる包括的な評価により、QwenLong-CPRSの3つの有効性が実証された:(1) RAGやスパースアテンションなどの他のコンテキスト管理手法と比較して、精度と効率の両面で一貫した優位性。(2) GPT-4o、Gemini2.0-pro、Claude3.7-sonnet、DeepSeek-v3、Qwen2.5-maxを含むすべての主要LLMとのアーキテクチャ非依存な統合により、21.59倍のコンテキスト圧縮と19.15ポイントの平均性能向上を達成。(3) Qwen2.5-32B-Instructと共にデプロイされたQwenLong-CPRSは、Ruler-128KとInfiniteBenchにおいて、主要なプロプライエタリLLMを4.85ポイントおよび10.88ポイント上回り、新たなSOTA性能を確立した。
モデルの事前学習における計算(データとパラメータ)のスケーリングの限界費用が大幅に増加し続ける中、推論時に追加の計算リソースを割り当てることで生成モデルの性能を向上させる手法として、テストタイムスケーリング(TTS)が注目を集めています。TTSは複数の言語タスクで大きな成功を収めていますが、画像やビデオ生成モデル(拡散ベースまたはフローベースのモデル)のテストタイムスケーリングの挙動に関する理解はまだ不十分です。最近の研究では、視覚タスクにおける推論時戦略の探求が始まっていますが、これらのアプローチには重大な制約があります。具体的には、タスク固有の領域に限定されている、スケーラビリティが低い、または報酬の過剰最適化によりサンプルの多様性が犠牲になるといった問題です。本論文では、進化的探索(EvoSearch)という新しい、汎用的で効率的なTTS手法を提案します。EvoSearchは、追加の学習やモデルの拡張を必要とせず、拡散モデルとフローモデルの両方における画像およびビデオ生成のスケーラビリティを効果的に向上させます。EvoSearchは、拡散モデルとフローモデルのテストタイムスケーリングを進化的探索問題として再定式化し、生物進化の原理を活用してノイズ除去の軌跡を効率的に探索・改善します。確率微分方程式によるノイズ除去プロセスに特化して設計された選択と変異のメカニズムを組み込むことで、EvoSearchは集団の多様性を保ちながら、より高品質な子孫を反復的に生成します。画像およびビデオ生成タスクにおける拡散モデルとフローモデルの両方のアーキテクチャを対象とした広範な評価を通じて、我々の手法が既存のアプローチを一貫して上回り、より高い多様性を達成し、未見の評価指標に対しても強い汎化性能を示すことを実証しました。プロジェクトはウェブサイトhttps://tinnerhrhe.github.io/evosearchで公開されています。
仮説ランキングは、特にウェットラボ実験が高コストでスループットが制限される自然科学分野において、自動化された科学的発見の重要な要素です。既存のアプローチは、実験前のランキングに焦点を当てており、大規模言語モデルの内部推論のみに依存し、実験結果を組み込んでいません。本論文では、実験結果に基づいて候補仮説を優先順位付けする「実験ガイド付きランキング」というタスクを提案します。しかし、自然科学分野で実際の実験を繰り返し行うことが現実的でないため、このような戦略を開発することは困難です。この問題に対処するため、我々は3つのドメイン知識に基づいた仮定を基にしたシミュレータを提案し、仮説の性能を既知の真の仮説との類似度の関数としてモデル化し、ノイズによって摂動させます。このシミュレータを検証するために、実験的に報告された結果を持つ124の化学仮説のデータセットを構築しました。このシミュレータを基盤として、共有された機能特性によって仮説をクラスタリングし、シミュレーションされた実験フィードバックから得られた洞察に基づいて候補を優先順位付けする疑似実験ガイド付きランキング手法を開発しました。実験の結果、我々の手法は実験前のベースラインや強力なアブレーションを上回る性能を示しました。
初期ノイズの選択は、ビデオ拡散モデルの品質とプロンプトの整合性に大きく影響を与える。同じプロンプトに対して異なるノイズシードを使用すると、生成結果が大幅に異なる場合がある。最近の手法では、周波数フィルタやフレーム間の平滑化など、外部で設計された事前情報に依存しているが、どのノイズシードが本質的に好ましいかを示す内部モデルの信号を見落とすことが多い。この問題に対処するため、我々はANSE(Active Noise Selection for Generation)を提案する。これは、注意ベースの不確実性を定量化することで高品質なノイズシードを選択するモデル認識型フレームワークである。その中核となるのはBANSA(Bayesian Active Noise Selection via Attention)であり、複数の確率的注意サンプル間のエントロピーの不一致を測定してモデルの信頼性と一貫性を推定する取得関数である。効率的な推論時の展開のために、BANSAのベルヌーイマスク近似を導入し、単一の拡散ステップと注意層のサブセットを使用してスコア推定を可能にする。CogVideoX-2Bおよび5Bでの実験により、ANSEが推論時間をそれぞれ8%および13%増加させるだけでビデオ品質と時間的整合性を向上させることが示され、ビデオ拡散におけるノイズ選択の原則的かつ汎用的なアプローチを提供する。プロジェクトページはこちら:https://anse-project.github.io/anse-project/
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)推論を用いて複雑なタスクに優れた性能を発揮します。しかし、過剰に思考を重ねる傾向があるため、不必要に長い推論チェーンが生成され、推論コストが大幅に増加してしまいます。この問題を緩和するため、我々はCoT圧縮のための新しいアプローチであるVeriThinkerを提案します。従来の方法では、合成された簡潔なCoTデータを用いて元の推論タスクに対してLRMを直接ファインチューニングしていましたが、我々は補助的な検証タスクのみを通じてモデルを革新的にファインチューニングします。LRMにCoTソリューションの正しさを正確に検証するように訓練させることで、LRMは自己反省ステップの必要性についてより識別力を持つようになり、過剰思考を効果的に抑制します。大規模な実験により、VeriThinkerが推論チェーンの長さを大幅に短縮しながら、精度を維持またはわずかに向上させることが検証されました。DeepSeek-R1-Distill-Qwen-7Bに適用した場合、MATH500では推論トークンが3790から2125に減少し、精度が0.8%(94.0%から94.8%)向上し、AIME25ではトークンが14321から10287に減少し、精度が2.1%(38.7%から40.8%)向上しました。さらに、我々の実験では、VeriThinkerが推測的推論にもゼロショットで一般化できることが示されています。コードはhttps://github.com/czg1225/VeriThinkerで公開されています。
視覚シーンの理解は、人間の知能にとって基本的な能力である。識別モデルはコンピュータビジョンを大きく進歩させたが、構成的な理解にはしばしば苦戦する。一方、最近の生成的テキスト-to-画像拡散モデルは、複雑なシーンの合成に優れており、内在的な構成的能力を示唆している。これを基盤として、拡散モデルを識別タスクに転用するゼロショット拡散分類器が提案されている。先行研究では、識別的構成的シナリオで有望な結果を示したが、これらの結果は、ベンチマークの数が少なく、モデルが成功する条件の分析が比較的浅いため、まだ予備的なものである。この問題に対処するため、我々は、広範な構成的タスクにおける拡散分類器の識別能力について包括的な研究を提示する。具体的には、我々の研究は、3つの拡散モデル(SD 1.5、2.0、そして初めて3-m)をカバーし、10のデータセットと30以上のタスクに及ぶ。さらに、ターゲットデータセットのドメインがそれぞれの性能に果たす役割を明らかにするため、拡散モデル自身が作成した画像からなる新しい診断ベンチマーク「Self-Bench」を導入する。最後に、タイムステップの重み付けの重要性を探り、特にSD3-mにおいて、ドメインギャップとタイムステップ感度の関係を明らかにする。要約すると、拡散分類器は構成的理解が可能であるが、条件が適用される!コードとデータセットはhttps://github.com/eugene6923/Diffusion-Classifiers-Compositionalityで利用可能である。
Signed Distance Function(SDF)などの体積表現を用いて高解像度の3D形状を生成することは、計算コストとメモリ使用量の面で大きな課題を抱えています。本論文では、スパースボリュームに基づくスケーラブルな3D生成フレームワークであるDirect3D S2を提案します。このフレームワークは、大幅に削減されたトレーニングコストで優れた出力品質を実現します。私たちの主な革新は、Spatial Sparse Attention(SSA)メカニズムであり、これによりスパースボリュームデータ上でのDiffusion Transformerの計算効率が大幅に向上します。SSAにより、モデルはスパースボリューム内の大規模なトークンセットを効果的に処理でき、計算オーバーヘッドを大幅に削減し、フォワードパスで3.9倍、バックワードパスで9.6倍の高速化を達成します。また、本フレームワークには、入力、潜在変数、出力の各段階で一貫したスパースボリューム形式を維持する変分オートエンコーダーも含まれています。従来の3D VAEにおける異種表現と比較して、この統一された設計はトレーニング効率と安定性を大幅に向上させます。私たちのモデルは公開されているデータセットでトレーニングされており、実験結果は、Direct3D S2が生成品質と効率の両面で最先端の手法を凌駕するだけでなく、1024解像度でのトレーニングをわずか8台のGPUで可能にすることを示しています。これは、256解像度での体積表現には通常少なくとも32台のGPUを必要とするタスクであり、ギガスケールの3D生成を実用的かつアクセス可能なものにします。プロジェクトページ: https://nju3dv.github.io/projects/Direct3D-S2/。
オーディオ大規模言語モデル(ALLM)の急速な進展と応用範囲の拡大に伴い、その信頼性を厳密に理解することが求められています。しかし、特にオーディオモダリティに固有のリスクに関する評価を体系的に行う研究は、ほとんど未開拓のままです。既存の評価フレームワークは主にテキストモダリティに焦点を当てるか、限られた安全性の次元しか扱わず、オーディオモダリティに固有の特性や応用シナリオを十分に考慮していません。本論文では、ALLMに特化した初の多面的な信頼性評価フレームワークおよびベンチマークであるAudioTrustを紹介します。AudioTrustは、公平性、幻覚、安全性、プライバシー、堅牢性、認証という6つの主要な次元にわたる評価を可能にします。これらの次元を包括的に評価するため、AudioTrustは18の異なる実験設定を基に構成されています。その中核には、現実世界のシナリオ(例:日常会話、緊急通話、音声アシスタントのやり取り)から抽出した4,420以上のオーディオ/テキストサンプルで構成されたデータセットがあり、ALLMの多面的な信頼性を探るために特別に設計されています。評価のため、ベンチマークは9つのオーディオ固有の評価指標を慎重に設計し、大規模な自動化パイプラインを採用してモデル出力を客観的かつスケーラブルにスコアリングします。実験結果は、様々な高リスクなオーディオシナリオに直面した際の、現在の最先端のオープンソースおよびクローズドソースALLMの信頼性の境界と限界を明らかにし、将来のオーディオモデルの安全で信頼性のある展開に貴重な洞察を提供します。私たちのプラットフォームとベンチマークはhttps://github.com/JusperLee/AudioTrustで公開されています。
大規模言語モデルは位置バイアスを示す――特定の文脈位置における情報の体系的な無視――しかし、それが言語的多様性とどのように相互作用するかは十分に理解されていない。本研究では、類型論的に異なる5つの言語(英語、ロシア語、ドイツ語、ヒンディー語、ベトナム語)にわたる横断的研究を行い、位置バイアスがモデルの不確実性、構文、プロンプティングとどのように相互作用するかを検証した。主な発見は以下の通りである:(1) 位置バイアスはモデル駆動であり、言語固有の変異が見られる――Qwen2.5-7Bは後方の位置を好み、初期トークンへのバイアスという仮定に挑戦する;(2) 明示的な位置ガイダンス(例:正しい文脈は位置Xにある)は言語を問わず精度を低下させ、プロンプトエンジニアリングの実践を損なう;(3) 文脈を位置バイアスに合わせるとエントロピーが増加するが、最小エントロピーは精度を予測しない;(4) さらに、LLMはヒンディー語のような自由語順言語において支配的な語順を異なる方法で課すことが明らかになった。
検索拡張生成(RAG)システムは、大規模言語モデル(LLM)が推論中に外部知識にアクセスすることを可能にする。最近の進展により、LLMは強化学習(RL)を介して検索エージェントとして機能し、検索エンジンとの多段階インタラクションを通じて情報取得を改善することができるようになった。しかし、既存のアプローチでは、下流の有用性を無視した検索専用の指標(例:NDCG)を使用して検索を最適化するか、LLM全体を微調整して推論と検索を同時に行うことで、検索と生成を絡ませ、実際の検索の有用性や凍結またはプロプライエタリなモデルとの互換性を制限している。本研究では、検索器と生成器を分離し、検索器を「Gain Beyond RAG」報酬(素朴なRAGを超える生成精度の向上)を使用して訓練する、軽量でモデルに依存しないフレームワークであるs3を提案する。s3は、わずか2.4kの訓練サンプルで、70倍以上のデータで訓練されたベースラインを上回り、6つの一般QAおよび5つの医療QAベンチマークで一貫して優れた下流性能を提供する。
大規模言語モデル(LLM)を整合させ、幻覚テキストを正確に検出することは、幻覚テキストの高度な性質により依然として重要な課題です。幻覚サンプルが従来のネガティブサンプルよりも高い欺瞞的品質を示すことを認識し、私たちはこれらの注意深く設計された幻覚をDPO整合プロセスのネガティブ例として使用します。私たちの手法はカリキュラム学習戦略を組み込んでおり、独立した事実確認モデルからの確率スコアの最大減少に基づいて識別された容易なサンプルから、徐々に難しいサンプルへと訓練を移行します。この構造化された難易度スケーリングにより、安定した漸進的な学習が保証されます。実験的評価により、カリキュラムDPOアプローチと高品質なネガティブサンプルを用いて訓練されたHaluCheckモデルが、MedHalluやHaluEvalなどの難しいベンチマークで最大24%の改善を達成し、様々な指標でモデル性能を大幅に向上させることが示されています。さらに、HaluCheckモデルはゼロショット設定においても堅牢性を示し、様々なベンチマークで最新の大規模モデルを大幅に上回る性能を発揮します。
フロントエンドエンジニアリングは、エンジニアがデザインを概念化し、それをコードに変換し、実装を反復的に洗練させる複雑なワークフローを伴う。近年のベンチマークは主に視覚的デザインをコードに変換することに焦点を当てているが、我々はフロントエンド開発の全工程にわたってマルチモーダル大規模言語モデル(MLLMs)を評価するために設計されたベンチマーク、FullFrontを提案する。FullFrontは、フロントエンドエンジニアリングのパイプラインに直接対応する3つの基本的なタスクを評価する:ウェブページデザイン(概念化フェーズ)、ウェブページ知覚QA(視覚的構成と要素の理解)、およびウェブページコード生成(実装フェーズ)。既存のベンチマークが肥大化したコードを持つスクレイピングされたウェブサイトまたは過度に簡略化されたLLM生成のHTMLを使用するのとは異なり、FullFrontは、現実世界のウェブページを多様な視覚デザインを維持しつつ、著作権問題を回避したクリーンで標準化されたHTMLに変換するための新規の2段階プロセスを採用する。最先端のMLLMsの広範なテストにより、ページ知覚、コード生成(特に画像処理とレイアウト)、およびインタラクション実装における重大な制限が明らかになった。我々の結果は、モデルとタスク間の性能差を定量的に示し、現在のMLLMsの能力とフロントエンドエンジニアリングにおける人間の専門家の性能との間に大きなギャップがあることを強調する。FullFrontベンチマークとコードはhttps://github.com/Mikivishy/FullFrontで利用可能である。
強化学習(RL)は、推論モデルの訓練において効果的な手法として注目を集めています。しかし、既存のRLアプローチでは、外部知識を導入せずにモデルの出力分布を報酬最大化の経路に偏らせる傾向があります。これにより、探索能力が制限され、ベースモデルと比較して推論能力の境界が狭くなります。この制約を解決するため、我々はTAPO(Thought-Augmented Policy Optimization)を提案します。TAPOは、外部の高次ガイダンス(「思考パターン」)を組み込むことでRLを拡張する新しいフレームワークです。訓練中に構造化された思考を適応的に統合することで、TAPOはモデル内部の探索と外部ガイダンスの活用を効果的にバランスさせます。大規模な実験により、我々のアプローチがAIMEで99%、AMCで41%、Minerva Mathで17%とGRPOを大幅に上回ることが示されました。特に、わずか500の事前サンプルから抽象化されたこれらの高次思考パターンは、様々なタスクやモデルに効果的に汎化します。これは、TAPOが複数のタスクやドメインにわたる広範な応用の可能性を秘めていることを示しています。さらに分析を行った結果、外部ガイダンスを導入することで、推論行動の優れた説明可能性と出力の読みやすさを備えた強力な推論モデルが生成されることが明らかになりました。
大規模言語モデル(LLMs)は印象的な能力を示すものの、堅牢な時間的知能を欠いており、過去に関する推論と未来の予測および創造的な生成を統合することが困難である。一方、既存の手法は通常、過去のイベントに関する質問応答や基本的な予測といった孤立した時間的スキルを対象としており、特に知識のカットオフを超えるイベントや創造的な先見性を必要とする場合に、汎化能力が低い。これらの制約に対処するため、我々はTime-R1を導入する。これは、中規模(3Bパラメータ)のLLMに包括的な時間的能力(理解、予測、創造的生成)を付与する初めてのフレームワークである。我々のアプローチは、新たな3段階の開発パスを特徴としており、最初の2段階は、慎重に設計された動的なルールベースの報酬システムによって駆動される強化学習(RL)カリキュラムで構成される。このフレームワークは、(1) 歴史的データからの基礎的な時間的理解と論理的なイベント-時間マッピング、(2) 知識のカットオフを超える未来のイベント予測スキルを段階的に構築し、最後に(3) 微調整なしで創造的な未来シナリオ生成への顕著な汎化を可能にする。驚くべきことに、実験では、Time-R1が、高度に挑戦的な未来イベント予測および創造的シナリオ生成のベンチマークにおいて、671Bの最先端モデルDeepSeek-R1を含む200倍以上の大規模モデルを凌駕することが示された。この研究は、慎重に設計された段階的なRL微調整により、より小さく効率的なモデルが優れた時間的性能を達成できることを強く示唆しており、真に時間を意識したAIへの実用的でスケーラブルな道筋を提供する。さらなる研究を促進するため、我々はまた、10年間のニュースデータから派生した大規模なマルチタスク時間的推論データセットTime-Benchと、一連のTime-R1チェックポイントを公開する。
大規模言語モデル(LLM)を基盤とする音声アシスタントの急速な発展に伴い、これらのシステムを訓練するための音声指示データの必要性が浮き彫りになっています。音声認識データは豊富に存在するものの、音声指示データは著しく不足しており、これはモデルが音声コマンドを理解し実行するために微調整するために不可欠です。高品質な合成音声を生成するには優れたテキスト音声合成(TTS)モデルが必要ですが、低リソース言語ではこれが利用できない場合があります。私たちの新しいアプローチは、この課題に対処するために、意味表現レベルで合成を停止し、TTSを必要としない方法を採用しています。これは、合成された意味表現を事前訓練されたWhisperエンコーダーと整合させることで実現し、LLMがテキスト指示で微調整されながらも、推論時に音声指示を理解する能力を維持できるようにします。この簡素化された訓練プロセスは、低リソース言語向けの音声アシスタントを構築するための有望なアプローチです。
GPT-4o、Gemini、o3などのネイティブマルチモーダルモデルやオムニモデルの急速な進展は、テキストや画像などのモダリティを横断してコンテンツを処理・生成する能力を備えており、知能の進化における重要なマイルストーンを示しています。視覚的思考プロセス(マルチモーダル連鎖思考、M-CoTとも呼ばれる)におけるこれらのモデルのマルチモーダル出力能力を体系的に評価することが極めて重要です。しかし、既存のマルチモーダルモデル評価のベンチマークは、主にマルチモーダル入力とテキストのみの推論に焦点を当てており、マルチモーダル出力を通じた推論の重要性を見落としています。本論文では、モデルの視覚不可欠な推論能力を評価するために設計されたベンチマーク「RBench-V」を提案します。RBench-Vを構築するために、数学、物理、計数、ゲームをカバーする803の質問を慎重に選定しました。従来のベンチマークが特定の入力モダリティを指定するのに対し、RBench-Vは、新しい画像の生成や補助線の構築など、画像操作を必要とするマルチモーダル出力を中心とした問題を提示します。o3、Gemini 2.5 Pro、Qwen2.5-VLなど、多数のオープンソースおよびクローズドソースモデルをRBench-Vで評価しました。最も性能の高いモデルであるo3でさえ、RBench-Vでの精度は25.8%に留まり、人間のスコア82.3%を大きく下回り、現在のモデルがマルチモーダル推論を活用するのに苦労していることが明らかになりました。データとコードはhttps://evalmodels.github.io/rbenchvで公開されています。
複数の悪天候条件に影響を受けた夜間画像の復元は、実用的でありながら十分に研究されていない課題です。なぜなら、現実世界では複数の気象条件が夜間の様々な照明効果と共存することが多いからです。本論文ではまず、フレア効果と絡み合った多様な気象劣化を含む、困難なマルチウェザー夜間画像復元タスクを探求します。研究を支援するため、我々はAllWeatherNightデータセットを提供します。これは、我々が導入した照明を考慮した劣化生成を用いて合成された、多様な複合劣化を持つ大規模で高品質な夜間画像を特徴としています。さらに、複雑な劣化を一気に除去する統合的な夜間画像復元フレームワークであるClearNightを提案します。具体的には、ClearNightはRetinex理論に基づく二重の事前情報を抽出し、ネットワークを不均一な照明領域と本質的なテクスチャ内容にそれぞれ焦点を当てるよう明示的に誘導することで、夜間シナリオにおける復元効果を向上させます。複数の気象劣化の共通性と独自性をより良く表現するため、我々は気象を考慮した動的固有性-共通性協調手法を導入します。これは気象劣化を識別し、特定の気象タイプに関連する最適な候補ユニットを適応的に選択します。我々のClearNightは、合成画像と実世界画像の両方において最先端の性能を達成しています。包括的なアブレーション実験により、AllWeatherNightデータセットの必要性とClearNightの有効性が検証されました。プロジェクトページ: https://henlyta.github.io/ClearNight/mainpage.html
大規模言語モデル(LLM)に提供された文脈に忠実であることを教えることは、信頼性の高い情報検索システムを構築する上で極めて重要です。そこで我々は、人間のアノテーションを必要とせずに、短形式および長形式の生成タスクにおいてLLMの忠実性を向上させるための体系的なフレームワーク、CANOEを提案します。具体的には、まず4つの多様なタスクを用いて短形式の質問応答(QA)データを合成し、高品質で検証が容易なトレーニングデータを構築します。さらに、合成された短形式QAデータから導出された3つのルールベースの報酬を含む、ルールベースの強化学習手法であるDual-GRPOを提案し、短形式と長形式の応答生成を同時に最適化します。特に、Dual-GRPOは、報酬モデルをトレーニングするための選好データを手動でラベル付けする必要性を排除し、合成された短形式QAデータのみに依存する場合の短形式生成の過剰最適化を回避します。実験結果は、CANOEが11の異なる下流タスクにおいてLLMの忠実性を大幅に向上させ、最も先進的なLLM(例えばGPT-4oやOpenAI o1)を凌駕することを示しています。
強化学習(RL)は、基盤モデルを特定のタスクに適応させる強力な手法ですが、大規模な人手によるラベル付きデータに依存するため、広範な採用が制限されています。本論文では、タスク定義から生成された合成データのみを使用してモデルを強化学習で微調整する、シンプルで汎用的なフレームワーク「Synthetic Data RL」を提案します。本手法では、まずタスク定義と取得したドキュメントから質問と回答のペアを生成し、モデルの解決可能性に基づいて質問の難易度を調整し、サンプル全体でのモデルの平均正答率を使用してRLトレーニング用の質問を選択します。Qwen-2.5-7Bにおいて、本手法はGSM8Kでベースモデルに対して29.2%の絶対的な改善(命令チューニング比+2.9ポイント、Self-Instruct比+6.6ポイント)、MATHで8.7%、GPQAで13.1%(SynthLLM比+7.0ポイント)、MedQAで8.9%、CQA(法律)で17.7%、CFA(金融)で13.7%の向上を達成しました。同じデータ予算下での教師あり微調整を上回り、全人手データを用いたRLにほぼ匹敵する結果を示しています(例:GSM8Kで+17.2ポイント)。100件の人手によるデモンストレーションを追加してもGSM8Kの性能は0.4ポイントしか向上せず、追加価値が限定的であることが示されました。人手によるデータアノテーションを削減することで、Synthetic Data RLはスケーラブルで効率的なRLベースのモデル適応を可能にします。コードとデモはhttps://github.com/gydpku/Data_Synthesis_RL/で公開されています。
Trinity-RFTは、大規模言語モデルの強化学習ファインチューニング(RFT)向けに設計された、汎用的で柔軟かつスケーラブルなフレームワークです。分離設計を採用しており、(1) 同期/非同期、オンライン/オフライン、オン・ポリシー/オフ・ポリシーといったRFTモードを統合・一般化するRFTコア、(2) エージェントと環境の相互作用を高効率かつ堅牢にシームレスに統合する機能、(3) RFT向けに最適化された体系的なデータパイプライン、の3つの主要コンポーネントで構成されています。Trinity-RFTは多様なアプリケーションシナリオに容易に適応可能であり、先進的な強化学習パラダイムを探求するための統一プラットフォームとして機能します。本技術レポートでは、Trinity-RFTのビジョン、特徴、設計、実装を概説し、提案フレームワークの有用性とユーザーフレンドリー性を示す豊富な例を提供します。
本論文では、ロボットシステムにおける指示条件付き高精度表面スキャンのための新規データセット「ScanBot」を紹介する。既存のロボット学習データセットが把持、ナビゲーション、対話などの粗いタスクに焦点を当てているのに対し、ScanBotは産業用レーザースキャンの高精度要求を対象とし、サブミリメートルレベルの経路連続性とパラメータ安定性が重要視される。本データセットは、12種類の多様な物体と6つのタスクタイプ(全面スキャン、幾何学的に焦点を当てた領域、空間的に参照される部品、機能的に関連する構造、欠陥検査、比較分析)にわたってロボットが実行したレーザースキャン軌跡をカバーしている。各スキャンは自然言語指示に基づいて行われ、同期されたRGB、深度、レーザープロファイル、およびロボットの姿勢と関節状態がペアリングされている。近年の進展にもかかわらず、既存の視覚言語行動(VLA)モデルは、細粒度の指示と現実世界の精度要求の下で安定したスキャン軌跡を生成することに依然として失敗している。この制約を調査するため、我々は多様なマルチモーダル大規模言語モデル(MLLM)を完全な知覚-計画-実行ループにわたってベンチマークし、現実的な制約下での指示追従における持続的な課題を明らかにした。
視覚言語モデル(VLM)の急速な展開は安全性リスクを増幅させるが、ほとんどの評価は人工的な画像に依存している。本研究では、一般ユーザーが共有するミーム画像に直面した場合、現在のVLMはどれほど安全なのかという問いを立てる。この問いを探るため、実在するミーム画像と有害・無害な指示を組み合わせた50,430インスタンスのベンチマーク「MemeSafetyBench」を導入する。包括的な安全性分類とLLMベースの指示生成を用いて、単一および複数ターンのインタラクションにおいて複数のVLMを評価する。実世界のミームが有害な出力に与える影響、会話コンテキストの緩和効果、モデル規模と安全性指標の関係を調査する。我々の調査結果は、VLMがミームベースの有害なプロンプトに対して、合成またはタイポグラフィックな画像よりも脆弱性が高いことを示している。ミームはテキストのみの入力と比較して、有害な応答を大幅に増加させ、拒否を減少させる。複数ターンのインタラクションは部分的に緩和効果をもたらすものの、脆弱性の高さは持続する。これらの結果は、生態学的に妥当な評価とより強力な安全メカニズムの必要性を強調している。
テキストから画像(T2I)生成における最近の進展にもかかわらず、既存のモデルは短くて不十分なプロンプトからユーザーの意図を忠実に捉えることに苦戦することが多い。これまでの研究では、大規模言語モデル(LLM)を用いてプロンプトを強化しようとする試みがなされてきたが、これらの手法は視覚的意味論や現実世界の構成に十分に基づいていないため、しばしばスタイリッシュで非現実的なコンテンツを生成してしまう。最近の言語モデルにおける推論の進展に触発され、我々はRePromptを提案する。これは、強化学習を介してプロンプト強化プロセスに明示的な推論を導入する新しいリプロンプティングフレームワークである。手作りのルールやスタイリッシュな書き換えに頼る代わりに、我々の手法は言語モデルを訓練し、画像レベルの結果を最適化することで、構造化された自己反省的なプロンプトを生成する。カスタマイズされた報酬モデルは、生成された画像を人間の好み、意味的整合性、視覚的構成の観点から評価し、プロンプト生成を洗練するための間接的な監督を提供する。我々のアプローチは、人間による注釈データを必要とせずにエンドツーエンドの訓練を可能にする。GenEvalとT2I-Compbenchでの実験により、RePromptが多様なT2Iバックボーンにわたって空間レイアウトの忠実度と構成的汎化を大幅に向上させ、新たな最先端の結果を確立することが示された。
制御可能なビデオ生成(CVG)は急速に進歩しているが、現在のシステムは、複数のアクターが移動し、相互作用し、位置を交換する必要がある場合や、ノイズの多い制御信号下ではうまく機能しない。このギャップを埋めるために、我々はDanceTogetherを提案する。これは、単一の参照画像と独立したポーズマスクストリームから、長くてフォトリアルなビデオを生成しつつ、各アイデンティティを厳密に保持する初のエンドツーエンドの拡散フレームワークである。新たに開発されたMaskPoseAdapterは、堅牢なトラッキングマスクと意味的に豊かだがノイズの多いポーズヒートマップを融合することで、各ノイズ除去ステップで「誰が」と「どのように」を結びつけ、フレームごとのパイプラインで発生するアイデンティティのドリフトや外観のブリードを排除する。大規模なトレーニングと評価のために、(i) 26時間のデュアルスケーター映像と7,000以上の異なるIDを含むPairFS-4K、(ii) 迅速なクロスドメイン転送のための1時間のヒューマノイドロボット相互作用セットであるHumanRob-300、(iii) ダンス、ボクシング、レスリング、ヨガ、フィギュアスケートをカバーするDanceTogEval-100テストスイートを中心とした3トラックのベンチマークであるTogetherVideoBenchを導入した。TogetherVideoBenchにおいて、DanceTogetherは従来の技術を大幅に上回る性能を示した。さらに、1時間のファインチューニングで説得力のあるヒューマンロボットビデオを生成できることを示し、エンボディドAIやHRIタスクへの広範な一般化を強調した。広範なアブレーション実験により、持続的なアイデンティティとアクションの結合がこれらの成果に不可欠であることが確認された。我々のモデル、データセット、ベンチマークは、CVGを単一主体の振り付けから構成可能で多アクターの相互作用へと引き上げ、デジタル制作、シミュレーション、エンボディドインテリジェンスの新たな道を開く。ビデオデモとコードはhttps://DanceTog.github.io/で公開されている。
我々はRIPT-VLAを紹介する。これは、事前学習済みのVision-Language-Action(VLA)モデルを、疎な二値的成功報酬のみを用いて微調整する、シンプルでスケーラブルな強化学習ベースのインタラクティブなポストトレーニングパラダイムである。既存のVLAトレーニングパイプラインは、オフラインの専門家によるデモンストレーションデータと教師あり模倣に大きく依存しており、低データ環境下での新しいタスクや環境への適応能力が制限されている。RIPT-VLAは、動的ロールアウトサンプリングとleave-one-outアドバンテージ推定に基づく安定したポリシー最適化アルゴリズムを用いて、インタラクティブなポストトレーニングを可能にすることでこの問題に対処する。 RIPT-VLAには以下の特徴がある。第一に、様々なVLAモデルに適用可能であり、軽量なQueSTモデルの性能を21.2%向上させ、7BのOpenVLA-OFTモデルを前例のない97.5%の成功率に到達させた。第二に、計算効率とデータ効率が高い:たった1つのデモンストレーションで、RIPT-VLAは動作不可能だったSFTモデル(4%)を15回の反復内で97%の成功率で成功させることができる。さらに、RIPT-VLAによって学習されたポリシーは、異なるタスクやシナリオにわたって一般化し、初期状態の文脈に対して頑健であることを実証した。これらの結果は、RIPT-VLAが最小限の監督を通じてVLAモデルをポストトレーニングするための実用的で効果的なパラダイムであることを示している。
大規模言語モデルは通常、ドメイン固有のデータに対する教師ありファインチューニングを通じて下流タスクに適応されます。標準的なファインチューニングでは、生成損失を最小化してモデルパラメータを最適化することに焦点を当てますが、我々はさらに一歩進んで、モデル自身の学習信号を保持し活用するアプローチを取ります。これは、人間の学習者が過去のミスを振り返り、将来のパフォーマンスを向上させる方法に似ています。まず、ファインチューニング全体を通じてモデルの学習行動と繰り返し発生するエラーを体系的に追跡するための「ミスログ」の概念を導入します。元のTransformerベースのモデルを「パイロット」として扱い、それに対応して「コパイロット」モデルを設計し、ロジットの補正を通じてパイロットの推論性能を向上させます。この全体のパイロット-コパイロットフレームワークを「Transformer Copilot」と名付け、以下を導入します:(i) 新しいコパイロットモデルの設計、(ii) コパイロットが進化するミスログから継続的に学習する共同トレーニングパラダイム、(iii) コパイロットがパイロットのロジットを補正して生成を強化する融合推論パラダイム。我々はこの新しい学習フレームワークについて理論的および実証的な分析を提供します。常識、算術、推薦タスクにわたる12のベンチマークでの実験により、Transformer Copilotが最大34.5%の性能向上を一貫して達成し、パイロットモデルへの計算オーバーヘッドを最小限に抑えつつ、強力なスケーラビリティと転移性を示すことが実証されました。
最近のLLMエージェントの進歩は、複雑な環境で思考と行動を交互に行うReActのような推論基盤に大きく依存しています。しかし、ReActはしばしば根拠のないまたは一貫性のない推論ステップを生成し、エージェントの実際の状態と目標との間にミスアライメントを引き起こします。私たちの分析によると、これはReActが一貫した内部信念と目標の整合性を維持できないためであり、エラーと幻覚が累積する原因となっています。この問題を解決するために、私たちはReflActを導入します。これは、次の行動を計画するだけでなく、エージェントの状態を目標に対して継続的に反映する新しい推論基盤です。決定を状態に明示的に基づかせ、継続的な目標の整合性を強化することで、ReflActは戦略的信頼性を大幅に向上させます。この設計により、実証的な大幅な向上がもたらされました:ReflActはReActを平均27.7%上回り、ALFWorldでの成功率は93.3%に達しました。特に、ReflActは追加の拡張モジュール(例:Reflexion、WKM)を備えたReActをも上回り、信頼性の高いエージェント性能の鍵はコアの推論基盤を強化することにあることが示されました。
ポリシー勾配アルゴリズムは、大規模言語モデル(LLM)の推論能力を向上させるために成功裏に適用されてきた。ポリシー勾配アルゴリズムにおいて、訓練を安定化させるためにKullback-Leibler(KL)正則化が広く使用されているにもかかわらず、異なるKLダイバージェンスの定式化がどのように推定され、オンライン強化学習(RL)の代理損失関数に統合されるかについての体系的な探求は、微妙で体系的に探求可能な設計空間を提示している。本論文では、オンラインRL設定におけるKL正則化ポリシー勾配法を導出し分析するための体系的なフレームワークである、正則化ポリシー勾配(RPG)を提案する。正規化および非正規化ポリシー分布を考慮し、順方向および逆方向KLダイバージェンスによって正則化された目的関数に対するポリシー勾配と対応する代理損失関数を導出する。さらに、完全微分可能な損失関数とREINFORCEスタイルの勾配推定器の導出を提示し、多様なアルゴリズムニーズに対応する。これらの手法を用いたLLM推論のためのRLに関する広範な実験を行い、GRPO、REINFORCE++、DAPOなどの強力なベースラインと比較して、訓練の安定性と性能において改善または競争力のある結果を示す。コードはhttps://github.com/complex-reasoning/RPGで公開されている。
本論文では、長文脈推論トレースにおける価値モデル訓練のためのシンプルで効率的な手法を提案する。既存のプロセス報酬モデル(PRMs)と比較して、本手法は長文脈推論モデルにおいて定義が困難な「ステップ」という細粒度の概念を必要としない。250万の推論トレースからなるデータセットを収集し、1.5Bトークンレベルの価値モデルを訓練し、それをDeepSeekモデルに適用することで、テスト時の計算スケーリングにおける性能向上を実現した。ブロック単位の価値誘導探索(VGS)と最終的な加重多数決を組み合わせることで、多数決やbest-of-nなどの標準的な手法よりも優れたテスト時スケーリングを達成できることがわかった。64世代の推論予算において、DeepSeek-R1-Distill-1.5Bを用いたVGSは、4つの数学コンペティションベンチマーク(AIME 2024 & 2025、HMMT Feb 2024 & 2025)で平均45.7%の精度を達成し、o3-mini-mediumと同等の性能を示した。さらに、VGSは多数決と同じ性能を達成するために必要な推論FLOPsを大幅に削減する。本データセット、モデル、コードベースはオープンソースとして公開されている。
本論文は興味深い発見を提示する:テキストトークンを用いて自己回帰型LLMモデルを訓練すると、テキストモデルは内部で画像や音声を理解する能力を自然に発達させ、読むだけで見て聞く能力を獲得する。一般的な音声・視覚LLMモデルは、画像や音声の埋め込みを条件としたテキスト出力を得るためにテキストLLMモデルをファインチューニングする。一方、我々のアーキテクチャは、画像パッチ、音声波形、またはトークンを入力として受け取り、分類パイプラインに典型的な埋め込みやカテゴリラベルを出力する。我々は、テキストの重みが音声分類(FSD-50KおよびGTZANデータセット)を支援する汎用性を示す。さらに、CIFAR-10やFashion-MNISTの画像分類、および画像パッチにおいてもこの効果を実証する。これは、テキストLLMが強力な内部回路を学習し、毎回ゼロからモデルを訓練するのではなく、必要な接続を活性化することで様々なアプリケーションに活用できるという概念を推し進めるものである。
残差接続は、勾配消失問題を緩和することで深層ニューラルネットワークの深さを増す上で極めて重要です。しかし、標準的な残差更新では、モジュールの出力が入力ストリームに直接加算されます。これにより、既存のストリーム方向を主に強化または調整する更新が行われ、モジュールが全く新しい特徴を学習する能力を十分に活用できない可能性があります。本研究では、直交残差更新を提案します。モジュールの出力を入力ストリームに対して分解し、このストリームに直交する成分のみを加算します。この設計は、モジュールが主に新しい表現方向を提供するよう導き、より豊富な特徴学習を促進するとともに、より効率的な学習を実現することを目的としています。我々の直交更新戦略が、様々なアーキテクチャ(ResNetV2、Vision Transformers)とデータセット(CIFARs、TinyImageNet、ImageNet-1k)において、汎化精度と学習安定性を向上させることを実証しました。例えば、ViT-BにおいてImageNet-1kで+4.3%pのトップ1精度向上を達成しました。
Mixture-of-Experts (MoE) は、推論時に疎に活性化されるエキスパートを活用することで、大規模言語モデル (LLMs) の効率的なスケーリングを可能にします。メモリ制約のあるデバイス上で大規模なMoEモデルを効果的に展開するため、多くのシステムでは*エキスパートオフローディング*を導入し、高速メモリに一部のエキスパートをキャッシュし、残りを低速メモリに置いてCPUで実行するか、必要に応じてロードします。これまでの研究では、連続するトークンが類似したエキスパートを活性化するという**ローカルルーティング一貫性**を活用してきましたが、この一貫性の度合いはモデルによって異なり、まだ十分に研究されていません。本論文では、MoEモデルのローカルルーティング一貫性を測定するための2つの指標を提案します:(1) **セグメントルーティング最適性能 (SRP)** は、固定されたエキスパートグループがトークンのセグメントのニーズをどれだけカバーできるかを評価し、(2) **セグメントキャッシュ最適ヒット率 (SCH)** は、与えられたキャッシュサイズ制限下での最適なセグメントレベルのキャッシュヒット率を測定します。私たちは、さまざまなサイズとアーキテクチャを持つ20のMoE LLMを分析し、すべての層にMoEを適用し、共有エキスパートを使用しないモデルが最も高いローカルルーティング一貫性を示すことを発見しました。さらに、ドメイン特化型エキスパートは語彙特化型エキスパートよりもルーティング一貫性に大きく寄与し、ほとんどのモデルがキャッシュの有効性と効率性を約2倍のアクティブエキスパートサイズでバランスを取れることを示しました。これらの発見は、推論速度を損なうことなく、メモリ効率の良いMoE設計と展開の道を開くものです。実験を再現するためのコードを https://github.com/ljcleo/moe-lrc で公開しています。
DeepSeek R1-Zeroなどの最近の進歩は、インセンティブトレーニングの有効性を示しています。これは、言語モデルの出力の最終回答部分のみに基づいて報酬を計算する強化学習パラダイムであり、中間の推論ステップの生成を促進します。しかし、これらの手法は基本的に外部検証器に依存しており、数学やコーディングなど検証器が容易に利用可能な領域に適用が限定されます。報酬モデルは検証器として機能し得ますが、高品質な注釈付きデータを必要とし、訓練にコストがかかります。本研究では、NOVER(NO-VERifier Reinforcement Learning)を提案します。これは、外部検証器を必要とせず、標準的な教師ありファインチューニングデータのみを必要とする一般的な強化学習フレームワークです。NOVERは、幅広いテキスト間タスクにわたるインセンティブトレーニングを可能にし、DeepSeek R1 671Bなどの大規模推論モデルから蒸留した同じサイズのモデルを7.7%上回ります。さらに、NOVERの柔軟性は、逆インセンティブトレーニングなど、大規模言語モデルを最適化する新たな可能性を可能にします。
大規模言語モデル(LLM)が企業や政府などの機密性の高い領域でますます展開される中、コンテキスト内でユーザー定義のセキュリティポリシーに準拠することが極めて重要です。特に、情報の非開示に関してはその重要性が増しています。これまでのLLM研究は一般的な安全性や社会的にセンシティブなデータに焦点を当ててきましたが、攻撃に対するコンテキスト上のセキュリティ維持を評価する大規模なベンチマークは依然として不足しています。この問題に対処するため、我々は質問応答におけるLLMのコンテキスト上の非開示ポリシー準拠を評価する新たな大規模ベンチマークデータセット「CoPriva」を導入しました。現実的なコンテキストから派生したこのデータセットには、明示的なポリシーと、禁止された情報を求める直接的および挑戦的な間接的攻撃として設計されたクエリが含まれています。我々は10のLLMをこのベンチマークで評価し、多くのモデルがユーザー定義のポリシーに違反し、機密情報を漏洩するという重大な脆弱性を明らかにしました。この失敗は特に間接的攻撃に対して顕著であり、機密性の高いアプリケーションにおける現在のLLMの安全性調整における重大なギャップを浮き彫りにしています。我々の分析によると、モデルはクエリに対する正しい回答を識別できることが多いものの、生成中にポリシー制約を組み込むことに苦労しています。一方で、明示的に促された場合には出力を修正する部分的な能力を示します。これらの発見は、コンテキスト上のセキュリティを保証するためのより堅牢な方法の緊急の必要性を強調しています。
大規模推論モデル(LRM)は、多段階推論や適切なタイミングでの検索エンジンの呼び出しにおいて顕著な能力を発揮しています。しかし、既存の検索拡張推論アプローチは別個の検索モデルに依存しており、LRMの役割を検索のタイミングとクエリの決定に限定しています。この分離は、ハードウェアと運用コストを増加させるだけでなく、表現ボトルネック(検索器の埋め込み空間が生成器の要件を満たすのに十分でない現象)による検索プロセスでのエラーを引き起こします。この問題に対処するため、我々はシーケンス間マッチングからコーパス内の回答を含むパスの特定へと視点を転換し、FREESON(Retriever-FREE Retrieval-Augmented ReaSONing)という新しいフレームワークを提案します。このフレームワークは、LRMが生成器と検索器の両方の役割を果たすことで、関連知識を自ら検索できるようにします。これを実現するために、検索タスクに特化したMCTSアルゴリズムの変種であるCT-MCTS(Corpus-Traversing Monte Carlo Tree Search)を導入します。このアルゴリズムでは、LRMがコーパス内を回答を含む領域に向かって探索します。単一ホップおよび多段階ホップの質問を含む5つのオープンドメインQAベンチマークでの結果は、FREESONが別個の検索器を持つ4つの多段階推論モデルに対して、EMとF1で平均14.4%の改善を達成し、最も強力なベースラインと同等の性能を示し、PopQAと2WikiMultihopQAではそれぞれ3%と2%上回ることを示しています。
マルチホップ質問応答における反復的RAGは、長文脈と無関係な情報の蓄積という課題に直面しています。これにより、モデルの検索内容の処理と推論能力が阻害され、性能が制限されます。最近の手法では検索情報の圧縮に焦点を当てていますが、それらは単一ラウンドのRAGに限定されていたり、ファインチューニングを必要としたり、反復的RAGにおけるスケーラビリティが欠如していたりします。これらの課題に対処するため、我々はNotes Writingを提案します。これは各ステップで検索されたドキュメントから簡潔で関連性の高いノートを生成し、ノイズを削減して本質的な情報のみを保持する手法です。これにより、大規模言語モデル(LLM)の実質的な文脈長が間接的に増加し、より大量の入力テキストを処理しながら効果的に推論と計画を行うことが可能になります。Notes Writingはフレームワークに依存せず、様々な反復的RAG手法と統合可能です。我々は3つの反復的RAG手法、2つのモデル、4つの評価データセットを用いてその有効性を実証しました。Notes Writingは全体で平均15.6パーセントポイントの改善をもたらし、出力トークンの増加は最小限に抑えられました。
時間的推論は、大規模言語モデル(LLMs)が現実世界を理解する上で極めて重要です。しかし、既存の研究は、時間的推論における現実世界の課題を無視しています。具体的には、(1) 大量の時間的情報、(2) 急速に変化するイベントのダイナミクス、(3) 社会的相互作用における複雑な時間的依存関係です。このギャップを埋めるため、私たちは現実世界のシナリオにおける時間的推論のために設計された多層ベンチマーク「TIME」を提案します。TIMEは38,522のQAペアで構成され、3つのレベルと11の細分化されたサブタスクをカバーしています。このベンチマークは、異なる現実世界の課題を反映する3つのサブデータセット(TIME-Wiki、TIME-News、TIME-Dial)を含んでいます。私たちは、推論モデルと非推論モデルに対して広範な実験を行い、多様な現実世界のシナリオやタスクにおける時間的推論の性能を詳細に分析し、テスト時のスケーリングが時間的推論能力に与える影響をまとめました。さらに、今後の研究と標準化された評価を促進するため、人間が注釈を付けたサブセット「TIME-Lite」を公開しました。コードはhttps://github.com/sylvain-wei/TIMEで、データセットはhttps://huggingface.co/datasets/SylvainWei/TIMEで利用可能です。
低リソース言語を含む大規模言語モデル(LLMs)の言語能力を向上させることは、重要な研究領域です。現在の研究の方向性は、主に英語コーパスを翻訳して生成された合成データに依存しています。これにより、有望な言語理解と翻訳能力が示される一方で、モデルがソース言語の文化に沿ったものになることが多く、ローカルコミュニティの文化的遺産や価値観を十分に反映できないことが頻繁にあります。本研究では、特定のコミュニティに合わせた合成データと検索ベースの事前学習データを作成する方法論を提案します。この方法論は、(i) 言語、(ii) 文化的遺産、(iii) 文化的価値観を考慮に入れています。私たちは、エジプトとモロッコの方言をテストベッドとして使用し、その言語的・文化的豊かさと、現在のLLMsにおける過小評価を理由に選びました。概念実証として、エジプトとモロッコのコミュニティに適応した3BパラメータのLLMであるNileChatを開発し、彼らの言語、文化的遺産、価値観を取り入れました。理解、翻訳、文化的および価値観の整合性に関するさまざまなベンチマークでの結果は、NileChatが同規模の既存のアラビア語対応LLMを上回り、より大規模なモデルと同等の性能を発揮することを示しています。私たちは、方法論、データ、モデルをコミュニティと共有し、LLM開発においてより多様なコミュニティの包含とカバレッジを促進します。
本論文では、スパース化された大規模言語モデル(LLM)を基盤とした、中国語中心の多言語機械翻訳モデル「FuxiMT」を提案する。FuxiMTの学習には2段階の戦略を採用しており、まず大規模な中国語コーパスで事前学習を行い、その後65言語を含む大規模な並列データセットで多言語ファインチューニングを実施する。FuxiMTはMixture-of-Experts(MoEs)を組み込み、カリキュラム学習戦略を採用することで、さまざまなリソースレベルにおいて堅牢な性能を発揮する。実験結果から、FuxiMTは最先端のLLMや機械翻訳モデルを含む強力なベースラインを大幅に上回り、特に低リソース環境下で優れた性能を示すことが確認された。さらに、FuxiMTは未見の言語ペアに対するゼロショット翻訳能力も顕著であり、並列データが不足または存在しない状況でのコミュニケーションギャップを埋める可能性を示唆している。
デノボペプチドシーケンシングはプロテオミクスにおける重要な課題である。しかし、現在の深層学習ベースの手法の性能は、質量分析データの本質的な複雑さとノイズ信号の不均一な分布によって制限されており、データ固有のバイアスを引き起こしている。本論文では、複数のシーケンシングモデルの相補的な強みを活用してデノボペプチドシーケンシングを強化する初めての深層リランキングフレームワークであるRankNovoを提案する。RankNovoはリストワイズリランキングアプローチを採用し、候補ペプチドを多重配列アラインメントとしてモデル化し、軸方向アテンションを用いて候補間の情報豊かな特徴を抽出する。さらに、ペプチド間の質量差を配列レベルと残基レベルで定量化する2つの新しい指標、PMD(ペプチド質量偏差)とRMD(残基質量偏差)を導入し、繊細な監督を提供する。大規模な実験により、RankNovoはリランキング事前学習のための訓練候補を生成するために使用されたベースモデルを上回るだけでなく、新たな最先端のベンチマークを確立することが示された。さらに、RankNovoは訓練中に曝露されなかった未知のモデルに対する強力なゼロショット汎化能力を示し、その堅牢性とペプチドシーケンシングのための普遍的なリランキングフレームワークとしての可能性を強調している。我々の研究は、既存の単一モデルパラダイムに根本的に挑戦し、正確なデノボシーケンシングの最前線を進める新たなリランキング戦略を提示する。ソースコードはGitHubで提供されている。