翻訳付きの日次キュレーションされたAI研究論文
強化学習(RL)を用いたポストトレーニング言語モデル(LMs)は、教師ありファインチューニングなしで複雑な推論能力を向上させることが可能であり、DeepSeek-R1-Zeroによってその有効性が実証されています。しかし、LMsに対してRLを効果的に活用するためには、推論をスケールアップするための大幅な並列化が必要であり、これにはレイテンシ、メモリ、信頼性といった技術的な課題と、増大し続けるコストが伴います。本論文では、完全に分散化され非同期型のRLポストトレーニングアルゴリズムであるSwarm sAmpling Policy Optimization(SAPO)を提案します。SAPOは、異種の計算ノードからなる分散ネットワーク向けに設計されており、各ノードは自身のポリシーモデルを管理しながら、ネットワーク内の他のノードとロールアウトを「共有」します。レイテンシ、モデルの均一性、ハードウェアに関する明示的な前提は不要であり、ノードは必要に応じて独立して動作することも可能です。その結果、このアルゴリズムはRLポストトレーニングのスケーリングにおける一般的なボトルネックを回避し、新たな可能性を許容(さらには促進)します。ネットワーク全体で「共有」されたロールアウトをサンプリングすることで、「ひらめきの瞬間」が伝播し、学習プロセスをブートストラップすることが可能になります。本論文では、SAPOが制御実験において最大94%の累積報酬向上を達成したことを示します。また、Gensynコミュニティメンバーが提供した数千のノードからなるネットワーク上でのテストから得られた知見を共有します。このテストでは、オープンソースデモ中に多様なハードウェアとモデル上でアルゴリズムが実行されました。
並列思考は、複数の推論経路を同時に探索することで大規模言語モデル(LLM)の推論能力を向上させる新たなアプローチとして登場しました。しかし、その能力を訓練を通じて活性化することは依然として困難であり、既存の手法は主に合成データを用いた教師付きファインチューニング(SFT)に依存しており、教師強制型の模倣を促す一方で探索と汎化を阻害しています。これらとは異なり、我々は複雑な実世界の推論タスクにおいて並列思考の振る舞いを可能にする初の強化学習(RL)フレームワークであるParallel-R1を提案します。本フレームワークは、RLを用いた並列思考の訓練におけるコールドスタート問題を明示的に解決する漸進的カリキュラムを採用しています。まず、容易なタスクから生成されたプロンプト軌跡に対してSFTを行い、並列思考能力を習得させ、その後RLに移行してより難しい問題に対してこのスキルを探索・汎化させます。MATH、AMC23、AIMEなどの様々な数学ベンチマークでの実験により、Parallel-R1が並列思考を成功裏に習得させ、RLを用いて直接挑戦的なタスクで訓練された逐次思考モデルに対して8.4%の精度向上をもたらすことが示されました。さらに分析を行うと、モデルの思考行動に明確な変化が見られます:初期段階では並列思考を探索戦略として使用し、後期段階では同じ能力を多視点検証に活用します。最も重要な点として、並列思考が訓練中期の探索足場として機能し、この一時的な探索段階がRL後のより高い性能限界を開放し、AIME25においてベースラインに対して42.9%の改善をもたらすことを検証しました。我々のモデル、データ、コードはhttps://github.com/zhengkid/Parallel-R1でオープンソースとして公開されます。
視覚的指示チューニングで訓練されたマルチモーダル大規模言語モデル(MLLM)は、多様なタスクで高い性能を達成していますが、物体のカウントや空間推論などの視覚中心のタスクでは依然として限界があります。このギャップは、主流のテキストのみの監視パラダイムに起因すると考えられます。このパラダイムは視覚経路に対して間接的なガイダンスしか提供せず、MLLMが訓練中に細かな視覚的詳細を捨ててしまうことが多いためです。本論文では、VIsual Representation ALignment(VIRAL)を提案します。これは、MLLMの内部視覚表現を事前訓練された視覚基盤モデル(VFM)の表現と整合させる、シンプルでありながら効果的な正則化戦略です。この整合を明示的に強制することで、VIRALはモデルが入力視覚エンコーダから重要な視覚的詳細を保持するだけでなく、VFMからの追加の視覚的知識を補完し、複雑な視覚入力を推論する能力を向上させます。我々の実験は、広く採用されているマルチモーダルベンチマークの全てのタスクで一貫した改善を示しています。さらに、我々のフレームワークの基盤となる主要な設計選択を検証するために、包括的なアブレーション研究を実施しました。このシンプルな発見が、MLLMの訓練における視覚情報の効果的な統合に向けた重要な方向性を開くものと信じています。
大規模マルチモーダルモデルの最近の進展により、画像ベースのツールと強化学習を組み合わせて視覚的問題に取り組む手法が開発されてきた。しかし、既存のオープンソースアプローチはしばしば単調な推論パターンを示し、限られた数のインタラクションターンしか許容しないため、試行錯誤的な探索を必要とする困難なタスクには不十分である。本研究では、この制限を克服するため、ツールベースのインタラクションをスケールアップし、数十ステップにわたる深い多ターン推論を実行するシステム「Mini-o3」を導入し、困難な視覚探索タスクにおいて最先端の性能を達成する。OpenAIのo3スタイルの動作を再現するためのレシピは、3つの主要な要素から構成される。まず、探索的推論のために設計された数千の困難な視覚探索問題を集めた「Visual Probe Dataset」を構築する。次に、深さ優先探索、試行錯誤、目標維持など多様な推論パターンを示すコールドスタート軌跡を取得するための反復的なデータ収集パイプラインを開発する。第三に、強化学習中に最大ターン数に達した応答(オーバーターン応答)のペナルティを防ぐ「オーバーターンマスキング戦略」を提案し、トレーニング時の効率性とテスト時のスケーラビリティを両立させる。6ターンの上限でトレーニングされたにもかかわらず、我々のモデルは推論時に数十ターンに自然にスケールする軌跡を生成し、ターン数が増えるにつれて精度が向上する。大規模な実験により、Mini-o3が豊かな推論パターンと深い思考経路を生成し、困難な視覚探索問題を効果的に解決することが実証された。
統一マルチモーダルモデル(UMM)は、視覚理解と生成を単一のアーキテクチャ内に統合する。しかし、従来のトレーニングでは、画像とテキストのペア(またはシーケンス)に依存しており、そのキャプションは通常、疎であり、細かい視覚的詳細を欠いている——単純な画像を説明するために数百語を使用する場合でも。本論文では、リソース効率の高いポストトレーニング手法であるReconstruction Alignment(RecA)を導入する。RecAは、視覚理解エンコーダの埋め込みを密な「テキストプロンプト」として活用し、キャプションなしで豊富な監督を提供する。具体的には、RecAはUMMを自身の視覚理解埋め込みに条件付けし、自己教師あり再構成損失を用いて入力画像を再構成するように最適化し、それによって理解と生成を再調整する。そのシンプルさにもかかわらず、RecAは広く適用可能である:自己回帰型、マスク自己回帰型、および拡散ベースのUMM全体で、生成と編集の忠実度を一貫して向上させる。わずか27 GPU時間で、RecAによるポストトレーニングは、GenEval(0.73→0.90)およびDPGBench(80.93→88.15)での画像生成性能を大幅に向上させ、編集ベンチマーク(ImgEdit 3.38→3.75、GEdit 6.94→7.25)も向上させる。特に、RecAはより大規模なオープンソースモデルを凌駕し、多様なUMMアーキテクチャに広く適用可能であり、UMMの効率的で汎用的なポストトレーニングアライメント戦略として確立される。
最近の画像カスタマイズ技術の進歩により、より強力なカスタマイズ能力により幅広い応用の可能性が示されています。しかし、人間は顔に対してより敏感であるため、複数の参照画像を用いた際に一貫したアイデンティティを維持しつつ、アイデンティティの混乱を避けるという重要な課題が残っており、カスタマイズモデルのアイデンティティ拡張性を制限しています。この問題に対処するため、我々はUMO(Unified Multi-identity Optimization)フレームワークを提案します。UMOは、高忠実度のアイデンティティ維持を保ち、拡張性を考慮したアイデンティティ混乱の軽減を目的としています。「多対多マッチング」パラダイムを用いて、UMOは複数アイデンティティ生成をグローバルな割り当て最適化問題として再定式化し、拡散モデルに対する強化学習を通じて既存の画像カスタマイズ手法に対して一般的に複数アイデンティティの一貫性を実現します。UMOのトレーニングを促進するため、合成データと実データの両方を含む、複数参照画像を用いた拡張可能なカスタマイズデータセットを開発しました。さらに、アイデンティティ混乱を測定するための新しい指標を提案します。大規模な実験により、UMOがアイデンティティの一貫性を大幅に向上させるだけでなく、複数の画像カスタマイズ手法においてアイデンティティ混乱を減少させ、オープンソース手法の中でもアイデンティティ保持の次元で新たな最先端を確立することが示されています。コードとモデル: https://github.com/bytedance/UMO
動的な視覚環境における言語条件付きタスクの実行は、エンボディードAIにおける中心的な課題として残されている。既存のVision-Language-Action(VLA)モデルは、主に反応的な状態から行動へのマッピングを採用しており、しばしば近視眼的な行動や動的なシーンにおけるロバスト性の低さを引き起こす。本論文では、視覚的予測生成を意思決定パイプラインに統合した事前学習済みVLAフレームワークであるF1を紹介する。F1は、知覚、予測生成、制御のための専用モジュールを備えたMixture-of-Transformerアーキテクチャを採用し、理解、生成、行動を橋渡しする。その中核では、F1は次スケール予測メカニズムを用いて、目標条件付き視覚的予測を明示的な計画目標として合成する。将来の視覚状態を予測することで、F1は行動生成を予測ガイド付き逆ダイナミクス問題として再定式化し、視覚的目標を暗黙的に達成する行動を可能にする。F1にロバストで汎化可能な能力を付与するため、136の多様なタスクにわたる33万以上の軌跡を含む大規模データセット上での3段階のトレーニングレシピを提案する。このトレーニングスキームは、モジュール化された推論を強化し、複雑で動的な環境において重要な転移可能な視覚的予測をモデルに備えさせる。実世界のタスクおよびシミュレーションベンチマークにおける広範な評価により、F1が既存のアプローチを一貫して上回り、タスク成功率と汎化能力の両方で大幅な向上を達成することが示された。
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)の複雑な推論能力を向上させる上で非常に効果的であることが証明されているが、その成功を支える根本的なメカニズムは依然として不明瞭である。我々の分析によると、「ひらめきの瞬間(aha moments)」、「長さスケーリング(length-scaling)」、エントロピー動力学といった不可解な現象は、ばらばらに発生する事象ではなく、人間の認知における高レベルの戦略的計画と低レベルの手続き的実行の分離に類似した、新たに出現する推論階層の特徴であることが明らかとなった。我々は、二段階の動的プロセスを発見した:最初に、モデルは手続き的正しさに制約され、低レベルのスキルを向上させる必要がある。その後、学習のボトルネックが決定的に移行し、高レベルの戦略的計画の探索と習熟が性能向上を牽引する。この洞察は、GRPOのような既存のRLアルゴリズムの核心的な非効率性を明らかにするものであり、これらのアルゴリズムは最適化圧力を無差別に適用し、すべてのトークンにわたって学習信号を希釈してしまう。この問題に対処するため、我々は高インパクトな計画トークンに最適化努力を集中させる階層認識型クレジット割り当て(HIerarchy-Aware Credit Assignment, HICRA)アルゴリズムを提案する。HICRAは強力なベースラインを大幅に上回り、この戦略的ボトルネックに焦点を当てることが高度な推論を解き放つ鍵であることを示している。さらに、トークンレベルのエントロピーのような誤解を招く指標ではなく、戦略的探索を測定するための優れたコンパスとしてセマンティックエントロピーを検証した。
大規模言語モデル(LLM)は近年、スケールの拡大、高品質な学習データの豊富さ、そして強化学習によって急速に進化を遂げてきた。しかし、この進歩には根本的なボトルネックが存在する:モデルが継続的に学習するために、ますます多くのデータが必要とされることだ。本研究では、追加のデータを必要とせずにモデルを改善することを可能にする強化学習アプローチを提案する。我々の手法は、ゲーム理論的な自己対戦のフレームワークを活用しており、モデルの能力を競争ゲームにおけるパフォーマンスとして捉え、モデル自身と対戦させることでより強力なポリシーを導き出す。このプロセスを「Language Self-Play(LSP)」と呼ぶ。Llama-3.2-3B-Instructを用いた指示追従ベンチマークでの実験では、事前学習済みモデルが自己対戦のみを通じて難しいタスクにおける性能を向上させることができるだけでなく、データ駆動型のベースラインよりも効果的にそれを実現できることが示された。
AI支援による放射線画像解釈は、主に狭い範囲の単一タスクモデルに基づいています。このアプローチでは、膨大な種類の画像モダリティ、疾患、放射線学的所見を網羅するのは非現実的です。ファウンデーションモデル(FM)は、様々なモダリティや低データ環境での広範な汎化を可能にする可能性を秘めています。しかし、この潜在能力は放射線学の分野ではまだ十分に実現されていません。私たちはCuriaを紹介します。これは、主要な病院の数年間にわたる断面画像の全出力を基に訓練されたファウンデーションモデルで、私たちの知る限り、15万件の検査(130TB)を含む最大規模の実世界データコーパスです。新たにキュレーションされた19タスクの外部検証ベンチマークにおいて、Curiaは臓器を正確に識別し、脳出血や心筋梗塞などの状態を検出し、腫瘍のステージングにおける予後を予測します。Curiaは放射線科医や最近のファウンデーションモデルの性能を上回るか同等であり、クロスモダリティや低データ環境において臨床的に重要な創発的特性を示します。進展を加速するため、私たちはベースモデルの重みをhttps://huggingface.co/raidium/curiaで公開しています。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる上で顕著な成功を収めています。しかし、既存のRLVR手法は、トレーニングデータの難易度とモデルの能力のミスマッチによる探索効率の低さに悩まされることが多いです。問題が過度に難しい場合、LLMは有効な推論経路を見つけられず、逆に問題が簡単すぎる場合には新たな能力をほとんど学習しません。本研究では、損失の減少速度とロールアウト精度の関係を定量化することで、問題の難易度の影響を形式化します。この分析に基づいて、我々はSEELEという新しい監督補助型RLVRフレームワークを提案します。SEELEは、各トレーニングサンプルに元の問題の後にヒント(完全な解答の一部)を追加することで、問題の難易度を動的に調整し、高効率領域に留まるようにします。従来のヒントベースのアプローチとは異なり、SEELEは各問題に対して意図的かつ適応的にヒントの長さを調整し、最適な難易度を実現します。最適なヒントの長さを決定するために、SEELEは多段階のロールアウトサンプリング戦略を採用します。各段階で、前の段階で収集された精度とヒントのペアに基づいて項目反応理論モデルをフィットさせ、次の段階に必要なヒントの長さを予測します。このインスタンスレベルでのリアルタイムな難易度調整により、問題の難易度が進化するモデル能力と一致し、探索効率が向上します。実験結果は、SEELEがGroup Relative Policy Optimization(GRPO)とSupervised Fine-tuning(SFT)をそれぞれ+11.8ポイントと+10.5ポイント上回り、6つの数学推論ベンチマークで従来の最良の監督補助型アプローチを平均+3.6ポイント上回ることを示しています。
標準的な因果的アテンションでは、各トークンのクエリ、キー、および値(QKV)は静的であり、先行するコンテキストのみをエンコードします。本研究では、コンテキストが展開するにつれて各トークンのキーを継続的に更新するアテンションメカニズムであるCAuSal aTtention with Lookahead kEys(CASTLE)を提案します。これらの更新されたキーを先読みキーと呼びます。なぜなら、それらは以前の位置に属しながらも、それらの位置に対して相対的に後に現れるトークンからの情報を統合し、かつ自己回帰特性を厳密に保持するためです。このメカニズムは逐次的に見えますが、各位置で先読みキーを明示的に実体化することなく、効率的な並列訓練を可能にする数学的等価性を導出します。言語モデリングのベンチマークにおいて、CASTLEはモデルスケールにわたって標準的な因果的アテンションを一貫して上回り、検証パープレキシティを低減し、さまざまな下流タスクでの性能を向上させます。
最近の研究では、微分可能な報酬を用いて拡散モデルを直接人間の好みに合わせる手法の有効性が実証されています。しかし、これらの手法には2つの主要な課題があります。(1) 報酬スコアリングのために多段階のノイズ除去と勾配計算に依存しており、計算コストが高く、最適化が少数の拡散ステップに限定されること、(2) フォトリアリズムや正確な照明効果といった望ましい美的品質を達成するために、報酬モデルの継続的なオフライン適応が必要となることです。多段階ノイズ除去の制限に対処するため、我々はDirect-Alignを提案します。この手法では、拡散状態がノイズとターゲット画像の補間であるという方程式を活用し、任意のタイムステップから元の画像を効果的に復元するためのノイズ事前分布を事前に定義します。これにより、後期のタイムステップでの過剰最適化を効果的に回避します。さらに、Semantic Relative Preference Optimization (SRPO)を導入し、報酬をテキスト条件付き信号として定式化します。このアプローチにより、ポジティブおよびネガティブなプロンプト拡張に応じて報酬をオンラインで調整することが可能となり、オフラインでの報酬微調整への依存を軽減します。最適化されたノイズ除去とオンライン報酬調整を用いてFLUX.1.devモデルを微調整することで、人間による評価におけるリアリズムと美的品質を3倍以上向上させました。
SimpleQA Verifiedを紹介します。これは、OpenAIのSimpleQAに基づいて大規模言語モデル(LLM)の短い形式の事実性を評価するための1,000プロンプトのベンチマークです。このベンチマークは、OpenAIのベンチマークにおけるノイズや誤ったラベル、トピックの偏り、質問の冗長性といった重要な制約を解決します。SimpleQA Verifiedは、重複排除、トピックのバランス調整、ソースの整合性を含む厳格な多段階フィルタリングプロセスを通じて作成され、より信頼性が高く挑戦的な評価セットを提供します。また、自動評価プロンプトの改善も行われました。この新しいベンチマークでは、Gemini 2.5 Proが55.6のF1スコアを達成し、GPT-5を含む他の最先端モデルを上回りました。この研究は、パラメトリックモデルの事実性における真の進歩を追跡し、幻覚を軽減するための高精度なツールを研究コミュニティに提供します。ベンチマークデータセット、評価コード、およびリーダーボードは以下で利用可能です: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
テキストから画像を生成する拡散モデルは計算量が大きく、大規模なTransformerバックボーンを数十回も順方向に通過する必要があります。例えば、Stable Diffusion XLは2.6Bパラメータのモデルを50回評価することで高品質な画像を生成しますが、これは単一のバッチ処理でも非常に高コストです。少ステップ拡散モデルはこのコストを2~8回のノイズ除去ステップに削減しますが、依然として大規模で非圧縮のU-Netや拡散Transformerバックボーンに依存しており、データセンターGPUなしでの完全精度推論にはコストがかかりすぎます。これらの要件は、完全精度キャリブレーションに依存する既存の学習後量子化手法も制限しています。本研究では、モデルの重みではなく拡散モデルのスケジューラを変更する新しい学習後量子化パラダイムであるQ-Schedを提案します。Q-Schedは、少ステップサンプリング軌道を調整することで、モデルサイズを4分の1に削減しながら完全精度の精度を実現します。量子化対応の事前条件付け係数を学習するために、テキストと画像の互換性と画像品質メトリックを組み合わせた細粒度最適化手法であるJAQ損失を提案します。JAQは参照不要で、わずかなキャリブレーションプロンプトのみを必要とし、キャリブレーション中の完全精度推論を回避します。Q-Schedは、FP16 4ステップのLatent Consistency Modelに対して15.5%、FP16 8ステップのPhased Consistency Modelに対して16.6%のFID改善をもたらし、量子化と少ステップ蒸留が高忠実度生成において補完的であることを示しています。80,000以上のアノテーションを伴う大規模なユーザー調査により、Q-SchedがFLUX.1[schnell]とSDXL-Turboの両方で有効であることがさらに確認されました。
我々は、検証可能な報酬を用いた強化学習(RLVR)における動的な生成長の特性に合わせた、シンプルかつ効果的な損失集約手法であるDelta L Normalizationを提案する。最近、RLVRは大規模言語モデル(LLM)の推論能力を向上させる強い可能性を示しているが、訓練中の応答長の大きな変動が高い勾配分散と不安定な最適化を引き起こすという重大な課題が存在する。これまでにGRPO、DAPO、Dr. GRPOなどの手法がこの問題に対処するために異なる損失正規化項を導入してきたが、それらは偏った推定値を生成するか、依然として高い勾配分散に悩まされている。我々は、理論的かつ実証的に長さの変化が方策損失に及ぼす影響を分析し、この問題を最小分散不偏推定量を見つける問題として再定式化した。提案するDelta L Normalizationは、真の方策損失の不偏推定値を提供するだけでなく、理論的にも勾配分散を最小化する。大規模な実験により、異なるモデルサイズ、最大長、タスクにおいて一貫して優れた結果を達成することが示された。我々のコードはhttps://github.com/zerolllin/Delta-L-Normalizationで公開予定である。
大規模言語モデル(LLMs)は、テキストベースのタスクにおいて驚異的で汎用性の高いツールであり、これまで想像もできなかった無数の応用を可能にしてきた。一方、検索モデルについては、そのような汎用的な能力を持つモデルはまだ登場していない。この目標を達成するためには、検索モデルが複雑な検索タスクを実行できる必要がある。これらのタスクでは、クエリが自然言語で複数の部分、制約、または要件を含む。これらのタスクは、既存の一般的に使用されている評価セットで用いられる単純な単一側面のクエリからの自然な進化を表している。複雑なクエリは、人々が検索システムに対してより具体的でしばしば野心的な情報要求を処理することを期待するようになるにつれて自然に発生する。これは、LLMベースの情報システムがどのように使用されているかによって示されている。検索モデルが複雑な検索タスクにおいてその能力を拡大することに対する期待が高まる中、多様な複雑なタスクの包括的なセットにおいて検索モデルの能力を評価するためのリソースは限られている。存在するわずかなリソースも範囲が限定されており、現実的な設定を欠いていることが多く、複雑な現実世界の検索タスクにおける検索モデルの真の能力を知ることは困難である。この欠点を解消し、次世代検索モデルの革新を促進するために、我々は多様で現実的な複雑検索タスクのセットを構築し、代表的な最先端の検索モデルをベンチマークした。さらに、LLMベースのクエリ拡張と書き換えが検索品質に与える影響を探った。我々の結果は、最高のモデルでさえ、すべてのタスクにおいて平均nDCG@10がわずか0.346、R@100が0.587と、高品質な検索結果を生成するのに苦労していることを示している。LLMによる拡張は弱いモデルを助けることができるが、最も強いモデルはすべての書き換え技術においてすべてのメトリクスで性能が低下している。
生成AIシステムが科学、ビジネス、政府の分野で有能かつ民主化されるにつれ、その失敗モードに対する深い洞察が急務となっています。トランスフォーマーモデルが幻覚を起こしやすいといった、その振る舞いの時折の不安定性は、高リスク領域での新興AIソリューションの信頼と採用を妨げています。本研究では、事前学習済みトランスフォーマーモデルにおいて、入力空間の不確実性を実験的に制御したシナリオ下で、スパースオートエンコーダによって捕捉された概念表現を通じて、幻覚がどのように、いつ発生するかを明らかにします。体系的な実験により、トランスフォーマーモデルが使用する意味概念の数が、入力情報がますます非構造化されるにつれて増加することが明らかになりました。入力空間の不確実性が高まるにつれて、トランスフォーマーモデルは一貫性があるものの入力に鈍感な意味特徴を活性化しやすくなり、幻覚的な出力を引き起こします。極端な場合、純粋なノイズ入力に対して、事前学習済みトランスフォーマーモデルの中間活性化において、多様で堅牢にトリガーされる有意義な概念を特定し、その機能的な整合性をターゲットを絞ったステアリングによって確認します。また、トランスフォーマーモデルの出力における幻覚が、トランスフォーマー層の活性化に埋め込まれた概念パターンから確実に予測できることも示します。トランスフォーマーの内部処理メカニズムに関するこれらの洞察は、AIモデルを人間の価値観に整合させること、AIの安全性、潜在的な敵対的攻撃の攻撃面を開くこと、およびモデルの幻覚リスクを自動的に定量化するための基盤を提供することに即座に影響を及ぼします。