翻訳付きの日次キュレーションされたAI研究論文
本論文では、大規模言語モデル(LLMs)を用いた推論における強化学習(Reinforcement Learning, RL)の最近の進展を概観する。RLは、特に数学やコーディングなどの複雑な論理的タスクに対処する際に、LLMの能力のフロンティアを押し広げる上で顕著な成功を収めてきた。その結果、RLはLLMをLRM(Large Reasoning Models)に変換するための基盤的手法として確立された。この分野の急速な進展に伴い、LRMにおけるRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラストラクチャにおいても基礎的な課題に直面している。このため、この領域の発展を再検討し、その軌道を再評価し、人工超知能(Artificial SuperIntelligence, ASI)に向けたRLのスケーラビリティを向上させるための戦略を探ることが時宜に適っている。特に、DeepSeek-R1のリリース以降、LLMおよびLRMの推論能力にRLを適用した研究を、基礎的構成要素、核心的問題、トレーニング資源、下流アプリケーションを含めて検証し、この急速に進化する領域における将来の機会と方向性を特定する。本レビューが、より広範な推論モデルにおけるRLの今後の研究を促進することを期待する。Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
報酬モデル(Reward Models, RMs)は、強化学習(Reinforcement Learning, RL)を通じて生成モデルを改善する上で重要な役割を果たしますが、視覚生成におけるRMのスケーリングパラダイムは未だほとんど探求されていません。これは主に、既存のアプローチにおける根本的な制限によるものです。CLIPベースのRMsは、アーキテクチャと入力モダリティの制約に悩まされており、広く使われているBradley-Terry損失は、視覚言語モデル(Vision-Language Models, VLMs)の次トークン予測メカニズムと根本的に整合せず、効果的なスケーリングを妨げています。さらに重要なことに、RLHF最適化プロセスは「報酬ハッキング」問題に悩まされており、モデルが真の品質を向上させることなく、報酬信号の欠陥を利用してしまいます。これらの課題に対処するため、我々はRewardDanceを導入します。これは、新しい生成的報酬パラダイムを通じてこれらの障壁を克服するスケーラブルな報酬モデリングフレームワークです。RewardDanceは、生成された画像が特定の基準に従って参照画像を上回ることを示す「yes」トークンをモデルが予測する確率として報酬スコアを再定式化することで、報酬目標をVLMアーキテクチャと本質的に整合させます。この整合により、2つの次元でのスケーリングが可能になります:(1) モデルスケーリング:RMsを最大260億パラメータまで体系的にスケーリングする。(2) コンテキストスケーリング:タスク固有の指示、参照例、および連鎖的思考(Chain-of-Thought, CoT)推論の統合。大規模な実験により、RewardDanceがテキストから画像、テキストから動画、および画像から動画の生成において、最先端の手法を大幅に上回ることが実証されました。特に、我々は「報酬ハッキング」という持続的な課題を解決しました。大規模なRMsは、RL微調整中に高い報酬分散を示し、ハッキングに対する耐性と多様で高品質な出力を生成する能力を証明しています。これにより、小規模モデルを悩ませるモード崩壊問題が大幅に緩和されます。
世界モデリングは、AI研究における基盤となり、エージェントが自らが存在する動的な環境を理解し、表現し、予測することを可能にしている。従来の研究は主に2D画像や動画データの生成手法に重点を置いてきたが、RGB-D画像、占有グリッド、LiDAR点群といったネイティブな3Dおよび4D表現を大規模シーンモデリングに活用する急速に進展する研究領域を見落としている。同時に、「世界モデル」に対する標準化された定義や分類体系の欠如により、文献上では断片的で時には矛盾する主張がなされてきた。本サーベイは、これらのギャップを埋めるべく、3Dおよび4D世界モデリングと生成に特化した初の包括的なレビューを提示する。我々は正確な定義を確立し、ビデオベース(VideoGen)、占有ベース(OccGen)、LiDARベース(LiDARGen)のアプローチにわたる構造化された分類体系を導入し、3D/4D設定に特化したデータセットと評価指標を体系的にまとめる。さらに、実用的なアプリケーションについて議論し、未解決の課題を特定し、有望な研究方向性を強調することで、この分野を前進させるための一貫した基礎的な参照資料を提供することを目指す。既存文献の体系的なまとめは、https://github.com/worldbench/survey で入手可能である。
複雑な現実世界のタスクを解決するために一連の知的判断を行う自律的なLLMエージェントの開発は、急速に進化するフロンティアである。人間の認知発達と同様に、エージェントは環境との探索と相互作用を通じて知識とスキルを獲得することが期待されている。進展はあるものの、多様で現実的な環境において、教師ありファインチューニング(SFT)に依存せずに、ゼロからそのようなエージェントを効果的に訓練できる統一されたインタラクティブな強化学習(RL)フレームワークは、まだコミュニティに欠けている。このギャップを埋めるため、我々はAgentGym-RLを導入する。これは、RLを通じてマルチターンのインタラクティブな意思決定を行うLLMエージェントを訓練するための新しいフレームワークである。このフレームワークは、モジュール化され分離されたアーキテクチャを特徴とし、高い柔軟性と拡張性を確保している。また、多様な現実世界のシナリオを網羅し、主流のRLアルゴリズムをサポートする。さらに、我々はScalingInter-RLを提案する。これは、探索と活用のバランスと安定したRL最適化のために設計された訓練アプローチである。初期段階では、相互作用の数を制限することで活用を重視し、徐々に大きなホライズンに向けて探索にシフトし、多様な問題解決戦略を促進する。これにより、エージェントはより多様な行動を発展させ、長いホライズンでの崩壊に陥りにくくなる。我々は、AgentGym-RLフレームワークとScalingInter-RLアプローチの安定性と有効性を検証するために広範な実験を行った。我々のエージェントは、多様な環境における27のタスクで商用モデルに匹敵またはそれを上回る性能を示した。我々は重要な洞察を提供し、研究コミュニティが次世代の知的エージェントを開発するために、コードとデータセットを含む完全なAgentGym-RLフレームワークをオープンソースとして公開する予定である。
3Dアセットを構成要素に分割することは、3D理解の向上、モデルの再利用の促進、パーツ生成などの様々なアプリケーションをサポートする上で重要です。しかし、現在の手法は、複雑なオブジェクトを扱う際のロバスト性の低さや、プロセスの完全な自動化ができないといった課題に直面しています。本論文では、任意の3Dオブジェクトを構成要素に完全に自動で分割するために設計された、ネイティブ3Dポイントプロンプト可能なパーツセグメンテーションモデル「P3-SAM」を提案します。SAMにインスパイアされたP3-SAMは、特徴抽出器、複数のセグメンテーションヘッド、およびIoU予測器で構成され、ユーザーに対してインタラクティブなセグメンテーションを可能にします。また、パーツインスタンスセグメンテーションのために、モデルが予測したマスクを自動的に選択・統合するアルゴリズムも提案します。本モデルは、合理的なセグメンテーションラベルを持つ約370万のモデルを含む新たに構築されたデータセットで学習されています。比較実験の結果、本手法は複雑なオブジェクトに対しても正確なセグメンテーション結果と高いロバスト性を達成し、最先端の性能を実現しています。コードは近日中に公開予定です。
本報告書では、我々が初めてオープンソース化した多言語翻訳モデル「Hunyuan-MT-7B」を紹介します。このモデルは33の主要言語間での双方向翻訳をサポートし、特に標準中国語と複数の少数民族言語および方言間の翻訳に重点を置いています。さらに、多様な翻訳シナリオに対応し、テスト時のモデル性能を向上させるため、スローシンキングモードに着想を得た翻訳モデル「Hunyuan-MT-Chimera-7B」を導入しました。このモデルは、Hunyuan-MT-7Bモデルが異なるパラメータ設定下で生成した複数の出力を統合することで、従来のChain-of-Thought(CoT)に基づくスローシンキングモデルを上回る性能を実現しています。我々のモデル開発は、多言語翻訳に特化した包括的なトレーニングプロセスに従っており、基礎能力を構築するための一般的かつMT指向の事前学習から始まり、タスク固有の適応のための教師ありファインチューニング(SFT)を経て、強化学習(RL)および弱から強へのRLによる高度なアラインメントで完結します。包括的な実験を通じて、Hunyuan-MT-7BとHunyuan-MT-Chimera-7Bの両方が、同等のパラメータサイズを持つ翻訳専用モデルおよびほとんどのSOTA大規模モデルを大幅に上回り、特に標準中国語と少数民族言語および方言間の翻訳タスクにおいて優れた性能を示すことを実証しました。WMT2025共有タスク(一般機械翻訳)において、我々のモデルは31言語ペア中30で首位を獲得し、最先端の性能を示しました。この結果は、中国語、英語、日本語などの高リソース言語から、チェコ語、マラーティー語、エストニア語、アイスランド語などの低リソース言語まで、多様な言語スペクトルにわたる我々のモデルの堅牢性を強調しています。
現代の大規模言語モデル(LLM)は、合成データの生成において優れた能力を発揮します。しかし、テキストの脱毒性化といったセンシティブな領域におけるその性能は、科学コミュニティから適切な注目を集めていません。本論文では、脱毒性化モデルのトレーニングにおいて、人間が生成したデータの代替としてLLMが生成した合成毒性データを使用する可能性を探ります。Llama 3およびQwenの活性化パッチを適用したモデルを使用し、ParaDetoxおよびSST-2データセットのニュートラルなテキストに対する合成毒性バージョンを生成しました。実験の結果、合成データでファインチューニングされたモデルは、人間が生成したデータでトレーニングされたモデルよりも一貫して性能が低く、結合指標において最大30%の性能低下が見られました。その根本的な原因は、重要な語彙の多様性のギャップにあります:LLMは、人間の毒性のニュアンスや多様性を捉えることができない、小さく繰り返しの多い侮辱語彙を使用して毒性コンテンツを生成します。これらの発見は、この領域における現在のLLMの限界を浮き彫りにし、堅牢な脱毒性化システムを構築するためには、多様で人間が注釈を付けたデータの重要性が依然として高いことを強調しています。
生成人工知能(Generative Artificial Intelligence)は重要な技術として台頭しつつあり、多くの分野において変革をもたらす可能性を秘めています。一方で、生成AI技術は確率モデルからのサンプリングに基づいており、デフォルトでは、その正しさ、安全性、公平性、その他の特性について保証がありません。統計的手法は、生成AI技術の信頼性を向上させる有望なアプローチを提供します。さらに、統計的手法は、AI評価の品質と効率を向上させるだけでなく、AIにおける介入や実験を設計するためにも有望です。 本論文では、これらのトピックに関する既存の研究をレビューし、使用されている一般的な統計的手法と、それらが生成AIにどのように応用されているかを説明します。また、制約と今後の可能性についても議論します。
テスト時の計算リソースを拡大し、複数の独立した解を生成してそれらを選択または集約するという手法は、大規模言語モデル(LLM)の難しい推論タスクにおける性能向上の中心的なパラダイムとなっています。これまでの研究の多くは、単純な多数決や報酬モデルによるランキングを用いて解を集約していましたが、これらのアプローチでは限定的な効果しか得られない可能性があります。本研究では、集約を明示的な推論スキルとして学習することを提案します。具体的には、候補となる解のセットが与えられた場合、検証可能な報酬からの強化学習を用いて、集約モデルがそれらをレビューし、調整し、最終的な正しい答えを合成するように訓練します。重要な要素は、簡単な例と難しい例のバランスを慎重に取ることです。これにより、モデルは少数派ではあるが正しい答えを回復する能力と、簡単な多数派の正しい答えを導く能力の両方を学習できます。実験的に、我々の手法であるAggLMは、複数のベンチマークにおいて、強力なルールベースの手法や報酬モデルのベースラインを上回る性能を示しました。さらに、トレーニングデータに含まれるものよりも強力なモデルを含む、異なるモデルからの解に対しても効果的に汎化し、多数決よりも大幅に少ないトークン数で済むことが確認されました。
オープンソースリポジトリの広範な利用可能性により、再利用可能なソフトウェアコンポーネントの膨大なコレクションが生まれましたが、その利用は依然として手動で、エラーが発生しやすく、断片的なままです。開発者はドキュメントを参照し、APIを理解し、統合コードを記述する必要があり、効率的なソフトウェア再利用への大きな障壁となっています。これを解決するため、我々はEnvXを提案します。EnvXは、Agentic AIを活用してGitHubリポジトリをエージェント化し、自然言語でのインタラクションやエージェント間のコラボレーションが可能な、知的で自律的なエージェントに変革するフレームワークです。既存のアプローチがリポジトリを静的なコードリソースとして扱うのに対し、EnvXはそれらをアクティブなエージェントとして再構築します。これは3つのフェーズからなるプロセスで実現されます:(1) TODOガイドによる環境初期化、これにより必要な依存関係、データ、検証用データセットがセットアップされます;(2) 人間に沿ったエージェント的オートメーション、これによりリポジトリ固有のエージェントが現実世界のタスクを自律的に実行できるようになります;(3) エージェント間(A2A)プロトコル、これにより複数のエージェントが協力できるようになります。大規模言語モデルの能力と構造化されたツール統合を組み合わせることで、EnvXはコード生成だけでなく、リポジトリ機能の理解、初期化、運用化の全プロセスを自動化します。我々はEnvXをGitTaskBenchベンチマークで評価し、画像処理、音声認識、ドキュメント分析、ビデオ操作などの分野にわたる18のリポジトリを使用しました。その結果、EnvXは74.07%の実行完了率と51.85%のタスク合格率を達成し、既存のフレームワークを上回りました。ケーススタディでは、A2Aプロトコルを介したマルチリポジトリコラボレーションを可能にするEnvXの能力がさらに実証されています。この研究は、リポジトリを受動的なコードリソースとして扱うことから、知的でインタラクティブなエージェントとして扱うことへの転換を示し、オープンソースエコシステム内でのアクセシビリティとコラボレーションを促進します。
人間がより多くのタスクと意思決定を人工知能(AI)に委任するにつれて、私たちは個人および集団の未来に対するコントロールを失うリスクに直面しています。比較的単純なアルゴリズムシステムは既に人間の意思決定を誘導しており、例えば、エンゲージメント最適化されたコンテンツを無意識のうちにスクロールさせるソーシャルメディアのフィードアルゴリズムなどが挙げられます。本論文では、哲学と科学のエージェンシー理論をAI支援評価手法と統合することで、人間のエージェンシーの概念を発展させます。具体的には、大規模言語モデル(LLM)を使用してユーザークエリをシミュレートし検証し、AIの応答を評価します。私たちは、典型的なAI使用事例に基づいた6つの次元を持つ、スケーラブルで適応的なベンチマークであるHumanAgencyBench(HAB)を開発しました。HABは、AIアシスタントまたはエージェントが「明確化の質問をする」「価値操作を避ける」「誤情報を訂正する」「重要な決定を延期する」「学習を促す」「社会的境界を維持する」といった傾向を測定します。現代のLLMベースのアシスタントでは、低から中程度のエージェンシーサポートが見られ、システム開発者や次元によって大きなばらつきがあります。例えば、AnthropicのLLMは全体的に人間のエージェンシーを最もサポートしていますが、「価値操作を避ける」という点では最もサポートが低いLLMです。エージェンシーサポートは、LLMの能力向上や指示追従行動(例:RLHF)から一貫して生じるわけではなく、より堅牢な安全性とアラインメント目標への移行を推奨します。