翻訳付きの日次キュレーションされたAI研究論文
人間の認知的限界を超越することは、LLM(大規模言語モデル)の訓練における重要なフロンティアである。DeepResearchのような独自のエージェントシステムは、BrowseCompのような極めて複雑な情報探索ベンチマークにおいて、従来達成不可能であった超人的な能力を実証している。我々は、その成功の鍵が、オープンソースモデルには存在しない洗練された推論パターン、すなわち広大な情報空間を探索する際に極度の不確実性を体系的に低減する能力にあると仮定する。この洞察に基づき、我々はこの重要な能力を習得させるための完全なポストトレーニング手法であるWebSailorを提案する。我々のアプローチは、構造化されたサンプリングと情報の難読化を通じて新たな高不確実性タスクを生成し、RFTコールドスタート、および効率的なエージェント的強化学習アルゴリズムであるDuplicating Sampling Policy Optimization(DUPO)を含む。この統合されたパイプラインにより、WebSailorは複雑な情報探索タスクにおいて全てのオープンソースエージェントを大幅に上回り、独自エージェントの性能に匹敵し、能力のギャップを埋めることに成功した。
近年、マルチモーダル推論の進展は、テキストベースの連鎖的思考(Chain-of-Thought, CoT)によって大きく前進してきた。このパラダイムでは、モデルが言語内で推論を行う。しかし、このテキスト中心のアプローチは、視覚を静的な初期コンテキストとして扱い、豊かな知覚データと離散的な記号的思考の間に根本的な「意味的ギャップ」を生み出している。人間の認知はしばしば言語を超越し、視覚を動的なメンタルスケッチパッドとして活用する。同様の進化が現在AIにおいても展開されており、単に画像について考えるモデルから、真に画像と共に考えるモデルへの根本的なパラダイムシフトが進行中である。この新たなパラダイムは、視覚情報を思考プロセスの中間ステップとして活用するモデルを特徴とし、視覚を受動的な入力から動的で操作可能な認知ワークスペースへと変容させている。本調査では、この知能の進化を、認知的自律性の増大という軌跡に沿って描き出し、外部ツールの探索、プログラム的な操作、内在的想像力という3つの主要な段階に分けて考察する。この急速に進化する分野を体系化するため、本調査は4つの主要な貢献を行う。(1) 画像と共に考えるパラダイムの基本原理とその3段階フレームワークを確立する。(2) このロードマップの各段階を特徴づけるコア手法の包括的なレビューを提供する。(3) 評価ベンチマークと変革的アプリケーションの重要な状況を分析する。(4) 重要な課題を特定し、将来の有望な方向性を概説する。この体系的な概観を通じて、より強力で人間に沿ったマルチモーダルAIに向けた将来の研究のための明確なロードマップを提供することを目指す。
2D画像からオープン・ボキャブラリのシーン理解を用いて3D構造を復元することは、基本的でありながらも困難な課題です。最近の進展では、言語情報を埋め込んだシーンごとの最適化を行うことでこれを達成しています。しかし、これらの手法はキャリブレーションされた密な視点の再構成パラダイムに大きく依存しており、限られた視点しか利用できない場合には深刻なレンダリングのアーティファクトや非現実的な意味合成が生じる問題があります。本論文では、LangScene-Xと名付けた新しい生成フレームワークを導入し、再構成と理解のための3D整合性のあるマルチモーダル情報を統一的に生成します。より整合性のある新しい観測を生成する能力を活用することで、疎な視点のみから汎用的な3D言語埋め込みシーンを構築することが可能になります。具体的には、まずTriMapビデオ拡散モデルを訓練し、段階的な知識統合を通じて疎な入力から外観(RGB)、幾何学(法線)、および意味論(セグメンテーションマップ)を生成します。さらに、大規模な画像データセットで訓練されたLanguage Quantized Compressor(LQC)を提案し、言語埋め込みを効率的に符号化することで、シーンごとの再訓練なしにクロスシーン汎化を可能にします。最後に、言語情報を3Dシーンの表面に整合させることで言語表面フィールドを再構成し、オープンエンドの言語クエリを可能にします。実世界データを用いた広範な実験により、LangScene-Xが品質と汎化性の点で最先端の手法を凌駕することを実証しています。プロジェクトページ: https://liuff19.github.io/LangScene-X。
人間のフィードバックに基づく強化学習(RLHF)において、報酬モデル(RMs)は重要な役割を果たしているにもかかわらず、現在の最先端のオープンなRMsは、既存の評価ベンチマークのほとんどで低い性能を示し、微妙で洗練された人間の選好の幅を捉えることに失敗している。高度なトレーニング技術を取り入れたアプローチでさえ、有意な性能向上をもたらしていない。我々は、この脆弱性が主に選好データセットの制約に起因していると仮説を立てる。これらのデータセットは、しばしば範囲が狭く、人工的にラベル付けされているか、厳格な品質管理を欠いている。これらの課題に対処するため、我々は4000万の選好ペアからなる大規模な選好データセット「SynPref-40M」を提示する。大規模なデータキュレーションを可能にするため、人間のアノテーション品質とAIのスケーラビリティの相補的な強みを活用した、人間とAIの協調的な2段階パイプラインを設計した。このパイプラインでは、人間が検証済みのアノテーションを提供し、大規模言語モデルが人間のガイダンスに基づいて自動的なキュレーションを行う。この選好データセットを用いてトレーニングを行い、SynPref-40Mから慎重に選ばれた2600万の選好ペアに基づいてトレーニングされた、0.6Bから8Bパラメータまでの8つの報酬モデルからなる「Skywork-Reward-V2」を導入する。我々は、Skywork-Reward-V2が、人間の選好との整合性、客観的正しさ、安全性、スタイル的バイアスへの耐性、およびbest-of-Nスケーリングなど、幅広い能力において汎用的であり、7つの主要な報酬モデルベンチマークで最先端の性能を達成することを実証する。アブレーション研究により、我々のアプローチの有効性がデータ規模だけでなく、高品質なキュレーションにも起因していることが確認された。Skywork-Reward-V2シリーズは、オープンな報酬モデルにおける大きな進歩を示しており、既存の選好データセットの未開拓の可能性を強調し、人間とAIのキュレーションの相乗効果が大幅に高いデータ品質を実現できることを示している。
テキストから画像への拡散モデルにおいて大きな進展が見られるものの、生成された出力に対する精密な空間制御の実現は依然として課題である。ControlNetは、補助的な条件付けモジュールを導入することでこの課題に対処し、ControlNet++は最終的なノイズ除去ステップにのみ適用されるサイクル一貫性損失を通じてアライメントをさらに洗練させている。しかし、このアプローチは中間生成段階を無視しており、その有効性が制限されている。本研究では、すべての拡散ステップにわたって空間的一貫性を強制するトレーニング戦略であるInnerControlを提案する。本手法では、軽量な畳み込みプローブをトレーニングし、各ノイズ除去ステップにおける中間UNet特徴量から入力制御信号(例:エッジ、深度)を再構築する。これらのプローブは、高度にノイジーな潜在変数からも効率的に信号を抽出し、トレーニングのための疑似グラウンドトゥルース制御を可能にする。拡散プロセス全体を通じて予測条件と目標条件の不一致を最小化することにより、本手法のアライメント損失は制御の忠実度と生成品質の両方を向上させる。ControlNet++などの確立された技術と組み合わせることで、InnerControlは多様な条件付け方法(例:エッジ、深度)において最先端の性能を達成する。
推論時の計算技術は、人間のシステム2思考に類似したものとして、最近モデルの性能向上のために注目を集めている。しかし、既存の手法の多くはいくつかの制約を抱えている。それらはモダリティ特化型(例えばテキストのみに適用可能)、問題特化型(例えば数学やコーディングのような検証可能な領域)、あるいは教師なし事前学習に加えて追加の監督やトレーニングを必要とする(例えば検証器や検証可能な報酬)といったものである。本論文では、「これらのシステム2思考アプローチを一般化し、教師なし学習のみから思考を学ぶモデルを開発することは可能か?」という問いを立てる。興味深いことに、入力と候補予測の間の互換性を明示的に検証することを学び、その後予測問題をこの検証器に対する最適化として再構築することで、その答えが「はい」であることを見出した。具体的には、エネルギーベースモデル(EBM)の新しいクラスであるエネルギーベーストランスフォーマー(EBT)を訓練し、すべての入力と候補予測のペアにエネルギー値を割り当てることで、勾配降下法に基づくエネルギー最小化を通じて収束するまで予測を行うことを可能にした。離散的(テキスト)および連続的(視覚)なモダリティの両方において、EBTはトレーニング中に支配的なTransformer++アプローチよりも速くスケーリングし、データ、バッチサイズ、パラメータ、FLOPs、深さに関して最大35%高いスケーリング率を達成した。推論時には、EBTは言語タスクにおいてTransformer++よりも29%多くシステム2思考による性能向上を実現し、画像ノイズ除去においてはDiffusion Transformerを上回りながらも少ないフォワードパスを使用した。さらに、EBTは同じまたはそれ以下の事前学習性能でも、ほとんどの下流タスクにおいて既存のモデルよりも良い結果を達成し、EBTが既存のアプローチよりも一般化能力が高いことを示唆している。したがって、EBTはモデルの学習能力と思考能力の両方をスケーリングするための有望な新しいパラダイムである。
本論文では、一般的および専門的な生体分子構造予測のための制御可能な基盤モデルであるIntFoldを紹介する。IntFoldは、最先端のAlphaFold3に匹敵する予測精度を示しつつ、優れたカスタマイズされたアテンションカーネルを利用している。標準的な構造予測を超えて、IntFoldは個別のアダプターを使用することで、アロステリック状態、制約付き構造、および結合親和性の予測に適応可能である。さらに、ドッキング品質を推定するための新たな信頼度ヘッドを導入し、抗体-抗原複合体のような難易度の高いターゲットに対するより詳細な評価を提供する。最後に、この計算集約型モデルのトレーニングプロセス中に得られた知見を共有する。
最近の研究では、訓練損失がモデルサイズとトークン数の両方に対してべき乗則に従ってスケールすること、そして計算最適なモデルを達成するためにはモデルサイズとトークン数を共にスケールさせる必要があることが示されています。しかし、これらのスケーリング則は無限のデータ供給を前提としており、主に計算資源が制約となる状況に適用されます。現代の大規模言語モデルがますます大規模なインターネット規模のデータセットに依存するようになるにつれ、それらが計算資源に制約されているという前提は次第に妥当性を失っています。この変化は、トークン効率を優先するアーキテクチャの必要性を浮き彫りにしています。 本研究では、標準的なドット積アテンションを効率的なTritonカーネル実装を通じて三線形関数に一般化する2-シンプリシャルトランスフォーマーの使用を調査します。2-シンプリシャルトランスフォーマーが標準的なトランスフォーマーよりも優れたトークン効率を達成することを実証します:固定されたトークン予算のもとで、同程度のサイズのモデルが数学、コーディング、推論、論理を含むタスクにおいてドット積ベースのモデルを上回ります。これらの利点を定量化するために、2-シンプリシャルアテンションが知識と推論タスクにおけるスケーリング則の指数をドット積アテンションと比較して変化させることを示します。
現実世界の検索シナリオにおける複雑な情報ニーズは、多様な情報源にわたる深い推論と知識の統合を要求しますが、従来の検索拡張生成(RAG)パイプラインではこれを効果的に解決することが困難です。現在の推論ベースのアプローチは、根本的な制約を抱えています。それは、高レベルの計画立案と詳細な実行の両方を単一のモデルで処理するため、非効率な推論とスケーラビリティの限界を引き起こす点です。本論文では、戦略的計画立案と専門的な実行を分離する階層型フレームワークであるHiRAを紹介します。我々のアプローチは、複雑な検索タスクを焦点を絞ったサブタスクに分解し、外部ツールと推論能力を備えたドメイン固有のエージェントに各サブタスクを割り当て、構造化された統合メカニズムを通じて結果を調整します。この分離により、実行の詳細が高レベルの推論を妨げることを防ぎながら、異なるタイプの情報処理に対して専門的な知見を活用することが可能になります。4つの複雑なクロスモーダル深層検索ベンチマークでの実験により、HiRAが最先端のRAGおよびエージェントベースのシステムを大幅に上回ることを実証しました。我々の結果は、回答品質とシステム効率の両方において改善を示し、多段階の情報探索タスクにおける計画立案と実行の分離の有効性を強調しています。コードはhttps://github.com/ignorejjj/HiRAで公開されています。
査読は科学研究において基本的なプロセスであるが、出版物の増加に伴い、この専門知識を要するプロセスの課題が一層深刻化している。大規模言語モデル(LLM)はさまざまな科学的タスクで有望な成果を示しているものの、特に論文の限界点を特定するという査読支援におけるその潜在能力は未だ十分に研究されていない。本研究ではまず、AIを中心とした科学研究における限界点の類型化を包括的に提示する。この類型化を基盤として、限界点の研究に向けて、初期段階のフィードバックを支援し、人間の査読を補完するLLMの能力を評価するための初の包括的ベンチマークであるLimitGenを提案する。本ベンチマークは2つのサブセットで構成される:LimitGen-Synは、高品質な論文を制御された摂動によって慎重に作成した合成データセットであり、LimitGen-Humanは実際に人間が記述した限界点のコレクションである。LLMシステムが限界点を特定する能力を向上させるため、文献検索を組み込むことで、先行する科学的知見に基づいた限界点の特定を可能にする。本アプローチは、研究論文における限界点の生成能力を強化し、より具体的で建設的なフィードバックを提供することを可能にする。
推論は、大規模言語モデル(LLM)にとって依然として困難な課題であり、特に自動定理証明(ATP)の論理的に制約された環境では、報酬が疎で証明の規模が膨大であるため、その難しさが増します。これらの課題は、大学レベルの問題を含み、複雑で多段階の推論を必要とするPutnamBenchのようなベンチマークでさらに顕著になります。これに対処するため、我々は自己生成目標条件付きMDP(sG-MDP)という新しいフレームワークを導入します。このフレームワークでは、エージェントが証明状態の変化に基づいてサブゴールを生成し、それを追求します。このように目標をより構造化して生成することで、結果として得られる問題は探索に適したものになります。次に、モンテカルロ木探索(MCTS)に似たアルゴリズムを適用してsG-MDPを解き、サブゴール生成と戦略合成のために複数の7B LLMをアンサンブルできるモジュールシステムであるBourbaki(7B)に我々のアプローチを実装します。PutnamBenchにおいて、Bourbaki(7B)は26の問題を解決し、この規模のモデルでは新たな最先端の結果を達成しました。
大規模言語モデル(LLM)は革新的な存在となっているものの、依然として誤りを犯したり、非生産的な推論経路を探索したりすることがある。自己修正は、特に自己回帰型のLLMにとって、信頼性を高める重要な能力である。LLMはユーザー入力の誤りを識別できるが、自身の出力において同じ誤りを修正できないという体系的な「自己修正盲点」を示す。この現象を体系的に研究するため、我々は「Self-Correction Bench」を導入した。これは、3つの複雑度レベルで制御された誤り注入を通じてこの現象を測定する体系的なフレームワークである。14のモデルをテストした結果、平均64.5%の盲点率が確認された。この制限が訓練データの構成に関連していることを示す複数の証拠が見つかった。人間による訓練デモンストレーションでは、誤り修正のシーケンスではなく、誤りのない応答が主に示されており、結果フィードバックを通じて誤り修正を学習する強化学習(RL)訓練モデルとは異なる。注目すべきは、単に「待って」と付け加えるだけで盲点が89.3%減少し、この能力が存在するが活性化が必要であることが示唆された。本研究は、現在のLLMにおける重要な制限を明らかにし、その信頼性と信頼性を向上させるための潜在的な道筋を提供する。
線形アテンションメカニズムは、線形計算複雑性を提供し、超長系列(例:100万コンテキスト)の効率的な処理を可能にすることで、大規模言語モデル(LLM)に大きな利点をもたらします。しかし、これらのワークロードをデバイス間で分散するために不可欠な既存のシーケンス並列化(SP)手法は、多大な通信オーバーヘッドにより主要なボトルネックとなっています。本論文では、線形アテンションモデル向けのゼロ通信オーバーヘッド(ZeCO)シーケンス並列化を提案します。これは、これらの制限を克服し、長系列学習におけるエンドツーエンドのほぼ線形スケーラビリティを実現する新しいSP手法です。例えば、64デバイスで100万系列長のモデルをZeCOを用いて学習する場合、単一デバイスで16k系列を学習するのとほぼ同じ時間を要します。ZeCOの中核には、新しい集団通信プリミティブであるAll-Scanがあります。All-Scanは、各SPランクに必要な初期演算子状態を正確に提供しつつ、最小限の通信フットプリントを維持することで、通信オーバーヘッドを効果的に排除します。理論的には、ZeCOの最適性を証明し、わずかな時間と空間のオーバーヘッドしか導入しないことを示します。実証的には、異なるシーケンス並列化戦略の通信コストを比較し、All-ScanがSPシナリオで最速の通信を達成することを示します。具体的には、256GPUで800万系列長の場合、ZeCOは現状の最先端(SOTA)SP手法と比較して60%の高速化を実現します。我々は、ZeCOが以前は扱い難かった系列長での次世代LLMの効率的な学習に向けた明確な道筋を確立すると信じています。
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)を情報抽出(IE)タスク、例えば固有表現認識(NER)などに適合させるために広く用いられています。しかし、このような細かいラベルのアノテーションやドメイン固有のモデルの訓練にはコストがかかります。既存の研究では、通常、複数のドメインにわたって統一されたモデルを訓練しますが、このようなアプローチは適応性と拡張性に欠けています。なぜなら、すべての訓練データがターゲットドメインに有益であるとは限らず、訓練済みモデルのスケーリングも依然として課題だからです。本論文では、推論時に専門家モデルを動的に選択し統合するSaMフレームワークを提案します。具体的には、ターゲットドメインに対して、(i)ターゲットドメインとのドメイン類似性と(ii)サンプルインスタンスでの性能に基づいて、既存のドメインで事前訓練されたドメイン固有の専門家を選択します。その後、専門家を統合して、ターゲットドメインに最適化されたタスク固有のモデルを作成します。ターゲットドメインに有益な専門家を動的に統合することで、追加の訓練なしにさまざまなドメインでの汎化性能を向上させます。さらに、専門家を簡単に追加または削除できるため、高い拡張性を実現します。複数のベンチマークでの大規模な実験により、本フレームワークの有効性が実証され、統一モデルを平均10%上回る性能を示しました。また、本フレームワークの潜在的な改善点、実践的な経験、および拡張についての洞察を提供します。
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)のポストトレーニング段階において重要な技術となっている。従来のタスク併置型RLフレームワークは、スケーラビリティのボトルネックに悩まされており、一方でタスク分離型RLフレームワークは、複雑なデータフローとそれに伴うリソースのアイドル状態やワークロードの不均衡に直面している。さらに、既存のフレームワークの多くはLLMのトレーニングや推論エンジンと密結合しており、カスタム設計のエンジンをサポートすることが困難である。これらの課題に対処するため、我々は効率的なポストトレーニングのための非同期ストリーミングRLフレームワーク「AsyncFlow」を提案する。具体的には、分散データストレージと転送モジュールを導入し、完全なストリーミング方式で統一されたデータ管理と細粒度のスケジューリング機能を提供する。このアーキテクチャは、RLタスク間の自動パイプラインオーバーラップと動的負荷分散を本質的に促進する。さらに、プロデューサー・コンシューマーベースの非同期ワークフローを提案し、パラメータ更新プロセスを戦略的に遅延させることで、計算のアイドル状態を最小限に抑える。最後に、AsyncFlowのコア機能は、基盤となるトレーニングおよび推論エンジンからアーキテクチャ的に分離され、サービス指向のユーザーインターフェースにカプセル化されており、モジュール化されたカスタマイズ可能なユーザーエクスペリエンスを提供する。大規模な実験により、最先端のベースラインと比較して平均1.59倍のスループット向上が実証された。本論文で提示されたアーキテクチャは、次世代RLトレーニングシステム設計のための実践的な洞察を提供する。
多臓器医療セグメンテーションは、医療画像処理において重要な要素であり、医師が正確な診断を行い、効果的な治療計画を立てるために不可欠である。この分野では大きな進展が見られるものの、現在の多臓器セグメンテーションモデルは、詳細の不正確さ、幾何学的プロンプトへの依存、および空間情報の喪失といった課題を抱えている。これらの課題に対処するため、我々はCRISP-SAM2という新しいモデルを提案する。このモデルは、SAM2に基づくクロスモーダルインタラクションとセマンティックプロンプティングを特徴とし、臓器のテキスト記述に基づく多臓器医療セグメンテーションの有望なアプローチを提供する。我々の手法では、まず視覚的およびテキスト的入力を、段階的なクロスアテンションインタラクションメカニズムを用いてクロスモーダルな文脈化されたセマンティクスに変換する。これらのセマンティクスは、画像エンコーダに注入され、視覚情報の詳細な理解を強化する。幾何学的プロンプトへの依存を排除するため、セマンティックプロンプティング戦略を用い、元のプロンプトエンコーダを置き換えて、困難なターゲットの認識を鋭敏にする。さらに、メモリの類似性ソート自己更新戦略とマスク精緻化プロセスを適用し、医療画像に適応し、局所的な詳細を強化する。7つの公開データセットで実施した比較実験の結果、CRISP-SAM2は既存のモデルを上回る性能を示した。詳細な分析により、我々の手法の有効性が実証され、特に前述の制限に対処する点で優れた性能を確認した。我々のコードは以下で公開されている:https://github.com/YU-deep/CRISP\_SAM2.git。
視覚言語セグメンテーションの最近の進展は、接地された視覚理解を大幅に進歩させてきました。しかし、これらのモデルはしばしば、画像内容に基づかないオブジェクトのセグメンテーションマスクを生成したり、無関係な領域を誤ってラベル付けしたりする「幻覚」現象を示します。既存のセグメンテーション幻覚の評価プロトコルは、主にラベルやテキストの幻覚に焦点を当てており、視覚的コンテキストを操作しないため、重大な失敗を診断する能力が限られています。これに対応して、我々は反事実的視覚推論の観点から視覚接地における幻覚を評価するために特別に設計された最初のベンチマークであるHalluSegBenchを導入します。このベンチマークは、281のユニークなオブジェクトクラスにまたがる1340の反事実的インスタンスペアからなる新しいデータセットと、視覚的に一貫したシーン編集下での幻覚感度を定量化する新たに導入された一連のメトリクスで構成されています。最先端の視覚言語セグメンテーションモデルを用いたHalluSegBenchでの実験により、視覚駆動型の幻覚がラベル駆動型の幻覚よりもはるかに頻繁に発生し、モデルが誤ったセグメンテーションを継続することが明らかになり、接地の忠実性を診断するための反事実的推論の必要性が強調されました。