翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)に基づくリストワイズランキングは、多くのパッセージランキングタスクで優れた性能を示しています。大規模推論モデルの発展に伴い、テスト時のステップバイステップ推論がリストワイズランキングの性能向上に役立つことが多くの研究で実証されています。しかし、推論集約型のトレーニングデータの不足により、既存のリランカーは多くの複雑なランキングシナリオで性能が低く、推論集約型リランカーのランキング能力はまだ十分に開発されていません。本論文では、まず、多様なドメインからトレーニングクエリとパッセージを収集し、DeepSeek-R1を適用して高品質なトレーニングラベルを生成する自動化された推論集約型トレーニングデータ合成フレームワークを提案します。データ品質を確保するために、自己整合性データフィルタリングメカニズムを設計しました。リストワイズリランカーに強力な推論能力を付与するために、さらに、推論パターン学習のためのコールドスタート教師ありファインチューニング(SFT)ステージと、ランキング能力をさらに強化するための強化学習(RL)ステージを含む2段階のポストトレーニングアプローチを提案します。RLステージでは、リストワイズランキングの性質に基づいて、ランキングメトリックベースの報酬よりも効果的なマルチビューレンキング報酬を設計しました。大規模な実験により、私たちがトレーニングした推論集約型リランカーReasonRankが既存のベースラインを大幅に上回り、ポイントワイズリランカーRank1よりもはるかに低いレイテンシを達成することが実証されました。さらに実験を重ねた結果、私たちのReasonRankはBRIGHTリーダーボードで40.6の最新技術(SOTA)性能を達成しました\footnote{https://brightbenchmark.github.io/.}。私たちのコードはhttps://github.com/8421BCD/ReasonRankで公開されています。
専門的な研究から日常的な計画立案まで、多くのタスクは広範な情報探索によってボトルネックとなっており、その作業は認知的に複雑というよりも反復的です。大規模言語モデル(LLMs)の急速な発展に伴い、LLMを活用した自動検索エージェントは、人間をこの退屈な作業から解放する有望な解決策を提供します。しかし、これらのエージェントが「広範な文脈」での情報収集を確実かつ完全に実行する能力は、適切なベンチマークの不足により、ほとんど評価されていません。このギャップを埋めるため、我々はWideSearchを導入しました。これは、大規模な情報収集タスクにおけるエージェントの信頼性を評価するために設計された新しいベンチマークです。このベンチマークは、15以上の多様な分野から集めた200の手作業で作成された質問(英語100問、中国語100問)を特徴とし、実際のユーザークエリに基づいています。各タスクでは、エージェントが大規模な原子情報を収集し、それを客観的に一つずつ検証可能な形で整理し、整然とした出力にまとめることが求められます。厳格な5段階の品質管理パイプラインにより、データセットの難易度、完全性、検証可能性が保証されています。我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む10以上の最先端の検索エージェントシステムをベンチマークしました。ほとんどのシステムの全体成功率は0\%に近く、最高のパフォーマンスを示したシステムでもわずか5\%でした。しかし、十分な時間を与えられれば、複数の人間によるクロスチェックにより、ほぼ100\%の成功率を達成できます。これらの結果は、現在の検索エージェントが大規模な情報探索において重大な欠陥を抱えていることを示しており、検索エージェントの今後の研究開発における緊急の課題を浮き彫りにしています。我々のデータセット、評価パイプライン、ベンチマーク結果は、https://widesearch-seed.github.io/ で公開されています。
大規模言語モデルの最近の進展により、複雑な現実世界のタスクを解決可能なAIエージェントに対する関心が高まっている。しかし、既存のエージェントシステムの多くは、デプロイ後に静的となる手動で構築された設定に依存しており、動的かつ進化する環境への適応能力が制限されている。この課題に対処するため、最近の研究では、インタラクションデータや環境フィードバックに基づいてエージェントシステムを自動的に強化することを目指すエージェント進化技術が探求されている。この新たな方向性は、基盤モデルの静的な能力と、生涯にわたるエージェントシステムに必要な継続的な適応性を橋渡しする自己進化型AIエージェントの基盤を築いている。本調査では、自己進化型エージェントシステムの既存技術を包括的にレビューする。具体的には、まず、自己進化型エージェントシステムの設計に内在するフィードバックループを抽象化した統一的な概念的枠組みを紹介する。この枠組みは、システム入力、エージェントシステム、環境、および最適化器という4つの主要な構成要素を強調し、異なる戦略を理解し比較するための基盤を提供する。この枠組みに基づき、エージェントシステムの異なる構成要素を対象とした幅広い自己進化技術を体系的にレビューする。また、バイオメディシン、プログラミング、金融などの専門分野で開発されたドメイン固有の進化戦略についても調査する。これらの分野では、最適化目標がドメインの制約と密接に結びついている。さらに、自己進化型エージェントシステムの評価、安全性、倫理的考慮事項についても特化した議論を提供し、その有効性と信頼性を確保する上で重要な側面を検討する。本調査は、研究者や実務家に対して、自己進化型AIエージェントの体系的な理解を提供し、より適応的で自律的かつ生涯にわたるエージェントシステムの開発の基盤を築くことを目的としている。
ビジュアルエフェクト(VFX)は、現代の映画制作において不可欠な視覚的強化要素です。ビデオ生成モデルはVFX制作においてコスト効率の良いソリューションを提供しますが、現在の手法はエフェクトごとのLoRAトレーニングに制約されており、単一のエフェクト生成に限定されています。この根本的な制約は、空間的に制御可能な複合エフェクト、すなわち指定された位置で複数のエフェクトを同時に生成する必要があるアプリケーションを妨げています。しかし、多様なエフェクトを統一的なフレームワークに統合するには、エフェクトのバリエーションによる干渉や、複数VFXの共同トレーニング中の空間的制御不能性といった大きな課題があります。これらの課題に対処するため、我々はプロンプト誘導型エフェクトと空間的に制御可能な複合エフェクトを生成可能な初の統一フレームワークであるOmni-Effectsを提案します。このフレームワークの中核は、以下の2つの主要なイノベーションで構成されています:(1) LoRAベースのMixture of Experts(LoRA-MoE)は、専門家LoRAのグループを採用し、多様なエフェクトを統一モデル内に統合しながら、タスク間の干渉を効果的に軽減します。(2) Spatial-Aware Prompt(SAP)は、空間マスク情報をテキストトークンに組み込み、精密な空間制御を可能にします。さらに、SAP内に統合されたIndependent-Information Flow(IIF)モジュールを導入し、個々のエフェクトに対応する制御信号を分離して、望まないブレンドを防ぎます。この研究を促進するため、画像編集とFirst-Last Frame-to-Video(FLF2V)合成を組み合わせた新しいデータ収集パイプラインを通じて包括的なVFXデータセットOmni-VFXを構築し、モデルの性能を検証するための専用のVFX評価フレームワークを導入しました。広範な実験により、Omni-Effectsが精密な空間制御と多様なエフェクト生成を実現し、ユーザーが希望するエフェクトのカテゴリと位置を指定できることが示されました。
大規模言語モデル(LLMs)と検索ツールを統合したDeep-Researchエージェントは、反復的な検索計画と検索結果に対する推論を必要とする複雑なクエリの処理効果を向上させることに成功を示しています。現在のベンチマークであるBrowseCompの評価は、ブラックボックスのライブウェブ検索APIに依存しており、(1)公平性:動的で不透明なウェブAPIが、Deep-Research手法の公平な比較と再現性を妨げている、(2)透明性:ドキュメントコーパスに対する制御の欠如が、検索器の貢献を分離することを困難にしている、という顕著な制限があります。言い換えれば、現在の評価は特定の時点での完全なDeep-Researchシステムを比較するかもしれませんが、基礎となるDeep-Research LLMの能力に関する洞察を提供するための十分に制御された実験を促進しません。これらの課題に対処するため、BrowseCompから派生した固定された慎重に選ばれたコーパスを採用したベンチマーク、BrowseComp-Plusを導入します。BrowseComp-Plusの各クエリには、人間によって検証されたサポートドキュメントと採掘された挑戦的なネガティブが含まれており、制御された実験を可能にします。このベンチマークは、Deep-Researchシステムの性能を区別するのに効果的であることが示されています。例えば、オープンソースモデルSearch-R1はBM25検索器と組み合わせた場合、3.86%の精度を達成しますが、GPT-5は55.9%の精度を達成します。GPT-5をQwen3-Embedding-8B検索器と統合することで、検索呼び出しを減らしながら精度を70.1%にさらに向上させます。このベンチマークは、Deep-Researchエージェントと検索方法の包括的な評価と分離分析を可能にし、検索効果、引用精度、およびDeep-Researchシステムにおけるコンテキストエンジニアリングに関する洞察を促進します。
推論は目的志向の行動において中心的な役割を果たすが、ほとんどのロボティクス基盤モデルは知覚と指示を直接制御にマッピングしており、これが適応性、汎化能力、および意味的基盤を制限している。本論文では、Action Reasoning Models (ARMs) を紹介する。これは、知覚、計画、制御を構造化された3段階のパイプラインを通じて統合するビジョン・言語・アクションモデルのクラスである。我々のモデル、MolmoActは、観測と指示を深度を考慮した知覚トークンにエンコードし、編集可能な軌跡トレースとして中間レベルの空間計画を生成し、精密な低レベルのアクションを予測することで、説明可能で操縦可能な行動を実現する。MolmoAct-7B-Dは、シミュレーションと実世界の設定において強力な性能を発揮する:SimplerEnv Visual Matchingタスクにおいて70.5%のゼロショット精度を達成し、クローズドソースのPi-0およびGR00T N1を上回る;LIBEROでは86.6%の平均成功率を記録し、長期的タスクにおいてThinkActに対して6.3%の追加的な向上を示す;また、実世界のファインチューニングでは、Pi-0-FASTに対して単腕で10%、両腕で22.7%のタスク進行度の向上を達成した。さらに、分布外汎化においてベースラインを23.3%上回り、オープンエンドの指示追従と軌跡操縦において最高の人間選好スコアを獲得した。加えて、初めてMolmoAct Datasetを公開する。これは、多様なシナリオとタスクにわたる10,000以上の高品質なロボット軌跡を含む中間トレーニング用ロボットデータセットである。このデータセットを用いたトレーニングにより、ベースモデルに対して平均5.5%の性能向上が得られた。我々は、すべてのモデル重み、トレーニングコード、収集したデータセット、およびアクション推論データセットを公開し、MolmoActを最先端のロボティクス基盤モデルとしてだけでなく、構造化された推論を通じて知覚を目的志向の行動に変換するARMsを構築するためのオープンな青図として確立する。ブログ記事: https://allenai.org/blog/molmoact
本論文では、長い推論能力を備え、問題解決において慎重な熟慮を示すKlear-Reasonerモデルを紹介します。このモデルは、複数のベンチマークで卓越した性能を達成しています。現在のコミュニティには推論モデルに関する優れた研究が多数存在しますが、トレーニングの詳細が完全に開示されていないため、高性能な推論モデルの再現には多くの課題が残されています。本報告書では、データ準備や長いChain-of-Thoughtによる教師付きファインチューニング(long CoT SFT)から強化学習(RL)に至るポストトレーニングワークフロー全体を網羅し、各実験コンポーネントの詳細なアブレーションスタディを提供します。SFTデータに関して、我々の実験では、多様なデータソースを大量に使用するよりも、少数の高品質なデータソースの方が効果的であり、精度フィルタリングを行わない難しいサンプルがより良い結果を達成できることを示しています。さらに、現在のクリッピングメカニズムにおける2つの主要な問題、すなわちクリッピングが重要な探索信号を抑制し、準最適な軌跡を無視する点について調査しました。これらの課題に対処するため、クリッピングされたトークンからの勾配を穏やかに逆伝播するGradient-Preserving clipping Policy Optimization(GPPO)を提案します。GPPOは、モデルの探索能力を強化するだけでなく、負のサンプルからの学習効率も向上させます。Klear-Reasonerは、数学とプログラミングにおいて卓越した推論能力を示し、AIME 2024で90.5%、AIME 2025で83.2%、LiveCodeBench V5で66.0%、LiveCodeBench V6で58.1%のスコアを達成しました。
最近提案されたLarge Concept Model(LCM)は、文レベルの埋め込みのシーケンスを予測し、平均二乗誤差または拡散目的を用いて学習することでテキストを生成する。本論文では、SONAR-LLMを紹介する。これはデコーダのみのトランスフォーマーであり、同じ連続的なSONAR埋め込み空間で「思考」するが、凍結されたSONARデコーダを介して伝播されるトークンレベルの交差エントロピーによって教師される。このハイブリッド目的関数は、LCMの意味的抽象化を保持しつつ、その拡散サンプラーを排除し、尤度ベースの学習信号を復元する。39Mから1.3Bパラメータまでのモデルサイズにおいて、SONAR-LLMは競争力のある生成品質を達成する。スケーリングトレンド、アブレーション研究、ベンチマーク結果を報告し、再現性と将来の研究を促進するために、完全な学習コードとすべての事前学習済みチェックポイントを公開する。
大規模言語モデル(LLM)ベースのエージェントは、推論とツール使用において目覚ましい進歩を遂げ、複雑なタスクを解決できるようになりました。しかし、特に目標が曖昧で変化したり、間接的に表現されたりする場合に、ユーザーと積極的に協力する能力については、まだ十分に検討されていません。このギャップを埋めるため、私たちはUserBenchを導入しました。これは、マルチターンで嗜好駆動型のインタラクションにおいてエージェントを評価するために設計された、ユーザー中心のベンチマークです。UserBenchは、最初に不特定の目標を持ち、嗜好を段階的に明らかにするシミュレートされたユーザーを特徴としており、エージェントが意図を積極的に明確にし、ツールを用いて根拠に基づいた意思決定を行うことを要求します。主要なオープンソースおよびクローズドソースのLLMを評価した結果、タスクの完了とユーザーとの整合性の間に大きな乖離があることが明らかになりました。例えば、モデルが提供する回答がすべてのユーザーの意図に完全に一致するのは平均で20%の時間しかなく、最も先進的なモデルでさえ、積極的なインタラクションを通じてすべてのユーザーの嗜好の30%未満しか明らかにしません。これらの結果は、単に有能なタスク実行者ではなく、真の協力パートナーとなるエージェントを構築することの難しさを浮き彫りにしています。UserBenchは、この重要な能力を測定し、進歩させるためのインタラクティブな環境を提供します。
大規模言語モデル(LLM)の推論における強化学習(RL)は、アルゴリズムの革新と実用的な応用の両面において関連研究が急増し、重要な研究領域として急速に台頭してきた。しかしながら、この進展にもかかわらず、RL技術を適用するための標準化されたガイドラインの欠如や、その基盤となるメカニズムに対する断片的な理解など、いくつかの重要な課題が残されている。さらに、実験設定の不整合、トレーニングデータのばらつき、モデルの初期化の違いなどが、相反する結論を引き起こし、これらの技術の主要な特性を不明瞭にし、適切な技術を選択する際に実践者間で混乱を招いている。本論文では、統一されたオープンソースフレームワーク内で、広く採用されているRL技術を厳密な再現と独立した評価を通じて体系的にレビューする。難易度の異なるデータセット、モデルサイズ、アーキテクチャを含む細粒度の実験を通じて、各技術の内部メカニズム、適用可能なシナリオ、および核心原理を分析する。これらの知見に基づき、特定の設定に合わせたRL技術を選択するための明確なガイドラインを提示し、LLM領域におけるRLを活用する実践者にとって信頼性のあるロードマップを提供する。最後に、2つの技術を最小限に組み合わせることで、バニラPPO損失を用いたクリティックフリーポリシーの学習能力を引き出せることを明らかにする。結果は、このシンプルな組み合わせが一貫して性能を向上させ、GRPOやDAPOなどの戦略を凌駕することを示している。
強化学習(RL)と視覚知能の交差点における最近の進展により、複雑な視覚シーンを認識するだけでなく、その中で推論、生成、行動するエージェントが実現されています。本調査では、この分野の最新かつ批判的な総合を提供します。まず、視覚RL問題を形式化し、RLHFから検証可能な報酬パラダイム、そしてProximal Policy OptimizationからGroup Relative Policy Optimizationまでの政策最適化戦略の進化を追跡します。次に、200以上の代表的な研究を、マルチモーダル大規模言語モデル、視覚生成、統一モデルフレームワーク、視覚-言語-行動モデルの4つのテーマ別の柱に整理します。各柱について、アルゴリズム設計、報酬設計、ベンチマークの進展を検討し、カリキュラム駆動型トレーニング、選好整合型拡散、統一報酬モデリングなどのトレンドを抽出します。最後に、セットレベルの忠実度、サンプルレベルの選好、ステートレベルの安定性にわたる評価プロトコルをレビューし、サンプル効率、汎化、安全な展開などの未解決の課題を特定します。私たちの目標は、研究者や実務者に視覚RLの急速に拡大する風景の一貫したマップを提供し、将来の研究の有望な方向性を強調することです。リソースは以下で利用可能です: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
大規模言語モデル(LLMs)は、検索強化生成(RAG)を通じて生成性能の向上を示しており、これは検索者-読者パラダイムに従って、モデルの入力に外部から取得した知識を補完するものである。しかし、従来の研究ではRAGを全体的に評価し、検索者と読者を一括して評価することが多く、特に読者として使用されるLLMsのプロンプト感度を考慮すると、検索の真の貢献を分離することが困難であった。本論文では、Spectrum Projection Score(SPS)を導入する。これは軽量で教師なしの指標であり、読者が取得した要約とその隠れ表現との意味的整合性を、要約から生成されたトークンによって形成される領域と、読者の部分空間の主方向を比較することで測定し、関連性を評価することを可能にする。SPSを基盤として、推論時間制御フレームワークであるxCompressを提案する。これは、取得した要約候補を動的にサンプリング、ランク付け、圧縮するものである。4つのオープンソースLLMsを用いた5つのQAベンチマークでの広範な実験により、SPSが幅広いタスクで性能を向上させるだけでなく、検索と生成の相互作用について原理的な視点を提供することが示された。
Mixture of Experts(MoE)アーキテクチャは、現代の最先端(SOTA)大規模言語モデル(LLM)の基盤をなすものである。MoEモデルは、スパースなパラメータ活性化を可能にすることでスケーラビリティを促進する。しかし、従来のMoEアーキテクチャでは、均一なサイズの同種のエキスパートを使用し、入力の複雑さに関わらず固定数のパラメータを活性化するため、計算効率が制限されていた。この制限を克服するため、我々は異種のbig.LITTLE CPUアーキテクチャに着想を得た、可変サイズのエキスパートを組み込んだ新たなアーキテクチャであるGrove MoEを提案する。このアーキテクチャは、動的活性化メカニズムを備えた新規のadjugateエキスパートを特徴とし、計算オーバーヘッドを管理可能な範囲に保ちつつモデル容量を拡張する。このアーキテクチャを基に、Qwen3-30B-A3B-Baseモデルに対して中盤および終盤のトレーニング中にアップサイクリング戦略を適用して開発した33BパラメータのLLMであるGroveMoE-BaseとGroveMoE-Instを提示する。GroveMoEモデルは、トークンの複雑さに基づいて3.14-3.28Bのパラメータを動的に活性化し、類似またはそれ以上のサイズのSOTAオープンソースモデルに匹敵する性能を達成する。
大規模言語モデルは抽象的な推論において優れた能力を発揮しますが、エンボディエージェント(具現化されたエージェント)の推論能力についてはほとんど未開拓の領域です。本論文では、OmniEARという包括的なフレームワークを提案します。これは、言語モデルが物理的な相互作用、ツールの使用、およびエンボディされたタスクにおけるマルチエージェントの協調についてどのように推論するかを評価するためのものです。既存のベンチマークが事前に定義されたツールセットや明示的な協調指示を提供するのに対し、OmniEARでは、エージェントがタスクの要求に基づいて動的に能力を獲得し、自律的に協調戦略を決定する必要があります。テキストベースの環境表現を通じて、家庭や産業分野にわたる1,500のシナリオにおいて、連続的な物理的特性と複雑な空間関係をモデル化します。体系的な評価により、モデルが制約から推論しなければならない場合に深刻な性能低下が明らかになりました。明示的な指示では85-96%の成功率を達成する一方で、ツールの推論では56-85%、暗黙の協調では63-85%に低下し、複合タスクでは50%以上の失敗率を示しました。驚くべきことに、完全な環境情報は協調性能を低下させ、モデルがタスクに関連する制約をフィルタリングできないことを示しています。ファインチューニングにより単一エージェントタスクは劇的に改善されましたが(0.6%から76.3%)、マルチエージェントタスクでは最小限の向上しか見られず(1.5%から5.5%)、根本的なアーキテクチャの限界が露呈しました。これらの発見は、エンボディされた推論が現在のモデルが対処できるものとは根本的に異なる課題を提起していることを示しており、OmniEARがエンボディされたAIシステムを評価し進化させるための厳密なベンチマークとして確立されることを示しています。コードとデータは補足資料に含まれており、受理後はオープンソース化されます。
自己報酬型言語モデルは、大規模言語モデル(LLM)が応答を生成すると同時に、LLM-as-a-Judgeプロンプティングを用いて自身の出力を評価し、反復的な直接選好最適化(DPO)を通じて生成能力を動的に向上させるアーキテクチャを提案しています。しかし、我々の分析によると、既存の自己報酬型パラダイムには重大な限界があります。選ばれた応答と拒否された応答の同期した改善により、対照サンプル間の表現の差が徐々に狭まり、効果的な選好学習が損なわれてしまうのです。我々は、過去、現在、未来のモデル生成を戦略的に調整して学習信号を維持する時間的自己報酬型言語モデルを提案します。我々の二段階フレームワークでは、(1) 過去の初期モデルの出力を用いて拒否された応答を固定する「アンカー付き拒否」と、(2) 次世代モデルの予測を用いて選ばれたサンプルを動的にキュレーションする「未来誘導型選択」を導入します。Llama、Qwen、Mistralの3つのモデルファミリーと異なるモデルサイズ(Llama3B/8B/70B)を用いた広範な実験により、同じ計算リソースを使用した自己報酬型と比較して、我々の手法を用いた場合の大幅な改善が実証されました。例えば、Llama3.1-8Bは我々の手法によりAlpacaEval 2.0で29.44の勝率を達成し、自己報酬型ベースライン(19.69)を9.75ポイント上回りました。特に、我々の手法は、数学的推論(GSM8K)、知識ベースのQA(ARC、TruthfulQA)、コード生成(HumanEval)タスクにおいて、そのようなトレーニングデータを特別に収集していないにもかかわらず、優れた分布外汎化性能を示しています。
大規模な推論モデルは、テスト時のスケーリングによって高い性能を達成しますが、特に短い入力プロンプトを処理する際の過剰なトークン生成により、多大な計算コストが発生します。スパースアテンションメカニズムはレイテンシとメモリ使用量を削減できますが、既存の手法では、長い生成推論中に蓄積されるエラーにより、精度の大幅な低下が生じます。これらの手法は一般的に、高いトークン保持率か、高コストな再学習を必要とします。本論文では、推論タスク向けの学習不要なスパースアテンションメカニズムであるLessIsMoreを提案します。これは、従来のヘッド固有の局所最適化に依存するのではなく、グローバルなアテーションパターンを活用します。LessIsMoreは、最近の文脈情報と共に局所アテーションヘッドからのトークン選択を集約し、将来のデコード層のための統一されたクロスヘッドトークンランキングを可能にします。この統一された選択により、ヘッドごとに別々のトークンサブセットを維持する必要がなくなり、汎化性と効率性が向上します。多様な推論タスクとベンチマークでの評価により、LessIsMoreは精度を維持し、場合によっては向上させながら、フルアテンションと比較して平均1.1倍のデコード速度向上を達成することが示されました。さらに、LessIsMoreは精度の低下なしに2倍少ないトークンにアテンションし、既存のスパースアテンションメソッドと比較して1.13倍のエンドツーエンド速度向上を実現します。
Open X-Embodiment(OXE)などの大規模データセットでトレーニングされた汎用ロボットポリシーは、幅広いタスクにおいて高い性能を発揮します。しかし、これらのポリシーは、トレーニングデータの分布を超えた一般化に苦戦することがしばしばあります。本論文では、この限られた一般化能力の根本的な原因を調査します。我々は、タスクと無関係な特徴に依存する「ショートカット学習」が一般化の主要な障害であることを特定しました。包括的な理論的および実証的分析を通じて、ショートカット学習の2つの主要な要因を明らかにしました:(1) 個々のサブデータセット内の多様性の不足、および (2) サブデータセット間の顕著な分布の差異によるデータセットの断片化です。これらの問題は、OXEのような大規模データセットの固有の構造から生じます。これらのデータセットは、通常、異なる環境やエンボディメントで独立して収集された複数のサブデータセットで構成されています。我々の知見は、ショートカット学習を減らし、汎用ロボットポリシーの一般化能力を向上させるためのデータセット収集戦略に重要な洞察を提供します。さらに、新たな大規模データの取得が現実的でないシナリオにおいても、慎重に選択されたロボットデータ拡張戦略が、既存のオフラインデータセットにおけるショートカット学習を効果的に減らし、シミュレーションおよび実世界環境における汎用ロボットポリシー(例:pi_0)の一般化能力を向上させることができることを実証します。詳細は https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/ をご覧ください。
近年のフローベースの画像編集モデルは、多様なタスクにおいて汎用的な能力を示しているが、大規模な形状変換を伴うような困難なシナリオに特化する際に課題を抱えている。このような構造的な編集を行う場合、これらの手法は意図した形状変化を達成できないか、非ターゲット領域を意図せず変更してしまい、背景の品質が低下する結果となる。本研究では、Follow-Your-Shapeを提案する。これは、トレーニング不要かつマスク不要のフレームワークであり、非ターゲットコンテンツを厳密に保ちつつ、オブジェクト形状の精密かつ制御可能な編集をサポートする。逆変換と編集軌道の乖離に着目し、逆変換経路とノイズ除去経路の間のトークンワイズ速度差を比較することで、Trajectory Divergence Map (TDM) を計算する。TDMは編集可能な領域を精密に特定し、安定かつ忠実な編集を保証するScheduled KV Injectionメカニズムを導く。厳密な評価を可能にするため、形状認識編集に特化して新たに120枚の画像とプロンプトペアを精選したReShapeBenchという新しいベンチマークを導入する。実験の結果、本手法は特に大規模な形状置換を必要とするタスクにおいて、優れた編集性と視覚的忠実度を達成することが示された。
Mixture-of-Experts(MoE)アーキテクチャは、大規模言語モデル(LLM)のスケーリングにおいて主要なパラダイムとなっている。強力な性能と計算効率を提供する一方で、DeepSeek-V3-0324やKimi-K2-Instructのような大規模なMoEベースのLLMは、展開時の膨大なメモリ要件により深刻な課題を抱えている。最近の研究では、この問題に対処するためにMoEの圧縮が探求されているが、既存の手法では、控えめな圧縮率であっても精度の大幅な低下(例:相対的に7-14%)が生じることが多い。本論文では、精度の低下を最小限に抑えつつモデル圧縮を実現する新しいMixture-of-Basis-Experts(MoBE)手法を提案する。具体的には、各エキスパートのup/gate行列をランク分解によりW = ABと分解し、行列Aは各エキスパートに固有のものとする。比較的大きな行列Bは、与えられたMoE層内のすべてのエキスパート間で共有される基底行列{Bi}の線形結合として再パラメータ化される。この分解は、元の重み行列に対する再構成誤差を最小化することで学習される。実験結果は、MoBEが従来の手法と比較して顕著に低い精度低下を達成することを示している。例えば、MoBEはQwen3-235B-A22B-2507、DeepSeek-V3-0324(671B)、およびKimi-K2-Instruct(1T)のパラメータ数を24%-30%削減しつつ、精度低下はわずか1%-2%(相対的に測定すると約2%)に留まる。
分類はAIアプリケーションにおいて最も広く行われるタスクの一つであり、データのフィルタリング、ソート、カテゴリ化の第一段階として頻繁に利用されます。現代のAIシステムは大量の入力データを処理する必要があり、パイプラインの初期段階でのエラーが下流に伝播する可能性があるため、高い効率性と精度を達成することが極めて重要です。さらに、分類の要件はユーザーのニーズに基づいて動的に変化する可能性があり、強力なゼロショット能力を持つモデルが必要とされます。生成型LLMはその汎用性からゼロショット分類の主流となっていますが、指示の一貫性の欠如や計算効率の低さが課題です。RAGパイプラインでリランカーとしてよく使用されるクロスエンコーダーは、異なるボトルネックに直面しています。テキストとラベルのペアを順次処理する必要があり、ラベルセットが大きい場合に効率が大幅に低下します。埋め込みベースのアプローチは効率性に優れていますが、論理的および意味的制約を含む複雑なシナリオでは苦戦します。我々は、GLiNERアーキテクチャをシーケンス分類タスクに適応させた新しい手法であるGLiClassを提案します。このアプローチは、埋め込みベースの手法に匹敵する高い精度と効率性を実現しつつ、ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持します。さらに、近接方策最適化(PPO)を多ラベルテキスト分類に適応させ、データが少ない状況や人間のフィードバックからの分類器のトレーニングを可能にしました。
この世界の組織データの大部分は文書として保存されており、視覚的検索はこれらの文書から集団的知能を引き出す上で重要な役割を果たしています。しかし、既存のベンチマークは英語のみの文書検索に焦点を当てているか、単一ページの画像に対する多言語質問応答のみを考慮しています。このギャップを埋めるため、我々はVisR-Benchを導入します。これは、長文書における質問駆動型のマルチモーダル検索のために設計された多言語ベンチマークです。我々のベンチマークは、1.2Kの文書にわたる35K以上の高品質なQAペアを含み、マルチモーダル検索の詳細な評価を可能にします。VisR-Benchは16の言語をカバーし、3つの質問タイプ(図、テキスト、表)を提供し、多様な言語的および質問的カバレッジを提供します。従来のデータセットとは異なり、我々は明示的な回答のないクエリを含めることで、モデルが表面的なキーワードマッチングに依存することを防ぎます。我々は、テキストベースの手法、マルチモーダルエンコーダ、およびMLLMを含むさまざまな検索モデルを評価し、それらの強みと限界についての洞察を提供します。我々の結果は、MLLMがテキストベースおよびマルチモーダルエンコーダモデルを大幅に上回る一方で、構造化された表や低リソース言語において依然として苦戦していることを示しており、多言語視覚検索における主要な課題を浮き彫りにしています。
Chain-of-Thought(CoT)プロンプティングを用いた大規模言語モデル(LLMs)は、複雑な推論において優れた性能を発揮しますが、冗長性の高い冗長な思考プロセスを生成し、推論コストの増加と効率の低下を招きます。本研究では、個々の推論ステップの情報的貢献を定量化する指標であるステップエントロピーに基づく新しいCoT圧縮フレームワークを提案します。理論的分析と数学的推論ベンチマークにおける広範な実証検証を通じて、低エントロピーのステップが実際に高度に冗長であることを示します。実験結果から、DeepSeek-R1-7B、14B、およびQwen3-8Bにおいて、低エントロピーの中間ステップの驚くべき80%を、最終的な回答精度のわずかな低下で削除できることが明らかになりました。この発見は、ランダムまたは高エントロピーのプルーニングが推論性能を著しく損なうこととは対照的です。これに基づいて、Supervised Fine-Tuning(SFT)とGroup Relative Policy Optimization(GRPO)強化学習を組み合わせた新しい2段階のトレーニング戦略を提案します。このアプローチにより、LLMsは推論中に[SKIP]トークンを戦略的に組み込むことで、圧縮されたCoTを自律的に生成することを学習します。本手法は、LLMの推論効率を大幅に向上させつつ、精度を厳密に維持し、実用的なLLMの展開と推論構造の深い理解に重要な示唆を提供します。
高忠実度な視覚合成能力を大規模言語モデル(LLMs)に統合しつつ、その強力な推論能力を損なわないことに対する関心が高まっている。既存の手法では、LLMsを直接訓練するか、LLMsと拡散モデルを橋渡しする方法が一般的であるが、バックボーンのLLMsが事前学習中に画像表現を見ていないため、訓練コストが高くなる傾向がある。本論文では、Bifrost-1を提案する。これは、事前学習済みのマルチモーダルLLMs(MLLMs)と拡散モデルを、パッチレベルのCLIP画像埋め込みを潜在変数として使用して橋渡しする統一フレームワークである。これらのパッチレベルの画像埋め込みは、MLLMsのCLIP視覚エンコーダと自然に整合しており、拡散モデルに軽量なControlNetの適応を加えて統合される。MLLMsの元々のマルチモーダル推論能力を保持するため、パッチレベルの画像埋め込みを予測する際に、元のMLLMパラメータから初期化された視覚生成ブランチをMLLMに装備する。事前学習済みのMLLMsと拡散モデルをパッチレベルのCLIP潜在変数でシームレスに統合することで、本フレームワークは高忠実度で制御可能な画像生成を実現し、訓練効率を大幅に向上させる。実験結果から、Bifrost-1は視覚的忠実度とマルチモーダル理解において従来の手法と同等またはそれ以上の性能を達成し、訓練中の計算量を大幅に削減できることが示された。また、設計選択の有効性を示す包括的なアブレーション研究も提供する。
オープンウェイトAIシステムは、透明性の向上、オープンな研究、分散型アクセスといった独自の利点を提供する。しかし、重みや活性化関数の改変を通じて有害な振る舞いを効率的に引き起こす改ざん攻撃に対して脆弱である。現在、オープンウェイトモデルのリスク管理に関する確固たる科学はまだ確立されていない。既存の安全性微調整手法やその他の学習後技術は、数十ステップ以上の敵対的微調整に対してLLMを耐性化することに苦戦している。本論文では、デュアルユーストピックに関するテキストを学習データからフィルタリングすることで、望ましくない能力を防止し、より改ざん耐性の高い保護手段として機能するかどうかを調査する。スケーラブルなデータフィルタリングのための多段階パイプラインを導入し、LLMにおけるバイオ脅威代理知識を最小化するための実用的かつ効果的な方法を提供することを示す。6.9Bパラメータの複数モデルをゼロから事前学習し、最大10,000ステップおよび300Mトークンのバイオ脅威関連テキストに対する敵対的微調整攻撃に対して大幅な耐性を示すことを確認した。これは、既存の学習後ベースラインを1桁以上上回る性能であり、無関係な能力の劣化は観察されなかった。しかし、フィルタリングされたモデルは内部化された危険な知識を欠いているものの、文脈内で提供された場合(例えば、検索ツールの拡張を通じて)、そのような情報を活用できることが判明し、多層防御アプローチの必要性が示された。全体として、これらの知見は、オープンウェイトAIシステムの防御層として事前学習データキュレーションが有望であることを確立するのに役立つ。
最先端のファクトチェックシステムは、誤情報を大規模に対抗するために、自律的なLLMベースのエージェントを活用して複雑な主張をより小さなサブ主張に分解し、各サブ主張を個別に検証し、部分的な結果を集約して根拠(判定の説明的論理)付きの判定を生成します。これらのシステムのセキュリティは極めて重要であり、見過ごされがちな脆弱性を持つファクトチェッカーが誤情報を増幅する可能性があります。本研究では、このようなエージェント型ファクトチェックシステムを標的とした初のポイズニング攻撃フレームワーク「Fact2Fiction」を提案します。Fact2Fictionは分解戦略を模倣し、システムが生成する根拠を利用して、サブ主張の検証を損なうように調整された悪意のある証拠を作成します。広範な実験により、Fact2Fictionが様々なポイズニング予算において、最先端の攻撃手法よりも8.9%~21.2%高い攻撃成功率を達成することが示されました。Fact2Fictionは、現在のファクトチェックシステムのセキュリティ上の弱点を明らかにし、防御策の必要性を強調しています。
数式の発話変換は、音声を厳密に構造化された記号表現に書き起こすと同時に、方程式の発音に内在する曖昧性に対処する必要があるため、困難な課題である。自動音声認識(ASR)と言語モデル(LM)においては大きな進展が見られるものの、音声数式をLaTeXに変換する問題は未だ十分に研究されていない。この課題は、講義の文字起こしやノート作成といった教育・研究分野に直接応用可能である。これまでの研究では、ASRの後処理に基づく手法が採用されており、2回の書き起こしを必要とし、単独の方程式にのみ焦点を当て、限定的なテストセットを使用し、トレーニングデータや多言語対応も提供されていない。これらの課題に対処するため、我々は初めての完全オープンソースの大規模データセットを提示する。このデータセットは、英語とロシア語の両方で、多様な科学分野から収集された66,000以上の人間による注釈付き音声サンプル(数式と文)を含む。ASR後処理モデルや少数ショットプロンプティングに加え、音声言語モデルを適用し、MathSpeechベンチマークにおける数式変換の文字誤り率(CER)で同等の結果(28%対30%)を示した。一方、提案したS2L-equationsベンチマークでは、LaTeXフォーマットのアーティファクトを考慮した後でも、MathSpeechモデルを40ポイント以上の大幅な差で上回った(27%対64%)。さらに、数式文認識(S2L-sentences)の初のベンチマークを確立し、40%のCERを達成した。本研究は、特に数式コンテンツ認識に焦点を当てたマルチモーダルAIの今後の進展の基盤を築くものである。
多くの研究者が指摘しているように、生成機械学習(ML)および人工知能(AI)モデルの開発と展開は、事前学習済みモデルが特定の下流タスクに適応・微調整されるという独特のパターンに従っています。しかし、これらの相互作用の構造を検証する実証研究は限られています。本論文では、モデル開発の主要なピア生産プラットフォームであるHugging Face上の186万のモデルを分析します。モデルファミリーツリー(微調整されたモデルをその基盤または親モデルに接続するネットワーク)の研究を通じて、サイズと構造が大きく異なる広範な微調整の系譜を明らかにします。進化生物学の視点を用いてMLモデルを研究し、モデルのメタデータとモデルカードを使用して、モデルファミリー間の遺伝的類似性と特性の変異を測定します。モデルはファミリー類似性を示す傾向があり、同じモデルファミリーに属する場合、その遺伝的マーカーと特性がより重複することがわかります。しかし、これらの類似性は無性生殖の標準モデルとは異なる点があり、変異が迅速かつ方向性を持っているため、2つの「兄弟」モデルは親子ペアよりも類似性が高くなる傾向があります。さらに、これらの変異の方向性の分析から、オープンな機械学習エコシステムに関する質的洞察が得られます。ライセンスは直感に反して、制限的な商用ライセンスから寛容またはコピーレフトライセンスへと移行し、しばしば上流ライセンスの条件に違反しています。モデルは多言語互換性から英語のみの互換性へと進化し、モデルカードは長さを短縮し、テンプレートや自動生成テキストを使用することで標準化されています。全体として、この研究はモデルの微調整に関する実証的な理解に向けた一歩を踏み出し、生態学的モデルと方法が新たな科学的洞察をもたらす可能性を示唆しています。
大規模言語モデルが日常生活にますます統合される中、音声は人間とAIのインタラクションにおける重要なインターフェースとして浮上しています。しかし、この利便性は新たな脆弱性ももたらし、音声が攻撃者にとっての潜在的な攻撃対象となる可能性があります。本研究では、最先端の音声言語モデルを操作して有害なコンテンツを生成させる、2段階の敵対的音声攻撃フレームワーク「WhisperInject」を提案します。本手法では、人間のリスナーには無害な、音声入力に含まれる知覚不可能な摂動を利用します。第1段階では、新しい報酬ベースの最適化手法である「Reinforcement Learning with Projected Gradient Descent (RL-PGD)」を使用し、ターゲットモデルが自身の安全プロトコルを回避して有害なネイティブ応答を生成するよう導きます。このネイティブな有害応答は、第2段階「Payload Injection」のターゲットとして機能し、天気の問い合わせや挨拶メッセージなどの無害な音声キャリアに埋め込まれた微妙な摂動を最適化するためにProjected Gradient Descent (PGD)を使用します。厳格なStrongREJECT、LlamaGuard、およびHuman Evaluationの安全評価フレームワークで検証された実験では、Qwen2.5-Omni-3B、Qwen2.5-Omni-7B、Phi-4-Multimodalにおいて86%を超える成功率を示しています。本研究は、理論的なエクスプロイトを超えて、AIの動作を操作するための実用的で隠蔽された方法を明らかにし、新たな実用的な音声ネイティブの脅威のクラスを実証しています。
現実世界の課題を反映した複雑でインタラクティブな環境におけるAIエージェントの評価は、その実用的な能力を理解する上で極めて重要である。既存のエージェントベンチマークは、ツールの使用や構造化されたタスクにおけるパフォーマンスなどのスキルを効果的に評価するが、長く拡張されるコンテキストにおいて持続的かつ自律的な推論を要求する探索的環境でのエージェントの能力を完全に捉えることはしばしばない。より堅牢な長期的な内在的推論能力を持つエージェントの開発を促進するため、我々はInfocomシリーズのインタラクティブフィクションゲームに基づくベンチマーク「TextQuests」を導入する。これらのテキストベースのアドベンチャーは、人間のプレイヤーに30時間以上を要し、解決するために数百の正確なアクションを必要とするため、AIエージェントの集中力のある状態依存タスクの評価に有効な代理手段となる。このベンチマークは、外部ツールの使用を排除することで、LLMエージェントの自己完結型の問題解決能力を評価するために特別に設計されており、試行錯誤学習と単一のインタラクティブセッション内での持続的な問題解決を特徴とする探索的環境における内在的な長文脈推論能力に焦点を当てている。TextQuestsはhttps://textquests.aiで公開されている。