翻訳付きの日次キュレーションされたAI研究論文
4KAgentを紹介します。これは、あらゆる画像を4K解像度(さらに反復適用することでそれ以上にも)に普遍的にアップスケールするための統一されたエージェント型超解像汎用システムです。本システムは、256x256といった極端に低解像度で深刻な劣化を伴う画像から、水晶のようにクリアで写真のようにリアルな4K出力へと変換することが可能です。4KAgentは3つのコアコンポーネントで構成されています:(1) Profilingモジュールは、特定のユースケースに基づいて4KAgentのパイプラインをカスタマイズします;(2) Perception Agentは、視覚言語モデルと画像品質評価の専門家を活用して入力画像を分析し、最適な修復計画を立てます;(3) Restoration Agentは、品質主導のエキスパート混合ポリシーに従って各ステップで最適な出力を選択する再帰的実行-反映パラダイムに基づいて計画を実行します。さらに、4KAgentは特化した顔修復パイプラインを組み込んでおり、ポートレートやセルフィー写真の顔のディテールを大幅に向上させます。11の異なるタスクカテゴリーにわたる合計26の多様なベンチマークで4KAgentを厳密に評価し、幅広い画像領域で新たな最先端を確立しました。評価対象は、自然画像、ポートレート写真、AI生成コンテンツ、衛星画像、蛍光顕微鏡、そして眼底写真、超音波、X線などの医療画像を含み、知覚的(例:NIQE、MUSIQ)および忠実度(例:PSNR)の両方の指標で優れた性能を実証しました。低レベル視覚タスクのための新たなエージェント型パラダイムを確立することで、多様な研究コミュニティにおける視覚中心の自律エージェントへの幅広い関心とイノベーションを促進することを目指しています。すべてのコード、モデル、結果はhttps://4kagent.github.ioで公開します。
Skywork-R1V3を紹介する。これは、視覚的推論に新たなアプローチを切り開く先進的なオープンソースの視覚言語モデル(VLM)である。その主な革新点は、テキストのみの大規模言語モデル(LLM)から視覚タスクへ推論能力を効果的に転移させる点にある。Skywork-R1V3の優れた性能は、主に我々が考案した精緻なポストトレーニングRLフレームワークに由来する。このフレームワークは、追加の事前学習を必要とせず、モデルの推論能力を効果的に活性化し強化する。このフレームワークを通じて、我々はさらに、マルチモーダル推論モデルにおいて堅牢なクロスモーダルアラインメントを実現するためのコネクタモジュールの基本的な役割を明らかにした。加えて、推論能力の独自の指標として、重要な推論トークンのエントロピーを導入し、RLトレーニング中のチェックポイント選択に極めて有効であることを実証した。Skywork-R1V3はMMMUにおいて最先端の結果を達成し、64.3%から76.0%へと大幅に改善した。この性能は、人間の初級レベルの能力に匹敵する。特筆すべきは、我々のRLを活用したポストトレーニングアプローチにより、38BパラメータのモデルでさえもトップクラスのクローズドソースVLMと競合できる点である。この実装は、数学的推論を他の科目関連の推論タスクに成功裏に転移させる。また、カリキュラム学習と強化学習ファインチューニング戦略の分析、およびマルチモーダル推論に関する広範な議論も含めている。Skywork-R1V3は、マルチモーダル推論における大きな飛躍を表し、RLがオープンソースVLMの能力を進化させる強力なエンジンであることを示している。
AIエージェントの記憶能力が注目を集める中、既存のソリューションは根本的に限界がある。ほとんどのアプローチは、フラットで狭い範囲の記憶コンポーネントに依存しており、ユーザー固有の情報を時間をかけてパーソナライズし、抽象化し、確実に想起する能力が制約されている。この課題を解決するため、我々はMIRIXを提案する。MIRIXは、モジュール型のマルチエージェント記憶システムであり、言語モデルが真に記憶することを可能にするという、この分野の最も重要な課題を解決することで、AI記憶の未来を再定義する。従来のアプローチとは異なり、MIRIXはテキストを超えて豊かな視覚的およびマルチモーダルな体験を取り入れ、現実世界のシナリオで記憶を真に有用なものにする。MIRIXは、コア、エピソード、意味、手続き、リソース記憶、およびナレッジボールトという6つの異なる、慎重に構造化された記憶タイプで構成され、更新と検索を動的に制御・調整するマルチエージェントフレームワークと連携する。この設計により、エージェントは多様で長期的なユーザーデータを大規模に保持し、推論し、正確に検索することが可能となる。我々はMIRIXを2つの厳しい設定で検証した。まず、ScreenshotVQAでは、シーケンスごとに約20,000枚の高解像度コンピュータスクリーンショットを含む挑戦的なマルチモーダルベンチマークにおいて、深い文脈理解を必要とし、既存の記憶システムが適用できない状況で、MIRIXはRAGベースラインよりも35%高い精度を達成し、ストレージ要件を99.9%削減した。次に、LOCOMOでは、単一モーダルのテキスト入力による長文会話ベンチマークにおいて、MIRIXは85.4%の最先端性能を達成し、既存のベースラインを大きく上回った。これらの結果は、MIRIXが記憶拡張型LLMエージェントの新たな性能基準を確立したことを示している。ユーザーが我々の記憶システムを体験できるよう、MIRIXを活用したパッケージアプリケーションを提供する。このアプリケーションは、画面をリアルタイムで監視し、パーソナライズされた記憶ベースを構築し、直感的な視覚化と安全なローカルストレージを提供することでプライバシーを確保する。
テキスト記述に基づいて多様で自然な人間の動作シーケンスを生成することは、コンピュータビジョン、グラフィックス、ロボティクスの分野における基本的かつ挑戦的な研究領域です。この分野では大きな進展が見られるものの、現在の手法はゼロショット汎化能力に関して課題を抱えており、その主な原因はトレーニングデータセットの規模が限られていることにあります。さらに、包括的な評価フレームワークの欠如が、改善の方向性を見出すことを妨げ、このタスクの進展を阻んでいます。本研究では、テキストから動作への生成を新たな時代へと押し進めること、すなわちゼロショットの汎化能力を実現することを目指します。そのために、まず効率的なアノテーションパイプラインを開発し、これまでで最大の人間の動作データセットであるMotionMillionを導入します。このデータセットは2,000時間以上、200万の高品質な動作シーケンスを特徴としています。さらに、ゼロショット動作生成を評価するための最も包括的なベンチマークであるMotionMillion-Evalを提案します。スケーラブルなアーキテクチャを活用し、モデルを70億パラメータにスケールアップし、MotionMillion-Evalでその性能を検証します。その結果、ドメイン外の複雑な合成動作に対する強力な汎化能力を示し、ゼロショット人間動作生成に向けた重要な一歩を記しました。コードはhttps://github.com/VankouF/MotionMillion-Codesで公開されています。
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(Large Language Models, LLMs)に堅牢な多段階推論能力を付与するための非常に効果的な戦略であることが証明されている。しかし、その設計と最適化は純粋にテキスト領域に特化しており、マルチモーダル推論タスクに適用した場合には最適な性能を発揮しない。特に、現在のマルチモーダル推論における主要なエラーの原因は、視覚的入力の知覚にあることが観察される。このボトルネックに対処するため、本論文では、Perception-Aware Policy Optimization(PAPO)を提案する。これは、GRPOのシンプルでありながら効果的な拡張であり、モデルが推論を学ぶ過程で同時に知覚を学ぶことを促し、完全に内部の監視信号から学習を行う。注目すべきは、PAPOが追加のデータキュレーション、外部の報酬モデル、またはプロプライエタリなモデルに依存しない点である。具体的には、GRPOの目的関数にKLダイバージェンス項としてImplicit Perception Lossを導入し、そのシンプルさにもかかわらず、多様なマルチモーダルベンチマークで全体として4.4%の大幅な改善をもたらす。視覚依存度の高いタスクでは、その改善は8.0%に近づく。また、知覚エラーの大幅な減少(30.5%)も観察され、PAPOによる知覚能力の向上が示唆される。PAPOの包括的な分析を行い、独自の損失ハッキング問題を特定し、Double Entropy Lossを通じて厳密に分析・緩和する。全体として、本研究は、知覚を意識した監視をRLVR学習目的に深く統合し、視覚に基づいた推論を促す新しいRLフレームワークの基盤を築くものである。プロジェクトページ: https://mikewangwzhl.github.io/PAPO。
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchなどのコード生成ベンチマークで顕著な成功を収めています。しかし、詳細な検証を行うと、これらの評価スイートはしばしば限られた数の均質なテストケースで構成されており、微妙な欠陥が検出されないままになっていることが明らかになりました。これは、測定された性能を人為的に誇張するだけでなく、検証可能な報酬を利用した強化学習フレームワーク(RLVR)における正確な報酬推定を損なうことにもつながります。これらの重要な欠点に対処するため、我々はテストケース生成(TCG)タスクを体系的に調査し、テストスイートの徹底性を厳密に定量化するための多次元メトリクスを提案します。さらに、人間のプログラミング専門知識とLLMの推論能力を活用した人間-LLM協働手法(SAGA)を導入し、生成されるテストケースのカバレッジと品質を大幅に向上させることを目指します。加えて、TCGタスクの研究を促進するためのTCGBenchを開発しました。実験結果によると、SAGAはTCGBenchにおいて90.62%の検出率と32.58%の検証精度を達成しています。SAGAによって合成されたコード生成評価ベンチマークの検証精度(Verifier Acc)は、LiveCodeBench-v6よりも10.78%高くなっています。これらの結果は、提案手法の有効性を示しています。我々は、この研究が信頼性の高いLLMコード評価のためのスケーラブルな基盤を構築し、コード生成におけるRLVRをさらに進展させ、自動化された敵対的テスト合成と適応的ベンチマーク統合への道を開くことに貢献することを期待しています。
検証可能な報酬からの強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を向上させますが、不安定な探索に苦戦しています。本論文では、FR3E(First Return, Entropy-Eliciting Explore)を提案します。これは、推論軌跡における高不確実性の意思決定ポイントを特定し、ターゲットを絞ったロールアウトを実行して意味的に根拠のある中間フィードバックを構築する構造化された探索フレームワークです。本手法は、密な監視に依存することなく、ターゲットを絞ったガイダンスを提供します。数学的推論ベンチマーク(AIME24)での実験結果は、FR3Eがより安定した訓練を促進し、より長く一貫性のある応答を生成し、完全に正しい軌跡の割合を増加させることを示しています。これらの結果は、本フレームワークがより堅牢で構造化された探索を通じてLLMの推論を改善する有効性を強調しています。
Transformerは長いシーケンスに対して二次的な計算複雑性とメモリ問題に直面しており、これが固定サイズの隠れ状態を使用する線形注意メカニズムの採用を促しています。しかし、線形モデルはしばしば限定的なリコール性能に悩まされ、その結果、線形注意層と完全注意層を組み合わせたハイブリッドアーキテクチャが生まれています。ハイブリッドアーキテクチャに関する研究は広範に行われていますが、線形注意コンポーネントの選択については深く探求されていません。我々は、ベクトル再帰から高度なゲーティングメカニズムまで、さまざまな世代の線形注意モデルを、スタンドアロンおよびハイブリッド化された形で体系的に評価します。この包括的な分析を可能にするため、我々は72のモデルをトレーニングし、オープンソース化しました:340Mパラメータ(20Bトークン)の36モデルと1.3Bパラメータ(100Bトークン)の36モデルで、5つのハイブリッド化比率にわたる6つの線形注意バリアントをカバーしています。標準的な言語モデリングとリコールタスクでのベンチマークにより、優れたスタンドアロンの線形モデルが必ずしもハイブリッドで優れているわけではないことが明らかになりました。言語モデリングは線形から完全注意比率にわたって安定していますが、リコールは完全注意層の増加、特に3:1以下の比率で大幅に改善されます。我々の研究は、選択的ゲーティング、階層的再帰、制御された忘却が効果的なハイブリッドモデルにとって重要であることを強調しています。我々は、HGRN-2やGatedDeltaNetなどのアーキテクチャを、3:1から6:1の線形対完全注意比率で使用することを推奨し、Transformerレベルのリコールを効率的に達成します。我々のモデルはhttps://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1eでオープンソース化されています。
深層学習におけるカーネル開発では、ハードウェア全体にわたる計算ユニットの最適化が必要であり、メモリ管理、並列処理、およびハードウェア固有の最適化を広範な経験的チューニングを通じてバランスさせることが求められます。Tritonのようなドメイン固有言語は、低レベルの詳細を抽象化することでGPUプログラミングを簡素化しますが、開発者は依然としてタイルサイズやメモリアクセスパターンといった重要なパラメータを反復的な実験を通じて手動でチューニングする必要があり、最適な性能と広範な採用への大きな障壁となっています。本研究では、強化学習(RL)を活用したTritonプログラミング専用の最初のモデルであるAutoTritonを紹介します。AutoTritonは、高品質なデータ収集パイプラインを使用して必須のTritonプログラミング専門知識を備えるために教師ありファインチューニング(SFT)を実施し、Group Relative Policy Optimization(GRPO)アルゴリズムを用いたRLを実行して、ルールベースの報酬と実行ベースの報酬を組み合わせることでTritonプログラミング能力をさらに向上させます。TritonBenchとKernelBenchの5つの評価チャネルにわたる実験では、8BモデルのAutoTritonがClaude-4-SonnetやDeepSeek-R1-0528を含む主流の大規模モデルに匹敵する性能を達成することが示されています。さらに、実験分析により、AutoTriton内の各モジュール(SFT段階、RL段階、報酬設計戦略)の重要な役割が実証されています。これらの発見は、高性能カーネルを自動生成するためのRLの可能性を強調しており、高性能カーネルはAIシステムのコアコンポーネントであるため、このブレークスルーはより効率的なAIシステムを構築するための重要な基盤を確立します。モデルとコードはhttps://github.com/AI9Stars/AutoTritonで公開されます。
形式言語における自動定理証明(ATP)は、AIにとって基礎的な課題である。大規模言語モデル(LLM)が著しい進歩を遂げている一方で、その強力な非形式的推論能力と弱い形式的証明性能との間には依然として大きな隔たりが存在する。最近の研究によると、非形式的な正答率は80%を超えるのに対し、PutnamBenchなどのベンチマークにおける形式的な成功率は8%未満にとどまっている。この隔たりが持続する理由として、現在の最先端の証明器は推論と証明を密接に結合しており、深い推論を犠牲にして浅い戦略ベースの手法を優先するような訓練パラダイムが採用されていることが挙げられる。この根本的な隔たりを埋めるため、我々は高水準の推論と低水準の証明生成を分離する新しいフレームワークを提案する。このアプローチでは、多様で戦略的なサブゴール補題を生成するための強力な汎用推論モデル(Reasoner)と、それらを厳密に検証するための効率的な証明モデル(Prover)という2つの専門化されたモデルを活用する。このモジュール設計により、モデルの持つ完全な推論能力を解放し、エンドツーエンド訓練の落とし穴を回避することが可能となる。我々はこの手法を、2000年以降の国際数学オリンピック(IMO)問題の難問セットに対して評価した。この問題セットでは、これまでオープンソースの証明器が成功を報告した例はない。我々の分離型フレームワークは、これらの問題のうち5つを成功裏に解決し、極めて困難な数学的課題に対する自動推論に向けた重要な一歩を示した。今後の研究を促進するため、我々は幅広いIMO問題に対して生成および検証された補題の完全なデータセットを公開し、https://tencent-imo.github.io/ で利用可能とした。
マルチモーダル大規模言語モデル(MLLM)の急速な進展により、視覚知覚、自然言語理解、制御を単一のポリシーに統合するVision-Language-Action(VLA)パラダイムへの道が開かれました。自動運転分野の研究者たちは、これらの手法を車両領域に積極的に適用しています。このようなモデルは、高レベルの指示を解釈し、複雑な交通シーンを推論し、独自の意思決定を行うことができる自動運転車を約束します。しかし、関連する文献は断片的であり、急速に拡大しています。本調査は、自動運転におけるVLA(VLA4AD)に関する初の包括的な概観を提供します。我々は、(i) 最近の研究に共通するアーキテクチャの構成要素を形式化し、(ii) 初期の説明モデルから推論中心のVLAモデルへの進化をたどり、(iii) 自動運転領域におけるVLAの進展に応じて20以上の代表的なモデルを比較します。また、既存のデータセットとベンチマークを統合し、運転の安全性、精度、説明品質を共同で測定するプロトコルを強調します。最後に、ロバスト性、リアルタイム効率性、形式的検証といった未解決の課題を詳細に述べ、VLA4ADの将来の方向性を概説します。本調査は、解釈可能で社会的に整合した自動運転車の進歩に向けた簡潔かつ完全なリファレンスを提供します。Githubリポジトリはhttps://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}で利用可能です。
スペクトルからの分子構造解析は、化合物の同定、合成、薬剤開発において重要な基礎的な課題である。従来の手法は専門家の解釈に大きく依存しており、スケーラビリティに欠ける。先駆的な機械学習手法は検索ベースの戦略を導入したが、有限のライブラリに依存するため、新規分子への一般化が制限される。生成モデルは有望な代替手段を提供するが、その多くは3D幾何学を考慮せず、多様なスペクトルモダリティを統合するのが困難な自己回帰型SMILESベースのアーキテクチャを採用している。本研究では、拡散モデルを用いて多モーダルなスペクトルデータから直接2Dおよび3D分子構造を推論する生成フレームワーク、DiffSpectraを提案する。DiffSpectraは構造解析を条件付き生成プロセスとして定式化する。そのノイズ除去ネットワークは、トポロジカル情報と幾何学的情報を統合するSE(3)-等変アーキテクチャであるDiffusion Molecule Transformerによってパラメータ化される。条件付けは、多モーダルなスペクトルからスペクトル内およびスペクトル間の依存関係を捉えるトランスフォーマーベースのスペクトルエンコーダ、SpecFormerによって提供される。大規模な実験により、DiffSpectraが構造解析において高い精度を達成し、サンプリングを通じて16.01%のトップ1精度と96.86%のトップ20精度で正確な構造を復元することが示された。このモデルは、3D幾何学モデリング、SpecFormerの事前学習、および多モーダルな条件付けから大きな恩恵を受けている。これらの結果は、スペクトル条件付き拡散モデリングが分子構造解析の課題に取り組む上で有効であることを示している。私たちの知る限り、DiffSpectraは、多モーダルなスペクトル推論と2D/3D生成モデリングを統合し、de novo分子構造解析を行う初めてのフレームワークである。
近年の言語モデリングの進展により、効率的なシーケンスモデリングにおける状態空間モデル(SSMs)の有効性が実証されてきた。Sambaやデコーダ-デコーダアーキテクチャであるYOCOなどのハイブリッドアーキテクチャは、Transformerを上回る有望な性能向上を示しているが、これまでの研究ではSSM層間の表現共有の効率性の可能性は検討されていない。本論文では、層間で効率的にメモリを共有するためのシンプルかつ効果的なメカニズムであるGated Memory Unit(GMU)を提案する。これを適用し、Sambaベースの自己デコーダからメモリ読み出し状態を共有するためにクロスデコーダにGMUを組み込んだデコーダ-ハイブリッド-デコーダアーキテクチャであるSambaYを構築する。SambaYは、デコーディング効率を大幅に向上させ、線形のプリフィル時間計算量を維持し、長文脈性能を向上させるとともに、明示的な位置符号化の必要性を排除する。大規模なスケーリング実験を通じて、我々のモデルが強力なYOCOベースラインと比較して著しく低い不可避損失を示し、大規模計算体制下での優れた性能スケーラビリティを示すことを実証する。Differential Attentionを強化した最大のモデルであるPhi4-mini-Flash-Reasoningは、Math500、AIME24/25、GPQA Diamondなどの推論タスクにおいて、Phi4-mini-Reasoningよりも大幅に優れた性能を達成し、vLLM推論フレームワーク下で2K長のプロンプトと32K生成長において最大10倍のデコーディングスループットを提供する。我々は、オープンソースデータでのトレーニングコードベースをhttps://github.com/microsoft/ArchScaleで公開する。
FlexOlmoを紹介します。これは新しいクラスの言語モデル(LM)で、(1)データ共有なしでの分散学習をサポートし、異なるモデルパラメータがクローズドデータセット上で独立して学習されます。また、(2)データ柔軟型推論を可能にし、これらのパラメータと関連データを追加の学習なしに柔軟に推論に含めたり除外したりできます。FlexOlmoは、Mixture-of-Experts(MoE)アーキテクチャを採用しており、各エキスパートはクローズドデータセット上で独立して学習され、その後、新しいドメイン情報を活用したルーティングを通じて統合されますが、共同学習は一切行われません。FlexOlmoは、FlexMixというコーパスで学習されます。これは、公開されているデータセットと7つのドメイン固有のデータセットから構成され、クローズドセットの現実的な近似を表しています。最大370億パラメータ(うち200億がアクティブ)のモデルを31の多様な下流タスクで評価しました。公開データで学習された汎用エキスパートを、他のデータ所有者から独立して学習されたエキスパートと効果的に組み合わせることができ、平均41%の相対的改善をもたらしつつ、ユーザーがデータライセンスや許可要件に基づいて特定のデータをオプトアウトできることを示しました。また、我々のアプローチは、従来のモデル統合手法を平均10.1%上回り、同じ学習FLOPsでデータ制限なしに学習された標準MoEを凌駕しました。全体として、この研究は、機密性や保護されたデータを持つ規制業界のデータ所有者と研究者の両方にとっての解決策を提示します。FlexOlmoは、データ所有者の好みを尊重しつつ、クローズドデータの恩恵を受けることを可能にします。具体的には、データをローカルに保持し、推論時のデータアクセスを細かく制御することをサポートします。
大規模言語モデル(LLM)を用いた強化学習(RL)ベースのビデオ推論が進展しているにもかかわらず、データ収集とファインチューニングは依然として大きな課題です。これらの手法は、大規模な教師ありファインチューニング(SFT)と膨大なビデオデータ、長い連鎖思考(CoT)アノテーションに依存することが多く、コストがかかり、スケーリングが困難です。この問題に対処するため、我々はVideo-RTSを提案します。これは、データ効率の高いRLとビデオ適応型テストタイムスケーリング(TTS)戦略を組み合わせることで、ビデオ推論能力を大幅に向上させる新しいアプローチです。RLサンプルのデータスケーリングに関する観察に基づき、リソース集約的なSFTステップをスキップし、追加のアノテーションや大規模なファインチューニングを必要としない、出力ベースの報酬を用いた効率的な純粋RLトレーニングを採用します。さらに、計算リソースをより効率的に活用するため、出力の一貫性に基づいてフレームを反復的に追加するスパースからデンスへのビデオTTS戦略を導入し、推論を改善します。我々のアプローチを複数のビデオ推論ベンチマークで検証し、Video-RTSが既存のビデオ推論モデルを平均2.4%の精度で上回り、トレーニングサンプルのわずか3.6%しか使用しないことを示しました。例えば、Video-RTSは、最近の挑戦的なビデオ推論ベンチマークであるVideo-Holmesで4.2%、MMVUで2.6%の改善を達成しました。特に、我々の純粋RLトレーニングと適応型ビデオTTSは相補的な強みを提供し、Video-RTSの強力な推論性能を可能にしています。
長文脈推論では、広範でノイズの多い入力文脈から関連情報を正確に特定する必要がある。これまでの研究では、テスト時にモデルパラメータに直接文脈をエンコードするテストタイム学習を用いることで、ノイズの多い情報に対する推論を効果的に可能にすることが示されている。しかし、テストタイム学習を可能にするメタ学習手法は、メモリ使用量が非常に大きく、長文脈設定への適用が困難である。本研究では、PERK(Parameter Efficient Reasoning over Knowledge)を提案する。これは、テスト時に軽量なモデルアダプタに対する勾配更新を用いて長い入力文脈をエンコードするためのスケーラブルなアプローチである。具体的には、PERKはメタトレーニングフェーズにおいて2つのネスト化された最適化ループを採用する。内側のループは、ベースモデルのためのパラメータ効率的なメモリモジュールとして機能する低ランクアダプタ(LoRA)に迅速に文脈をエンコードする。同時に、外側のループは、更新されたアダプタを使用して、エンコードされた長文脈から関連情報を正確に想起し、推論する方法を学習する。いくつかの長文脈推論タスクにおける評価では、PERKは標準的なプロンプトベースの長文脈ベースラインを大幅に上回り、小規模モデル(GPT-2)では最大90%、最大評価モデル(Qwen-2.5-0.5B)では最大27%の平均絶対性能向上を達成した。一般的に、PERKは推論の複雑さ、長さの外挿、および文脈内の関連情報の位置に対してより頑健である。最後に、PERKはトレーニング時にはメモリ使用量が大きいが、推論時にはプロンプトベースの長文脈推論よりも効率的にスケールすることを示す。
自動的な有害言語検出は、安全で包括的なオンライン空間を構築する上で極めて重要です。しかし、これは非常に主観的なタスクであり、有害言語の認識はコミュニティの規範や個人の経験によって形作られます。既存の有害性検出モデルは、多様なアノテーターの視点を単一の正解に集約したアノテーションで訓練されることが一般的で、取り戻された言語などの文脈固有の有害性の概念が失われています。この問題に対処するため、我々はMODELCITIZENSを紹介します。これは6.8Kのソーシャルメディア投稿と40Kの有害性アノテーションからなるデータセットで、多様なアイデンティティグループをカバーしています。ソーシャルメディア投稿に典型的な会話文脈の役割を捉えるため、MODELCITIZENSの投稿をLLM生成の会話シナリオで拡張しました。最先端の有害性検出ツール(例:OpenAI Moderation API、GPT-o4-mini)はMODELCITIZENSで性能が低く、文脈拡張された投稿ではさらに性能が低下します。最後に、MODELCITIZENSでファインチューニングしたLLaMAベースのLLAMACITIZEN-8BとGemmaベースのGEMMACITIZEN-12Bをリリースし、これらはGPT-o4-miniをイン・ディストリビューション評価で5.5%上回りました。我々の研究結果は、包括的なコンテンツモデレーションのためのコミュニティ主導のアノテーションとモデリングの重要性を強調しています。データ、モデル、コードはhttps://github.com/asuvarna31/modelcitizensで公開されています。
Nova Premierは、Amazonが開発した最も高度なマルチモーダル基盤モデルであり、モデル蒸留のための教師モデルでもある。このモデルは、100万トークンのコンテキストウィンドウを備え、テキスト、画像、動画を処理し、大規模なコードベース、400ページの文書、90分の動画を単一のプロンプトで分析することが可能である。本論文では、Frontier Model Safety Frameworkの下で、Nova Premierの重要なリスクプロファイルに関する初の包括的評価を提示する。評価は、化学、生物、放射線、核(CBRN)、攻撃的サイバー作戦、自動化されたAI研究開発という3つの高リスク領域を対象とし、自動化されたベンチマーク、専門家によるレッドチーミング、およびリフトスタディを組み合わせて、モデルがリリース閾値を超えているかどうかを判断する。我々は、その方法論を要約し、主要な調査結果を報告する。この評価に基づき、Nova Premierは2025年のパリAI安全サミットで表明したコミットメントに従い、一般公開に安全であると結論付ける。フロンティアモデルに関連する新たなリスクや能力が特定されるにつれ、我々は安全性評価と緩和策のパイプラインを継続的に強化していく。
自律手術に関する研究は、これまで主に制御された環境下での単純なタスク自動化に焦点が当てられてきた。しかし、現実世界の手術応用では、長時間にわたる器用な操作と、人体組織の本質的な変動性への一般化が求められる。これらの課題は、既存の論理ベースの手法や従来のエンドツーエンド学習アプローチでは解決が困難である。このギャップを埋めるため、我々は器用的で長期的な手術ステップを実行するための階層的フレームワークを提案する。本アプローチでは、タスク計画のための高レベルポリシーと、ロボット軌道生成のための低レベルポリシーを利用する。高レベルプランナーは言語空間で計画を立て、タスクレベルの指示や修正指示を生成し、ロボットを長期的なステップに導き、低レベルポリシーの誤りを修正する。我々は、一般的に行われる低侵襲手術である胆嚢摘出術のex vivo実験を通じて本フレームワークを検証し、システムの主要コンポーネントを評価するためのアブレーション研究を実施した。本手法は、8つの未見のex vivo胆嚢において、人間の介入なしに完全自律的に動作し、100%の成功率を達成した。本研究は、手術手順におけるステップレベルの自律性を示し、自律手術システムの臨床導入に向けた重要なマイルストーンを示すものである。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、画像に基づく質問応答能力が実現されています。しかし、視覚エンコーダとしてCLIPを使用することには重要な制限があります。CLIPは大まかなグローバル情報を捉えることができますが、入力クエリに関連する細かい詳細を見逃すことが多いです。これらの欠点を解決するため、本研究では、事前学習済みのテキストから画像への拡散モデルが指示認識型の視覚エンコーダとして機能し得るかどうかを検討します。内部表現の分析を通じて、拡散モデルの特徴は意味的に豊富であり、強力な画像-テキストの整合性をエンコードできることを発見しました。さらに、テキスト条件付けを活用して、入力質問に関連する領域にモデルの焦点を当てることができることを確認しました。次に、これらの特徴を大規模言語モデルと整合させる方法を調査し、LLMが元の拡散プロンプトから意図せず情報を回復してしまう「リーク現象」を発見しました。このリークの原因を分析し、緩和策を提案します。これらの知見に基づいて、CLIPと条件付き拡散特徴の両方を活用するシンプルな融合戦略を探ります。一般的なVQAと専門的なMLLMベンチマークの両方でアプローチを評価し、特に空間的および構成的推論を必要とする視覚中心のタスクにおいて、拡散モデルが視覚理解に有望であることを示します。プロジェクトページはhttps://vatsalag99.github.io/mustafar/でご覧いただけます。
大規模言語モデル(LLMs)とその安全性分類器は、低リソース言語において、限られた訓練データと評価ベンチマークのため、しばしば性能が低い。本論文では、シンガポールの独特な言語的文脈にローカライズされた新しい多言語安全性ベンチマークであるRabakBenchを紹介する。これはシングリッシュ、中国語、マレー語、タミル語をカバーしている。RabakBenchは、スケーラブルな3段階のパイプラインを通じて構築される:(i)生成 - 実際のシングリッシュウェブコンテンツをLLM駆動のレッドチーミングで拡張し、敵対的例を生成する;(ii)ラベル - 人間の判断と整合した多数決によるLLMラベラーを用いた半自動化された多ラベル安全性注釈;(iii)翻訳 - 言語間のニュアンスと毒性を保持した高忠実度翻訳。最終的なデータセットは、4言語と6つの細分化された安全性カテゴリにわたる5,000以上の安全性ラベル付き例を含む。11の一般的なオープンソースおよびクローズドソースのガードレール分類器の評価により、性能の大幅な低下が明らかになった。RabakBenchは、東南アジアの多言語環境における堅牢な安全性評価を可能にするだけでなく、低リソース環境でのローカライズされた安全性データセットを構築するための再現可能なフレームワークを提供する。ベンチマークデータセット、人間による検証済み翻訳、および評価コードは公開されている。
ソーシャルメディア時代におけるマルチモーダルミームの普及は、マルチモーダル大規模言語モデル(mLLM)がミームの有害性を効果的に理解することを求めている。既存の有害ミーム理解に関するmLLMの評価ベンチマークは、静的データセットを用いた精度ベースのモデル非依存評価に依存している。これらのベンチマークは、オンラインミームが動的に進化するため、最新かつ徹底的な評価を提供する能力に限界がある。この問題に対処するため、我々はAdamMemeを提案する。これは、ミームの有害性を解読する際のmLLMの推論能力を適応的に探る柔軟なエージェントベースの評価フレームワークである。マルチエージェント協調を通じて、AdamMemeは挑戦的なサンプルでミームデータを反復的に更新し、mLLMが有害性を解釈する際の特定の限界を明らかにすることで、包括的な評価を提供する。大規模な実験により、本フレームワークが異なるターゲットmLLMの性能のばらつきを体系的に明らかにし、モデル固有の弱点に関する詳細で細かい分析を提供することが示された。コードはhttps://github.com/Lbotirx/AdamMemeで公開されている。