翻訳付きの日次キュレーションされたAI研究論文
本技術レポートでは、Ring-linearモデルシリーズ、特にRing-mini-linear-2.0とRing-flash-linear-2.0を紹介します。Ring-mini-linear-2.0は16Bのパラメータと957Mのアクティベーションを備え、Ring-flash-linear-2.0は104Bのパラメータと6.1Bのアクティベーションを有しています。両モデルは、線形アテンションとソフトマックスアテンションを効果的に統合したハイブリッドアーキテクチャを採用しており、長文脈推論シナリオにおけるI/Oと計算オーバーヘッドを大幅に削減します。320億パラメータの密モデルと比較して、このシリーズは推論コストを1/10に削減し、オリジナルのRingシリーズと比較してもコストを50%以上削減しています。さらに、ハイブリッドアーキテクチャにおける異なるアテンションメカニズムの比率を体系的に探索することで、現在の最適なモデル構造を特定しました。加えて、独自開発の高性能FP8演算子ライブラリ「linghe」を活用することで、全体のトレーニング効率を50%向上させました。トレーニングエンジンと推論エンジンの演算子間の高い整合性により、モデルは強化学習フェーズにおいて長期的で安定した高効率な最適化を実現し、複数の挑戦的な複雑推論ベンチマークで一貫してSOTA性能を維持しています。
強化学習(Reinforcement Learning, RL)は、最近、大規模言語モデル(Large Language Models, LLMs)の整合性と強化のための中心的なパラダイムとなっている。しかし、オフポリシー設定(過去のポリシーから得られた古いデータをトレーニングに使用する)においてRLを適用することは、サンプル効率を向上させる一方で、依然として課題が多い。具体的には、ポリシーのエントロピーが急激に低下し、最適化が不安定化するか、場合によっては崩壊する可能性がある。理論的および実証的分析を通じて、我々は二つの重要な洞察を得た:(i) 最適化の不均衡、すなわち負のアドバンテージサンプルがポリシー勾配を支配し、有用な行動を抑制し、勾配爆発のリスクを引き起こすこと、(ii) 導出されたエントロピークリップルール、すなわちPPO(Proximal Policy Optimization)のような目的関数における固定クリッピングメカニズムが、エントロピーを増加させる更新を体系的にブロックし、探索を犠牲にして過剰な活用を促すことである。これらの洞察に基づき、我々はBAlanced Policy Optimization with Adaptive Clipping(BAPO)を提案する。これは、クリッピング範囲を動的に調整して正負の寄与を適応的に再バランスし、エントロピーを維持し、RLの最適化を安定化するシンプルかつ効果的な手法である。サンプルリプレイや部分的なロールアウトを含む多様なオフポリシーシナリオにおいて、BAPOは迅速で安定したデータ効率的なトレーニングを実現する。AIME 2024およびAIME 2025ベンチマークにおいて、我々の7B BAPOモデルはSkyWork-OR1-7Bなどのオープンソースの競合モデルを凌駕し、32B BAPOモデルは同スケールのモデルの中で最先端の結果を達成するだけでなく、o3-miniやGemini-2.5-Flash-Thinkingなどの主要なプロプライエタリシステムをも上回る性能を示した。
長文脈の推論は、大規模言語モデルにとって不可欠である。強化学習(RL)は、連鎖思考(chain-of-thought)における「アハ体験」を誘発することで短い文脈の推論を強化するが、長文脈推論に必要な高度な思考パターンは未だ十分に探求されておらず、高難度のRLデータも不足している。本論文では、高度な長文脈推論のためのデータ駆動型RL手法であるLoongRLを紹介する。LoongRLの中核となるのはKeyChainであり、これは短いマルチホップQA(質問応答)を高難度の長文脈タスクに変換する合成手法である。具体的には、UUIDチェーンを挿入することで、真の質問を大量の関連性の低い文書群の中に隠す。これらのタスクを解決するためには、モデルが正しいチェーンを段階的に追跡し、真の質問を特定し、関連する事実を検索し、それらを推論して正しく回答する必要がある。KeyChainデータを用いたRLトレーニングは、計画-検索-推論-再確認という新たな推論パターンを誘発し、トレーニング長をはるかに超えて一般化する。16Kでトレーニングされたモデルは、128Kのタスクを効果的に解決し、高コストなフル長RLロールアウトを回避する。Qwen2.5-7Bおよび14Bにおいて、LoongRLは長文脈マルチホップQAの精度をそれぞれ+23.5%および+21.1%の絶対的な向上をもたらす。その結果、LoongRL-14Bは74.2のスコアを達成し、o3-mini(74.5)やDeepSeek-R1(74.9)といったはるかに大規模なフロンティアモデルに匹敵する。また、長文脈検索を改善し、128Kの針探しストレステストを全て通過し、短い文脈の推論能力も維持する。
汎用ロボット向けのVision-Language-Action(VLA)モデルのトレーニングには、通常、大規模な実世界のロボットデータが必要であり、その収集には多大なコストと時間がかかります。物理的なデータ収集の非効率性は、現在のVLAシステムのスケーラビリティと汎化能力を著しく制限しています。この課題に対処するため、我々はGigaBrain-0を導入します。これは、ワールドモデルによって生成されたデータ(例:ビデオ生成、real2real転送、人間転送、視点転送、sim2real転送データ)を活用した新しいVLA基盤モデルです。ワールドモデルを活用して多様なデータを大規模に生成することで、GigaBrain-0は実ロボットデータへの依存を大幅に削減しつつ、クロスタスク汎化を向上させます。さらに、RGBD入力モデリングと具現化されたChain-of-Thought(CoT)監視を通じてポリシーの堅牢性を向上させ、タスク実行中に空間幾何学、オブジェクト状態、長期的な依存関係を推論できるようにします。これにより、器用な操作、長期的な操作、および移動操作タスクにおける実世界のパフォーマンスが大幅に向上します。広範な実験により、GigaBrain-0が外観(例:テクスチャ、色)、オブジェクト配置、カメラ視点の変動に対して優れた汎化能力を発揮することが実証されています。さらに、NVIDIA Jetson AGX Orinなどのデバイスで効率的に動作するように最適化された軽量バリアントであるGigaBrain-0-Smallも紹介します。
非線形活性化関数や正規化などのTransformerの構成要素は、本質的に非単射的であり、異なる入力が同じ出力にマッピングされ、モデルの表現から入力の正確な復元が妨げられる可能性がある。本論文では、この見解に異議を唱える。まず、離散的な入力シーケンスを対応する連続的な表現シーケンスにマッピングするTransformer言語モデルが、初期化時に確立され、訓練中に維持される単射的であり、したがってロスレスであることを数学的に証明する。次に、この結果を、6つの最先端言語モデルに対する数十億回の衝突テストを通じて実証的に確認し、衝突が観察されないことを示す。さらに、単射性を実用的に活用するために、SipItを導入する。SipItは、隠れ層の活性化から正確に入力テキストを再構築する初のアルゴリズムであり、線形時間保証を確立し、実践的な正確な可逆性を実証する。全体として、本研究は、単射性を言語モデルの基本的かつ活用可能な特性として確立し、透明性、解釈可能性、安全な展開に直接的な影響を与える。
コンピュータ利用エージェントのトレーニングには大量のGUIインタラクションデータが必要ですが、大規模なアクショントラジェクトリの手動アノテーションは非常にコストがかかります。本論文では、公開されているスクリーン録画動画から自動的にトレーニングデータを抽出するスケーラブルなパイプライン「VideoAgentTrek」を提案し、手動アノテーションの必要性を排除します。このアプローチは、生の動画が暗黙的なデモンストレーションを含むものの明示的なアクションラベルを欠いているという重要な課題に対処します。これを解決するため、逆ダイナミクスモジュール(IDM)である「Video2Action」を開発しました。これは2つのコンポーネントで構成されます:(1)GUIアクションを検出し、正確な時間的境界とコンテキストでローカライズするビデオグラウンディングモデル、(2)クリック座標や入力テキストなどの構造化されたパラメータを高精度で抽出するアクションコンテンツ認識器です。39,000本のYouTubeチュートリアル動画に適用した結果、このパイプラインは自動的に152万のインタラクションステップを生成しました。このデータを活用するため、継続的な事前学習とそれに続く教師ありファインチューニングを行いました。OSWorld-Verifiedでは、タスク成功率が9.3%(SFTのみのベースライン)から15.8%に向上し、70%の相対的改善を示しました。AgentNetBenchでは、ステップ精度が64.1%から69.3%に向上しました。これらの結果は、受動的なインターネット動画がコンピュータ利用エージェントのための高品質な教師データに変換可能であり、高コストな手動アノテーションに代わるスケーラブルな代替手段を提供することを実証しています。
モバイルフォンエージェント(MPAs)は、多様なシナリオに広く適用可能であることから、有望な研究分野として注目を集めています。マルチモーダル大規模言語モデル(MLLMs)はMPAsの基盤となっていますが、複数のモバイルフォンタスクを同時に処理する効果性には限界があります。マルチタスク教師ありファインチューニング(SFT)はマルチタスク学習に広く採用されていますが、既存のアプローチでは最適なトレーニングデータ構成を決定することが困難です。この課題に対処するため、我々はDaMo(Data Mixture Optimizer)を提案します。DaMoは、任意のデータセット比率に対する下流タスクの性能を予測することで最適なデータ混合を予測する学習可能なネットワークを採用した新しいソリューションです。包括的な評価を支援するため、我々はPhoneAgentBenchを導入しました。これは、多様な実世界の産業用モバイルアプリケーションシナリオにまたがる1235のQAペアから構成される、マルチモーダルモバイルフォンタスクにおけるMLLMsを評価する初の専門ベンチマークです。小規模なパイロット実験で強力な予測能力(R^2=0.81)を示したDaMoは、最適なデータ混合構成を効率的に外挿します。我々の結果は、DaMoがPhoneAgentBenchにおいて他の手法と比較して3.38%の性能向上を達成することを示しています。さらに、BFCL-v3、MME-Reasoning、MME-Perception、OCRBenchなどの確立されたベンチマークでの広範な実験により、DaMoの優れた汎化能力が明らかになり、平均スコアで他のアプローチを2.57%上回りました。BFCL-v3タスクにおいてMLLMの最適化にのみ使用された場合、DaMoは他の手法よりも12.47%メトリクスを改善しました。特に、DaMoは他のモデルアーキテクチャに適用された場合でもその有効性を維持し、堅牢なスケーラビリティを示しています。コードとデータセットはhttps://github.com/OPPO-Mente-Lab/DaMo.gitで公開されています。
Vision-Language Models(VLM)は目覚ましい進歩を遂げてきたが、その大規模さゆえにリソースが限られた環境では実用的でないことが多い。本論文では、強力で軽量なVLMを創出するために設計された、新規かつ効率的な訓練アルゴリズムであるUnified Reinforcement and Imitation Learning(RIL)を紹介する。RILは、強化学習と敵対的模倣学習の長所を独自に組み合わせている。これにより、小規模な学生VLMは、大規模な教師モデルの洗練されたテキスト生成を模倣するだけでなく、強化学習信号を通じて体系的に生成能力を向上させることができる。我々の模倣フレームワークの鍵となるのは、学生と教師の出力を巧みに識別するLLMベースの識別器であり、多様な学習を保証するために複数の大規模教師VLMからのガイダンスが補完される。この強化学習と模倣を活用した統一学習戦略により、学生モデルは大幅な性能向上を達成し、主要なクローズドソースVLMと競争できるようになる。多様な視覚言語ベンチマークでの広範な実験により、RILが最先端のオープンソースおよびクローズドソースVLMとの性能差を大幅に縮め、いくつかの事例ではそれを上回ることが実証された。
近年のマルチモーダルモデルの進展により、GPT-4oやNano-Bananaなどのシステムが新たなベンチマークを確立し、テキストガイドによる画像編集能力が顕著に向上しています。しかし、研究コミュニティの進歩は、実画像から構築された大規模で高品質かつ公開アクセス可能なデータセットの欠如によって制約を受けています。本論文では、指示ベースの画像編集のための包括的な40万枚の画像データセットであるPico-Banana-400Kを紹介します。このデータセットは、OpenImagesコレクションの実写真からNano-Bananaを活用して多様な編集ペアを生成することで構築されました。Pico-Banana-400Kが従来の合成データセットと異なる点は、品質と多様性に対する体系的なアプローチです。詳細な画像編集タクソノミーを採用し、編集タイプの包括的なカバレッジを確保するとともに、MLLMベースの品質スコアリングと慎重なキュレーションを通じて、正確なコンテンツの保存と指示の忠実性を維持しています。単一ターンの編集を超えて、Pico-Banana-400Kは複雑な編集シナリオの研究を可能にします。このデータセットには、3つの専門的なサブセットが含まれています:(1) 連続的な変更にわたる逐次編集、推論、計画を研究するための7万2千例のマルチターンコレクション、(2) アライメント研究と報酬モデルトレーニングのための5万6千例の選好サブセット、(3) 指示の書き換えと要約能力の開発のための長短編集指示のペアです。この大規模で高品質かつタスク豊富なリソースを提供することで、Pico-Banana-400Kは次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅固な基盤を確立します。
プロフェッショナルな財務レポートの作成は、労力がかかり、知的にも要求の高いプロセスであり、現在のAIシステムでは完全な自動化が困難です。この課題に対処するため、我々はFinSight(Financial InSight)を導入します。これは、高品質でマルチモーダルな財務レポートを生成するための新しいマルチエージェントフレームワークです。FinSightの基盤となるのは、可変メモリを備えたコードエージェント(CAVM)アーキテクチャであり、外部データ、設計されたツール、エージェントをプログラム可能な可変空間に統合し、実行可能なコードを通じて柔軟なデータ収集、分析、レポート生成を可能にします。プロフェッショナルグレードの視覚化を確保するために、我々は反復的な視覚強化メカニズムを提案し、生の視覚出力を洗練された財務チャートに段階的に改良します。さらに、2段階のライティングフレームワークにより、簡潔な分析連鎖(Chain-of-Analysis)セグメントを、一貫性があり引用を意識したマルチモーダルレポートに拡張し、分析の深さと構造の一貫性を確保します。様々な企業および業界レベルのタスクでの実験により、FinSightが、事実の正確性、分析の深さ、プレゼンテーションの品質において、主要な深層研究システムを含むすべてのベースラインを大幅に上回り、人間の専門家に近い品質のレポートを生成する明確な道筋を示しています。
大規模言語モデル(LLM)が人間とAIのインタラクションにおいてますます使用される中で、対人関係におけるそれらの社会的推論能力が重要となっています。本論文では、映画の脚本から収集された英語と韓国語の1,000対話からなるSCRIPTSデータセットを紹介します。このタスクでは、各対話における話者間の対人関係(例:友人、姉妹、恋人)を推論するモデルの社会的推論能力を評価します。各対話は、韓国と米国のネイティブ(または同等の)韓国語および英語話者によって、確率的な関係ラベル(Highly Likely, Less Likely, Unlikely)で注釈付けされています。9つのモデルを評価した結果、現在のプロプライエタリLLMは英語データセットで約75-80%の精度を達成していますが、韓国語での性能は58-69%に低下します。さらに顕著なことに、モデルは10-25%の回答においてUnlikelyな関係を選択しています。また、一般的な推論に有効な思考モデルや連鎖的思考プロンプトは、社会的推論にはほとんど効果がなく、時として社会的バイアスを増幅することがわかりました。これらの結果は、現在のLLMの社会的推論能力に重大な限界があることを明らかにし、社会的に意識した言語モデルの開発に向けた取り組みの必要性を強調しています。
自動運転の世界モデルは、状態、行動、報酬という3つの核心的な次元において効果的に機能することが期待されています。しかし、既存のモデルは通常、限られた状態モダリティ、短いビデオシーケンス、不正確な行動制御、および報酬認識の欠如に制約されています。本論文では、これら3つの次元を統一フレームワーク内で扱う全知的なパノラマナビゲーションワールドモデル、OmniNWMを紹介します。状態に関して、OmniNWMはRGB、セマンティクス、メトリック深度、および3D占有空間のパノラマビデオを共同で生成します。柔軟な強制戦略により、高品質な長期自己回帰生成が可能となります。行動に関しては、入力軌跡をピクセルレベルの信号にエンコードする正規化されたパノラマPlucker光線マップ表現を導入し、パノラマビデオ生成に対する高度に正確で汎用性のある制御を実現します。報酬に関しては、外部の画像ベースモデルで報酬関数を学習することを超えて、生成された3D占有空間を活用して、運転の遵守と安全性のためのルールベースの密な報酬を直接定義します。広範な実験により、OmniNWMがビデオ生成、制御精度、および長期安定性において最先端の性能を達成し、占有空間に基づいた報酬を通じて信頼性の高い閉ループ評価フレームワークを提供することが示されています。プロジェクトページはhttps://github.com/Arlo0o/OmniNWMで利用可能です。
マスク拡散言語モデル(DLMs)は、従来の自己回帰モデル(ARMs)に代わる有望な手法として近年注目を集めている。DLMsは双方向アテンションを備えたトランスフォーマーエンコーダーを採用し、並列的なトークン生成を可能にしながらも高い性能を維持している。その効率性と有効性は広く研究されているものの、DLMsを支配する内部メカニズムは未だ十分に解明されていない。本研究では、DLMsのアテンションパターンに焦点を当て、特にこれまで様々なトランスフォーマーベースのアーキテクチャで観察されてきた「アテンションシンク」現象に着目した実証分析を行った。その結果、DLMsもアテンションシンクを示すが、その特性はARMsとは異なることが明らかになった。第一に、ARMsとは異なり、DLMsにおけるシンク位置は生成プロセスを通じて移動し、動的な振る舞いを示す。第二に、ARMsがアテンションシンクの除去に非常に敏感であるのに対し、DLMsは頑健であり、シンクをマスクしても性能の低下はわずかである。これらの結果は、拡散ベースの言語モデルの内部動作に関する新たな知見を提供し、自己回帰モデルと比較した際のアテンションの割り当てと利用方法における根本的な違いを浮き彫りにしている。
本論文では、大規模マルチモーダルモデル(LMMs)のチャート理解およびコード生成能力を評価するための新しいベンチマーク「Chart2Code」を紹介する。Chart2Codeは、ユーザー主導の視点から明示的に設計されており、多様な実世界のシナリオを捉え、タスクの難易度を段階的に増加させる。このベンチマークは3つのレベルで構成される:レベル1(チャート再現)は、参照図とユーザークエリに基づいてチャートを再現する;レベル2(チャート編集)は、チャートタイプの変更や要素の追加といった複雑な修正を含む;レベル3(長い表からチャート生成)は、情報密度の高い長い表をユーザーの指示に従って忠実なチャートに変換することを要求する。我々の知る限り、これは実用的なchart2codeの使用を反映しつつ、タスクの複雑さを体系的にスケーリングする初の階層型ベンチマークである。Chart2Codeは、22種類のチャートタイプにわたる2,023のタスクを含み、コードの正確性とレンダリングされたチャートの視覚的忠実度を評価する多段階の評価指標と組み合わされている。我々は、GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL、Seed-1.6-VLといったプロプライエタリおよび最新のオープンソースモデルを含む25の最先端(SoTA)LMMsをベンチマークした。実験結果は、SoTAモデルであるGPT-5でさえ、編集タスク全体におけるコードベースの評価で平均0.57、チャート品質評価で平均0.22しか得られないことを示しており、Chart2Codeの難易度の高さを浮き彫りにしている。我々は、このベンチマークがマルチモーダル推論の進展を促進し、より堅牢で汎用的なLMMsの開発を促すことを期待している。我々のコードとデータはChart2Codeで公開されている。
大規模マルチモーダルモデルは、事前学習された重みに膨大な事実知識をエンコードしています。しかし、その知識は静的で限定的であり、現実世界の進展に追従できないため、継続的な知識獲得が妨げられています。そのため、効果的な知識注入が重要となり、これには2つの目標が含まれます:知識適応(新たな知識の注入)と知識保持(既存の知識の維持)です。既存の手法では、新たな知識を学習することが難しく、破滅的な忘却に悩まされることが多いです。この問題に対処するため、我々はKOREを提案します。KOREは、新たな知識を大規模マルチモーダルモデルに注入しつつ、既存の知識を保持するための、知識指向の拡張と制約を組み合わせた手法です。一般的なテキストや画像データの拡張とは異なり、KOREは個々の知識項目を構造化され包括的な知識に自動的に変換し、モデルが新たな知識を正確に学習できるようにします。これにより、正確な適応が可能となります。一方で、KOREは以前の知識をLMMの線形層活性化の共分散行列に保存し、アダプタを元の重みを行列の零空間に射影することで初期化します。これにより、以前の知識との干渉を最小限に抑える微調整方向を定義し、強力な保持を可能にします。LLaVA-v1.5-7B、LLaVA-v1.5-13B、Qwen2.5-VL-7Bを含む様々なLMMでの広範な実験により、KOREが優れた新知識注入性能を達成し、破滅的な忘却を効果的に緩和することが示されました。
私たちは、PDFなどのデジタル化された印刷文書をクリーンで自然な順序のプレーンテキストに変換する強力なOCRシステムの最新版であるolmOCR 2を紹介します。olmOCR 2は、検証可能な報酬を用いた強化学習(RLVR)でトレーニングされた、7Bの専門的な視覚言語モデル(VLM)であるolmOCR-2-7B-1025を搭載しています。ここでの報酬は、多様なバイナリユニットテストのセットです。ユニットテストの作成をスケールアップするために、多様で挑戦的なレイアウトを持つ合成文書を生成し、既知のHTMLソースコードと抽出されたテストケースを提供するパイプラインを開発しました。これらのテストケースでのRLトレーニングにより、olmOCR-Bench(私たちの英語OCRベンチマーク)において、以前のバージョンと比較して数式変換、表解析、マルチカラムレイアウトで最大の改善を示す最先端のパフォーマンスを実現しました。私たちは、モデル、データ、コードを寛容なオープンライセンスの下で公開します。
モデルコンテキストプロトコル(MCP)の導入以来、大規模言語モデル(LLM)向けの利用可能なツールの数は大幅に増加しました。これらのタスク特化型ツールセットは、ウェブブラウザのような汎用ツールに代わる選択肢を提供しつつ、GUIよりも開発と保守が容易です。しかし、現在の汎用エージェントは主に環境とのインタラクションにウェブブラウザを依存しています。本論文では、様々な現実世界のサービスとのインタラクションを伴うタスクにおいて、ツール呼び出しエージェントを評価するためのベンチマーク「TheMCPCompany」を紹介します。これらのサービスのREST APIを使用してMCPサーバーを作成し、18,000以上のツールを含めています。また、各タスクに対して手動でアノテーションされたグラウンドトゥルースツールを提供します。実験では、グラウンドトゥルースツールを使用して、完璧なツール検索を仮定した場合のパフォーマンス向上とコスト削減の可能性を示します。次に、ツール検索を使用したエージェントのパフォーマンスを探り、ツールベースのエージェントの実用性を研究します。ツール検索を使用したすべてのモデルは、ブラウザベースのエージェントと同等またはそれ以上のパフォーマンスを示しますが、小規模なモデルは検索を通じて利用可能なツールを十分に活用できません。一方、GPT-5のツール検索を使用したパフォーマンスは、グラウンドトゥルースツールを使用した場合と非常に近いものです。全体として、我々の研究は、最も先進的な推論モデルが単純な環境でのツール発見に有効である一方、複雑な企業環境のナビゲーションには深刻な苦戦を強いられることを示しています。TheMCPCompanyは、数万のツールをナビゲートし、それらを非自明な方法で組み合わせて複雑な問題を解決することは、現在のモデルにとって依然として困難な課題であり、より優れた推論モデルと検索モデルの両方が必要であることを明らかにしています。
マルチモーダル大規模言語モデル(MLLMs)は、テキストクエリに関連する視覚トークンに注目することで、強力なビデオ理解能力を示します。これをトレーニング不要な方法でローカライゼーションに直接適用するため、ビデオ推論セグメンテーションをビデオQAタスクとして捉え、ロールアウトメカニズムを通じてアテンションマップを抽出します。しかし、生のアテンションマップはノイズが多く、オブジェクト領域と適切に整合していません。そこで、我々はDecomposed Attention Fusion(DecAF)を提案し、以下の2つのメカニズムを通じてこれらのマップを精緻化します:(1) 対照的なオブジェクト-背景融合と、(2) 補完的なビデオフレーム融合。この方法により、無関係な活性化を抑制し、オブジェクトに焦点を当てた手がかりを強化し、アテンションマップを直接粗いセグメンテーションマスクに変換することが可能となります。さらに、細かいマスクを取得するためのアテンションガイド付きSAM2プロンプティングを導入します。既存の方法がMLLMsとSAMを共同でトレーニングするのに対し、我々の方法は完全に再トレーニングなしで動作します。DecAFは、トレーニング不要な方法を上回り、参照および推論VOSベンチマークにおいてトレーニングベースの方法と同等の性能を達成します。コードはhttps://github.com/HYUNJS/DecAFで公開予定です。
ハードウェア、ソフトウェア、そして大規模言語モデル技術の進化に伴い、人間とオペレーティングシステム(OS)間のインタラクションは、コマンドラインインターフェースから急速に台頭するAIエージェントインタラクションへと進化してきました。ユーザーの指示を実行し、ユーザーの意図を忠実に反映するOSエージェントの構築が現実のものとなりつつあります。本技術レポートでは、長期的で堅牢な環境インタラクションを実現しつつ、パーソナライズされた積極的なユーザーインタラクションを可能にするOSエージェント「ColorAgent」を紹介します。環境との長期的なインタラクションを実現するため、段階的な強化学習と自己進化型トレーニングを通じてモデルの能力を強化し、汎用性、一貫性、堅牢性を確保するための専用のマルチエージェントフレームワークを開発しました。ユーザーインタラクションに関しては、パーソナライズされたユーザー意図認識と積極的なエンゲージメントを探求し、OSエージェントを単なる自動化ツールではなく、温かみのある協力的なパートナーとして位置づけています。ColorAgentをAndroidWorldおよびAndroidLabベンチマークで評価し、それぞれ77.2%と50.7%の成功率を達成し、新たな最先端を確立しました。ただし、現在のベンチマークはOSエージェントの包括的な評価には不十分であることを指摘し、今後の研究において特に評価パラダイム、エージェント間の協調、セキュリティの分野でのさらなる探求を提案します。私たちのコードはhttps://github.com/MadeAgents/mobile-useで公開されています。
大規模マルチモーダルモデル(LMMs)は、クロスモーダル事前学習を通じて豊富な事実知識を符号化しますが、その静的な表現は時間に敏感な事実知識を正確に理解するのに苦労しています。既存のベンチマークは静的な設計に制約されており、LMMsが時間に敏感な知識を理解する能力を適切に評価できていません。このギャップを埋めるため、我々はMINEDを提案します。これは、6つの主要な次元(認知、認識、信頼性、理解、推論、堅牢性)と11の挑戦的なタスクに沿って時間的認識を評価する包括的なベンチマークです。MINEDは、2人の専門アノテーターによってWikipediaから構築され、6つの知識タイプにまたがる2,104の時間に敏感な知識サンプルを含んでいます。15の広く使用されているLMMsをMINEDで評価した結果、Gemini-2.5-Proが平均CEMスコア63.07で最高の成績を収めましたが、ほとんどのオープンソースLMMsはまだ時間理解能力を欠いています。一方、LMMsは組織知識において最も優れたパフォーマンスを示す一方で、スポーツにおいては最も弱いパフォーマンスを示しました。これらの課題に対処するため、我々は知識編集手法を通じてLMMsの時間に敏感な知識を更新する可能性を調査し、LMMsが単一編集シナリオにおいて知識編集手法を介して効果的に知識を更新できることを観察しました。
最適化モデリングは産業界における重要な意思決定を可能にするが、その自動化は依然として困難である。非公式な言語を正確な数学的定式化と実行可能なソルバーコードにマッピングする必要がある。従来のLLMアプローチは、脆弱なプロンプトに依存するか、限定的な汎化能力しかない高コストな再学習を必要としていた。本論文では、AlphaOPTを紹介する。これは自己改善型の経験ライブラリであり、LLMが限られたデモンストレーション(ゴールドスタンダードのプログラムなしで、答えだけでも)とソルバーのフィードバックから学習することを可能にする。AlphaOPTは、注釈付きの推論トレースやパラメータ更新を必要としない。AlphaOPTは、継続的な2段階のサイクルで動作する:(i) 失敗した試みを反映し、ソルバーによって検証された構造化された洞察を{分類、条件、説明、例}として抽出する「ライブラリ学習フェーズ」と、(ii) 検索の不一致を診断し、保存された洞察の適用条件を洗練することで、タスク間の転移を改善する「ライブラリ進化フェーズ」である。この設計により、(1) キュレーションされた根拠なしに限られたデモンストレーションから効率的に学習し、(2) モデルの重みではなくライブラリを更新することで、高コストな再学習なしに継続的に拡張し、(3) 知識を明示的かつ解釈可能にし、人間による検査と介入を可能にする。実験結果は、AlphaOPTがより多くのデータで着実に改善し(100から300のトレーニング項目で65%から72%)、答えのみでトレーニングされた場合、OptiBenchデータセットの分布外データにおいて最も強力なベースラインを7.7%上回ることを示している。コードとデータは以下で利用可能である:https://github.com/Minw913/AlphaOPT。
既存のパラメータ効率的なファインチューニング(PEFT)手法は、主に2つのカテゴリに分類されます:追加ベースと選択的インサイチュ適応です。前者は、LoRAなどのように、下流タスクに適応するために追加モジュールを導入し、高いメモリ効率を提供します。しかし、その表現能力はしばしば限られており、細かい適応にはあまり適していません。一方、後者は、元のモデルパラメータの慎重に選ばれたサブセットを直接ファインチューニングし、より正確で効果的な適応を可能にしますが、メモリ消費量が大幅に増加するという代償を伴います。このトレードオフを解消するために、我々はNeuroAdaという新しいPEFT手法を提案します。この手法は、細かいモデルファインチューニングを可能にしつつ、高いメモリ効率を維持します。我々のアプローチでは、まず選択的適応と同様に重要なパラメータ(すなわち、ネットワーク内の接続)を特定し、次にこれらの選択されたパラメータに対してバイパス接続を導入します。ファインチューニング中は、バイパス接続のみが更新され、元のモデルパラメータは凍結されたままです。自然言語生成と理解の両方にまたがる23以上のタスクでの実験結果は、NeuroAdaがleq 0.02%の学習可能パラメータで最先端の性能を達成し、CUDAメモリ使用量を最大60%削減することを示しています。我々のコードはこちらで公開しています:https://github.com/FightingFighting/NeuroAda.git。
マルチモーダル大規模言語モデル(MLLMs)は急速に進化しているが、その推論能力は強力なテキスト専用モデルに比べてしばしば遅れをとっている。このギャップを埋めるための既存の手法は、大規模なマルチモーダル推論データを用いた教師ありファインチューニングや強化学習に依存しており、いずれもリソース集約的である。有望な代替手法として、推論能力を強化したLLMとマルチモーダルモデルのパラメータを補間するモデルマージングが挙げられる。しかし、我々の分析によると、単純なマージングは必ずしも「無償の利益」をもたらすわけではない:その効果はモデルファミリーによって大きく異なり、LLaVAやIdeficsなどの一部のモデルは恩恵を受ける一方で、Qwenなどの他のモデルは性能低下を招く。この問題に対処するため、我々は「方向性推論注入によるファインチューニング(DRIFT)」を提案する。DRIFTは、マルチモーダルアラインメントを不安定化させることなく、勾配空間で推論知識を転送する軽量な手法である。DRIFTは、推論モデルとマルチモーダルモデルのパラメータ空間の差分を事前に計算し、それをマルチモーダルファインチューニング中の勾配にバイアスとして適用する。このアプローチは、標準的な教師ありファインチューニングパイプラインの簡潔さを保ちつつ、効率的な推論転送を可能にする。MathVistaやMathVerseなどのマルチモーダル推論ベンチマークにおける広範な実験により、DRIFTが単純なマージングや教師ありファインチューニングを上回る一貫した推論性能の向上をもたらし、高コストな手法に匹敵または凌駕する結果を示すことが実証された。
高品質な事前学習データは大規模言語モデルにおいて極めて重要であり、ここで言う品質とは事実の信頼性と意味的価値を指し、多様性は広範なカバレッジと分布の異質性を保証する。既存のアプローチでは通常、単一または多次元のスコアベースの選択に依存している。しかし、単に高スコアのデータを選択するだけでは性能が低下し、結果を回復するためにはより広範な範囲からのサンプリングが必要となる。データセットのスコアと下流ベンチマーク結果の間のこの非単調性は、根本的なバイアスを明らかにしている:スコアベースの手法は相関する次元を崩壊させ、高スコアのデータが高品質に見える一方で、体系的に多様性を見落とす。我々は、多様性を保証するためには、相関する指標を直交する特徴次元に分解し、そこから高スコアのデータを直接選択する必要があると主張する。そこで、我々は直交性を考慮した多様性認識選択(Orthogonal Diversity-Aware Selection, ODiS)アルゴリズムを提案し、データ選択において品質と多様性の両方を保持する。まず、ODiSは言語品質、知識品質、理解難易度など複数の次元からデータを評価する。次に、多次元スコアは主成分分析(PCA)によって相関を除去され、直交する評価次元が得られる。各次元に対して、PCA投影されたスコアにデータを回帰するためにRobertaベースのスコアラーが訓練され、大規模コーパスでのスケーラブルな推論が可能となる。最後に、ODiSは各直交次元内で高スコアのデータを選択することで訓練データセットを構築し、品質と多様性の両方を保証する。実験結果は、ODiSで選択されたデータが次元間で2%未満の重複を示し、次元間の直交性を確認している。さらに重要なことに、ODiSで選択されたデータで訓練されたモデルは、下流ベンチマークにおいて他のベースラインを大幅に上回り、大規模言語モデルにおける直交性を考慮した多様性認識データ選択の必要性を強調している。
室内インパルス応答(RIR)は、残響除去、ロバスト音声認識、音源位置推定、室内音響推定の中核となるリソースです。本論文では、RIR-Megaを紹介します。これは、コンパクトで機械に優しいメタデータスキーマで記述され、検証と再利用のためのシンプルなツールと共に配布される、大規模なシミュレーションRIRコレクションです。このデータセットには、Hugging Face Datasetsローダー、メタデータチェックとチェックサムのスクリプト、波形からRT60のようなターゲットを予測するリファレンス回帰ベースラインが同梱されています。36,000例のトレーニングセットと4,000例の検証セットにおいて、軽量な時間およびスペクトル特徴量を用いた小さなランダムフォレストは、平均絶対誤差が約0.013秒、二乗平均平方根誤差が約0.022秒に達しました。ストリーミングとクイックテストのため、1,000の線形アレイRIRと3,000の円形アレイRIRのサブセットをHugging Faceでホストし、完全な50,000のRIRアーカイブはZenodoに保存しています。データセットとコードは公開されており、再現可能な研究を支援します。
大規模言語モデル(LLM)の進捗を評価する際、応答の検証が困難であることが制約となり、数学、プログラミング、短い形式の質問応答などのタスクに評価が限定されることが多い。しかし、現実世界の多くのアプリケーションでは、専門文書の処理、情報の統合、ユーザーのクエリに対する包括的なレポートの生成といった場面でLLMを評価する必要がある。本研究では、物理学博士、化学博士、金融MBA、コンサルティングMBAといった専門知識を持つ人間の専門家によって評価された7,000以上の応答-基準ペアからなるProfBenchを紹介する。自己強化バイアスを軽減し、評価コストを2~3桁削減することで、公平かつ広範なコミュニティにアクセス可能な、堅牢で手頃なLLM-Judgesを構築した。その結果、ProfBenchは最先端のLLMにとっても重大な課題を提示し、GPT-5-highのようなトップパフォーマンスのモデルでも全体のパフォーマンスは65.9%に留まることが明らかになった。さらに、プロプライエタリモデルとオープンウェイトモデルの間には顕著なパフォーマンスの差が存在し、複雑な専門領域タスクに対処する際に拡張思考が果たす役割についての洞察を提供する。データ: https://huggingface.co/datasets/nvidia/ProfBench およびコード: https://github.com/NVlabs/ProfBench
人々はテキストを見る。人間は、単語を視覚的対象として認識し、その形状、レイアウト、パターンを把握した後、それらを意味に結びつけることで読む。これにより、タイプミス、歪んだフォント、さまざまなスクリプトを効果的に処理することが可能となる。しかし、現代の大規模言語モデル(LLM)は、サブワードトークン化に依存し、テキストを固定語彙からなる断片に分割する。このアプローチは高リソース言語には有効であるが、低リソース言語では過剰なセグメンテーションを引き起こし、長く言語学的に無意味なシーケンスを生成し、計算量を増大させる。本研究では、この定着したパラダイムに挑戦し、視覚中心の代替案に向けて進む。我々の手法であるSeeTokは、テキストを画像(視覚的テキスト)としてレンダリングし、事前学習済みのマルチモーダルLLMを活用してそれらを解釈する。これにより、大規模なマルチモーダル学習から得られた強力なOCRおよびテキスト-視覚アラインメント能力を再利用する。3つの異なる言語タスクにおいて、SeeTokはサブワードトークナイザーと同等またはそれ以上の性能を発揮し、トークン数を4.43倍削減し、FLOPsを70.5%削減する。さらに、言語間汎化、タイポグラフィックノイズに対する頑健性、言語的階層性においても追加の利点を示す。SeeTokは、記号的なトークン化から人間のような視覚的読解への転換を示し、より自然で認知にインスパイアされた言語モデルに向けた一歩を踏み出す。
テキストから画像(T2I)モデルは急速に進化しているが、依然としてセマンティックリーク(異なるエンティティ間での意図しないセマンティック関連特徴の転移)に対して脆弱である。既存の緩和策は、最適化ベースの手法や外部入力に依存するものが多い。本研究では、DeLeakerを提案する。これは、軽量で最適化を必要としない推論時アプローチであり、モデルのアテンションマップに直接介入することでリークを緩和する。拡散プロセス全体を通じて、DeLeakerはアテンションマップを動的に再重み付けし、過剰なエンティティ間相互作用を抑制するとともに、各エンティティのアイデンティティを強化する。体系的評価を支援するため、セマンティックリークに特化した初のデータセットであるSLIM(Semantic Leakage in IMages)を導入した。SLIMは、多様なシナリオにわたる1,130の人間による検証済みサンプルと、新たな自動評価フレームワークで構成されている。実験結果は、DeLeakerが外部情報を提供されたベースラインを一貫して上回り、忠実度や品質を損なうことなく効果的なリーク緩和を達成することを示している。これらの結果は、アテンション制御の価値を強調し、よりセマンティックに正確なT2Iモデルへの道を開くものである。
メンバーシップ推論攻撃(MIA)と機械生成テキスト検出は、訓練サンプルの特定と合成テキストの検出という異なる目標を対象としているが、その手法はしばしば言語モデルの確率分布に基づく類似の信号を利用する。この共通の方法論的基盤にもかかわらず、これら2つのタスクは独立して研究されており、他方のタスクで開発されたより強力な手法や貴重な知見を見落とす結論に至る可能性がある。本研究では、MIAと機械生成テキスト検出の間の転移可能性、すなわち、あるタスクのために開発された手法が他方のタスクでどの程度うまく機能するかを理論的かつ実証的に調査する。理論的貢献として、両タスクで漸近的に最高の性能を達成する指標が同一であることを証明する。この最適な指標の文脈で既存の文献の大部分を統一し、与えられた手法がこの指標をどれだけ正確に近似するかがその転移可能性と直接相関すると仮説を立てる。大規模な実証実験では、13のドメインと10の生成器にわたる7つの最先端のMIA手法と5つの最先端の機械生成テキスト検出器を含め、クロスタスク性能において非常に強い順位相関(rho > 0.6)を示す。特に、機械生成テキスト検出のために設計されたBinocularsが、MIAベンチマークでも最先端の性能を達成することを発見し、転移可能性の実用的な影響を実証する。我々の知見は、これら2つの研究コミュニティ間のクロスタスク意識と協力の必要性を強調する。クロスタスクの開発と公平な評価を促進するため、MINTを導入する。これは、両タスクからの15の最新手法を実装した、MIAと機械生成テキスト検出のための統一評価スイートである。
Transformerは、一般化可能なアルゴリズムを学習するのではなく、脆弱なヒューリスティックに依存することが多い。本論文では、グラフの連結性をテストベッドとして、この現象を理論的かつ実証的に説明する。簡略化されたTransformerアーキテクチャであるdisentangled Transformerを考察し、L層のモデルが直径がちょうど3^Lまでのグラフを解く能力を持つことを証明する。これは、隣接行列のべき乗を計算するアルゴリズムと等価である。学習ダイナミクスを分析し、学習された戦略が、ほとんどの訓練インスタンスがこのモデルの能力範囲内にあるかどうかに依存することを示す。能力範囲内のグラフ(直径 ≤ 3^L)は、正しいアルゴリズム的解法の学習を促す一方で、能力範囲外のグラフは、ノード次数に基づく単純なヒューリスティックの学習を促す。最後に、訓練データをモデルの能力範囲内に制限することで、標準的なTransformerとdisentangled Transformerの両方が、次数ベースのヒューリスティックではなく、正確なアルゴリズムを学習することを実証的に示す。