翻訳付きの日次キュレーションされたAI研究論文
長文脈下でのコード生成は、大規模言語モデル(LLMs)がコードベース内の広範な情報を推論する必要があるため、ますます重要になっています。最近の進歩により、コードLLMが長い入力を処理できるようになりましたが、高いAPIコストと生成遅延は依然として大きなボトルネックです。既存の文脈プルーニング技術(例:LLMLingua)は、一般的なテキストでは有望な結果を達成していますが、コード固有の構造や依存関係を見落としており、プログラミングタスクでは最適な性能を発揮できません。本論文では、コードLLMに特化した新しいプラグアンドプレイ型コード圧縮フレームワークであるLongCodeZipを提案します。LongCodeZipは、二段階の戦略を採用しています:(1)粗粒度圧縮では、命令に対する条件付きパープレキシティを使用して関数レベルのチャンクを識別し、ランク付けし、最も関連性の高い関数のみを保持します;(2)細粒度圧縮では、保持された関数をパープレキシティに基づいてブロックに分割し、適応的なトークン予算の下で最適なサブセットを選択して関連性を最大化します。コード補完、要約、質問応答を含む複数のタスクでの評価により、LongCodeZipはベースライン手法を一貫して上回り、タスク性能を低下させることなく最大5.6倍の圧縮率を達成することが示されました。LongCodeZipは、必要な情報を保持しながらコンテキストサイズを効果的に削減することで、LLMが現実世界の大規模なコードシナリオに適応できるようにし、コードインテリジェンスアプリケーションの効率と能力を向上させます。
拡散モデルは画像および動画生成に革命をもたらし、前例のない視覚的品質を実現しました。しかし、トランスフォーマーアーキテクチャへの依存性により、特に長時間の動画生成に拡張する際に、計算コストが過度に高くなります。最近の研究では、短時間の双方向教師モデルからの蒸留を通じて、長時間動画生成のための自己回帰的定式化が探求されています。しかし、教師モデルが長時間の動画を合成できないため、学生モデルが訓練範囲を超えて外挿する際に、連続的な潜在空間内での誤差の蓄積により、品質の著しい低下が生じることがしばしばあります。本論文では、長時間動画生成における品質低下を軽減するためのシンプルかつ効果的なアプローチを提案します。このアプローチでは、長時間動画の教師モデルからの監督や長時間動画データセットの再訓練を必要としません。私たちの方法は、教師モデルの豊富な知識を活用し、自己生成した長時間動画から抽出したセグメントを通じて学生モデルにガイダンスを提供することに焦点を当てています。この方法は、教師モデルの能力を最大20倍までスケールアップしながら時間的一貫性を維持し、過剰露出や誤差蓄積といった一般的な問題を回避します。また、従来の方法のように重複フレームを再計算する必要もありません。計算をスケールアップする際、私たちの方法は4分15秒までの動画生成能力を示し、これはベースモデルの位置埋め込みがサポートする最大スパンの99.9%に相当し、ベースラインモデルの50倍以上に及びます。標準ベンチマークおよび私たちが提案した改良ベンチマークでの実験により、このアプローチが忠実度と一貫性の両方においてベースライン手法を大幅に上回ることが実証されました。長時間動画のデモはhttps://self-forcing-plus-plus.github.io/でご覧いただけます。
検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるための新たなパラダイムとして注目を集めている。しかし、標準的なオン・ポリシー学習では、ロールアウト経験が一度の更新後に破棄されるため、計算効率の低下や不安定性が生じる。過去のRL研究では、過去の経験を再利用することの利点が強調されてきたが、大規模推論モデルの学習ダイナミクスに及ぼす経験特性の役割は十分に検討されていない。本論文では、推論経験の価値を決定する要因を初めて調査し、ロールアウトの正解率とエントロピーが経験価値の有効な指標であることを明らかにした。これらの知見に基づき、我々はExGRPO(Experiential Group Relative Policy Optimization)を提案する。これは、価値ある経験を整理し優先順位付けし、探索と経験活用のバランスを取るための混合ポリシー目的関数を採用するフレームワークである。1.5Bから8Bパラメータの5つの基盤モデルを用いた実験では、ExGRPOが数学的/一般的なベンチマークにおいて一貫して推論性能を向上させ、オン・ポリシーRLVRに対して平均+3.5/7.6ポイントの向上を示した。さらに、ExGRPOは、オン・ポリシー手法が失敗する強力なモデルと弱いモデルの両方において、学習を安定化させた。これらの結果は、効率的でスケーラブルなRLVRの実現において、原理に基づいた経験管理が重要な要素であることを示唆している。
Neural Radiance Fields (NeRF) や 3D Gaussian Splatting (3DGS) のような3Dシーン表現手法は、新規視点合成の分野で大きな進展をもたらしました。これらの手法が普及するにつれ、その脆弱性に対処することが重要となっています。本研究では、3DGSの画像レベルのポイズニング攻撃に対する堅牢性を分析し、新たな密度誘導型ポイズニング手法を提案します。本手法では、カーネル密度推定 (KDE) を用いて特定された低密度領域に戦略的にガウス点を注入し、ポイズニングされた視点からは明瞭に見える視点依存の幻覚物体を埋め込みつつ、無害な視点への影響を最小限に抑えます。さらに、マルチビュー一貫性を破壊する適応型ノイズ戦略を導入し、攻撃効果をさらに高めます。また、攻撃の難易度を体系的に評価するためのKDEベースの評価プロトコルを提案し、今後の研究における客観的なベンチマークを可能にします。大規模な実験により、本手法が最先端の技術と比較して優れた性能を発揮することを実証しています。プロジェクトページ: https://hentci.github.io/stealthattack/
大規模言語モデル(LLM)は最近、自律エージェントとしての強力な能力を示し、推論、ツールの使用、逐次的意思決定において有望な成果を見せている。これまでのベンチマークでは、ソフトウェアエンジニアリングや科学的発見などの領域でLLMエージェントが評価されてきたが、経済的価値とハイステークスな意思決定に直接関連する金融領域は未開拓のままである。既存の金融ベンチマークは主に質問応答を通じて静的な知識をテストするが、取引の動的かつ反復的な性質を捉えるには不十分である。このギャップを埋めるため、我々はStockBenchを導入する。これは、現実的な複数月にわたる株式取引環境でLLMエージェントを評価するための汚染のないベンチマークである。エージェントは、価格、ファンダメンタルズ、ニュースなどの日々の市場シグナルを受け取り、逐次的に買い、売り、または保有の意思決定を行わなければならない。パフォーマンスは、累積リターン、最大ドローダウン、ソルティノ比率などの金融指標を用いて評価される。最先端のプロプライエタリモデル(例:GPT-5、Claude-4)とオープンウェイトモデル(例:Qwen3、Kimi-K2、GLM-4.5)の評価では、ほとんどのLLMエージェントが単純なバイ・アンド・ホールドのベースラインを上回ることは難しいものの、いくつかのモデルはより高いリターンを提供し、リスクをより効果的に管理する可能性を示している。これらの発見は、LLMを活用した金融エージェントの開発における課題と機会の両方を浮き彫りにしており、静的な金融知識タスクで優れていることが必ずしも成功した取引戦略に繋がらないことを示している。我々はStockBenchをオープンソースリソースとして公開し、再現性を支援し、この領域の将来の研究を推進することを目指す。
F2LLM(Foundation to Feature Large Language Models)を紹介します。これは、0.6B、1.7B、4Bの3つのサイズで構成される最先端の埋め込みモデル群です。従来のトップランキングの埋め込みモデルとは異なり、大規模なコントラスティブ事前学習や複雑なトレーニングパイプライン、高価な合成トレーニングデータを必要とせず、F2LLMはオープンソースの非合成データセットからキュレートされた600万のクエリ-ドキュメント-ネガティブタプルに基づいてファウンデーションモデルから直接ファインチューニングされています。これにより、トレーニングコスト、モデルサイズ、埋め込み性能の間で強力なバランスを実現しています。MTEB英語リーダーボードでは、F2LLM-4Bは約4Bパラメータのモデルの中で2位、全体で7位にランクインし、F2LLM-1.7Bは1B-2Bサイズ範囲のモデルの中で1位にランクインしています。今後の研究を促進するため、モデル、トレーニングデータセット、コードを公開し、F2LLMを将来の研究における強力で再現可能かつ予算に優しいベースラインとして位置づけています。
従来のニューラルネットワークのトレーニングは、通常、固定された事前定義された最適化レシピに従っており、不安定さやトレーニング中に発生する問題に対して動的に対応する柔軟性を欠いています。本論文では、Interactive Trainingというオープンソースのフレームワークを紹介します。このフレームワークは、人間の専門家または自動化されたAIエージェントがニューラルネットワークのトレーニング中にリアルタイムでフィードバック駆動型の介入を可能にします。Interactive Trainingの中核では、コントロールサーバーを使用して、ユーザーまたはエージェントと進行中のトレーニングプロセスとの間の通信を仲介し、ユーザーがオプティマイザのハイパーパラメータ、トレーニングデータ、およびモデルのチェックポイントを動的に調整できるようにします。3つのケーススタディを通じて、Interactive Trainingが優れたトレーニング安定性、初期ハイパーパラメータに対する感度の低減、および進化するユーザーニーズへの適応性の向上を実現することを示し、AIエージェントがトレーニングログを自律的に監視し、積極的に不安定さを解決し、トレーニングダイナミクスを最適化する未来のトレーニングパラダイムへの道を開きます。
大規模な推論モデルを訓練するための主流のパラダイムは、膨大な量のデータを用いた次トークン予測損失による事前学習から始まります。強化学習は、推論のスケーリングにおいて強力ではあるものの、教師ありファインチューニングに続く、訓練の最終段階としてのみ導入されます。この主流の方法は果たして最適なのでしょうか?本論文では、RLP(情報駆動型強化学習事前学習目的関数)を提案します。これは、強化学習の核心である探索の精神を事前学習の最終段階に持ち込みます。鍵となるアイデアは、連鎖的思考(chain-of-thought)を探索的行動として扱い、将来のトークンを予測するための情報利得に基づいて報酬を計算することです。この訓練目的関数は、モデルが次に来るものを予測する前に自ら考えることを促し、事前学習の早い段階で独立した思考行動を教えます。具体的には、報酬信号は、文脈とサンプリングされた推論連鎖の両方を条件とした場合の次トークンの対数尤度の増加を、文脈のみを条件とした場合と比較して測定します。このアプローチは、検証器を必要としない密な報酬信号を生成し、事前学習中にドキュメントストリーム全体の効率的な訓練を可能にします。特に、RLPは推論のための強化学習を通常のテキストに対する事前学習目的関数として再構築し、次トークン予測と有用な連鎖的思考推論の出現との間のギャップを埋めます。Qwen3-1.7B-BaseにRLPを適用して事前学習を行うと、8つの数学・科学ベンチマークスイート全体の平均が19%向上します。同一の事後訓練を行った場合、特にAIME25やMMLU-Proのような推論が重要なタスクで最大の改善が見られます。ハイブリッドモデルであるNemotron-Nano-12B-v2にRLPを適用すると、全体の平均が42.81%から61.32%に上昇し、科学的推論の平均が23%向上し、アーキテクチャやモデルサイズを超えたスケーラビリティが実証されます。
マルチモーダル埋め込みモデルは、特にテキストのみのパイプラインに代わる効率的な代替手段として、文書検索において普及しつつある。これらのモデルは、通常、テキストと画像のペアに対してコントラスティブ損失を用いて大規模な視覚言語デコーダ(VLM)をファインチューニングすることで構築される。本研究では、この再利用アプローチがコスト効率は高いものの、検索性能のボトルネックとなることが多いことを示す。制御された実験を通じて、視覚的文書検索モデルを改善するための原則的なレシピを確立する。特に、アテンションマスキング、画像解像度、モダリティアライメントデータのレジーム、および後期インタラクションを中心としたコントラスティブ目的関数が主要な性能要因として浮上することを測定する。これらの知見に基づいて、文書検索タスクでファインチューニングされた場合、最大10倍の規模のモデルを上回る、250Mパラメータのコンパクトな視覚言語エンコーダであるModernVBERTを公開する。モデルとコードはhttps://huggingface.co/ModernVBERTで公開されている。
AI安全性における最近の急速な進展にもかかわらず、現在の大規模言語モデルは、多ターン対話設定における敵対的攻撃に対して脆弱なままです。ここでは、攻撃者が会話のターンにわたって戦略的にプロンプトを適応させ、より深刻で現実的な課題を提起します。既存の安全性の脆弱性を発見するアプローチは、人間の専門家による手動のレッドチーミングに依存するか、事前に定義されたテンプレートと人間がキュレーションした攻撃データを使用した自動化手法を採用しており、そのほとんどが単一ターン攻撃に焦点を当てています。しかし、これらの手法は、複雑な対話ダイナミクスや戦略的な会話計画から生まれる新しい攻撃軌跡を考慮せず、可能な多ターン攻撃の広大な空間を探索していませんでした。このギャップは、最近の研究でLLMが単一ターン攻撃と比較して多ターン攻撃に対して著しく高い脆弱性を示すことが明らかになったことを考えると、特に重要です。私たちは、DialTree-RPOを提案します。これは、対話を逐次意思決定問題として扱い、手動でキュレーションされたデータなしで体系的な探索を可能にする、ツリーサーチと統合されたオンポリシー強化学習フレームワークです。広範な実験を通じて、私たちのアプローチは、以前の最先端のアプローチと比較して10のターゲットモデル全体で25.9%以上のASRを達成するだけでなく、複数のターンにわたって攻撃の成功を最大化する最適な対話ポリシーを学習することで、新しい攻撃戦略を効果的に発見します。
オーディオビデオ生成は、しばしば複雑な多段階アーキテクチャや音声と映像の逐次合成に依存してきた。本論文では、Oviという統一されたパラダイムを提案し、二つのモダリティを単一の生成プロセスとしてモデル化する。Oviは、双生DiTモジュールのブロック単位のクロスモーダル融合を利用することで、自然な同期を実現し、別々のパイプラインや事後の調整を不要にする。細粒度のマルチモーダル融合モデリングを容易にするため、強力な事前学習済みビデオモデルと同一のアーキテクチャを持つオーディオタワーを初期化する。数十万時間の生オーディオデータをゼロから学習することで、オーディオタワーは現実的なサウンドエフェクトや、豊かな話者識別性と感情を伝える音声を生成することを学ぶ。融合は、同一のビデオタワーとオーディオタワーを、大規模なビデオコーパス上で、タイミング(スケーリングされたRoPE埋め込みを介して)と意味(双方向クロスアテンションを通じて)のブロック単位の交換を共同で学習させることで得られる。本モデルは、自然な音声と正確で文脈に合致したサウンドエフェクトを用いた映画級のビデオクリップを生成し、シネマティックなストーリーテリングを可能にする。すべてのデモ、コード、およびモデルウェイトはhttps://aaxwaz.github.io/Oviで公開されている。
大規模言語モデル(LLM)エージェントは、さまざまな領域におけるタスク自動化のための強力なシステムとして急速に台頭しています。しかし、オープンソースコミュニティの進展は、高品質で許諾ライセンスされたツールエージェント型トレーニングデータの不足によって制約されています。既存のデータセットは、特にマルチツールおよびマルチターンインタラクションに関して、多様性、現実性、複雑性が限られていることが多いです。このギャップを埋めるため、我々はToucanを紹介します。これは、これまでで最大の公開利用可能なツールエージェント型データセットであり、約500の実世界のモデルコンテキストプロトコル(MCP)から合成された150万の軌跡を含んでいます。従来の研究とは異なり、Toucanは本物のMCP環境を活用して、実際のツール実行を含む多様で現実的かつ挑戦的なタスクを生成します。我々のパイプラインは、まず5つの異なるモデルを使用して幅広いツール使用クエリを生成し、モデルベースの品質フィルタリングを適用した後、2つのエージェント型フレームワークを使用して3つの教師モデルでエージェント型軌跡を生成します。厳密なルールベースおよびモデルベースの検証により、高品質な出力が保証されます。さらに、タスクをさらに多様化し、マルチターン会話をシミュレートするための3つの拡張メカニズムも導入しています。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークにおいてより大規模なクローズドソースのモデルを上回り、MCP-Universe Benchにおいてパレートフロンティアを前進させます。
コンピュータ利用エージェント(CUA)は日常的なデジタルタスクの自動化に有望ですが、その信頼性の低さと高いばらつきが、長期的で複雑なタスクへの適用を妨げています。本論文では、Behavior Best-of-N(bBoN)という手法を提案します。この手法は、複数のロールアウトを生成し、エージェントのロールアウトを記述する行動ナラティブを用いてそれらを選択することで、エージェントをスケールさせます。これにより、広範な探索と原則に基づいた軌道選択が可能になり、堅牢性と成功率が大幅に向上します。OSWorldにおいて、我々のbBoNスケーリング手法は69.9%という新たな最先端(SoTA)を確立し、従来の手法を大幅に上回り、人間レベルの性能である72%に迫る結果を示しました。また、包括的なアブレーション実験により、主要な設計選択が検証されました。さらに、WindowsAgentArenaとAndroidWorldにおいて、異なるオペレーティングシステムへの強い汎化性能を実証しました。重要なのは、CUAのスケーリングが、適切に行われた場合に驚くほど効果的であることを我々の結果が示している点です。効果的なスケーリングには、構造化された軌道理解と選択が必要であり、bBoNはこれを実現するための実用的なフレームワークを提供します。
大規模言語モデル(LLM)の出力品質を評価することは、重要な課題である。従来の手法は、表面的な手がかりに過剰適合する可能性のあるテキストレベルの情報(例:報酬モデル、多数決)に依存するか、またはトークン確率から得られる較正された信頼度に依存するが、これは較正が不十分なモデルでは失敗する。しかし、これらの信号は実際には、より豊富な情報源であるモデルの内部隠れ状態の部分的な投影に過ぎない。トークン埋め込みに近い初期層は、テキストベースの判断を支える意味的および語彙的特徴を保持し、後期層は出力ロジットと整合し、信頼度関連の情報を埋め込む。本論文では、検証のための統一的な基盤として隠れ状態を直接探求する。我々は、解決策の正しさが隠れ活性化の軌跡内に幾何学的に分離可能なシグネチャとして符号化されることを示す。これを検証するために、意図的にミニマリストで非パラメトリックな検証器であるClue(Clustering and Experience-based Verification)を提案する。学習可能なパラメータを持たないCLUEは、各推論トレースを隠れ状態の差分で要約し、過去の経験から形成された「成功」と「失敗」のクラスタへの最近接重心距離によって正しさを分類する。この手法の単純さは、基礎となる信号の強さを強調する。実験的に、CLUEはLLM-as-a-judgeベースラインを一貫して上回り、候補の再ランキングにおいて現代の信頼度ベースの手法に匹敵またはそれを超え、AIME 24/25およびGPQAにおいてトップ1および多数決精度の両方を向上させる。特に、1.5Bモデルを使用したAIME 24では、CLUEは精度を56.7%(多数決@64)から70.0%(トップ多数決@16)に向上させる。
活性化ステアリングは、推論時にモデルの隠れ状態に意味的に有意なベクトルを直接追加することでLLMの挙動を制御する有望な技術である。これは、ファインチューニングに比べて精密で解釈可能かつ潜在的に安全な代替手法として位置づけられることが多い。しかし、我々はその逆を示す:ステアリングは体系的にモデルのアライメント保護を破壊し、有害な要求に従わせることを実証した。異なるモデルファミリーを用いた広範な実験を通じて、ランダムな方向へのステアリングでさえ、有害な要求への従順性の確率を0%から2-27%に増加させることを示した。さらに懸念すべきことに、解釈可能な方向の一般的な源であるスパースオートエンコーダー(SAE)から良性の特徴をステアリングすると、これらの確率がさらに2-4%増加する。最後に、単一のプロンプトをジャイルブレイクする20個のランダムにサンプリングされたベクトルを組み合わせることで、未見の要求に対する有害な従順性を大幅に増加させるユニバーサル攻撃が作成できることを示した。これらの結果は、解釈可能性を通じた安全性というパラダイムに疑問を投げかけ、モデルの内部に対する精密な制御が必ずしもモデルの挙動に対する精密な制御を保証しないことを示している。
検証可能な報酬を用いた強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を向上させますが、探索に関する課題は依然として残っており、これはマルチモーダルLLM(MLLM)においても同様です。既存の手法では、視覚入力を固定的で決定論的な条件として扱い、重要な曖昧さの源を見落とし、現実的な視覚的変動に対して頑健なポリシーを構築するのに苦労しています。本研究では、VOGUE(Visual Uncertainty Guided Exploration)という新しい手法を提案します。VOGUEは探索を出力(テキスト)から入力(視覚)空間にシフトし、画像を確率的な文脈として扱います。VOGUEは、「生」のブランチと「ノイズ」のブランチ間の対称KLダイバージェンスを用いて、視覚的摂動に対するポリシーの感度を定量化し、不確実性を考慮した探索のための直接的な信号を生成します。この信号は、不確実性に比例するボーナスを通じて学習目標を形成し、トークンエントロピーボーナスとアニーリングされたサンプリングスケジュールと組み合わせることで、探索と活用のバランスを効果的に取ります。GRPOフレームワーク内で2つのモデルスケール(Qwen2.5-VL-3B/7B)に実装されたVOGUEは、3つの視覚的数学ベンチマークで平均2.6%、3つの一般領域推論ベンチマークで平均3.7%のpass@1精度を向上させると同時に、pass@4の性能を向上させ、RLファインチューニングでよく見られる探索の減衰を軽減します。本研究は、視覚入力の内在的な不確実性に基づいて探索をグラウンディングすることが、マルチモーダル推論を改善するための効果的な戦略であることを示しています。
人工知能は、閉じた言語モデルから外部知覚と情報統合が可能な相互接続されたエージェントシステムへとパラダイムシフトを遂げつつある。その代表的な具現化として、Deep Research Agents(DRAs)は、タスク分解、クロスソース検索、多段階推論、構造化出力といった能力を体系的に示し、複雑で開放的なタスクにおけるパフォーマンスを著しく向上させている。しかし、既存のベンチマークは評価次元、応答形式、スコアリングメカニズムにおいて不十分であり、こうしたシステムを効果的に評価する能力が制限されている。本論文では、DRAsとレポート形式の応答に特化した厳密なベンチマークと多次元評価フレームワークを提案する。このベンチマークは、10の広範なテーマ領域にわたる214の専門家による精選された難問から構成され、各問いには複合評価を支援する手動構築の参照バンドルが付随する。このフレームワークは、DRAsによって生成された長文レポートを包括的に評価し、意味的品質、トピック焦点、検索信頼性を統合したスコアリングメトリクスを組み込んでいる。大規模な実験により、主流のDRAsがウェブ検索ツールを補助した推論モデルを凌駕する性能を示すことが確認された一方で、さらなる改善の余地が大きいことも明らかになった。本研究は、DRAシステムの能力評価、アーキテクチャの洗練、パラダイムの進展に向けた堅固な基盤を提供するものである。
大規模言語モデル(LLMs)はしばしば、信頼性を損なう根拠のない内容、すなわち「幻覚」を生成する。従来の研究の多くは幻覚検出を二値タスクとして扱ってきたが、現実世界の多くのアプリケーションでは、幻覚が発生した範囲を特定する必要があり、これは多段階の意思決定プロセスである。このことから、明示的な推論が幻覚範囲の検出という複雑なタスクに役立つかどうかという疑問が自然に生じる。この疑問に答えるため、我々はまず、Chain-of-Thought(CoT)推論を適用した場合と適用しない場合の事前学習モデルを評価し、CoT推論が複数回サンプリングされた際に少なくとも1つの正しい答えを生成する可能性があることを示す。この結果を踏まえ、我々はRL4HSを提案する。これは、範囲レベルでの報酬関数を用いて推論を促進する強化学習フレームワークである。RL4HSはGroup Relative Policy Optimizationを基盤とし、報酬の不均衡問題を緩和するためにClass-Aware Policy Optimizationを導入する。RAGTruthベンチマーク(要約、質問応答、データからテキストへの変換)での実験により、RL4HSが事前学習された推論モデルや教師ありファインチューニングを上回り、幻覚範囲の検出において範囲レベルでの報酬を用いた強化学習の必要性が実証された。
細粒度の視覚的推論は、マルチモーダル大規模言語モデル(MLLM)にとって依然として中核的な課題である。最近導入されたReasonMapは、高度なMLLMでさえ、交通路線図のような構造化され情報豊富な設定における空間推論に苦戦することを示し、このギャップを浮き彫りにしている。これは、実用的かつ科学的に重要な課題である。しかし、このようなタスクにおける標準的な強化学習(RL)は、スパースな報酬と不安定な最適化によって妨げられている。これを解決するため、まずReasonMap-Plusを構築した。これは、視覚的質問応答(VQA)タスクを通じて密な報酬信号を導入し、細粒度の視覚的理解スキルの効果的なコールドスタートトレーニングを可能にする拡張データセットである。次に、RewardMapを提案する。これは、MLLMの視覚的理解と推論能力の両方を向上させるために設計された多段階RLフレームワークである。RewardMapは、2つの主要な設計を組み込んでいる。第一に、詳細報酬を取り入れた難易度対応報酬設計を導入し、スパースな報酬に直接取り組みながら、より豊富な監督を提供する。第二に、単純な知覚から複雑な推論タスクへとトレーニングをブートストラップする多段階RLスキームを提案し、従来の教師あり微調整(SFT)よりも効果的なコールドスタート戦略を提供する。ReasonMapとReasonMap-Plusでの実験により、RewardMapの各コンポーネントが一貫した性能向上に寄与し、それらの組み合わせが最良の結果をもたらすことが示された。さらに、RewardMapでトレーニングされたモデルは、交通路線図を超えた空間推論、細粒度の視覚的推論、および一般的なタスクにわたる6つのベンチマークで平均3.47%の改善を達成し、視覚的理解と推論能力の向上を裏付けている。
我々は、形式的検証と非形式的推論を組み合わせたAIシステム「アリストテレス」を紹介する。このシステムは、2025年の国際数学オリンピックの問題において金メダル相当の性能を達成した。アリストテレスは、Lean証明探索システム、補題を生成し形式化する非形式的推論システム、および専用の幾何学ソルバーの3つの主要コンポーネントを統合している。本システムは、自動定理証明において最先端の性能を示し、良好なスケーリング特性を有している。
ドラッグベースの画像編集は長らくターゲット領域の歪みに悩まされてきました。その主な原因は、従来のベースモデルであるStable Diffusionの事前分布が、最適化された潜在変数を自然画像多様体に射影するのに不十分だったためです。UNetベースのDDPMから、よりスケーラブルなDiTとフローマッチング(例:SD3.5、FLUX)への移行に伴い、生成モデルの事前分布は大幅に強化され、多様な編集タスクで進展が見られました。しかし、ドラッグベースの編集はこれらの強化された事前分布の恩恵をまだ受けていません。本研究では、FLUXの豊富な事前分布をドラッグベースの編集に効果的に活用する初のフレームワーク「DragFlow」を提案し、ベースラインを大幅に上回る成果を達成しました。まず、DiTにポイントベースのドラッグ編集を直接適用すると性能が低いことを示します。UNetの高度に圧縮された特徴とは異なり、DiTの特徴は構造化が不十分で、ポイント単位のモーション監視に信頼性のあるガイダンスを提供できません。この制限を克服するため、DragFlowはリージョンベースの編集パラダイムを導入し、アフィン変換によりより豊かで一貫性のある特徴監視を可能にします。さらに、事前学習済みのオープンドメインパーソナライゼーションアダプター(例:IP-Adapter)を統合し、被写体の一貫性を向上させつつ、勾配マスクベースのハード制約を通じて背景の忠実度を維持します。マルチモーダル大規模言語モデル(MLLM)をさらに活用して、タスクの曖昧さを解決します。評価のために、リージョンレベルのドラッグ指示を特徴とする新しいリージョンベースドラッギングベンチマーク(ReD Bench)をキュレーションしました。DragBench-DRとReD Benchでの広範な実験により、DragFlowがポイントベースおよびリージョンベースのベースラインを上回り、ドラッグベース画像編集の新たな最先端を確立することが示されました。コードとデータセットは公開時に一般公開されます。
Transformerアーキテクチャは、Multi-Head Attention(MHA)メカニズムを基盤として、人工知能における最先端モデルのデファクトスタンダードとなっている。しかし、MHAのシーケンス長に対する二次的な計算複雑性は、特に長文脈を扱うアプリケーションにおいて、スケーリングの大きな障壁となっている。既存の解決策であるMulti-Query Attention(MQA)やGrouped-Query Attention(GQA)は、KeyとValueの射影を共有することで、自己回帰推論のレイテンシを支配するメモリ帯域幅のボトルネックを効果的に解消している。これらの手法は非常に成功しているものの、アテンションスコア計算に必要な浮動小数点演算(FLOPs)の根本的な数を削減するものではなく、これはトレーニングや全シーケンス処理における重要なボトルネックとして残っている。本論文では、Sparse Query Attention(SQA)という新しいアテンションアーキテクチャを提案する。SQAは、Key/Valueヘッドを削減する代わりに、Queryヘッドの数を削減する。このアーキテクチャの変更により、アテンションメカニズムの計算複雑性がQueryヘッドの削減に比例して直接的に減少し、全体のFLOPsが低下する。本論文では、SQAの理論的基盤、数学的定式化、およびそのアーキテクチャのバリエーションを提示する。長いシーケンス(32k-200kトークン)における実証的なベンチマークでは、SQAがモデルの事前学習、ファインチューニング、エンコーダベースのタスクなどの計算ボトルネックシナリオにおいて、最大3倍のスループット向上を達成できることが示されており、小規模な予備実験ではモデルの品質に最小限の影響しか及ぼさないことが確認されている。SQAは、今後のReactive Transformerアーキテクチャの開発中に偶然発見されたものであり、より効率的でスケーラブルなモデルを構築するための強力なツールとしての可能性を示唆している。
現在の大規模な視覚言語モデル(VLMs)は、マルチモーダル理解と推論において進歩を遂げているものの、その基本的な知覚および推論能力は依然として限定的である。具体的には、単純なジグソータスクにおいても、既存のVLMsはほぼランダムな性能を示し、中核的な知覚と推論能力の欠陥を明らかにしている。高品質の視覚言語データはこれらの能力を向上させることができるが、その希少性とスケーラビリティの限界が大きな制約となっている。この問題に対処するため、我々はAGILE(Agentic jiGsaw Interaction Learning)を提案し、VLMsにおける視覚知覚と推論能力を強化する。AGILEはジグソー解決をインタラクティブなプロセスとして定式化し、モデルが環境と段階的に関与できるようにする。各ステップで、モデルは現在の状態に基づいて実行可能なコードを生成し、環境はタスク完了を導くための詳細な視覚的フィードバックを提供する。この観察とインタラクションの反復サイクルを通じて、モデルは探索とフィードバックにより知覚と推論能力を徐々に向上させる。実験結果は、AGILEが様々な複雑さのジグソータスクにおいて性能を大幅に向上させる(例えば、2×2設定で精度を9.5%から82.8%に向上)だけでなく、9つの一般的な視覚タスクにおいても強い汎化能力を示し、平均3.1%の改善を達成することを示している。これらの結果は、知覚と推論能力の両方において顕著な向上を示している。本研究は、マルチモーダルモデルにおける推論と汎化を進めるための新たな道を開き、マルチモーダル強化学習データの希少性に対する効率的でスケーラブルな解決策を提供する。コードとデータセットはhttps://github.com/yuzeng0-0/AGILEで公開されている。
コンテキストに基づく幻覚(context-grounded hallucinations)とは、モデルの出力がソーステキストに対して検証不可能な情報を含む事例を指す。本研究では、既存の複雑な評価パイプラインに代わる実用的な代替手段として、大規模言語モデル(LLMs)がそのような幻覚を特定するための適用可能性を検討する。幻覚の特定に関するメタ評価のための確立されたベンチマークが存在しない状況において、我々はLLMsに特化したベンチマークを構築し、1,000以上の事例に対する挑戦的な人間によるアノテーションを行った。このベンチマークを補完するため、LLMベースの評価プロトコルを提案し、人間による評価を通じてその品質を検証した。既存の幻覚の表現形式では表現可能なエラーの種類が限られているため、我々は自由形式のテキスト記述に基づく新しい表現形式を提案し、可能な限りのエラーの範囲を捕捉する。4つの大規模LLMを評価する包括的な研究を行い、最良のモデルでもF1スコアが0.67に留まるなど、ベンチマークの難易度の高さを明らかにした。詳細な分析を通じて、このタスクにおける最適なプロンプト戦略に関する洞察を提供し、LLMsにとって課題となる主な要因を特定した:(1)出力内の事実のみを確認するよう指示されているにもかかわらず、欠落した詳細を誤って不一致と判定する傾向、および(2)ソースに存在せず検証不可能であるが、モデルのパラメトリック知識に整合する事実上正しい情報を含む出力に対する困難さである。
マルチモーダル言語モデルにおけるビデオ理解は、コンテキスト長の制約によって依然として限界がある。モデルはしばしば重要な遷移フレームを見落とし、長時間スケールにわたる一貫性を維持するのに苦労する。この問題に対処するため、我々はNative Sparse Attention(NSA)をビデオ言語モデルに適用した。我々の手法であるVideoNSAは、216Kのビデオ指示データセットを用いたエンドツーエンドのトレーニングを通じてQwen2.5-VLを適応させる。ハードウェアを意識したハイブリッドアプローチを採用し、テキストには密なアテンションを保持しつつ、ビデオにはNSAを適用する。トークン圧縮やトレーニング不要のスパースベースラインと比較して、VideoNSAは長時間ビデオ理解、時間的推論、空間的ベンチマークにおいて改善された性能を達成する。さらに、アブレーション分析を通じて以下の4つの重要な知見が得られた:(1)128Kトークンへの信頼性のあるスケーリング、(2)固定予算における最適なグローバル-ローカルアテンション配分、(3)タスク依存のブランチ使用パターン、(4)学習可能な結合スパースアテンションが動的アテンションシンクを誘導するのに役立つこと。
視覚言語モデル(VLM)を基盤とするマルチエージェントシステム(MAS)は、困難なタスクを可能にする一方で、新たな失敗要因である「マルチエージェント視覚的幻覚の雪だるま現象」に悩まされています。これは、単一のエージェントで幻覚が発生し、その後のエージェントが視覚情報を伝えるためにテキストの流れに過度に依存することで増幅される現象です。ターンごと、層ごと、トークンごとの注意分析を通じて、幻覚の雪だるま現象の本質を詳細に明らかにし、視覚的注意配分の減少に関連する洞察を提供します。これにより、中間層で単峰性の注意ピークを持つ視覚トークンのサブセットが、視覚的証拠を最もよく保持するが、深いエージェントのターンで徐々に減少し、MASにおける視覚的幻覚の雪だるま現象を引き起こすことが明らかになりました。そこで、選択された視覚リレートークンによる視覚フローを活用し、注意再配分を適用してこのパターンを増幅する軽量でプラグアンドプレイの緩和パラダイム「ViF」を提案します。実験結果は、我々の方法が幻覚の雪だるま現象を著しく減少させ、4つの一般的なMAS構造と10の基本モデルに基づく8つのベンチマークで一貫して性能を向上させることを示しています。ソースコードは以下で公開予定です:https://github.com/YU-deep/ViF.git。
テストタイムスケーリング(TTS)は大規模言語モデルの性能向上において顕著な成功を収めてきたが、次トークン予測(NTP)に基づく自己回帰的(AR)画像生成への応用はほとんど未開拓の領域である。既存の視覚的AR(VAR)向けTTSアプローチは、頻繁な部分デコードと外部報酬モデルに依存しており、中間デコード結果の本質的な不完全性のため、NTPベースの画像生成には不適切である。このギャップを埋めるため、我々はScalingARを提案する。これは、早期デコードや補助的な報酬を必要とせず、NTPベースのAR画像生成に特化した初のTTSフレームワークである。ScalingARは、視覚的トークン生成における新たな信号としてトークンエントロピーを活用し、2つの補完的なスケーリングレベルで動作する:(i)プロファイルレベルでは、内在的および条件的信号を融合させて調整された信頼状態をストリーミングし、(ii)ポリシーレベルでは、この状態を利用して低信頼度の軌跡を適応的に終了し、フェーズに適した条件付け強度のガイダンスを動的にスケジュールする。一般的および構成的なベンチマークでの実験により、ScalingARは(1)GenEvalで12.5%、TIIF-Benchで15.2%ベースモデルを改善し、(2)ベースラインを上回りながら視覚的トークン消費を62.0%効率的に削減し、(3)堅牢性を向上させ、困難なシナリオでの性能低下を26.0%軽減することに成功した。
推論には、パターンマッチングや解決策の記憶を超えて、難しい問題に対する答えを導出するために使用できる「アルゴリズム的手順」を特定し、実装することが求められる。これを行うためには、最も関連性の高いプリミティブ、中間結果、または共有手順を認識し、それらを基に構築する必要がある。長い思考の連鎖に対するRL(強化学習)の事後トレーニングは、最終的にこの種のアルゴリズム的挙動を解明することを目指しているが、大規模モデルが学習する推論の軌跡のほとんどは、手順を一貫して捕捉または再利用することに失敗し、冗長で退行的な探索に陥ってしまう。より効果的な推論を実現するために、我々は推論の抽象化を導入する:これは、手続き的および事実的知識を簡潔に記述した自然言語であり、モデルが成功する推論を学習するよう導く。我々は、問題に対して複数の抽象化を提案できるモデルを訓練し、その後、これらの抽象化が提供する情報を活用しながら解決策を構築することを奨励するRLを適用する。これにより、抽象化生成器と解決策生成器を共同で訓練する二プレイヤーRLトレーニングパラダイム(RLADと略称)が実現される。この設定は、構造化された探索を効果的に可能にし、抽象化提案と解決策生成の学習信号を分離し、より難しい問題への一般化を改善する。また、テスト時の計算リソースを抽象化の生成に多く割り当てることが、大規模なテスト予算においてより多くの解決策を生成するよりも性能向上に寄与することを示し、抽象化が意味のある探索を導く役割を果たすことを示している。
Vision-Language-Action (VLA) モデルは、知覚、言語理解、および行動生成を統合し、エンボディードAIに広範な影響を与える強力なクロスタスクおよびクロスシーン汎化を提供することを目指しています。しかし、現在のVLAモデルは、明示的なステップバイステップの推論を欠いており、アフォーダンス制約や幾何学的関係を考慮せずに最終的な行動を出力することが多いです。また、そのポストトレーニングパイプラインも、主に弱い報酬設計に基づく教師ありファインチューニングに依存しており、推論の品質を強化することはほとんどありません。これらの課題に対処するため、我々はVLA-R1を提案します。これは、検証可能な報酬からの強化学習(RLVR)とグループ相対ポリシー最適化(GRPO)を統合し、推論と実行を体系的に最適化する推論強化型VLAです。具体的には、領域整合性、軌道一貫性、および出力フォーマットのための検証可能な報酬に基づくRLVRポストトレーニング戦略を設計し、推論の堅牢性と実行の精度を強化します。さらに、アフォーダンスと軌道アノテーションに明示的に整合したチェーンオブソート(CoT)監視を提供する高品質なデータセットVLA-CoT-13Kを開発しました。さらに、ドメイン内、ドメイン外、シミュレーション、および実ロボットプラットフォームでの広範な評価により、VLA-R1が従来のVLA手法と比較して優れた汎化性能と実世界での性能を達成することが示されました。本論文の公開後、モデル、コード、およびデータセットを公開する予定です。コード: https://github.com/GigaAI-research/VLA-R1. ウェブサイト: https://gigaai-research.github.io/VLA-R1.
胸部X線画像からの自動構造化レポート生成(SRRG)は、明瞭さ、一貫性、臨床報告基準への準拠を確保する構造化フォーマットでレポートを生成することにより、放射線科医の負担を大幅に軽減する可能性を秘めています。放射線科医は診断推論において利用可能な臨床文脈を効果的に活用しますが、既存のSRRGシステムはこれらの重要な要素を見落としています。この根本的なギャップは、存在しない臨床文脈を参照する際の時間的な幻覚を含む重大な問題を引き起こします。これらの制限に対処するため、我々はSRRGに豊富な臨床文脈を包括的に取り入れた文脈化SRRG(C-SRRG)を提案します。我々は、1)多視点X線画像、2)臨床的適応症、3)画像技術、4)患者の病歴に基づく過去の研究とその比較を含む包括的な臨床文脈を統合することで、C-SRRGデータセットをキュレーションしました。最先端のマルチモーダル大規模言語モデルを用いた広範なベンチマークを通じて、提案するC-SRRGに臨床文脈を組み込むことでレポート生成の品質が大幅に向上することを実証しました。我々は、臨床に沿った自動RRGの将来の研究を促進するため、データセット、コード、チェックポイントをhttps://github.com/vuno/contextualized-srrgで公開します。
グラフニューラルネットワーク(GNN)は、分子機械学習、特に分子特性予測や機械学習原子間ポテンシャル(MLIP)において支配的なアーキテクチャです。GNNは、固定半径カットオフやk近傍法によって誘導された事前定義されたグラフ上でメッセージパッシングを行います。この設計は多くの分子タスクに存在する局所性と一致していますが、ハードコードされたグラフは固定された受容野により表現力を制限し、疎なグラフ操作により推論を遅くする可能性があります。本研究では、事前定義されたグラフや物理的な事前知識なしに、デカルト座標に直接訓練された純粋なTransformerが分子のエネルギーと力を近似できるかどうかを調査します。分析の出発点として、OMol25データセットにおいて、最先端の等変性GNNと同等の訓練計算予算のもとで、Transformerが競争力のあるエネルギーと力の平均絶対誤差を達成する方法を示します。Transformerが、原子間距離に反比例して減衰するアテンション重みなど、物理的に一貫したパターンを学習し、ハードコードされたバイアスがないため、異なる分子環境に柔軟に適応することを発見しました。標準的なTransformerの使用は、他の領域で観察された経験的なスケーリング則と一致して、訓練リソースのスケーリングに関して予測可能な改善を可能にします。我々の結果は、GNNの多くの有利な特性がTransformerにおいて適応的に現れる可能性を示しており、ハードコードされたグラフ帰納バイアスの必要性に疑問を投げかけ、分子モデリングのための標準化されたスケーラブルなアーキテクチャの方向性を示しています。
コンピュータ利用エージェント(CUA)は、ユーザーの目標を達成するためにGUI上で操作を行うエージェントの一種であり、その導入が増えつつある。本論文では、CUAが一貫してBlind Goal-Directedness(BGD)を示すことを明らかにする。BGDとは、実現可能性、安全性、信頼性、または文脈に関わらず目標を追求するバイアスのことである。我々はBGDの3つの主要なパターンを特徴づける:(i)文脈的推論の欠如、(ii)曖昧さの下での仮定と意思決定、(iii)矛盾したまたは実現不可能な目標。これらのパターンを捉えた90のタスクからなるベンチマークBLIND-ACTを開発した。BLIND-ACTはOSWorld上に構築され、現実的な環境を提供し、LLMベースの評価者を用いてエージェントの行動を評価し、人間の注釈との一致率93.75%を達成した。BLIND-ACTを用いて、Claude SonnetやOpus 4、Computer-Use-Preview、GPT-5を含む9つの最先端モデルを評価し、高い平均BGD率(80.8%)を観察した。BGDは、入力が直接的に有害でない場合でも生じる微妙なリスクを露呈する。プロンプトベースの介入によりBGDレベルは低下するものの、重大なリスクが残り、より強力なトレーニングまたは推論時の介入の必要性が浮き彫りになる。質的分析により、観察された失敗モードが明らかになった:実行優先バイアス(行動するかどうかよりも行動方法に焦点を当てる)、思考と行動の乖離(実行が推論から逸脱する)、リクエスト優先(ユーザーのリクエストによる行動の正当化)。BGDを特定し、BLIND-ACTを導入することで、この根本的なリスクを研究し緩和し、安全なCUAの展開を確保するための将来の研究の基盤が確立された。
マルチモーダル表現学習モデルは、複雑なタスクにおいて成功を収めており、視覚-言語モデル(VLM)の統合により、指示追従能力を備えた埋め込みモデルがさらに実現されています。しかし、既存の埋め込みモデルには、ユーザーが関心領域(例:ポイント、バウンディングボックス、マスク)を指定するための視覚的インタラクティブ機能が欠けており、これは生成モデルにおいて人間とのインタラクティブな適用性を広げるために探求されてきました。埋め込みモデルに視覚的インタラクションを備えることは、ユーザーの意図を局所的に接地する新たなアプリケーションを開拓するだけでなく、従来の埋め込みタスクにおけるグローバル表現を補完するために、画像内のエンティティレベルの情報を学習することを可能にします。本論文では、セグメンテーションモデルと視覚-言語モデルの能力を表現学習の領域に拡張する新しい視覚的インタラクティブテキスト-画像ユニバーサル埋め込みモデル(VIRTUE)を提案します。VIRTUEでは、セグメンテーションモデルが画像内の特定の領域を指し示す視覚的プロンプトを処理できるため、埋め込みモデルが複雑で曖昧なシナリオをより正確に扱うことが可能になります。VIRTUEの視覚的インタラクション能力を評価するために、特定のオブジェクトと画像シーンを考慮してテキストキャプションを検索することを目的とした、100万サンプルからなる大規模なセグメンテーションとシーンキャプション検索(SCaR)ベンチマークを導入しました。VIRTUEは、36のユニバーサルMMEBタスク(3.1%-8.5%)と5つの視覚的インタラクティブSCaRタスク(15.2%-20.3%)において、一貫して最先端の性能を達成し、大幅な改善を示しました。
大規模言語モデル(LLM)におけるオフポリシー強化学習(RL)は、実世界アプリケーションにおける実用的な制約、LLM-RLインフラの複雑さ、そしてRL手法のさらなる革新の必要性によって、ますます注目を集めています。古典的なREINFORCEやその現代的な変種であるGroup Relative Policy Optimization(GRPO)は、通常、オフポリシー性に対する許容度が限られたオンポリシーアルゴリズムと見なされていますが、本研究では、特定の訓練データ分布を仮定せずに、グループ相対REINFORCEの第一原理的な導出を示し、それがネイティブなオフポリシー解釈を許容することを示します。この視点から、REINFORCEをオフポリシー設定に適応させるための2つの一般原則が得られます:ポリシー更新の正則化と、データ分布の積極的な形成です。我々の分析は、GRPOにおける重要度サンプリングとクリッピングの役割に関するいくつかの神話を解き明かし、最近の2つのアルゴリズム——Online Policy Mirror Descent(OPMD)とAsymmetric REINFORCE(AsymRE)——をREINFORCE損失の正則化された形式として統一し再解釈し、一見ヒューリスティックなデータ重み付け戦略に対する理論的正当化を提供します。我々の知見は、広範な実証研究によって検証された実践的な洞察をもたらし、LLMのためのオフポリシーRLにおける原理に基づいたアルゴリズム設計の新たな機会を開拓します。本研究のソースコードは、https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k で公開されています。
テキストから画像(T2I)生成モデルは、単一のエンティティを対象としたプロンプトでは優れた性能を発揮しますが、複数の主題を含む記述に対しては、属性の漏洩、アイデンティティの絡み合い、主題の欠落といった課題に直面します。本研究では、サンプリングダイナミクスを複数主題の忠実性に向けて導くための、理論的枠組みと最適化可能な目的関数を初めて提案します。確率的最適制御(SOC)の観点からフローマッチング(FM)を捉え、訓練済みFMサンプラーに対する制御として主題の分離を定式化します。これにより、以下の2つのアーキテクチャに依存しないアルゴリズムが得られます:(i) ベース速度を単一パスの更新で摂動させるトレーニング不要のテストタイム制御器、(ii) ベースモデルの能力を維持しつつ、制御ネットワークを後向き随伴信号に回帰させる軽量なファインチューニング手法であるAdjoint Matchingです。この定式化は、従来のアテンションヒューリスティックを統一し、フロー-拡散対応を介して拡散モデルにも拡張可能であり、複数主題の忠実性に特化した初めてのファインチューニング手法を提供します。実験的には、Stable Diffusion 3.5、FLUX、Stable Diffusion XLにおいて、両アルゴリズムがベースモデルのスタイルを維持しつつ、複数主題の整合性を一貫して向上させることが示されました。テストタイム制御は汎用GPU上で効率的に動作し、限られたプロンプトで訓練されたファインチューニング済み制御器は未見のプロンプトにも一般化します。さらに、FOCUS(Flow Optimal Control for Unentangled Subjects)を紹介し、モデル横断的に最先端の複数主題忠実性を達成することを示します。
時系列予測は、エネルギー、金融、気候、公衆衛生など多岐にわたる分野における意思決定の中心をなす。実際には、予測者は頻度、品質、予測期間が異なる数千の短くノイズの多い時系列に直面し、その主なコストはモデルの適合ではなく、信頼性の高い予測を得るために必要な労働集約的な前処理、検証、アンサンブルにある。主流の統計モデルや深層学習モデルは特定のデータセットや分野に特化しており、汎化性能が低い。人間の介入を最小限に抑えた汎用的でドメインに依存しないフレームワークが緊急に求められている。本論文では、汎用的な時系列予測のための初のLLM駆動型エージェントフレームワークであるTimeSeriesScientist(TSci)を紹介する。このフレームワークは4つの専門エージェントで構成される:Curatorは、データ統計を推論する外部ツールを活用したLLMガイドの診断を行い、ターゲットを絞った前処理を選択する;Plannerは、マルチモーダル診断と入力に対する自己計画を活用してモデル選択の仮説空間を狭める;Forecasterはモデルの適合と検証を行い、その結果に基づいて最適なモデル構成とアンサンブル戦略を適応的に選択して最終的な予測を行う;Reporterはプロセス全体を包括的で透明性の高いレポートにまとめる。透明性のある自然言語による根拠と包括的なレポートにより、TSciは予測ワークフローを解釈可能でタスク間で拡張可能なホワイトボックスシステムに変える。8つの確立されたベンチマークでの実証結果は、TSciが統計モデルとLLMベースのベースラインを一貫して上回り、予測誤差をそれぞれ平均10.4%と38.2%削減することを示している。さらに、TSciは予測ワークフローをより透明で解釈可能にする明確かつ厳密なレポートを生成する。
並列LLM推論スケーリングでは、単一の入力プロンプトに対してN>1の応答をサンプリングする。しかし、これらのN個の並列応答は互いに独立して生成される傾向があり、計算リソースが分割され、ある生成で得られる有用な情報が他の生成に活用されないままになる。これは、過去の計算が将来のすべてのステップで使用される応答長スケーリングとは対照的である。より高品質な応答と応答セットを実現するため、我々はBridgeを提案する。Bridgeは、バッチ処理されたLLMの隠れ状態を独立したスライスではなく、全体としてのテンソルと再考することで、相互依存する応答を並列に生成する。わずかな追加パラメータ(2.8%-5.1%)のみで、Bridgeは検証可能な報酬を用いた強化学習からの相対的な平均精度向上を最大50%改善し、正しい応答の一貫性を高める。一度訓練すれば、Bridgeは任意の生成幅にスケーリングでき、独立した生成よりも高い性能を発揮し、シーケンス間の情報を効果的に活用するより一般的な並列スケーリングモードを実現する。これは、あらゆる生成後集約技術と互換性がある。
推論トレーニングは、大規模言語モデル(LLM)に長い思考連鎖(long CoT)を生成するよう促し、その中でも特に、自己チェックを伴う解決策の探索を可能にします。これにより、精度が向上する一方で、コンテキストの長さ、トークン/計算コスト、および回答の遅延が増大します。我々は問います:現在のモデルは、そのメタ認知を活用して、このパレートフロンティア上の他の組み合わせ、例えば、より低いコンテキスト長や遅延でより高い精度を提供できるでしょうか?抽象的に、我々はモデルを、その「思考」に対する改善オペレータとして捉え、可能な戦略の連続体を考えます。我々は、興味深い推論ファミリーであるParallel-Distill-Refine(PDR)を特定し、以下の手順を実行します:(i)並列的に多様なドラフトを生成する;(ii)それらを限定的なテキストワークスペースに蒸留する;(iii)このワークスペースに基づいて精緻化し、次のラウンドの種となる出力を生成する。重要な点として、コンテキストの長さ(したがって計算コスト)は並列度によって制御可能であり、生成されたトークンの総数と混同されることはありません。我々は、long CoTよりも高い精度を提供しつつ、より低い遅延を招く、現在のモデルのPDRインスタンスを報告します。並列度を1に設定すると、興味深いサブケースであるSequential Refinement(SR)(単一の候補回答を反復的に改善する)が得られ、long CoTを上回る性能を提供します。このようなモデルオーケストレーションの成功は、さらなるトレーニングがパレートフロンティアをシフトさせ得るかという疑問を提起します。この目的のために、我々は8Bの思考モデルを強化学習(RL)でトレーニングし、PDRを推論方法として一貫させるようにしました。検証可能な回答を伴う数学タスクにおいて、反復的パイプラインは、同じ逐次予算で単一パスのベースラインを上回り、PDRが最大の利益をもたらしました(例:AIME 2024で+11%、AIME 2025で+9%)。
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)を適応させるための主要な手法であるが、強化学習(RL)と比較して一般化に苦戦することが多い。本研究では、この性能差が単に損失関数の違いだけでなく、より根本的な差異に起因すると仮定する。すなわち、SFTは事前に収集された固定データセットから学習するのに対し、RLは現在のポリシーからサンプリングされたオンラインデータを利用する。この仮説に基づき、我々はポリシー勾配法を用いてSFTを導く新しいファインチューニングアルゴリズムであるワントークンロールアウト(OTR)を提案する。OTRは、各トークン生成を単一ステップの強化学習軌道として扱うことで、自己回帰的学習プロセスを再構築する。各ステップにおいて、現在のポリシーの分布から複数の候補トークンをサンプリングし、モンテカルロ「ロールアウト」を実行する。教師データからの正解トークンは、これらのサンプルに対する報酬信号として使用される。ポリシー勾配に導かれた我々のアルゴリズムは、静的でオフラインデータである教師データを、トークンレベルでの動的でオンラインデータに変換し、オンラインデータ学習の一般化の利点を捉えつつ、全文生成の高コストなオーバーヘッドを回避する。数学的推論、コード生成、一般領域推論にわたる多様な挑戦的なベンチマークでの広範な実験を通じて、OTRが標準的なSFTを一貫して上回ることを実証する。我々の知見は、OTRをLLMのファインチューニングにおける強力で実用的な代替手法として確立し、データのオンラインデータ性が一般化の重要な要因であることを示唆する。これにより、LLMのファインチューニングに向けた新たな有望な方向性を提供する。
大規模視覚言語モデル(LVLM)はビデオ理解において大きな進歩を遂げているものの、長尺ビデオ推論への応用は、均一なフレームサンプリングと静的なテキスト推論によって妨げられており、非効率的で視覚的に高度なビデオタスクを処理するのに苦戦しています。これらの課題を克服するため、本論文では「長尺ビデオを用いた思考」という概念を導入し、新たなフレームワーク「FrameThinker」を提案します。このフレームワーク内で、LVLMはビデオコンテンツを反復的に問い合わせることが可能です。LVLMにこのようなビデオ推論能力を開発することは、特にモデルを新しいビデオアクション(例:フレーム選択)に適応させ、新たに導入されたアクションを採用するようLVLMを導く報酬関数を設計する際に、大きな課題を伴います。これらの課題を解決するため、我々は2段階のトレーニング戦略を提案します。まず、基本的なアクション能力を習得させるために教師ありファインチューニング(SFT)を採用し、その後、戦略的意思決定ポリシーを最適化するために強化学習(RL)を適用します。特にこのRLフェーズでは、各アクションとフォーマット報酬の設計について詳細かつ包括的な探索を行います。Video-Holmes、LongVideo-Reasonなどの推論ベンチマーク、およびLongVideoBench、MLVU、VideoMME、LVBenchなどの長尺ビデオ理解ベンチマークにおける広範な実験により、FrameThinkerがベースラインに対して平均+10.4%の大幅な改善を達成し、処理フレーム数を大幅に削減することが実証されました。特に、7BモデルのFrameThinkerは、LongVideo-Reasonにおいて新たな最先端を確立し、平均わずか20.6フレームを使用して76.1%の精度を達成しました。これは競合するLongVILA-R1(72.0%)を上回るだけでなく、20倍以上少ないフレーム数(対512)で達成しており、比類のない効率性と有効性を実証しています。
大規模言語モデル(LLM)のアリーナ形式評価において、2つのLLMがユーザーのクエリに応答し、ユーザーが勝者を選択するか、あるいは「バトル」を引き分けと判定し、それによって両モデルのレーティングが調整される。これらのレーティング動態をモデル化するための主流のアプローチは、チェスのような2プレイヤーゲームのマッチとしてバトルを捉え、Eloレーティングシステムおよびその派生システムを適用することである。本論文では、このパラダイムを批判的に検証する。具体的には、引き分けが真に2つのモデルが同等であることを意味するのか、したがってそれらのレーティングを均等化すべきなのかを問う。代わりに、引き分けはクエリの難易度を示すものであると推測する:クエリが簡単すぎる場合、両モデルが同様に成功する可能性が高い。3つの実世界のアリーナデータセットにおいて、引き分けに対するレーティング更新を無視することで、調査した4つのレーティングシステムすべてにおいて、バトル結果予測精度(引き分けを含む)が1~3%相対的に向上することを示す。さらに分析すると、引き分けは非常に簡単と評価されたクエリおよび高度に客観的と評価されたクエリでより頻繁に発生し、リスク比はそれぞれ1.37および1.35であった。今後のレーティングシステムでは、既存の引き分けの意味を再考し、レーティング更新においてクエリの特性を考慮することを推奨する。
近年の強化学習による事後学習(Reinforcement Post-Training, RPT)の進展により、大規模推論モデル(Large Reasoning Models, LRMs)の能力が大幅に向上し、RLベースの推論の汎化に対する関心が高まっています。既存の研究は主に、タスクやモダリティを跨いだ汎化の調査に焦点を当ててきましたが、本研究では、推論の汎化を探るための新たなクロスリンガルな視点を提案します。これにより、重要な疑問が浮かび上がります:英語のRPTによって達成された推論能力は、他の言語に効果的に転移するのか?この疑問に対し、我々は英語中心のLRMsを多言語推論ベンチマークで体系的に評価し、クロスリンガル転移可能性を定量化する指標を導入します。その結果、クロスリンガル転移可能性は、初期モデル、対象言語、および学習パラダイムによって大きく異なることが明らかになりました。介入研究を通じて、初期の英語能力が強いモデルほど、英語固有のパターンに過度に依存し、クロスリンガルな汎化が低下する傾向があることがわかりました。この問題に対処するため、我々は徹底的な並列学習研究を実施しました。実験結果から、3つの重要な知見が得られました。第一に、「First-Parallel Leap」、つまり単一言語からたった一つの並列言語に移行するだけで性能が大幅に向上すること。第二に、予測可能な「Parallel Scaling Law」、つまりクロスリンガル推論転移が、学習する並列言語の数に応じてべき乗則に従うこと。さらに、実際の単一言語性能とべき乗則予測との乖離を「Monolingual Generalization Gap」として特定し、英語中心のLRMsが言語間で完全に汎化できないことを示しました。本研究は、LRMの推論が人間の認知を反映するという仮定に疑問を投げかけ、より言語に依存しないLRMsの開発に向けた重要な洞察を提供します。
従来の多層パーセプトロン(MLP)は、入力/出力次元でスキップ接続が機能し、拡張された隠れ空間で処理が行われる「狭い-広い-狭い」設計を採用しています。本研究ではこの慣習に挑戦し、拡張次元でスキップ接続が機能し、残差計算が狭いボトルネックを通過する「広い-狭い-広い」(砂時計型)MLPブロックを提案します。この逆転設計により、高次元空間を段階的な改良に活用しつつ、パラメータ数を一致させた設計を通じて計算効率を維持します。砂時計型MLPを実装するには、入力信号を拡張次元に引き上げる初期投影が必要です。この投影はランダム初期化のまま訓練全体を通じて固定できることを提案し、効率的な訓練と推論の実装を可能にします。両アーキテクチャを人気のある画像データセットでの生成タスクで評価し、体系的なアーキテクチャ探索を通じて性能-パラメータのパレートフロンティアを特徴付けます。結果は、砂時計型アーキテクチャが従来の設計と比較して一貫して優れたパレートフロンティアを達成することを示しています。パラメータ予算が増加するにつれ、最適な砂時計型構成は、より深いネットワークとより広いスキップ接続、より狭いボトルネックを好む傾向にあります。これは従来のMLPとは異なるスケーリングパターンです。本研究の知見は、現代のアーキテクチャにおけるスキップ接続の配置を見直す必要性を示唆しており、Transformerやその他の残差ネットワークへの応用可能性も示唆しています。
大規模言語モデル(LLM)は現在、多くの公開数学テストスイートで高い性能を発揮していますが、数学のフロンティアにおける分離は天井効果に悩まされることが増えています。我々は2つの補完的なベンチマークを提示します:SKYLENAGE-ReasoningMATHは、長さ、数値密度、記号の複雑さに関する項目ごとのメタデータを持つ100項目の構造認識診断セットであり、SKYLENAGE-MATHは、高校から博士課程までの4段階を7つの科目分類でカバーする150項目のコンテスト形式スイートです。我々は15の最新LLMバリアントを単一のセットアップで評価し、科目×モデルおよび学年×モデルの性能を分析しました。コンテストスイートでは、最強のモデルが44%に達し、次点が37%に達しました。精度は高校から博士課程にかけて低下し、トップシステムは博士課程から高校までの保持率が約79%を示しました。推論セットでは、最良のモデルが全体で81%を達成し、最も難しいスライスの結果は、リーダーと中位層の間に明確な堅牢性のギャップがあることを明らかにしました。要約すると、我々はSKYLENAGE-ReasoningMATHをリリースし、SKYLENAGE-MATHの集計結果を報告します。SKYLENAGEは、難易度が調整され、豊富なメタデータを持つ、推論中心で広範囲をカバーする数学ベンチマークを提供し、将来の数学的推論評価のための参照ベンチマークとして機能します。
医療画像品質評価(IQA)は、臨床AIにおける最初の安全ゲートとして機能するが、既存のアプローチはスカラー値に基づくスコア指標に制限されており、専門家評価の中核となる記述的で人間のような推論プロセスを反映できていない。このギャップを埋めるため、我々はMedQ-Benchを導入する。これは、マルチモーダル大規模言語モデル(MLLMs)を用いた医療画像品質の言語ベース評価のための知覚-推論パラダイムを確立する包括的なベンチマークである。MedQ-Benchは二つの補完的なタスクを定義する:(1) MedQ-Perceptionは、基本的な視覚的属性に関する人間がキュレートした質問を通じて低レベルの知覚能力を探る。(2) MedQ-Reasoningは、参照なし推論と比較推論の両方を含み、モデル評価を画像品質に関する人間のような推論に整合させる。このベンチマークは5つの画像モダリティと40以上の品質属性をカバーし、合計2,600の知覚クエリと708の推論評価を含む。これには、実際の臨床取得画像、物理ベースの再構成によるシミュレートされた劣化画像、AI生成画像など多様な画像ソースが含まれる。推論能力を評価するため、我々はモデル出力を4つの補完的な軸に沿って評価する多次元判定プロトコルを提案する。さらに、LLMベースの判定と放射線科医の判定を比較することで、厳密な人間-AI整合性検証を実施する。14の最先端MLLMsの評価結果は、モデルが予備的ではあるが不安定な知覚および推論スキルを示し、信頼できる臨床使用には不十分な精度であることを示している。これらの知見は、医療IQAにおけるMLLMsのターゲットを絞った最適化の必要性を強調する。MedQ-Benchがさらなる探求を促進し、医療画像品質評価におけるMLLMsの未開拓の可能性を解き放つことを期待する。
デュアルエンコーダリトリーバーは、関連する文書が与えられたクエリに対して非関連文書よりも高いスコアを獲得すべきという原則に依存している。しかしながら、コントラスティブロスの基盤となる主要なノイズコントラスティブ推定(NCE)目的関数は、スコア分離の質に根本的に無関係であり、AUCとも無関係な、緩和されたランキング代理を最適化する。このミスマッチは、検索拡張生成(RAG)のような下流タスクにおいて、較正の不十分さと最適でないパフォーマンスを引き起こす。この根本的な制限に対処するため、我々はMWロスを導入する。これは、ROC曲線下面積(AUC)と数学的に等価なマン・ホイットニーのU統計量を最大化する新しい訓練目的関数である。MWロスは、スコア差に対する二値クロスエントロピーを最小化することで、各正例-負例ペアが正しくランク付けされるよう促す。我々は、MWロスが直接AoCを上界し、最適化を検索目標により良く整合させる理論的保証を提供する。さらに、リトリーバーの較正とランキング品質を評価するための自然な閾値なし診断として、ROC曲線とAUCを推奨する。実験的に、MWロスで訓練されたリトリーバーは、AUCおよび標準的な検索メトリクスにおいて、コントラスティブロスの対照群を一貫して上回る。我々の実験は、MWロスがコントラスティブロスに比べて経験的に優れた代替手段であり、RAGのような高リスクアプリケーションにおいて、より良く較正され、識別力のあるリトリーバーを提供することを示している。
テキストの匿名化は、医療、社会福祉、法律などの高リスク領域において、AIを責任を持って開発・展開するために不可欠である。本研究では、個人識別情報の削除原則と「Hiding In Plain Sight (HIPS)」理論を活用した、プライバシー保護型の合成テキスト生成のための新たな方法論を提案する。本手法では、エンティティを意識した制御コードを導入し、インコンテキスト学習(ICL)またはプレフィックスチューニングを用いて制御可能な生成を実現する。ICLバリアントは、基盤となる個人識別情報削除システムと整合性のあるプライバシーレベルを保証し、プレフィックスチューニングバリアントは、カスタムマスキング戦略と損失関数を組み込むことで、スケーラブルで高品質な生成をサポートする。法律および臨床データセットを用いた実験により、本手法がプライバシー保護と有用性の間で強力なバランスを達成し、機密性の高い領域における合成テキスト生成の実用的かつ効果的な解決策を提供することが示された。
大規模言語モデル(LLMs)とモノのインターネット(IoT)システムの統合は、ハードウェアの異質性と制御の複雑さにおいて重大な課題に直面しています。モデルコンテキストプロトコル(MCP)は、LLMsと物理デバイス間の標準化された通信を提供する重要な要素として登場しました。本論文では、MCPをエッジデプロイされたサーバーを通じて実装し、LLMsとIoTエコシステムを橋渡しする新しいフレームワークであるIoT-MCPを提案します。厳密な評価を支援するため、IoT対応LLMs向けの最初のベンチマークであるIoT-MCP Benchを導入しました。このベンチマークには、114の基本タスク(例:「現在の温度は何度ですか?」)と1,140の複雑タスク(例:「とても暑いのですが、何か良いアイデアはありますか?」)が含まれています。22種類のセンサーと6種類のマイクロコントローラーユニットを用いた実験的検証により、IoT-MCPは期待を完全に満たすツールコールを生成し、完全に正確な結果を得る100%のタスク成功率、平均205msの応答時間、74KBのピークメモリ使用量を実証しました。本研究は、LLM-IoTシステム向けのオープンソース統合フレームワーク(https://github.com/Duke-CEI-Center/IoT-MCP-Servers)と標準化された評価手法の両方を提供します。
大規模言語モデル(LLM)がスケールアップするにつれ、重要な問いはその規模だけでなく、その容量がどの程度効果的に活用されているかである。既存のスケーリング則はモデルサイズと損失を関連付けるが、構成要素が潜在空間をどのように活用するかを見落としている。本研究ではフィードフォワードネットワーク(FFN)に着目し、幅の選択をスペクトル活用の問題として再定義する。軽量な診断スイート——ハードランク(参加率)、ソフトランク(シャノンランク)、スペクトル集中度、および複合的なスペクトル活用指数(SUI)——を用いて、LLaMA、GPT-2、nGPTファミリーにおいて、どの程度の潜在方向が意味的に活性化されているかを定量化する。主な発見は、非対称的なスペクトルスケーリング則である:ソフトランクはFFN幅に対してほぼ完璧なべき乗則に従う一方、ハードランクはサブ線形にしか成長せず、高い分散を示す。この非対称性は、FFNを広げることで主に低エネルギーのテール方向が追加される一方、支配的なモードの部分空間は早期に飽和することを示唆している。さらに、幅が大きくなると、分散はさらに狭い部分空間に収束し、潜在空間の大部分が未活用のまま残される。これらの結果は、FFN幅の選択をテール容量と支配的モード容量の間の原理的なトレードオフとして再定義し、推論効率の高いLLM設計に対する具体的な指針を提供する。
合成画像検索(Composed Image Retrieval, CIR)は、参照画像の視覚的コンテンツを保持しつつ、ユーザーが指定したテキストによる修正を反映したターゲット画像を検索することを目的としています。タスク固有のトレーニングやラベル付きデータを必要としないゼロショットCIR(ZS-CIR)アプローチは非常に望ましいものの、ユーザーの意図を正確に捉えることは依然として課題です。本論文では、マルチモーダル大規模言語モデル(MLLM)を活用してZS-CIRを強化する、新しい二段階のトレーニング不要フレームワークであるSQUAREを提案します。セマンティッククエリ拡張融合(Semantic Query-Augmented Fusion, SQAF)段階では、CLIPなどの視覚言語モデル(VLM)から得られたクエリ埋め込みを、MLLMが生成したターゲット画像のキャプションで強化します。これらのキャプションは高レベルのセマンティックガイダンスを提供し、クエリがユーザーの意図をより良く捉え、グローバルな検索品質を向上させます。効率的なバッチ再ランキング(Efficient Batch Reranking, EBR)段階では、上位候補を視覚的マーク付きの画像グリッドとしてMLLMに提示し、すべての候補に対して視覚的・意味的推論を共同で行います。当社の再ランキング戦略は単一パスで動作し、より正確なランキングを生成します。実験結果は、SQUAREがそのシンプルさと有効性により、4つの標準CIRベンチマークで強力なパフォーマンスを発揮することを示しています。特に、軽量な事前学習モデルを使用しても高い性能を維持し、その潜在的な適用可能性を示しています。
近年の思考モデルは、テスト時の計算リソースをスケーリングすることで複雑な推論タスクを解決するが、このスケーリングはタスクの難易度に応じて適切に配分されなければならない。一方で、短い推論(過少思考)は、長い推論ステップを必要とする難しい問題において誤りを引き起こす。しかし、過度に長い推論(過剰思考)はトークン効率が悪く、正しい中間解に到達した後も不要なステップを生成してしまう。これを「適応性の欠如」と呼び、モデルが問題の難易度に応じて応答の長さを適切に調整できない状態を指す。この適応性の欠如を解決し、過少思考と過剰思考のバランスを取るために、我々はTRAAC(Think Right with Adaptive, Attentive Compression)を提案する。TRAACは、オンラインの事後訓練強化学習(RL)手法であり、モデルの自己注意機構を長い推論軌跡に適用して重要なステップを特定し、冗長なステップを削除する。さらに、TRAACは難易度を推定し、それを訓練報酬に組み込むことで、例題の難易度に応じた推論予算の配分を学習する。我々のアプローチは、ベースモデルや他のRLベースラインと比較して、精度を向上させ、推論ステップを削減し、適応的な思考を可能にする。様々なタスク(AIME、AMC、GPQA-D、BBEH)において、TRAAC(Qwen3-4B)はベースモデルと比較して平均8.4%の絶対精度向上と36.8%の推論長短縮を達成し、最良のRLベースラインと比較して7.9%の精度向上と29.4%の長さ短縮を実現した。また、TRAACは強い汎化能力を示し、数学データセットで訓練されたモデルが、GPQA-D、BBEH、OptimalThinkingBenchといった分布外の非数学データセットにおいても精度と効率の向上を示した。さらに、我々の分析により、TRAACが難易度に基づいて思考予算を細かく調整し、タスク難易度の較正と注意ベースの圧縮を組み合わせることで、多様なタスクにおいて利得が得られることが確認された。
複数のしばしば相反する目的を満たす配列を設計することは、治療用および生体分子工学における中心的な課題である。既存の生成フレームワークは、主に単一目的のガイダンスを伴う連続空間で動作する一方で、離散的なアプローチでは多目的パレート最適性の保証が欠けている。本論文では、パレートフロントへの収束を理論的に保証する離散最適化アルゴリズムであるAReUReDi(Annealed Rectified Updates for Refining Discrete Flows)を提案する。AReUReDiは、Rectified Discrete Flows(ReDi)を基盤として、チェビシェフスカラー化、局所平衡提案、およびアニーリングされたメトロポリス・ヘイスティング更新を組み合わせ、分布不変性を保ちながらパレート最適状態へのサンプリングをバイアスする。ペプチドおよびSMILES配列設計に適用した結果、AReUReDiは、親和性、溶解性、溶血性、半減期、非汚染性を含む最大5つの治療特性を同時に最適化し、進化的および拡散ベースのベースラインを上回る性能を示した。これらの結果は、AReUReDiが多特性生体分子生成のための強力な配列ベースのフレームワークであることを確立する。