翻訳付きの日次キュレーションされたAI研究論文
OpenAIによるo1モデルのリリースに伴い、スローシンキング戦略を採用した推論モデルが徐々に登場しています。このようなモデルが生成する応答には、複雑な推論、中間ステップ、自己反映が含まれることが多いため、既存の評価手法では不十分な場合が多く見られます。それらは、LLMの出力が参照回答と真に等価であるかどうかを判断するのに苦労し、また、長く複雑な応答から最終的な回答を特定して抽出することにも困難を抱えています。この問題に対処するため、私たちはxVerifyを提案します。xVerifyは、推論モデル評価のための効率的な回答検証ツールであり、等価性判断において強力な能力を発揮し、推論モデルが生成した回答が様々なタイプの客観的問題における参照回答と等価であるかどうかを効果的に判断することができます。xVerifyの訓練と評価のために、私たちはVARデータセットを構築しました。このデータセットは、複数のLLMが様々なデータセット上で生成した質問-回答ペアを収集し、複数の推論モデルと推論モデル評価のために特別に設計された挑戦的な評価セットを活用しています。ラベルの正確性を確保するために、複数回のアノテーションプロセスが採用されています。VARデータセットに基づいて、私たちは異なる規模の複数のxVerifyモデルを訓練しました。テストセットと汎化セットで実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと精度で95\%を超える結果を達成しました。特に、最小バージョンのxVerify-0.5B-Iは、GPT-4oを除くすべての評価手法を上回り、xVerify-3B-Ibは全体のパフォーマンスでGPT-4oを凌駕しました。これらの結果は、xVerifyの有効性と汎用性を検証するものです。
私たちは、高性能な中国語-英語バイリンガル画像生成基盤モデルであるSeedream 3.0を紹介します。Seedream 2.0の既存の課題に対処するため、複雑なプロンプトとの整合性、細かいタイポグラフィ生成、視覚的美観と忠実度の最適化、限られた画像解像度など、いくつかの技術的改善を開発しました。具体的には、Seedream 3.0の進歩は、データ構築からモデル展開までのパイプライン全体にわたる改善に起因しています。データ層では、欠陥を意識したトレーニングパラダイムと双軸協調データサンプリングフレームワークを使用してデータセットを倍増させました。さらに、事前トレーニング段階では、混合解像度トレーニング、クロスモダリティRoPE、表現整合性損失、解像度を意識したタイムステップサンプリングなど、いくつかの効果的な技術を採用しました。ポストトレーニング段階では、SFTで多様な美的キャプションを使用し、スケーリングを伴うVLMベースの報酬モデルを活用することで、人間の好みに良く合致した出力を実現しました。さらに、Seedream 3.0は新しい加速パラダイムを先駆けています。一貫したノイズ期待値と重要性を意識したタイムステップサンプリングを採用することで、画像品質を維持しながら4倍から8倍の高速化を達成しました。Seedream 3.0は、Seedream 2.0と比較して大幅な改善を示しています:全体的な能力が向上し、特にプロフェッショナルなタイポグラフィ生成に重要な複雑な中国語文字のテキストレンダリングが強化されています。さらに、ネイティブの高解像度出力(最大2K)を提供し、高い視覚品質の画像を生成することが可能です。
大規模言語モデル(LLM)の推論能力の向上は、広く注目を集めています。しかし、現在のポストトレーニング技術は、結果の監視や補助的な報酬モデルなどの監視信号に大きく依存しており、スケーラビリティの問題や高いアノテーションコストが課題となっています。これにより、外部の監視を必要とせずにLLMの推論を強化する動機が生まれました。私たちは、汎用的で純粋に教師なしの自己学習フレームワーク「Genius」を導入します。外部の補助を必要とせず、Geniusは段階的に最適な応答シーケンスを探索し、LLMを最適化する必要があります。潜在的なステップを探求し、最適なステップを活用するために、Geniusは段階的先見リサンプリング戦略を導入し、将来の結果をシミュレートしてステップの価値を推定します。さらに、教師なし設定では避けられない本質的なノイズと不確実性が生じることを認識しています。堅牢な最適化を提供するために、推定の不整合を緩和するためのアドバンテージ校正最適化(ACO)損失関数を提案します。これらの技術を組み合わせることで、Geniusは一般的なクエリに対して監視なしでLLMの推論を自己改善するための先進的な最初のステップを提供し、一般的なクエリの膨大な可用性を考慮した推論スケーリング則を革新します。コードはhttps://github.com/xufangzhi/Geniusで公開されます。
大規模言語モデル(LLM)のポストトレーニングが指示追従から複雑な推論タスクへと進化するにつれ、異なるデータがファインチューニングのダイナミクスにどのように影響するかを理解することは、依然としてほとんど未開拓の領域です。本論文では、低品質/高品質の指示データおよび推論データによって誘発される層ごとの勾配のスペクトル分析を提示します。私たちの分析は、データ評価のために広く研究されている指標(例:IFD、InsTag、Difficulty、Reward)が、勾配の特異値分解(SVD)から計算されるスペクトル特性によって説明され、統合されることを明らかにします。具体的には、高品質なデータは通常、低い核ノルムと高い有効ランクと関連しています。特に、有効ランクは、微妙な品質の違いを捉える上で核ノルムよりも優れたロバスト性と分解能を示します。例えば、推論データは指示データよりも大幅に高い有効ランクを達成し、より複雑なタスクにおいて豊かな勾配構造を暗示しています。私たちの実験はまた、同じファミリー内のモデルはそのサイズに関わらず類似した勾配パターンを共有する一方で、異なるモデルファミリー間では大きく異なることを強調しています。指示データと推論データにわたるデータ品質の影響を統一的に捉えることで、本研究はデータ品質とトレーニングの安定性の相互作用を明らかにし、ポストトレーニングのためのより優れたデータ探索戦略の開発に新たな洞察を提供します。
AIシステムは、その知識自体を検証できる範囲においてのみ、知識を生成し維持することができます。近年の長い連鎖的思考(Chain-of-Thought)推論に関する研究は、大規模言語モデル(LLM)が競争力のある問題を解決する上で大きな可能性を示していますが、その検証能力は依然として弱く、十分に調査されていません。本論文では、Heimdallという長い連鎖的思考検証LLMを提案し、解決策の正確性を正確に判断することができます。純粋な強化学習を用いることで、競争力のある数学問題における検証精度を62.5%から94.5%に向上させました。繰り返しサンプリングによるスケーリングにより、精度はさらに97.5%に向上しました。人間による評価を通じて、Heimdallは印象的な汎化能力を示し、トレーニング中に含まれていないタイプの難しい数学的証明におけるほとんどの問題を検出することに成功しました。さらに、Heimdallの機能を拡張し、問題解決をスケールアップするための悲観的検証(Pessimistic Verification)を提案します。これは、Heimdallを呼び出してソルバーモデルからの解決策を判断し、悲観的原理に基づいて最も正しい可能性が高く、不確実性が最も少ない解決策を選択します。DeepSeek-R1-Distill-Qwen-32Bをソルバーモデルとして使用した場合、悲観的検証はAIME2025における解決精度を54.2%から70.0%に向上させ、16倍の計算予算で83.3%に、さらに多くの計算予算で93.0%に到達しました。より強力なソルバーであるGemini 2.5 Proを使用すると、スコアは93.0%に達しました。最後に、自動知識発見システムのプロトタイプを作成しました。これは、質問を投げかけるコンポーネント、解決策を提供するコンポーネント、そして解決策を検証するコンポーネントからなる三元システムです。最初の2つのコンポーネントにNuminaMathのデータ合成作業を使用し、Heimdallはデータセット内の問題のあるレコードを効果的に特定し、データのほぼ半分が欠陥があることを明らかにしました。これは興味深いことに、NuminaMathの最近のアブレーション研究と一致しています。
TextArenaは、大規模言語モデル(LLM)におけるエージェント的行動のトレーニングと評価のための、オープンソースのテキストベースゲームコレクションです。57以上のユニークな環境(シングルプレイヤー、2人プレイヤー、マルチプレイヤー設定を含む)を網羅し、オンラインプレイシステム(人間や他の提出モデルとの対戦)を通じてリアルタイムのTrueSkillスコアでモデルの能力を容易に評価できます。従来のベンチマークでは、交渉、心の理論、欺瞞といった動的な社会的スキルをほとんど評価しないため、そのギャップをTextArenaが埋めます。研究、コミュニティ、拡張性を考慮して設計されたTextArenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルとの対戦、モデルのトレーニングの容易さを重視しています。環境、ゲーム、リーダーボード、例の詳細なドキュメントは、https://github.com/LeonGuertler/TextArena および https://www.textarena.ai/ で利用可能です。
マルチモーダル大規模言語モデル(MLLM)は、細粒度のピクセルレベル理解タスクにおいて顕著な性能を発揮します。しかし、これまでの研究はすべて、ビジョンエンコーダ(CLIP)やセグメンテーション専門家などの追加コンポーネントに大きく依存しており、システムの複雑さを高め、モデルのスケーリングを制限しています。本研究では、追加コンポーネントを導入せずに、高度に簡素化されたMLLMを探求することを目指しています。私たちの研究は、最近のSingle trAnsformer as a unified vIsion-Language Model(SAIL)設計に関する研究に触発されており、これらの研究では、トランスフォーマー内でビジョントークンとテキストトークンを共同で学習しています。私たちは、ピクセル単位のMLLMタスクのための単一トランスフォーマーであるPixel-SAILを提案します。特に、プレーンなベースラインに対して3つの技術的改善を提示します。まず、視覚トークンの特徴を洗練するための学習可能なアップサンプリングモジュールを設計します。次に、単一トランスフォーマーが視覚プロンプト入力を理解し、視覚プロンプト埋め込みとビジョントークンの早期融合から利益を得られるようにする新しい視覚プロンプト注入戦略を提案します。第三に、単一トランスフォーマーの細粒度特徴抽出能力を効率的に強化するためのビジョン専門家蒸留戦略を導入します。さらに、手動チェックを使用して、包括的なピクセル理解ベンチマーク(PerBench)を収集しました。これには、詳細なオブジェクト記述、視覚プロンプトに基づく質問応答、視覚-テキスト参照セグメンテーションの3つのタスクが含まれます。4つの参照セグメンテーションベンチマーク、1つの視覚プロンプトベンチマーク、および私たちのPerBenchでの広範な実験により、Pixel-SAILがはるかに簡素化されたパイプラインで同等またはそれ以上の結果を達成することが示されました。コードとモデルはhttps://github.com/magic-research/Sa2VAで公開されます。
表面法線推定は、コンピュータビジョンアプリケーションの広範な分野において基盤となる技術です。静止画像シナリオに多くの努力が注がれてきた一方で、ビデオベースの法線推定における時間的整合性の確保は依然として大きな課題です。既存の手法に単に時間的要素を追加するのではなく、我々はNormalCrafterを提案し、ビデオ拡散モデルの持つ時間的な事前知識を活用します。シーケンス全体にわたる高精度な法線推定を実現するため、セマンティック特徴正則化(SFR)を導入し、拡散特徴を意味的手がかりと整合させることで、モデルがシーンの本質的な意味に集中するよう促します。さらに、空間的な精度を保ちつつ長期的な時間的文脈を維持するために、潜在空間とピクセル空間の両方での学習を活用する二段階トレーニングプロトコルを提案します。広範な評価を通じて、本手法の有効性が実証され、多様なビデオから精緻な詳細を伴う時間的に一貫した法線シーケンスを生成する優れた性能が示されています。
強化学習(Reinforcement Learning, RL)は、複雑な推論タスクにおいて大規模言語モデル(Large Language Models, LLMs)を微調整するための主流のアプローチとなっている。最近の手法の中でも、GRPOはDeepSeek-R1のようなモデルの訓練において実証的な成功を収めており、その有効性の源はまだ十分に理解されていない。本研究では、GRPOを強化学習に似たアルゴリズムの観点から再検討し、その核心的な構成要素を分析する。驚くべきことに、肯定的な報酬を受けたサンプルのみを訓練する単純な棄却サンプリングベースラインであるRAFTが、GRPOやPPOと同等以上の性能を発揮することがわかった。アブレーション研究により、GRPOの主な利点は、報酬の正規化ではなく、完全に誤った応答を持つプロンプトを排除することから生じていることが明らかになった。この知見に基づき、完全に誤ったサンプルと完全に正しいサンプルの両方をフィルタリングする、ポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。Reinforce-RejはKL効率と安定性を向上させ、より複雑なRLアルゴリズムに対する軽量かつ効果的な代替手段として機能する。我々は、RAFTを堅牢で解釈可能なベースラインとして推奨し、将来の進展は、負のサンプルを無差別に利用するのではなく、それらを組み込むためのより原理的な設計に焦点を当てるべきであると提案する。本研究の知見は、報酬ベースのLLMポストトレーニングにおける将来の研究に指針を提供するものである。
推論モデルは、最終的な答えに至る前に長い連鎖的思考(Chain-of-Thoughts, CoTs)を生成することで、複雑で論理的なタスクを解決する際に顕著な進歩を遂げてきました。しかし、この「遅い思考」パラダイムの出現により、多数のトークンが連続して生成されることで、必然的に大幅な計算オーバーヘッドが生じています。このため、効果的な高速化が緊急に必要とされています。本調査は、効率的な推論に関する最近の進展を包括的に概観することを目的としています。既存の研究を以下の3つの主要な方向に分類します:(1) 短縮 - 長いCoTsを簡潔でありながら効果的な推論連鎖に圧縮する、(2) 小型化 - 知識蒸留やその他のモデル圧縮技術、強化学習などを通じて、強力な推論能力を持つコンパクトな言語モデルを開発する、(3) 高速化 - 推論を加速するための効率的なデコード戦略を設計する。本調査で議論された論文の精選されたコレクションは、GitHubリポジトリで公開されています。
大規模言語モデルの異なるデータセットでの事前学習は高コストであるため、データを決定するために小規模な実験を活用することはコスト削減において重要です。小規模での観測された性能から意思決定を行うためのベンチマークや手法のうち、どのものが大規模モデルに最適なデータセットを最も正確に予測するのでしょうか?この問いをオープンに探求するために、私たちはDataDecideをリリースしました。これは、データとスケールの違いにわたる最も包括的なオープンなモデルスイートであり、モデル、データ、評価を提供します。私たちは、25のコーパスにわたる制御された事前学習実験を行い、異なるソース、重複除去、フィルタリングを施した最大100Bトークンのデータ、最大1Bパラメータのモデルサイズ、および3つのランダムシードを使用しました。その結果、単一の小規模サイズ(例えば150Mパラメータ)でのモデルの順位付けは、私たちの目標とする大規模(1B)での最良のモデルを予測するための強力なベースラインであることがわかりました(約80%の比較が正しい)。8つのベースラインの中でも、スケーリング法則の手法は単一スケール予測の計算意思決定フロンティアを超えるものはありませんでしたが、DataDecideは将来のスケーリング法則の改善を測定することができます。また、小規模実験で連続的な尤度メトリクスを代理指標として使用することで、MMLU、ARC、HellaSwag、MBPP、HumanEvalなどのベンチマークが、目標の1Bスケールでわずか0.01%の計算量で80%以上予測可能であることも明らかにしました。
検索拡張生成(RAG)は、知識集約型タスクにおける大規模言語モデル(LLM)の性能を向上させますが、初期検索クエリの品質に大きく依存します。現在の手法では、強化学習(RL)を用いてクエリの作成や結果に対する推論に焦点を当てることが一般的ですが、検索失敗後の継続を明示的に奨励することはありません。本研究では、ReZero(リトライ・ゼロ)という新しいRLフレームワークを提案します。ReZeroは、初期の検索試行が失敗した後に検索クエリを再試行する行為を直接報酬として与えることで、LLMが早期に停止するのではなく、代替クエリを探索することを促します。ReZeroは、25%のベースラインに対して46.88%の精度を達成し、大幅な改善を示しています。継続を報酬とすることで、ReZeroは初期クエリが不十分である可能性のある複雑な情報探索シナリオにおいて、LLMの堅牢性を向上させます。
本論文では、生のピクセルエンコーディングと言語デコーディングを単一のアーキテクチャ内に統合した、単一トランスフォーマーによる統一マルチモーダル大規模言語モデル(MLLM)であるSAILを紹介する。既存のモジュール型MLLMが事前学習済みのビジョントランスフォーマー(ViT)に依存しているのに対し、SAILは別個のビジョンエンコーダを必要とせず、よりミニマルなアーキテクチャ設計を実現している。新たなアーキテクチャコンポーネントを導入する代わりに、SAILはミックスアテンション機構とマルチモーダル位置エンコーディングを適応させ、視覚的およびテキスト的モダリティの異なる特性により良く適合させている。我々は、SAILのスケーラビリティ、クロスモーダル情報フローパターン、視覚表現能力といった特性を、モジュール型MLLMと体系的に比較した。トレーニングデータとモデルサイズの両方をスケールアップすることで、SAILはモジュール型MLLMに匹敵する性能を達成している。特に、事前学習済みViTコンポーネントの除去により、SAILのスケーラビリティが向上し、クロスモーダル情報フローパターンが大きく異なる結果となった。さらに、SAILは強力な視覚表現能力を示し、セマンティックセグメンテーションなどの視覚タスクにおいてViT-22Bと同等の結果を達成している。コードとモデルはhttps://github.com/bytedance/SAILで公開されている。
本研究では、複雑なアーキテクチャ変更を伴わないシンプルな自己回帰型視覚生成フレームワーク「SimpleAR」を提案します。トレーニングと推論の最適化を慎重に検討することで、以下のことを実証しました:1) わずか0.5Bのパラメータで、1024x1024解像度の高忠実度画像を生成し、テキストから画像への挑戦的なベンチマーク(例えば、GenEvalで0.59、DPGで79.66)で競争力のある結果を達成できること、2) 教師ありファインチューニング(SFT)とGroup Relative Policy Optimization(GRPO)トレーニングの両方が、生成の美学とプロンプトの整合性に大幅な改善をもたらすこと、3) vLLMのような推論加速技術を最適化することで、SimpleARが1024x1024画像を生成する時間を約14秒に短縮できること。これらの知見を共有し、コードをオープンソース化することで、自己回帰型視覚生成の可能性を明らかにし、この研究分野へのさらなる参加を促進したいと考えています。コードはhttps://github.com/wdrink/SimpleARで公開されています。
複雑な数学的推論能力は、人工知能の重要なベンチマークである。大規模言語モデル(LLM)に強化学習(RL)を適用するアプローチは有望であるが、十分に挑戦的でRLに適した検証可能な解答形式を持ち、評価ベンチマークとの混入がない大規模な訓練データの不足が進展を大きく妨げている。これらの制約に対処するため、我々はDeepMath-103Kを導入する。これは約103,000の数学問題からなる新たな大規模データセットであり、RLを用いた高度な推論モデルの訓練に特化して設計されている。DeepMath-103Kは、ソース分析、多数のベンチマークに対する厳格な除染、および高難易度(主にレベル5-9)のフィルタリングを含む厳密なパイプラインを通じてキュレーションされており、既存のオープンリソースを大幅に上回る挑戦性を備えている。各問題には、ルールベースのRLを可能にする検証可能な最終解答と、教師あり微調整や蒸留などの多様な訓練パラダイムに適した3つの異なるR1生成ソリューションが含まれている。幅広い数学的トピックをカバーするDeepMath-103Kは、一般化可能な推論能力の開発を促進する。我々は、DeepMath-103Kで訓練されたモデルが挑戦的な数学的ベンチマークで大幅な改善を達成することを実証し、その有効性を検証した。より強力なAI推論システムの構築に向けたコミュニティの進展を促進するため、DeepMath-103Kを公開する:https://github.com/zwhe99/DeepMath。
プロセス報酬モデル(PRM)は大規模言語モデル(LLM)にステップレベルの監視を提供しますが、トレーニングデータのアノテーションをスケールアップすることは、人間にとってもLLMにとっても依然として課題です。この制約に対処するため、我々は能動学習アプローチであるActPRMを提案します。これは、最も不確実なサンプルを積極的に選択してトレーニングを行うことで、ラベリングコストを大幅に削減します。トレーニング中、我々はPRMを使用してフォワードパスの後に不確実性を推定し、高度に不確実なデータのみを保持します。その後、能力は高いがコストのかかる推論モデルがこのデータにラベルを付けます。次に、ラベルに対する損失を計算し、PRMの重みを更新します。我々はActPRMとバニラのファインチューニングをプールベースの能動学習設定で比較し、ActPRMがアノテーションを50%削減しながら、同等またはそれ以上の性能を達成することを示します。アノテーション効率を超えて、我々はActPRMを使用して100万以上の数学的推論軌跡をフィルタリングし、データの60%を保持することで、積極的にトレーニングされたPRMをさらに進化させます。この選択されたデータセットでのその後のトレーニングにより、ProcessBench(75.0%)とPRMBench(65.5%)において、同じサイズのモデルと比較して新たな最先端(SOTA)PRMが得られます。
拡散モデルは高次元データの生成に優れているものの、自己教師あり手法と比較して、学習効率と表現品質の面で劣っています。本研究では、その主要なボトルネックとして、学習中に高品質で意味的に豊かな表現が十分に活用されないことが収束を著しく遅らせていることを明らかにしました。体系的な分析を通じて、生成が行われる前に意味的および構造的なパターン学習が行われる重要な表現処理領域(主に初期層)を特定しました。この課題に対処するため、Embedded Representation Warmup(ERW)というプラグアンドプレイ型のフレームワークを提案します。このフレームワークでは、第一段階としてERWモジュールがウォームアップとして機能し、拡散モデルの初期層を高品質な事前学習済み表現で初期化します。このウォームアップにより、表現をゼロから学習する負担が軽減され、収束が加速され、性能が向上します。理論的分析により、ERWの有効性は、モデルが後の生成のために主に特徴表現を処理・変換する特定のニューラルネットワーク層(表現処理領域と呼ばれる)への正確な統合に依存することが示されました。さらに、ERWが学習収束を加速するだけでなく、表現品質も向上させることを実証しました。実験的には、本手法は現状の最先端手法であるREPAと比較して、学習速度を40倍加速させることに成功しています。コードはhttps://github.com/LINs-lab/ERWで公開されています。
拡散モデルは、高精細な画像生成能力で広く認知されています。Diffusion Transformer(DiT)アーキテクチャは優れた性能とスケーラビリティを備えていますが、拡散プロセス中に異なる画像領域に対して固定された圧縮を適用しており、これらの領域に自然に存在する情報密度の変動を無視しています。しかし、大きな圧縮は局所的なリアリズムを制限し、小さな圧縮は計算複雑性を増加させ、グローバルな一貫性を損なうことで、生成画像の品質に影響を与えます。これらの制限に対処するため、我々は異なる画像領域の重要性を認識し、それに応じて動的に圧縮することを提案し、画像生成の効果と効率を向上させるための新しい2段階フレームワークを導入します:(1)第1段階のDynamic VAE(DVAE)は、階層型エンコーダを使用して、特定の情報密度に応じて異なるダウンサンプリング率で異なる画像領域をエンコードし、拡散プロセスのためのより正確で自然な潜在コードを提供します。(2)第2段階のDynamic Diffusion Transformer(D^2iT)は、Dynamic Grain TransformerとDynamic Content Transformerの新しい組み合わせを通じて、粗粒度(滑らかな領域では少ない潜在コード)と細粒度(詳細な領域では多くの潜在コード)からなる多粒度のノイズを予測することで画像を生成します。ノイズの大まかな予測と詳細な領域の修正を組み合わせる戦略により、グローバルな一貫性と局所的なリアリズムの統一を実現します。様々な生成タスクにおける包括的な実験により、我々のアプローチの有効性が検証されました。コードはhttps://github.com/jiawn-creator/Dynamic-DiTで公開されます。
現在のマルチモーダルベンチマークでは、推論能力とドメイン固有の知識が混同されることが多く、非専門家の設定における一般的な推論能力を分離して評価することが困難です。この問題に対処するため、私たちはVisualPuzzlesを導入しました。これは、視覚的推論に焦点を当てながら、専門知識への依存を意図的に最小化するベンチマークです。VisualPuzzlesは、アルゴリズム的、類推的、演繹的、帰納的、空間的推論の5つのカテゴリーにわたる多様な問題で構成されています。問題の主要なソースの一つは、中国の国家公務員試験から手動で翻訳された論理的推論問題です。実験結果から、VisualPuzzlesはMMMUなどのベンチマークと比較して、ドメイン固有の知識への依存が大幅に少なく、より複雑な推論を必要とすることが示されており、真のマルチモーダル推論をより適切に評価することが可能です。評価結果から、最先端のマルチモーダル大規模言語モデルは、VisualPuzzlesにおいて一貫して人間のパフォーマンスに及ばないことが明らかになりました。また、知識集約型のベンチマークでの強力なパフォーマンスが、必ずしも推論中心で知識軽量なタスクでの成功に繋がらないことも示されています。さらに、推論の強化(「思考」モードを用いた推論計算のスケールアップなど)は、モデルやタスクタイプによって一貫した効果をもたらさず、モデルのサイズとパフォーマンスの間に明確な相関関係は観察されませんでした。また、VisualPuzzlesでは、知識に重点を置いたベンチマークとは異なる推論と回答パターンがモデルに現れることも確認されました。VisualPuzzlesは、事実の記憶やドメイン知識を超えた推論能力を評価するためのより明確な視点を提供します。
消費者向けアプリケーションにおける言語モデルの導入は、数多くのリスクを伴います。既存の研究では、規制フレームワークや理論的分析に基づくトップダウンアプローチによって、そのようなアプリケーションの害や危険性が検討されてきましたが、現実世界の失敗モードに関する実証的な証拠は十分に探究されていません。本研究では、公に報告されたインシデントを体系的にレビューして構築された、AIエージェントとの問題のあるインタラクションを注釈付きで収録したRealHarmデータセットを紹介します。展開者の視点から害、原因、危険性を分析した結果、組織的な害としては評判の損害が最も多く、危険性のカテゴリーとしては誤情報が最も一般的であることが明らかになりました。最先端のガードレールやコンテンツモデレーションシステムを実証的に評価し、そのようなシステムがインシデントを防げたかどうかを検証したところ、AIアプリケーションの保護において重大なギャップがあることが判明しました。
AttentionとState Space Models(SSMs)を組み合わせたハイブリッドLLMアーキテクチャは、最先端の精度と実行時性能を達成しています。最近の研究では、Attentionのみのモデルに圧縮と蒸留を適用することで、トレーニングコストの一部でより小型かつ高精度なモデルが得られることが実証されています。本研究では、ハイブリッドアーキテクチャの圧縮効果を探求します。我々は、SSMブロックの構造的整合性とシーケンスモデリング能力を維持する新しいグループ対応プルーニング戦略を導入します。さらに、従来のアプローチと比較して精度と推論速度を向上させるためには、このようなSSMプルーニングが必要であることを実証します。我々の圧縮レシピは、SSM、FFN、埋め込み次元、およびレイヤープルーニングを組み合わせ、その後MINITRON技術と同様の知識蒸留に基づく再トレーニングを行います。このアプローチを用いて、Nemotron-H 8Bハイブリッドモデルを4Bパラメータまで圧縮し、トレーニングトークンを最大40分の1に削減しました。その結果得られたモデルは、同サイズのモデルを上回る精度を達成し、2倍の推論速度を実現することで、パレートフロンティアを大幅に前進させました。
AI大学(AI-U)を紹介する。これは、教員の指導スタイルに適応するAI駆動型コースコンテンツ配信の柔軟なフレームワークである。AI-Uの中核では、大規模言語モデル(LLM)を検索拡張生成(RAG)を用いて微調整し、講義ビデオ、ノート、教科書から教員に沿った応答を生成する。大学院レベルの有限要素法(FEM)コースを事例研究として、トレーニングデータを体系的に構築し、Low-Rank Adaptation(LoRA)を用いてオープンソースのLLMを微調整し、RAGベースの合成を通じてその応答を最適化するスケーラブルなパイプラインを提示する。評価では、コサイン類似度、LLMベースの評価、専門家レビューを組み合わせ、教材との強い整合性を示している。また、https://my-ai-university.comで利用可能なプロトタイプのウェブアプリケーションを開発し、AI生成の応答を関連教材の特定のセクションやオープンアクセスの講義ビデオのタイムスタンプ付きインスタンスにリンクすることで、トレーサビリティを向上させている。専門家モデルは、86%のテストケースで参照資料とのコサイン類似度が高かった。また、LLM判定者によると、専門家モデルはベースのLlama 3.2モデルを約5回中4回の割合で上回った。AI-Uは、AI支援教育のスケーラブルなアプローチを提供し、高等教育における広範な採用への道を開く。ここでは、FEMのクラスという設定でフレームワークを提示した。FEMは、工学科学の博士課程および修士課程の学生を訓練する上で中心的な科目である。しかし、この設定は、科学分野の研究コンテンツにLLMを微調整するというより広範な文脈の一例に過ぎない。
本報告書は、CVPR 2025と併催された第4回Pixel-level Video Understanding in the Wild(PVUW)チャレンジの包括的な概要を提供する。チャレンジの成果、参加手法、および今後の研究方向性をまとめている。本チャレンジは2つのトラックを特徴としており、複雑なシーンにおけるビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションを対象としたMeViSから構成される。両トラックとも、実世界のシナリオをより適切に反映するために設計された新たでより挑戦的なデータセットを導入している。詳細な評価と分析を通じて、本チャレンジは複雑なビデオセグメンテーションにおける最新の技術動向と新興トレンドに関する貴重な洞察を提供する。詳細情報はワークショップのウェブサイト(https://pvuw.github.io/)に掲載されている。
3D LiDARシーン補完における拡散モデルの応用は、拡散の遅いサンプリング速度により制限されています。スコア蒸留は拡散サンプリングを加速しますが、性能の低下を伴います。一方、直接方策最適化(DPO)を用いた事後学習は、選好データを使用して性能を向上させます。本論文では、選好整合を伴うLiDARシーン補完のための新しい拡散蒸留フレームワークであるDistillation-DPOを提案します。まず、学生モデルが異なる初期ノイズを用いてペアの補完シーンを生成します。次に、LiDARシーン評価指標を選好として使用し、勝ち負けのサンプルペアを構築します。この構築は、ほとんどのLiDARシーン指標が有益であるが、直接最適化するには非微分可能であるため、合理的です。第三に、Distillation-DPOは、ペアの補完シーンにおける教師モデルと学生モデルのスコア関数の差を利用して学生モデルを最適化します。この手順は収束するまで繰り返されます。広範な実験により、最先端のLiDARシーン補完拡散モデルと比較して、Distillation-DPOがより高品質なシーン補完を達成し、補完速度を5倍以上加速することが示されています。私たちの知る限り、本手法は蒸留に選好学習を採用する最初の試みであり、選好整合蒸留に関する洞察を提供します。私たちのコードはhttps://github.com/happyw1nd/DistillationDPOで公開されています。
査読は科学出版における品質管理の基盤である。しかし、作業量の増加に伴い、「手っ取り早い」ヒューリスティックの意図せぬ使用、いわゆる「怠惰な思考」が繰り返し発生し、査読の質を損なう問題となっている。このようなヒューリスティックを検出する自動化手法は、査読プロセスの改善に役立つ可能性がある。しかし、この問題に関する自然言語処理(NLP)研究は限られており、検出ツールの開発を支援する現実世界のデータセットも存在しない。本研究では、細かい「怠惰な思考」カテゴリで注釈付けされた査読文のデータセット「LazyReview」を紹介する。分析の結果、大規模言語モデル(LLM)はゼロショット設定でこれらの事例を検出するのに苦戦することが明らかになった。しかし、本データセットを用いた指示ベースのファインチューニングにより、性能が10~20ポイント向上し、高品質なトレーニングデータの重要性が浮き彫りになった。さらに、制御実験により、「怠惰な思考」フィードバックを用いて修正された査読は、そのようなフィードバックなしで書かれた査読よりも包括的で実践的であることが示された。我々は、コミュニティ内の若手査読者をトレーニングするために使用できるデータセットと強化されたガイドラインを公開する予定である。(コードはこちらで公開中:https://github.com/UKPLab/arxiv2025-lazy-review)
大規模言語モデル(LLMs)の最近の進歩により、ビデオ理解において重要なブレークスルーがもたらされました。しかし、既存のモデルは、LLMsのコンテキスト長制約とビデオ内の膨大な情報量のため、長時間のビデオ処理に苦戦しています。最近のいくつかの手法は長時間ビデオ理解のために設計されていますが、トークン圧縮中に重要な情報を失い、音声などの追加モダリティに対応するのが難しい場合があります。本研究では、フレーム間の時間的関係を利用した動的長時間ビデオエンコーディング手法、Temporal Dynamic Context(TDC)を提案します。まず、ビデオをフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚-音声エンコーダーを使用してトークンにエンコードします。次に、各セグメント内のトークン数を削減するための新しい時間的コンテキスト圧縮器を提案します。具体的には、クエリベースのTransformerを使用して、ビデオ、音声、および指示テキストのトークンを限られた数の時間的コンテキストトークンに集約します。最後に、静的フレームトークンと時間的コンテキストトークンをLLMに供給してビデオ理解を行います。さらに、非常に長時間のビデオを処理するために、トレーニング不要の連鎖思考(chain-of-thought)戦略を提案します。この戦略では、複数のビデオセグメントから段階的に回答を抽出し、これらの中間回答が推論プロセスの一部として機能し、最終的な回答に貢献します。一般的なビデオ理解および音声-ビデオ理解のベンチマークで広範な実験を行い、本手法が優れた性能を示すことを確認しました。コードとモデルはhttps://github.com/Hoar012/TDC-Videoで公開されています。
ビジョン・ランゲージモデル(VLMs)は、テキスト、画像、テキストと画像が交互に配置されたデータ、さらには長時間の動画など、複数の形式の視覚的およびテキスト情報を処理することができます。本研究では、様々な表現を入力として用いたVLMsによるマルチモーダルプレゼンテーションの自動要約について、細かい定量分析と定性分析を行います。これらの実験を通じて、テキストが豊富なマルチモーダルドキュメントから、異なる入力長の予算の下で要約を生成するためのコスト効率の良い戦略を提案します。動画ストリームから抽出したスライドを生の動画に対して入力として使用することが有益であること、また、スライドと文字起こしを交互に配置した構造化された表現が最高のパフォーマンスを発揮することを示します。最後に、マルチモーダルプレゼンテーションにおけるクロスモーダル相互作用の性質について考察し、この種のドキュメントを理解するためのVLMsの能力を向上させるための提案を共有します。
最近提案されたForgetting Transformer(FoX)は、ソフトマックスアテンションにフォーゲットゲートを組み込み、標準的なRoPEベースのTransformerと比較して一貫して優れた、または同等の性能を示しています。特に、FoXの多くのアテンションヘッドは急速に忘却する傾向があり、各タイムステップでの出力が主にローカルコンテキストに依存するようになります。この観察に基づいて、FoXに対するAdaptive Computation Pruning(ACP)を提案します。これは、フォーゲットゲートによって強く減衰された入力-出力依存関係を含む計算を動的に刈り込む方法です。これは、刈り込まれたアテンション重みが無視できる程度に保たれるように、動的に設定された刈り込み閾値を使用して実現されます。FoXを用いた言語モデルの事前学習にACPを適用し、さまざまなモデルサイズとコンテキスト長にわたってソフトマックスアテンションのFLOPs数を約70%削減し、トレーニングスループットを約10%から35%向上させることを示します。さらに、コンテキスト長が長いほど、計算上の節約が大きくなります。これらの速度向上は、性能の低下を伴わずに達成されます。また、刈り込みパターンを調査したり、異なるアテンションヘッド間でのFLOPs節約の分布を分析するなど、この方法についてより深い洞察を提供するためのいくつかの分析を行います。私たちのコードはhttps://github.com/zhixuan-lin/arctic-foxで公開されています。
画像生成の成功に伴い、生成拡散モデルは識別タスクにも採用が増えています。これは、ピクセル生成が統一された知覚インターフェースを提供するためです。しかし、生成的なノイズ除去プロセスをそのまま識別目的に転用すると、これまでほとんど取り上げられてこなかった重要なギャップが明らかになります。生成モデルは、最終的な分布が妥当であれば中間のサンプリングエラーを許容しますが、参照画像セグメンテーションのような難しいマルチモーダルタスクでは、識別タスクでは全過程で厳密な精度が求められます。このギャップに着目し、私たちは生成拡散プロセスと知覚タスクの整合性を分析・強化し、ノイズ除去中に知覚品質がどのように進化するかに焦点を当てました。その結果、(1)初期のノイズ除去ステップが知覚品質に不釣り合いに寄与することがわかり、これを受けて各タイムステップの寄与を反映した学習目標を提案しました。(2)後期のノイズ除去ステップでは予期せぬ知覚品質の低下が見られ、トレーニングとノイズ除去の分布シフトに対する感度が浮き彫りになり、これを拡散モデルに特化したデータ拡張で対処しました。(3)生成プロセスはインタラクティブ性を独自に可能にし、多段階インタラクションにおける修正プロンプトに適応可能な制御可能なユーザーインターフェースとして機能します。これらの洞察により、アーキテクチャを変更することなく拡散ベースの知覚モデルを大幅に改善し、深度推定、参照画像セグメンテーション、汎用知覚タスクにおいて最先端の性能を達成しました。コードはhttps://github.com/ziqipang/ADDPで公開されています。
変化検出において頻繁に使用されるにもかかわらず、ConvNetsとVision Transformers(ViT)は両者ともよく知られた限界を示しています。具体的には、前者は長距離依存関係をモデル化するのに苦労し、後者は計算効率が低く、大規模データセットでの学習が困難です。State Space Modelsに基づくアーキテクチャであるVision Mambaは、これらの欠点を解決する代替手段として登場し、すでにリモートセンシングの変化検出に適用されていますが、主に特徴抽出のバックボーンとして使用されています。本論文では、二時相画像間の関連する変化に焦点を当て、無関係な情報を効果的にフィルタリングするために特別に設計されたChange State Space Modelを紹介します。変化した特徴のみに集中することで、ネットワークのパラメータ数を削減し、計算効率を大幅に向上させながら、高い検出性能と入力劣化に対する堅牢性を維持します。提案モデルは3つのベンチマークデータセットで評価され、ConvNets、ViTs、およびMambaベースのモデルを計算複雑性の一部で上回りました。実装は受理後、https://github.com/Elman295/CSSMで公開されます。