翻訳付きの日次キュレーションされたAI研究論文
視覚的推論は人間の知性の中核をなす要素であり、高度なマルチモーダルモデルにとって重要な能力です。しかし、現在のマルチモーダル大規模言語モデル(MLLM)の推論評価は、テキスト記述に依存しがちで、言語ベースの推論ショートカットを許容しており、真の視覚中心の推論を測定できていません。この問題に対処するため、我々はVisuLogicを導入しました:これは6つのカテゴリ(例:量的変化、空間関係、属性比較)にわたる1,000の人間検証済み問題からなるベンチマークです。これらの多様なタイプの質問を評価することで、MLLMの視覚的推論能力を多角的に測定できます。我々は主要なMLLMをこのベンチマークで評価し、その結果を分析して共通の失敗パターンを特定しました。ほとんどのモデルは30%以下の精度しか達成できず、25%のランダムベースラインをわずかに上回るだけで、人間が達成した51.4%を大きく下回っており、視覚的推論における大きなギャップが明らかになりました。さらに、さらなる進展を支援するため、補助的なトレーニングデータセットと強化学習ベースラインを提供します。
強力な推論能力を言語モデルにおいてどのようにコスト効率良く実現できるか?この根本的な問いに駆られて、我々はTinaという、高いコスト効率で達成された極小規模の推論モデルファミリーを提案する。特に注目すべきは、Tinaが最小限のリソースのみを用いて、強化学習(RL)中にパラメータ効率の良い更新(低ランク適応法:LoRA)を適用することで、わずか1.5Bパラメータの極小規模ベースモデルから、大幅な推論性能を発展させた点である。このミニマリスト的アプローチにより、同じベースモデルに基づいて構築されたSOTA(State-of-the-Art)RL推論モデルと競合し、時には凌駕する推論性能を達成するモデルが生み出された。重要なのは、これが既存のSOTAモデルが用いる計算コストのごく一部で実現されている点である。実際、最良のTinaモデルは、AIME24において20%以上の推論性能向上と43.33%のPass@1精度を達成し、ポストトレーニングと評価コストはわずか9米ドル(推定260倍のコスト削減)であった。我々の研究は、LoRAを介した効率的なRL推論の驚くべき有効性を明らかにした。これを、単一の固定されたハイパーパラメータセットから始めて、複数のオープンソース推論データセットと様々なアブレーション設定にわたって検証した。さらに、この有効性と効率性は、LoRAがRLによって報酬される推論の構造的フォーマットにモデルを迅速に適応させつつ、ベースモデルの基礎知識をほぼ維持することに起因すると仮説を立てた。アクセシビリティとオープンリサーチに貢献するため、すべてのコード、トレーニングログ、モデル重み&チェックポイントを完全にオープンソース化した。
本論文では、高いID類似性、属性保存、画像忠実度、そして高速な推論速度を実現する拡散モデルベースの顔交換モデル「DreamID」を紹介します。従来の顔交換トレーニングプロセスは、暗黙的な監視に依存しがちで、満足のいく結果を得ることが難しい状況でした。DreamIDは、Triplet ID Groupデータを構築することで顔交換に対する明示的な監視を確立し、ID類似性と属性保存を大幅に向上させます。拡散モデルの反復的な性質は、効率的な画像空間損失関数の利用に課題を投げかけます。なぜなら、トレーニング中に生成画像を得るために時間のかかる多段階サンプリングを実行することは非現実的だからです。この問題に対処するため、我々は高速化された拡散モデルSD Turboを活用し、推論ステップを単一の反復に削減することで、明示的なTriplet ID Group監視を用いた効率的なピクセルレベルのエンドツーエンドトレーニングを可能にします。さらに、SwapNet、FaceNet、ID Adapterから構成される改良された拡散ベースのモデルアーキテクチャを提案します。この堅牢なアーキテクチャは、Triplet ID Groupの明示的監視の力を最大限に引き出します。最後に、我々の手法をさらに拡張するため、トレーニング中にTriplet ID Groupデータを明示的に修正し、眼鏡や顔の形などの特定の属性を微調整して保存します。大規模な実験により、DreamIDがID類似性、ポーズと表情の保存、画像忠実度の点で最先端の手法を凌駕することが実証されました。全体として、DreamIDは512*512解像度での高品質な顔交換結果をわずか0.6秒で達成し、複雑な照明、大きな角度、オクルージョンといった困難なシナリオでも優れた性能を発揮します。
我々は、大規模言語モデル(LLM)の物理的コンテキストにおける推論能力を評価するために設計された、新規で高品質なベンチマーク「PHYBench」を紹介する。PHYBenchは、現実世界の物理シナリオに基づいて厳選された500の物理問題で構成されており、モデルが現実的な物理プロセスを理解し推論する能力を評価することを目的としている。力学、電磁気学、熱力学、光学、現代物理学、および高度な物理学をカバーし、高校レベルの演習から大学レベルの問題、さらには物理オリンピックの課題まで、難易度の幅広い問題を網羅している。さらに、我々は数式間の編集距離に基づく新規の評価指標「Expression Edit Distance(EED)スコア」を提案し、従来の二値スコアリング手法を超えて、モデルの推論プロセスと結果の差異を効果的に捉える。我々はPHYBench上で様々なLLMを評価し、その性能を人間の専門家と比較する。結果は、最先端の推論モデルでさえ人間の専門家に大きく遅れをとっていることを明らかにし、複雑な物理推論シナリオにおけるその限界と改善の必要性を浮き彫りにしている。我々のベンチマーク結果とデータセットは、https://phybench-official.github.io/phybench-demo/ で公開されている。
私たちは、最もトークン効率の高い韓国語中心の多言語LLM「Trillion-7B」を紹介します。新たに開発したCross-lingual Document Attention(XLDA)メカニズムにより、英語から韓国語や日本語などのターゲット言語への知識伝達が非常に効率的かつ効果的に実現されます。最適化されたデータ混合、言語固有のフィルタリング、そしてカスタマイズされたトークナイザー構築を組み合わせることで、Trillion-7Bは2兆のトレーニングトークンのうちわずか10%を多言語データに割り当て、完全なトレーニングに必要なH100 GPU時間は59.4K時間(\$148K)という競争力のあるパフォーマンスを達成しています。4言語にわたる27のベンチマークでの包括的な評価により、Trillion-7Bの堅牢な多言語性能と卓越した言語間一貫性が実証されています。
表現学習の分野が拡大するにつれ、さまざまな問題クラスを解決するための多様な損失関数が増加してきました。本論文では、機械学習における現代の損失関数の多くを一般化する単一の情報理論的方程式を紹介します。特に、いくつかの広範な機械学習手法のクラスが、2つの条件付き分布(教師信号と学習された表現)間の統合KLダイバージェンスを正確に最小化していることを示すフレームワークを提案します。この視点は、クラスタリング、スペクトル法、次元削減、コントラスティブ学習、そして教師あり学習の背後に隠された情報幾何学を明らかにします。このフレームワークにより、文献中の成功した技術を組み合わせることで新しい損失関数を開発することが可能になります。我々は、23以上の異なるアプローチを結びつける幅広い証明を提示するだけでなく、これらの理論的結果を活用して、ImageNet-1Kにおける教師なし分類で従来の最先端を+8%改善する最先端の教師なし画像分類器を開発しました。また、I-Conが、コントラスティブ表現学習器の偏りを改善する原理的な方法を導出するために使用できることも実証しました。
近年、画像のカスタマイズ(例:アイデンティティ、被写体、スタイル、背景など)に関する広範な研究が、大規模生成モデルにおける強力なカスタマイズ能力を示しています。しかし、ほとんどのアプローチは特定のタスク向けに設計されており、異なる種類の条件を組み合わせる汎用性が制限されています。画像カスタマイズのための統一フレームワークの開発は、依然として未解決の課題です。本論文では、幅広いタスクをサポートし、複数の条件をシームレスに統合することを可能にする画像カスタマイズフレームワーク、DreamOを提案します。具体的には、DreamOは拡散トランスフォーマー(DiT)フレームワークを利用して、異なる種類の入力を一様に処理します。トレーニング中、我々は様々なカスタマイズタスクを含む大規模なトレーニングデータセットを構築し、参照画像から関連情報を正確にクエリするための特徴ルーティング制約を導入します。さらに、特定のプレースホルダーを特定の位置の条件に関連付けるプレースホルダー戦略を設計し、生成結果における条件の配置を制御できるようにします。また、3段階からなる段階的トレーニング戦略を採用します。最初の段階では、限られたデータを用いた簡単なタスクに焦点を当ててベースラインの一貫性を確立し、次の段階ではカスタマイズ能力を包括的に強化し、最後の段階では低品質データによって導入された品質の偏りを修正します。広範な実験により、提案されたDreamOが、高品質で様々な画像カスタマイズタスクを効果的に実行し、異なる種類の制御条件を柔軟に統合できることが実証されています。
本論文は、AI数学オリンピアド - Progress Prize 2 (AIMO-2) コンペティションにおける優勝ソリューションを紹介する。我々の最先端の数学的推論モデル構築のレシピは、3つの重要な柱に基づいている。第一に、オリンピアドレベルの問題を含む54万件のユニークな高品質な数学問題と、それらの320万件の長文推論解法からなる大規模データセットを作成した。第二に、コード実行と長文推論モデルを反復的なトレーニング、生成、品質フィルタリングを通じて統合する新規の手法を開発し、170万件の高品質なツール統合推論解法を生成した。第三に、多数の候補から最も有望な解法を選択するモデルをトレーニングするパイプラインを構築した。この生成的解法選択(GenSelect)が多数決ベースラインを大幅に改善できることを示す。これらのアイデアを組み合わせ、数学的推論ベンチマークで最先端の結果を達成する一連のモデルをトレーニングした。さらなる研究を促進するため、商用利用可能なライセンスの下でコード、モデル、および完全なOpenMathReasoningデータセットを公開する。
Direct Preference Optimization (DPO)は、大規模言語モデル(LLM)に対する人間のフィードバックからの強化学習(RLHF)を簡素化し、明示的な報酬モデルなしで人間の選好を直接最適化します。DPOのトレーニング中、参照モデルはデータの重み調整役として機能することがわかります。しかし、DPOにおいてポリシーモデルと参照モデルを同一に初期化する一般的な慣習は、データの非効率的な利用を招き、性能の上限を課す可能性があります。一方、Simple Preference Optimization (SimPO)では参照モデルが存在しないため、トレーニングの堅牢性が低下し、破滅的な忘却を防ぐためにより厳しい条件が必要となります。本研究では、Pre-DPOを提案します。これは、ガイドとなる参照モデルを活用して選好最適化の性能を向上させる、シンプルでありながら効果的なDPOベースのトレーニングパラダイムです。この参照モデルは、トレーニング選好データを通じて達成可能な最適なポリシー状態に対する洞察を提供し、モデルに適したサンプルにはより高い重みを、適さないサンプルにはより低い重みを適応的に割り当てるガイドメカニズムとして機能します。AlpacaEval 2.0およびArena-Hard v0.1ベンチマークでの広範な実験により、Pre-DPOが外部モデルや追加データに依存することなく、DPOとSimPOの両方の性能を一貫して向上させることが実証されています。
コントラスティブ言語-画像事前学習(CLIP)は、画像とテキストのモダリティを整列させることで、複数の下流タスクで成功を収めてきました。しかし、グローバルなコントラスティブ学習の性質上、CLIPは関係や属性といった構成的な概念を理解する能力に限界があります。最近の研究では、構成的理解を向上させるためにグローバルなハードネガティブサンプルを使用していますが、これらの方法は、テキストのネガティブサンプルを埋め込み空間で画像から強制的に遠ざけることで、モデルの本来の汎用能力を大幅に損なっています。この制限を克服するため、私たちは構成的理解を向上させながら、汎用能力の損失を大幅に軽減するDecoupled Global-Local Alignment(DeGLA)フレームワークを提案します。モデルの本来の能力を保持する最適化のために、グローバル整列プロセス内に自己蒸留メカニズムを組み込み、学習可能な画像-テキストエンコーダを指数移動平均から導出された凍結された教師モデルと整列させます。自己蒸留の制約下では、ファインチューニング中の事前学習知識の破滅的な忘却を効果的に軽減します。構成的理解を向上させるために、まず大規模言語モデル(LLM)の文脈内学習能力を活用して、5つのタイプにわたる約200万の高品質なネガティブキャプションを構築します。その後、視覚-言語の構成的能力を強化するために、Image-Grounded Contrast(IGC)損失とText-Grounded Contrast(TGC)損失を提案します。広範な実験結果は、DeGLAフレームワークの有効性を示しています。以前の最先端の方法と比較して、DeGLAはVALSE、SugarCrepe、およびAROベンチマークで平均3.5%の向上を達成しました。同時に、11のデータセットにわたるゼロショット分類タスクで平均13.0%の性能向上を実現しました。私たちのコードはhttps://github.com/xiaoxing2001/DeGLAで公開されます。
大規模言語モデル(LLMs)の目覚ましい成功は、学術界と産業界の両方にとって人工汎用知能(AGI)を実現するための有望な道筋を示しており、これは様々なアプリケーションにおける前例のない性能によるものです。LLMsが研究と商業の両分野で重要性を増し続ける中、そのセキュリティと安全性への影響は、研究者や企業だけでなく、各国にとってもますます懸念される問題となっています。現在、既存のLLM安全性に関する調査は、主にLLMライフサイクルの特定の段階、例えば展開段階やファインチューニング段階に焦点を当てており、LLMの「ライフチェーン」全体を包括的に理解するものではありません。このギャップを埋めるため、本論文では初めて「フルスタック」安全性の概念を導入し、LLMのトレーニング、展開、そして最終的な商業化に至る全プロセスにおける安全性問題を体系的に考察します。既存のLLM安全性調査と比較して、我々の研究は以下のような特徴的な利点を示しています:(I)包括的視点。我々はLLMの完全なライフサイクルを、データ準備、事前学習、事後学習、展開、そして最終的な商業化を含むものと定義します。我々の知る限り、これはLLMのライフサイクル全体を網羅する初めての安全性調査です。(II)広範な文献サポート。我々の研究は800以上の論文を徹底的にレビューした上で行われており、より包括的な理解の下でセキュリティ問題を体系的に整理しています。(III)独自の洞察。体系的文献分析を通じて、各章に対して信頼性のあるロードマップと視点を開発しました。我々の研究は、データ生成の安全性、アライメント技術、モデル編集、LLMベースのエージェントシステムなど、有望な研究方向性を特定しています。これらの洞察は、この分野で将来の研究を進める研究者にとって貴重な指針を提供します。
最近、DeepSeek-R1(671B)(DeepSeek-AI et al., 2025)は複雑なタスクにおける優れた推論能力を実証し、その方法論を公開しました。これにより、小規模な大規模言語モデル(LLM)の推論能力を刺激するための高品質な連鎖思考(CoT)データが提供される可能性があります。異なるLLM向けに高品質なCoTデータを生成するため、我々はLLM適応型の質問難易度レベルを用いた効率的なCoTデータ生成方法を模索しています。まず、LLM自身の推論能力に基づいて質問の難易度を評価し、LLM適応型の質問データベースを構築します。次に、質問の難易度レベルに基づいて問題データベースをサンプリングし、DeepSeek-R1(671B)(DeepSeek-AI et al., 2025)を使用して対応する高品質なCoTデータと正解を生成します。LLM適応型の難易度レベルを持つCoTデータの構築により、データ生成のコストを大幅に削減し、モデルの教師あり微調整(SFT)の効率を向上させました。最後に、複雑な数学競技やコード生成タスクの分野において、提案手法の有効性と汎用性を検証しました。特に、わずか2kの高品質な数学CoTデータを用いて、我々のZMath-32Bは数学推論タスクにおいてDeepSeek-Distill-32Bを上回りました。同様に、わずか2kの高品質なコードCoTデータを用いて、ZCode-32Bはコード推論タスクにおいてDeepSeek-Distill-32Bを上回りました。
データアノテーションはコストがかかるため、ベンチマークデータセットでは既存の画像データセットのラベルを組み込むことが多い。本研究では、MSCOCOのラベルエラーが頻繁に使用される物体幻覚ベンチマークPOPEに与える影響を評価する。ベンチマーク画像を再アノテーションし、異なるサブセット間でアノテーションエラーの不均衡を特定した。修正されたラベル(RePOPEと称する)を用いて複数のモデルを評価した結果、モデルのランキングに顕著な変化が観察され、ラベル品質の影響が浮き彫りになった。コードとデータはhttps://github.com/YanNeu/RePOPEで公開されている。
因果分析は科学的発見と信頼性の高い意思決定において基盤的な役割を果たすが、その概念的およびアルゴリズム的な複雑さのため、ドメイン専門家にとって依然としてアクセスしにくい状況にある。この因果的方法論と実用的な使いやすさの間の隔たりは、二重の課題を提示している:ドメイン専門家は最近の因果学習の進展を活用できず、因果研究者は自身の手法をテストし洗練するための広範な実世界での展開を欠いている。この問題に対処するため、我々はCausal-Copilotを紹介する。これは、大規模言語モデルのフレームワーク内で専門家レベルの因果分析を運用化する自律エージェントである。Causal-Copilotは、表形式データと時系列データの両方に対する因果分析の全パイプラインを自動化する。これには、因果発見、因果推論、アルゴリズム選択、ハイパーパラメータ最適化、結果の解釈、および実践的な洞察の生成が含まれる。自然言語によるインタラクティブな改良をサポートし、非専門家の障壁を下げながら方法論的な厳密さを維持する。20以上の最先端の因果分析技術を統合することで、我々のシステムは好循環を促進する。ドメイン専門家にとって高度な因果手法へのアクセスを拡大し、因果理論を情報提供し進化させる豊かな実世界のアプリケーションを生成する。実証評価により、Causal-Copilotは既存のベースラインと比較して優れた性能を達成し、因果分析における理論的な洗練と実世界での適用性のギャップを埋める信頼性が高く、拡張可能でスケーラブルなソリューションを提供することが示されている。Causal-Copilotのライブインタラクティブデモはhttps://causalcopilot.com/で利用可能である。
CからRustへのトランスパイルは、レガシーCコードの近代化と、現代のRustエコシステムとの安全性と相互運用性の向上に不可欠です。しかし、Cを安全なRustにトランスパイルし、一連のテストケースを通過できるかどうかを評価するためのデータセットは現在存在しません。本論文では、CRUST-Benchを紹介します。これは100のCリポジトリからなるデータセットで、各リポジトリには手動で記述された安全なRustのインターフェースと、トランスパイルの正しさを検証するためのテストケースがペアになっています。単体の関数ではなくリポジトリ全体を考慮することで、CRUST-Benchは複数のファイルにまたがる依存関係を持つ複雑なプロジェクトの翻訳における課題を捉えています。提供されるRustインターフェースは、慣用的でメモリ安全なRustパターンに準拠することを保証する明示的な仕様を提供し、付随するテストケースは機能的な正しさを強制します。我々は、最先端の大規模言語モデル(LLM)をこのタスクで評価し、安全で慣用的なRustの生成が、様々な最先端の手法や技術にとって依然として難しい問題であることを明らかにしました。また、LLMがCから安全なRustへのコードトランスパイルで通常犯すエラーについての洞察も提供します。最高のパフォーマンスを示したモデルであるOpenAI o1でさえ、シングルショット設定では15のタスクしか解決できませんでした。CRUST-Benchの改善は、複雑なシナリオを推論し、レガシーコードベースをCからメモリ安全性を保証するRustのような言語に移行するのに役立つ、より優れたトランスパイルシステムの開発につながるでしょう。データセットとコードはhttps://github.com/anirudhkhatry/CRUST-benchで見つけることができます。
チェックボックスは、現実世界の文書処理において極めて重要であり、チェックの有無がデータ抽出や意思決定プロセスに直接影響を及ぼします。しかし、大規模な視覚と言語モデルが幅広いタスクで高い性能を発揮しているにもかかわらず、チェック可能なコンテンツの解釈には苦戦しています。この課題は、単一のチェックボックスを見落とすことが高額な規制や契約上の見落としにつながる可能性のある業界において特に深刻です。このギャップを埋めるため、私たちはCheckboxQAデータセットを導入しました。これは、チェックボックス関連タスクにおけるモデルの性能を評価し向上させるために設計されたターゲットリソースです。このデータセットは、現在のモデルの限界を明らかにし、文書理解システムの進歩に貢献する貴重なツールとして機能し、法務テックや金融などのセクターにおける応用に重要な意味を持ちます。 データセットは以下のURLで公開されています: https://github.com/Snowflake-Labs/CheckboxQA
マルチタスク視覚的グラウンディング(MTVG)は、参照表現理解(REC)と参照表現セグメンテーション(RES)という2つのサブタスクを含む。既存の代表的なアプローチは、視覚と言語のモダリティそれぞれに対する独立した特徴抽出、クロスモーダル相互作用モジュール、異なるサブタスクに対する独立した予測ヘッドという3つの主要な手順からなる研究パイプラインに従うことが一般的である。顕著な性能を達成しているものの、この研究ラインには2つの限界がある:1)言語内容が視覚バックボーン全体に十分に注入されておらず、より効果的な視覚特徴抽出を促進するために追加のクロスモーダル相互作用モジュールが必要であること、2)RECとRESタスク間の関係が効果的に活用されておらず、より正確な出力のための協調的予測に役立っていないこと。これらの問題に対処するため、本論文では、マルチタスク視覚的グラウンディングのための漸進的言語誘導視覚学習フレームワーク(PLVL)を提案する。PLVLは、視覚モダリティ自体の内在的な特徴表現を細かく掘り下げるだけでなく、言語情報を漸進的に注入して言語関連の視覚特徴の学習を支援する。この方法により、PLVLは追加のクロスモーダル融合モジュールを必要とせず、言語ガイダンスを完全に導入する。さらに、RECの局所化中心がRESのセグメンテーション対象領域の識別にある程度役立つことを分析する。この調査に基づき、これら2つのサブタスクの協調的予測を達成するためのマルチタスクヘッドを設計する。いくつかのベンチマークデータセットで実施された広範な実験により、PLVLがRECとRESタスクの両方において代表的な手法を明らかに上回ることが包括的に実証された。 https://github.com/jcwang0602/PLVL