翻訳付きの日次キュレーションされたAI研究論文
私たちは、ネイティブなマルチモーダル事前学習パラダイムを特徴とするInternVLシリーズの大幅な進化版であるInternVL3を紹介します。テキスト専用の大規模言語モデル(LLM)を視覚入力をサポートするマルチモーダル大規模言語モデル(MLLM)に適応させるのではなく、InternVL3は、単一の事前学習段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダル能力と言語能力を同時に獲得します。この統一された学習パラダイムは、従来のMLLMの事後学習パイプラインでよく見られる複雑さとアライメントの課題を効果的に解決します。さらに、パフォーマンスとスケーラビリティを向上させるため、InternVL3は拡張されたマルチモーダルコンテキストをサポートする可変視覚位置エンコーディング(V2PE)を組み込み、教師ありファインチューニング(SFT)や混合嗜好最適化(MPO)などの高度な事後学習技術を採用し、テスト時のスケーリング戦略と最適化された学習インフラを導入しています。広範な実証評価により、InternVL3が多様なマルチモーダルタスクで優れた性能を発揮することが示されています。特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースのMLLMの中で新たな最先端を樹立しました。その能力は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなどの主要なプロプライエタリモデルと高い競争力を維持しつつ、純粋な言語能力も強く保持しています。オープンサイエンスの原則に則り、次世代MLLMの研究開発を促進するため、学習データとモデル重みを公開する予定です。
DeepSeek R1とQwQ 32Bの登場により、家庭用デバイスで最先端の大規模言語モデル(LLM)を実行するための性能障壁が突破されました。消費者向けハードウェアが強化され、モデルの量子化技術が進化している一方で、既存のエンドサイドソリューションは依然としてGPUクラスタ、大容量のRAM/VRAM、および高帯域幅を必要とし、一般的な家庭用クラスタが扱える範囲をはるかに超えています。本論文では、prima.cppを紹介します。これは、CPU/GPUの混合、低容量のRAM/VRAM、Wi-Fi、およびクロスプラットフォームサポートを利用して、日常的な家庭用デバイスで70Bスケールのモデルを実行する分散推論システムです。mmapを使用してモデルの重みを管理し、プリフェッチングを伴うパイプドリング並列処理を導入してディスクローディングを隠蔽します。計算、通信、ディスク、メモリ(およびその管理動作)、OSの異質性をモデル化することで、モデルの各層を各デバイスのCPUとGPUに最適に割り当て、トークンのレイテンシをさらに削減します。このNP困難な割り当て問題を解決するために、Haldaという洗練されたアルゴリズムを提案します。prima.cppを一般的な4ノードの家庭用クラスタで評価した結果、30B以上のモデルにおいてllama.cpp、exo、dllamaを上回り、メモリ負荷を6%未満に抑えました。これにより、Llama 3、DeepSeek R1、Qwen 2.5、QwQなどの最先端の30B-70Bモデルが家庭用アシスタントに導入され、個人が高度なAIを真に利用可能になります。コードはオープンソースで、https://github.com/Lizonghang/prima.cpp で公開されています。
OpenAIのマルチモーダルGPT-4oは、画像生成と編集において顕著な能力を発揮しているが、世界知識に基づく意味的合成——ドメイン知識、文脈的推論、指示の遵守をシームレスに統合する能力——については未だ証明されていない。本研究では、これらの能力を3つの重要な次元にわたって体系的に評価する:(1) グローバルな指示遵守、(2) 細粒度編集精度、(3) 生成後の推論。既存のベンチマークはGPT-4oの画像生成と編集における強力な能力を強調しているが、我々の評価はGPT-4oの持続的な限界を明らかにしている:モデルは頻繁に指示を文字通り解釈し、知識制約を一貫して適用せず、条件付き推論タスクに苦戦する。これらの発見は、GPT-4oの統一的理解と生成能力に関する通説に疑問を投げかけ、動的な知識統合における重大なギャップを露呈している。本研究は、表面的な整合性を超えた、文脈を意識し推論に基づいたマルチモーダル生成を強調する、より堅牢なベンチマークとトレーニング戦略の開発を提唱する。
最近、GPT-o1やDeepSeek-R1のような遅考型システムが、明示的な省察を通じて難解な問題を解決する大きな可能性を示しています。これらのシステムは、GPT-4oのような最速の速考型モデルを、様々な数学や科学のベンチマークで大幅に上回っています。しかし、それらのマルチモーダル推論能力は、速考型モデルと同等のままです。例えば、GPT-o1のMathVista、MathVerse、MathVisionなどのベンチマークでの性能は、速考型モデルと似ています。本論文では、蒸留に頼らずに強化学習を用いて、視覚言語モデルの遅考型能力を向上させ、最先端の技術を進歩させることを目指します。まず、GRPOアルゴリズムを、新たな技術であるSelective Sample Replay(SSR)を用いて適応させ、利点消失問題に対処します。このアプローチは強力な性能をもたらしますが、結果として得られたRLトレーニングモデルは、自己省察や自己検証が限られています。さらに遅考型を促進するために、Forced Rethinkingを導入します。これは、RLトレーニングの初期ロールアウトの最後にテキストの再考トリガーを追加し、明示的に自己省察推論ステップを強制します。これら二つの技術を組み合わせることで、我々のモデルVL-Rethinkerは、MathVista、MathVerse、MathVisionでの最先端のスコアをそれぞれ80.3%、61.8%、43.9%に進歩させました。VL-Rethinkerはまた、MMMU-Pro、EMMA、MEGA-Benchなどの多分野ベンチマークでオープンソースのSoTAを達成し、GPT-o1とのギャップを縮めています。
我々は、完全な視覚-言語アライメントと統合パラダイムを備えたマルチモーダル大規模言語モデル(MLLM)ファミリーであるFUSIONを紹介する。既存の手法が主にLLMデコーディング段階での後期モダリティ相互作用に依存しているのに対し、我々のアプローチは処理パイプライン全体にわたる深く動的な統合を実現する。この目的のために、テキスト情報を視覚エンコーディングに組み込むことでピクセルレベルの統合を達成するText-Guided Unified Vision Encodingを提案する。さらに、デコーディング中にテキストコンテキストに基づいて視覚特徴を再帰的に集約するContext-Aware Recursive Alignment Decodingを設計し、細粒度の質問レベルでの意味的統合を可能にする。特徴マッピングをガイドし、モダリティ間の不一致を緩和するために、Dual-Supervised Semantic Mapping Lossを開発する。加えて、新しいデータ合成手法を通じてSynthesized Language-Driven Question-Answer (QA)データセットを構築し、高品質なQAペアを優先することでテキストガイド付き特徴統合を最適化する。これらの基盤に基づいて、我々はFUSIONを3Bと8Bの2つのスケールでトレーニングし、630の視覚トークンだけで既存の手法を大幅に上回る完全モダリティ統合アプローチの有効性を実証する。特に、FUSION 3BはほとんどのベンチマークでCambrian-1 8BとFlorence-VL 8Bを上回る。FUSION 3Bは、視覚トークンを300に制限した場合でもCambrian-1 8Bを上回り続ける。我々のアブレーション研究は、動的解像度なしで同じ設定下でFUSIONがLLaVA-NeXTを過半数のベンチマークで上回ることを示し、我々のアプローチの有効性を強調する。我々はコード、モデル重み、データセットを公開する。https://github.com/starriver030515/FUSION
複雑なプログラミングタスクを解決する高品質なコードを生成することは、特に現在のデコーダベースのモデルが高度に確率的な出力を生成する場合において、困難な課題です。コード生成においては、些細なエラーでも全体のソリューションを簡単に破壊してしまいます。複数のサンプルソリューションを活用することで、全体の出力品質を大幅に向上させることができます。 コード生成を強化する効果的な方法の一つは、コード生成モデルとリランカーモデルを組み合わせることです。リランカーモデルは、生成されたサンプルから最良のソリューションを選択します。本論文では、Proximal Policy Optimization (PPO) を使用したリランカーモデルの自己訓練のための新しい反復的アプローチを提案し、リランキングの精度とコード生成プロセス全体の改善を目指します。従来のPPOアプローチでは、生成モデルを報酬モデルで最適化することに焦点が当てられていましたが、本アプローチでは、堅牢な報酬/リランキングモデルの開発に重点を置いています。このモデルは、リランキングを通じて生成コードの品質を向上させ、PPOによるリランカーとの整合中に報酬モデルが見落とす可能性のある問題やエラーに対処します。本手法は、出力を再評価し、高スコアのネガティブ例を特定し、それらをトレーニングループに組み込むことで、トレーニングデータセットを反復的に洗練し、モデルの性能を向上させます。 MultiPL-Eデータセットでの評価では、13.4Bパラメータのモデルが33Bモデルをコード生成品質で上回り、かつ3倍高速であることを示しています。さらに、GPT-4に匹敵する性能を達成し、一つのプログラミング言語ではそれを上回る結果を示しています。
マルチモーダル大規模言語モデル(MLLMs)における長文脈ビデオ理解は、計算効率と細粒度の時空間パターンの保持とのバランスを取るという重要な課題に直面しています。既存のアプローチ(例えば、疎サンプリング、低解像度での密サンプリング、トークン圧縮など)は、特に複雑な動きや解像度が変化するビデオにおいて、時間的ダイナミクス、空間的詳細、または微妙な相互作用において重大な情報損失を被ります。これを解決するために、我々はMavorsという新しいフレームワークを提案します。Mavorsは、ホリスティックな長尺ビデオモデリングのためのマルチグラニュラリティビデオ表現を導入します。具体的には、Mavorsは生のビデオコンテンツを潜在表現に直接エンコードするために、2つのコアコンポーネントを備えています:1)3D畳み込みとVision Transformersを介して高解像度の空間的特徴を保持するIntra-chunk Vision Encoder(IVE)、および2)チャンクレベルロータリーポジションエンコーディングを用いたトランスフォーマーベースの依存関係モデリングにより、チャンク間の時間的整合性を確立するInter-chunk Feature Aggregator(IFA)。さらに、このフレームワークは、画像をサブ画像分解を介して単一フレームのビデオとして扱うことで、画像とビデオの理解を統合します。多様なベンチマークでの実験により、Mavorsが空間的忠実度と時間的連続性の両方を維持する優位性が示され、細粒度の時空間推論を必要とするタスクにおいて既存の手法を大幅に上回ることが実証されました。
Webエージェントは、ユーザーが自然言語によるインタラクションを通じてWebブラウザ上でタスクを実行できるようにするものです。Webエージェントの軌跡を評価することは重要な課題であり、エージェントがタスクを成功裏に完了したかどうかを判断するのに役立ちます。この目的のためにルールベースの手法が広く使用されていますが、新しいタスクに拡張するのが難しく、成功した軌跡を常に認識できるとは限りません。人間による評価ではより高い精度を達成できる可能性がありますが、そのプロセスは大幅に遅く、コストもかかります。LLM(大規模言語モデル)を用いた自動評価は、新しいルールの設計や軌跡の手動アノテーションの課題を回避し、迅速かつコスト効果の高い評価を可能にします。しかし、Webエージェントの評価においてLLMがどれほど効果的であるかは明らかではありません。この目的のために、我々はLLMジャッジがWebエージェントを評価する際の有効性を測定する最初のベンチマークであるAgentRewardBenchを提案します。AgentRewardBenchは、5つのベンチマークと4つのLLMにわたる1302の軌跡を含んでいます。AgentRewardBenchの各軌跡は専門家によってレビューされ、エージェントの成功、副作用、反復性に関する質問に回答します。このベンチマークを使用して、12のLLMジャッジを評価した結果、すべてのベンチマークで優れた性能を示す単一のLLMは存在しないことがわかりました。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小報告する傾向があり、ルールベース評価の主要な弱点と、より柔軟な自動評価の必要性を浮き彫りにしています。ベンチマークは以下で公開しています: https://agent-reward-bench.github.io
私たちは、大規模推論モデル(LRM)の直感的なシステム1思考を重視する単純なタスクにおける性能を評価するための新しいベンチマーク「S1-Bench」を紹介します。LRMは、明示的な思考連鎖を通じて複雑な推論タスクで大きなブレークスルーを達成していますが、深い分析的思考への依存がシステム1思考能力を制限する可能性があります。さらに、そのような能力を必要とするタスクにおけるLRMの性能を評価するためのベンチマークが現在存在していません。このギャップを埋めるため、S1-Benchは、複数のドメインと言語にわたる単純で多様かつ自然に明確な質問セットを提供し、そのようなタスクにおけるLRMの性能を評価するために特別に設計されています。22のLRMに対する包括的な評価では、従来の小規模LLMと比較して出力が平均15.5倍も長くなるという著しい非効率性が明らかになりました。さらに、LRMは正しい答えを早期に特定するものの、不必要な熟考を続け、一部のモデルでは多数のエラーを生成することさえあります。これらの発見は、現在のLRMの硬直した推論パターンを浮き彫りにし、タスクの複雑さに適応できるバランスの取れた二重システム思考能力を達成するために必要な大幅な開発を強調しています。
強化学習(RL)ベースのポストトレーニングにおける最近の進展により、大規模言語モデル(LLMs)の推論能力が向上し、複雑なタスクを処理する能力が顕著に改善されました。しかし、既存の手法の多くは、トレーニングデータを統一された全体として扱い、現代のLLMトレーニングが多様な分布(ソースと難易度が異なる)からなるデータの混合物を含むという事実を見落としています。この異質性は、学習効率を最適化するために分布間でトレーニングを適応的にスケジュールする方法という重要な課題を引き起こします。本論文では、分布レベルの学習可能性の概念に基づいた原則的なカリキュラム学習フレームワークを提示します。私たちの核心的な洞察は、ポリシーの優位性の大きさが、特定の分布でのさらなるトレーニングからモデルがどれだけ利益を得られるかを反映しているということです。これに基づいて、RLベースのLLMポストトレーニングのための分布レベルのカリキュラム学習フレームワークを提案します。このフレームワークは、Upper Confidence Bound(UCB)原則を活用して、異なる分布に対するサンプリング確率を動的に調整します。このアプローチは、高い平均優位性(活用)または低いサンプル数(探索)を持つ分布を優先し、適応的で理論的に裏付けられたトレーニングスケジュールを実現します。私たちは、GRPOを基盤とするRLアルゴリズムを用いてカリキュラム学習フレームワークを具体化し、複数の難易度とソースを持つ論理推論データセットでその有効性を実証します。実験結果は、私たちのフレームワークが収束速度と最終的なパフォーマンスを大幅に改善し、LLMポストトレーニングにおける分布を意識したカリキュラム戦略の価値を強調しています。コード: https://github.com/ZhentingWang/DUMP.
画像表現はしばしば断片的でタスク固有のプロトコルによって評価されるため、モデルの能力について断片的な理解しか得られない。例えば、画像のクラスタリングに長けた画像埋め込みモデルが、テキストを与えられた際に関連する画像を同等にうまく検索できるかどうかは不明である。我々は、これまでで最も広範な範囲にわたって画像および画像-テキスト埋め込みモデルの性能を評価するためのMassive Image Embedding Benchmark(MIEB)を導入する。MIEBは38言語にわたる130の個別タスクをカバーし、それらを8つの高レベルカテゴリに分類している。我々は50のモデルをこのベンチマークで評価し、すべてのタスクカテゴリで優位な単一の手法は存在しないことを明らかにした。また、高度な視覚モデルがテキストの正確な視覚表現を行うといった隠れた能力や、交絡因子が存在する状況でのインターリーブされたエンコーディングや画像とテキストのマッチングにおける限定的な能力を明らかにした。さらに、MIEBにおける視覚エンコーダの性能は、マルチモーダル大規模言語モデルで使用された際の性能と高い相関があることも示した。我々のコード、データセット、およびリーダーボードはhttps://github.com/embeddings-benchmark/mtebで公開されている。
社会的シミュレーションは、仮想個人とその環境間の相互作用を通じて人間の行動をモデル化することで、伝統的な社会科学研究を変革しつつあります。大規模言語モデル(LLM)の最近の進展により、このアプローチは個人差の把握や集団行動の予測においてますます可能性を示しています。しかし、既存の手法は、環境、ターゲットユーザー、相互作用メカニズム、行動パターンに関連する整合性の課題に直面しています。この課題に対処するため、我々はSocioVerseを紹介します。これは、LLMエージェント駆動の社会的シミュレーション用ワールドモデルです。我々のフレームワークは、4つの強力な整合性コンポーネントと1000万人の実在する個人からなるユーザープールを特徴としています。その有効性を検証するため、政治、ニュース、経済の3つの異なる領域で大規模なシミュレーション実験を実施しました。結果は、SocioVerseが標準化された手順と最小限の手動調整を通じて、多様性、信頼性、代表性を確保しながら大規模な人口動態を反映できることを示しています。
グラフィカルユーザーインターフェース(GUI)エージェントは、複雑なデジタルタスクの自動化におけるクロスプラットフォームソリューションを提供し、生産性ワークフローの変革に大きな可能性を秘めています。しかし、その性能は高品質な軌跡データの不足によって制約されることが多いです。この制限に対処するため、我々はデータが豊富で推論が重要なタスクに特化した中間訓練段階でVision Language Models(VLM)を訓練し、これらのタスクを組み込むことがGUI計画シナリオへの汎化をどのように促進するかを検証します。具体的には、GUI知覚、マルチモーダル推論、テキスト推論など、容易に利用可能な指示調整データを持つ一連のタスクを探索します。11の中間訓練タスクにわたる広範な実験を通じて、以下のことを実証します:(1)タスク汎化は非常に効果的であり、ほとんどの設定で大幅な改善をもたらします。例えば、マルチモーダル数学推論はAndroidWorldでの性能を絶対値で6.3%向上させます。注目すべきは、テキストのみの数学データがGUIウェブエージェントの性能を大幅に向上させ、WebArenaで5.6%、AndroidWorldで5.4%の改善を達成し、テキストベースから視覚領域への顕著なクロスモーダル汎化を示しています;(2)従来の仮定とは異なり、GUIエージェントタスクに密接に関連し、広く訓練に利用されてきたGUI知覚データは、最終的な性能に比較的限定的な影響しか及ぼしません;(3)これらの知見を基に、最も効果的な中間訓練タスクを特定し、最適化された混合データセットを構築し、WebArenaで8.0%、AndroidWorldで12.2%の絶対的な性能向上を実現しました。我々の研究は、GUIエージェントにおけるクロスドメイン知識転移に関する貴重な洞察を提供し、この新興分野におけるデータ不足の課題に対処する実践的なアプローチを提供します。コード、データ、モデルはhttps://github.com/hkust-nlp/GUIMidで公開されます。
近年、強化学習を通じた大規模マルチモーダルモデル(LMMs)の推論能力向上が大きな進展を見せています。しかし、既存研究の多くは数学やコードといった高度な推論を要するデータセットに基づいており、研究者は一般的に大規模モデルを基盤として選択しています。我々は、計算資源が限られた研究者にとって、小規模モデルの推論能力を探求することは依然として価値があると主張します。さらに、一般的な質問応答データセットにおいてモデルがその推論プロセスを説明できるようにすることも同様に意義深いと考えます。そこで、我々は小規模ビデオ推論モデルTinyLLaVA-Video-R1を提案します。これは4Bパラメータ以下のトレーサブルなトレーニングを受けたビデオ理解モデルTinyLLaVA-Videoを基盤としており、一般的なVideo-QAデータセットでの強化学習使用後、推論能力と思考能力が大幅に向上するだけでなく、「アハ体験」という創発的特性も示します。さらに、我々は一連の実験結果を共有し、今後の小規模モデルにおけるビデオ推論(思考)能力の探求に実践的な洞察を提供することを目指しています。本モデルはhttps://github.com/ZhangXJ199/TinyLLaVA-Video-R1で公開されています。
AIは、科学的発見の方法を変革する上でますます重要な役割を果たしています。本稿では、完全にAIによって生成された査読付きワークショップ論文を初めて作成可能なエンドツーエンドのエージェントシステム「The AI Scientist-v2」を紹介します。このシステムは、科学的仮説を反復的に策定し、実験を設計・実行し、データを分析・可視化し、自律的に科学論文を執筆します。前身であるv1(Lu et al., 2024 arXiv:2408.06292)と比較して、The AI Scientist-v2は、人間が作成したコードテンプレートへの依存を排除し、多様な機械学習領域に効果的に一般化し、専用の実験管理エージェントによって管理される新しい漸進的エージェントツリーサーチ手法を活用します。さらに、AIレビュアーコンポーネントを強化するために、Vision-Language Model(VLM)フィードバックループを統合し、内容と図の美学を反復的に洗練させます。The AI Scientist-v2を評価するために、3つの完全自律的な論文を査読付きICLRワークショップに提出しました。特に、1つの論文は平均的な人間の採択閾値を超える高いスコアを達成し、完全にAIによって生成された論文が初めて査読を通過したことを示しました。この成果は、AIが科学研究のあらゆる側面を遂行する能力が高まっていることを強調しています。自律的な科学的発見技術のさらなる進展は、人間の知識生成に深い影響を与え、研究生産性の前例のないスケーラビリティを実現し、科学的ブレークスルーを大幅に加速し、社会全体に大きな利益をもたらすと予想されます。この変革的な技術の将来の発展を促進するため、コードをhttps://github.com/SakanaAI/AI-Scientist-v2でオープンソース化しました。また、AIの安全性を含む、科学におけるAIの役割についても議論します。
科学者はしばしば、特定の問題例から抽象的な手順を推論し、その抽象化を用いて新たに関連する例を生成します。例えば、システムの形式的な規則や特性をコード化したプログラムは、RL(手続き型環境)から物理学(シミュレーションエンジン)に至る幅広い分野で有用です。これらのプログラムは、パラメータ化(例えば、グリッドワールドの設定や初期物理条件)に基づいて異なる出力を実行する関数と見なすことができます。我々は、数学問題に対するこのようなプログラムを指すためにEFA(Executable Functional Abstraction)という用語を導入します。EFAに類似した構成は、モデルのストレステスト用の問題生成器として数学的推論に有用であることが示されています。しかし、これまでの研究は小学校レベルの数学(その単純な規則はプログラムに容易にコード化できる)に限定されており、高度な数学に対するEFAの生成はこれまで人間のエンジニアリングを必要としてきました。我々は、高度な数学問題に対するEFAの自動構築を探求します。EFAの自動構築タスクをプログラム合成タスクとして操作化し、LLMをシード数学問題とその段階的な解法に基づいて条件付け、シード問題の背後にある一般化された問題と解法クラスに忠実な候補EFAプログラムを生成するEFAGenを開発します。さらに、有効なEFAが持つべき特性を実行可能なユニットテストの観点で形式化し、これらのテストを検証可能な報酬として使用して、LLMがより優れたEFAの作成者になるように訓練する方法を示します。EFAGenによって構築されたEFAが、シード問題に忠実であり続け、学習可能な問題バリエーションを生成し、EFAGenが競技レベルの数学問題の多様なソースにわたってEFAを推論できることを実証します。最後に、モデルが作成したEFAの下流用途を示します。例えば、学習者が解くのが難しいまたは易しい問題バリエーションを見つけることや、データ生成などです。
効果的な推論は、複雑な数学的問題を解決する上で極めて重要である。近年の大規模言語モデル(LLMs)は、長い連鎖思考(chain-of-thought)推論を通じてテスト時の計算をスケールアップすることで性能を向上させてきた。しかし、トランスフォーマーベースのモデルは、その二次的な計算複雑性と線形のメモリ要件のため、コンテキスト長を拡張する際に本質的な制約がある。本論文では、Mambaアーキテクチャを基盤とした新しいハイブリッド線形RNN推論モデル、M1を紹介する。このモデルは、メモリ効率の良い推論を可能にする。我々のアプローチは、既存の推論モデルからの蒸留プロセスを活用し、さらにRLトレーニングによって強化されている。AIMEおよびMATHベンチマークでの実験結果は、M1が従来の線形RNNモデルを凌駕するだけでなく、同規模の最先端のDeepseek R1蒸留推論モデルと同等の性能を発揮することを示している。また、我々は生成速度を高性能な汎用推論エンジンであるvLLMと比較し、同サイズのトランスフォーマーと比べて3倍以上の高速化を観察した。スループットの高速化により、自己一貫性投票(self-consistency voting)を用いて固定生成時間予算の下で、DeepSeek R1蒸留トランスフォーマー推論モデルよりも高い精度を達成することができた。全体として、我々はハイブリッドMamba推論モデルを導入し、自己一貫性または長い連鎖思考推論を用いてテスト時の生成をスケールアップするためのより効果的なアプローチを提供する。
大規模視覚言語モデルの最近の進展は、驚くべき能力を示してきた。しかし、人間が視覚的補助や慎重な段階的思考を通じて通常対処する複雑な推論タスクに直面すると、これらのモデルはしばしば失敗する。既存の手法は、テキストベースの遅い思考や初歩的な視覚的支援を探求してきたが、人間の視覚的・言語的推論プロセスの複雑で交互に絡み合った性質を捉えるには至っていない。これらの限界を克服し、人間の認知における遅い思考のメカニズムに着想を得て、我々は視覚空間的領域と言語的領域をシームレスに統合する新しいフレームワーク、VisuoThinkを提案する。VisuoThinkは、漸進的な視覚的・テキスト的推論を可能にし、先読み木探索を通じたテストタイムスケーリングを組み込むことで、マルチモーダルな遅い思考を促進する。広範な実験により、VisuoThinkがファインチューニングなしでも推論時のスケーリングを通じて推論能力を大幅に向上させ、幾何学や空間推論を含むタスクにおいて最先端の性能を達成することが実証された。
近年の大規模言語モデル(LLM)は、主に生成プロセスの一部として明示的で長い思考プロセスを含めることで、推論能力を大幅に向上させてきました。本論文では、この明示的な思考が本当に必要かどうかを問います。最先端のDeepSeek-R1-Distill-Qwenを使用して、単純なプロンプトで思考プロセスをバイパスする「NoThinking」が驚くほど効果的であることを発見しました。トークン数を制御した場合、NoThinkingは数学的問題解決、形式的定理証明、コーディングなど、多様な7つの難易度の高い推論データセットにおいて、特に低予算設定(例:700トークンでACM 23において51.3対28.9)でThinkingを上回りました。注目すべきは、kが増加するにつれてNoThinkingのパフォーマンスがpass@kにおいてより競争的になることです。この観察に基づき、NoThinkingを使用してN個の出力を独立して生成し、それらを集約する並列スケーリングアプローチが非常に効果的であることを示します。集約には、利用可能な場合はタスク固有の検証器を使用し、それ以外の場合は信頼度に基づく選択などの単純なbest-of-N戦略を適用します。我々の手法は、Thinkingを使用した類似のレイテンシを持つ一連のベースラインを上回り、著しく長いレイテンシ(最大9倍)を持つThinkingと同等の性能を発揮します。全体として、本研究は長い思考プロセスの必要性を再考することを促すと同時に、低予算設定または低レイテンシで並列スケーリングを使用して強力な推論性能を達成するための競争力のある参照を確立します。
科学的方程式発見は、科学の進歩の歴史において基本的な課題であり、自然現象を支配する法則の導出を可能にする。最近、大規模言語モデル(LLMs)は、埋め込まれた科学的知識を活用して仮説を生成する可能性があることから、この課題に対して注目を集めている。しかし、これらの手法の真の発見能力を評価することは依然として困難であり、既存のベンチマークはしばしばLLMsによる暗記が容易な一般的な方程式に依存しているため、発見を反映しない過大な性能指標が得られることが多い。本論文では、LLM-SRBenchを紹介する。これは、LLMベースの科学的方程式発見手法を評価するために特別に設計された、4つの科学分野にわたる239の挑戦的な問題を含む包括的なベンチマークであり、簡単な暗記を防ぐことを目的としている。我々のベンチマークは、主に2つのカテゴリで構成されている:LSR-Transformは、一般的な物理モデルをあまり一般的でない数学的表現に変換し、暗記された形式を超えた推論をテストするものであり、LSR-Synthは、データ駆動型の推論を必要とする合成的で発見指向の問題を導入する。オープンおよびクローズドのLLMsを使用したいくつかの最先端手法の広範な評価を通じて、これまでの最高性能のシステムでも31.5%の記号的精度しか達成されていないことがわかった。これらの結果は、科学的方程式発見の課題を浮き彫りにし、LLM-SRBenchを将来の研究における貴重なリソースとして位置づけている。
大規模言語モデルは勾配ベースの更新を蓄積することで学習し、継続的に学習を進めますが、新しい情報の個々の断片が既存の知識にどのような影響を与え、有益な汎化と問題のある幻覚の両方を引き起こすかについては、まだ十分に理解されていません。私たちは、新しい情報を学習する際に、LLMが「プライミング」効果を示すことを実証しました。新しい事実を学習すると、モデルがその知識を無関係な文脈に不適切に適用してしまうのです。この現象を体系的に研究するために、私たちは「Outlandish」という、1320の多様なテキストサンプルを慎重に選定したデータセットを導入しました。このデータセットを使用して、新しい知識がLLMの既存の知識ベースにどのように浸透するかを探ります。このデータセットを用いて、新しい情報を学習した後のプライミングの程度は、学習前のキーワードのトークン確率を測定することで予測できることを示しました。この関係は、異なるモデルアーキテクチャ(PALM-2、Gemma、Llama)、サイズ、および学習段階にわたって堅牢に成り立ちます。最後に、新しい知識が既存のモデルの挙動にどのように影響するかを調整するための2つの新しい技術を開発しました:(1)「ステッピングストーン」テキスト拡張戦略と(2)「ignore-k」更新剪定法です。これらのアプローチにより、望ましくないプライミング効果を50〜95%削減しつつ、モデルが新しい情報を学習する能力を維持します。私たちの研究結果は、LLMがどのように学習するかについての実証的な洞察を提供するとともに、言語モデルへの知識挿入の特異性を向上させるための実用的なツールを提供します。詳細な資料はこちら:https://sunchipsster1.github.io/projects/outlandish/
LLM駆動のAIキャラクターの台頭は、特に心理的障害を持つ脆弱な人間のユーザーにとって、安全性に関する懸念を引き起こしています。これらのリスクに対処するため、我々はEmoAgentを提案します。これは、人間とAIの相互作用におけるメンタルヘルスの危険を評価し、軽減するために設計されたマルチエージェントAIフレームワークです。EmoAgentは2つのコンポーネントで構成されています。EmoEvalは、精神的に脆弱な個人を描写するものを含む仮想ユーザーをシミュレートし、AIキャラクターとの相互作用前後のメンタルヘルスの変化を評価します。臨床的に証明された心理学的および精神医学的評価ツール(PHQ-9、PDI、PANSS)を使用して、LLMによって引き起こされる精神的リスクを評価します。EmoGuardは仲介役として機能し、ユーザーの精神状態を監視し、潜在的な危害を予測し、リスクを軽減するための修正フィードバックを提供します。人気のあるキャラクターベースのチャットボットで実施された実験では、感情的に引き込まれる対話が脆弱なユーザーの心理的悪化を引き起こし、シミュレーションの34.4%以上で精神状態の悪化が見られました。EmoGuardはこれらの悪化率を大幅に減少させ、より安全なAIと人間の相互作用を確保する上での役割を強調しています。我々のコードは以下で利用可能です:https://github.com/1akaman/EmoAgent
3Dキャプショニングは、3Dシーンの内容を自然言語で記述することを目的としていますが、点群の本質的な疎性や既存手法におけるクロスモーダルアラインメントの弱さにより、依然として非常に困難な課題です。これらの課題に対処するため、我々は3D CoCaを提案します。これは、コントラスティブな視覚言語学習と3Dキャプション生成を単一のアーキテクチャ内でシームレスに統合する新しい統一フレームワークです。我々のアプローチでは、凍結されたCLIP視覚言語バックボーンを活用して豊富な意味的プライアを提供し、空間認識型の3Dシーンエンコーダで幾何学的コンテキストを捕捉し、マルチモーダルデコーダで記述的なキャプションを生成します。明示的な物体提案に依存する従来の2段階手法とは異なり、3D CoCaは共有特徴空間内でコントラスティブとキャプショニングの目的を共同で最適化し、外部検出器や手動提案の必要性を排除します。この共同訓練パラダイムにより、3D表現とテキスト表現を整合させることで、より強力な空間推論とより豊富な意味的基盤が得られます。ScanReferおよびNr3Dベンチマークでの大規模な実験により、3D CoCaが0.5IoUにおけるCIDErスコアでそれぞれ10.2%および5.76%の大幅な性能向上を達成し、現在の最先端技術を大きく上回ることが実証されました。コードはhttps://github.com/AIGeeksGroup/3DCoCaで公開予定です。
大規模言語モデル(LLMs)の最近の進展により、人間レベルの説得能力に接近することが可能となった。しかし、そのような可能性は、LLMによる説得の安全性リスク、特に操作、欺瞞、脆弱性の悪用、その他多くの有害な戦略を通じた非倫理的な影響の潜在性について懸念を引き起こしている。本研究では、LLMの説得安全性を2つの重要な側面から体系的に調査する。(1) LLMsが非倫理的な説得タスクを適切に拒否し、実行中に非倫理的な戦略を回避するかどうか、特に最初の説得目標が倫理的に中立に見える場合を含む、(2) 性格特性や外部圧力などの影響要因がその行動にどのように影響するか。この目的のために、説得安全性評価のための最初の包括的フレームワークであるPersuSafetyを導入する。PersuSafetyは、説得シーンの作成、説得的会話のシミュレーション、説得安全性の評価という3つの段階で構成される。PersuSafetyは、6つの多様な非倫理的な説得トピックと15の一般的な非倫理的な戦略をカバーする。広く使用されている8つのLLMを対象とした広範な実験を通じて、ほとんどのLLMに重大な安全性の問題があることを観察した。これには、有害な説得タスクを識別できないことや、さまざまな非倫理的な説得戦略を活用することが含まれる。本研究は、説得のような漸進的かつ目標指向の会話における安全性の整合性を向上させるためにより多くの注意を払うことを呼びかけている。
推論能力を備えた大規模言語モデル(LLM)は最近、複雑な論理的および数学的タスクにおいて印象的な性能を示しているが、自然言語生成の評価における有効性はまだ検証されていない。本研究では、推論ベースのLLM(DeepSeek-R1およびOpenAI o3)と非推論型の対応モデルを、機械翻訳(MT)およびテキスト要約(TS)の評価タスクにおいて体系的に比較する。我々は、最先端の推論モデル、その蒸留バリアント(8Bから70Bパラメータまで)、および同等の従来型の非推論LLMを含む3つのアーキテクチャカテゴリーにわたる8つのモデルを評価した。WMT23およびSummEvalベンチマークでの実験結果から、推論能力の利点はモデルとタスクに強く依存することが明らかになった:OpenAI o3-miniモデルでは推論強度の増加に伴い一貫した性能向上が見られる一方、DeepSeek-R1は非推論バリアントに比べて性能が劣り、TS評価の特定の側面を除いては例外となった。相関分析により、o3-miniモデルでは推論トークンの使用量の増加が評価品質と正の相関を示すことが実証された。さらに、推論能力の蒸留は中規模モデル(32B)では合理的な性能を維持するが、小規模バリアント(8B)では大幅に低下することが明らかになった。本研究は、NLG評価における推論LLMの初めての包括的評価を提供し、その実用的な使用に関する洞察を提供するものである。
言語と視覚的な手がかりを統合し、問題解決や意思決定を行うマルチモーダル推論は、人間の知能の基本的な側面であり、人工汎用知能に向けた重要なステップです。しかし、マルチモーダル大規模言語モデル(MLLMs)のマルチモーダル推論能力の評価は、依然として不十分です。既存の推論ベンチマークの多くは、データサイズの制約、狭いドメインカバレッジ、非構造化された知識分布によって制限されています。これらのギャップを埋めるため、我々はMDK12-Benchを導入します。これは、現実世界のK-12試験を通じてMLLMsの推論能力を評価する多分野ベンチマークです。数学、物理、化学、生物、地理、情報科学の6つの分野にまたがり、小学校から12年生までの多様な難易度レベルにわたる140Kの推論インスタンスを含んでいます。また、6,827のインスタンスレベルの知識ポイントアノテーションを、整然とした知識構造、詳細な解答説明、難易度ラベル、年度別分割に基づいて提供し、包括的な評価のための堅牢なプラットフォームを提供します。さらに、評価中に質問形式、質問タイプ、画像スタイルをブートストラップすることで、データ汚染の問題を軽減する新しい動的評価フレームワークを提示します。MDK12-Benchでの広範な実験により、現在のMLLMsのマルチモーダル推論における重大な限界が明らかになりました。我々のベンチマークでの発見は、次世代モデルの開発に洞察を提供します。データとコードはhttps://github.com/LanceZPF/MDK12で公開されています。
開発コストを削減し、生成AIアプリケーションを構成する可能性のあるコンポーネント間のシームレスな統合を可能にするため、Model Context Protocol(MCP)(Anthropic, 2024)が最近リリースされ、広く採用されています。MCPは、大規模言語モデル(LLM)、データソース、およびエージェントツールへのAPI呼び出しを標準化するオープンプロトコルです。複数のMCPサーバーを接続し、各サーバーにツール、リソース、プロンプトのセットを定義することで、ユーザーはLLMによって完全に駆動される自動化されたワークフローを定義できます。しかし、現在のMCP設計には、エンドユーザーにとって広範なセキュリティリスクがあることを示します。特に、業界をリードするLLMがMCPツールを使用して、悪意のあるコード実行、リモートアクセス制御、認証情報の盗難などのさまざまな攻撃を通じてAI開発者のシステムを侵害する可能性があることを実証します。これらの攻撃および関連する攻撃を事前に緩和するために、セキュリティ監査ツールであるMCPSafetyScannerを導入します。これは、任意のMCPサーバーのセキュリティを評価する最初のエージェントツールです。MCPScannerは、いくつかのエージェントを使用して、(a) MCPサーバーのツールとリソースを基に敵対的サンプルを自動的に決定し、(b) それらのサンプルに基づいて関連する脆弱性と修正策を検索し、(c) すべての調査結果を詳細に記載したセキュリティレポートを生成します。私たちの研究は、汎用エージェントワークフローの深刻なセキュリティ問題を浮き彫りにすると同時に、MCPサーバーの安全性を監査し、検出された脆弱性を展開前に解決するための積極的なツールを提供します。 説明されたMCPサーバー監査ツール、MCPSafetyScannerは、以下で無料で利用可能です: https://github.com/johnhalloran321/mcpSafetyScanner
大規模な事前学習済み拡散モデルは、条件付き画像生成の分野で優れた結果を生み出してきました。しかし、古代壁画の修復はこの分野における重要な下流タスクであり、欠損領域の広さと学習サンプルの希少さから、拡散モデルベースの修復手法に大きな課題を突きつけています。条件付き修復タスクでは、修復された部分が全体のスタイルや継ぎ目のディテールにおいて壁画修復の美的基準を満たしているかどうかがより重要視されますが、現在の研究ではこのようなヒューリスティックな画像補完を評価するための指標が不足しています。そこで我々は、ControlNetと循環一貫性損失を組み合わせたマルチスケール収束および協調拡散メカニズムを提案し、生成画像と条件制御のマッチングを最適化するDiffuMuralを開発しました。DiffuMuralは、一貫した視覚的美学を有する23点の大規模敦煌壁画の学習データを活用し、壁画修復において卓越した能力を発揮します。本モデルは、複雑なディテールの修復、全体の一貫性の実現、事実的根拠を欠く不完全な壁画が抱える特有の課題への対応において優れています。我々の評価フレームワークは、不完全な壁画を定量的に評価するための4つの主要な指標(事実的精度、テクスチャのディテール、文脈的意味論、全体的な視覚的一貫性)を統合しています。さらに、修復された壁画が文化的・芸術的意義を保持することを保証するため、人文的価値評価も組み込んでいます。大規模な実験により、我々の手法が定性的・定量的な指標の両面において最先端(SOTA)のアプローチを凌駕することが検証されました。