翻訳付きの日次キュレーションされたAI研究論文
人工知能(AI)は科学研究のパラダイム転換を加速し、研究効率を向上させるだけでなく、イノベーションを推進しています。本稿では、様々な科学研究分野にわたる自律的科学研究(ASR)を実施するための統一された閉ループ型マルチエージェントフレームワーク「NovelSeek」を紹介します。NovelSeekは、研究者がこれらの分野における複雑な問題を前例のない速度と精度で取り組むことを可能にします。NovelSeekは以下の3つの主要な利点を強調しています:1)スケーラビリティ:NovelSeekは12の科学研究タスクにおいてその汎用性を示し、ベースラインコードの性能を向上させる革新的なアイデアを生成することができます。2)インタラクティビティ:NovelSeekは、自動化されたエンドツーエンドプロセスにおいて、人間の専門家からのフィードバックとマルチエージェント間の相互作用を可能にするインターフェースを提供し、ドメイン専門知識のシームレスな統合を実現します。3)効率性:NovelSeekは、人間の努力に比べて大幅に少ない時間コストで、いくつかの科学分野において有望な性能向上を達成しています。例えば、反応収率予測では、わずか12時間で27.6%から35.4%に向上し、エンハンサー活性予測では、4時間の処理で精度が0.52から0.79に上昇し、2Dセマンティックセグメンテーションでは、わずか30時間で精度が78.8%から81.0%に進歩しました。
指示追従は、大規模言語モデル(LLM)をユーザーの意図に合わせるために不可欠です。最近の推論指向モデルは複雑な数学的問題において印象的な性能を示していますが、自然言語の指示に従う能力についてはまだ十分に検証されていません。本研究では、数学的推論タスクにおける指示追従を評価するための専用ベンチマークであるMathIFを紹介します。私たちの実証分析から、推論能力をスケールアップすることと制御性を維持することの間に一貫した緊張関係があることが明らかになりました。より効果的に推論するモデルは、ユーザーの指示に従うことが困難になる傾向があります。蒸留された長い連鎖的思考(chain-of-thought)でチューニングされたモデルや、推論指向の強化学習で訓練されたモデルは、特に生成長が増加する場合に、指示追従の性能が低下することがわかりました。さらに、単純な介入でも部分的に従順性を回復できることを示しますが、それは推論性能の低下を伴います。これらの発見は、現在のLLM訓練パラダイムにおける根本的な緊張関係を浮き彫りにし、より指示を意識した推論モデルの必要性を動機付けます。コードとデータはhttps://github.com/TingchenFu/MathIFで公開しています。
近年、大規模言語モデル(LLM)は、大規模な強化学習(RL)を通じて顕著な推論能力を示してきました。しかし、RLアルゴリズムを活用してLLMにおける効果的なマルチツール協調推論を実現することは、依然として未解決の課題です。本論文では、Tool-StarというRLベースのフレームワークを紹介します。このフレームワークは、LLMが段階的な推論中に複数の外部ツールを自律的に呼び出すことを可能にするために設計されています。Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方において体系的な設計を取り入れています。 ツール使用データの不足に対処するため、我々は一般的なツール統合推論データ合成パイプラインを提案します。このパイプラインは、ツール統合プロンプトとヒントベースのサンプリングを組み合わせることで、ツール使用の軌跡を自動的かつスケーラブルに生成します。その後、品質の正規化と難易度を考慮した分類プロセスにより、低品質なサンプルを除外し、データセットを易しいものから難しいものへと整理します。 さらに、マルチツール協調推論を強化するために、2段階のトレーニングフレームワークを提案します。具体的には、(1) コールドスタートのファインチューニングにより、ツール呼び出しフィードバックを通じてLLMが推論パターンを探索することを促し、(2) 階層的な報酬設計を備えたマルチツール自己批判RLアルゴリズムにより、報酬の理解を強化し、効果的なツール協力を促進します。10以上の挑戦的な推論ベンチマークでの実験分析により、Tool-Starの有効性と効率性が明らかになりました。コードはhttps://github.com/dongguanting/Tool-Starで公開されています。
連鎖的思考推論(Chain-of-thought reasoning)は、大規模言語モデル(LLMs)の性能を様々な領域で大幅に向上させてきました。しかし、この推論プロセスはテキスト空間に限定されており、視覚的に高度なタスクにおける有効性が制限されていました。この制約を克服するため、我々はピクセル空間での推論という概念を導入します。この新しいフレームワーク内では、視覚言語モデル(VLMs)にズームインやフレーム選択といった視覚的推論操作を装備します。これらの操作により、VLMsは視覚的証拠を直接検査し、問いかけ、推論することが可能となり、視覚タスクにおける推論の忠実度が向上します。VLMsにこのようなピクセル空間推論能力を育成することは、モデルの初期段階での能力の不均衡や、新たに導入されたピクセル空間操作に対する抵抗感といった課題を伴います。我々はこれらの課題に対処するため、二段階のトレーニングアプローチを採用します。第一段階では、合成された推論トレースを用いた指示チューニングを行い、モデルに新しい視覚操作を慣れさせます。その後、強化学習(RL)フェーズでは、好奇心駆動型の報酬スキームを活用して、ピクセル空間推論とテキスト推論の間の探索バランスを取ります。これらの視覚操作により、VLMsは情報豊富な画像や動画といった複雑な視覚入力と相互作用し、必要な情報を積極的に収集することが可能となります。我々は、このアプローチが多様な視覚推論ベンチマークにおいてVLMの性能を大幅に向上させることを実証します。我々の7Bモデル、\modelは、V* benchで84%、TallyQA-Complexで74%、InfographicsVQAで84%を達成し、これまでにオープンソースモデルが達成した最高精度を記録しました。これらの結果は、ピクセル空間推論の重要性と我々のフレームワークの有効性を強調しています。
近年のマルチモーダル生成モデルの進展により、指示に基づく画像編集において大きな進歩が見られています。しかし、これらのモデルは視覚的に妥当な出力を生成する一方で、知識に基づく推論編集タスクに対する能力はまだ十分に検証されていません。本論文では、KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)を紹介します。これは、認知科学的な視点からモデルを評価するための診断ベンチマークです。教育理論に基づき、KRIS-Benchは編集タスクを3つの基礎的な知識タイプ(事実的、概念的、手続き的)に分類します。この分類に基づいて、7つの推論次元にわたる22の代表的なタスクを設計し、1,267の高品質な注釈付き編集インスタンスを公開します。詳細な評価を支援するため、新たな「知識妥当性」指標を組み込んだ包括的なプロトコルを提案し、知識ヒントによる強化と人間による研究を通じて較正を行います。10の最先端モデルに対する実証結果から、推論性能に大きなギャップがあることが明らかになり、インテリジェントな画像編集システムの開発を進めるためには、知識中心のベンチマークが必要であることが強調されました。
長時間動画の理解は、ビデオ監視、会議の要約、教育講義の分析、スポーツ放送などの実世界のアプリケーションにおいて重要な能力として浮上しています。しかし、VideoLLMにとっては依然として計算上の障壁が存在し、主に2つのボトルネックが原因です:1) 逐次的なビデオデコード、つまり生のビットストリームをRGBフレームに変換するプロセスが、1時間の動画入力に対して最大1分かかること、2) LLM推論のための数百万トークンに及ぶ高コストなプリフィリングが、高いレイテンシとメモリ使用量を引き起こすことです。これらの課題に対処するため、我々はQuickVideoを提案します。これは、リアルタイムの下流アプリケーションをサポートするために長時間動画の理解を大幅に加速するシステム・アルゴリズム共同設計です。QuickVideoは3つの主要な革新を包含しています:QuickDecoder、キーフレームに基づいて動画を分割し並列処理することで2〜3倍の高速化を実現するCPUベースの並列化ビデオデコーダ;QuickPrefill、KVキャッシュのプルーニングを使用してより少ないGPUメモリでより多くのフレームをサポートするメモリ効率の良いプリフィリング方法;そして、CPUのビデオデコードとGPUの推論をオーバーラップさせるスキームです。これらのコンポーネントを組み合わせることで、長時間の動画入力に対する推論時間を1分短縮し、限られたハードウェア上でもスケーラブルで高品質な動画理解を可能にします。実験により、QuickVideoが時間長とサンプリングレートにわたって汎化し、長時間動画の処理を実用的に実現することが示されています。
Diffusion Transformersは視覚生成モデルの基盤として登場しましたが、大規模なハイパーパラメータ(HP)チューニングのコストが高いため、そのスケーラビリティは制限されています。最近、標準的なTransformerに対してMaximal Update Parametrization(muP)が提案され、小規模から大規模な言語モデルへの安定したHP転移を可能にし、チューニングコストを劇的に削減しました。しかし、標準的なTransformerのmuPが、アーキテクチャ的および目的的に異なるdiffusion Transformerにも適用可能かどうかは不明でした。本研究では、標準的なmuPをdiffusion Transformerに一般化し、大規模な実験を通じてその有効性を検証します。まず、DiT、U-ViT、PixArt-alpha、MMDiTなどの主流のdiffusion TransformerのmuPが標準的なTransformerのそれと一致することを厳密に証明し、既存のmuP手法を直接適用可能であることを示します。この結果を活用し、DiT-muPが堅牢なHP転移性を享受することを体系的に実証します。特に、学習率を転移したDiT-XL-2-muPは、元のDiT-XL-2よりも2.9倍速く収束します。最後に、テキストから画像生成におけるmuPの有効性を検証するため、PixArt-alphaを0.04Bから0.61Bに、MMDiTを0.18Bから18Bにスケーリングします。どちらの場合も、muP下のモデルはそれぞれのベースラインを上回りながら、PixArt-alphaでは1回のトレーニング実行の5.5%、MMDiT-18Bでは人間の専門家による消費量の3%という小さなチューニングコストしか必要としませんでした。これらの結果は、muPがdiffusion Transformerをスケーリングするための原理的かつ効率的なフレームワークであることを確立します。
本研究では、LLaDA-Vを紹介する。これは純粋な拡散モデルに基づくマルチモーダル大規模言語モデル(MLLM)であり、視覚的指示チューニングをマスク拡散モデルと統合することで、現在のマルチモーダルアプローチで主流となっている自己回帰的パラダイムからの脱却を図っている。代表的な大規模言語拡散モデルであるLLaDAを基盤として構築されたLLaDA-Vは、視覚エンコーダとMLPコネクタを備えており、視覚的特徴を言語埋め込み空間に投影することで、効果的なマルチモーダルアラインメントを実現している。我々の実証研究からは、いくつかの興味深い結果が得られた。第一に、LLaDA-Vは、純粋なテキストタスクにおいてLLaMA3-8BやQwen2-7Bなどのモデルに比べて言語モデルが弱いにもかかわらず、有望なマルチモーダル性能を示している。同じ指示データで訓練された場合、LLaDA-VはLLaMA3-Vと比較してマルチモーダルタスクにおいて高い競争力を発揮し、データスケーラビリティも優れている。また、Qwen2-VLとの性能差を縮めており、そのアーキテクチャがマルチモーダルタスクに有効であることを示唆している。第二に、LLaDA-Vは、既存のハイブリッド自己回帰-拡散モデルや純粋な拡散ベースのMLLMと比較して、マルチモーダル理解において最先端の性能を達成している。我々の知見は、大規模言語拡散モデルがマルチモーダルコンテキストにおいて有望であることを示しており、今後の研究におけるさらなる調査の必要性を裏付けている。プロジェクトページとコードは以下を参照:https://ml-gsai.github.io/LLaDA-V-demo/。
大規模な強化学習(RL)を用いた推論技術の最近の進展にもかかわらず、高性能な推論モデルを構築するためのトレーニングレシピは未だ確立されていません。DeepSeek-R1のような最先端モデルの主要な実装詳細、例えばデータキュレーション戦略やRLトレーニングレシピは、しばしば省略されています。さらに、最近の研究では、小規模モデルにおいては蒸留がRLよりも依然として効果的であることが示されています。本研究では、大規模なRLが強力な小規模および中規模モデルの推論能力を大幅に向上させ、最先端の蒸留ベースのモデルを凌駕する結果を達成できることを実証します。我々は、広範なアブレーションを通じてRLトレーニングプロセスを体系的に研究し、数学のみのプロンプトでトレーニングした後にコードのみのプロンプトでトレーニングするというシンプルかつ効果的なアプローチを提案します。特に、数学のみのRLは、強力な蒸留モデルの数学ベンチマーク(例えば、7B / 14BモデルでAIME 2025において+14.6% / +17.2%)だけでなく、コード推論タスク(例えば、7B / 14BモデルでLiveCodeBenchにおいて+6.8% / +5.8%)のパフォーマンスも大幅に向上させることがわかりました。さらに、コードのみのRLイテレーションを延長することで、コードベンチマークのパフォーマンスが向上し、数学の結果に最小限または全く劣化が見られませんでした。我々は、両ドメインにわたる検証ベースのRLを可能にするために、高品質で検証可能な回答とテストケースを備えた挑戦的なプロンプトを収集する堅牢なデータキュレーションパイプラインを開発しました。最後に、応答長を段階的に増やすカリキュラム学習や、オンポリシーパラメータ更新の安定化効果など、重要な実験的洞察を特定しました。RLは、事前学習や教師あり微調整(例えば、蒸留)中に獲得された基礎的な推論能力を引き出すだけでなく、モデルの推論能力の限界を押し上げ、以前は解決不可能だった問題を解決できるようにすることがわかりました。
視覚生成モデルは、テキストプロンプトから現実的な画像を作成する点で目覚ましい進歩を遂げてきたが、複数のオブジェクトとその正確な空間的関係や属性を指定する複雑なプロンプトには苦戦している。このようなプロンプトを効果的に処理するためには、意味内容と空間的レイアウトについての明示的な推論が必要である。本論文では、視覚生成における意味的・空間的推論を強化するために強化学習を適用したフレームワークGoT-R1を提案する。Generation Chain-of-Thoughtアプローチを基盤として、GoT-R1はモデルが事前定義されたテンプレートを超えて効果的な推論戦略を自律的に発見できるように、慎重に設計された強化学習を可能にする。これを実現するために、我々はMLLMを活用して推論プロセスと最終出力の両方を評価する二段階多次元報酬フレームワークを提案し、生成パイプライン全体にわたる効果的な監視を可能にする。この報酬システムは、意味的整合性、空間的精度、視覚的品質を統合的に評価する。実験結果は、T2I-CompBenchベンチマークにおいて、特に正確な空間的関係と属性の結合を伴う合成的タスクで大幅な改善を示している。GoT-R1は、洗練された推論能力を視覚生成領域に成功裏に転移させることで、画像生成の最先端を進展させる。今後の研究を促進するため、我々はコードと事前学習済みモデルをhttps://github.com/gogoduan/GoT-R1で公開している。
リスク回避型強化学習は、様々な高リスク分野で応用されています。期待リターンを最大化することを目指す古典的な強化学習とは異なり、リスク回避型エージェントはリスクを最小化するポリシーを選択し、時には期待値を犠牲にすることもあります。これらの選好は効用理論を通じて定式化することができます。本論文では、指数効用関数の特定のケースに焦点を当て、ベルマン方程式を導出し、わずかな修正で様々な強化学習アルゴリズムを適用できることを示します。しかし、これらの手法はプロセス全体で指数計算が必要となるため、数値的不安定性に悩まされます。この問題に対処するため、状態価値関数と行動価値関数の学習において、Itakura-Saitoダイバージェンスに基づいた数値的に安定かつ数学的に健全な損失関数を提案します。提案した損失関数を、確立された代替手法と理論的・実証的に比較評価します。実験セクションでは、解析解が既知のものも含む複数の金融シナリオを探索し、提案した損失関数が代替手法を上回ることを示します。
堅牢な検索モデルとリランカーモデルのトレーニングは、通常、大規模な検索データセットに依存します。例えば、BGEコレクションには、さまざまなデータソースから収集された160万のクエリ-パッセージペアが含まれています。しかし、特定のデータセットがモデルの有効性に悪影響を及ぼすことがわかっています。BGEコレクションから15のデータセットのうち8つを削除すると、トレーニングセットのサイズが2.35倍減少し、BEIRでのnDCG@10が1.0ポイント向上します。これにより、トレーニングデータの品質、特に「偽陰性」(関連するパッセージが誤って無関連とラベル付けされるケース)に焦点を当てた詳細な検討が促されます。我々は、カスケード型のLLMプロンプトを使用して、ハードネガティブを特定し、再ラベル付けするシンプルでコスト効率の高いアプローチを提案します。実験結果は、偽陰性を真陽性に再ラベル付けすることで、E5(ベース)とQwen2.5-7B検索モデルのBEIRでのnDCG@10が0.7-1.4ポイント、ゼロショットAIR-Bench評価でのnDCG@10が1.7-1.8ポイント向上することを示しています。再ラベル付けされたデータでファインチューニングされたリランカー(例えば、BEIRでのQwen2.5-3B)でも同様の向上が観察されます。カスケード設計の信頼性は、人間によるアノテーション結果によってさらに裏付けられており、GPT-4oの判断がGPT-4o-miniよりも人間との一致度がはるかに高いことがわかっています。
生成AI(GenAI)は、特に2025年3月25日にリリースされたGPT-4o以降、日常的な画像編集タスクの自動化において大きな可能性を秘めています。しかし、人々が最も頻繁に編集を望む対象は何でしょうか?また、どのような編集操作(例えば、被写体の削除やスタイライズ)を行いたいのでしょうか?人々は、予測可能な結果をもたらす精密な編集を好むのでしょうか、それとも非常に創造的な編集を好むのでしょうか?現実世界のリクエストの特性と、フリーランスの写真編集の達人たちが行った対応する編集を理解することで、AIベースのエディタを改善するための教訓を引き出し、現在のAIエディタがどのようなリクエストを成功裏に処理できるかを判断できるでしょうか?本論文では、これらの疑問に答えるために、過去12年間(2013年から2025年)のRedditコミュニティからの83,000件のリクエストと、それに対応する305,000件のPSR-wizard編集を分析する独自の研究を紹介します。人間による評価によると、最高のAIエディタ(GPT-4o、Gemini-2.0-Flash、SeedEditを含む)でも、リクエストの約33%しか満たすことができません。興味深いことに、AIエディタは、精密な編集を必要とする低創造性のリクエストに対して、よりオープンエンドなタスクよりもパフォーマンスが劣ります。彼らはしばしば人や動物のアイデンティティを保持するのに苦労し、リクエストされていない修正を頻繁に行います。一方、VLMジャッジ(例:o1)は人間のジャッジとは異なる行動を取り、人間の編集よりもAIの編集を好む傾向があります。コードと質的例は以下で利用可能です:https://psrdataset.github.io
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて数学的タスクにおいて顕著な進歩を遂げてきました。しかし、既存の数学的CoTデータセットは、専門家が中間ステップを省略することによる「思考の飛躍(Thought Leaps)」に悩まされており、モデルの学習と汎化に悪影響を及ぼしています。本研究では、CoTの思考の飛躍を自動的に検出し、欠落した中間推論ステップを生成することで、CoTの完全性と一貫性を回復することを目的とした「CoT Thought Leap Bridge Task」を提案します。これを実現するため、構造化されたScaleQuestMathデータセットに基づいて「ScaleQM+」という専門的なトレーニングデータセットを構築し、思考の飛躍を橋渡しする「CoT-Bridge」を訓練しました。数学的推論ベンチマークにおける包括的な実験を通じて、橋渡しされたデータセットでファインチューニングされたモデルが、元のデータセットで訓練されたモデルを一貫して上回り、NuminaMathでは最大+5.87%の改善を示すことを実証しました。本手法は蒸留データの品質向上(+3.02%)や強化学習のより良い出発点の提供(+3.1%)にも有効であり、既存の最適化技術と互換性のあるプラグアンドプレイモジュールとして機能します。さらに、CoT-Bridgeはドメイン外の論理推論タスクへの汎化能力も向上させており、推論の完全性を高めることが広範に適用可能な利点をもたらすことを確認しました。
大規模推論モデル(LRM)、例えばOpenAI o1やDeepSeek-R1などは、より長い思考の連鎖を生成することで推論能力を大幅に向上させ、様々なタスクで優れた性能を発揮しています。しかし、この性能向上は、生成プロセスにおける冗長な推論の大幅な増加という代償を伴い、高い計算コストを引き起こし、過剰思考の問題を悪化させています。既存の多くのアプローチは過剰思考の問題に対処することを目指していますが、それらはしばしば外部介入に依存しています。本論文では、モデル自身が推論プロセスを制御できるようにすることで、外部制御メカニズムへの依存を排除する新しいフレームワーク、Self-Braking Tuning(SBT)を提案します。標準解答に基づいた過剰思考識別メトリクスのセットを構築し、冗長な推論を検出する体系的な方法を設計します。この方法は、推論軌跡内の不要なステップを正確に特定し、自己制御行動を学習するためのトレーニング信号を生成します。この基盤に基づいて、適応的な推論長を持つデータを構築するための完全な戦略を開発し、モデルが適切なポイントで推論を終了することを自然に学習できる革新的なブレーキプロンプトメカニズムを導入します。数学ベンチマーク(AIME、AMC、MATH500、GSM8K)での実験により、本手法がトークン消費を最大60%削減しながら、制約のないモデルと同等の精度を維持することが実証されました。
ビデオDiffusion Transformer(DiT)モデルは驚くべき生成品質を実現しているものの、その実用的な展開は膨大な計算要件によって深刻に妨げられています。この非効率性は、主に2つの課題に起因しています:トークン長に対するセルフアテンションの二次複雑性と、拡散モデルの多段階的な性質です。これらの制限に対処するため、我々は動的アテンションカービングと段階的解像度生成を組み合わせた新しい推論パイプラインであるJengaを提案します。我々のアプローチは、以下の2つの重要な洞察を活用しています:(1)初期のノイズ除去ステップでは高解像度の潜在変数は必要なく、(2)後期のステップでは密なアテンションは必要ありません。Jengaは、3D空間充填曲線を用いて関連するトークン相互作用を動的に選択するブロック単位のアテンションメカニズムと、生成中に潜在解像度を段階的に増加させるプログレッシブ解像度戦略を導入します。実験結果は、Jengaが複数の最先端ビデオ拡散モデルにおいて大幅な高速化を実現しつつ、同等の生成品質を維持することを示しています(VBenchにおいて8.83倍の高速化と0.01%の性能低下)。プラグアンドプレイソリューションとして、Jengaはモデルの再学習を必要とせずに、推論時間を数分から数秒に短縮することで、現代のハードウェア上での実用的で高品質なビデオ生成を可能にします。コード:https://github.com/dvlab-research/Jenga
本研究では、初の離散拡散型マルチモーダル大規模言語モデル(DMLLM)であるDimpleを提案します。純粋な離散拡散アプローチによる学習では、著しい学習不安定性、最適でない性能、および深刻な長さバイアスの問題が生じることが観察されました。これらの課題に対処するため、初期の自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい学習パラダイムを設計しました。このアプローチにより、LLaVA-NEXTと同じデータセットと類似の学習パイプラインを使用して訓練されたDimple-7Bモデルが得られ、最終的にLLaVA-NEXTを3.9%上回る性能を示し、DMLLMが自己回帰モデルに匹敵する性能を達成できることを実証しました。推論効率を向上させるため、各ステップで生成されるトークン数を動的に調整し、生成イテレーション数を大幅に削減する「確信度デコーディング」と呼ばれるデコード戦略を提案します。自己回帰モデルでは、生成中の前方イテレーション数は応答長と等しくなりますが、確信度デコーディングを用いることで、Dimpleに必要なイテレーション数は応答長の3分の1にまで削減されます。また、自己回帰モデルにおけるプリフィリング技術を再実装し、ほとんどのベンチマーク評価において性能に大きな影響を与えずに1.5倍から7倍の高速化を実現できることを示しました。さらに、Dimpleが構造事前情報を用いて応答を精密に制御する能力を探求しました。これらの事前情報は、指示ベースや連鎖思考プロンプトとは異なる方法で構造化された応答を可能にし、自己回帰モデルでは難しい応答形式や長さの細かい制御を実現します。全体として、本研究はDMLLMの実現可能性と利点を検証し、その推論効率と制御性を向上させました。コードとモデルはhttps://github.com/yu-rp/Dimpleで公開されています。
ビデオゲームがエンターテインメント産業で最高の収益を生み出す中、ゲーム開発ワークフローの最適化は、このセクターの持続的な成長にとって不可欠となっています。近年のVision-Language Models(VLM)の進歩は、ゲーム開発のさまざまな側面、特に自動化の選択肢が限られており、業界で最も労力を要するプロセスの一つである品質保証(QA)を自動化し、強化する大きな可能性を提供しています。ビデオゲームQAタスクにおけるVLMの性能を正確に評価し、現実世界のシナリオを扱う際の有効性を判断するためには、標準化されたベンチマークが明らかに必要です。既存のベンチマークは、この領域の特定の要件に対応するには不十分です。このギャップを埋めるため、私たちはVideoGameQA-Benchを導入します。これは、視覚的ユニットテスト、視覚的回帰テスト、針を探すようなタスク、不具合検出、およびさまざまなゲームの画像や動画に対するバグレポート生成など、幅広いゲームQA活動をカバーする包括的なベンチマークです。コードとデータは以下で利用可能です: https://asgaardlab.github.io/videogameqa-bench/
強化学習(RL)は大規模言語モデル(LLMs)の性能向上において顕著な成功を収めてきたが、その焦点は主に数学問題の解決などの単一ターンタスクに当てられてきた。動的なウェブインターフェースを跨ぐ長期的な意思決定の複雑さから、多ターンインタラクションにおける効果的なウェブエージェントの訓練は依然として課題となっている。本研究では、ウェブエージェントを訓練するためのシンプルでありながら効果的なエンドツーエンドの多ターンRLフレームワークであるWebAgent-R1を提案する。これは、タスクの成功に依存する二値報酬に完全に導かれて、ウェブ環境とのオンラインインタラクションから直接学習し、多様な軌跡を非同期に生成する。WebArena-Liteベンチマークでの実験により、WebAgent-R1の有効性が実証され、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に、Llama-3.1-8Bのタスク成功率を8.5%から44.8%に向上させ、既存の最先端手法やOpenAI o3のような強力なプロプライエタリモデルを大幅に上回った。詳細な分析により、思考ベースのプロンプト戦略と、インタラクションを増やすことによるテストタイムスケーリングの有効性が明らかになった。さらに、2つのバリアントであるWebAgent-R1-ZeroとWebAgent-R1-CoTを導入することで、異なるRL初期化ポリシーを調査し、ウォームアップ訓練段階(すなわち、行動クローニング)の重要性を強調し、ウェブエージェントに長い連鎖思考(CoT)推論を組み込むための洞察を提供する。
マルチモーダル大規模言語モデル(MLLMs)は、ファインチューニング・アズ・ア・サービス(FTaaS)の設定でますます展開されており、ユーザーが提出したデータセットによって汎用モデルが下流タスクに適応されます。しかし、この柔軟性は重大なセキュリティリスクを引き起こします。悪意のあるファインチューニングによって、最小限の労力でMLLMsにバックドアを埋め込むことが可能だからです。本論文では、バックドアトリガーがクロスモーダル処理を体系的に破壊し、非意味的領域への異常な注意集中を引き起こす現象(我々が「注意崩壊」と呼ぶ現象)を観察します。この洞察に基づき、我々は「Believe Your Eyes(BYE)」を提案します。BYEは、注意エントロピーパターンを自己教師信号として活用し、バックドアサンプルを識別・除去するデータフィルタリングフレームワークです。BYEは3段階のパイプラインで動作します:(1)ファインチューニングされたモデルを使用して注意マップを抽出、(2)エントロピースコアを計算し、バイモーダル分離を通じて敏感な層をプロファイリング、(3)教師なしクラスタリングを実行して疑わしいサンプルを除去。従来の防御手法とは異なり、BYEはクリーンな監督、補助ラベル、またはモデルの変更を必要としません。様々なデータセット、モデル、多様なトリガータイプにわたる広範な実験により、BYEの有効性が検証されています:攻撃成功率をほぼゼロに抑えつつ、クリーンタスクの性能を維持し、MLLMsにおけるバックドア脅威に対する堅牢で汎用的なソリューションを提供します。
近年の進展により、結果報酬を用いたルールベースの強化学習(RL)を通じて、マルチモーダル大規模言語モデル(MLLMs)に強力な推論能力を引き出すことに成功が見られています。しかし、このパラダイムでは通常、最終結果に至る思考プロセスに対する監督が欠如しています。その結果、モデルは最適でない推論戦略を学習する可能性があり、これが一般化能力を妨げる要因となります。この問題を踏まえ、我々はSophiaVL-R1を提案し、このパラダイムに思考プロセスに対する報酬信号を追加する試みを行いました。これを実現するため、まず、思考プロセス全体の品質を評価する思考報酬モデルを訓練します。報酬ハッキングにより特定のサンプルに対して思考報酬が信頼できない場合があることを考慮し、訓練中に思考報酬に信頼度の重みを割り当てるTrust-GRPO法を提案しました。この重みは、正解と不正解に至る応答の思考報酬の比較に基づいて計算され、信頼性の低い思考報酬の影響を軽減するのに役立ちます。さらに、時間の経過とともに思考報酬を徐々に減少させるアニーリング訓練戦略を設計し、後期の訓練段階ではモデルが正確なルールベースの結果報酬に依存するようにしました。実験結果は、我々のSophiaVL-R1が様々なベンチマーク(例:MathVisita、MMMU)において一連の推論MLLMsを凌駕し、強力な推論能力と一般化能力を示しています。特に、我々のSophiaVL-R1-7Bは、パラメータ数が10倍多いLLaVA-OneVision-72Bをほとんどのベンチマークで上回りました。すべてのコード、モデル、データセットはhttps://github.com/kxfan2002/SophiaVL-R1で公開されています。
強化学習(Reinforcement Learning, RL)は、報酬信号を用いてポリシーを最適化することで、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させる強力なツールとなっています。しかし、RLの成功は検証者が提供する報酬の信頼性に依存しています。本論文では、検証者が正しいモデル出力を誤って拒否する「偽陰性(false negatives)」という広範な問題を明らかにし、分析します。Big-Math-RL-Verifiedデータセットの詳細な調査により、モデルが生成した回答の38%以上が偽陰性に陥り、検証者が正解を認識できないことが判明しました。私たちは、経験的および理論的に、これらの偽陰性が情報量のある勾配信号を奪い、収束を遅らせることでRLトレーニングに深刻な悪影響を及ぼすことを示します。これを緩和するため、既存のルールベースの手法を補完する軽量なLLMベースの検証器「tinyV」を提案します。tinyVは、動的に潜在的な偽陰性を特定し、有効な回答を回復することで、より正確な報酬推定を実現します。複数の数学推論ベンチマークにおいて、tinyVを統合することで、ベースラインと比較して合格率が最大10%向上し、収束が加速することが確認されました。本研究は、検証者の偽陰性に対処することの重要性を強調し、LLMのRLベースのファインチューニングを改善する実用的なアプローチを提供します。コードはhttps://github.com/uw-nsl/TinyVで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は質問応答タスクにおいて目覚ましい成功を収めているが、空間理解能力についてはまだ十分に探求されていない。本研究では、既存のMLLMsが3D空間知覚と理解能力を有しているかどうかという重要な問いを調査する。具体的には、本論文で以下の貢献を行う:(i) 視覚的幾何学知覚(例えば、カメラポーズやモーション推定)を評価するために特別に設計されたベンチマーク「VGBench」を導入する;(ii) これまでで最も包括的かつ多様なマルチモーダル空間理解ベンチマーク「SpatialScore」を提案し、VGBenchと他の11の既存データセットから関連データを統合する。このベンチマークは、様々な空間理解タスク、モダリティ、QA形式にわたる28Kのサンプルと、慎重に選ばれた難易度の高いサブセット「SpatialScore-Hard」を含む;(iii) 空間理解のための9つの専門ツールを組み込んだ新しいマルチエージェントシステム「SpatialAgent」を開発し、Plan-ExecuteとReActの推論パラダイムをサポートする;(iv) 空間推論における持続的な課題を明らかにするとともに、SpatialAgentの有効性を示すための広範な評価を実施する。我々は、SpatialScoreが次世代のMLLMsの進化に向けた貴重な洞察を提供し、厳格なベンチマークとして機能すると確信している。
現代のVision-Language Models(VLM)は、視覚的推論を必要とする幅広いタスクを解決することができます。現実世界のシナリオでは、VLMに求められる特性として、高速な推論と制御可能な生成(例えば、出力を所望の形式に従わせる)が挙げられます。しかし、LLaVAのような既存の自己回帰型(AR)VLMはこれらの点で課題を抱えています。離散拡散モデル(DM)は有望な代替手段を提供し、並列デコードによる高速な推論と、テキスト埋め込みを通じた双方向コンテキストによる制御可能な生成を可能にします。DMは言語のみの設定では効果的ですが、マルチモーダルタスクにおける可能性は未開拓です。本論文では、DMを基盤としたVLMファミリーであるLaViDaを紹介します。LaViDaは、DMに視覚エンコーダを組み込み、マルチモーダル指示追従のために各部分を共同でファインチューニングすることで構築されます。遭遇した課題に対処するため、LaViDaは効果的なトレーニングのための補完的マスキング、効率的な推論のためのプレフィックスKVキャッシュ、高品質なサンプリングのためのタイムステップシフトといった新技術を組み込んでいます。実験結果は、LaViDaがMMMUのようなマルチモーダルベンチマークにおいてAR VLMと同等または優れた性能を達成しつつ、柔軟な速度-品質トレードオフ、制御可能性、双方向推論といったDMの独自の利点を提供することを示しています。COCOキャプショニングでは、LaViDaはOpen-LLaVa-Next-8BをCIDErスコアで+4.1上回り、1.92倍の高速化を実現しました。双方向タスクでは、Constrained Poem Completionで+59%の改善を達成しました。これらの結果は、LaViDaがAR VLMに対する強力な代替手段であることを示しています。コードとモデルはカメラレディ版で公開される予定です。
近年の研究では、最終的な回答を生成する前に思考の連鎖を明確に示す推論モデルを構築する際に、強化学習(Reinforcement Learning: RL)の有効性が実証されています。しかし、視覚言語タスクにおける推論を可能にするための進展が続いているにもかかわらず、既存のオープンソースの視覚推論モデルは、通常、純粋な自然言語で推論内容を生成し、視覚情報を明示的に統合していません。これにより、明確に表現され視覚的に根拠付けられた推論連鎖を生成する能力が制限されています。この問題に対処するため、我々は画像とテキストを用いた根拠付け推論(Grounded Reasoning with Images and Texts: GRIT)を提案します。GRITは、モデルが自然言語と明示的なバウンディングボックス座標を交互に織り交ぜた推論連鎖を生成する、根拠付け推論パラダイムを導入します。これらの座標は、推論プロセス中にモデルが参照する入力画像の領域を指し示します。さらに、GRITはGRPOアルゴリズムに基づいた強化学習アプローチであるGRPO-GRを備えています。GRPO-GRは、最終的な回答の正確性と根拠付け推論出力の形式に焦点を当てた堅牢な報酬を採用しており、推論連鎖のアノテーションや明示的なバウンディングボックスラベルを必要としません。その結果、GRITは既存のデータセットからわずか20の画像-質問-回答のトリプレットを必要とする、優れたデータ効率を実現します。包括的な評価により、GRITがMLLM(Multimodal Large Language Model)を効果的に訓練し、一貫性があり視覚的に根拠付けられた推論連鎖を生成することが実証され、推論能力と根拠付け能力の成功した統合を示しています。
強化学習(Reinforcement Learning, RL)は、視覚言語モデル(Vision-Language Models, VLMs)の推論能力を向上させるための効果的なポストトレーニング戦略として証明されています。Group Relative Policy Optimization(GRPO)は、モデルが回答する前に完全な推論トレースを生成することを促す最近の注目すべき手法であり、トークン使用量と計算コストの増加をもたらします。人間の思考プロセスに着想を得て、人々が簡単な質問では推論を省略し、必要な場合に慎重に考えることに基づき、VLMsがまず推論が必要かどうかを判断できるようにする方法を探ります。これを実現するため、我々はTONという2段階のトレーニング戦略を提案します:(i)単純でありながら効果的な「思考ドロップアウト」操作を伴う教師ありファインチューニング(Supervised Fine-Tuning, SFT)段階。ここでは、推論トレースがランダムに空の思考に置き換えられ、選択的推論のためのコールドスタートとして機能する「考えるか否か」形式を導入します。(ii)モデルが自由に考えるタイミングを探索しながら、タスク意識的な結果の報酬を最大化するGRPO段階。実験結果は、TONがバニラGRPOと比較して完了長を最大90%削減できることを示し、性能を犠牲にすることなく、むしろ向上させることも可能です。さらに、3Bおよび7Bモデル下での多様な視覚言語タスクにわたる評価では、トレーニングが進むにつれてモデルが不要な推論ステップを回避することを徐々に学習することが一貫して明らかになりました。これらの発見は、強化学習アプローチにおける人間らしい推論パターンへの道筋を照らします。我々のコードはhttps://github.com/kokolerk/TONで公開されています。
最近、推論ベースのMLLM(マルチモーダル言語モデル)は、長文のテキスト推論チェーンの生成において一定の成功を収めています。しかし、視覚的証拠に基づいたテキスト推論を正確に接地するために、視覚領域を動的かつ反復的に焦点を当てて再訪する必要がある複雑なタスクにはまだ苦戦しています。本論文では、VLM-R^3(Visual Language Model with Region Recognition and Reasoning)を紹介します。このフレームワークは、MLLMに以下の能力を備えさせます:(i) 追加の視覚的証拠が必要なタイミングを判断する、(ii) 画像内のどこに接地するかを決定する、(iii) 関連するサブ画像の内容をシームレスにインタリーブされた思考の連鎖に織り込む。本手法の核心は、Region-Conditioned Reinforcement Policy Optimization(R-GRPO)という訓練パラダイムです。これは、情報量の多い領域を選択し、適切な変換(例:切り取り、ズーム)を策定し、その結果得られる視覚的コンテキストを後続の推論ステップに統合することをモデルに報いるものです。このポリシーをブートストラップするために、Visuo-Lingual Interleaved Rationale(VLIR)コーパスを慎重に選定して作成しました。このコーパスは、領域選択とテキストによる正当化に関するステップレベルの監督を提供します。MathVista、ScienceQA、その他のベンチマークでの広範な実験により、VLM-R^3がゼロショットおよび少数ショット設定において新たな最先端を確立し、特に微妙な空間推論や細かい視覚的手がかりの抽出を要求する質問において最大の向上を示すことが確認されました。
強化学習(RL)は、大規模言語モデル(LLMs)の下流タスク性能と人間の価値観との整合性において大幅な改善をもたらす。驚くべきことに、このような大きな向上は、パラメータのわずか5%から30%を含む小さなサブネットワークのみを更新することで達成され、残りの部分は実質的に変更されない。我々はこの現象をRLによって誘発されるパラメータ更新のスパース性と呼ぶ。このスパース性は、我々の実験で使用した7つの広く使われているRLアルゴリズム(例:PPO、GRPO、DPO)と、異なるファミリーに属する10のLLMsすべてにおいて観察された。このスパース性は本質的であり、明示的なスパース性を促進する正則化やアーキテクチャ上の制約なしに発生する。サブネットワークのみをファインチューニングすることで、テスト精度が回復し、驚くべきことに、完全なファインチューニングによって得られるモデルとほぼ同一のモデルが生成される。異なるランダムシード、トレーニングデータ、さらにはRLアルゴリズムから得られたサブネットワークは、偶然に期待されるよりも大幅に重複している。我々の分析によれば、このスパース性は特定の層のみを更新することによるものではなく、ほぼすべてのパラメータ行列が同様にスパースな更新を受けることが示唆されている。さらに、ほぼすべてのパラメータ行列に対する更新はほぼフルランクであり、RLがパラメータ行列が表現できるほぼ完全な部分空間をカバーする小さなパラメータのサブセットを更新していることが示唆される。我々は、この更新のスパース性は主にポリシー分布に近いデータでトレーニングすることに起因すると推測しており、KL正則化や勾配クリッピングなどの、ポリシーを事前学習モデルに近い状態に保つことを促す技術の影響は限定的であると考えられる。
最近の推論LLM(例:DeepSeek-R1やOpenAI-o1)の進展は、強化学習を通じて印象的な推論能力を示しています。しかし、これらの能力をマルチモーダルLLM(MLLM)に拡張することは、再トレーニングの莫大なコストや、高品質で検証可能なマルチモーダル推論データセットの不足によって妨げられています。本論文では、FRANKモデルを紹介します。これは、トレーニングを必要とせず、既存のMLLMに推論と反省能力を付与するr1ライクなMLLMであり、勾配更新や追加の教師信号を一切必要としません。私たちの重要な洞察は、MLLMのデコーダ層間で知覚と推論を分離することです。具体的には、浅いデコーダ層は視覚トークンにより多くの注意を割り当てるのに対し、深いデコーダ層はテキストの意味に集中することを観察しました。この観察に基づき、視覚事前学習済みMLLMと推論特化LLMを組み合わせる階層的重みマージングアプローチを提案します。これにより、深いデコーダ層に推論能力を統合しつつ、浅いデコーダ層での視覚的基盤を保持する、テイラー展開に基づく層ごとの閉形式融合メカニズムを開発しました。挑戦的なマルチモーダル推論ベンチマークでの広範な実験により、本手法の有効性を実証しました。MMMUベンチマークでは、FRANK-38Bモデルが69.2の精度を達成し、最強のベースラインであるInternVL2.5-38Bを+5.3上回り、プロプライエタリなGPT-4oモデルをも凌駕しました。プロジェクトのホームページは以下です:http://iip.whu.edu.cn/frank/index.html
大規模視覚言語モデル(LVLM)は、依然として幻覚(hallucination)に脆弱であり、視覚的入力と整合しない内容を生成することが多い。最近のアプローチでは、幻覚を軽減するためにマルチモーダル直接選好最適化(DPO)が進展しているが、これらは通常、事前定義されたまたはランダムに編集された負のサンプルに依存しており、実際のモデルのエラーを反映していないため、訓練効果が制限されている。本研究では、モデル自身の幻覚出力に基づいて動的にコントラスティブ訓練データを構築するオンライン視覚言語選好学習(OViP)フレームワークを提案する。サンプリングされた応答ペア間の意味的差異を特定し、拡散モデルを使用して負の画像を合成することで、OViPはより関連性の高い監督信号をリアルタイムで生成する。この失敗駆動型訓練により、テキストと視覚の選好の適応的整合が可能となる。さらに、幻覚抑制と表現力のトレードオフをより適切に捉えるために、既存の評価プロトコルを改良した。幻覚および一般的なベンチマークでの実験により、OViPがコアとなるマルチモーダル能力を維持しつつ、幻覚を効果的に低減することが実証された。
マルチモーダル大規模言語モデル(MLLMs)は視覚タスクにおいて急速に進化を遂げているものの、その空間理解能力は単一画像に限定されており、ロボティクスやその他の現実世界のアプリケーションで必要とされるマルチフレーム推論には不向きである。本論文では、深度知覚、視覚的対応、動的知覚を統合することで、MLLMsに堅牢なマルチフレーム空間理解能力を備えさせるフレームワークを提案する。我々のアプローチの中核となるのは、多様な3Dおよび4Dシーンにわたる2,700万以上のサンプルを収録した新規の大規模データセット、MultiSPAである。MultiSPAとともに、統一された指標の下で幅広い空間タスクをテストする包括的なベンチマークを導入する。結果として得られたモデル、Multi-SpatialMLLMは、ベースラインやプロプライエタリシステムを大幅に上回る性能を示し、スケーラブルで汎用的なマルチフレーム推論を実証する。さらに、マルチタスクの利点や、困難なシナリオにおける新たな能力の萌芽を観察し、我々のモデルがロボティクスのためのマルチフレーム報酬アノテーターとして機能する方法を示す。
大規模言語モデル(LLM)は、現実世界のエージェント的アプリケーションにおいて高度な能力を発揮しています。実用的なニーズに対応するため、LLMベースのエージェントを開発する研究が増えており、新たな課題が浮上しています。エージェント的シナリオでは、長い指示文と複雑な制約が頻繁に含まれるため、例えば拡張されたシステムプロンプトや詳細なツール仕様などが挙げられます。このような指示に従うことはエージェント的アプリケーションにおいて重要ですが、LLMがそれらを確実に遵守できるかどうかはまだ十分に検証されていません。本論文では、エージェント的シナリオにおけるLLMの指示遵守能力を体系的に評価するための最初のベンチマークであるAgentIFを紹介します。AgentIFは以下の3つの特徴を持ちます:(1)現実的:50の実世界のエージェント的アプリケーションから構築されています。(2)長い:平均1,723語、最大15,630語の指示文を含みます。(3)複雑:指示ごとに平均11.9の制約があり、ツール仕様や条件制約など多様な制約タイプをカバーしています。AgentIFを構築するために、産業用エージェントやオープンソースのエージェントシステムから50のエージェント的タスクにわたる707の人間による注釈付き指示文を収集しました。各指示文に対して、関連する制約と対応する評価指標(コードベース評価、LLMベース評価、ハイブリッドコード-LLM評価)を注釈しました。AgentIFを使用して、既存の先進的なLLMを体系的に評価しました。その結果、現在のモデルは一般的にパフォーマンスが低く、特に複雑な制約構造やツール仕様の処理において課題があることが観察されました。さらに、指示文の長さやメタ制約に関するエラー分析と分析実験を行い、既存のLLMの失敗モードについていくつかの知見を提供しました。今後の研究を促進するため、コードとデータを公開しています。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための強力なポストトレーニング手法として注目を集めています。RLHFにおける核心的な課題は、正確な報酬信号を構築することであり、従来のBradley-Terry報酬モデル(BT RM)は、データサイズやカバレッジに対する感度や、報酬ハッキングへの脆弱性に悩まされることが多いです。生成型報酬モデル(GenRM)は、連鎖的思考(CoT)の論理を生成し、最終的な報酬を導くことで、より堅牢な代替手段を提供します。しかし、既存のGenRMは浅い垂直スケーリングされた推論に依存しており、微妙なニュアンスや複雑な(例えば、推論集約的な)タスクを扱う能力が制限されています。さらに、それらのペアワイズ選好出力は、ポイントワイズ報酬信号を必要とする標準的なRLHFアルゴリズムと互換性がありません。本研究では、内部思考プロセスをモデル化することで、GenRMに長期的な推論を可能にするトレーニングフレームワーク「Think-RM」を提案します。Think-RMは、構造化された外部提供の論理を生成するのではなく、自己反省、仮説推論、発散的推論などの高度な能力をサポートする柔軟な自己誘導型の推論トレースを生成します。これらの推論能力を引き出すために、まず長いCoTデータに対する教師ありファインチューニング(SFT)によってモデルをウォームアップします。その後、ルールベースの強化学習(RL)によってモデルの長期的な能力をさらに向上させます。さらに、ポイントワイズ報酬変換の必要性を排除し、Think-RMの出力をより効果的に活用するために、ペアワイズ選好報酬を直接使用してポリシーを最適化する新しいペアワイズRLHFパイプラインを提案します。実験結果は、Think-RMがRM-Benchにおいて最先端の結果を達成し、BT RMおよび垂直スケーリングされたGenRMを8%上回ることを示しています。提案するペアワイズRLHFパイプラインと組み合わせることで、従来のアプローチと比較して優れたエンドポリシーパフォーマンスを実証しています。
大規模推論モデル(LRMs)は、回答前に明示的に推論を行う新たな生成パラダイムを導入し、複雑なタスクにおいて顕著な改善をもたらします。しかし、有害なクエリや敵対的攻撃に対して大きな安全リスクを抱えています。最近のLRMsに対する主流の安全対策である教師ありファインチューニング(SFT)は安全性を向上させますが、SFTで調整されたモデルは未見のジェイルブレイクプロンプトに一般化するのが難しいことがわかりました。LRMsの生成を徹底的に調査した結果、安全性推論を活性化し安全な応答につながる「安全なるほど瞬間」を特定しました。このなるほど瞬間は通常、モデルのクエリ理解プロセスに続き、モデルが安全に進むかどうかを示す「キーセンテンス」に現れます。これらの知見に基づき、キーセンテンスにおける安全なるほど瞬間をより良く活性化するための2つの補完的な目的を含むSafeKeyを提案します:(1)キーセンテンス前にモデルの内部表現における安全信号を強化するデュアルパス安全ヘッド、(2)重要な安全ヒントを含むクエリ理解にモデルの注意を向けさせるクエリマスクモデリング目的。複数の安全ベンチマークでの実験により、私たちの手法が幅広いジェイルブレイク攻撃や分布外の有害プロンプトに対する安全性の一般化を大幅に改善し、平均有害率を9.6%低下させながら一般的な能力を維持することが実証されました。分析により、SafeKeyが内部の注意を再形成し隠れ表現の品質を向上させることで安全性を高める仕組みが明らかになりました。
プロセス報酬モデル(PRMs)は、大規模言語モデル(LLMs)によって生成された推論に対して段階的なフィードバックを提供するものとして、注目を集めています。しかし、二つの重要な研究課題が残されています。一つは、トレーニングのための正確なステップレベルのエラーレベルを収集するために、通常はコストのかかる人間のアノテーションが必要となることです。もう一つは、既存のPRMsが数学的推論問題に限定されていることです。これらの課題に対応するため、本論文では、自動的なデータセット作成とPRMsの多様な推論タスクへの汎用化という課題に取り組むことを目指しています。この目標を達成するために、我々はFoVerを提案します。FoVerは、形式的検証ツール(例えば、形式的論理のためのZ3や定理証明のためのIsabelleなど)によって自動的にアノテーションされたステップレベルのエラーレベルを用いてPRMsをトレーニングするアプローチです。これらのツールは、記号的なタスクに対して自動的かつ正確な検証を提供します。このアプローチを使用して、我々は、人間のアノテーションなしで、形式的論理や定理証明タスクに対するLLMの応答にエラーレベルを付与したトレーニングデータセットを合成します。このデータ合成は、形式的検証と互換性のあるタスクにのみ可能ですが、我々のデータセットでトレーニングされたLLMベースのPRMsが、タスク間の汎用性を示し、多様な推論タスクにわたる検証を改善することが観察されています。具体的には、FoVerでトレーニングされたPRMsは、元のLLMsに基づくベースラインPRMsを大幅に上回り、人間やより強力なモデルによってアノテーションされたラベルでトレーニングされた最先端のPRMsと比較しても、競争力のあるまたは優れた結果を達成します。これは、ProcessBenchでのステップレベルの検証や、MATH、AIME、ANLI、MMLU、BBHを含む12の推論ベンチマークにおけるBest-of-Kパフォーマンスによって測定されています。データセット、モデル、コードはhttps://github.com/psunlpgroup/FoVerで提供されています。
大規模言語モデル(LLM)に基づく高品質な機械翻訳システムは、特定のスタイル的制約を反映したパーソナライズされた翻訳の生成を簡素化してきました。しかし、これらのシステムは、スタイル的要件がより曖昧で、プロンプトを通じて伝達することが難しい状況では依然として苦戦しています。本研究では、リソースが限られた環境におけるLLM生成翻訳のパーソナライゼーションに向けた様々な戦略を探求し、特に挑戦的な文学翻訳領域に焦点を当てます。パーソナライズされたスタイルに向けてモデルの生成を誘導するためのプロンプト戦略と推論時の介入を検討し、スパースオートエンコーダから抽出された潜在概念を活用して顕著なパーソナライゼーション特性を特定する対照的フレームワークを提案します。結果は、誘導が翻訳品質を維持しながら強力なパーソナライゼーションを実現することを示しています。さらに、誘導がLLMの表現に与える影響を検証し、パーソナライゼーションに関連する影響を持つモデル層が、マルチショットプロンプトと我々の誘導方法によって同様に影響を受けることを発見しました。これは、類似のメカニズムが働いていることを示唆しています。
大規模言語モデル(LLM)のテキスト生成能力を評価することは困難であり、特に低リソース言語では直接的な評価手法が不足している。本論文では、MUG-Evalという新しいフレームワークを提案する。このフレームワークは、既存のベンチマークを会話タスクに変換し、LLMのそれらのタスクに対する精度を測定することで、LLMの多言語生成能力を評価する。これらの会話タスクは、対象言語での効果的なコミュニケーションを必要とするように特別に設計されている。そして、タスクの成功率を会話生成の成功の代理指標として単純に使用する。我々のアプローチには2つの重要な利点がある。第一に、ほとんどの言語で限られている言語固有のNLPツールや注釈付きデータセットに依存しないこと、第二に、少数の高リソース言語以外では評価品質が低下するLLM-as-judgesに頼らないことである。我々は、高リソース、中リソース、低リソースのカテゴリにまたがる30言語で8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強い相関(r > 0.75)を示しつつ、言語やモデル間での標準化された比較を可能にすることを発見した。我々のフレームワークは、数千の言語に拡張可能な、多言語生成評価のための堅牢でリソース効率的なソリューションを提供する。
我々は、拡散トランスフォーマー向けのトレーニング不要なビデオモーショントランスファー手法であるRoPECraftを提案する。この手法は、回転位置埋め込み(RoPE)を修正するだけで動作する。まず、参照ビデオから密なオプティカルフローを抽出し、その結果得られるモーションオフセットを利用してRoPEの複素指数テンソルをワープさせ、生成プロセスにモーションを効果的にエンコードする。これらの埋め込みは、フローマッチング目的関数を用いて、予測速度と目標速度の間の軌道アラインメントを通じて、ノイズ除去ステップ中にさらに最適化される。出力をテキストプロンプトに忠実に保ち、重複生成を防ぐために、参照ビデオのフーリエ変換の位相成分に基づく正則化項を組み込み、位相角を滑らかな多様体に投影して高周波アーティファクトを抑制する。ベンチマーク実験により、RoPECraftが最近発表されたすべての手法を質的および量的に上回ることが明らかになった。
画像における比喩的理解は、AIシステムにとって依然として重要な課題であり、既存のモデルは視覚コンテンツに埋め込まれた文化的、感情的、文脈的なニュアンスを捉えるのに苦労しています。マルチモーダル大規模言語モデル(MLLMs)は基本的な視覚質問応答(VQA)タスクでは優れていますが、画像の含意タスクにおいて根本的な制限に直面しています。それは、異なる視覚要素とそれらの抽象的な意味との関係を曖昧にする文脈のギャップです。人間の認知プロセスに着想を得て、我々は画像の含意理解と推論のための新しいフレームワーク「Let Androids Dream(LAD)」を提案します。LADは、以下の3段階のフレームワークを通じて文脈の欠落に対処します:(1)知覚:視覚情報を豊かで多層的なテキスト表現に変換する、(2)探索:曖昧さを解決するためにクロスドメインの知識を反復的に検索し統合する、(3)推論:明示的な推論を通じて文脈に沿った画像の含意を生成する。我々のフレームワークは、軽量なGPT-4o-miniモデルを使用して、英語の画像含意ベンチマークにおいて15以上のMLLMsと比較してSOTA性能を達成し、中国語のベンチマークにおいても大幅な改善を示し、多肢選択問題(MCQ)ではGPT-4oモデルと同等の性能を発揮し、自由回答問題(OSQ)では36.7%上回りました。さらに、我々の研究は、AIが画像の含意をより効果的に解釈する方法について新たな洞察を提供し、視覚言語推論と人間-AIインタラクションの分野を前進させます。我々のプロジェクトはhttps://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheepで公開されています。
大規模言語モデル(LLM)は、自らがより良い知識を持っているはずの状況で、その誤りを認めることができるだろうか?本研究では、以前に生成した回答の誤りを認める行動を「撤回(retraction)」と定義し、LLMがいつ、なぜ撤回を選択するのかを理解することを目指す。まず、モデル固有のデータセットを構築し、モデルが自身のパラメトリック知識と矛盾する誤った回答を撤回するかどうかを評価する。LLMは撤回を行うことができるが、その頻度は非常に低い。撤回は、以前に特定されたモデルの内部信念の指標と密接に関連していることを示す:モデルは、自身が事実上正しいと「信じている」誤った回答を撤回することができない。ステアリング実験では、内部信念がモデルの撤回に因果的に影響を与えることをさらに実証する。特に、モデルが自身の回答を信じていない場合、モデルは回答を検証しようとするだけでなく、自己検証中の注意行動も変化させる。最後に、シンプルな教師ありファインチューニングが、モデルにより正確な内部信念を学習させることで、撤回性能を大幅に向上させることを示す。コードとデータセットはhttps://github.com/ayyyq/llm-retractionで公開されている。
ビジョン・ランゲージモデル(VLMs)は、インターネット規模の画像-テキストコーパスを通じて現実世界の知識と一般的な推論能力を獲得します。これらは、シーン理解とタスク計画をロボットシステムに強化し、ロボット軌跡データで訓練された視覚運動ポリシーを支援することができます。本研究では、その逆のパラダイム、つまり豊富で現実的なマルチモーダルなロボット軌跡データを使用してVLMsを強化・評価する方法を探ります。本論文では、VLMsのためのVisual Question Answering(VQA)データセット生成フレームワークであるRobo2VLMを紹介します。人間による遠隔操作ロボット軌跡が与えられると、Robo2VLMは、エンドエフェクタの姿勢、グリッパーの開口度、力センシングなどの非視覚的かつ非記述的なセンサーモダリティからグラウンドトゥルースを導出します。これらのモダリティに基づいて、ロボット軌跡を一連の操作フェーズに分割します。各フェーズで、Robo2VLMはシーンと相互作用の理解を使用して、ロボットの3D特性、タスク目標、およびターゲットオブジェクトを識別します。これらの特性は、空間的、目標条件付き、および相互作用推論の質問テンプレートに基づいて、代表的なVQAクエリ(テキスト付きの多肢選択問題を含む画像)を生成するために使用されます。我々は、176kの実ロボット軌跡から684,710の質問をカバーし、463の異なるシーンと3,396のロボット操作タスクを含む大規模な実世界データセットであるRobo2VLM-1をキュレーションしました。結果は、Robo2VLM-1が空間的および相互作用推論におけるVLMの能力をベンチマークし、向上させることができることを示唆しています。
大規模視覚言語モデル(LVLM)における重要な進展にもかかわらず、特にその解釈可能性と、画像内のテキスト情報をどのように特定し解釈するかに関して、未だにギャップが存在します。本論文では、画像からテキストを認識する特定のヘッド(我々が「光学文字認識ヘッド(OCRヘッド)」と呼ぶもの)を特定するために、さまざまなLVLMを探索します。これらのヘッドに関する我々の発見は以下の通りです:(1) スパース性が低い:従来の検索ヘッドとは異なり、テキスト情報を抽出するために多数のヘッドが活性化されます。(2) 質的に異なる:OCRヘッドは、一般的な検索ヘッドとは大きく異なる特性を持ち、その特徴の類似性が低いことが示されています。(3) 静的に活性化される:これらのヘッドの活性化頻度は、そのOCRスコアと密接に一致します。我々は、OCRヘッドと従来の検索ヘッドにChain-of-Thought(CoT)を適用し、これらのヘッドをマスキングすることで、下流タスクにおける我々の発見を検証します。また、OCRヘッド内のシンクトークン値を再分配することで性能が向上することを示します。これらの洞察は、LVLMが画像に埋め込まれたテキスト情報を処理する際の内部メカニズムに対する深い理解を提供します。
視覚言語モデル(VLMs)が日常生活にますます統合されるにつれ、正確な視覚文化理解の必要性が重要となっている。しかし、これらのモデルは文化的ニュアンスを効果的に解釈する点でしばしば不十分である。これまでの研究では、テキストのみの設定において、検索拡張生成(RAG)が文化的理解を向上させる効果を示してきたが、マルチモーダルなシナリオでの応用は未だ十分に検討されていない。このギャップを埋めるため、我々はRAVENEA(Retrieval-Augmented Visual culturE uNdErstAnding)という新しいベンチマークを提案する。これは、検索を通じて視覚文化理解を進めることを目的とし、文化に焦点を当てた視覚的質問応答(cVQA)と文化を考慮した画像キャプション生成(cIC)の2つのタスクに焦点を当てている。RAVENEAは、人間のアノテーターによってキュレーションおよびランク付けされた10,000以上のWikipedia文書を統合することで、既存のデータセットを拡張する。RAVENEAを用いて、各画像クエリに対して7つのマルチモーダル検索器を訓練および評価し、14の最先端VLMにおける検索拡張入力の下流影響を測定した。その結果、文化を意識した検索を組み込むことで、軽量なVLMが非拡張のモデルを上回る(cVQAでは少なくとも3.2%、cICでは6.2%の絶対的な向上)ことが示された。これは、マルチモーダル理解における検索拡張手法と文化的に包括的なベンチマークの価値を強調するものである。
現代のBPEトークナイザーは、しばしば日付を意味のない断片に分割します。例えば、20250312を202、503、12のように分割し、トークン数を増やし、堅牢な時間的推論に必要な内在的な構造を曖昧にしてしまいます。本研究では、(1) トークナイザーが複数桁の日付要素をどれだけ忠実に保持しているかを測定する、シンプルで解釈可能な指標「日付断片化率」を導入します。(2) 3つの時間的推論タスク(文脈に基づく日付解決、フォーマット不変パズル、歴史的・現代的・未来的な期間にわたる日付計算)にまたがる6500の例を含むDateAugBenchをリリースします。(3) 層ごとのプロービングと因果的アテンションホップ分析を通じて、大規模言語モデルが月、日、年の要素の断片を縫い合わせて時間的推論を行う「日付抽象化メカニズム」が出現することを明らかにします。実験結果から、過度の断片化は、歴史的や未来的な日付のような珍しい日付において最大10ポイントの精度低下と相関があることが示されました。さらに、モデルが大きいほど、日付断片を修復する日付抽象化が迅速に達成されることがわかりました。最後に、LLMが日付断片を組み立てる際にたどる推論パスは、通常、人間の解釈(年→月→日)とは異なることが観察されました。
我々は、トポロジー最適化に基づいて大規模言語モデル(LLM)の物理的・空間的推論能力を評価するための新しいデータセットを紹介する。トポロジー最適化とは、所定の荷重と支持条件の下で設計空間内の最適な材料分布を計算する手法である。このデータセットでは、LLMに対して2D境界、作用力、支持条件などの条件が与えられ、それに基づいて最適な材料分布を推論する必要がある。データセットには、部分構造内のマスクされた領域を埋めるタスクから、完全な材料分布を予測するタスクまで、多様な課題が含まれている。これらの課題を解決するためには、シミュレーションツールや明示的な物理モデルにアクセスすることなく、与えられた制約下での力の流れと必要な材料分布を理解する必要があり、構造の安定性と空間的組織化についての推論能力が試される。我々のデータセットは、2D設定における空間的・物理的推論能力の評価を目的としており、従来の言語や論理のベンチマークに対して補完的な視点を提供する。
摂動入力を基に一貫性のある画像を合成するために事前学習を行うことで、生成モデルは物体の境界やシーンの構成を本質的に理解する能力を獲得します。この生成表現を汎用的な知覚的組織化にどのように再利用できるでしょうか?私たちは、Stable DiffusionとMAE(エンコーダ+デコーダ)を、特定のオブジェクトタイプ(室内家具と車)に限定してインスタンスカラーリング損失を用いてカテゴリに依存しないインスタンスセグメンテーションにファインチューニングしました。驚くべきことに、私たちのモデルは強力なゼロショット汎化能力を示し、ファインチューニング(および多くの場合、MAEのImageNet-1K事前学習)で見られなかったタイプやスタイルのオブジェクトを正確にセグメント化しました。最良のパフォーマンスを発揮するモデルは、未見のオブジェクトタイプやスタイルの評価において、強力な教師あり学習を施したSAMに非常に近い結果を示し、微細な構造や曖昧な境界のセグメンテーションにおいてはそれを上回りました。これに対して、既存のプロンプト可能なセグメンテーションアーキテクチャや識別的に事前学習されたモデルは汎化に失敗しました。これは、生成モデルがカテゴリやドメインを超えて転移可能な本質的なグループ化メカニズムを学習することを示唆しています。コード、事前学習済みモデル、デモは私たちのウェブサイトで公開されています。
大規模音声言語モデル(LALMs)は、大規模言語モデルを音声やオーディオなどのマルチモーダル理解に拡張したものである。音声およびオーディオ処理タスクにおける性能は広く研究されている一方で、その推論能力は未だ十分に検討されていない。特に、複数の事実を想起し統合する能力であるマルチホップ推論については、体系的な評価が欠如している。既存のベンチマークは、一般的な音声およびオーディオ処理タスク、会話能力、公平性に焦点を当てているが、この側面を見落としている。このギャップを埋めるため、我々は音声およびオーディオ情報に基づくLALMsのマルチホップ推論を評価するベンチマーク「SAKURA」を提案する。結果は、LALMsが関連情報を正しく抽出した場合でも、音声/オーディオ表現を統合してマルチホップ推論を行うことに苦戦することを示しており、マルチモーダル推論における根本的な課題を浮き彫りにしている。我々の知見は、LALMsの重要な限界を明らかにし、今後の研究に対する洞察とリソースを提供するものである。