翻訳付きの日次キュレーションされたAI研究論文
現在のビデオ生成コミュニティにおける正確なユーザー意図解釈のボトルネックに対処するため、我々はAny2Captionを提案します。これは、あらゆる条件下での制御可能なビデオ生成のための新しいフレームワークです。その核となるアイデアは、様々な条件解釈ステップをビデオ合成ステップから分離することです。Any2Captionは、現代のマルチモーダル大規模言語モデル(MLLMs)を活用して、テキスト、画像、ビデオ、および領域、動き、カメラポーズなどの特殊なキューといった多様な入力を、高密度で構造化されたキャプションに解釈します。これにより、バックボーンビデオジェネレーターにより良いガイダンスを提供します。また、我々はAny2CapInsを紹介します。これは、337Kのインスタンスと407Kの条件を含む大規模なデータセットで、あらゆる条件からキャプションへの指示チューニングに使用されます。包括的な評価により、我々のシステムが既存のビデオ生成モデルの様々な側面において、制御性とビデオ品質の大幅な向上を示すことが実証されました。プロジェクトページ: https://sqwu.top/Any2Cap/
大規模言語モデル(LLM)を評価者として活用する動きが広がり、人間によるアノテーションに代わるスケーラブルな代替手段が提供されています。しかし、既存の教師ありファインチューニング(SFT)を用いた評価者アプローチは、複雑な推論を必要とする領域では十分な性能を発揮できていません。本研究では、LLM評価者が真に強化された推論能力から恩恵を受けているかどうかを調査します。評価タスクにおける推論要件の詳細な分析を通じて、SFTの性能向上と推論を要するサンプルの割合との間に負の相関があることを明らかにし、このようなシナリオにおけるSFTの限界を浮き彫りにします。この課題に対処するため、我々はJudgeLRMを提案します。これは、評価者ごとの結果駆動型報酬を用いた強化学習(RL)で訓練された、判断指向のLLMファミリーです。JudgeLRMモデルは、SFTチューニングされたモデルや最先端の推論モデルを一貫して上回ります。特に、JudgeLRM-3BはGPT-4を凌駕し、JudgeLRM-7BはDeepSeek-R1をF1スコアで2.79%上回り、深い推論を必要とする評価タスクで特に優れた性能を発揮します。
ソフトアテンションは、大規模言語モデル(LLM)が与えられたコンテキスト内で関連する部分を見つけるための重要なメカニズムです。しかし、個々のアテンションの重みは、単一のクエリとキートークンベクトルの類似性によってのみ決定されます。この「単一トークンアテンション」は、関連する部分をコンテキストの他の部分から区別するために使用される情報量を制限してしまいます。この問題を解決するため、我々は新しいアテンション手法であるマルチトークンアテンション(MTA)を提案します。MTAでは、LLMが複数のクエリとキーベクトルに基づいてアテンションの重みを同時に条件付けできるようにします。これは、クエリ、キー、およびヘッドに対して畳み込み操作を適用することで実現され、近接するクエリとキーが互いのアテンションの重みに影響を与え、より精密なアテンションを可能にします。その結果、我々の手法は、単一のベクトルの容量を超える、より豊かでニュアンスのある情報を使用して関連するコンテキストを見つけることができます。広範な評価を通じて、MTAがさまざまな人気ベンチマークで性能向上を達成することを実証しました。特に、標準的な言語モデリングタスクや、長いコンテキスト内で情報を検索する必要があるタスクにおいて、Transformerのベースラインモデルを上回り、我々の手法がより豊かな情報を活用する能力が特に有効であることが示されました。
最近のChain of Thought(COT)生成の進展により、大規模言語モデル(LLMs)の推論能力が大幅に向上し、強化学習(RL)が効果的なポストトレーニング手法として注目を集めています。マルチモーダル大規模言語モデル(MLLMs)はこの推論能力を継承していますが、知覚と論理的推論の両方を必要とするタスクではまだ十分に探索されていません。この問題に対処するため、我々はSEED-Bench-R1を導入しました。これは、ビデオ理解におけるMLLMsのポストトレーニング手法を体系的に評価するためのベンチマークです。SEED-Bench-R1には、複雑な現実世界のビデオと日常の計画タスクが多肢選択問題の形式で含まれており、高度な知覚と推論を必要とします。SEED-Bench-R1は、分布内、環境間、環境間タスクの3段階の階層を通じて汎化能力を評価し、容易に検証可能な正解を持つ大規模なトレーニングデータセットを備えています。Qwen2-VL-Instruct-7Bをベースモデルとして使用し、RLと教師ありファインチューニング(SFT)を比較した結果、RLがデータ効率に優れ、分布内および分布外タスクの両方で優れた性能を示し、LongVideoBenchのような一般的なビデオ理解ベンチマークでもSFTを上回ることが明らかになりました。詳細な分析により、RLが視覚的知覚を強化する一方で、論理的に一貫した推論連鎖を生成することが少ないことが判明しました。我々は、一貫性のない推論や見落とされた視覚的キューといった主要な限界を特定し、ベースモデルの推論能力、報酬モデリング、ノイズに対するRLのロバスト性の改善に向けた将来の課題を提案します。
最先端のマルチモーダルLLM事前学習の再現は、高品質なデータフィルタリング、マルチモーダルデータの混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、パイプラインの各段階で障壁に直面しています。本論文では、Open-Qwen2VLを紹介します。これは、29Mの画像-テキストペアをわずか442 A100-40G GPU時間で効率的に事前学習した、完全にオープンソースの2Bパラメータのマルチモーダル大規模言語モデルです。私たちのアプローチでは、低解像度から高解像度への動的画像解像度とマルチモーダルシーケンスパッキングを採用し、事前学習の効率を大幅に向上させました。トレーニングデータセットは、MLLMベースのフィルタリング技術(例:MLM-Filter)と従来のCLIPベースのフィルタリング方法を組み合わせて慎重に選定され、データ品質とトレーニング効率が大幅に向上しました。Open-Qwen2VLの事前学習は、UCSBの学術レベルの8xA100-40G GPUで、5Bのパッキングされたマルチモーダルトークンに対して行われました。これは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%に相当します。最終的な指示チューニングされたOpen-Qwen2VLは、部分的にオープンな最先端のMLLMであるQwen2-VL-2Bを、MMBench、SEEDBench、MMstar、MathVistaなどのさまざまなマルチモーダルベンチマークで上回り、Open-Qwen2VLの驚異的なトレーニング効率を示しています。私たちは、計算効率とデータ効率の高いトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDataset形式の事前学習データ、FSDPベースのトレーニングコードベース、およびベースモデルと指示チューニングされたモデルのチェックポイントを含む、すべての側面をオープンソースとして公開します。私たちは、マルチモーダルLLMの「完全にオープン」を、1) トレーニングコードベース、2) 詳細なデータフィルタリング技術、3) モデル開発に使用されたすべての事前学習データと教師あり微調整データの完全な公開として再定義します。
帰納的プログラム合成、または例によるプログラミングでは、未見の入力に対しても一般化可能な関数を入力-出力例から合成する必要があります。大規模言語モデルエージェントは、自然言語に基づくプログラミングタスクで有望な成果を示していますが、帰納的プログラム合成を行う能力については十分に検証されていません。既存の評価プロトコルは、静的な例セットとホールドアウトテストに依存しており、合成された関数が誤っている場合にフィードバックを提供せず、リバースエンジニアリングなどの現実世界のシナリオを反映していません。本論文では、CodeARC(Code Abstraction and Reasoning Challenge)という新しい評価フレームワークを提案します。このフレームワークでは、エージェントが隠されたターゲット関数と対話し、新しい入力をクエリとして送信し、候補関数を合成し、差分テストオラクルを使用して反復的に解を改良します。このインタラクティブな設定により、エージェントはフィードバックに基づいて関数呼び出しと自己修正を行うことが促されます。我々は、汎用帰納的プログラム合成のための最初の大規模ベンチマークを構築し、1114の関数を特徴としています。評価された18のモデルの中で、o3-miniが52.7%の成功率で最高の性能を示し、このタスクの難しさを浮き彫りにしました。LLaMA-3.1-8B-Instructを精選された合成トレースでファインチューニングすると、最大31%の相対的性能向上が得られました。CodeARCは、LLMベースのプログラム合成と帰納的推論を評価するための、より現実的で挑戦的なテストベッドを提供します。
視覚的自己教師あり学習(Visual Self-Supervised Learning, SSL)は、視覚的質問応答(Visual Question Answering, VQA)などのマルチモーダル設定において、Contrastive Language-Image Pretraining(CLIP)に比べて性能が劣っている。このマルチモーダルギャップは、言語による監督が導入するセマンティクスに起因するとされることが多いが、視覚SSLとCLIPモデルはしばしば異なるデータで学習されている。本研究では、「視覚的自己教師あり学習がCLIPに遅れをとるのは、言語による監督の欠如によるものか、それとも学習データの違いによるものか?」という問いを立てる。この問いを検証するため、視覚SSLとCLIPモデルを同じMetaCLIPデータで学習し、VQAを視覚エンコーダの多様なテストベッドとして活用した。この制御された設定において、視覚SSLモデルはデータ量とモデル容量の面でCLIPモデルよりもスケーリングが優れており、7Bパラメータまでスケールアップしても性能が飽和しないことがわかった。その結果、視覚SSL手法が幅広いVQAおよび古典的な視覚ベンチマークにおいてCLIPレベルの性能を達成することを観察した。これらの発見は、純粋な視覚SSLが大規模な言語監督付き視覚事前学習に匹敵し得ることを示しており、視覚中心の表現学習に新たな可能性を開くものである。
ビデオ深度推定における目覚ましい進展にもかかわらず、既存の手法はアフィン不変な予測を通じて幾何学的忠実度を達成する上で本質的な制限を示しており、再構築やその他の計量的に基づいた下流タスクへの適用性が制限されています。本論文では、GeometryCrafterを提案します。これは、オープンワールドのビデオから時間的整合性のある高忠実度ポイントマップシーケンスを復元し、正確な3D/4D再構築、カメラパラメータ推定、およびその他の深度ベースのアプリケーションを可能にする新しいフレームワークです。我々のアプローチの中核には、ビデオの潜在分布に依存しない潜在空間を学習し、効果的なポイントマップのエンコーディングとデコーディングを実現するポイントマップ変分オートエンコーダ(VAE)があります。このVAEを活用して、入力ビデオに条件付けられたポイントマップシーケンスの分布をモデル化するビデオ拡散モデルを学習します。多様なデータセットでの広範な評価により、GeometryCrafterが最先端の3D精度、時間的一貫性、および汎化能力を達成することが実証されています。
大規模言語モデル(LLMs)の数多くの応用は、段階的な推論を実行する能力に依存しています。しかし、LLMsの推論行動は十分に理解されておらず、研究、開発、安全性において課題を生んでいます。このギャップを埋めるため、我々は「ランドスケープ・オブ・シンクス」を導入します。これは、任意の多肢選択データセットにおけるチェーン・オブ・シンクス(CoT)およびその派生手法の推論パスをユーザーが視覚的に検査するための初めてのツールです。具体的には、推論パス内の状態を、すべての回答選択肢までの距離を定量化する特徴ベクトルとして表現します。これらの特徴は、t-SNEを用いて二次元プロットに可視化されます。ランドスケープ・オブ・シンクスを用いた定性的および定量的分析は、強力なモデルと弱いモデル、正解と不正解、異なる推論タスクを効果的に区別します。また、一貫性の低さや不確実性の高さといった望ましくない推論パターンも明らかにします。さらに、ユーザーはこのツールを、観察したい特性を予測するモデルに適応させることができます。我々はこの利点を、推論パスの正しさを評価する軽量な検証器にツールを適応させることで示します。コードは以下のURLで公開されています:https://github.com/tmlr-group/landscape-of-thoughts。
大規模言語モデル(LLM)は、テスト時の計算スケーリングを通じて複雑な問題解決能力を向上させることが可能ですが、これにはしばしば長いコンテキストと多数の推論トークンのコストが伴います。本論文では、コード関連の推論軌跡を用いてLLMを訓練し、性能を維持しながら過剰な思考トークンを削減する効率的なテスト時スケーリング手法を提案します。まず、単純および複雑なコーディング問題とそれらの短いおよび長い解決軌跡をペアにしたキュレーションデータセット、Z1-Code-Reasoning-107Kを作成します。次に、コンテキストを区切るタグ(例:<think>. . . </think>)を削除し、推論トークンを制限することで、過剰思考のオーバーヘッドを軽減する新しいShifted Thinking Windowを提示します。長いおよび短い軌跡データで訓練され、Shifted Thinking Windowを備えた私たちのモデル、Z1-7Bは、問題の複雑さに応じて推論レベルを調整する能力を示し、R1-Distill-Qwen-7Bの性能に匹敵する異なる推論タスクにおいて、平均思考トークンの約30%で効率的なテスト時スケーリングを実現します。特に、コード軌跡のみでファインチューニングされたZ1-7Bは、より広範な推論タスク(GPQA Diamondで47.5%)への一般化能力を示します。効率的な推論の引き出しに関する私たちの分析は、今後の研究にとって貴重な洞察を提供します。
本報告書では、実世界の企業ユースケースにおいて優れた性能を発揮するために特別に設計された強力な大規模言語モデル、Command Aの開発について説明します。Command Aはエージェント最適化かつ多言語対応のモデルで、グローバルビジネスで使用される23言語をサポートし、効率性と最高レベルの性能を両立する新たなハイブリッドアーキテクチャを採用しています。本モデルは、高度なビジネスプロセスを自動化するための基盤情報の活用とツール使用を伴う、業界最高水準のRetrieval Augmented Generation(RAG)機能を提供します。これらの能力は、自己改良アルゴリズムやモデル統合技術を含む分散型トレーニングアプローチによって実現されています。また、Command Aと能力およびアーキテクチャの類似性を持つCommand R7Bの結果も含めています。両モデルの重みは研究目的で公開されています。本技術報告書では、独自のトレーニングパイプラインを詳細に説明し、企業関連タスクと公開ベンチマークにおけるモデルの広範な評価結果を示し、優れた性能と効率性を実証します。
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザーインターフェース(GUI)と直接対話することでデジタルタスクを自動化し、多様なユーザークエリを処理することで人間の生産性を向上させる大きな可能性を秘めています。しかし、現在のエージェントはいくつかの重要な課題に直面しています。GUI要素の不正確なグラウンディング、長期的なタスク計画の難しさ、多様な認知タスクに対して単一の汎用モデルに依存することによるパフォーマンスのボトルネックなどです。これに対処するため、我々はAgent S2を紹介します。これは、様々な汎用モデルと専門モデルに認知責任を委譲する新しい構成フレームワークです。我々は、正確なGUIローカライゼーションを実現するための新しいMixture-of-Grounding技術を提案し、進化する観察に応じて複数の時間スケールでアクションプランを動的に洗練するProactive Hierarchical Planningを導入します。評価の結果、Agent S2は3つの主要なコンピュータ利用ベンチマークで新たな最先端(SOTA)性能を確立しました。具体的には、Agent S2はOSWorldの15ステップおよび50ステップ評価において、Claude Computer UseやUI-TARSなどの主要なベースラインエージェントに対して18.9%および32.7%の相対的な改善を達成しました。さらに、Agent S2は他のオペレーティングシステムやアプリケーションにも効果的に一般化し、WindowsAgentArenaでは以前の最良の方法を52.8%、AndroidWorldでは16.52%上回りました。コードはhttps://github.com/simular-ai/Agent-Sで公開されています。
近年、LLMベンチマークの難易度が小学校レベルから最先端の問題へと急速に高まる中で、研究者たちは人間の知能を凌駕する寸前まで来ているという奇跡を目の当たりにしています。しかし、LLMの驚異的な推論能力は、人間の基準で見た真の知能に由来するものなのでしょうか、それとも単にインターネット規模のトレーニング中に見た解決策を暗唱しているだけなのでしょうか?この問題を研究するため、我々はRoR-Benchという新しいマルチモーダルベンチマークを提案します。これは、単純な推論問題に対して条件を微妙に変化させた際のLLMの暗唱行動を検出するためのものであり、このベンチマークを用いて実証分析を行いました。驚くべきことに、既存の最先端LLMは一様に極めて深刻な暗唱行動を示すことが判明しました。条件中の一つのフレーズを変更するだけで、OpenAI-o1やDeepSeek-R1といったトップモデルでも、小学校レベルの算数や推論問題において60%もの性能低下を被ることが明らかになりました。このような発見は、LLMコミュニティにとって警鐘となり、最先端LLMの真の知能レベルを再評価する必要性を強く示唆しています。
大規模言語モデル(LLM)の効果的な評価は依然として重要な課題であり、従来の静的ベンチマークは飽和や汚染に悩まされ、人間による評価はコストが高く時間がかかります。これにより、実世界のアプリケーションにとって重要なタイムリーな評価やドメイン固有の評価が妨げられています。私たちは、これらの制限を解決するために、YourBenchという新しいオープンソースフレームワークを紹介します。このフレームワークは、ユーザー提供のドキュメントから直接、手動のアノテーションなしで、信頼性が高く最新のドメイン特化ベンチマークを動的かつ自動的に生成することを可能にします。私たちは、最小限のソーステキストを使用して7つの多様なMMLUサブセットを再現し、総推論コストが15ドル未満で、元のベンチマークで観察された相対的なモデル性能ランキング(Spearman Rho = 1)を完全に維持することを実証しました。YourBenchが提供された入力に基づいてデータを生成し、モデルの事後的なパラメトリック知識に依存しないことを保証するために、2025年3月以降に公開された7,000以上の多様なドキュメントからなる新しいデータセットTempora-0325も導入しました。私たちの包括的な分析は、7つの主要なファミリーから26の最先端モデルを対象とし、さまざまなスケール(3-671Bパラメータ)にわたって、厳密なアルゴリズムチェック(例:引用の根拠付け)と人間による評価を通じて生成された評価の品質を検証します。私たちは、YourBenchライブラリ、Tempora-0325データセット、Temporaに基づく15万以上の質問回答ペア、およびすべての評価と推論のトレースを公開し、再現可能な研究を促進し、コミュニティがオンデマンドでカスタムベンチマークを生成することを可能にし、より関連性が高く信頼性のあるLLM評価を促進します。
大規模基盤モデルを動力源とするGUIエージェントは、デジタルインターフェースと相互作用し、ウェブ自動化、モバイルナビゲーション、ソフトウェアテストなど様々な応用を可能にします。しかし、その自律性の高まりに伴い、セキュリティ、プライバシー、安全性に関する重大な懸念が生じています。本調査では、GUIエージェントの信頼性を、セキュリティ脆弱性、動的環境における信頼性、透明性と説明可能性、倫理的配慮、評価方法論という5つの重要な側面から検証します。また、敵対的攻撃への脆弱性、逐次的意思決定における連鎖的故障モード、現実的な評価ベンチマークの欠如といった主要な課題を特定します。これらの問題は、実世界での展開を妨げるだけでなく、タスク成功を超えた包括的な緩和戦略を必要としています。GUIエージェントがより広く普及するにつれ、堅牢な安全基準と責任ある開発手法の確立が不可欠です。本調査は、体系的な理解と将来の研究を通じて、信頼できるGUIエージェントを推進するための基盤を提供します。
テキスト記述などの条件に基づいて人間の動きを生成することは、高品質な動きとそれに対応する条件のペアを含むデータセットが必要であるため、困難な課題です。より細かい制御を目指す場合、その難易度はさらに増します。これに対処するため、これまでの研究では、異なる種類の条件を持つデータセットで事前学習された複数のモーションディフュージョンモデルを組み合わせることで、複数の条件による制御を可能にする手法が提案されてきました。しかし、これらの提案された統合戦略は、生成プロセスを組み合わせる最適な方法が、各事前学習済み生成モデルの特性や特定のテキスト記述に依存する可能性を見落としていました。この文脈において、我々はMixerMDMを紹介します。これは、事前学習済みのテキスト条件付き人間モーションディフュージョンモデルを組み合わせるための初めての学習可能なモデル合成技術です。従来のアプローチとは異なり、MixerMDMは、生成を駆動する条件のセットに応じて各モデルのノイズ除去プロセスを組み合わせる方法を敵対的学習によって動的に学習する戦略を提供します。MixerMDMを使用して単一人物および複数人物のモーションディフュージョンモデルを組み合わせることで、各人物の動きを個別に、また全体の相互作用を細かく制御することが可能になります。さらに、このタスクにおいて初めて、混合された生成モーションとその条件との整合性を計算し、MixerMDMがノイズ除去プロセス全体を通じて混合を適応させる能力を測定する新しい評価手法を提案します。
GPT-4oのようなマルチモーダル言語モデル(MLLMs)の急速な進化により、継続的なマルチモーダルデータのストリームを処理し、積極的に対応することを目的としたOmni言語モデルの開発が進んでいます。その潜在能力にもかかわらず、ストリーミングビデオの文脈における現実世界のインタラクティブ能力を評価することは依然として大きな課題です。本研究では、ストリーミングビデオの文脈におけるOmniLLMs向けに設計された包括的なマルチモーダルインタラクションベンチマークであるOmniMMIを紹介します。OmniMMIは、1,121本以上のビデオと2,290の質問を含み、既存のビデオベンチマークで未開拓の2つの重要な課題、すなわちストリーミングビデオの理解と積極的推論を、6つの異なるサブタスクにわたって取り扱います。さらに、生成しながら見て聞くことができる推論効率の高いストリーミングモデルを実現するための新しいフレームワーク、マルチモーダル多重化モデリング(M4)を提案します。
大規模言語モデル(LLMs)の最近の進展により、複雑な推論タスクを実行する能力が大幅に向上し、高速で直感的な思考(システム1)から遅く深い推論(システム2)への移行が進んでいます。システム2の推論はタスクの精度を向上させますが、その遅い思考の性質や非効率的または不必要な推論行動により、しばしば多大な計算コストを伴います。一方、システム1の推論は計算効率が高いものの、最適なパフォーマンスには至りません。したがって、パフォーマンス(利点)と計算コスト(予算)のトレードオフをバランスさせることが重要であり、これにより「推論経済性」の概念が生まれました。本調査では、LLMsのポストトレーニング段階とテスト時推論段階における推論経済性を包括的に分析し、i) 推論の非効率性の原因、ii) 異なる推論パターンの行動分析、iii) 推論経済性を達成するための潜在的な解決策を網羅します。実践的な洞察を提供し、未解決の課題を強調することで、LLMsの推論経済性を改善するための戦略に光を当て、この進化する分野の研究を推進するための貴重なリソースとなることを目指します。また、この急速に進化する分野の進展を継続的に追跡するための公開リポジトリも提供します。
テスト時の計算リソースのスケーリングは、大規模言語モデル(LLM)の推論能力を向上させるための重要な戦略として注目を集めており、特に数学的問題解決などのタスクにおいてその効果が顕著です。従来のアプローチである「自己一貫性(Self-Consistency, SC)」は、問題に対して複数の解を生成し、多数決によって最も一般的な答えを選択します。また、別の一般的な方法として、各解を報酬モデル(検証器)でスコア付けし、最良の解を選ぶ手法があります。最近の「生成的報酬モデル(Generative Reward Models, GenRM)」の進展により、検証を次のトークン予測タスクとして再定義し、新しい軸に沿った推論時のスケーリングが可能になりました。具体的には、GenRMは各解をスコア付けするために複数の検証用の思考連鎖(chain-of-thought)を生成します。限られた推論予算の下では、これにより根本的なトレードオフが生じます:予算をSCによる解のスケーリングに費やすべきか、それとも解の生成数を減らしてGenRMによる検証にリソースを割り当てるべきか?この問題に対処するため、固定された推論予算の下でGenRMとSCを比較評価しました。興味深いことに、多様なモデルやデータセットにおいて、ほとんどの実用的な推論予算では、SCがGenRMよりも計算効率が高いことがわかりました。例えば、GenRMがSCと同等の性能を発揮するには最大8倍の推論計算リソースを消費し、それを上回るためにはさらに多くの計算リソースが必要です。さらに、GenRMパラダイムにおける推論スケーリング則を導出し、計算最適な推論では、検証回数のスケーリングよりも解の生成のスケーリングをより積極的に行うことが有利であることを明らかにしました。本研究は、解の生成と検証のバランスを取ることで、テスト時のスケーリングを最適化するための実践的な指針を提供します。コードはhttps://github.com/nishadsinghi/sc-genrm-scalingで公開されています。
視覚的トークン削減は、大規模視覚言語モデル(LVLM)における広範な画像特徴に起因する推論コストを低減します。自己注意機構のみのLVLMにおいてトークンを枝刈りする関連研究とは異なり、本論文は優れた性能を達成するクロスアテンションベースのモデルに独自に取り組んでいます。我々は、クロスアテンション層における画像トークンのキー・バリュー(KV)キャッシュサイズが、自己注意層のテキストトークンを大幅に上回り、主要な計算ボトルネックとなっていることを特定しました。この問題を緩和するため、クロスアテンションマップの疎性を活用して冗長な視覚的特徴を選択的に枝刈りします。我々のTrimmed Llamaは、追加の学習を必要とせずにKVキャッシュの要求を効果的に削減します。50%削減された視覚的特徴の恩恵により、本モデルは推論遅延とメモリ使用量を削減しつつ、ベンチマーク同等の性能を達成できます。
近年、モデルマージ手法は、複数の大規模言語モデル(LLM)から様々なタスクにおける能力を組み合わせる強力な手法として注目を集めています。従来のモデルマージ手法は主に同一アーキテクチャを持つ同種モデルのマージに焦点を当てていましたが、モデルアーキテクチャの違いやパラメータ空間の非対称性といった本質的な異質性を持つマルチモーダル大規模言語モデル(MLLM)を扱う際に課題に直面していました。本研究では、異種MLLMに特化した新しいモデルマージ手法であるAdaMMSを提案します。本手法は、マッピング、マージ、探索の3つのステップでこれらの課題に取り組みます。具体的には、まず異なるアーキテクチャを持つMLLMにモデルマージを適用するためのマッピング関数を設計します。次に、モデル重みに対して線形補間を適用し、異種MLLMにおける非対称性に積極的に適応します。最後に、ハイパーパラメータ探索ステップにおいて、モデルマージのための教師なしハイパーパラメータ選択手法を提案します。ラベル付きデータを必要とせずに異種MLLMをマージ可能な初のモデルマージ手法として、様々なモデル組み合わせに対する広範な実験により、AdaMMSが従来のモデルマージ手法を複数の視覚-言語ベンチマークで上回ることを実証しました。
テストタイムスケーリングは、大規模言語モデルの推論能力を向上させる強力な技術として登場しました。しかし、医療領域におけるその有効性は不確かです。なぜなら、医療領域は知識表現と意思決定プロセスにおいて数学的タスクとは根本的に異なるからです。本論文では、医療推論におけるテストタイムスケーリングの初めての包括的な調査を提供し、推論時にモデルの医療推論能力を向上させるシンプルで効果的なアプローチであるm1を提案します。多様な医療タスクにわたる評価を通じて、テストタイムスケーリングが一貫して医療推論を向上させ、10Bパラメータ未満の軽量なファインチューニングモデルが新たな最先端の性能を確立し、32Bモデルが以前の70Bスケールの医療LLMに匹敵することを示します。しかし、約4Kの最適な推論トークン予算を特定し、それを超えると過剰思考により性能が低下する可能性があることがわかりました。反復プロンプトを通じてテストタイム計算を拡張する予算強制は、モデルが回答を再確認するのに役立ちますが、必ずしも全体的な医療QA性能を向上させるわけではなく、場合によっては以前に正しかった回答に誤りを導入することさえあります。ケースバイケースの分析により、テストタイムスケーリングを通じたさらなる性能向上を妨げる主要なボトルネックとして、不十分な医療知識が特定されました。データスケールの増加、データ品質の向上、モデル容量の拡大が一貫して医療知識の基盤を強化し、特に小規模モデルが飽和に達する困難な医療ベンチマークにおいて、継続的な性能向上を可能にすることがわかりました。これらの発見は、LLMにおける医療推論と数学的推論の根本的な違いを強調し、推論深度の増加だけでなく、豊富な医療知識がテストタイムスケーリングの利点を実現するために不可欠であることを示しています。
推論時のスケーリングは、段階的な問題解決が有効な複雑な問題において、大規模言語モデル(LLM)の推論能力を向上させることができる。生成されるスクラッチパッドの長さを増やすことが数学タスクで効果的であることは証明されているが、このアプローチが他のタスクに与える広範な影響はまだ明確ではない。本研究では、9つの最先端モデルと8つの挑戦的なタスク(数学やSTEM推論、カレンダープランニング、NP困難問題、ナビゲーション、空間推論など)において、スケーリング手法の利点と限界を調査する。従来のモデル(例:GPT-4o)と推論時スケーリング用にファインチューニングされたモデル(例:o1)を比較し、独立した繰り返し呼び出しやフィードバックを伴う逐次呼び出しを含む評価プロトコルを用いる。これらの評価は、各モデルの性能の下限と上限、および将来の性能向上の可能性(強化されたトレーニングやマルチモデル推論システムを通じて)を近似する。我々の広範な実証分析により、推論時スケーリングの利点はタスクによって異なり、問題の複雑さが増すにつれて減少することが明らかになった。さらに、これらの挑戦的な領域では、単にトークン数を増やすことが必ずしも精度の向上につながるわけではない。従来のモデルを完璧な検証器と共に複数回実行した結果、一部のタスクでは、これらのモデルが今日の最も先進的な推論モデルの平均性能に近い性能を達成できることが示された。しかし、他のタスクでは、非常に高いスケーリング領域においても、依然として大きな性能差が残っている。励みになることに、すべてのモデルは、完璧な検証器や強力なフィードバックを用いて推論をさらにスケールアップすることで、大幅な性能向上を示しており、将来の改善の余地が十分にあることが示唆されている。
Text-to-SQLは、自然言語理解、データベーススキーマの理解、正確なSQLクエリの構築など、複数の推論を要するサブタスクを含む挑戦的な課題です。既存のアプローチでは、手動で設計された推論パスと帰納的バイアスに依存することが多く、これが全体的な効果を制限する可能性があります。最近のDeepSeek R1やOpenAI o1などの推論能力を強化したモデルの成功に触発され、我々はText-to-SQLタスクに特化した新しい部分報酬セットを提案します。この報酬セットには、スキーマリンキング、AIフィードバック、n-gram類似度、構文チェックが含まれており、強化学習(RL)で一般的な報酬の希薄性の問題に対処するために明示的に設計されています。グループ相対ポリシー最適化(GRPO)を活用することで、我々のアプローチは大規模言語モデル(LLM)が正確なSQLクエリ生成に必要な内在的な推論スキルを発展させることを明示的に促進します。異なるサイズのモデルを用いて、提案された報酬を用いたRLのみのトレーニングが、教師ありファインチューニング(SFT)と比較して一貫して高い精度と優れた汎化性能を達成することを示します。特に、我々のRLでトレーニングされた14Bパラメータモデルは、BIRDベンチマークにおいて、より大規模なプロプライエタリモデル(例:o3-miniを4%、Gemini-1.5-Pro-002を3%上回る)を大幅に上回りました。これらは、Text-to-SQLタスクにおける精度と推論能力を向上させるための提案されたRLトレーニングフレームワークと部分報酬の有効性を強調しています。
長時間動画のチャプター分割、すなわち動画タイムラインを意味的な単位に分割し、対応するチャプタータイトルを生成するタスクに取り組みます。比較的未開拓の領域である自動チャプター分割は、長時間動画における効率的なナビゲーションとコンテンツ検索を可能にする潜在能力を秘めています。本論文では、'Chapter-Llama'フレームワークを用いてテキスト領域でこの問題に効率的に取り組むことで、1時間以上の長時間動画において優れたチャプター分割性能を達成します。具体的には、大規模なコンテキストウィンドウを持つ事前学習済み大規模言語モデル(LLM)を活用し、(i)音声書き起こしと(ii)ビデオフレームを説明するキャプション、およびそれぞれのタイムスタンプを入力として与えます。すべてのフレームにキャプションを付ける非効率性を考慮し、音声書き起こしの内容に基づいた軽量な音声誘導フレーム選択戦略を提案し、実験的にその顕著な利点を実証します。LLMを、チャプター境界のタイムスタンプと自由形式のチャプタータイトルを出力するように訓練します。このシンプルでありながら強力なアプローチにより、1時間の長時間動画を単一のフォワードパスで処理することが可能になります。最新のVidChapters-7Mベンチマークにおいて、従来の最先端技術と比較して大幅な改善(例:45.3 vs 26.7 F1スコア)を実証しました。さらなる研究を促進するため、プロジェクトページでコードとモデルを公開しています。
大規模言語モデル(LLM)は印象的な言語能力を有しているが、事実知識を忠実に保持することにしばしば失敗し、幻覚や信頼性の低い出力を引き起こす。完全なスケールの知識ベースに対して網羅的に評価を行うことでLLMの知識欠陥を理解することは、特にクローズドウェイトモデルにおいて計算上非現実的である。我々は、厳密なクエリ予算の下でクローズドウェイトLLMの知識欠陥(エラー)を発見するためのスケーラブルで効率的なフレームワークである確率的誤差上昇(SEA)を提案する。SEAは、すべての知識候補を単純に探査するのではなく、誤差発見を確率的最適化プロセスとして定式化する:以前に観察された失敗との意味的類似性を活用して、新しい高誤差候補を反復的に取得する。検索効率とカバレッジをさらに向上させるために、SEAはドキュメントレベルとパラグラフレベルでの階層的検索を採用し、誤差伝播をモデル化し系統的な失敗モードを特定するための関係有向非巡回グラフを構築する。実験的に、SEAはAutomated Capability Discoveryよりも40.7倍、AutoBencherよりも26.7%多くの知識エラーを発見し、エラーあたりのコストをそれぞれ599倍と9倍削減した。人間による評価は生成された質問の高品質を確認し、アブレーションと収束分析はSEAの各コンポーネントの貢献を検証した。発見されたエラーに関するさらなる分析は、LLMファミリー間での相関する失敗パターンと繰り返し発生する欠陥を明らかにし、将来のLLM開発におけるより良いデータカバレッジとターゲットを絞ったファインチューニングの必要性を強調している。
人間の手は相互作用において中心的な役割を果たしており、巧緻的なロボット操作に関する研究の増加を促しています。データ駆動型のエンボディードAIアルゴリズムは、精密で大規模かつ人間のような操作シーケンスを要求しますが、従来の強化学習や実世界の遠隔操作ではこれを得ることが困難です。この問題に対処するため、我々はManipTransを提案します。これは、シミュレーション内で人間の両手操作スキルを巧緻的なロボットハンドに効率的に転移するための新しい二段階手法です。ManipTransはまず、手の動きを模倣する汎用軌跡模倣器を事前学習し、その後、相互作用の制約下で特定の残差モジュールを微調整することで、複雑な両手操作タスクの効率的な学習と正確な実行を可能にします。実験結果は、ManipTransが成功率、忠実度、効率性において最先端の手法を凌駕することを示しています。ManipTransを活用し、我々は複数の手-物体データセットをロボットハンドに転移し、ペンのキャップ付けや瓶の蓋開けといったこれまで未探索のタスクを含む大規模データセットであるDexManipNetを作成しました。DexManipNetは3.3Kエピソードのロボット操作を収録しており、容易に拡張可能で、巧緻的な手のためのさらなるポリシー訓練を促進し、実世界での展開を可能にします。
ぼやけたマルチビュー画像から鮮明な3D表現を再構築することは、コンピュータビジョンにおける長年の課題です。最近の研究では、イベントベースカメラを活用してモーションブラーから高品質な新規視点合成を向上させようと試みており、高いダイナミックレンジとマイクロ秒単位の時間分解能の利点を活かしています。しかし、これらの手法は、不正確な色の復元や細かいディテールの喪失といった点で、最適な視覚品質に達していないことが多いです。本論文では、DiET-GSという、拡散事前分布とイベントストリームを活用したモーションブラー除去3DGSを提案します。私たちのフレームワークは、ぼやけのないイベントストリームと拡散事前分布を二段階のトレーニング戦略で効果的に活用します。具体的には、イベント二重積分を用いて3DGSを制約する新しいフレームワークを導入し、正確な色と明確なディテールを両立させます。さらに、拡散事前分布を活用してエッジのディテールをさらに向上させるシンプルな技術を提案します。合成データと実世界のデータの両方における定性的および定量的な結果は、DiET-GSが既存のベースラインと比較して大幅に優れた品質の新規視点を生成できることを示しています。プロジェクトページはhttps://diet-gs.github.ioです。
リモートセンシング(RS)画像における物体検出(OD)と視覚的グラウンディング(VG)を統合する統一フレームワークを提案します。従来のODをサポートし、VGタスクのための直感的な事前知識を確立するために、参照表現データを使用してオープンセット物体検出器をファインチューニングし、部分的に教師ありのODタスクとして定式化します。最初の段階では、各画像のグラフ表現を構築し、オブジェクトクエリ、クラス埋め込み、および提案位置を含めます。その後、タスクを意識したアーキテクチャがこのグラフを処理してVGタスクを実行します。モデルは以下の要素で構成されます:(i)空間的、視覚的、およびカテゴリ的特徴を統合してタスクを意識した提案を生成するマルチブランチネットワーク、(ii)提案全体に確率を割り当てるオブジェクト推論ネットワーク、そして最終的な参照オブジェクトの位置特定を行うためのソフト選択メカニズムです。本モデルは、OPT-RSVGおよびDIOR-RSVGデータセットにおいて、最先端の手法を大幅に上回る優れた性能を示し、古典的なOD機能を維持しています。コードは以下のリポジトリで公開されます:https://github.com/rd20karim/MB-ORES。