翻訳付きの日次キュレーションされたAI研究論文
既存のモデルに新たな知識を組み込むことは、AI開発において重要な側面です。本論文では、大規模言語モデル(LLM)に新しい言語を統合するための新規手法を紹介します。私たちのアプローチは、既存のLLMに未知のターゲット言語を組み込むことに成功し、その過程でモデルが持つ既存の知識を損なうことなく実現しました。私たちは、主に英語で訓練された小規模なオープンソースモデルにアラビア語を注入し、15億パラメータの小さなモデル「Kuwain」を訓練しました。この手法により、アラビア語のパフォーマンスが平均8%向上し、さまざまなベンチマークで改善が見られました。同時に、モデルの既存の知識を最小限の元のモデルのデータで保持することに成功しました。これは、英語とアラビア語の両方で包括的なモデルを訓練するためのコスト効率の良い代替手段を提供します。結果は、大規模な再訓練やリソース集約的なプロセスを必要とせずに、効率的かつターゲットを絞った言語モデルの拡張の可能性を示しています。
本論文は、大規模言語モデル(LLM)における推論タスクのための明示的なラベルなしデータに対する強化学習(RL)を調査する。この問題の核心的な課題は、推論中の報酬推定であり、その際に真の情報にアクセスできない点にある。この設定は一見すると捉えどころがないように見えるが、テストタイムスケーリング(TTS)における多数決などの一般的な手法が、RLトレーニングを駆動するのに適した驚くほど効果的な報酬を生み出すことがわかった。本研究では、ラベルなしデータを用いてLLMをRLでトレーニングする新しい手法であるテストタイム強化学習(TTRL)を提案する。TTRLは、事前学習済みモデルの事前知識を活用することで、LLMの自己進化を可能にする。実験結果は、TTRLがさまざまなタスクとモデルにおいて一貫して性能を向上させることを示している。特に、TTRLはラベルなしのテストデータのみを使用して、Qwen-2.5-Math-7BのAIME 2024におけるpass@1性能を約159%向上させた。さらに、TTRLはMaj@Nメトリックのみで監督されているにもかかわらず、初期モデルの上限を一貫して超え、真のラベル付きテストデータで直接トレーニングされたモデルの性能に近づくことが実証された。実験結果は、TTRLのさまざまなタスクにおける一般的な有効性を検証し、TTRLがより広範なタスクやドメインに適用可能な潜在能力を有していることを強調している。GitHub: https://github.com/PRIME-RL/TTRL
大規模言語モデル(LLM)の言語能力が進化を続ける中、公平な技術進歩を促進するためには、堅牢な多言語評価が不可欠となっています。本ポジションペーパーでは、2021年から2024年にかけて148カ国で公開された2,000以上の多言語(非英語)ベンチマークを調査し、過去、現在、そして将来の多言語ベンチマークの実践を評価します。私たちの調査結果によると、数千万ドルに及ぶ多大な投資にもかかわらず、これらのベンチマークでは英語が依然として大幅に過剰に代表されています。さらに、ほとんどのベンチマークは翻訳ではなくオリジナルの言語コンテンツに依存しており、その多くは中国、インド、ドイツ、英国、米国などの高リソース国から調達されています。また、ベンチマークのパフォーマンスと人間の判断を比較すると、顕著な乖離が明らかになりました。STEM関連のタスクは人間の評価と強い相関(0.70~0.85)を示す一方で、質問応答(例:XQuAD)などの伝統的なNLPタスクでははるかに弱い相関(0.11~0.30)しか見られませんでした。さらに、英語のベンチマークを他の言語に翻訳することは不十分であり、ローカライズされたベンチマークは翻訳版(0.47)よりもローカルの人間の判断との整合性(0.68)が大幅に高くなることが示されました。これは、翻訳に頼るだけでなく、文化的・言語的に調整されたベンチマークを作成することの重要性を強調しています。この包括的な分析を通じて、現在の多言語評価実践における6つの主要な限界を指摘し、効果的な多言語ベンチマークのためのガイドラインを提案し、この分野の進歩を推進するための5つの重要な研究方向性を概説します。最後に、現実世界のアプリケーションを優先した人間と整合したベンチマークを開発するためのグローバルな協力体制を呼びかけます。
画像や動画内の特定領域に対する詳細かつ正確な記述を生成することは、視覚言語モデルにとって依然として根本的な課題です。本研究では、詳細な局所キャプショニング(DLC)を目的としたDescribe Anything Model(DAM)を提案します。DAMは、2つの重要な革新を通じて、局所的な詳細とグローバルなコンテキストの両方を保持します。1つ目は、ターゲット領域の高解像度エンコーディングを保証するフォーカルプロンプト、2つ目は、正確な位置情報を広範なコンテキストと統合する局所視覚バックボーンです。高品質なDLCデータの不足に対処するため、半教師あり学習(SSL)ベースのデータパイプライン(DLC-SDP)を提案します。DLC-SDPは既存のセグメンテーションデータセットから始め、SSLを使用して未ラベルのウェブ画像に拡張します。また、参照キャプションに依存せずにDLCを評価するためのベンチマークであるDLC-Benchを導入します。DAMは、キーワードレベル、フレーズレベル、詳細な複数文にわたる局所画像および動画キャプショニングの7つのベンチマークで新たな最先端の性能を達成しました。
推論時の計算スケーリングは、言語モデルの推論能力を大幅に向上させてきました。しかし、既存の手法には重大な制限があります。シリアル化された連鎖思考(chain-of-thought)アプローチは出力が過度に長くなり、レイテンシの増加やコンテキストウィンドウの枯渇を招きます。一方、自己整合性(self-consistency)のような並列手法では、十分な調整が行われず、冗長な計算や限定的な性能向上に留まります。これらの欠点を解決するため、我々はAdaptive Parallel Reasoning(APR)を提案します。APRは、言語モデルがシリアル化された計算と並列計算をエンドツーエンドで調整することを可能にする新しい推論フレームワークです。APRは、spawn()およびjoin()操作を使用した適応型マルチスレッド推論を可能にすることで、既存の推論手法を一般化します。重要な革新点は、事前に定義された推論構造を必要とせず、親スレッドと子スレッドの推論を最適化してタスクの成功率を向上させるエンドツーエンドの強化学習戦略です。Countdown推論タスクでの実験により、APRの重要な利点が示されました:(1)同じコンテキストウィンドウ内での高い性能(4kコンテキストで83.4% vs. 60.0%);(2)計算量の増加に伴う優れたスケーラビリティ(20kトークンで80.1% vs. 66.6%);(3)同等のレイテンシでの精度向上(約5,000msで75.2% vs. 57.3%)。APRは、言語モデルが計算の適応的割り当てを通じて推論プロセスを自律的に最適化するための一歩を表しています。
最近のビデオ大規模言語モデル(Video LLM)は、トレーニングデータを生成するために高価な人間のアノテーションや専有モデルAPI(例:GPT-4o)に依存することが多く、大規模なトレーニングが制限されています。本論文では、安価な自動音声認識(ASR)トランスクリプトを用いたVideo LLMの大規模トレーニングを探求します。具体的には、ASRの単語とビデオフレームをタイムスタンプに従って密にインターリーブする新しいストリーミングトレーニング手法を提案します。ASRを用いた視覚-言語表現に関する従来の研究と比較して、本手法はASRのストリーミング特性に自然に適合し、時間的に整列した細粒度の視覚-言語モデリングをモデルに学習させることが可能です。このトレーニングアルゴリズムをサポートするため、YouTubeビデオとそのクローズドキャプション(CC、ASRと同じ)を処理するデータ生成パイプラインを導入し、事前学習用のLive-CC-5Mデータセットと高品質な教師ありファインチューニング(SFT)用のLive-WhisperX-526Kデータセットを作成しました。注目すべきは、SFTを行わなくても、ASRのみで事前学習されたLiveCC-7B-Baseモデルが、一般的なビデオQA性能で競争力を示し、リアルタイムビデオ解説という新たな能力を発揮することです。これを評価するため、LLMをジャッジとして使用し、自由形式の解説を測定する新しいLiveSports-3Kベンチマークを慎重に設計しました。実験結果は、最終的なLiveCC-7B-Instructモデルが、リアルタイムモードで動作しながらも、高度な72Bモデル(Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)を解説品質で上回ることを示しています。同時に、VideoMMEやOVOBenchなどの人気のあるビデオQAベンチマークで7B/8Bスケールにおける最先端の結果を達成し、本手法の広範な汎用性を実証しています。本論文のすべてのリソースはhttps://showlab.github.io/liveccで公開されています。
大規模言語モデル(LLMs)の最近の進展により、マルチエージェントシステムを通じた社会シミュレーションが可能となった。これまでの研究では、新たに定義されたペルソナをエージェントに割り当て、ゼロから構築されたエージェント社会に焦点が当てられてきた。しかし、確立された架空の世界やキャラクターをシミュレーションする取り組みは、その実用的な価値にもかかわらず、ほとんど未開拓のままである。本論文では、書籍ベースのマルチエージェント社会を構築・シミュレーションするための包括的なシステム「BookWorld」を紹介する。BookWorldの設計は、多様で動的なキャラクター、架空の世界観、地理的制約とその変化など、現実世界の複雑さを網羅している。BookWorldは、物語生成、インタラクティブゲーム、社会シミュレーションなど、多様な応用を可能にし、愛される架空の作品を拡張・探求する新たな方法を提供する。大規模な実験を通じて、BookWorldが創造的で高品質な物語を生成しつつ、原作への忠実性を維持し、従来の手法を75.36%の勝率で上回ることを実証した。本論文のコードはプロジェクトページ(https://bookworld2025.github.io/)で公開されている。
既存のマルチモーダル大規模言語モデル(MLLM)の評価フレームワークは、主に画像推論や一般的な映像理解タスクに焦点を当てており、映像理解における画像コンテキストの重要な役割を見落としがちです。このギャップを埋めるため、我々は画像に基づく映像知覚と推論を評価する初の包括的ベンチマークであるIV-Benchを提案します。IV-Benchは、967本の映像と2,585の入念にアノテーションされた画像-テキストクエリで構成され、13のタスク(7つの知覚タスクと6つの推論タスク)と5つの代表的なカテゴリにわたります。最先端のオープンソース(例:InternVL2.5、Qwen2.5-VL)およびクローズドソース(例:GPT-4o、Gemini2-Flash、Gemini2-Pro)MLLMの広範な評価により、現在のモデルが画像に基づく映像知覚と推論において大幅に性能が低く、最大でも28.9%の精度しか達成できないことが示されました。さらに、推論パターン、フレーム数、解像度など、IV-Benchにおけるモデル性能に影響を与える主要な要因が明らかになりました。また、シンプルなデータ合成アプローチを通じて、IV-Benchの課題がトレーニングプロセスにおけるデータ形式の整合を超えていることを示しました。これらの発見は、今後の研究にとって貴重な洞察を提供します。我々のコードとデータはhttps://github.com/multimodal-art-projection/IV-Benchで公開されています。
大規模言語モデル(LLM)の成功は、様々なエージェント応用への関心を引き起こしています。重要な仮説として、LLMは常識と連鎖的思考(CoT)推論を活用することで、複雑な領域を効果的に探索し、効率的に解決できると考えられています。しかし、LLMエージェントは最適でない探索と「知っているが実行できない」ギャップ(モデル内に存在する知識を効果的に活用できないこと)に悩まされることが判明しています。本研究では、LLMが意思決定シナリオで最適でないパフォーマンスを示す理由を体系的に調査します。特に、貪欲性、頻度バイアス、そして「知っているが実行できない」ギャップという3つの主要な失敗モードを詳細に検証します。これらの欠点を緩和するために、自己生成したCoT推論に基づく強化学習(RL)によるファインチューニングを提案します。マルチアームバンディット、文脈付きバンディット、そして三目並べにおける実験を通じて、RLファインチューニングがLLMの意思決定能力を向上させ、探索を増やし、「知っているが実行できない」ギャップを狭めることを実証します。最後に、epsilon-greedyのような古典的な探索メカニズムと、自己修正や自己一貫性のようなLLM固有のアプローチを比較し、LLMの意思決定能力をより効果的にファインチューニングする方法を検討します。
大規模言語モデルの最近の進展は、ポストトレーニングにおける長さスケーリングの有効性を示しているが、プレトレーニングにおけるその可能性はまだ十分に探究されていない。本論文では、プレトレーニング中に効率的な長さスケーリングを可能にしつつ、推論効率を維持する新しいフレームワークであるParallel Hidden Decoding Transformer(PHD-Transformer)を提案する。PHD-Transformerは、オリジナルトークンと隠れデコードトークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現する。長距離依存性のためにオリジナルトークンのKVキャッシュのみを保持し、隠れデコードトークンは使用後すぐに破棄することで、我々のアプローチはバニラTransformerと同じKVキャッシュサイズを維持しつつ、効果的な長さスケーリングを可能にする。さらに性能を向上させるため、2つの最適化バリアントを導入する。PHD-SWAはスライディングウィンドウアテンションを用いて局所的な依存性を保持し、PHD-CSWAはチャンク単位のスライディングウィンドウアテンションを実装してプレフィル時間の線形増加を排除する。大規模な実験により、複数のベンチマークで一貫した改善が実証された。
大規模言語モデル(LLM)から正確な世界モデルを構築できるだろうか?世界モデルはLLMエージェントにどのように役立つのか?LLMの事前知識と特定の環境のダイナミクスとの間のギャップは、通常、世界モデルとしてのLLMの性能をボトルネックにしている。このギャップを埋めるために、我々はLLMを補完する環境のシンボリック知識を学習するトレーニング不要の「世界アライメント」を提案する。このシンボリック知識は、探索軌跡からLLMによって抽出され、実行可能なコードにエンコードされた行動ルール、知識グラフ、シーングラフをカバーし、LLMエージェントのポリシーを規制する。さらに、モデル予測制御(MPC)フレームワークを通じて、RL(強化学習)不要のモデルベースエージェント「WALL-E 2.0」を提案する。従来のMPCがオンザフライでの高コストな最適化を必要とするのとは異なり、我々はLLMエージェントをニューロシンボリック世界モデルと相互作用することで、将来のステップの行動の効率的な先読み最適化器として採用する。LLMエージェントの強力なヒューリスティックは、MPCにおいて効率的なプランナーとして機能する一方で、計画された行動の質は、アライメントされた世界モデルの正確な予測によっても保証される。これらは共に、新しい環境での学習効率を大幅に向上させる。Mars(Minecraftのような)やALFWorld(具現化された屋内環境)でのオープンワールドチャレンジにおいて、WALL-E 2.0は既存の方法を大幅に上回り、例えばMarsではベースラインを16.1%-51.6%の成功率で、スコアでは少なくとも61.7%で上回った。ALFWorldでは、わずか4回のイテレーションで新記録の98%の成功率を達成した。
パーソナライズド画像合成は、テキストから画像を生成する分野において重要なアプリケーションとして登場し、特定の被写体を多様なコンテキストで描いた画像の作成を可能にしています。拡散モデルがこの領域を支配する中で、テキストと画像のモデリングを統一的に扱うオートリグレッシブモデルは、パーソナライズド画像生成において未だ十分に探求されていません。本論文では、オートリグレッシブモデルをパーソナライズド画像合成に最適化する可能性を調査し、その内在するマルチモーダル能力を活用してこのタスクを実行する方法を探ります。我々は、テキスト埋め込みの最適化とトランスフォーマーレイヤーの微調整を組み合わせた2段階のトレーニング戦略を提案します。オートリグレッシブモデルを用いた実験により、この方法が主要な拡散ベースのパーソナライゼーション手法と同等の被写体忠実性とプロンプト追従性を達成することを実証します。この結果は、オートリグレッシブモデルがパーソナライズド画像生成において有効であることを示し、この分野の将来の研究に向けた新たな方向性を提供します。
人間は、世界がどのように機能し、自身の行動の結果を予測するための常識的知識を符号化した内部世界モデルを構築することができる。この概念は、近年の予備的研究において、例えば視覚表現学習のための汎用機械学習モデルを確立する有望な方向性として浮上している。本論文では、放射線画像のための自己教師あり世界モデルであるCheXWorldを初めて提案する。具体的には、本論文では、資格を持つ放射線科医にとって不可欠な医学的知識の3つの側面を同時にモデル化する統一フレームワークを開発する。これには、1) 局所組織の微細な特徴(例:構造、形状、テクスチャ)を記述する局所解剖構造、2) 人体の全体的な組織(例:臓器や骨格の配置)を記述する全体的な解剖学的レイアウト、3) 異なる病院、装置、または患者から収集された放射線画像の外観領域間の遷移をモデル化するための領域変動が含まれる。実験的には、CheXWorldがこれらの3つの医学的知識の次元を的確に捉えていることを示すために、質的および量的な分析を設計した。さらに、8つの医療画像分類およびセグメンテーションベンチマークにおける転移学習実験により、CheXWorldが既存の自己教師あり学習(SSL)手法や大規模医療基盤モデルを大幅に上回る性能を示すことが明らかになった。コードおよび事前学習済みモデルはhttps://github.com/LeapLabTHU/CheXWorldで公開されている。
最近のテキストから画像への拡散モデルは、トレーニングデータとモデルパラメータの大規模なスケーリングを通じて印象的な視覚品質を達成していますが、複雑なシーンや細部の表現には苦戦することが多いです。大規模言語モデルに現れる自己反映能力に着想を得て、我々はReflectionFlowを提案します。これは、拡散モデルが出力を反復的に反映し、洗練することを可能にする推論時フレームワークです。ReflectionFlowは、3つの補完的な推論時スケーリング軸を導入します:(1) 潜在初期化を最適化するためのノイズレベルスケーリング、(2) 正確な意味的ガイダンスのためのプロンプトレベルスケーリング、そして最も注目すべきは、(3) 反射レベルスケーリングです。これは、以前の生成を反復的に評価し、修正するための具体的な反映を明示的に提供します。反射レベルスケーリングを促進するために、我々はGenRefという大規模データセットを構築しました。このデータセットは、100万のトリプレットを含み、各トリプレットは、反映、欠陥のある画像、および強化された画像で構成されています。このデータセットを活用し、最先端の拡散トランスフォーマーであるFLUX.1-devに対して、統一されたフレームワーク内でマルチモーダル入力を共同モデル化することにより、効率的に反射チューニングを実行します。実験結果は、ReflectionFlowが単純なノイズレベルスケーリング手法を大幅に上回り、困難なタスクにおける高品質な画像合成に向けたスケーラブルで計算効率の良いソリューションを提供することを示しています。
人間は自然に接続された相手と情報を共有し、動画はインターネット上でのコミュニケーションと表現の主要なメディアの一つとなっています。高品質な大規模動画コンテンツの作成を支援するため、現代のパイプラインでは、生の入力素材(例えば、カメラで撮影された未編集の映像)と編集コンポーネント(例えば、視覚効果)の両方を包括的に理解する必要があります。動画編集のシナリオでは、モデルは複数のモダリティ(例えば、視覚、音声、テキスト)を強力な背景知識で処理し、柔軟な入力長(例えば、1時間に及ぶ生の動画)を扱う必要があり、これは従来のモデルにとって大きな課題となっています。本報告書では、幅広い動画理解編集シナリオに対応する大規模マルチモーダルモデル(LMM)ファミリーであるVidiを紹介します。最初のリリースでは、テンポラルリトリーバル、つまり与えられたテキストクエリに対応する入力動画内の時間範囲を特定することに焦点を当てており、これはインテリジェントな編集において重要な役割を果たします。このモデルは、1時間に及ぶ動画を処理し、特定のクエリに対する時間範囲を検索するなど、強力な時間理解能力を備えています。現実世界のシナリオでの包括的な評価を支援するため、VUE-TRベンチマークも提示します。これは、以下の5つの主要な進歩を導入しています。1)動画の長さ:既存のテンポラルリトリーバルデータセットよりも大幅に長い、2)音声サポート:音声ベースのクエリを含む、3)クエリ形式:多様なクエリの長さ/形式、4)アノテーション品質:グラウンドトゥルースの時間範囲を手動でアノテーション、5)評価指標:複数の時間範囲にわたる評価を支援する改良されたIoU指標。注目すべきは、Vidiがテンポラルリトリーバルタスクにおいて、GPT-4oやGeminiなどの主要なプロプライエタリモデルを大幅に上回り、動画編集シナリオでの優位性を示していることです。
制御可能なキャラクターアニメーションは依然として難しい課題であり、特に稀なポーズ、スタイライズされたキャラクター、キャラクターとオブジェクトの相互作用、複雑な照明、動的なシーンを扱う点で困難が残っています。これらの問題に対処するため、従来の研究では主に精巧なバイパスネットワークを通じてポーズや外観のガイダンスを注入することに焦点を当ててきましたが、オープンワールドのシナリオに一般化するのは難しい場合が多かったです。本論文では、基盤モデルが十分に強力であれば、シンプルなモデルの修正と柔軟なファインチューニング戦略によって、上記の課題を大きく解決できるという新しい視点を提案し、実世界での制御可能なキャラクターアニメーションに向けて一歩を踏み出します。具体的には、Wan-2.1ビデオ基盤モデルを基にしたRealisDance-DiTを紹介します。私たちの十分な分析により、広く採用されているReference Netの設計が大規模なDiTモデルにとって最適ではないことが明らかになりました。代わりに、基盤モデルのアーキテクチャに最小限の修正を加えることで、驚くほど強力なベースラインが得られることを示します。さらに、ファインチューニング中のモデルの収束を加速しつつ、基盤モデルの事前知識を最大限に保持するために、低ノイズウォームアップと「大きなバッチと小さなイテレーション」戦略を提案します。加えて、TikTokデータセットやUBCファッションビデオデータセットなどの既存のベンチマークを補完し、提案手法を包括的に評価するために、多様な実世界の課題を捉えた新しいテストデータセットを導入します。大規模な実験により、RealisDance-DiTが既存の手法を大きく上回ることを示します。
LLMエージェントは、大規模言語モデル(LLM)を中核コンポーネントとして活用し、多様なツールを利用してユーザーから割り当てられたタスクを遂行する新興のAIシステム形態です。その大きな可能性にもかかわらず、LLMエージェントは重大なセキュリティリスクを抱えています。外部世界と相互作用する際、攻撃者からの悪意あるコマンドに遭遇し、危険なアクションを実行してしまう可能性があります。これを解決する有望な方法は、最小権限の原則を適用することです。つまり、タスクの完了に必要なアクションのみを許可し、不必要なアクションをブロックするというものです。しかし、これを実現するのは困難であり、多様なエージェントシナリオをカバーしつつ、セキュリティと有用性の両方を維持する必要があります。 私たちは、LLMエージェント向けの最初の権限制御メカニズムであるProgentを紹介します。その中核は、エージェントの実行中に適用される権限制御ポリシーを柔軟に表現するためのドメイン固有言語です。これらのポリシーは、ツール呼び出しに対する細かい制約を提供し、ツール呼び出しが許可されるタイミングを決定し、許可されない場合の代替手段を指定します。これにより、エージェント開発者やユーザーは、特定のユースケースに適したポリシーを作成し、それを確定的に適用してセキュリティを保証することができます。モジュール設計のおかげで、Progentの統合はエージェントの内部を変更せず、エージェントの実装に最小限の変更しか必要としないため、実用性と広範な採用の可能性が高まります。ポリシーの作成を自動化するために、LLMを活用してユーザークエリに基づいてポリシーを生成し、セキュリティと有用性を向上させるために動的に更新します。私たちの広範な評価は、AgentDojo、ASB、AgentPoisonという3つの異なるシナリオまたはベンチマークにおいて、高い有用性を維持しながら強力なセキュリティを実現することを示しています。さらに、詳細な分析を行い、その中核コンポーネントの有効性と、適応型攻撃に対する自動ポリシー生成の耐性を示しています。
我々はMR. Videoを提案する。これは、長尺動画理解のためのエージェント型フレームワークであり、長尺動画処理におけるシンプルでありながら効果的なMapReduce原理を実証するものである:(1) Map: 短い動画クリップを独立して密に知覚し、(2) Reduce: 全てのクリップから情報を共同で集約する。シーケンス・ツー・シーケンスの視覚言語モデル(VLM)と比較して、MR. Videoはコンテキスト長に制限されることなく詳細な短尺動画知覚を行う。既存の動画エージェントが通常順次的なキーセグメント選択に依存するのに対し、Map操作はよりシンプルでスケーラブルな短尺動画セグメントの並列知覚を可能にする。そのReduceステップは、明示的なキーセグメント検索を超える、より包括的なコンテキスト集約と推論を可能にする。このMapReduce原理はVLMと動画エージェントの両方に適用可能であり、我々はLLMエージェントを用いてその有効性を検証する。 実際には、MR. Videoは2つのMapReduceステージを採用する:(A) キャプション生成: 短尺動画クリップのキャプションを生成し(map)、繰り返されるキャラクターやオブジェクトを共有名に標準化する(reduce)。(B) 分析: 各ユーザー質問に対して、個々の短尺動画から関連情報を分析し(map)、それらを最終的な回答に統合する(reduce)。MR. Videoは、最先端のVLMや動画エージェントと比較して、難易度の高いLVBenchにおいて10%以上の精度向上を達成する。 コードは以下で公開されている: https://github.com/ziqipang/MR-Video
視覚シーンを理解する上で、遮蔽された(部分的または完全に隠れた)物体を認識し、推論することは極めて重要です。なぜなら、現実世界の環境では遮蔽が頻繁に発生し、空間理解の障害となるからです。複数の遮蔽物体についてモデルの推論能力をテストするため、我々は新しいタスク「Counting Amodally for Patterns Through Unseen REgions(CAPTURe)」を導入しました。このタスクでは、モデルが遮蔽物(シーンの一部を遮る物体)の背後でパターンがどのように続くかを推論し、パターンに配置された物体を数える必要があります。CAPTUReは視覚パターンの認識と推論の両方を要求するため、視覚言語モデル(VLM)が遮蔽されたパターンを理解し、空間理解スキルを備えているかどうかを評価する有用なテストベッドとなります。遮蔽物体について推論することを要求することで、CAPTUReはVLMが欠落した情報を補完するための世界モデルを形成する能力もテストします。CAPTUReは2つの部分で構成されています:(1)CAPTURe-real:パターンに配置された実物体の手動でフィルタリングされた画像、(2)CAPTURe-synthetic:生成されたパターン画像を用いた制御された診断テストです。我々は4つの強力なVLM(GPT-4o、Intern-VL2、Molmo、Qwen2-VL)をCAPTUReで評価し、モデルが遮蔽されたパターンと遮蔽されていないパターンの両方で数を数えるのに苦労することを発見しました。特に、遮蔽がある場合にモデルの性能が低下することから、VLMが未見の空間関係を推論する能力にも欠けていることが示唆されます。最も強力なVLMであるGPT-4oでさえ、遮蔽がある場合に数を数えることに失敗します。一方、人間はCAPTUReで非常に少ないエラーしか起こしません。また、遮蔽物体の位置に関する補助情報を提供することで性能が向上することから、モデルのエラーは遮蔽を処理できないことと、画像内で数を数える難しさの両方に起因していることが強調されます。
知的財産(IP)は、技術的知識と法的知識を統合する独特の領域であり、本質的に複雑で知識集約的です。大規模言語モデル(LLM)が進化を続ける中、IPタスクの処理において大きな可能性を示しており、IP関連コンテンツの分析、理解、生成をより効率的に行うことが可能になっています。しかし、既存のデータセットやベンチマークは特許に焦点を絞りすぎているか、IP分野の限られた側面しかカバーしておらず、現実世界のシナリオとの整合性が欠けています。このギャップを埋めるため、我々は初の包括的なIPタスク分類と、8つのIPメカニズムと20のタスクをカバーする大規模で多様なバイリンガルベンチマーク「IPBench」を導入しました。このベンチマークは、現実世界の知的財産アプリケーションにおけるLLMの評価を目的としており、理解と生成の両方を含んでいます。汎用モデルからドメイン特化モデルまで16のLLMをベンチマークした結果、最高性能のモデルでも75.8%の精度しか達成できず、改善の余地が大きいことが明らかになりました。特に、オープンソースのIPおよび法律指向モデルは、クローズドソースの汎用モデルに後れを取っています。我々はIPBenchのすべてのデータとコードを公開し、知的財産領域における現実世界の課題をよりよく反映するため、追加のIP関連タスクで継続的に更新していく予定です。
本研究では、音楽制作におけるボーカルエフェクトのマッチングを可能にする新規で解釈可能なモデル、DiffVoxを紹介する。DiffVox(「Differentiable Vocal Fx」の略称)は、パラメトリックイコライゼーション、ダイナミックレンジコントロール、ディレイ、リバーブを効率的な微分可能な実装と統合し、勾配ベースの最適化によるパラメータ推定を可能にする。ボーカルプリセットは、MedleyDBの70トラックとプライベートコレクションの365トラックからなる2つのデータセットから取得される。パラメータ相関の分析により、ハイパスフィルタとローシェルフフィルタが低域を形成するためにしばしば連動するなど、エフェクトとパラメータの間に強い関係性があることが明らかになった。また、ディレイ時間はディレイ信号の強度と相関している。主成分分析により、McAdamsの音色次元との関連性が明らかになり、最も重要な成分は知覚される広がりを調整し、二次成分はスペクトルの明るさに影響を与えることがわかった。統計的検定により、パラメータ分布が非ガウス的であることが確認され、ボーカルエフェクト空間の複雑さが強調された。これらのパラメータ分布に関する初期の発見は、ボーカルエフェクトモデリングと自動ミキシングの今後の研究の基盤を築くものである。ソースコードとデータセットはhttps://github.com/SonyResearch/diffvoxで公開されている。