翻訳付きの日次キュレーションされたAI研究論文
優れた性能を持つ大規模言語モデル(LLMs)の開発は、スケーラブルな監視において重要な課題に直面しています。人間の評価が困難なタスクやLLMsが人間を上回るタスクに対して、効果的なフィードバックを提供することがその課題です。LLMsを批評に活用する動きが増えていますが、現在のアプローチは人間の注釈やより強力なモデルに依存しており、外部の監督なしに批評能力を向上させる問題は未解決のままです。私たちは、SCRIT(Self-evolving CRITic)というフレームワークを導入します。SCRITは、真の自己進化を可能にする批評能力を持っています。技術的には、SCRITは、ステップバイステップの批評のための参照解を使用する対照ベースの自己批評と、修正結果を通じて批評の品質を確認する自己検証メカニズムによって生成された合成データでトレーニングすることで自己改善します。最も強力なLLMsの1つであるQwen2.5-72B-Instructで実装されたSCRITは、批評修正とエラー識別のベンチマークで最大10.3%の改善を達成します。私たちの分析によると、SCRITのパフォーマンスはデータとモデルのサイズとともに正の方向にスケーリングされ、他のアプローチを上回り、自己検証コンポーネントから重要な利益を得ています。
Retrieval-Augmented Generation(RAG)は、基盤モデルにおける事実に反する出力を生成する問題に対処するための強力な戦略であり、クエリに関連する外部知識を取得し、それを生成プロセスに組み込むことでこれを実現します。ただし、既存のRAGアプローチは主にテキスト情報に焦点を当てており、最近の進展により画像を考慮し始めていますが、ビデオという豊富なマルチモーダルな知識源は、他のモダリティよりもイベント、プロセス、および文脈の詳細をより効果的に表現できるにも関わらず、ほとんど無視されています。最近の研究では、ビデオを応答生成プロセスに統合することを探求していますが、クエリに基づいてビデオを取得せずに事前に定義されたビデオを使用するか、ビデオをテキストの説明に変換するだけで、そのマルチモーダルな豊かさを活用していません。これらに対処するために、我々はVideoRAGという新しいフレームワークを導入します。このフレームワークは、クエリとの関連性に基づいて関連するビデオを動的に取得するだけでなく、ビデオの視覚情報とテキスト情報の両方を出力生成に活用します。さらに、これを実現するために、我々の手法は、ビデオコンテンツを直接処理して取得およびクエリと共に取得したビデオをシームレスに統合することを可能にするLarge Video Language Models(LVLMs)の最近の進歩に基づいています。我々はVideoRAGの効果を実験的に検証し、それが関連するベースラインよりも優れていることを示しています。
推論は、特に視覚的文脈において複雑な多段階問題を解決するための基本的な能力であり、順次段階的な理解が不可欠です。既存のアプローチには、視覚的推論を評価する包括的なフレームワークが欠如しており、段階的問題解決が強調されていません。このため、我々は大規模言語モデル(LMMs)における段階的視覚推論を推進する包括的なフレームワークを提案します。そのために、3つの主要な貢献を行います。まず、マルチステップ推論タスクを評価するために特に設計された視覚推論ベンチマークを導入します。このベンチマークは、複数のステップを含む8つの異なるカテゴリの多様な課題を提示し、合計4,000以上の推論ステップを持ち、LLMsの正確で解釈可能な視覚推論能力を複数のステップでロバストに評価することが可能です。第二に、個々のステップの粒度で視覚推論の品質を評価する新しいメトリックを提案します。この提案されたメトリックは、従来のエンドタスクの精度メトリックと比較して、推論パフォーマンスに対するより深い洞察を提供します。第三に、新しいマルチモーダル視覚推論モデルであるLlamaV-o1を提案します。このモデルは、多段階カリキュラム学習アプローチを用いて訓練され、タスクが段階的に整理されて段階的なスキル獲得と問題解決を促進します。提案されたLlamaV-o1は、多段階推論向けに設計されており、構造化されたトレーニングパラダイムを通じて段階的に学習します。包括的な実験により、当社のLlamaV-o1が既存のオープンソースモデルを凌駕し、クローズソースのプロプライエタリモデルに対して有利なパフォーマンスを発揮することが示されました。Llava-CoTに比べ、当社のLlamaV-o1は、6つのベンチマーク全体で平均スコア67.3を達成し、推論スケーリング時に5倍高速です。当社のベンチマーク、モデル、コードは公開されています。
非構造化環境で操作可能な一般的なロボットシステムの開発は重要な課題です。Vision-Language Models(VLM)は高レベルの常識的推論に優れていますが、精密な操作タスクに必要な細かい3D空間理解が欠けています。ロボットデータセットでVLMを微調整してVision-Language-Action Models(VLA)を作成することは潜在的な解決策ですが、高いデータ収集コストと一般化の問題に妨げられています。これらの課題に対処するために、VLMの高レベル推論と操作に必要な低レベルの精度との間のギャップを埋める新しいオブジェクト中心の表現を提案します。私たちの鍵となる洞察は、オブジェクトの機能的な許容範囲によって定義されるオブジェクトの標準空間が、ポイントや方向などの相互作用の原始的な記述に対して構造化された意味のある方法を提供するということです。これらの原始体は、VLMの常識的推論を実行可能な3D空間の制約に変換する橋として機能します。この文脈で、高レベルの計画を行うためのプリミティブ再サンプリング、相互作用のレンダリング、およびVLMのチェックを通じた1つのループと、6Dポーズトラッキングを介した低レベルの実行を行うもう1つのループを導入します。この設計により、VLMの微調整を必要とせずに、堅牢でリアルタイムな制御が実現されます。包括的な実験により、多様なロボット操作タスク全般にわたる強力なゼロショット一般化が実証され、このアプローチが大規模なシミュレーションデータ生成の自動化の可能性を示しています。
時間的認識、つまり質問が提起されたタイムスタンプに基づいて動的に推論する能力は、オフラインとオンラインのビデオLLMの主な違いです。オフラインモデルは完全なビデオに依存して静的な事後分析を行うのに対し、オンラインモデルはビデオストリームを段階的に処理し、質問が提起されたタイムスタンプに基づいて動的に応答を適応させます。その重要性にもかかわらず、時間的認識は既存のベンチマークで十分に評価されていませんでした。このギャップを埋めるために、私たちはOVO-Bench(Online-VideO-Benchmark)を提案します。これは、先進的なオンラインビデオ理解能力のベンチマークにおいてタイムスタンプの重要性を強調する新しいビデオベンチマークです。OVO-Benchは、ビデオLLMが特定のタイムスタンプで発生するイベントに対して推論し応答する能力を評価します。これには、以下の3つの異なるシナリオが含まれます:(1)過去のイベントをたどって質問に答える逆トレース、(2)リアルタイム理解:現在のタイムスタンプで展開するイベントを理解し応答する、(3)将来の情報が利用可能になるまで応答を遅らせ、正確に質問に答える前進型応答。OVO-Benchには、644のユニークなビデオと約2,800の細かくメタアノテーションされた正確なタイムスタンプが含まれる12のタスクがあります。自動生成パイプラインと人間によるキュレーションを組み合わせています。これらの高品質サンプルを使用して、ビデオLLMに対してビデオタイムラインに沿ってシステマティックにクエリを実行する評価パイプラインをさらに開発しました。9つのビデオLLMの評価によると、従来のベンチマークにおける進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦しており、人間エージェントと比較して大きなギャップがあることが示されました。OVO-BenchがビデオLLMの進歩を促進し、オンラインビデオ推論の将来の研究をインスパイアすることを願っています。当該ベンチマークとコードは、https://github.com/JoeLeelyf/OVO-Bench からアクセスできます。
最近、Multimodal Large Language Models(MLLMs)の進歩により、単一画像の微細な知覚と複数画像全体の理解が大幅に向上しました。ただし、既存のMLLMsは、複雑な複数画像シナリオでの正確なグラウンディングを実現する際に依然として課題に直面しています。この課題に対処するために、まず、Chain-of-Thought(CoT)フレームワークを探求しました。このフレームワークは、単一画像のグラウンディングと複数画像の理解を統合しています。部分的に効果がありますが、エンドツーエンドではない性質から、抽象的な視覚情報を捉えるのに苦労しています。そのため、我々は、複数画像にわたるフリーフォームかつ正確なグラウンディングを実行できる最初のマルチ画像グラウンディングモデルであるMigicianを導入します。これをサポートするために、既存のデータセットから派生した複数画像グラウンディングタスク用のデータと、新しく生成されたフリーフォームグラウンディング命令に従うデータを含むMGrounding-630kデータセットを提供します。さらに、マルチ画像グラウンディング能力を評価するために特別に設計された包括的なベンチマークであるMIG-Benchを提案します。実験結果は、当社のモデルが、最高の既存のMLLMsを21.61%上回り、さらにははるかに大きな70Bモデルをも凌駕する、著しく優れたマルチ画像グラウンディング能力を達成していることを示しています。当社のコード、モデル、データセット、およびベンチマークはすべて完全にオープンソースです。
近年、大規模言語モデル(LLMs)は顕著な性能を達成していますが、根底にある訓練データによって基本的に制限されています。訓練データを超えてモデルを改善するために、最近の研究では、LLMsが合成データを生成して自律的な自己改善を行う方法が探求されています。ただし、自己改善の連続する段階は収益の限界に達する可能性があります。本研究では、自己改善に向けた補完的なアプローチを提案します。ここでは、多様なエージェント社会の言語モデルにファインチューニングを適用する方法を提案します。同じ基本モデルから始まる一群の言語モデルが、各モデルを更新して独自のデータを生成することで独立して特化されます。各モデルを独立したデータセットで訓練することにより、このアプローチがモデル間での特化とモデルセット全体での多様化を可能にする方法を示します。その結果、全体システムは多様な推論チェーンを維持し、単一エージェントの自己改善方法よりも多くのファインチューニングラウンドで自律的に改善することができます。我々は、幅広い推論タスクにわたってこのアプローチの効果を定量的に示しています。
構造化画像理解、つまり表やチャートの解釈には、画像内のさまざまな構造やテキストに戦略的に焦点を当て、最終的な答えに至る推論シーケンスを形成する必要があります。ただし、現在のマルチモーダル大規模言語モデル(LLM)には、このマルチホップ選択的注意機能が欠けています。本研究では、ReFocusという、単純でありながら効果的なフレームワークを紹介し、マルチモーダルLLMに、コードを介して入力画像に対するビジュアル編集を行い、視覚的焦点を移動および調整する能力を付与します。具体的には、ReFocusは、ツールを呼び出して入力画像を変更し、順次ボックスを描画し、セクションを強調表示し、領域をマスキングするPythonコードを生成することで、視覚的推論プロセスを向上させます。表やチャートを含むさまざまな構造化画像理解タスクで実験を行いました。ReFocusは、視覚的編集を行わないGPT-4oに比べて、すべてのタスクでパフォーマンスを大幅に向上させ、表のタスクでは平均11.0%、チャートのタスクでは6.8%の利益をもたらしました。異なる視覚的編集の効果と、ReFocusがパフォーマンスを向上させる理由について詳細な分析を行いました。さらに、ReFocusを使用して14kのトレーニングセットを収集し、中間情報を含む視覚的な思考の連鎖が、標準のVQAデータよりも優れた監督を提供し、QAペアでトレーニングされた同じモデルよりも平均8.0%、CoTよりも2.6%の利益をもたらすことを証明しました。
テキストからビデオの生成は、拡散モデルを通じて著しい進歩を遂げています。ただし、マルチコンセプトビデオカスタマイズ(MCVC)は依然として重要な課題です。この課題には2つの主要な挑戦があります:1)アイデンティティの切り離し問題。既存のカスタマイズ手法を直接採用すると、複数のコンセプトを同時に扱う際に属性が混在することが避けられません。2)高品質なビデオ-エンティティのペアの不足。これは、様々なコンセプトを適切に表現し分離するモデルをトレーニングする際に重要です。これらの課題に対処するために、私たちはConceptMasterを導入しました。これは、アイデンティティの切り離しの重要な問題に効果的に取り組みながら、カスタマイズされたビデオでコンセプトの忠実度を維持する革新的なフレームワークです。具体的には、独立した方法で拡散モデルに注入される切り離されたマルチコンセプト埋め込みを学習する新しい戦略を導入しました。これにより、高度に類似した視覚コンセプトに対しても、複数のアイデンティティを持つカスタマイズされたビデオの品質を効果的に保証します。さらに、高品質なMCVCデータの不足を克服するために、様々なコンセプトにわたる正確なマルチコンセプトビデオ-エンティティデータの体系的な収集を可能にするデータ構築パイプラインを慎重に構築しました。私たちのモデルの効果を検証するために包括的なベンチマークが設計され、コンセプトの忠実度、アイデンティティの切り離し能力、および6つの異なるコンセプト構成シナリオにわたるビデオ生成品質の3つの重要な側面から、当社のモデルの有効性を検証します。広範な実験により、当社のConceptMasterがこの課題に対する以前のアプローチを大幅に上回ることが示され、複数のコンセプトにわたるパーソナライズされた意味のあるビデオの生成への道を開いています。
ビデオパーソナライゼーション手法は、人物、ペット、場所など特定の概念を持つビデオを合成することを可能にします。しかし、既存の手法はしばしば限られた領域に焦点を当て、被写体ごとに時間のかかる最適化が必要であり、また単一の被写体のみをサポートしています。我々は、ビデオアルケミストを提案します - フォアグラウンドオブジェクトと背景の両方に組み込まれたマルチサブジェクト、オープンセットのパーソナライゼーション機能を備えたビデオモデルです。これにより、時間のかかるテスト時の最適化が不要となります。当モデルは、各条件付き参照画像とそれに対応する被写体レベルのテキストプロンプトをクロスアテンション層で融合する新しいディフュージョントランスフォーマーモジュールに基づいて構築されています。このような大規模なモデルを開発するには、データセットと評価という2つの主要な課題があります。まず、参照画像とビデオのペアデータセットを収集することは非常に困難なため、選択されたビデオフレームを参照画像としてサンプリングし、ターゲットビデオのクリップを合成します。ただし、モデルは参照フレームを与えられたトレーニングビデオを簡単にノイズ除去できますが、新しいコンテキストに汎化することができません。この問題を緩和するために、幅広い画像拡張を行う新しい自動データ構築パイプラインを設計しています。第二に、オープンセットのビデオパーソナライゼーションを評価すること自体が課題です。これに対処するために、正確な被写体の忠実度に焦点を当て、多様なパーソナライゼーションシナリオをサポートするパーソナライゼーションベンチマークを導入しています。最後に、我々の包括的な実験は、当手法が定量的および定性的評価の両方で既存のパーソナライゼーション手法を大幅に上回ることを示しています。
本研究は、JPEG画像に埋め込まれたEICARテストファイルを使用して、Vision-Large Language Model(VLM/LLM)のセキュリティ境界をテストする革新的なアプローチを示しています。OpenAI GPT-4o、Microsoft Copilot、Google Gemini 1.5 Pro、およびAnthropic Claude 3.5 Sonnetを含む複数のLLMプラットフォームで、4つの異なるプロトコルを実行しました。実験により、EICAR署名を含む変更されたJPEGがLLM仮想ワークスペース内でアップロード、操作、および潜在的に実行可能であることが検証されました。主な発見は以下の通りです:1)画像メタデータ内でEICAR文字列を検出されずにマスクする一貫した能力、2)Pythonベースの操作を使用してLLM環境内でテストファイルを正常に抽出すること、および3)base64エンコーディングや文字列反転を含む複数の曖昧化技術のデモンストレーション。この研究は、Microsoft Researchの「侵入テストの運用ルール」フレームワークを拡張し、コンテナ化された環境内でのファイル処理および実行機能に特に焦点を当てたクラウドベースの生成AIおよびLLMのセキュリティ境界を評価します。
従来のセルアニメーション(Cel Animation)製作パイプラインには、ストーリーボード、レイアウトデザイン、キーフレームアニメーション、中割り、および着色など、多くの重要なステップが含まれており、これらは膨大な手作業、技術的専門知識、および膨大な時間投資を要求します。これらの課題は、セルアニメーション製作の効率性とスケーラビリティを歴史的に妨げてきました。生成的人工知能(GenAI)の台頭は、大規模言語モデル、マルチモーダルモデル、拡散モデルを含む革新的な解決策を提供し、中割りフレーム生成、着色、およびストーリーボード作成などのタスクを自動化することで、これらの課題に取り組んでいます。この調査は、GenAIの統合が従来のアニメーションワークフローを革新し、AniDoc、ToonCrafter、AniSoraなどのツールを通じて、より幅広いクリエイターにアクセスを広げ、アーティストがより多くの創造的表現と芸術的革新に焦点を当てることを可能にする方法を探ります。その潜在能力にもかかわらず、視覚的一貫性の維持、スタイルの一貫性の確保、倫理的考慮事項の対処などの問題が依然として課題となっています。さらに、本論文では、AI支援アニメーションの将来の方向性について議論し、潜在的な進展を探ります。詳細な調査やリソースについては、以下のGitHubリポジトリをご覧ください:https://github.com/yunlong10/Awesome-AI4Animation
大規模言語モデル(LLMs)のドメイン適応後のトレーニングは、医学や金融などの特定の領域において有望なアプローチとして登場しています。ただし、さまざまなデータやモデル構成にわたる最適な適応基準やトレーニング戦略の特定には、重要な課題が残っています。これらの課題に対処するために、私たちは、ファイナンス領域向けのLLMsのドメイン適応後のトレーニングについての体系的かつ詳細な調査であるFINDAPを紹介します。私たちのアプローチは、対象ドメインに必要な主要な機能を特定し、これらのニーズに合致する包括的な評価スイートを設計することから始まります。その後、継続的な事前トレーニング、指示チューニング、および選好の整列など、主要なポストトレーニング段階の効果を分析します。これらの知見を基に、新しい選好データ蒸留手法に焦点を当てた効果的なトレーニングレシピを提案します。この手法は、生成報酬モデルからのプロセス信号を活用します。その結果得られるモデル、Llama-Finは、幅広い金融タスクにおいて最先端のパフォーマンスを達成します。私たちの分析は、各ポストトレーニング段階が異なる機能にどのように貢献するかを明らかにし、特定の課題と効果的な解決策を明らかにし、LLMsのドメイン適応に貴重な洞察を提供します。プロジェクトページ:https://github.com/SalesforceAIResearch/FinDap