翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、推論タスクで顕著な性能を発揮しています。彼らは自己回帰的なトークン生成を利用して推論軌跡を構築し、一貫した思考の連鎖の発展を可能にします。本研究では、個々のトークンが推論タスクの最終結果に与える影響を探求します。我々は、LLMsにおいて不正確な推論軌跡につながる「重要なトークン」の存在を特定します。具体的には、重要なトークンの代わりに他のトークンをデコードするようにLLMsを強制すると、肯定的な結果を生み出す傾向があることを発見します。この観察に基づき、私たちは新しいアプローチであるcDPOを提案します。このアプローチは、アラインメントプロセス中に重要なトークンを自動的に認識し、トークンレベルの報酬を実行するよう設計されています。具体的には、肯定的なモデルと否定的なモデルの生成尤度を比較することで、重要なトークンを自動的に特定する対比推定アプローチを開発します。これを実現するために、肯定的なモデルと否定的なモデルをそれぞれ異なる推論軌跡に対して個別に微調整し、結果的に、誤った結果に寄与する不正確な軌跡内の重要なトークンを特定できるようになります。さらに、アラインメントプロセス中にモデルを重要なトークン情報と整合させるために、従来のDPOアルゴリズムをトークンレベルのDPOに拡張し、前述の肯定的なモデルと否定的なモデルからの差異尤度をトークンレベルのDPO学習の重要な重みとして利用します。GSM8KおよびMATH500のベンチマークで、Llama-3(8Bおよび70B)およびdeepseek-math(7B)という2つの広く使用されているモデルでの実験結果は、提案されたcDPOアプローチの効果を示しています。
現在のビデオ生成モデルは、短いクリップの生成に優れていますが、複数のショットからなる映画のようなビデオの作成にはまだ苦労しています。豊富な計算リソースを背景に大規模なデータで訓練された既存のモデルは、しばしば単一のショット目標で訓練されているため、論理的なストーリーラインや視覚的一貫性を維持するのに不十分であることは驚くべきことではありません。このため、我々は、マルチショットビデオ生成に特化した協調的でトレーニング不要のアーキテクチャであるVideoGen-of-Thought(VGoT)を提案します。VGoTは、次の3つの目標を念頭に設計されています。マルチショットビデオ生成:ビデオ生成プロセスを構造化されたモジュラーシーケンスに分割し、(1)スクリプト生成、つまり簡潔なストーリーを各ショットの詳細なプロンプトに変換すること、(2)キーフレーム生成、キャラクターの描写に忠実な視覚的に一貫したキーフレームを作成すること、および(3)ショットレベルのビデオ生成、つまりスクリプトとキーフレームからの情報をショットに変換すること、(4)スムージングメカニズム、一貫したマルチショット出力を確保するものです。合理的なナラティブデザイン:映画の脚本執筆に触発され、私たちのプロンプト生成アプローチは、論理的な一貫性、キャラクターの発展、およびビデオ全体での物語の流れを確保するために5つの主要なドメインにまたがっています。クロスショットの一貫性:物語から自動的に作成されるアイデンティティ保存(IP)埋め込みを活用することで、時間的およびアイデンティティの一貫性を確保します。さらに、隣接するショットから潜在的な特徴を効果的に組み合わせるリセット境界を統合するクロスショットスムージングメカニズムを取り入れ、滑らかな遷移を実現し、ビデオ全体で視覚的な一貫性を維持します。私たちの実験は、VGoTが高品質で一貫性のあるマルチショットビデオを生成する点で既存のビデオ生成手法を凌駕していることを示しています。
LLM間の効果的な協力を可能にすることは、複雑な問題を解決できる自律システムを開発する上で重要なステップです。LLMは通常、単一のモデル生成器として使用されますが、人間が出力を批評し改善する場合があります。共同訓練された協力モデルの潜在能力は、ほとんど未開拓のままです。マルチエージェントのコミュニケーションや議論の設定で有望な結果が得られていますが、モデルをタスクで共同作業させることにはほとんど進展がありませんでした。本論文では、推論問題における「マルチエージェントLLMトレーニング」(MALT)への初めての取り組みを提案します。当該手法は、異種のLLMが専門的な役割を割り当てられた連続的なマルチエージェントセットアップを採用し、問題を反復的に解決する生成器、検証器、および改良モデルを備えています。軌道拡張に基づく合成データ生成プロセスと、共同結果に基づく報酬による信用割り当て戦略を提案しています。これにより、トレーニング後のセットアップが、各モデルの専門能力を自律的に向上させるために、肯定的および否定的な軌跡の両方を利用できるようになります。MATH、GSM8k、およびCQAを対象に当該手法を評価し、Llama 3.1 8BモデルにおけるMALTが、同じベースラインモデルに対してそれぞれ14.14%、7.12%、9.40%の相対的な改善を達成したことを示しました。これは、数学的および常識的な推論問題のパフォーマンスにおけるマルチエージェントの協力能力における初期の進歩を示しています。一般的に、当該研究はマルチエージェントLLMトレーニングアプローチに関する研究の具体的な方向性を提供しています。
対応する結果報酬モデル(ORM)が全応答を評価するのに対し、プロセス報酬モデル(PRM)は推論経路を段階的にスコア付けし、より密度の高い細かい報酬を提供します。ただし、PRMのトレーニングには中間ステップごとに注釈付きのラベルが必要であり、手動および自動データ収集の両方において重要な課題が生じます。本論文では、この課題に取り組むことを目的としています。理論的および実証的に、ORMをより安価な応答レベルのラベルで単純にトレーニングすることで、追加コストなしに暗黙のPRMを得ることができることを示します。唯一の仮定は、アウトカム報酬をポリシーとリファレンスモデルの対数尤度比としてパラメータ化することであり、これは損失目標の具体的な選択に関係なく最適化できます。実験では、異なる目的で暗黙のPRMを具体化し、MATHでのパフォーマンスを評価します。暗黙のPRMが、トレーニングデータの1/38未満を使用して、Math-Shepherdによる強力なMCTSベースラインを上回ることを示します。そのパフォーマンスは、過半数投票でさらに向上させることができます。また、指示と応答のスケーリングアップが暗黙のPRMに利益をもたらし、後者の方が大きな利益をもたらします。特に、CE(交差エントロピー)損失で具体化された暗黙のPRMは、データ効率が高く、指示ごとに1つの応答でトレーニングされても生成モデルを改善し続けることができます。指示は下流タスクに関連しているべきであり、応答の多様性は利益をもたらさないことが分かりました。驚くべきことに、Math-Shepherdのステップラベルを追加しても、アウトカムデータのみでトレーニングされた暗黙のPRMにさらなる改善がもたらされることはありません。私たちの研究がPRMのトレーニングアプローチの再考を促し、PRMのトレーニングをよりアクセスしやすくすることに貢献することを願っています。
大規模言語モデル(LLMs)は、画像や動画などの視覚データの強力な理解を示すマルチモーダルLLMsの作成を可能にしました。ただし、これらのモデルは通常、高い計算要求を伴う視覚エンコーダからの広範な視覚トークンに依存しており、これはリソース制約のある環境や長いコンテキストのタスクでの適用範囲を制限しています。本研究では、最小限の性能低下で幅広い効率要件に対応できるトレーニングフリーの適応推論手法を提案します。当社の手法は、LLMsの前に埋め込み類似性に基づく反復トークンマージングと、マルチモーダルの重要性に基づくLLMs層内の進行的なトークン剪定から構成されています。シンプルな設計により、当社の手法は動画および画像LLMsの両方に適用できます。多様な動画および画像ベンチマークでの広範な実験により、当社の手法は、動画および画像LLMsの性能を維持しながら計算負荷を大幅に削減します(例:FLOPsで7倍の削減)。さらに、同様の計算コストの下で、当社の手法は長い動画理解において最先端の手法を上回ります(例:MLVUで+4.6)。さらに、トークンの冗長性やLLM層の挙動に関する詳細な分析は、効率的なマルチモーダルLLMsの設計における将来の研究のための指針を提供します。当社のコードはhttps://github.com/LaVi-Lab/AIMで入手可能となります。
最近、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの多モーダル大規模言語モデル(MLLMs)は、視覚と音声のモダリティを含めた機能を拡張してきました。これらのモデルは、さまざまな音声・視覚アプリケーションで印象的なパフォーマンスを示していますが、提案されたDeafTestによると、MLLMsはしばしば人間にとって些細なものと考えられる簡単なタスクに苦戦することがあります。具体的には、1)2つの音のうちどちらが大きいかを判断すること、2)2つの音のうちどちらの音が高いかを判断することです。これらの観察に基づき、我々はAV-Odyssey Benchを導入します。これは、これらのMLLMsが本当に音声・視覚情報を理解できるかどうかを評価するために設計された包括的な音声・視覚ベンチマークです。このベンチマークには、テキスト、視覚、音声の要素を組み合わせた4,555の慎重に作成された問題が含まれています。モデルが正しい答えを推論するためには、視覚と音声の入力から効果的に手がかりを活用する必要があります。MLLMの回答を正確かつ客観的に評価するために、我々は質問を選択式に構造化し、人間の評価やLLM支援による評価の必要性を排除しています。我々は、一連のクローズドソースとオープンソースのモデルをベンチマークし、観察結果をまとめます。現行モデルの限界を明らかにすることで、将来のデータセット収集やモデル開発に有益な示唆を提供することを目指しています。
Retrieval-augmented Generation(RAG)は、外部知識を統合して大規模言語モデル(LLM)を強化し、幻覚を減少させ、再トレーニングなしに最新情報を取り入れることで知られています。RAGの重要な部分として、外部知識ベースは、非構造化PDF文書から構造化データを抽出するために光学文字認識(OCR)を使用して一般的に構築されます。しかし、OCRの予測の不完全性と構造化データの固有の不均一表現から、知識ベースには不可避的にさまざまなOCRノイズが含まれます。本論文では、RAGシステムにおけるOCRの連鎖的影響を理解するための初のベンチマークであるOHRBenchを紹介します。OHRBenchには、6つの実世界のRAGアプリケーションドメインから慎重に選択された350の非構造化PDF文書が含まれ、文書内の多モーダル要素から派生したQ&Aも含まれており、RAG用に使用される既存のOCRソリューションに挑戦します。OCRがRAGシステムに与える影響をよりよく理解するために、我々は2つの主要なOCRノイズタイプ、つまり意味ノイズと書式ノイズを特定し、摂動を適用して各OCRノイズの度合いが異なる構造化データセットを生成します。OHRBenchを使用して、まず現在のOCRソリューションの包括的な評価を行い、どれもRAGシステムのための高品質な知識ベースを構築するのに十分でないことを明らかにします。次に、これら2つのノイズタイプの影響を系統的に評価し、RAGシステムの脆弱性を示します。さらに、OCRを使用せずにVision-Language Models(VLM)をRAGシステムに採用する可能性について議論します。コード:https://github.com/opendatalab/OHR-Bench
大規模言語モデル(LLM)の導入後、自然言語生成(NLG)タスクの性能には著しい改善が見られ、テキスト要約や機械翻訳などが含まれます。ただし、LLMは依然として事実情報に基づかない内容を含む出力を生成しており、これを幻覚と呼びます。そのため、LLMの事実性を評価する方法を開発することが急務となっています。 実際、最近、事実性評価のためのリソースが登場しています。これらのリソースは、いくつかの制限に直面しており、次のいずれかを満たしています:(i)特定のタスクやドメインに特化している、(ii)サイズが制限されており、新しい事実性評価者のトレーニングを妨げている、(iii)主張の検証など、より単純な検証タスク向けに設計されています。 これらの問題に対処するために、私たちはLLM-Oasisを導入します。これは、私たちの知る限り最大のエンドツーエンド事実性評価者のトレーニングリソースです。LLM-Oasisは、Wikipediaから主張を抽出し、これらの主張のサブセットを偽造し、事実と非事実のテキストのペアを生成して構築されています。その後、人間の注釈者によって、データセットの品質を検証し、事実性評価システムのベンチマークテストセットを作成します。 私たちの実験は、LLM-Oasisが最先端のLLMにとって重要な課題を提供していることを示しており、提案されたエンドツーエンド事実性評価タスクでGPT-4oが最大60%の精度を達成していることを明らかにし、今後の研究を推進する潜在能力を強調しています。
動き制御は表現豊かで魅力的なビデオコンテンツを生成するために重要ですが、ほとんどの既存のビデオ生成モデルは主にテキストプロンプトに依存しており、動的なアクションや時間的な構成のニュアンスを捉えるのに苦労しています。このため、空間的・時間的にまばらまたは密な動き軌跡に依存するビデオ生成モデルを訓練します。従来の動き条件付け作業とは対照的に、この柔軟な表現は任意の数の軌跡、オブジェクト固有またはグローバルなシーンの動き、時間的にまばらな動きをエンコードできます。その柔軟性から、この条件付けを動きプロンプトと呼びます。ユーザーはまばらな軌跡を直接指定することができますが、高レベルなユーザー要求を詳細で半密な動きプロンプトに変換する方法も示し、このプロセスを動きプロンプト拡張と呼びます。カメラやオブジェクトの動き制御、画像との「相互作用」、動き転送、画像編集など、さまざまなアプリケーションを通じてアプローチの汎用性を実証します。私たちの結果は、現実的な物理学などの新興動作を示し、動きプロンプトがビデオモデルを探索し、将来の生成ワールドモデルと相互作用する可能性を示唆しています。最後に、定量評価を行い、ヒューマンスタディを実施し、強力なパフォーマンスを示します。ビデオの結果は当社のウェブページでご覧いただけます:https://motion-prompting.github.io/
私たちは、OmniCreatorという新しいフレームワークを紹介します。このフレームワークは、テキストプロンプトによる統合(画像+動画)生成および編集を1つの場所で行うことができます。OmniCreatorは、自己教師付きの方法で生成的かつ普遍的な編集能力を獲得し、元のテキスト-動画ペアを条件として取り、同じ動画をノイズ除去のターゲットとして利用して、動画とテキストの意味的対応関係を学習します。推論時には、テキストプロンプトと動画が提示されると、OmniCreatorは両方に忠実なターゲットを生成する能力を持ち、既存の編集作業が特定の編集タイプに主に焦点を当てるか、追加の制御(例:構造条件、注意機能、またはDDIM反転)に依存するのに対して、制約のない普遍的な編集効果を達成します。一方、テキストプロンプトのみが提示されると、OmniCreatorは生成的になり、学習した意味的対応関係の結果として高品質の動画を生成します。重要なことに、同じ能力が画像にも適用されることがわかり、OmniCreatorを真に統一されたフレームワークにします。さらに、既存の生成的動画編集ベンチマークが不足しているため、私たちはOmniBench-99データセットを導入しました。このデータセットは、生成的動画編集モデルのパフォーマンスを包括的に評価するために設計されています。幅広い実験により、OmniCreatorが他のすべてのモデルに対して著しい優位性を示すことが示されました。
3Dビジョン言語モデル(3D-VLMs)に関する研究はますます注目されており、視覚ナビゲーションや具現化された質問応答など、3Dシーン内で具現化されたAIの開発に不可欠です。特に大規模な3Dシーンにおいて視覚的特徴が高密度であるため、タスクに関連する視覚情報を正確に特定することは難しいです。既存の研究では、すべてのオブジェクトをセグメンテーションし、それらの特徴をシーン表現として考慮しています。しかし、これらのタスクに依存しないオブジェクトの特徴には多くの冗長な情報が含まれており、タスクに関連する領域の詳細が欠落しています。これらの問題に対処するために、私たちはLSceneLLMを提案します。これは、LLMの視覚的優先順位を活用して自動的にタスクに関連する領域を特定し、その後、焦点を当てた領域の細かい詳細を捉えるためのプラグアンドプレイのシーン拡大モジュールを組み合わせた適応フレームワークです。具体的には、密なトークンセレクターがLLMのアテンションマップを調査して指示入力のための視覚的優先順位を特定し、その後、焦点を当てた領域の細かい詳細を拡大します。適応的セルフアテンションモジュールを活用して、粗い粒度と選択された細かい視覚情報を融合します。3D-VLMsの大規模なシーン理解能力を包括的に評価するために、私たちはさらに、XR-Sceneというクロスルーム理解ベンチマークを導入します。これには、XR-QA、XR-EmbodiedPlanning、XR-SceneCaptionを含む一連の大規模なシーン理解タスクが含まれています。実験の結果、当社の手法は既存の手法を大規模なシーン理解および既存のシーン理解ベンチマークの両方で上回っていることが示されました。既存の3D-VLMsに私たちのシーン拡大モジュールを導入することも、大幅な改善をもたらしています。
ビジョン・トークナイザーは、その拡張性とコンパクトさから多くの注目を集めています。これまでの研究は、旧来のGANベースのハイパーパラメーター、偏った比較、およびスケーリングの振る舞いの包括的な分析の欠如に依存していました。これらの問題に取り組むために、私たちはグループ化された球面量子化(GSQ)を導入しました。これには、球面コードブックの初期化とルックアップ正則化が含まれており、コードブックの潜在を球面表面に制約することができます。画像トークナイザーのトレーニング戦略の実証的分析により、GSQ-GANが最先端の手法よりも優れた再構成品質をより少ないトレーニングイテレーションで達成し、スケーリング研究の堅固な基盤を提供します。これに基づき、我々はGSQのスケーリングの振る舞いを系統的に調査し、特に潜在次元、コードブックのサイズ、および圧縮比率、およびそれらがモデルのパフォーマンスに与える影響を検討します。我々の調査結果は、高次元の潜在空間を表現する際の課題を強調し、高い空間圧縮レベルと低い空間圧縮レベルで異なる振る舞いを示しています。GSQは、高次元の潜在をコンパクトで低次元の空間に再構築できるため、品質を向上させつつ効率的なスケーリングが可能です。その結果、GSQ-GANは再構成FID(rFID)が0.50の16倍のダウンサンプリングを達成しています。
参照画像セグメンテーション(RIS)は、自由形式のテキスト記述によって説明される画像内のオブジェクトを識別およびセグメンテーションする高度なビジョン言語タスクです。従来の研究は視覚と言語の特徴を整合させることに焦点を当ててきましたが、データ拡張などのトレーニング技術の探求は未開拓の領域です。本研究では、RIS向けの効果的なデータ拡張を探求し、Masked Referring Image Segmentation(MaskRIS)という新しいトレーニングフレームワークを提案します。従来の画像拡張がRISには不十分であり、性能の低下を招く一方、単純なランダムマスキングがRISの性能を著しく向上させることが観察されました。MaskRISは、画像とテキストの両方のマスキングを使用し、その後に歪みに注意した文脈学習(DCL)を行うことで、マスキング戦略の利点を十分に活用します。このアプローチにより、モデルが遮蔽、不完全な情報、および様々な言語的複雑さに対する耐性が向上し、著しい性能向上がもたらされます。実験により、MaskRISはさまざまなRISモデルに簡単に適用でき、完全教師付きおよび弱教師付きの両方の設定で既存の手法を上回ることが示されます。最後に、MaskRISはRefCOCO、RefCOCO+、およびRefCOCOgデータセットで新たな最先端の性能を達成します。コードはhttps://github.com/naver-ai/maskrisで入手可能です。
AI技術は、研究から実用段階へ急速に移行しています。テキスト、画像、動画を生成するFoundation Models(FMs)の普及により、AIベースのシステムは複雑さを増しています。従来のAIベースのソフトウェアと比較して、FMsを利用するシステムまたはGenAIベースのシステムは、その規模や汎用性のために設計がより難しいです。これにより、ソフトウェアエンジニアリングにおけるデザインパターンとして知られるベストプラクティスを文書化する必要があります。私たちの最初の貢献は、タスク分解とRetrieval-Augmented Generation(RAG)という2つの手法をGenAIベースのシステムのデザインパターンとして形式化することです。これらの手法をソフトウェア品質属性の観点でトレードオフを議論し、代替手法についてコメントします。AI実務者には、これらの手法を科学的視点だけでなく、柔軟性、保守性、安全性、セキュリティなどのエンジニアリング特性の観点から考慮することを推奨します。2つ目の貢献として、Task DecompositionとRAGを適用して複雑な実世界のGenAIアプリケーション「Workflow Generation」を企業ユーザー向けに構築する際の業界経験について説明します。ワークフローを生成するタスクは、システム環境からのデータを使用して特定の計画を生成し、ユーザー要件を入力とします。これら2つのパターンがAI開発サイクル全体に影響を与えるため、データセットの作成、モデルトレーニング、モデル評価、展開フェーズにどのように影響を与えたかを説明します。
AIPCコンセプトは人気を集めており、ますます多くのハイブリッドCPUがクライアントデバイス上でAIモデルを実行するようになります。しかし、現在のAI推論フレームワークは、ハイブリッドCPUのハードウェア能力の不均衡を見落としており、推論パフォーマンスが低下しています。この問題に対処するために、私たちはハイブリッドCPU向けの動的並列メソッドを導入しました。この方法により、並列作業が開始する前にハイブリッドCPUの各コアの作業量をバランスよく調整することで、LLM推論パフォーマンスが大幅に向上します。この方法により、Neural Speedは、2つのハイブリッドIntel CPUで平均90%以上のメモリ帯域幅を実現しました。
ビデオのハイライト検出とモーメント検索(HD/MR)は、ビデオ解析において重要です。最近の共同予測トランスフォーマーモデルは、しばしばクロスタスクのダイナミクスやビデオテキストの整合性と洗練を見落としています。さらに、ほとんどのモデルは通常、限られた単方向の注意メカニズムを使用しており、ビデオとテキストのモダリティ間の相互依存関係を捉える性能が劣っています。大規模言語モデルおよびビジョン言語モデル(LLM/LVLMs)は、さまざまな領域で注目を集めていますが、この分野での適用は比較的未開拓の領域です。ここでは、これらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案します。これは、(i)ビデオテキストの特徴整合性向上のための畳み込み投影および特徴洗練モジュール、(ii)強く結合されたクエリ重視のクリップ表現のための双方向クロスモーダル融合ネットワーク、および(iii)相関を通じて両方のタスクを向上させる単方向共同タスクフィードバックメカニズムを経由して、これらの制限に対処します。さらに、(iv)適応的なエラー罰則化と学習の向上のためのハードポジティブ/ネガティブ損失を導入し、(v)BLIP-2などのLVLMを活用して、強化された多モーダル特徴の統合とLVLMから生成された合成データを使用したインテリジェントな事前トレーニングを行います。QVHighlights、TVSum、Charades-STAのベンチマークでの包括的な実験により、最先端のパフォーマンスが示されました。コードとモデルはhttps://github.com/dpaul06/VideoLights で入手可能です。