翻訳付きの日次キュレーションされたAI研究論文
インコンテキスト生成は、大規模言語モデル(LLMs)のオープンタスク一般化能力の主要な要素です。わずかな例をコンテキストとして活用することで、LLMsはドメイン内外のタスクの両方を実行できます。LLMsを基盤とする自己回帰型ビジョン言語モデル(VLMs)の最近の進歩は、テキストから画像への生成において印象的なパフォーマンスを示しています。ただし、一般的な画像生成タスクにおけるインコンテキスト学習の潜在能力はほとんど探求されていません。この課題に対処するために、私たちはX-Promptを導入します。これは、純粋な自己回帰型大視覚言語モデルであり、統一されたインコンテキスト学習フレームワーク内で、幅広い既知および未知の画像生成タスクに競争力のあるパフォーマンスを提供するよう設計されています。X-Promptには、インコンテキストの例から有益な特徴を効率的に圧縮する専門的な設計が組み込まれており、より長いインコンテキストトークンシーケンスをサポートし、未知のタスクに一般化する能力を向上させています。テキストと画像の両方の予測のための統一されたトレーニングタスクにより、X-Promptは、インコンテキストの例からの強化されたタスク認識を備えて一般的な画像生成を処理できます。幅広い実験により、モデルのパフォーマンスが多様な既知の画像生成タスク全般にわたって検証され、以前に見たことのないタスクにも一般化する能力が示されています。
この技術レポートは、コーディングタスクに焦点を当てたOpenAIのo1モデルを再現しようとするO1-CODERを紹介しています。このモデルは、強化学習(RL)とモンテカルロ木探索(MCTS)を統合して、モデルのSystem-2思考能力を向上させています。フレームワークには、標準化されたコードテストのためのテストケースジェネレータ(TCG)のトレーニング、MCTSを使用して推論プロセスを伴うコードデータを生成し、方針モデルを繰り返し微調整して最初に疑似コードを生成し、その後完全なコードを生成するという要素が含まれています。レポートでは、実世界のアプリケーションにo1のようなモデルを展開する際の機会と課題にも言及し、System-2パラダイムへの移行を提案し、環境状態の更新が不可欠であることを強調しています。更新されたモデルの進捗状況や実験結果は、後続バージョンで報告されます。すべてのソースコード、キュレーションされたデータセット、および派生モデルは、https://github.com/ADaM-BJTU/O1-CODER で公開されます。
本研究では、テキストから画像を生成するためのスケール別トランスフォーマーであるSwittiを提案します。既存の次元スケール予測ARモデルから出発し、まずそれらをT2I生成に適用し、収束と全体的な性能を向上させるためのアーキテクチャの修正を提案します。次に、事前学習されたスケール別ARモデルの自己注意マップが、先行スケールに対する弱い依存性を示すことを観察します。この洞察に基づき、先行スケールに依存しない非AR対応策を提案し、{sim}11%高速なサンプリングと低メモリ使用量を実現しつつ、わずかに優れた生成品質を達成します。さらに、高解像度スケールでの分類器不要のガイダンスはしばしば不要であり、場合によってはパフォーマンスを低下させる可能性があることを明らかにします。これらのスケールでのガイダンスを無効にすることで、{sim}20%の追加サンプリング加速が実現され、細かいディテールの生成が改善されます。広範な人間の選好調査と自動評価により、Swittiが既存のT2I ARモデルを上回り、最新のT2I拡散モデルと競合しながらも最大7倍高速であることが示されました。
Open-Sora Planは、さまざまなユーザー入力に基づいて所望の高解像度ビデオを生成するための大規模な生成モデルに貢献することを目的としたオープンソースプロジェクトを紹介します。当プロジェクトは、Wavelet-Flow変分オートエンコーダ、Joint Image-Video Skiparse Denoiser、およびさまざまな条件コントローラを含む、ビデオ生成プロセス全体の複数のコンポーネントで構成されています。さらに、効率的なトレーニングと推論のための多くの補助戦略が設計されており、所望の高品質データを取得するための多次元データキュレーションパイプラインが提案されています。効率的な考え方から利益を得て、Open-Sora Planは定性的および定量的評価の両方で印象的なビデオ生成結果を達成しています。慎重な設計と実践的な経験がビデオ生成研究コミュニティにインスピレーションを与えることを願っています。当プロジェクトのすべてのコードとモデルの重みは、https://github.com/PKU-YuanGroup/Open-Sora-Plan で公開されています。
拡散ベースの生成モデルの急速な進化により、肖像画像アニメーションは顕著な成果を収めています。ただし、反復的なサンプリングの性質に起因する時間的に一貫したビデオ生成と高速サンプリングには依然として課題があります。本論文では、FLOWマッチング生成モデルに基づく音声駆動の会話ポートレートビデオ生成手法であるFLOATを提案します。我々は、生成モデリングをピクセルベースの潜在空間から学習された動きの潜在空間に移行させ、時間的に一貫した動きの効率的な設計を可能にしました。これを実現するために、シンプルかつ効果的なフレームごとの条件付けメカニズムを持つトランスフォーマーベースのベクトル場予測器を導入しています。さらに、当社の手法は音声駆動の感情強調をサポートし、表現豊かな動きを自然に組み込むことができます。幅広い実験により、当社の手法が視覚品質、動きの忠実度、効率性の点で最先端の音声駆動の会話ポートレート手法を上回ることが示されています。
現在の大規模な多モーダルモデル(LMMs)は、長時間または高解像度のビデオを処理し理解する際に重要な課題に直面しており、これは主に高品質なデータセットの不足に起因しています。この問題にデータ中心の視点から取り組むために、我々はVISTAを提案します。これは、既存のビデオキャプションデータセットから長時間および高解像度のビデオ指示に従うペアを合成するシンプルで効果的なビデオ時空間拡張フレームワークです。VISTAは、ビデオを時空的に組み合わせて、新しい合成ビデオを作成し、それらのビデオに関連する質問と回答のペアを生成します。このパラダイムに基づき、我々は7つのビデオ拡張手法を開発し、長時間および高解像度のビデオ理解を向上させることを目的としたビデオ指示に従うデータセットであるVISTA-400Kを編纂します。私たちのデータでさまざまなビデオLMMsをファインチューニングした結果、長いビデオ理解の4つの厳しいベンチマーク全体で平均3.3%の改善が得られました。さらに、我々は、高解像度ビデオ理解の包括的なベンチマークであるHRVideoBenchを導入し、我々のファインチューニングモデルが6.5%の性能向上を達成したことを示します。これらの結果は、当社のフレームワークの有効性を示しています。
人間は社会的な動物です。3Dの自律キャラクターに同様の社会的知能を備えさせ、人間と知覚、理解、相互作用できるようにする方法は、未解決の基本的な問題です。本論文では、3Dの自律キャラクターとの没入型相互作用のための最初のエンドツーエンドのソーシャルビジョン・ランゲージ・アクション(VLA)モデリングフレームワークであるSOLAMIを紹介します。具体的には、SOLAMIは3つの側面から3Dの自律キャラクターを構築します:(1)ソーシャルVLAアーキテクチャ:ユーザーの多様な入力に基づいて多様な応答(音声と動作)を生成し、キャラクターを社会的相互作用に駆動させるための統一されたソーシャルVLAフレームワークを提案します。(2)インタラクティブな多様なデータ:データの不足問題に対処するために、既存の動作データセットのみを使用して自動パイプラインによって生成された合成多様なソーシャルインタラクションデータセットであるSynMSIを提示します。(3)没入型VRインタフェース:様々なアーキテクチャによって駆動されるこれらのキャラクターと没入的に相互作用できるVRインタフェースを開発します。包括的な定量的実験とユーザースタディにより、当社のフレームワークが、ユーザーの期待に合致し、より正確で自然なキャラクターの応答(音声と動作の両方)を低遅延でもたらすことが示されています。
本論文では、TAPTRv2をベースに構築されたTAPTRv3を提案し、長時間のビデオにおけるポイントトラッキングの頑健性を向上させます。TAPTRv2は、コストボリュームを必要とせずに、リアルワールドのビデオ内の任意のポイントを正確に追跡できるシンプルなDETRに似たフレームワークです。TAPTRv3は、通常、時間とともに目標追跡ポイントが増加変動する長時間のビデオから高品質の特徴をクエリする際のTAPTRv2の不足を解消することで、TAPTRv2を改良します。TAPTRv3では、より頑健な長時間ビデオのトラッキングのために、空間的および時間的コンテキストの両方を活用して、空間および時間の次元でより良い特徴クエリをもたらすことを提案します。より良い空間的特徴クエリのために、周囲の空間的コンテキストを活用して画像特徴をクエリする際の注意スコアの品質を向上させるContext-aware Cross-Attention(CCA)を提案します。より良い時間的特徴クエリのために、Visibility-aware Long-Temporal Attention(VLTA)を導入し、対応する可視性を考慮しながらすべての過去フレームに対して時間的な注意を行い、TAPTRv2のRNNのような長時間モデリングによってもたらされる特徴のドリフト問題に効果的に対処します。TAPTRv3は、多くの難しいデータセットでTAPTRv2を大きく上回り、最先端のパフォーマンスを達成します。大規模な追加内部データで訓練された手法と比較しても、TAPTRv3は競争力を保ちます。
マルチモーダル大規模言語モデル(MLLMs)は、視覚理解および生成タスクにおいて大きな進展を遂げています。しかし、画像とテキストが交互に現れるコンテンツを生成することは依然として課題であり、統合されたマルチモーダル理解と生成能力が必要とされます。統一されたモデルにおける進歩は新たな解決策を提供していますが、既存のベンチマークはデータの規模や多様性の制約によりこれらの手法を評価するには不十分です。このギャップを埋めるために、私たちはGATE OpenING(OpenING)を導入しました。これは、56の実世界タスクにわたる5,400件の高品質な人手による注釈付きインスタンスを含む包括的なベンチマークです。OpenINGは、旅行ガイド、デザイン、ブレインストーミングなど多様な日常シナリオをカバーし、厳しい交互生成手法のための強固なプラットフォームを提供しています。さらに、オープンエンドのマルチモーダル生成手法を評価するための判定モデルであるIntJudgeを紹介しています。新しいデータパイプラインでトレーニングされたIntJudgeは、人間の判断と82.42%の一致率を達成し、GPTベースの評価者を11.34%上回っています。OpenINGにおける包括的な実験から、現在の交互生成手法にはまだ大幅な改善の余地があることが明らかになります。交互の画像テキスト生成に関する主要な知見がさらに提示され、次世代モデルの開発を指針としています。OpenINGはhttps://opening.github.ioでオープンソースとして公開されています。
機械学習ベースの代替モデルは、シミュレーションベースのワークフローを加速するための強力なツールを研究者に提供します。ただし、この領域の標準データセットは物理的振る舞いの小さなクラスをカバーしているため、新しいアプローチの有効性を評価することが難しい場合があります。このギャップを埋めるために、我々はWellを導入します。これは、広範囲の時空間物理システムの数値シミュレーションを含む大規模なデータセットコレクションです。Wellは、生物学システム、流体力学、音響散乱、さらには銀河間流体や超新星爆発の磁気流体力学シミュレーションなど、多様な領域をカバーする16のデータセットを提供するため、専門家や数値ソフトウェア開発者の知見を活用しています。これらのデータセットは個別に使用するか、より広範なベンチマークスイートの一部として使用できます。Wellの利用を容易にするために、モデルのトレーニングと評価のための統一されたPyTorchインタフェースを提供しています。このライブラリの機能を示すために、Wellの複雑なダイナミクスによって引き起こされる新しい課題を強調する例のベースラインを導入します。コードとデータは、https://github.com/PolymathicAI/the_well で入手可能です。
Segment Anything Model 2(SAM 2)は、ビデオオブジェクトのセグメンテーションとトラッキングにおいて強力なツールとして登場しています。SAM 2の印象的なビデオオブジェクトセグメンテーション性能を推進する主要な要素には、フレーム特徴の抽出のための大規模な多段画像エンコーダーと、過去のフレームからのメモリコンテキストを保存して現在のフレームセグメンテーションを支援するメモリメカニズムが含まれています。多段画像エンコーダーやメモリモジュールの高い計算複雑さは、モバイルデバイス上でのビデオオブジェクトセグメンテーションなどの実世界のタスクでの応用を制限してきました。この制限に対処するために、低遅延とモデルサイズの小さな高品質な結果を生成する軽量なトラックアニシングモデルであるEfficientTAMsを提案します。私たちのアイデアは、ビデオオブジェクトセグメンテーションのための画像エンコーダーとして平易で非階層的なVision Transformer(ViT)を再検討し、現在のフレームセグメンテーションのためのフレーム特徴抽出とメモリ計算の複雑さを削減する効率的なメモリモジュールを導入することに基づいています。私たちは、バニラの軽量ViTsと効率的なメモリモジュールを使用してEfficientTAMsを構築し、ビデオオブジェクトセグメンテーションとトラックアニシングタスクのためにSA-1BおよびSA-Vデータセットでモデルをトレーニングします。セミ監督VOSやプロンプト可能なビデオセグメンテーションを含む複数のビデオセグメンテーションベンチマークで評価し、提案されたEfficientTAMがバニラViTでSAM 2モデル(HieraB+SAM 2)と比較可能な性能を発揮し、A100で約2倍の高速化とパラメータ削減率の約2.4倍を達成することを確認しました。セグメントアニシング画像タスクでは、EfficientTAMsがオリジナルのSAMよりも有利な性能を発揮し、A100で約20倍の高速化とパラメータ削減率の約20倍を達成しています。iPhone 15 Pro Maxなどのモバイルデバイスでは、EfficientTAMsが、合理的な品質でビデオオブジェクトセグメンテーションを実行するために約10 FPSで動作することができ、小さなモデルのオンデバイスビデオオブジェクトセグメンテーションアプリケーションの可能性を示しています。
拡散モデル(DMs)は、画像の写実性、画像編集、および逆問題の解決に優れており、分類器を使用しないガイダンスと画像反転技術の支援を受けています。一方で、修正フローモデル(RFMs)はこれらのタスクにおいて未開拓の領域です。既存のDMベースの手法はしばしば追加のトレーニングが必要であり、事前に学習された潜在モデルへの一般化が欠けていたり、性能が低かったり、ODEソルバーおよび反転プロセスを通じた広範な逆伝播による膨大な計算リソースを要求します。本研究では、まずRFMsのベクトル場ダイナミクスの理論的および経験的理解を開発し、効率的にノイズ除去軌跡をガイドする方法を明らかにします。我々の研究結果は、ベクトル場を決定論的かつ勾配フリーな方法でナビゲートできることを示しています。この特性を活用して、我々はFlowChefを提案します。FlowChefは、勾配スキップを活用して制御された画像生成タスクのためにノイズ除去軌跡を誘導するベクトル場を活用し、分類器のガイダンス、線形逆問題、および画像編集に対応する初めての統一フレームワークです。さらに、我々は広範な評価を行い、FlowChefがパフォーマンス、メモリ、および時間要件の面でベースラインを大幅に上回り、新たな最先端の結果を達成することを示しています。プロジェクトページ:https://flowchef.github.io。
最近、GPT-4Vなどのクローズドソースのビジョン言語モデル(VLMs)から高品質な視覚指示チューニングサンプルが急増し、さまざまなモデルサイズでオープンソースのVLMsのリリースが加速しました。ただし、大きなモデルを使用してパフォーマンスを向上させるためにVLMsをスケーリングすることは、特にモバイルプラットフォームやロボットなどのリソースに制約のあるデバイスに展開する際に、著しい計算上の課題をもたらします。この課題に対処するために、私たちはVLsI:Verbalized Layers-to-Interactionsを提案します。これは、2Bおよび7Bのモデルサイズでの新しいVLMファミリーであり、効率を優先しつつ精度を損なうことなく設計されています。VLsIは、ユニークな層別の蒸留プロセスを活用し、各層から自然言語空間への特徴のマッピングを可能にする中間の「バーバライザー」を導入することで、小さなVLMsが大きなVLMsの推論プロセスと柔軟に整合できるようにしています。このアプローチは、出力の模倣によく見られるトレーニングの不安定性を緩和し、典型的な最終層のチューニングを超えて、小さなVLMsの層別の進行を大きなVLMsと整合させることによって、トレーニングの安定性を向上させます。私たちは、VLsIを10の困難なビジョン言語ベンチマークで検証し、モデルのスケーリング、統合、またはアーキテクチャの変更を必要とせずに、GPT-4Vよりも顕著なパフォーマンス向上(2Bでは11.0%、7Bでは17.4%)を達成しました。
拡散トランスフォーマーは画像生成において顕著な能力を示していますが、しばしば過剰なパラメータ化があり、実世界のアプリケーションにおいてかなりの推論オーバーヘッドをもたらします。本研究では、エンドツーエンドの学習を通じて冗長なレイヤーを取り除くために設計された深さプルーニング手法であるTinyFusionを提案します。当手法の中心原則は、強力なパフォーマンスを回復させるために微調整後に強力なパフォーマンスを取り戻すことができるプルーニングされたモデルを作成することです。これを達成するために、プルーニングを学習可能にするための微分可能なサンプリング技術を導入し、将来の微調整をシミュレートするための共同最適化パラメータを組み合わせます。従来の手法がプルーニング後の損失やエラーを最小化することに焦点を当てているのに対し、当手法はプルーニングされたモデルの微調整後のパフォーマンスを明示的にモデリングおよび最適化しています。実験結果は、この学習可能なパラダイムが拡散トランスフォーマーのレイヤープルーニングにおいて著しい利点を提供し、既存の重要度ベースおよびエラーベースの手法を凌駕していることを示しています。さらに、TinyFusionはDiTs、MARs、およびSiTsなどの多様なアーキテクチャにわたって強力な汎化性能を発揮します。DiT-XLに関する実験では、TinyFusionが事前トレーニングコストの7%未満で浅い拡散トランスフォーマーを作成し、FIDスコアが2.86で2倍の高速化を達成し、同等の効率性を持つ競合他社を凌駕しています。コードはhttps://github.com/VainF/TinyFusionで入手可能です。
大規模言語モデル(LLM)の性能差は、多くの地域での効果的な展開を妨げ、多くのコミュニティにおける生成AIツールの経済的および社会的価値を抑制しています。ただし、多言語LLMの機能的な開発は、英語以外の言語における高品質な評価リソースの不足によってボトルネックとなっています。さらに、現在の多言語ベンチマーク構築の実践では、多言語システムが使用される環境の地域的および文化的知識を無視し、英語のリソースを翻訳することが一般的です。本研究では、地元の試験ソースから197,243の質問と回答ペアを収集し、多言語LLMの能力をさまざまな地域コンテキストで評価するための評価スイートを構築します。当社の新しいリソースである「INCLUDE」は、44の書き言葉を対象とした包括的な知識および推論中心のベンチマークであり、多言語LLMの実際の言語環境における性能を評価します。
ビデオ変分オートエンコーダー(VAE)は、ビデオを低次元の潜在空間にエンコードし、モデルのトレーニングコストを削減するために多くの潜在ビデオ拡散モデル(LVDM)の主要なコンポーネントとなっています。ただし、生成されるビデオの解像度と長さが増加すると、ビデオVAEのエンコーディングコストはLVDMのトレーニングにおいて制限となるボトルネックとなります。さらに、ほとんどのLVDMで採用されているブロック単位の推論方法は、長時間のビデオを処理する際に潜在空間の不連続性を引き起こす可能性があります。計算上のボトルネックに対処する鍵は、ビデオを異なるコンポーネントに分解し、重要な情報を効率的にエンコードすることにあります。ウェーブレット変換は、ビデオを複数の周波数領域コンポーネントに分解し、効率を大幅に向上させることができます。このため、私たちはウェーブレットフローオートエンコーダー(WF-VAE)を提案します。これは、マルチレベルのウェーブレット変換を活用して、低周波エネルギーを潜在表現に流すことを容易にするオートエンコーダーです。さらに、ブロック単位の推論中に潜在空間の整合性を維持する「因果キャッシュ」と呼ばれる手法を導入します。最先端のビデオVAEと比較して、WF-VAEはPSNRおよびLPIPSメトリクスの両方で優れた性能を示し、競争力のある再構成品質を維持しつつ、スループットが2倍高く、メモリ消費量が4倍少なくなります。私たちのコードとモデルは、https://github.com/PKU-YuanGroup/WF-VAE で入手可能です。
マルチモーダル大規模言語モデル(MLLMs)の安全性に関する懸念は、さまざまなアプリケーションで重要な問題となっています。驚くべきことに、以前の研究では、テキストのアンラーニングを使用してMLLMsを整列させることで、画像テキストペアで訓練されたMLLMsと同等の安全性能が得られるという直感に反する現象が示されています。このような直感に反する現象を説明するために、既存のマルチモーダル安全性ベンチマークにおける視覚的安全情報漏洩(VSIL)問題を発見しました。つまり、画像の潜在的に危険で感度の高いコンテンツがテキストクエリで明らかにされています。このようにして、MLLMsはテキストクエリに基づいてこれらの感度の高いテキスト画像クエリを簡単に拒否することができます。しかし、VSILのない画像テキストペアは実世界のシナリオで一般的であり、既存のマルチモーダル安全性ベンチマークでは見落とされています。このため、我々は、画像テキストペアを使用して視覚的安全漏洩を防ぐマルチモーダルビジュアルリークレス安全性ベンチマーク(VLSBench)を構築しました。実験結果は、VLSBenchがオープンソースおよびクローズドソースのMLLMs、LLaVA、Qwen2-VL、Llama3.2-Vision、およびGPT-4oにとって重要な課題を提起していることを示しています。この研究は、VSILを伴うマルチモーダル安全シナリオにおいてはテキストの整列が十分である一方、VSILのないマルチモーダル安全シナリオにはマルチモーダルの整列がより有望な解決策であることを示しています。詳細は、次のURLからコードとデータをご覧ください:http://hxhcreate.github.io/VLSBench
Prestoは、長期の一貫性と豊富なコンテンツを持つ15秒の動画を生成するために設計された革新的なビデオ拡散モデルを紹介します。シナリオの多様性を長時間維持するためにビデオ生成手法を拡張することは、重要な課題を提起します。この課題に対処するために、我々はSegmented Cross-Attention(SCA)戦略を提案します。これは、隠れた状態を時間的次元に沿ってセグメントに分割し、各セグメントが対応するサブキャプションにクロスアテンションできるようにします。SCAには追加のパラメータが不要であり、現在のDiTベースのアーキテクチャにシームレスに組み込むことができます。高品質な長い動画生成を容易にするために、我々はLongTake-HDデータセットを構築しました。これには、シナリオの一貫性を持ち、全体のビデオキャプションと5つの進行的なサブキャプションで注釈付けされた26.1万本のコンテンツ豊かな動画が含まれています。実験結果によると、当社のPrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%を達成し、既存の最先端のビデオ生成手法を凌駕しています。これは、当社の提案するPrestoがコンテンツの豊かさを大幅に向上させ、長期の一貫性を維持し、複雑なテキストの詳細を捉えていることを示しています。詳細は、弊社のプロジェクトページでご確認いただけます:https://presto-video.github.io/。
私たちは問いを探求します: "芸術を創造するためにはどれだけの先行芸術知識が必要ですか?" これを調査するために、芸術関連コンテンツにアクセスせずにトレーニングされたテキストから画像を生成するモデルを提案します。そして、選択された芸術的スタイルのわずかな例を使用して芸術アダプタを学習するための単純かつ効果的な方法を紹介します。私たちの実験では、私たちの方法で生成された芸術は、大規模で芸術豊かなデータセットでトレーニングされたモデルによって生成された芸術と同等としてユーザーに認識されることを示しています。最後に、データ帰属技術を通じて、芸術的および非芸術的なデータセットからの例が新しい芸術スタイルの創造にどのように貢献したかを示します。
画像中の視覚情報の理解における誤り(すなわち、視覚認識の誤り)は、大規模ビジョン言語モデル(LVLMs)におけるミスの主要な原因のままです。さらなる分析が不可欠ですが、LVLMsの視覚認識を評価するためのデータセットには不足があります。本研究では、科学図表における幾何学的および数値情報に関する質問について、LVLMsの視覚認識能力を直接評価するために設計された新しいデータセットであるVisOnlyQAを紹介します。当該データセットにより、推論などの他の能力とは独立して、LVLMsの詳細な視覚情報の視覚認識を分析することが可能となります。VisOnlyQAの評価セットには、4つの図表カテゴリに関する12のタスクで合計1,200の多肢選択問題が含まれています。また、70,000のインスタンスからなる合成トレーニングデータも提供しています。VisOnlyQAにおける実験結果は、以下の点を強調しています:(i)GPT-4oやGemini 1.5 Proを含む20のLVLMsは、VisOnlyQAにおける視覚認識タスクにおいて不十分な結果を示し、一方で人間のパフォーマンスはほぼ完璧です。(ii)合成トレーニングデータでのファインチューニングは、LVLMsの視覚認識を向上させる可能性を示唆していますが、観察された改善は特定のタスクと特定のモデルに限定されています。(iii)より強力な言語モデルは、LVLMsの視覚認識を向上させます。要約すると、我々の実験は、LVLMsの視覚認識能力を向上させるためには、トレーニングデータとモデルアーキテクチャの両方を改善する必要があることを示唆しています。データセット、コード、およびモデルの応答は、https://github.com/psunlpgroup/VisOnlyQA で提供されています。
最近の動画ベースの大規模言語モデル(Video LLMs)の進歩により、動的な視覚コンテンツを推論および解釈する多様な能力が登場しています。その中で、ゲームプレイ動画はしばしば物理的な常識に反するグリッチが含まれており、これが動画 LLMs の物理的な常識理解の未開拓領域を評価するための効果的なベンチマークとなっています。本論文では、PhysGame を提案し、ゲームプレイ動画における物理的な常識違反を評価する先駆的なベンチマークとして位置付けます。PhysGame は、4つの基本領域(つまり、力学、運動学、光学、および物質特性)を横断し、12の異なる物理的な常識にわたるグリッチを含む880の動画から構成されています。最先端の動画 LLMs を広範囲に評価することにより、現行のオープンソースの動画 LLMs の性能が専用の対応物に大きく遅れていることが明らかになりました。このギャップを埋めるために、物理的な常識学習を促進するために、140,057の質疑応答ペアを備えた指示調整データセット PhysInstruct を編纂します。さらに、誤ったタイトル(すなわち、メタ情報ハッキング)、少ないフレーム(すなわち、時間的ハッキング)、および低い空間分解能(すなわち、空間的ハッキング)に基づいて生成された非好ましい応答に条件付けられた、34,358のトレーニングペアを備えた好み最適化データセット PhysDPO を提案します。これらのデータセットに基づいて、物理的な知識を強化した動画 LLM である PhysVLM を提案します。物理指向のベンチマーク PhysGame および一般的な動画理解のベンチマークでの広範な実験により、PhysVLM の最先端の性能を示しました。
大規模言語モデル(LLM)のテスト時計算において証明可能なスケーリング則を享受する一般的な2段階アルゴリズムを提案します。入力問題が与えられると、提案されたアルゴリズムはまずN個の候補解を生成し、その後、各候補同士がK回比較され、勝者のみが次のラウンドに進む複数ラウンドのノックアウトトーナメントを通じて最良の解を選択します。最小限の実装では、両段階をブラックボックスLLMのみを用いて実行し、外部検証者や報酬モデルなどは不要であり、入力問題の解決には合計N回(K+1)回の高度に並列化可能なLLM呼び出しが必要です。生成された候補解が確率p_{gen} > 0で正しいとし、正しい解と不正解の解の比較がp_{comp} > 0.5の確率で正しい勝者を特定する(つまり、ランダムな推測よりも優れている)と仮定すると、提案されたアルゴリズムの失敗確率がNとKに関して指数関数的に減衰することを理論的に証明します。提案されたアルゴリズムの失敗確率は次の式で表されます:$P(最終出力が不正確である) \leq (1 - p_{gen})^N + \lceil \log_2 N \rceil e^{-2 K (p_{comp} - 0.5)^2}.$ 挑戦的なMMLU-Proベンチマークにおける経験的結果は、技術的仮定と提案されたアルゴリズムの効果、およびテスト時計算のスケーリングアップから得られる利点を検証しています。
既存の具体的なインスタンスの目標ナビゲーションタスクは、自然言語に基づいており、ナビゲーションの前に人間のユーザーが完全かつ微妙なインスタンスの記述を提供することを前提としています。しかし、現実世界では人間の指示が簡潔で曖昧な場合があり、これは実用的ではありません。このギャップを埋めるために、我々は新しいタスク、共同インスタンスナビゲーション(CoIN)を提案します。このタスクでは、ナビゲーション中に動的なエージェント-人間の相互作用を通じて、自然でテンプレートフリーでオープンエンドな対話によってターゲットインスタンスに関する不確実性を積極的に解決します。CoINに対処するために、我々は新しい手法、不確実性認識を備えたエージェント-ユーザー相互作用(AIUTA)を提案します。これは、ビジョン言語モデル(VLMs)の知覚能力と大規模言語モデル(LLMs)の能力を活用します。まず、オブジェクトの検出後、自己質問者モデルが自己対話を開始して完全かつ正確な観察記述を取得し、新しい不確実性推定技術が不正確なVLMの知覚を軽減します。その後、相互作用トリガーモジュールがユーザーに質問するか、ナビゲーションを継続するか停止するかを決定し、ユーザー入力を最小限に抑えます。評価のために、実際の人間とシミュレートされた人間の両方をサポートするベンチマークであるCoIN-Benchを導入します。AIUTAは、最先端の手法に対してインスタンスナビゲーションで競争力のあるパフォーマンスを達成し、ユーザー入力を処理する柔軟性を示しています。
最近の拡散モデルの進歩により、画像および動画生成において新たな基準が設定され、単一フレームおよび複数フレームの文脈にわたるリアルな視覚合成が可能となりました。しかしながら、これらのモデルは依然として効率的かつ明示的に3D整合性のあるコンテンツを生成することに苦労しています。この課題に対処するために、私たちはWorld-consistent Video Diffusion(WVD)を提案します。これは、各画像ピクセルのためにグローバルな3D座標をエンコードするXYZ画像を使用して明示的な3D監督を組み込む革新的なフレームワークです。具体的には、RGBフレームとXYZフレームの同時分布を学習するために拡散トランスフォーマーを訓練します。このアプローチは、柔軟なインペインティング戦略を介してマルチタスク適応性をサポートします。例えば、WVDは、正解のRGBからXYZフレームを推定したり、指定されたカメラ軌道に沿ってXYZ投影を使用して新しいRGBフレームを生成したりすることができます。これにより、WVDは単一画像から3D生成、多視点ステレオ、およびカメラ制御された動画生成などのタスクを統一します。私たちのアプローチは、複数のベンチマークにおいて競争力のあるパフォーマンスを示し、単一の事前学習済みモデルで3D整合性のあるビデオおよび画像生成のためのスケーラブルなソリューションを提供します。
アナロジーを作ることは認知において基本的です。4つの用語から成る比例アナロジーは、言語能力や認知能力を評価する際によく使用されます。例えば、「酸素はガスに対して、<空欄>は<空欄>に対して」というアナロジーを完成させることは、最初の2つの用語(「酸素」と「ガス」)の間の意味関係(例えば「の一種」)を特定し、同じ関係を共有する第2のペア(例えば「アルミニウム」と「金属」)を見つけることを要求します。本研究では、比例アナロジーの完成のための15Kの多肢選択問題回答(MCQA)データセットを導入し、現代の大規模言語モデル(LLMs)の性能をさまざまな知識強化プロンプト設定で評価します。具体的には、プロンプトに3種類の知識を付加します:模範、構造化、ターゲット。結果は、広範なトレーニングデータがあるにもかかわらず、現在のLLMsにとって比例アナロジーを解くことは依然として難しいことを示しており、最良のモデルでも55%の精度に達しています。特筆すべきは、ターゲットとなる知識を提供することが、模範や構造化された知識のコレクションを提供するよりも、モデルが比例アナロジーを完成させるのにより効果的であることがわかったことです。
過去数十年間、自律走行アルゴリズムは知覚、計画、制御において著しい進歩を遂げてきました。しかし、個々のコンポーネントを評価することではシステム全体の性能を完全に反映することができず、より包括的な評価方法の必要性が浮き彫りになっています。これが自律走行アルゴリズムを評価するためのクローズドループ、フォトリアル、リアルタイムシミュレータであるHUGSIMの開発を促しています。これは、キャプチャされた2D RGB画像を3Dガウススプラッティングを介して3D空間に昇華させることにより、クローズドループシナリオのレンダリング品質を向上させ、クローズドループ環境を構築することで実現しています。レンダリングに関しては、視点の推定や360度車両のレンダリングを含むクローズドループシナリオにおける新しい視点合成の課題に取り組んでいます。新しい視点合成に加えて、HUGSIMは、制御コマンドに基づいてエゴとアクターの状態および観測を動的に更新し、完全なクローズドシミュレーションループを実現しています。さらに、HUGSIMは、KITTI-360、Waymo、nuScenes、PandaSetからの70以上のシーケンスと400以上のさまざまなシナリオを提供し、既存の自律走行アルゴリズムの公平かつ現実的な評価プラットフォームを提供しています。HUGSIMは直感的な評価ベンチマークとしての役割だけでなく、フォトリアルなクローズドループ環境で自律走行アルゴリズムを微調整する可能性を開拓しています。
テキストから画像を生成するテキスト対画像生成において、テキスト指示と生成された画像との正確な整合性を達成することは、特に画像内の書かれたテキストをレンダリングする際には、著しい課題です。Stable Diffusion 3(SD3)、Flux、AuraFlowなどの最先端モデルは、正確なテキスト描写に依然として苦労しており、綴りの間違いや不整合なテキストが生じています。本研究では、トレーニング不要の方法を導入し、計算オーバーヘッドを最小限に抑えつつ、テキストのレンダリング品質を大幅に向上させます。具体的には、事前学習された修正フロー(RF)モデル用のオーバーシューティング・サンプラーを導入し、学習された常微分方程式(ODE)を過度にシミュレートし、ノイズを再導入することで交互に振ることで、Eulerサンプラーと比較して、オーバーシューティング・サンプラーは、連続するEulerステップからの複合誤差を修正するのに役立つ追加のランジュバンダイナミクス項を効果的に導入し、したがってテキストのレンダリングを改善します。ただし、オーバーシューティングの強度が高い場合、生成された画像にオーバースムージングのアーティファクトが観察されます。この問題に対処するために、Attention Modulated Overshootingサンプラー(AMO)を提案し、各画像パッチのテキスト内容との注意スコアに応じて、オーバーシューティングの強度を適応的に制御します。AMOは、SD3およびFluxにおいてテキストのレンダリング精度を32.3%および35.9%向上させ、全体的な画像品質を損なうことなく推論コストを増やすことなく、改善を実証します。
オンラインでの悪意のあるコンテンツの検出は、特にリソースが限られている状況や音声モダリティ内での検出は、未だに未開拓の領域です。私たちは、インドの言語、具体的には少数のデータで学習するFew Shot Learning(FSL)を用いて、事前学習された音声表現の潜在能力を調査します。Wav2VecやWhisperなどのモデルからの強力な表現を活用し、ADIMAデータセットを用いてFSLを用いたクロスリンガルな悪意の検出を探求します。私たちのアプローチは、これらの表現をModel-Agnostic Meta-Learning(MAML)フレームワークに統合し、10言語で悪意のある言語を分類します。我々は、限られたデータが性能に与える影響を評価するために、さまざまなショットサイズ(50-200)で実験を行いました。さらに、モデルの振る舞いをよりよく理解するために、特徴の可視化研究が行われました。この研究は、リソースが限られた状況での事前学習モデルの汎化能力を示し、多言語環境での悪意のある言語の検出に関する貴重な示唆を提供しています。
話者認証(SV)システムは、特定の話者からの音声サンプルが発信元であるかを確認するよう設計された認証サービスを提供します。この技術は、個々の好みに対応するさまざまなパーソナライズされたアプリケーションの道を開いています。SVシステムが直面する注目すべき課題の1つは、さまざまな感情スペクトルにわたって一貫して機能する能力です。既存のほとんどのモデルは、中立的な発話と比較して感情的な発話を扱う際に高いエラー率を示しています。その結果、しばしば興味のある音声を見逃すことがあります。この問題は、多様な感情状態を包括する堅牢な話者表現の開発を妨げる、ラベル付き感情音声データの限られた利用可能性から主に生じています。 この懸念に対処するため、私たちはCycleGANフレームワークをデータ拡張手法として使用する新しいアプローチを提案します。この技術は、特定の話者ごとに感情的な音声セグメントを合成し、独自の声の特性を保持します。私たちの実験結果は、合成された感情的なデータをトレーニングプロセスに取り込む効果を強調しています。この拡張されたデータセットを使用してトレーニングされたモデルは、感情的な音声シナリオで話者を検証するタスクにおいて、基準モデルを一貫して上回り、等しいエラー率を最大3.64%削減しています。