翻訳付きの日次キュレーションされたAI研究論文
テストタイム計算量を活用してLLMの出力を改善することは、オープンエンドな自然言語上で動作する一般的な自己改善エージェントを構築するための重要なステップです。本論文では、LLMにおける推論時計算量のスケーリングについて研究し、次の問いに焦点を当てます:もしLLMが固定されたが非自明な量の推論時計算リソースを使用できる場合、難しいプロンプトに対する性能をどれだけ改善できるか?この問いに答えることは、LLMの達成可能な性能だけでなく、LLMの事前学習の未来や、推論時計算量と事前学習計算量のトレードオフをどのようにすべきかについても示唆を与えます。その重要性にもかかわらず、さまざまなテストタイム推論手法のスケーリング挙動を理解しようとする研究はほとんどありません。さらに、現在の研究では、これらの戦略の多くに対して否定的な結果が主に報告されています。本研究では、テストタイム計算量をスケーリングするための2つの主要なメカニズムを分析します:(1) 密なプロセスベースの検証器報酬モデルに対する探索、(2) テスト時に与えられたプロンプトに基づいて、モデルの応答分布を適応的に更新すること。両ケースにおいて、テストタイム計算量をスケーリングするための異なるアプローチの有効性は、プロンプトの難易度に応じて大きく異なることがわかりました。この観察は、「計算最適」なスケーリング戦略を適用する動機付けとなります。この戦略は、プロンプトごとにテストタイム計算リソースを最も効果的に割り当てることを目指します。この計算最適戦略を使用することで、ベストオブNベースラインと比較して、テストタイム計算量のスケーリング効率を4倍以上向上させることができます。さらに、FLOPsを一致させた評価では、より小さなベースモデルがある程度の非自明な成功率を達成する問題において、テストタイム計算量を活用することで、14倍大きなモデルを上回ることができることがわかりました。
複数の画像を処理する能力は、大規模視覚言語モデル(LVLM)がシーンをより徹底的かつニュアンス豊かに理解するために重要です。最近のマルチイメージLVLMは、このニーズに対応し始めています。しかし、その評価は開発に追いついていません。このギャップを埋めるため、私たちはマルチモーダル・マルチイメージ理解(MMIU)ベンチマークを導入しました。これは、幅広いマルチイメージタスクにわたってLVLMを評価するために設計された包括的な評価スイートです。MMIUは7種類のマルチイメージ関係、52のタスク、77Kの画像、そして11Kの入念に選ばれた多肢選択問題を含み、その種類において最も広範なベンチマークとなっています。オープンソースおよびプロプライエタリモデルを含む24の主要なLVLMを評価した結果、特に空間理解を必要とするタスクにおいて、マルチイメージ理解に重大な課題があることが明らかになりました。最も先進的なモデルであるGPT-4oでさえ、MMIUでの精度は55.7%に留まります。多面的な分析実験を通じて、主要なパフォーマンスギャップと制限を特定し、将来のモデルとデータの改善に向けた貴重な洞察を提供します。私たちは、MMIUがLVLM研究と開発の最前線を進め、洗練されたマルチモーダル・マルチイメージユーザーインタラクションの実現に向けて前進することを目指しています。
本論文では、LLaVA-NeXTブログシリーズにおけるデータ、モデル、視覚表現に関する知見を統合して開発したオープンな大規模マルチモーダルモデル(LMM)ファミリーであるLLaVA-OneVisionを紹介する。実験結果から、LLaVA-OneVisionは、単一画像、複数画像、ビデオという3つの重要なコンピュータビジョンシナリオにおいて、オープンLMMの性能限界を同時に押し上げる初の単一モデルであることが示された。特に、LLaVA-OneVisionの設計は、異なるモダリティ/シナリオ間での強力な転移学習を可能にし、新たな能力の出現をもたらす。具体的には、画像からビデオへのタスク転移を通じて、強力なビデオ理解能力とクロスシナリオ能力が実証されている。
本論文では、「オブジェクト画像」と呼ばれる表現を用いて、UVマップ付きのリアルな3Dモデルを生成する新しいアプローチを提案します。このアプローチでは、表面形状、外観、パッチ構造を64x64ピクセルの画像に集約し、複雑な3D形状をより扱いやすい2D形式に変換します。これにより、ポリゴンメッシュに内在する幾何学的および意味論的な不規則性の課題に対処します。この手法により、Diffusion Transformersなどの画像生成モデルを直接3D形状生成に使用することが可能になります。ABOデータセットでの評価では、パッチ構造を持つ生成形状が、最近の3D生成モデルと同等のポイントクラウドFIDを達成しつつ、PBRマテリアル生成を自然にサポートすることを示しています。
本論文では、MedTrinity-25Mを紹介する。これは医学分野における包括的で大規模なマルチモーダルデータセットであり、10種類のモダリティにわたる2,500万枚以上の画像と、65以上の疾患に対するマルチグラニュラリティのアノテーションをカバーしている。これらの充実したアノテーションは、疾患/病変タイプ、モダリティ、領域固有の記述、領域間の関係といったグローバルなテキスト情報に加え、関心領域(ROI)に対する詳細なローカルアノテーション(バウンディングボックスやセグメンテーションマスクなど)を含む。既存のアプローチが画像-テキストペアの可用性に制限されていたのに対し、我々はペアリングされたテキスト記述を必要とせずにマルチグラニュラリティの視覚的およびテキスト的アノテーション(画像-ROI-記述のトリプレット形式)を生成する初の自動化パイプラインを開発した。具体的には、90以上の異なるソースからデータを収集し、前処理を行い、異常領域に関連するROIを特定するためにドメイン固有の専門家モデルを使用してグラウンディングを行った。その後、包括的なナレッジベースを構築し、マルチモーダル大規模言語モデルにプロンプトを与えて、特定されたROIをガイドとして検索拡張生成を行い、マルチグラニュラリティのテキスト記述を生成した。既存のデータセットと比較して、MedTrinity-25Mは最も充実したアノテーションを提供し、キャプショニングやレポート生成といったマルチモーダルタスク、および分類やセグメンテーションといった視覚中心のタスクを包括的にサポートする。MedTrinity-25Mで事前学習を行った我々のモデルは、VQA-RADおよびPathVQAにおいて、マルチモーダル大規模言語モデルや他の代表的なSoTAアプローチを上回る最先端の性能を達成した。このデータセットは、マルチモーダル医療AIモデルの大規模事前学習をサポートするためにも利用可能であり、医療分野における将来の基盤モデルの開発に貢献するものである。
Diffusionモデルは最先端の画像生成の限界を常に押し広げていますが、そのプロセスを微妙に制御することは困難です。実際、テキストプロンプトでは画像のスタイルや細かい構造的詳細(例えば顔)を正確に記述するには不十分であることが実証されています。ControlNetやIPAdapterは、生成プロセスを画像に基づいて条件付けることでこの欠点を解決しますが、個々のインスタンスは単一の条件付き事後分布をモデル化することに限定されています。同じワークフロー内で複数の異なる事後分布を必要とする実用的なユースケースでは、複数のアダプターを訓練して使用するのは煩雑です。我々は、IPAdapter-Instructを提案します。これは、自然画像の条件付けと「Instruct」プロンプトを組み合わせ、同じ条件付け画像に対して異なる解釈(スタイル転送、オブジェクト抽出、その両方、または他の何か)を切り替えることを可能にします。IPAdapter-Instructは、タスクごとに専用のモデルと比較して品質の低下を最小限に抑えながら、複数のタスクを効率的に学習します。
言語モデルの出力の正しさを検証する研究が増えつつある。同時に、言語モデルは推論を必要とする複雑なクエリに対処するために利用されている。本論文では、複雑な推論設定における言語モデルの出力を検証することに焦点を当てた挑戦的なベンチマーク「CoverBench」を紹介する。この目的に使用できるデータセットは、特定のユースケース(例:財務表)を対象とした他の複雑な推論タスク(例:QA)のために設計されることが多く、そのようなベンチマークを収集するためには、変換、ネガティブサンプリング、および難しい例の選択が必要となる。CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、および利用可能な場合の表の複数表現や一貫したスキーマなどの標準化を提供し、複雑な主張の検証に対する多様な評価を可能にする。データの品質を確保するため、手動でラベルノイズの低いレベルを確認している。最後に、CoverBenchが挑戦的であり、非常に大きな改善余地があることを示すために、さまざまな競争力のあるベースライン結果を報告する。データはhttps://huggingface.co/datasets/google/coverbenchで公開されている。
本論文では、画像合成のために訓練された生成モデルを視覚的データマイニングのツールとして活用する方法を実証する。我々の洞察は、現代の生成モデルがその訓練データの正確な表現を学習するため、視覚的パターンをマイニングすることでデータを要約するためにこれらのモデルを利用できるという点にある。具体的には、特定のデータセットから画像を合成するために条件付き拡散モデルをファインチューニングした後、これらのモデルを使用してそのデータセット上の典型性尺度を定義できることを示す。この尺度は、地理的位置、タイムスタンプ、意味的ラベル、あるいは疾患の有無など、異なるデータラベルに対して視覚的要素がどれほど典型的であるかを評価する。この合成による分析アプローチは、データマイニングにおいて二つの重要な利点を持つ。第一に、従来の対応関係に基づくアプローチと比較して、すべての視覚的要素のペアを明示的に比較する必要がないため、スケーラビリティが大幅に向上する。第二に、これまでの視覚的データマイニングに関する研究の多くは単一のデータセットに焦点を当てているが、我々のアプローチは内容や規模において多様なデータセットに適用可能であり、歴史的な車のデータセット、歴史的な顔のデータセット、大規模な世界規模のストリートビューデータセット、さらに大規模なシーンデータセットを含む。さらに、我々のアプローチは、クラスラベル間で視覚的要素を翻訳し、一貫した変化を分析することを可能にする。
与えられた音声に合わせたリップシンク動画は、バーチャルプレゼンターやパフォーマーの作成を含む様々なアプリケーションの基盤となっている。近年の研究では、異なる技術を用いた高精細なリップシンクが探求されているが、それらのタスク指向モデルは、クリップ固有のトレーニングのために長期間の動画を必要とするか、目に見えるアーティファクトを残すかのいずれかである。本論文では、一般化された音声-視覚的面部情報を同期させる統一かつ効果的なフレームワークReSyncerを提案する。鍵となる設計は、Style-basedジェネレータを再検討し、再配線することで、原則に基づいたスタイル注入型Transformerによって予測される3D面部ダイナミクスを効率的に採用することである。ノイズ空間とスタイル空間内の情報挿入メカニズムを単純に再構成することで、本フレームワークはモーションと外観を統一されたトレーニングで融合させる。広範な実験により、ReSyncerが音声に従った高精細なリップシンク動画を生成するだけでなく、高速なパーソナライズドファインチューニング、動画駆動型リップシンク、話し方のスタイル転送、さらには顔の入れ替えなど、バーチャルプレゼンターやパフォーマーの作成に適した複数の魅力的な特性をサポートすることが実証された。リソースはhttps://guanjz20.github.io/projects/ReSyncerで確認できる。
評価は大規模言語モデルの発展におけるバトンである。現在の評価は、通常、各原子テスト目標に対して単一項目評価パラダイムを採用しており、モデルが真に必要な能力を備えているのか、それとも特定の質問に対する答えを記憶/推測しているだけなのかを識別するのが困難である。このため、我々はStructEvalと呼ばれる新しい評価フレームワークを提案する。StructEvalは、原子テスト目標から出発し、複数の認知レベルと重要な概念にわたる構造化された評価を行うことで、評価を深化・拡大し、大規模言語モデルに対する包括的で堅牢かつ一貫した評価を提供する。3つの広く使用されているベンチマークでの実験により、StructEvalがデータ汚染のリスクを抵抗し、潜在的なバイアスの干渉を軽減する信頼できるツールとして機能し、モデルの能力に関するより信頼性の高い一貫した結論を提供することが示された。我々のフレームワークは、将来の原則的で信頼できる大規模言語モデル評価プロトコルの設計にも光を当てるものである。
オープンソースとクローズドソースの大規模言語モデル(LLM)間の性能差は、テキストからSQLへの変換タスクにおいて依然として課題となっている。本論文では、より強力なモデル(強モデル)によって生成されたデータと、小さく、十分に調整されていないモデル(弱モデル)によって生成されたエラー情報データを組み合わせた合成データアプローチを提案する。この手法は、テキストからSQLモデルのドメイン汎化を向上させるだけでなく、選好学習を通じたエラーデータの監視の可能性を探るものである。さらに、オープンソースLLMに対する指示チューニングに合成データアプローチを適用し、特化したテキストからSQLモデルであるSENSEを開発した。SENSEの有効性は、SPIDERおよびBIRDベンチマークにおいて最先端の結果を示すことで実証され、オープンソースモデルとクローズドソースモデルによってプロンプトされた手法との性能差を埋めることに成功した。
近年、Transformerベースのモデルは音声視覚セグメンテーション(AVS)タスクにおいて顕著な性能を発揮しています。しかし、その高い計算コストのため、リアルタイム推論は実用的ではありません。ネットワークのアテンションマップを分析することで、AVSモデルにおける2つの主要な課題を特定しました:1)アテンションの散逸、これは限定されたフレーム内でのSoftmaxによる過度に集中したアテンション重みに対応し、2)非効率的で負荷の高いTransformerデコーダ、これは初期段階での狭い焦点パターンに起因します。本論文では、高速、効率的、軽量を同時に実現する初のリアルタイム音声視覚効率セグメンテーショントランスフォーマーであるAVESFormerを紹介します。我々のモデルは、クロスアテンションの動作を修正するための効率的なプロンプトクエリ生成器を活用しています。さらに、ローカル特徴に適した畳み込みを促進することで計算負荷を軽減するELFデコーダを提案し、より高い効率を実現します。大規模な実験により、AVESFormerがモデル性能を大幅に向上させ、S4で79.9%、MS3で57.9%、AVSSで31.2%を達成し、従来の最先端を上回り、性能と速度の優れたトレードオフを実現することが示されました。コードはhttps://github.com/MarkXCloud/AVESFormer.gitで公開されています。