翻訳付きの日次キュレーションされたAI研究論文
私たちは、画像と動画におけるプロンプト可能な視覚的セグメンテーションを解決するための基盤モデルであるSegment Anything Model 2(SAM 2)を紹介します。ユーザーインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大の動画セグメンテーションデータセットを収集しました。私たちのモデルは、リアルタイム動画処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャです。私たちのデータでトレーニングされたSAM 2は、幅広いタスクにおいて強力な性能を発揮します。動画セグメンテーションでは、従来のアプローチよりも3倍少ないインタラクションでより高い精度を達成しました。画像セグメンテーションでは、Segment Anything Model(SAM)よりも精度が高く、6倍高速です。私たちのデータ、モデル、および洞察は、動画セグメンテーションおよび関連する知覚タスクにとって重要なマイルストーンとなることを信じています。私たちは、モデルのバージョン、データセット、およびインタラクティブデモを公開します。
本研究では、Gemmaファミリーに新たに加わったGemma 2を紹介します。これは、20億から270億パラメータの規模にわたる軽量で最先端のオープンモデル群です。この新バージョンでは、Transformerアーキテクチャに対していくつかの既知の技術的改良を適用しました。具体的には、ローカル・グローバル注意機構の交互適用(Beltagy et al., 2020a)やグループクエリ注意機構(Ainslie et al., 2023)などが含まれます。また、20億パラメータと90億パラメータのモデルについては、次のトークン予測ではなく知識蒸留(Hinton et al., 2015)を用いて学習を行いました。その結果、これらのモデルはその規模において最高の性能を発揮し、2~3倍大きなモデルに対しても競争力のある代替案を提供します。私たちはすべてのモデルをコミュニティに公開します。
本論文では、単一画像から0.5秒で高速かつ高品質なテクスチャ付きオブジェクトメッシュを再構築する新しい手法SF3Dを提案します。既存の手法の多くとは異なり、SF3Dはメッシュ生成に特化して明示的に訓練されており、頂点カラーに依存するのではなく、迅速なテクスチャ生成を可能にする高速UVアンラッピング技術を組み込んでいます。この手法は、再構築された3Dメッシュの視覚的品質を向上させるために、マテリアルパラメータと法線マップの予測も学習します。さらに、SF3Dは低周波照明効果を効果的に除去するデライティングステップを統合しており、再構築されたメッシュが新しい照明条件下でも容易に使用できることを保証します。実験結果は、SF3Dが既存の技術を凌駕する優れた性能を示しています。プロジェクトページ: https://stable-fast-3d.github.io
大規模言語モデルは自然言語理解において顕著な性能を示すが、そのリソース集約的な性質からアクセスしにくいという課題がある。一方で、MiniCPMのような小規模言語モデルは持続可能なスケーラビリティを提供するが、専門的な最適化なしでは性能が劣ることが多い。本論文では、テキスト埋め込みの改善を通じて小規模言語モデルの性能向上を探求する。MiniCPM、Phi-2、Gemmaの3つの言語モデルを選び、NLIデータセット上で対照的ファインチューニングを実施した。その結果、このファインチューニング手法が全てのモデルにおいて様々なベンチマークでテキスト埋め込みの品質を向上させることが示され、特にMiniCPMは平均56.33%の性能向上という最も顕著な改善を示した。対照的ファインチューニングのコードはhttps://github.com/trapoom555/Language-Model-STS-CFTで公開されている。
大規模な視覚言語モデルの最近の成功は、ユーザーインターフェース上で動作するエージェントシステムを推進する上で大きな可能性を示しています。しかし、GPT-4Vのようなマルチモーダルモデルが、異なるアプリケーションや複数のオペレーティングシステム上で汎用エージェントとして持つ力は、以下の2点を満たす堅牢なスクリーン解析技術の欠如により、大きく過小評価されていると私たちは主張します:1) ユーザーインターフェース内の操作可能なアイコンを確実に識別すること、2) スクリーンショット内の様々な要素の意味を理解し、意図されたアクションを画面上の対応する領域に正確に関連付けること。これらのギャップを埋めるため、私たちはOmniParserを導入しました。これは、ユーザーインターフェースのスクリーンショットを構造化された要素に解析する包括的な手法であり、GPT-4Vがインターフェースの対応する領域に正確に基づいたアクションを生成する能力を大幅に向上させます。まず、人気のあるウェブページを使用して操作可能なアイコン検出データセットとアイコン記述データセットをキュレーションしました。これらのデータセットは、画面上の操作可能な領域を解析するための検出モデルと、検出された要素の機能的意味を抽出するためのキャプションモデルという専門モデルのファインチューニングに利用されました。OmniParserは、ScreenSpotベンチマークにおけるGPT-4Vのパフォーマンスを大幅に向上させました。また、Mind2WebおよびAITWベンチマークでは、スクリーンショットのみを入力とするOmniParserが、スクリーンショット以外の追加情報を必要とするGPT-4Vベースラインを上回りました。
マルチモーダル言語モデル(MLLMs)は、現実世界の環境でますます実装されるようになっており、3D空間を解釈し、時間的ダイナミクスを理解する能力が求められています。その潜在能力にもかかわらず、現在のコミュニティ内のトップモデルは、空間的および時間的次元を十分に理解する点でまだ不十分です。本論文では、マルチモーダルLLMsにおける3Dおよび時間的理解を引き出すための、シンプルでトレーニング不要、効果的かつ汎用的な視覚的プロンプト手法である「Coarse Correspondence」を紹介します。この手法は、軽量なトラッキングモデルを使用して、ビデオ内のフレーム間または画像視点セット間のオブジェクト対応関係を見つけます。最も頻繁に現れるオブジェクトインスタンスを選択し、それらを画像内で一意のIDを持つマーカーで視覚化します。このシンプルなアプローチにより、ScanQA(+20.5%)やOpenEQAのサブセット(+9.7%)などの3D理解ベンチマーク、およびEgoSchema(+6.0%)などの長編ビデオベンチマークにおいて、最先端の結果を達成しました。また、MLLMsがカメラ視点以外の記述された視点から空間を推論できるかどうかを評価するための小さな診断データセットをキュレーションしました。ここでも、Coarse Correspondenceは空間的視点取得能力を向上させますが、MLLMsがこのタスクに苦戦していることを強調します。全体として、このシンプルなプロンプト手法が、3Dまたは時間的推論を必要とする下流タスクを大幅に支援できることを実証しました。
最近の大規模言語モデルアプリケーション、例えばRetrieval-Augmented Generationやチャットボットなどでは、より長い入力コンテキストを処理する必要性が高まっています。しかし、この要求は本質的な制約によって妨げられています。アーキテクチャ的には、モデルはトレーニング中に定義されたコンテキストウィンドウによって制限されています。さらに、広範なテキストを処理するには大量のGPUメモリが必要です。我々は、事前学習済みの自己注意機構の重みを活用して入力コンテキストを圧縮する新しいアプローチ、Finchを提案します。プロンプトと長いテキストが与えられた場合、Finchはプロンプトに基づいてテキストのチャンクごとに最も関連性の高いKey (K)とValue (V)のペアを反復的に特定します。そのようなペアのみがKVキャッシュに保存され、コンテキストウィンドウによって制約された空間内で、最終的には長いテキストの圧縮版が含まれます。我々の提案により、モデルは高圧縮率(最大93倍)でも意味的整合性を保ちながら、ファインチューニングを必要とせずに大きな入力を消費できるようになります。
拡散モデルは、テキストベースの画像編集フレームワークの幅広い可能性を切り開きました。しかし、これらの手法は通常、拡散の逆過程の多段階性に基づいて構築されており、蒸留された高速サンプリング手法に適応させることは驚くほど困難であることが判明しています。本論文では、テキストベース編集フレームワークの中でも特に人気のある「編集に適した」DDPMノイズ反転アプローチに焦点を当てます。我々は、この手法を高速サンプリング手法に適用した際の問題を分析し、その失敗を2つのカテゴリに分類しました:視覚的アーティファクトの出現と、編集強度の不足です。アーティファクトは、反転されたノイズと期待されるノイズスケジュールの間の不一致に起因することを突き止め、このオフセットを補正するシフトノイズスケジュールを提案します。編集強度を高めるため、新しいアーティファクトを導入することなく編集の大きさを効率的に増加させる疑似ガイダンスアプローチを提案します。全体として、我々の手法はわずか3段階の拡散ステップでテキストベースの画像編集を可能にしつつ、人気のあるテキストベース編集アプローチの背後にあるメカニズムに関する新たな知見を提供します。
MM-Vetは、統合的な能力を評価するためのオープンエンドな視覚言語質問を対象としており、大規模マルチモーダルモデルの評価において最も人気のあるベンチマークの一つとなっています。MM-Vetは、認識、知識、空間認識、言語生成、OCR、数学という6つのコアな視覚言語(VL)能力を評価します。しかし、その質問形式は単一の画像-テキストペアに限定されており、現実世界のシナリオで一般的な画像とテキストの交互に現れるシーケンスを欠いています。この制限を解決するため、我々はMM-Vet v2を導入し、「画像-テキストシーケンス理解」という新しいVL能力を追加しました。これにより、モデルがVLシーケンスを処理する能力を評価します。さらに、評価サンプルの高品質を維持しつつ、評価セットのサイズをさらに拡大しました。MM-Vet v2を使用して大規模マルチモーダルモデルをベンチマークした結果、Claude 3.5 Sonnetが71.8のスコアで最高のモデルとなり、71.0のスコアを記録したGPT-4oをわずかに上回りました。オープンウェイトモデルの中では、InternVL2-Llama3-76Bが68.4のスコアで首位を占めました。
近年、ビデオ生成および編集手法の品質が大幅に向上しています。外観の編集に焦点を当てた技術はいくつか存在しますが、動きに着目した手法はほとんどありません。現在のテキスト、軌跡、またはバウンディングボックスを使用したアプローチは単純な動きに限定されているため、我々は単一の動き参照ビデオを使用して動きを指定します。さらに、テキストからビデオへのモデルではなく、事前学習済みの画像からビデオへのモデルを使用することを提案します。このアプローチにより、対象オブジェクトやシーンの正確な外観と位置を保持し、外観と動きを分離することが可能になります。我々の手法である「モーションテキスト逆変換」は、画像からビデオへのモデルが主に(潜在的な)画像入力から外観を抽出し、クロスアテンションを介して注入されるテキスト/画像埋め込みが主に動きを制御するという観察に基づいています。したがって、我々はテキスト/画像埋め込みトークンを使用して動きを表現します。フレームごとに複数のテキスト/画像埋め込みトークンを含む膨張したモーションテキスト埋め込みを操作することで、高い時間的動きの粒度を実現します。動き参照ビデオで最適化されたこの埋め込みは、さまざまなターゲット画像に適用して、意味的に類似した動きを持つビデオを生成することができます。我々のアプローチは、動き参照ビデオとターゲット画像の間の空間的な整合を必要とせず、さまざまなドメインに一般化でき、全身や顔の再現、無生物の動きやカメラの制御など、さまざまなタスクに適用できます。我々は、意味的ビデオ動き転送タスクにおける我々の手法の有効性を実証し、この文脈で既存の手法を大幅に上回る結果を示しました。
音声駆動型3D顔面アニメーションは、入力音声をリアルな顔面の動きにマッピングすることを目指しています。これまでに大きな進展があったものの、一貫性のない3Dアノテーションが制約となり、従来のモデルは特定のアノテーションに基づいて訓練されるため、訓練規模が制限されていました。本研究では、異なるアノテーションを持つデータセットを効果的に活用するために、マルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案します。訓練の安定性を高め、マルチヘッド出力間の一貫性を確保するために、PCA、モデルウォームアップ、ピボットアイデンティティ埋め込みという3つの訓練戦略を採用しています。訓練規模と多様性を拡大するため、5つの公開データセットと3つの新たに作成したデータセットからなるA2F-Benchを構築しました。これらのデータセットは多言語の音声や歌を含む幅広い音声領域をカバーし、訓練データを一般的に使用される1時間未満のデータセットから18.5時間に拡張しています。単一の訓練済みUniTalkerモデルを用いることで、BIWIデータセットで9.2%、Vocasetで13.7%のリップ頂点誤差の大幅な削減を達成しました。さらに、事前訓練されたUniTalkerは、音声駆動型顔面アニメーションタスクの基盤モデルとしての可能性を示しています。事前訓練されたUniTalkerを既存のデータセットで微調整することで、各データセットの性能がさらに向上し、A2F-Benchでの平均誤差削減率は6.3%となりました。また、未見のデータセットにおいて、データ量を半分にした状態でUniTalkerを微調整しても、従来の最先端モデルを全データで訓練した場合を上回る結果を示しました。コードとデータセットはプロジェクトページhttps://github.com/X-niper/UniTalkerで公開されています。
視覚障害者が漫画に触れる機会を提供することは、その本質的に視覚的な性質から大きな課題となっています。本論文では、アクセシビリティの向上を目指し、完全に自動的に漫画の1章分の対話トランスクリプトを生成することを目的としています。特に、物語の一貫性を保つことに重点を置いています。これには、(i) 各ページのテキストを検出し、それを必須か非必須かに分類すること(つまり、何が語られているかを特定すること)、および (ii) 各対話をその発話者に帰属させ、同じキャラクターが章全体で一貫して命名されることを保証すること(つまり、誰が語っているかを特定すること)が含まれます。 この目的のために、以下を紹介します:(i) Magiv2、これは名前付きキャラクターを含む高品質な章全体の漫画トランスクリプトを生成でき、以前の研究よりも大幅に高い精度で発話者分離を行うモデルです;(ii) PopManga評価データセットの拡張版、これには、吹き出しの尾のボックス、テキストと対応する尾の関連付け、テキストの必須/非必須分類、および各キャラクターボックスの識別情報が含まれています;(iii) 新しいキャラクターバンクデータセット、これは76の漫画シリーズから11,000以上のキャラクターを含み、合計11,500のキャラクター画像例と、それらが登場する章のリストを特徴としています。コード、学習済みモデル、および両方のデータセットは、以下で見つけることができます:https://github.com/ragavsachdeva/magi
条件付き拡散モデルは、主に分類器不要ガイダンス(CFG)の導入により、視覚コンテンツ生成において顕著な成功を収め、様々な領域で高品質なサンプルを生成してきました。最近では、無条件モデルへのガイダンス拡張の試みがヒューリスティックな手法に依存しており、生成品質の低下や意図しない効果が生じていました。本研究では、自己注意機構のエネルギーに基づく視点を活用し、画像生成を向上させる新しいトレーニング不要かつ条件不要のアプローチであるSmoothed Energy Guidance(SEG)を提案します。自己注意のエネルギーを定義することで、注意のエネルギーランドスケープの曲率を低減する手法を導入し、その出力を無条件予測として使用します。実践的には、ガイダンススケールパラメータを固定したまま、ガウシアンカーネルパラメータを調整することでエネルギーランドスケープの曲率を制御します。さらに、トークン数の二次的な複雑さを伴わずに、全体の注意重みをぼかすことに等しいクエリぼかし手法を提示します。実験では、SEGが品質と副作用の低減の両方においてパレート改善を達成しました。コードはhttps://github.com/SusungHong/SEG-SDXLで公開されています。
リバスは、一連の画像や文字から隠されたフレーズを特定するために、制約付きの多段階推論を必要とするパズルです。本研究では、イタリア語向けの大規模な言語化リバスコレクションを導入し、それを用いて最先端の大規模言語モデルのリバス解決能力を評価します。LLaMA-3やGPT-4oのような汎用システムはこのタスクで低い性能を示しますが、アドホックなファインチューニングによりモデルの性能が向上するようです。しかし、トレーニングによる性能向上は主に記憶化によってもたらされていることがわかりました。我々の結果は、リバス解決が大規模言語モデルの言語能力と逐次的な指示追従スキルを評価するための挑戦的なテストベッドであることを示唆しています。
分布外(OOD)サンプルの検出は、機械学習システムの安全性を確保する上で極めて重要であり、OOD検出の分野を形作ってきました。一方で、異常検出(AD)、新規性検出(ND)、オープンセット認識(OSR)、外れ値検出(OD)など、OOD検出と密接に関連するいくつかの問題も存在します。これらの問題を統合するため、これら5つの問題を分類学的に整理した一般化されたOOD検出フレームワークが提案されました。しかし、CLIPのような視覚言語モデル(VLM)がパラダイムを大きく変え、これらの分野の境界を曖昧にし、再び研究者を混乱させています。本調査では、まずVLM時代におけるAD、ND、OSR、OOD検出、ODの進化を包括した一般化されたOOD検出v2を提示します。我々のフレームワークは、いくつかの分野の活動停止と統合を経て、OOD検出とADが主要な課題となっていることを明らかにします。さらに、定義、問題設定、ベンチマークの大幅な変化も強調し、OOD検出の方法論に関する包括的なレビューを特徴とし、他の関連タスクとの関係を明確にするための議論も行います。最後に、GPT-4Vのような大規模視覚言語モデル(LVLM)時代の進展を探ります。本調査は、未解決の課題と今後の方向性で締めくくります。
本論文では、音声文書から文単位でテキスト要約を生成する新しいアプローチであるSentence-wise Speech Summarization(Sen-SSum)を紹介する。Sen-SSumは、自動音声認識(ASR)のリアルタイム処理と音声要約の簡潔さを組み合わせたものである。このアプローチを探求するため、我々はSen-SSum用の2つのデータセット、Mega-SSumとCSJ-SSumを提示する。これらのデータセットを用いて、我々の研究では2種類のTransformerベースのモデルを評価する:1)ASRと強力なテキスト要約モデルを組み合わせたカスケードモデル、2)音声を直接テキスト要約に変換するエンドツーエンド(E2E)モデルである。E2Eモデルは計算効率の良いモデルを開発する上で魅力的であるが、カスケードモデルよりも性能が劣る。そこで、我々はカスケードモデルによって生成された疑似要約を用いてE2Eモデルの知識蒸留を提案する。実験結果は、この提案された知識蒸留が両データセットにおいてE2Eモデルの性能を効果的に向上させることを示している。
本研究では、マトリョーシカ埋め込み学習を活用したアラビア語のネスト型埋め込みモデルの新たなトレーニングフレームワークを提案します。多言語モデル、アラビア語特化モデル、英語ベースモデルを活用し、様々なアラビア語NLP下流タスクにおけるネスト型埋め込みモデルの有効性を明らかにします。革新的な貢献として、複数の文類似性データセットをアラビア語に翻訳し、これらのモデルを多角的に比較する包括的な評価フレームワークを構築しました。アラビア語自然言語推論のトリプレットデータセットを用いて複数のネスト型埋め込みモデルをトレーニングし、コサイン類似度、マンハッタン距離、ユークリッド距離、ドット積類似度におけるピアソン相関とスピアマン相関を含む複数の評価指標を用いてその性能を評価しました。結果は、マトリョーシカ埋め込みモデル、特にアラビア語特有の意味的ニュアンスを捉える点で優れた性能を示し、従来のモデルを最大20-25%上回ることを実証しました。これらの結果は、言語特化型トレーニングの有効性を裏付けるとともに、アラビア語NLPにおける意味的テキスト類似性タスクを強化するマトリョーシカモデルの可能性を強調しています。