翻訳付きの日次キュレーションされたAI研究論文
本研究では、高性能なマルチモーダル大規模言語モデル(MLLM)の構築について議論する。特に、様々なアーキテクチャコンポーネントとデータ選択の重要性を検証する。画像エンコーダ、視覚言語コネクタ、および様々な事前学習データ選択について、慎重かつ包括的なアブレーション研究を通じて、いくつかの重要な設計上の教訓を明らかにした。例えば、大規模なマルチモーダル事前学習において、画像キャプション、画像とテキストの交互配置データ、およびテキストのみのデータを慎重に組み合わせることが、他の公開されている事前学習結果と比較して、複数のベンチマークで最先端(SOTA)のFew-shot結果を達成するために重要であることを示す。さらに、画像エンコーダと画像解像度、および画像トークン数が大きな影響を持つ一方で、視覚言語コネクタの設計は比較的無視できる重要性しか持たないことを示す。提示されたレシピをスケールアップすることで、最大30BパラメータのマルチモーダルモデルファミリーであるMM1を構築した。これは、密なモデルと専門家混合(MoE)バリアントからなり、事前学習のメトリクスにおいてSOTAを達成し、確立されたマルチモーダルベンチマークでの教師ありファインチューニング後も競争力のある性能を発揮する。大規模な事前学習のおかげで、MM1は、強化されたインコンテキスト学習や複数画像推論などの魅力的な特性を享受し、Few-shotの連鎖的思考プロンプティングを可能にする。
人々が文章を書いたり話したりする際、時折考え込むことがある。推論に焦点を当てた研究では、推論を質問に答える手段やエージェント的なタスクを完了する方法として捉えることが多いが、推論はほぼ全ての文章に暗黙的に含まれている。例えば、証明の行間に書かれていないステップや、会話の基盤となる心の理論などがこれに該当する。Self-Taught Reasoner(STaR、Zelikman et al. 2022)では、質問応答における少数事例から根拠を推論し、正しい答えに導くものを学習することで、有用な思考が学ばれる。これは非常に制約の強い設定であり、理想的には、言語モデルが任意の文章から暗黙的な根拠を推論できるようになることが望ましい。本論文では、STaRを一般化したQuiet-STaRを提案する。Quiet-STaRでは、言語モデルが各トークンにおいて将来の文章を説明するための根拠を生成し、予測を改善する。我々は、1) 継続生成の計算コスト、2) 言語モデルが当初は内部思考を生成・利用する方法を知らないこと、3) 個々の次のトークンを超えて予測する必要性といった主要な課題に取り組む。これらを解決するため、トークンワイズ並列サンプリングアルゴリズム、思考の開始と終了を示す学習可能なトークン、および拡張されたteacher-forcing技術を提案する。励みになることに、生成された根拠は、特に予測が困難なトークンに対してモデルの性能を向上させ、難しい質問に直接答える能力を高める。特に、インターネットテキストのコーパスに対してQuiet-STaRを用いて言語モデルの事前学習を継続した結果、GSM8K(5.9%→10.9%)およびCommonsenseQA(36.3%→47.2%)においてゼロショット改善が見られ、自然文における困難なトークンのパープレキシティが改善された。重要な点として、これらの改善はタスク固有のファインチューニングを必要としない。Quiet-STaRは、より一般的でスケーラブルな方法で推論を学べる言語モデルへの一歩を記すものである。
ウェブ開発において視覚言語モデル(VLM)を活用することは、効率性を向上させ、ノーコードソリューションを実現するための有望な戦略を提供する。具体的には、UIのスクリーンショットやスケッチを提供することで、VLMがそれを再現するコード(例えばHTMLのような言語)を生成することが可能である。様々なタスクにおけるVLMの進展にもかかわらず、スクリーンショットを対応するHTMLに変換するという特定の課題は、ほとんど検討されていない。これは主に、適切で高品質なデータセットの欠如によるものと考えられる。本研究では、200万組のHTMLコードとそれに対応するスクリーンショットから構成される合成データセット「WebSight」を紹介する。このデータセットを用いて基礎的なVLMをファインチューニングし、ウェブページのスクリーンショットを機能的なHTMLコードに変換する能力を示す。この分野の研究を加速するため、WebSightをオープンソースとして公開する。
本論文は、シンプルでありながら効果的なフレームワークであるGiTを提案する。これは、標準的なViTのみを用いて、様々な視覚タスクに同時に適用可能である。大規模言語モデル(LLMs)で広く使用されている多層Transformerアーキテクチャ(例:GPT)の普遍性に着想を得て、我々はその適用範囲を拡大し、強力な視覚基盤モデル(VFM)として機能させることを目指す。しかし、言語モデリングとは異なり、視覚タスクでは通常、検出のためのバウンディングボックスヘッドやセグメンテーションのためのピクセルデコーダなど、特定のモジュールが必要とされるため、多層Transformerの視覚領域への応用が大きく妨げられてきた。これを解決するため、我々は普遍的な言語インターフェースを設計し、自己回帰デコーディングを成功させ、画像レベルの理解(例:キャプショニング)、疎な知覚(例:検出)、密な予測(例:セグメンテーション)といった様々な視覚タスクを巧みに統合する。上記の設計に基づき、モデル全体はViTのみで構成され、特定の追加モジュールなしで、驚くべきアーキテクチャの簡素化を実現している。GiTはマルチタスク視覚モデルであり、5つの代表的なベンチマークをタスク固有のファインチューニングなしで共同訓練する。興味深いことに、我々のGiTはジェネラリスト性能において新たなベンチマークを築き、タスク間の相互強化を促進し、孤立した訓練と比較して大幅な改善をもたらす。これはLLMsで観察された影響と類似している。さらに27のデータセットで訓練を強化することで、GiTは様々なタスクにおいて強力なゼロショット結果を達成する。そのシンプルな設計により、このパラダイムは視覚と言語のアーキテクチャギャップを縮める可能性を秘めている。コードとモデルはhttps://github.com/Haiyang-W/GiTで公開予定である。
テキストから画像を生成する拡散モデルの驚異的な成功は、次世代のエンドユーザー向け画像生成・編集アプリケーションの有望な候補として注目を集めています。これまでの研究では、推論時間の短縮や、領域ベースのテキストプロンプトといった新たな細粒度制御を可能にすることで、拡散モデルの使いやすさを向上させることに焦点が当てられてきました。しかし、私たちの実証的な調査によると、これら二つの研究分野を統合することは容易ではなく、拡散モデルの潜在能力を制限しています。この非互換性を解決するため、私たちは初のリアルタイム領域ベーステキスト画像生成フレームワーク「StreamMultiDiffusion」を提案します。高速推論技術を安定化させ、新たに提案されたマルチプロンプトストリームバッチアーキテクチャにモデルを再構築することで、既存のソリューションと比較して10倍高速なパノラマ生成を実現し、単一のRTX 2080 Ti GPU上で1.57 FPSの領域ベーステキスト画像生成速度を達成しました。私たちのソリューションは、複数の手描き領域からリアルタイムで高品質な画像を生成する「セマンティックパレット」という新しいインタラクティブ画像生成パラダイムを切り開きます。これらの領域は、事前に定義された意味(例:ワシ、少女)をエンコードしています。私たちのコードとデモアプリケーションはhttps://github.com/ironjr/StreamMultiDiffusionで公開されています。
私たちはEmu Video Edit(EVE)を紹介します。これは、教師ありのビデオ編集データに依存せずに、ビデオ編集において新たな最先端を確立するモデルです。EVEを開発するために、私たちは画像編集アダプターとビデオ生成アダプターを別々に訓練し、両方を同じテキストから画像へのモデルに接続します。次に、ビデオ編集に向けてこれらのアダプターを調整するために、新しい教師なし蒸留手順であるFactorized Diffusion Distillationを導入します。この手順は、教師データなしで、1つ以上の教師から同時に知識を蒸留します。私たちはこの手順を利用して、EVEにビデオを編集する方法を教えます。具体的には、(i)画像編集アダプターから各フレームを正確に編集する知識を共同で蒸留し、(ii)ビデオ生成アダプターを使用して編集されたフレーム間の時間的一貫性を確保します。最後に、私たちのアプローチが他の能力を解放する可能性を示すために、追加のアダプターの組み合わせを調整します。
効果的なアテンションモジュールは、Transformerベースの大規模言語モデル(LLMs)の成功において重要な役割を果たしてきたが、これらのアテンションモジュールの二次的な時間およびメモリ複雑性は、長いシーケンスを処理する際に課題を引き起こす。長いシーケンス問題に対する一つの潜在的な解決策は、分散クラスタを利用して、複数のデバイス(例えば、GPU)間でアテンションモジュールの計算を並列化することである。しかし、分散アプローチを採用すると、ローカルなアテンション結果を保存するための追加のメモリオーバーヘッドが発生し、ローカルな結果をグローバルな結果に集約するための追加の通信コストがかかる。本論文では、グローバルクラスタレベルとローカルデバイスレベルの両方でメモリアクセスと通信操作を最適化する「BurstAttention」という分散アテンションフレームワークを提案する。実験では、BurstAttentionを他の競合する分散アテンションソリューションと比較し、長いシーケンス処理における性能を評価する。異なる長さ設定での実験結果は、BurstAttentionがこれらの競合ベースラインと比較して長いシーケンス処理において顕著な利点を提供し、通信オーバーヘッドを40%削減し、8台のA100で32Kシーケンス長のトレーニング中に2倍の高速化を達成することを示している。
視覚的テキストレンダリングは、現代のテキストから画像生成モデルにとって根本的な課題を提起しており、その核心的な問題はテキストエンコーダの欠陥にあります。正確なテキストレンダリングを実現するために、テキストエンコーダにとって重要な2つの要件を特定しました:文字認識とグリフとの整合性です。私たちの解決策は、文字認識を備えたByT5エンコーダを、厳選されたグリフ-テキストペアデータセットを用いて微調整し、Glyph-ByT5という一連のカスタマイズされたテキストエンコーダを構築することです。Glyph-ByT5をSDXLと統合する効果的な方法を提示し、デザイン画像生成のためのGlyph-SDXLモデルを作成しました。これにより、テキストレンダリングの精度が大幅に向上し、私たちのデザイン画像ベンチマークで20%未満からほぼ90%に改善されました。注目すべきは、Glyph-SDXLが新たにテキスト段落のレンダリング能力を獲得し、数十から数百文字の高いスペル精度を自動化された複数行レイアウトで達成したことです。最後に、視覚的テキストを含む少数の高品質なフォトリアルな画像でGlyph-SDXLを微調整することで、オープンドメインの実画像におけるシーンテキストレンダリング能力の大幅な向上を示しました。これらの説得力のある結果は、多様で挑戦的なタスクのためのカスタマイズされたテキストエンコーダの設計におけるさらなる探求を促すことを目指しています。
大規模視覚言語モデルは細粒度の物体認識を実現してきたが、画像解像度の制限は、複雑で密集したシナリオにおいてタスク特化型の専門家の性能を超える上で依然として大きな障壁となっている。この制限は、GUIエージェントやカウントなどの領域における微妙な視覚と言語の参照能力をモデルが発揮する可能性をさらに制約している。この問題に対処するため、我々は統一された高解像度汎用モデルであるGriffon v2を導入し、視覚的およびテキスト的なプロンプトを用いた柔軟な物体参照を可能にした。画像解像度を効率的にスケールアップするために、大規模言語モデルの入力トークン制約を克服するシンプルで軽量なダウンサンプリングプロジェクタを設計した。この設計は、完全なコンテキストと細部を本質的に保持し、特に小さな物体に対するマルチモーダル認識能力を大幅に向上させる。これを基盤として、プラグアンドプレイの視覚トークナイザーを通じて、モデルに視覚言語共参照能力をさらに装備した。これにより、ユーザーフレンドリーなインタラクションが可能となり、柔軟なターゲット画像、自由形式のテキスト、さらには座標さえも使用できる。実験結果は、Griffon v2が視覚的およびテキスト的な参照を用いて関心のある任意の物体をローカライズし、REC、フレーズグラウンディング、REGタスクにおいて最先端の性能を達成し、物体検出と物体カウントにおいて専門家モデルを上回ることを示している。データ、コード、モデルはhttps://github.com/jefferyZhan/Griffonで公開される予定である。
ビデオ理解はコンピュータビジョン研究における基本的な方向性の一つであり、RNN、3D CNN、Transformerなど様々なアーキテクチャの探求に多大な努力が注がれてきました。新たに提案された状態空間モデルのアーキテクチャ、例えばMambaは、長いシーケンスのモデリングでの成功をビデオモデリングに拡張する可能性を示しています。本論文では、Mambaがビデオ理解の分野においてTransformerの代替として有効かどうかを評価するため、Mambaがビデオモデリングにおいて果たすことができる異なる役割を探りつつ、Mambaが優位性を発揮する可能性のある多様なタスクを調査する包括的な研究を行いました。ビデオモデリングにおけるMambaの役割を4つに分類し、14のモデル/モジュールからなるVideo Mamba Suiteを導出し、12のビデオ理解タスクで評価しました。我々の広範な実験は、ビデオのみのタスクとビデオ言語タスクの両方においてMambaの強力な可能性を明らかにし、効率と性能のトレードオフにおいて有望な結果を示しています。この研究が、今後のビデオ理解研究にとって貴重なデータポイントと洞察を提供できることを願っています。コードは公開されています: https://github.com/OpenGVLab/video-mamba-suite。
近年の視覚-言語-行動(VLA)モデルは2D入力を基盤としており、3D物理世界との統合が欠如している。さらに、これらのモデルは知覚から行動への直接的なマッピングを学習することで行動予測を行うため、世界のダイナミクスや行動とダイナミクスとの関係を十分に考慮していない。一方、人間は未来のシナリオを描く世界モデルを備えており、それに基づいて行動を計画する。この目的のために、我々は3D知覚、推論、行動を生成的世界モデルを通じてシームレスに結びつける新しいエンボディド基盤モデルのファミリーを提案し、3D-VLAを導入する。具体的には、3D-VLAは3Dベースの大規模言語モデル(LLM)を基盤として構築され、エンボディド環境との相互作用を可能にする一連のインタラクショントークンが導入される。さらに、モデルに生成能力を付与するため、一連のエンボディド拡散モデルを訓練し、それらをLLMに統合して目標画像と点群を予測する。3D-VLAを訓練するために、既存のロボティクスデータセットから大量の3D関連情報を抽出し、大規模な3Dエンボディド指示データセットを構築した。保持データセットを用いた実験により、3D-VLAがエンボディド環境における推論、マルチモーダル生成、計画能力を大幅に向上させることが示され、実世界での応用可能性が示された。
テキストから視覚的要素への進化は、テキストから画像や動画を生成したり、画像内の目的の要素を特定したりするなど、人々の日常生活を容易にする。以前のマルチモーダル能力を備えたコンピュータビジョンモデルは、明確に定義されたオブジェクトに基づく画像検出や分類に焦点を当てていた。大規模言語モデル(LLMs)は、自然言語から視覚的オブジェクトへの変換を導入し、テキストコンテキストの視覚的レイアウトを提示する。OpenAI GPT-4はLLMsの頂点として登場し、一方でコンピュータビジョン(CV)領域では、2D画像を3D表現に変換するための多数の最先端(SOTA)モデルとアルゴリズムが存在する。しかし、アルゴリズムと問題の不一致は望ましくない結果を招く可能性がある。この課題に対応するため、我々はSOTAビジョンモデルを統合し、ビジョン指向AIの開発を促進するための統一されたVisionGPT-3Dフレームワークを提案する。VisionGPT-3Dは、マルチモーダル基盤モデルの強みを基盤とした多用途のマルチモーダルフレームワークを提供する。これは、さまざまなSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択を自動化し、2D深度マップ分析に対応する適切な3Dメッシュ作成アルゴリズムを特定し、テキストプロンプトなどの多様なマルチモーダル入力に基づいて最適な結果を生成する。 キーワード: VisionGPT-3D, 3Dビジョン理解, マルチモーダルエージェント
最近、人工知能の研究者たちは、言語と視覚がどのように結びつくかに強い関心を寄せており、テキストと視覚情報をシームレスに統合することを目指すマルチモーダルモデルの開発が進んでいます。大規模言語モデル(LLMs)を拡張したマルチモーダルモデルは、画像キャプショニングや視覚的質問応答(VQA)、視覚的グラウンディングなど、多様なタスクにおいて顕著な能力を示しています。これらのモデルは大きな進歩を見せていますが、現実世界のシナリオでよく見られるように、画像を正確に解釈し質問に答えることには依然として課題が残っています。本論文では、既存モデルのマルチモーダル能力を強化するための新しいアプローチを紹介します。現在の視覚言語モデル(VLMs)やマルチモーダル大規模言語モデル(MLLMs)で観察された限界に対応するため、我々が提案するモデル「Veagle」は、過去の研究の成功と洞察に基づいた独自のメカニズムを組み込んでいます。Veagleは、エンコードされた視覚情報を直接言語モデルに投影する動的メカニズムを活用します。この動的アプローチにより、視覚的文脈に存在する複雑な詳細をよりニュアンス豊かに理解することが可能になります。Veagleの有効性を検証するため、ベンチマークデータセットを用いて視覚的質問応答や画像理解などのタスクに重点を置いた包括的な実験を行いました。その結果、Veagleは既存のモデルを大きく上回り、性能が5-6%向上することが示されました。この結果は、モデルの汎用性と従来のベンチマークを超えた適用可能性を強調しています。
近年、状態空間モデル、特にMambaの進展により、言語理解などのタスクにおける長いシーケンスのモデリングにおいて大きな進歩が示されてきた。しかし、視覚タスクへの応用では、従来の畳み込みニューラルネットワーク(CNN)やVision Transformers(ViTs)の性能を著しく上回ることはなかった。本論文では、Vision Mamba(ViM)の性能向上の鍵は、シーケンスモデリングにおけるスキャン方向の最適化にあると主張する。従来のViMアプローチでは、空間トークンを平坦化することで、局所的な2次元依存関係の保持を見落としており、隣接トークン間の距離を長くしてしまう。我々は、画像を異なるウィンドウに分割することで、局所的な依存関係を効果的に捉えつつ、グローバルな視点を維持する新しい局所スキャン戦略を提案する。さらに、異なるネットワーク層間でスキャンパターンの好みが異なることを認識し、各層に対して最適なスキャン選択を独立して探索する動的な手法を提案し、性能を大幅に向上させる。プレーンおよび階層型モデルにおける広範な実験を通じて、我々のアプローチが画像表現を効果的に捉える優位性を実証する。例えば、同じ1.5G FLOPsで、我々のモデルはImageNetにおいてVim-Tiを3.1%上回る。コードは以下で公開されている:https://github.com/hunto/LocalMamba。