翻訳付きの日次キュレーションされたAI研究論文
画像とテキストを入力とし、テキストを出力するビジョン言語モデル(VLM)分野は急速に進化しており、データ、アーキテクチャ、トレーニング方法など開発パイプラインのいくつかの重要な側面についてはまだ合意が得られていません。この論文は、VLMを構築するためのチュートリアルと見なすことができます。現在の最先端アプローチの包括的な概要を提供し、各アプローチの強みと弱みを強調し、分野の主要な課題に取り組み、未開拓の領域に向けた有望な研究方向を提案します。次に、効率的にトレーニングされ、オープンデータセットのみを使用し、簡潔なパイプラインを用いて、先行モデルIdefics2-8Bを大幅に上回る強力なVLMであるIdefics3-8Bを構築する実践的な手順を説明します。これらの手順には、ドキュメント理解能力を向上させるためのデータセットであるDocmatixの作成が含まれており、これは以前の利用可能なデータセットよりも240倍大きいものです。我々は、そのトレーニング用に作成されたデータセットとともにモデルを公開します。
Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than 300K images from public datasets and the Internet, filtering 13,366 high-quality images for annotation. This involves the efforts of professional 25 annotators and 7 experts in MLLMs, contributing to 29,429 question-answer pairs that cover 43 subtasks across 5 real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving 28 prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach 60% accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .
コンピュータビジョンとグラフィックスにおける3D没入型シーン生成は、困難でありながら重要な課題です。望ましい仮想3Dシーンは、1) 全方位ビューの一貫性を示し、2) 複雑なシーン階層での自由な探索を可能にする必要があります。既存の手法は、シーンの拡張を通じて連続的にシーンを展開するか、大きな視野角のシーン環境を表現するためにパノラマ表現を使用します。しかし、生成されたシーンは拡張中に意味のずれが生じ、シーン階層間の遮蔽を処理できません。これらの課題に対処するために、我々はLayerPano3Dという、単一のテキストプロンプトからのフルビュー、探索可能なパノラマ3Dシーン生成のための革新的なフレームワークを紹介します。我々の主要な洞察は、参照2Dパノラマを異なる深度レベルで複数のレイヤーに分解することで、各レイヤーが拡散事前確率を介して参照ビューから見えない空間を示す点にあります。LayerPano3Dには複数の専用設計が含まれています: 1) 高品質で一貫性のあるパノラマ生成のための革新的なテキストガイドアンカービュー合成パイプラインを導入します。2) 複雑なシーン階層を管理するための基礎表現としてLayered 3D Panoramaを先駆的に導入し、それを3Dガウス分布に持ち上げて、制約のない視野パスで360度全方位の詳細なシーンをスプラットします。幅広い実験により、当フレームワークが最先端の3Dパノラマシーンを生成し、フルビューの一貫性と没入型の探索体験の両方を実証しています。LayerPano3Dは、多くの応用を持つ3Dパノラマシーン作成の進歩を約束すると考えています。
人気のあるトランスフォーマーアーキテクチャの自己注意メカニズムにおける二次計算複雑性は、効率性とメモリ要件の観点から、特にトレーニングと推論において重要な課題を提起しています。これらの課題に対処するため、本論文では、マルチレイヤートランスフォーマーモデルにおける勾配計算のための革新的な高速計算方法を紹介します。当手法により、入力シーケンスの長さを表す n に対して、ほぼ線形時間 n^{1+o(1)} でマルチレイヤートランスフォーマーモデル全体の勾配計算が可能となります。このブレークスルーにより、従来の二次時間複雑性に関連する計算的ボトルネックが大幅に軽減されます。当理論は任意の損失関数に対して成立し、全モデル全体で境界の近似誤差を維持します。さらに、当マルチレイヤートランスフォーマーモデルがリジュアル接続、カジュアルマスク、マルチヘッドアテンションなど多くの実用的なサブモジュールを含む場合でも、当分析は成立します。大規模言語モデルにおける勾配計算の効率を向上させることで、当研究が、理論的結果に基づく長いコンテキストの言語モデルのより効果的なトレーニングと展開を促進することを期待しています。
最近、メモリ効率の高いLLMトレーニングアルゴリズムが広く注目されています。これらの手法は、勾配の低ランク構造を活用して、最適化器の状態を特異値分解(SVD)によって得られる射影行列を使用して部分空間に射影します。ただし、これらのアルゴリズムの収束性は、射影行列の更新ルールに高度に依存しています。本研究では、射影行列の任意の更新ルールに対する初めての収束保証を提供します。この保証は、Hamiltonian Descentで分析できる最も一般的な最適化器(LION、Adamなど)に適用できます。理論的理解に基づいて、我々はSVDを使用せずに新しいサブスペース降下最適化器ファミリーであるOnline Subspace Descentを提案します。Online Subspace Descentは、射影行列を固有ベクトルで更新するのではなく、オンラインPCAで更新します。Online Subspace Descentは柔軟であり、トレーニングに最小限のオーバーヘッドしか導入しません。我々は、C4データセット上の60Mから7BパラメータのLLaMAモデルの事前トレーニングタスクにおいて、Online Subspace Descentが、異なる設定で最先端の低ランクトレーニング手法よりも低いperplexityと優れた下流タスクのパフォーマンスを達成し、完全ランクのベースラインとの差を縮めることを示します。
音声による3Dモーション合成は、人間の音声に基づいたリアルなアニメーションを作成することを目指し、仮想現実、ゲーム、映画制作などでの潜在的な利用があります。既存の手法は、モーション生成に音声オーディオのみを使用しており、不正確で柔軟性に欠ける合成結果をもたらしています。この問題を緩和するために、我々は新しいテキストによる3D人間モーション合成手法、T3Mを導入します。従来の手法とは異なり、T3Mはテキスト入力を介してモーション合成を正確に制御することができ、多様性とユーザーのカスタマイズの度合いを向上させます。実験結果は、T3Mが定量的指標と定性的評価の両方で最先端の手法を大幅に上回ることを示しています。当社のコードはhttps://github.com/Gloria2tt/T3M.git で公開されています。
カスタマイズされたビデオ生成は、テキストプロンプトと被写体の参照画像によってガイドされた高品質のビデオを生成することを目指しています。ただし、静止画像のみでトレーニングされているため、被写体学習の微調整プロセスはビデオ拡散モデル(VDMs)の概念の組み合わせと動きを生成する能力を妨げます。これらの能力を回復するために、一部の手法は、モデルを微調整またはガイドするためにプロンプトに類似した追加のビデオを使用します。これにより、ガイドビデオを頻繁に変更し、異なる動きを生成する際にはモデルを再調整する必要があり、ユーザーにとって非常に不便です。本論文では、追加のビデオや微調整なしでモデルの動き生成と概念の組み合わせ能力を保持する新しいフレームワークであるCustomCrafterを提案します。概念の組み合わせ能力を保持するために、VDMs内の数少ないパラメータを更新するプラグアンドプレイモジュールを設計し、新しい被写体の外観の詳細を捉える能力と概念の組み合わせ能力を強化します。動き生成に関して、VDMsは、ノイズ除去の初期段階でビデオの動きを回復しようとする傾向があり、後の段階では被写体の詳細の回復に焦点を当てます。したがって、動的重み付けビデオサンプリング戦略を提案します。被写体学習モジュールのプラグアンドプレイ性を利用して、このモジュールがノイズ除去の初期段階で動き生成に与える影響を軽減し、VDMsの動き生成能力を保持します。ノイズ除去の後半では、このモジュールを復元して指定された被写体の外観の詳細を修復し、被写体の外観の忠実性を確保します。実験結果は、当社の手法が従来の手法と比較して著しい改善を示していることを示しています。
高解像度ビジョン言語モデル(VLM)は、詳細な画像情報を保持することで精度を向上させるために、多様なタスクで広く使用されています。しかしながら、これらのモデルは、入力画像の複数のパーティションをエンコードすることにより、過剰なビジュアルトークンを生成することがよくあります。これらの過剰なビジュアルトークンを処理することは、特に資源制約の厳しい環境でのコンピューテーショナルな挑戦となります。リソース制約を満たしながら高解像度画像をサポートするために、我々は、大規模言語モデル(LLM)段階の前で動作するトークンドロップスキームであるHigh-Resolution Early Dropping(HiRED)を提案します。HiREDは既存の高解像度VLMにプラグアンドプレイで統合でき、追加のトレーニングは必要ありませんが、優れた精度を維持します。我々は、ビジョンエンコーダのアテンションを初期層で戦略的に使用して、各画像パーティションのビジュアルコンテンツを評価し、それに応じてトークン予算を割り当てます。次に、最終層のアテンションを使用して、割り当てられた予算内で各パーティションから最も重要なビジュアルトークンを選択し、残りを削除します。経験的には、NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用した場合、HiREDはトークン生成スループットを4.7倍に向上させ、最初のトークン生成レイテンシを15秒短縮し、単一の推論においてGPUメモリを2.3 GB節約します。
フェデレーテッドラーニング(FL)は、分散デバイス間での協調機械学習における有望なアプローチを提供します。しかし、信頼性のある通信アーキテクチャの構築の複雑さと、機械学習とネットワークプログラミングの両方の専門知識が必要とされることによって、その採用が妨げられています。本論文では、FLタスクのオーケストレーションを簡素化し、意図に基づく自動化を統合する包括的な解決策を提案しています。私たちは、ユーザーフレンドリーなWebアプリケーションを開発し、フェデレーテッド平均(FedAvg)アルゴリズムをサポートし、ユーザーが直感的なインターフェースを通じてパラメータを設定できるようにしています。バックエンドソリューションは、パラメータサーバーとエッジノード間の通信を効率的に管理します。また、モデルの圧縮とスケジューリングアルゴリズムを実装して、FLのパフォーマンスを最適化します。さらに、特定のデータセットでトレーニングされた調整済み言語モデル(LLM)を使用して、FLにおける意図に基づく自動化を探究し、ユーザーが高レベルのプロンプトを使用してFLタスクを実行できるようにします。LLMベースの自動化ソリューションは、標準のWebベースのソリューションと比較して、転送されるバイト数を最大64%、CPU時間を最大46%削減しながら、同等のテスト精度を達成することが観察されます。また、ニューラルアーキテクチャサーチ(NAS)とハイパーパラメータ最適化(HPO)をLLMを使用して活用し、パフォーマンスを向上させます。このアプローチを使用することで、実施されたFLタスクのテスト精度を10〜20%向上させることが観察されます。
3D Gaussian Splatting(3DGS)は、多数の小さなガウス関数を使用することで高速かつ高品質なレンダリングを実現しますが、これにより膨大なメモリ消費が発生します。この多数のガウス関数への依存は、メモリ制約により低コストデバイスでの3DGSベースのモデルの適用を制限します。ただし、メモリ容量の少ないデバイスに対応するために単にガウス関数の数を減らすと、高エンドハードウェアで達成できる品質に比べて質が劣ります。このスケーラビリティの欠如に対処するために、我々は3DGSに柔軟な詳細度レベル(FLoD)を統合することを提案します。これにより、ハードウェアの能力に応じてシーンを異なる詳細度レベルでレンダリングできます。既存のLoDを備えた3DGSは詳細な再構成に焦点を当てていますが、当社の手法は、メモリ要件を削減するために少数のガウス関数を使用した再構成と、より詳細な再構成のために多数のガウス関数を使用します。実験により、レンダリング品質とメモリ使用量のトレードオフを伴うさまざまなレンダリングオプションを示し、異なるメモリ制約下でのリアルタイムレンダリングを可能にします。さらに、当社の手法が異なる3DGSフレームワークに汎用性があり、将来の最先端技術への統合の可能性を示しています。プロジェクトページ:https://3dgs-flod.github.io/flod.github.io/
大規模言語モデル(LLM)の進歩により、登場した主要なユースケースの1つは、プレーンな英語でデータベースにクエリを投げることであり、ユーザーの質問を実行可能なデータベースクエリに変換することが大幅に改善されました。ただし、実世界のデータセットには多くの属性や複雑な値が含まれており、LLMが自然言語クエリから関連する列や値を正確に特定するタスクが複雑化しています。従来の方法ではデータセットの規模や複雑さをLLMに完全に伝えることができません。これらの課題に対処するため、入力テーブルでのフルテキスト検索(FTS)を活用する新しいフレームワークを提案します。このアプローチは特定の値や列を正確に検出するだけでなく、言語モデルの検索空間を狭めることでクエリの精度を向上させます。さらに、テーブル内のデータに基づいてクエリを提案するカスタムオートコンプリート機能をサポートしています。この統合により、ユーザーと複雑なデータセットとのインタラクションが大幅に改善され、現在のテーブルクエリ機能が直面している制約に対する洗練されたソリューションが提供されます。この研究には、MacとWindowsプラットフォームの両方に対応したアプリケーションも付属しており、読者は自分自身のデータで試すことができます。
画像生成の条件付けは、シームレスな編集と写実的な画像の作成を容易にします。ただし、ノイズの多いまたは分布外(OoD)の画像に条件付けを行うことは、入力への忠実さと出力のリアリズムのバランスをとるという点で、大きな課題を抱えています。本研究では、自信を持ったOrdinary Differential Editing(CODE)という画像合成の新しいアプローチを紹介します。CODEは、OoDガイダンス画像を効果的に扱います。CODEは、拡散モデルを生成事前分布として利用し、確率フローのOrdinary Differential Equation(ODE)軌道に沿ってスコアベースの更新を行うことで画像を向上させます。この手法は、タスク固有のトレーニングや手作りのモジュール、および条件付け画像に影響を与える破壊に関する仮定を必要としません。当手法は、どの拡散モデルとも互換性があります。条件付き画像生成とブラインド画像修復の交差点に位置するCODEは、完全にブラインドな方法で動作し、事前にトレーニングされた生成モデルのみに依存します。当手法は、ブラインド修復に対する代替手法を導入します:基礎となる破壊に関する仮定に基づいた特定の真の画像を目指すのではなく、CODEは入力画像の尤度を増加させつつ忠実さを維持することを目指します。これにより、入力画像周辺の最も確からしい分布内画像が得られます。当手法の貢献は2つあります。第一に、CODEはODEに基づく新しい編集手法を導入し、そのSDEに基づく対応物と比較して、コントロール、リアリズム、および忠実さが向上します。第二に、CODEの効果を向上させる信頼区間ベースのクリッピング手法を導入します。この手法により、特定のピクセルや情報を無視することができ、ブラインドな方法で修復プロセスを向上させます。実験結果は、CODEが既存の手法よりも効果的であることを示しており、特に深刻な劣化やOoD入力が関わるシナリオにおいてその有効性が確認されています。