翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は現代の自然言語処理において中心的な役割を果たし、様々なタスクで卓越した性能を発揮しています。しかし、その高い計算量とメモリ要件は、特にDRAM容量が限られたデバイスにおいて課題となっています。本論文では、利用可能なDRAM容量を超えるLLMを効率的に実行するという課題に取り組み、モデルパラメータをフラッシュメモリに保存しつつ、必要に応じてDRAMに転送する手法を提案します。我々の手法は、フラッシュメモリの動作特性と調和する推論コストモデルを構築し、以下の2つの重要な領域を最適化することを指針としています:フラッシュメモリからのデータ転送量を削減すること、およびより大きく連続したデータチャンクを読み取ることです。このフラッシュメモリを考慮したフレームワーク内で、2つの主要な技術を導入します。まず、「ウィンドウ化」は、以前に活性化されたニューロンを再利用することでデータ転送を戦略的に削減します。次に、「行-列バンドリング」は、フラッシュメモリのシーケンシャルデータアクセスの強みを活かし、フラッシュメモリから読み取るデータチャンクのサイズを増大させます。これらの手法を組み合わせることで、利用可能なDRAMの2倍のサイズのモデルを実行可能にし、CPUおよびGPUにおいて、単純なロード手法と比較してそれぞれ4-5倍および20-25倍の推論速度向上を実現します。疎性の認識、コンテキスト適応型ローディング、およびハードウェア指向設計を統合することで、メモリが限られたデバイス上でのLLMの効果的な推論の道を切り開きます。
スケーラブル・ベクター・グラフィックス(SVG)は、解像度の無限のスケーラビリティ、多用途な使用性、および編集能力により、現代の画像レンダリングアプリケーションにおいて不可欠な存在となっています。SVGは特にウェブ開発やグラフィックデザインの分野で人気があります。既存の深層学習を用いたSVGモデリング手法は、複雑なSVGの生成に苦戦し、広範な処理と簡略化を必要とする単純なSVGに限定されることが多いです。本論文では、Code Generation Large Language Models(CodeLLMs)と視覚モデルを効果的に統合したマルチモーダルSVG生成モデルであるStarVectorを紹介します。我々のアプローチでは、CLIP画像エンコーダを使用してピクセルベースの画像から視覚表現を抽出し、アダプタモジュールを介して視覚トークンに変換します。これらの視覚トークンはSVGトークン埋め込みに前置され、StarCoderモデルによって次のトークン予測を使用してシーケンスがモデル化され、視覚トークンとコードトークンを効果的に整合させます。これにより、StarVectorはピクセル画像を正確に表現する無制限のSVGを生成することが可能となります。StarVectorの性能を評価するために、複数のデータセットと関連するメトリクスにわたってSVG手法を評価する包括的なベンチマークであるSVG-Benchを提示します。このベンチマーク内で、実世界のSVG例を大規模に集めたデータセットであるSVG-Stackを含む新しいデータセットを導入し、StarVectorをSVGの大規模基盤モデルとして事前学習に使用します。我々の結果は、現在の手法に比べて視覚品質と複雑性の処理において大幅な向上を示し、SVG生成技術における顕著な進歩を示しています。コードとモデルは以下で公開されています:https://github.com/joanrod/star-vector
2Dランドマークから3D構造とカメラを推定することは、コンピュータビジョン分野全体の基盤をなす重要な課題である。従来の手法は、Perspective-n-Point(PnP)問題におけるような特定の剛体物体に限定されていたが、深層学習の進展により、ノイズ、オクルージョン、遠近法の歪みに対して頑健な、幅広い物体クラス(例:C3PDOやPAUL)の再構築が可能となった。しかし、これらの手法はすべて、3D学習データ間の対応関係を確立するという根本的な必要性に制約されており、「対応関係のある」3Dデータが豊富に存在するアプリケーションにその有用性が大きく限定されていた。我々のアプローチは、トランスフォーマーの持つ本質的な順序等価性を活用し、3Dデータインスタンスごとに異なる点の数を管理し、オクルージョンに耐え、未見のカテゴリーにも一般化する。我々は、2D-3Dリフティングタスクのベンチマークにおいて最先端の性能を実証する。我々のアプローチは、これほど広範な構造クラスにわたって学習可能であるため、これを単に3Dリフティング基盤モデル(3D-LFM)と呼ぶ。これはその種の最初のモデルである。
大規模言語モデル(LLMs)が視覚入力を処理する能力により、汎用ビジョンシステムが登場し、インストラクションチューニングを通じて様々な視覚-言語(VL)タスクを統合しています。しかし、視覚領域における入力-出力形式の多様性のため、既存の汎用モデルはセグメンテーションや複数画像入力と粗粒度タスクを単一のフレームワークに統合することに成功していません。本研究では、VistaLLMを紹介します。これは、単一および複数の入力画像に対して粗粒度と細粒度のVLタスクを扱う強力な視覚システムで、統一されたフレームワークを提供します。VistaLLMは、タスク記述を用いてグローバル埋め込みをフィルタリングし、多数の画像から圧縮され洗練された特徴を抽出するインストラクションガイド付き画像トークナイザーを利用します。さらに、VistaLLMは、バイナリセグメンテーションマスクをシーケンスとして表現するために勾配を考慮した適応サンプリング技術を採用し、以前使用されていた均一サンプリングを大幅に改善します。VistaLLMの望ましい能力を強化するために、680万サンプルを含む包括的な粗粒度から細粒度までのインストラクションチューニングデータセット、CoinItをキュレーションしました。また、複数画像のグラウンディングデータセットの不足に対処するため、新しいタスクであるAttCoSeg(属性レベル共セグメンテーション)を導入し、複数入力画像に対するモデルの推論とグラウンディング能力を向上させます。幅広いVおよびVLタスクにおける大規模な実験により、VistaLLMの有効性が実証され、全ての下流タスクにおいて強力なベースラインを超える一貫した最先端の性能を達成しています。プロジェクトページはhttps://shramanpramanick.github.io/VistaLLM/でご覧いただけます。
本論文では、3D人間の髪型のための新しいストランドベース生成モデル「HAAR」を提案する。具体的には、テキスト入力を基に、HAARは現代のコンピュータグラフィックスエンジンでプロダクションレベルのアセットとして使用可能な3D髪型を生成する。現在のAIベースの生成モデルは、強力な2D事前分布を活用して、点群、メッシュ、または体積関数の形で3Dコンテンツを再構築する。しかし、2D事前分布を使用することにより、これらのモデルは本質的に視覚的な部分のみを復元することに限定されている。高度に遮蔽された髪の構造はこれらの方法では再構築できず、それらは「外殻」のみをモデル化するため、物理ベースのレンダリングやシミュレーションパイプラインで使用する準備ができていない。対照的に、我々は3Dヘアストランドを基盤表現として使用する、初のテキスト誘導型生成手法を提案する。2D視覚的質問応答(VQA)システムを活用し、アーティストが作成した少数の髪型から生成された合成髪モデルを自動的に注釈付けする。これにより、共通の髪型UV空間で動作する潜在拡散モデルを訓練することが可能となる。定性的および定量的な研究を通じて、提案モデルの能力を実証し、既存の髪型生成アプローチと比較する。
アモーダル知覚、すなわち部分的な可視性から完全な物体構造を理解する能力は、乳児にとっても基本的なスキルである。その重要性は、重度に遮蔽された物体を明確に理解することが不可欠な自動運転などのアプリケーションにまで及ぶ。しかし、現代の検出および追跡アルゴリズムは、この重要な能力を見落とすことが多い。これは、ほとんどのデータセットでモーダルなアノテーションが主流であるためかもしれない。アモーダルデータの不足に対処するため、私たちはTAO-Amodalベンチマークを導入し、数千のビデオシーケンスにわたる880の多様なカテゴリを特徴としている。私たちのデータセットには、可視および遮蔽された物体、さらにフレーム外に部分的にある物体に対するアモーダルおよびモーダルなバウンディングボックスが含まれている。物体の永続性を伴うアモーダル追跡を強化するため、軽量なプラグインモジュールであるアモーダルエキスパンダーを活用し、数百のビデオシーケンスでのデータ拡張を伴うファインチューニングを通じて、標準的なモーダルトラッカーをアモーダルなものに変換する。TAO-Amodalにおいて、遮蔽された物体の検出と追跡で3.3%および1.6%の改善を達成した。人物に対する評価では、最先端のモーダルベースラインと比較して2倍の劇的な改善をもたらした。
Neural Radiance Field (NeRF) は、その印象的なフォトリアルな再構成とレンダリング能力により、新規視点合成における主要な技術として登場しました。しかし、大規模シーンでのリアルタイムNeRFレンダリングの実現には課題があり、多くの場合、大量の三角形を含む複雑なベイクドメッシュ表現や、ベイクド表現でのリソース集約的なレイマーチングの採用につながっています。我々はこれらの慣習に異議を唱え、大量の三角形を含むメッシュで表現される高品質なジオメトリが、フォトリアルなレンダリング品質を達成するために必ずしも必要ではないことを観察しました。その結果、低品質メッシュ、視点依存変位マップ、および圧縮されたNeRFモデルを含む新しいNeRF表現であるMixRTを提案します。この設計は、既存のグラフィックスハードウェアの能力を効果的に活用し、エッジデバイスでのリアルタイムNeRFレンダリングを可能にします。高度に最適化されたWebGLベースのレンダリングフレームワークを活用することで、提案するMixRTは、エッジデバイスでのリアルタイムレンダリング速度(MacBook M1 Proラップトップで1280 x 720の解像度で30 FPS以上)、より優れたレンダリング品質(Unbounded-360データセットの屋内シーンで0.2 PSNR向上)、およびより小さなストレージサイズ(最先端の手法と比較して80%未満)を実現します。
超解像(SR)技術は最近、ニューラルラジアンスフィールド(NeRF)の出力をアップスケールし、推論速度を向上させた高品質な画像を生成するために提案されています。しかし、既存のNeRF+SR手法は、追加の入力特徴量、損失関数、および/または知識蒸留のような高コストな訓練手順を使用することで、訓練のオーバーヘッドを増加させています。本論文では、高コストな訓練やアーキテクチャの変更なしに、SRを効率向上のために活用することを目指します。具体的には、既存のモジュールを直接組み合わせたシンプルなNeRF+SRパイプラインを構築し、訓練用の軽量な拡張技術であるランダムパッチサンプリングを提案します。既存のNeRF+SR手法と比較して、我々のパイプラインはSRの計算オーバーヘッドを軽減し、最大23倍高速に訓練することが可能であり、Apple MacBookのような消費者向けデバイスでの実行を実現します。実験結果は、我々のパイプラインがNeRFの出力を2-4倍にアップスケールしながら高品質を維持し、NVIDIA V100 GPUでは最大18倍、M1 Proチップでは12.8倍の推論速度向上を達成できることを示しています。SRが消費者向けデバイスにおけるNeRFモデルの効率を改善するためのシンプルかつ効果的な技術となり得ると結論付けます。
本論文では、参照画像が提供する情報を最大限に活用し、画像から3D生成のためのカスタマイズされた知識事前分布を確立する、新しい2段階アプローチを提案する。従来の手法は主に一般的な拡散事前分布に依存しており、参照画像との一貫した結果を得ることが困難であったが、我々は被写体固有かつマルチモーダルな拡散モデルを提案する。このモデルは、改善された幾何学を得るためにシェーディングモードを考慮することでNeRF最適化を支援するだけでなく、粗い結果からテクスチャを強化し、優れたリファインメントを実現する。これらの両面が、3Dコンテンツを被写体に忠実に整合させることに貢献する。大規模な実験により、我々の手法「Customize-It-3D」が従来の手法を大幅に上回る優位性を示している。本手法は、印象的な視覚品質を備えた忠実な360度再構成を生成し、テキストから3D作成を含む様々なアプリケーションに適している。
動画は高度に冗長なデータソースであり、特定のタスクを解決するためにはいくつかの重要な瞬間を特定するだけで十分な場合が多い。本論文では、事前学習済みで固定された視覚エンコーダと大規模言語モデル(LLM)を使用して、長い動画シーケンスをタスクに応じて処理するテキスト条件付き動画リサンプラ(TCR)モジュールを提案する。TCRは、テキスト条件に基づいて動画から関連する視覚的特徴を特定し、それらをLLMに提供してテキスト応答を生成する。軽量な設計とクロスアテンションの使用により、TCRは一度に100フレーム以上を処理でき、従来の研究よりもはるかに長い動画のチャンクを利用できる。我々は以下の貢献を行う:(i)タスクに応じて長い動画を処理できるトランスフォーマーベースのサンプリングアーキテクチャと、事前学習済みの視覚モデルと言語モデルを橋渡しするトレーニング方法を設計する;(ii)多様な評価タスクでその有効性を実証し、NextQA、EgoSchema、およびEGO4D-LTAチャレンジにおいて新たな最先端の結果を達成する;(iii)長い動画コンテキストを必要とするタスクを特定し、長距離動画モデルのさらなる評価に効果的に活用できることを示す。
テキスト駆動型拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、さまざまな画像編集タスクにおいてますます人気を集めています。しかし、ノイズ除去、超解像、デブラー、圧縮アーティファクト除去といった、より細かいレベルの画像処理タスクにこの言語-視覚パラダイムを適用することは、依然として未解決の研究課題です。本論文では、自然言語をユーザーフレンドリーなインターフェースとして活用し、画像復元プロセスを制御するテキスト駆動型画像処理フレームワーク「TIP」を開発します。我々は、テキスト情報の能力を2つの次元で考察します。まず、コンテンツ関連のプロンプトを使用してセマンティックアラインメントを強化し、復元結果におけるアイデンティティの曖昧さを効果的に軽減します。次に、我々のアプローチは、タスク固有の設計を必要とせず、言語ベースの定量的な復元強度の指定を通じて細かいレベルの指示をサポートする初めてのフレームワークです。さらに、既存のControlNetアーキテクチャを拡張し、生成事前分布の再スケーリングを学習する新しい融合メカニズムを導入することで、より優れた復元忠実度を実現します。我々の広範な実験は、TIPが最先端技術と比較して優れた復元性能を示すとともに、復元効果に対するテキストベースの制御の柔軟性を提供することを実証しています。
本論文では、Vector-Quantized Variational Auto-Encoder(VQ-VAE)の潜在コードブックを活用した新しいトピックモデリング手法を提案する。この手法は、事前学習済み言語モデルなどの埋め込み表現の豊富な情報を離散的にカプセル化する。潜在コードブックと埋め込み表現を概念的なBag-of-Wordsとして新たに解釈し、それぞれの潜在コードブックに関連する元の文書を逆生成する新しい生成型トピックモデル、Topic-VQ-VAE(TVQ-VAE)を提案する。TVQ-VAEは、従来のBoW分布や自己回帰的な画像生成を含む多様な生成分布を用いてトピックを可視化することができる。文書分析と画像生成に関する実験結果から、TVQ-VAEがデータセットの潜在構造を明らかにするトピックコンテキストを効果的に捉え、柔軟な形式の文書生成をサポートすることが示された。提案されたTVQ-VAEの公式実装はhttps://github.com/clovaai/TVQ-VAEで公開されている。