翻訳付きの日次キュレーションされたAI研究論文
本論文では、ベースとなる大規模言語モデル(LLM)を効率的かつ効果的にスケールアップする新たな手法である「深度アップスケーリング(Depth Up-Scaling, DUS)」を提案する。DUSは、専門家混合モデル(Mixture-of-Experts, MoE)とは異なり、学習や推論における複雑な変更を必要としない。DUSを活用し、107億パラメータを有する大規模言語モデル「SOLAR 10.7B」を構築し、様々な自然言語処理(NLP)タスクにおいて優れた性能を実証した。比較評価の結果、SOLAR 10.7BはLlama 2やMistral 7Bなどの既存のオープンソース事前学習LLMを凌駕することが示された。さらに、指示追従能力に特化してファインチューンされたバリアント「SOLAR 10.7B-Instruct」を提示し、Mixtral-8x7Bを上回る性能を達成した。SOLAR 10.7BはApache 2.0ライセンスの下で公開されており、LLM分野における広範なアクセスと応用を促進する。
本論文では、大規模言語モデルに対するクエリやプロンプトのプロセスを効率化するために設計された26のガイドラインを紹介する。我々の目的は、様々な規模の大規模言語モデルに対する質問の作成、それらの能力の検証、そして異なるプロンプトを入力した際の異なる規模の大規模言語モデルの挙動に対するユーザーの理解を深めるための基本的な概念を簡素化することである。提案されたガイドラインの有効性を検証するため、LLaMA-1/2(7B、13B、70B)およびGPT-3.5/4を用いた広範な実験が行われた。本研究成果が、大規模言語モデルのプロンプト設計に取り組む研究者にとってより良い指針となることを期待する。プロジェクトページはhttps://github.com/VILA-Lab/ATLASで公開されている。
AIエージェントやメタバースの台頭に伴い、カスタマイズ性が高く表現力豊かな3Dキャラクターへの需要が高まっています。しかし、従来のコンピュータグラフィックスツールを使用して3Dキャラクターを作成するのは複雑で時間のかかる作業です。これらの課題に対処するため、私たちはテキスト記述からリアルな3Dアバターを作成するためのユーザーフレンドリーなフレームワーク「Make-A-Character(Mach)」を提案します。このフレームワークは、大規模言語モデルと視覚モデルの力を活用してテキストの意図を理解し、中間画像を生成し、その後、人間指向の視覚知覚と3D生成モジュールを一連で適用します。私たちのシステムは、ユーザーが期待に応える制御可能でリアルな完全な3Dキャラクターを2分以内に直感的に作成できるアプローチを提供し、既存のCGパイプラインとの容易な統合を可能にすることで動的な表現力を実現します。詳細については、プロジェクトページ(https://human3daigc.github.io/MACH/)をご覧ください。
参照ベースの物体セグメンテーションタスク、すなわち参照画像セグメンテーション(RIS)、Few-Shot画像セグメンテーション(FSS)、参照動画物体セグメンテーション(RVOS)、および動画物体セグメンテーション(VOS)は、言語または注釈付きマスクを参照として利用して特定の物体をセグメント化することを目的としています。それぞれの分野で大きな進展があったにもかかわらず、現在の手法はタスクごとに特化して設計され、異なる方向に発展しており、これらのタスクにおけるマルチタスク能力の活性化を妨げています。本研究では、この断片化された状況を終わらせ、UniRef++を提案し、単一のアーキテクチャで4つの参照ベースの物体セグメンテーションタスクを統合します。我々のアプローチの中核となるのは、提案されたUniFusionモジュールであり、指定された参照に応じて異なるタスクを処理するためのマルチウェイ融合を実行します。そして、インスタンスレベルのセグメンテーションを達成するために、統一されたTransformerアーキテクチャが採用されます。統一された設計により、UniRef++は幅広いベンチマークで共同で訓練でき、実行時に対応する参照を指定することで柔軟に複数のタスクを完了できます。我々は、様々なベンチマークで統一モデルを評価します。広範な実験結果は、提案されたUniRef++がRISとRVOSで最先端の性能を達成し、パラメータ共有ネットワークでFSSとVOSにおいて競争力のある性能を発揮することを示しています。さらに、提案されたUniFusionモジュールが現在の先進的な基盤モデルSAMに容易に組み込まれ、パラメータ効率の良いファインチューニングで満足のいく結果を得られることを示します。コードとモデルはhttps://github.com/FoundationVision/UniRefで利用可能です。
マルチモーダル大規模言語モデル(MLLMs)の急速に進化する分野は、人工知能における言語処理と視覚処理の統合の最前線に位置しています。本論文では、GoogleのGeminiとOpenAIのGPT-4V(ision)という2つの先駆的なモデルについて、詳細な比較研究を提示します。本研究では、視覚-言語能力、人間との相互作用、時間的理解、知能指数と感情指数の評価といった主要な次元にわたって、両モデルの多面的な評価を行いました。分析の核心は、各モデルの視覚理解能力の違いにあります。さまざまな産業応用シナリオにおける性能を評価するために、一連の構造化された実験を実施し、その実用性に関する包括的な視点を提供しました。直接的な性能比較だけでなく、プロンプトやシナリオの調整も含めて、公平でバランスの取れた分析を確保しました。我々の調査結果は、両モデルの独自の強みとニッチを明らかにしています。GPT-4Vは、その応答の正確さと簡潔さで際立っていますが、Geminiは、関連する画像やリンクを伴った詳細で広範な回答を提供することに優れています。これらの理解は、GeminiとGPT-4Vの比較的優位性を明らかにするだけでなく、マルチモーダル基盤モデルの進化する状況を強調し、この分野の将来の進歩への道を開くものです。比較の後、我々は両モデルを組み合わせることでより良い結果を達成しようと試みました。最後に、GPT-4VとGeminiの背後にあるチームに対して、この分野への先駆的な貢献に対して深い感謝の意を表します。また、Yangらによる『Dawn』で提示された包括的な質的分析にも謝意を表します。この研究は、広範な画像サンプル、プロンプト、およびGPT-4V関連の結果の収集を提供し、我々の分析の基礎となりました。
音声は私たちの生活において不可欠な要素ですが、その作成には専門知識が必要で時間もかかります。研究コミュニティは過去1年間、より強力な生成モデルの採用とデータのスケーリングを通じて、単一モダリティ(音声、音響、音楽)の大規模音声生成モデルの性能を大きく向上させてきました。しかし、これらのモデルにはいくつかの制御性の欠如があります。音声生成モデルはテキスト記述に基づく新しいスタイルを合成できず、屋外環境などのドメインカバレッジが限られています。音響生成モデルは「人が話している」といった大まかな記述に基づく制御しか提供できず、不明瞭な人間の声しか生成しません。本論文では、フローマッチングに基づく様々な音声モダリティを生成可能な統一モデルAudioboxを提案します。制御性を高め、音声と音響の生成パラダイムを統一するために、記述ベースと例示ベースのプロンプティングを設計しました。音声生成時に、トランスクリプト、ボーカル、その他の音声スタイルを独立して制御できるようにしました。限られたラベルでモデルの汎化性能を向上させるため、大量の未ラベル音声で事前学習する自己教師あり穴埋め目的関数を適用しました。Audioboxは音声と音響生成において新たなベンチマークを設定し(LibrispeechでのゼロショットTTSで0.745の類似度、AudioCapsでのテキストから音響生成で0.77のFAD)、新しいボーカルと音響スタイルの音声生成方法を可能にしました。さらに、Bespoke Solversを統合し、フローマッチングのデフォルトODEソルバーと比較して25倍以上の高速化を実現し、複数のタスクで性能を損なうことなく生成を高速化しました。デモはhttps://audiobox.metademolab.com/で公開しています。
人間は3D世界に住み、自然言語を用いて3Dシーンと相互作用することが一般的です。3D空間におけるオープンエンドな言語クエリをサポートするための3D言語フィールドのモデリングが、最近注目を集めています。本論文では、LangSplatを紹介します。LangSplatは、3D空間内で正確かつ効率的なオープン語彙クエリを可能にする3D言語フィールドを構築します。既存の手法がNeRFモデルにCLIP言語埋め込みを基盤としているのに対し、LangSplatは、CLIPから蒸留された言語特徴をエンコードする3Dガウシアンの集合を利用して言語フィールドを表現することで、この分野を前進させます。言語特徴をレンダリングするためにタイルベースのスプラッティング技術を採用することで、NeRFに内在する高コストなレンダリングプロセスを回避します。LangSplatは、CLIP埋め込みを直接学習する代わりに、まずシーンごとの言語オートエンコーダを訓練し、その後シーン固有の潜在空間で言語特徴を学習することで、明示的なモデリングが課す多大なメモリ要求を軽減します。既存の手法は、不正確で曖昧な3D言語フィールドに苦しんでおり、オブジェクト間の明確な境界を識別できません。我々はこの問題に深く掘り下げ、SAMを使用して階層的なセマンティクスを学習することを提案し、さまざまなスケールで言語フィールドを広範囲にクエリする必要性とDINO特徴の正則化を排除します。オープン語彙3Dオブジェクトローカライゼーションとセマンティックセグメンテーションに関する広範な実験により、LangSplatが従来の最先端手法であるLERFを大幅に上回ることを示します。特に、LangSplatは非常に効率的で、1440×1080の解像度においてLERFと比較して{\speed}倍の高速化を達成します。ぜひ、我々のビデオ結果をhttps://langsplat.github.ioでご覧ください。
拡散モデルに基づくテキストから動画生成は、過去1年間で目覚ましい進歩を遂げたものの、テキストから画像生成にはまだ及ばない状況です。その主な理由の1つは、動画キャプション作成のコストの高さから、公開されているデータセットの規模が限られていることです(例:WebVid10Mの1000万の動画-テキストペア vs LAIONの50億の画像-テキストペア)。一方で、YouTubeのような動画プラットフォームからラベルなしのクリップを収集する方がはるかに容易です。この点に着想を得て、私たちはテキストなしの動画を直接学習できる新しいテキストから動画生成フレームワーク「TF-T2V」を提案します。その基本原理は、テキストデコーディングのプロセスと時間的モデリングのプロセスを分離することです。この目的のために、コンテンツブランチとモーションブランチを採用し、重みを共有しながら共同で最適化します。このパイプラインに従い、トレーニングセットの規模(テキストなしのWebVid10M)をランダムに収集したテキストなしの動画で倍増させた場合の効果を調査し、パフォーマンスの向上(FIDが9.67から8.19、FVDが484から441)を確認し、本アプローチのスケーラビリティを実証しました。また、トレーニングにいくつかのテキストラベルを再導入した後、持続的なパフォーマンス向上(FIDが8.19から7.64、FVDが441から366)が得られることも発見しました。最後に、ネイティブなテキストから動画生成と合成的動画合成の両方のパラダイムにおいて、本アイデオロギーの有効性と一般化可能性を検証しました。コードとモデルはhttps://tf-t2v.github.io/で公開予定です。
単一画像からの3D生成における最近の進展は、インターネット規模の画像で事前学習された大規模拡散モデルから得られる3D事前情報を活用した、マルチビュー一貫性の重要性を浮き彫りにしています。しかし、2D画像を3Dコンテンツに変換する際の曖昧さから、多数の潜在的な形状が生じ得るため、新規ビューの多様性という側面は研究領域において未開拓のままです。本研究では、一貫性と多様性の両方を同時に解決することで、この研究ギャップに取り組むことを目指します。ただし、これら2つの側面の間には本質的なトレードオフが存在するため、そのバランスを取ることは大きな課題です。本論文では、HarmonyViewというシンプルでありながら効果的な拡散サンプリング技術を提案します。これは、単一画像3D生成における2つの複雑な側面、すなわち一貫性と多様性を分解するのに適しています。このアプローチにより、サンプリングプロセス内のこれら2つの重要な次元をより細やかに探求する道が開かれます。さらに、生成ビューの多様性を包括的に評価するために、CLIP画像およびテキストエンコーダーに基づく新しい評価指標を提案します。この指標は、人間の評価者の判断と密接に一致します。実験では、HarmonyViewが調和の取れたバランスを達成し、一貫性と多様性の両方においてウィンウィンのシナリオを示しています。
テキストから画像を生成するための商用およびオープンソースの拡散モデル(DMs)の普及に伴い、望ましくない動作を防ぐためのリスク軽減が求められています。学術界で既存の概念消去手法は、すべて全パラメータまたは仕様ベースのファインチューニングに基づいており、そこでは以下の課題が観察されます:1)生成の劣化傾向:ターゲット消去中のパラメータドリフトにより、すべての生成物に変化や潜在的な変形が生じ、他の概念も様々な程度で劣化する。これは複数の概念を消去する場合に顕著です。2)転移不能性と展開非効率性:従来のモデル固有の消去手法は、概念の柔軟な組み合わせや他のモデルへのトレーニング不要な転移を妨げ、展開シナリオが増えるにつれてコストが線形的に増加します。非侵襲的で正確、カスタマイズ可能、かつ転移可能な消去を実現するため、我々は一次元アダプターに基づく消去フレームワークを構築し、多様な消去アプリケーションにおいて、ほとんどのDMsから複数の概念を一度に消去します。概念-半透過構造をMembrane(SPM)として任意のDMに注入し、ターゲット消去を学習させると同時に、新たなLatent Anchoringファインチューニング戦略により、変化や劣化現象を効果的に軽減します。一度取得したSPMは、特定の再チューニングなしに他のDMsに柔軟に組み合わせてプラグアンドプレイでき、多様なシナリオへの迅速かつ効率的な適応を可能にします。生成中、我々のFacilitated Transportメカニズムは、各SPMの透過性を動的に調整し、異なる入力プロンプトに対応することで、他の概念への影響をさらに最小化します。約40の概念、7つのDMs、4つの消去アプリケーションにわたる定量的および定性的な結果は、SPMの優れた消去性能を実証しています。我々のコードと事前チューニング済みSPMは、プロジェクトページhttps://lyumengyao.github.io/projects/spmで公開されます。
大規模言語モデル(LLMs)は、プロンプトエンジニアリングを通じて、文脈内学習能力の萌芽を示しています。大規模生成モデルの最近の進展により、現実世界の言語アプリケーションにおけるその利用がさらに拡大しています。しかし、自然言語理解と質問応答におけるLLMsの汎用性と事実性を向上させるという重要な課題は、まだ十分に探究されていません。これまでの文脈内学習研究は、ユーザーの特定の指示と品質期待に従うこと、および望ましくない出力を避けることに焦点を当ててきましたが、推論段階でのLLMsの文脈内学習を改善するために、タスク固有にファインチューニングされた言語モデル(SLMs)を活用する研究はほとんど行われていませんでした。私たちの主な貢献は、LLMsの信頼性を向上させるシンプルでありながら効果的なフレームワークの確立です。このフレームワークは、1) 分布外データの汎化、2) LLMsが識別モデルからどのように利益を得るかの解明、3) 生成タスクにおける幻覚の最小化を実現します。私たちが提案するプラグインメソッドを使用することで、Llama 2とChatGPTの強化バージョンは、汎用性と事実性においてオリジナルバージョンを凌駕します。私たちは、9つの異なるタスクにわたる16の精選されたデータセット、プロンプト、モデルチェックポイント、およびLLM出力を含む包括的なリソーススイートを提供します。私たちの実証分析は、識別モデルをLLMsに組み込むことの利点を明らかにし、私たちの方法論がより信頼性の高いLLMsを育む可能性を強調しています。
単一視点のビデオから人体を再構築することは、バーチャルリアリティ領域において重要な役割を果たします。一般的なアプリケーションシナリオでは、高精細な3Dデジタルヒューマンを迅速に再構築しつつ、リアルタイムレンダリングとインタラクションを同時に確保する必要があります。既存の手法では、これらの両方の要件を満たすことが困難でした。本論文では、Human101という新しいフレームワークを紹介します。このフレームワークは、1視点のビデオから高精細な動的3D人体再構築を可能にし、3Dガウシアンを100秒でトレーニングし、100+ FPSでレンダリングします。我々の手法は、3Dガウシアンスプラッティングの強みを活用し、3D人体の明示的かつ効率的な表現を提供します。従来のNeRFベースのパイプラインとは異なり、Human101は、Human-centric Forward Gaussian Animation法を巧みに適用して3Dガウシアンのパラメータを変形させ、レンダリング速度を向上させます(つまり、1024解像度の画像を60+ FPSで、512解像度の画像を100+ FPSでレンダリングします)。実験結果は、我々のアプローチが現在の手法を大幅に上回り、フレームレートが最大10倍向上し、同等または優れたレンダリング品質を提供することを示しています。コードとデモはhttps://github.com/longxiang-ai/Human101で公開されます。