翻訳付きの日次キュレーションされたAI研究論文
事前学習済み言語モデルは多くのAIアプリケーションの基盤となっているが、その学習に伴う高い計算コストがアクセシビリティを制限している。BLOOMやStarCoderといったイニシアチブは、共同コミュニティ開発のための事前学習済みモデルへのアクセスを民主化することを目指している。しかし、既存のモデルにはいくつかの課題がある:多言語対応の限界、継続的な事前学習による破滅的忘却、ゼロからの事前学習の計算コストの高さ、そしてAIの安全性と開発に関する法律への準拠である。本論文では、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、およびコードを対象に学習された15Bパラメータの多言語オープンソースモデルAurora-Mを紹介する。StarCoderPlusを基に4350億の追加トークンで継続的に事前学習されたAurora-Mは、総学習トークン数が2兆を超える。これは、人間によるレビューを経た安全性指示に基づいてファインチューニングされた初のオープンソース多言語モデルであり、従来のレッドチーミングの考慮事項だけでなく、バイデン・ハリス政権の「安全で信頼できる人工知能の開発と使用に関する大統領令」で示された特定の懸念にも沿った開発が行われている。Aurora-Mは、さまざまなタスクと言語において厳密に評価され、破滅的忘却に対する堅牢性を示し、特に安全性評価において多言語設定での代替モデルを上回る性能を発揮した。責任あるオープンソースLLM開発を促進するため、Aurora-Mとそのバリエーションはhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 で公開されている。
現在のテキストから画像生成(T2I)モデルの主要な欠点の一つは、テキストプロンプトで指定された空間関係を忠実に反映した画像を一貫して生成できないことです。本論文では、この制約を包括的に調査するとともに、最先端の性能を達成するデータセットと手法を開発します。まず、現在の視覚言語データセットは空間関係を十分に表現していないことがわかりました。このボトルネックを解消するため、広く使用されている4つの視覚データセットから600万枚の画像を再キャプション化し、初の空間関係に焦点を当てた大規模データセット「SPRIGHT」を作成しました。3段階の評価と分析パイプラインを通じて、SPRIGHTが既存のデータセットを大幅に改善し、空間関係をより適切に捉えていることを確認しました。その有効性を示すため、SPRIGHTのわずか約0.25%を活用し、空間的に正確な画像生成において22%の改善を達成するとともに、FIDおよびCMMDスコアも向上させました。次に、多数のオブジェクトを含む画像でトレーニングを行うことで、空間的一貫性が大幅に向上することがわかりました。特に、500枚未満の画像でファインチューニングを行い、T2I-CompBenchにおいて空間スコア0.2133で最先端の性能を達成しました。最後に、一連の制御実験とアブレーションを通じて、テキストから画像モデルの空間的一貫性に影響を与える要因の理解を深めると思われる複数の知見を記録しました。今後の研究を促進するため、データセットとモデルを公開します。
テキストプロンプトや単一画像からの3Dコンテンツ生成は、最近、品質と速度において著しい進歩を遂げています。その主要なパラダイムの一つは、一貫性のある複数視点画像を生成し、その後、スパースビュー再構成を行うというものです。しかし、メッシュ表現を直接変形させて目標トポロジーに近づけることの難しさから、ほとんどの手法では、スパースビュー再構成中に暗黙的表現(NeRFなど)を学習し、後処理抽出によって目標メッシュを取得します。暗黙的表現は豊富な3D情報を効果的にモデル化できますが、その訓練には通常、長い収束時間を要します。さらに、暗黙的フィールドからの後抽出操作も、望ましくない視覚的アーティファクトを引き起こします。本論文では、FlexiDreamerという新しい単一画像から3Dを生成するフレームワークを提案します。このフレームワークは、FlexiCubesとして知られる柔軟な勾配ベースの抽出を活用することで、後処理による欠点を回避し、目標メッシュを直接取得することを可能にします。さらに、多解像度ハッシュグリッドエンコーディングスキームを組み込み、FlexiCubesの暗黙的フィールドにエンコーディングレベルを段階的に活性化させることで、ステップごとの最適化における幾何学的詳細の捕捉を支援します。特に、FlexiDreamerは、単一のNVIDIA A100 GPU上で、単一視点画像から密な3D構造を約1分で復元し、従来の手法を大幅に上回る性能を示します。
ユーザーが指定した条件から3Dシーンを生成する技術は、3Dアプリケーションにおける制作負担を軽減する有望なアプローチです。従来の研究では、制御条件が限られていたため、所望のシーンを実現するのに多大な労力を要していました。本研究では、部分画像、上面図で表現されたレイアウト情報、およびテキストプロンプトを用いて、マルチモーダル条件の下で3Dシーンを制御・生成する手法を提案します。これらの条件を組み合わせて3Dシーンを生成する際には、以下の主要な課題が存在します:(1)大規模データセットの作成、(2)マルチモーダル条件間の相互作用の反映、(3)レイアウト条件のドメイン依存性です。我々は、3Dシーン生成のプロセスを、与えられた条件からの2D画像生成と、2D画像からの3Dシーン生成に分解します。2D画像生成は、部分画像とレイアウトの小規模な人工データセットを用いて事前学習済みのテキスト-to-画像モデルをファインチューニングすることで実現し、3Dシーン生成は、レイアウト条件付き深度推定とニューラルラジアンスフィールド(NeRF)を用いることで、大規模データセットの作成を回避します。360度画像を用いた空間情報の共通表現を利用することで、マルチモーダル条件間の相互作用を考慮し、レイアウト制御のドメイン依存性を低減します。実験結果は、提案手法が屋内から屋外まで多様なドメインにおいて、マルチモーダル条件に従って3Dシーンを生成できることを定性的・定量的に示しています。
生成モデルは現在、グラフィックデザイナーやアーティストによって広く使用されています。これまでの研究では、これらのモデルが生成時にトレーニングデータの内容を記憶し、しばしば複製することが示されています。そのため、生成モデルの普及が進むにつれ、生成された画像をプロフェッショナルな目的で使用する前に、その画像の特性が特定のトレーニングデータに起因するかどうかをデータベース検索によって確認することが重要となっています。この目的のための既存のツールは、類似した意味内容の画像を検索することに焦点を当てています。一方で、多くのアーティストはテキストから画像を生成するモデルにおけるスタイルの複製を懸念しています。本論文では、画像からスタイル記述子を理解し抽出するためのフレームワークを提案します。このフレームワークは、スタイルが画像の主観的な特性であり、色、テクスチャ、形状などの要素の複雑で意味のある相互作用を捉えるという洞察に基づいてキュレーションされた新しいデータセットを含んでいます。また、生成された画像のスタイルをテキストから画像を生成するモデルのトレーニングデータセットに使用された画像に帰属させるために使用できるスタイル記述子を抽出する方法を提案します。様々なスタイル検索タスクにおいて有望な結果を示します。さらに、Stable Diffusionモデルにおけるスタイルの帰属とマッチングを定量的および定性的に分析します。コードと成果物はhttps://github.com/learn2phoenix/CSDで公開されています。
本論文では、高精細な人物画像生成に特化したテキスト-to-画像基盤モデル「CosmicMan」を提案する。現行の汎用基盤モデルが抱える、人物画像の品質低下とテキスト-画像の不整合というジレンマに対し、CosmicManは写実的な人物画像を生成可能であり、細部まで精巧な外見、合理的な構造、詳細な密な記述に基づく正確なテキスト-画像整合を実現する。CosmicManの成功の核心は、データとモデルに対する新たな洞察と視点にある:(1) データ品質とスケーラブルなデータ生産フローが、学習済みモデルの最終的な結果に不可欠であることを発見した。そこで、高品質なデータを正確かつコスト効率的なアノテーションで継続的に生産する永続的なデータフライホイールとして機能する新たなデータ生産パラダイム「Annotate Anyone」を提案する。これに基づき、平均解像度1488x1255の600万枚の高品質な実世界人物画像と、多様な粒度の1億1500万の属性から導出された正確なテキストアノテーションを備えた大規模データセット「CosmicMan-HQ 1.0」を構築した。(2) 人物に特化したテキスト-to-画像基盤モデルは、下流タスクへの統合が容易でありながら、高品質な人物画像を生成する効果を発揮する実用的なものであるべきと主張する。そこで、密なテキスト記述と画像ピクセルの関係を分解的にモデル化し、「Decomposed-Attention-Refocusing (Daring)」トレーニングフレームワークを提案する。これは既存のテキスト-to-画像拡散モデルのクロスアテンション特徴をシームレスに分解し、追加モジュールなしでアテンションの再フォーカスを強制する。Daringを通じて、連続的なテキスト空間を人体構造に沿ったいくつかの基本グループに明示的に離散化することが、不整合問題を容易に解決する鍵であることを示す。
高密度ビデオキャプショニング(ビデオ内の時間的に局所化されたキャプションを予測する)の理想的なモデルは、長い入力ビデオを処理し、豊かで詳細なテキスト記述を予測し、ビデオ全体を処理する前に出力を生成できる必要があります。しかし、現在の最先端モデルは、固定数のダウンサンプリングされたフレームを処理し、ビデオ全体を見た後に単一の完全な予測を行います。本論文では、ストリーミング高密度ビデオキャプショニングモデルを提案します。このモデルは、2つの新しいコンポーネントで構成されています。まず、入力トークンをクラスタリングに基づく新しいメモリモジュールを提案し、メモリサイズが固定されているため、任意の長さのビデオを処理できます。次に、ストリーミングデコーディングアルゴリズムを開発し、ビデオ全体が処理される前に予測を行うことを可能にします。このモデルは、ストリーミング能力を実現し、3つの高密度ビデオキャプショニングベンチマーク(ActivityNet、YouCook2、ViTT)において、最先端の性能を大幅に向上させます。コードはhttps://github.com/google-research/scenicで公開されています。
本論文では、画像生成モデルに制御を加える新しい手法であるCondition-Aware Neural Network(CAN)を提案する。従来の条件付き制御手法と並行して、CANはニューラルネットワークの重みを動的に操作することで画像生成プロセスを制御する。これは、入力条件に基づいて畳み込み/線形層の条件付き重みを生成する条件認識型重み生成モジュールを導入することで実現される。我々はCANを、ImageNetにおけるクラス条件付き画像生成とCOCOにおけるテキストから画像への生成において検証した。CANは、DiTやUViTを含む拡散トランスフォーマーモデルにおいて、一貫して大幅な改善をもたらす。特に、EfficientViTと組み合わせたCAN(CaT)は、ImageNet 512x512において2.78のFIDを達成し、DiT-XL/2を上回りながら、サンプリングステップあたりのMACsを52倍削減することに成功した。
直接選好最適化(DPO)のような選好モデリング技術は、大規模言語モデル(LLM)の汎化能力を向上させるのに効果的であることが示されています。しかし、ビデオ指示追従タスクにおいて、特に生成された応答における虚構(hallucination)を検出するための有益なフィードバックを提供することは、依然として大きな課題です。これまでの研究では、大規模マルチモーダルモデル(LMM)を報酬モデルとして使用し、選好モデリングを導くことが検討されてきましたが、生成された応答の事実性を対応するビデオと比較して正確に評価する能力は、確定的に確立されていません。本論文では、ビデオコンテンツの代理として詳細なビデオキャプションを活用する新しいフレームワークを紹介し、言語モデルがこの情報をビデオ質問応答(QA)予測のスコアリングのための支持証拠として組み込むことを可能にします。私たちのアプローチは、ビデオフレームを直接入力とするOpenAI GPT-4Vモデルの報酬メカニズムと強く整合していることを示します。さらに、この特化した報酬をDPOを通じて適用することで、ビデオLMMのビデオQAタスクにおける性能が大幅に向上することを実証します。
大規模言語モデル(LLM)の最近の進展は、自然言語処理の分野に革命をもたらし、その適用範囲をマルチモーダルな知覚と生成へと拡大してきました。しかし、LLMに聴覚能力を効果的に統合することは、特に多様な文脈での汎化や複雑な聴覚タスクの実行において、大きな課題となっています。本研究では、WavLLMを紹介します。これは、デュアルエンコーダとプロンプト対応LoRA重みアダプタを備えた堅牢で適応性の高い音声大規模言語モデルであり、2段階のカリキュラム学習アプローチによって最適化されています。デュアルエンコーダを活用することで、異なる種類の音声情報を分離し、Whisperエンコーダを使用して音声の意味内容を処理し、WavLMエンコーダを使用して話者の特徴を捕捉します。カリキュラム学習の枠組み内で、WavLLMはまず、基本的な単一タスクの混合最適化によって基礎能力を構築し、その後、基本的なタスクの組み合わせのようなより複雑なタスクに対する高度なマルチタスク訓練を行います。異なるタスクや指示への柔軟性と忠実性を高めるために、2段階目の高度なマルチタスク訓練段階でプロンプト対応LoRA重みアダプタを導入します。提案モデルは、ASR、ST、SV、ERなどのタスクを含む普遍的な音声ベンチマークで検証され、また、SQAのためのGaokao英語リスニング理解セットや音声Chain-of-Thought(CoT)評価セットなどの専門データセットにも適用されます。実験結果は、提案モデルが同じモデルサイズで幅広い音声タスクにおいて最先端の性能を達成し、CoTアプローチを使用して複雑なタスクを実行する際の堅牢な汎化能力を示しています。さらに、我々のモデルは、特別な訓練なしにGaokaoタスクを成功裏に完了します。コード、モデル、音声、およびGaokao評価セットは、aka.ms/wavllmでアクセス可能です。
視覚的にリッチなドキュメント(VRD)は、視覚的特徴と言語的キューを活用して情報を伝達します。ドキュメントから固有表現を識別するカスタム抽出器をトレーニングするには、テキストと視覚の両モダリティでアノテーションされた対象ドキュメントタイプの多数のインスタンスが必要です。これは企業シナリオにおいて高コストなボトルネックとなり、数千種類の異なるドキュメントタイプに対してスケーラブルな方法でカスタム抽出器をトレーニングしたい場合に問題となります。対象ドキュメントタイプの未ラベルインスタンスで抽出器モデルを事前トレーニングし、その後人間がラベル付けしたインスタンスでファインチューニングする方法は、これらのシナリオでは抽出器に割り当てられた最大許容トレーニング時間を超えるため機能しません。本論文では、このシナリオに対処するため、ノイズ対応トレーニング手法(Noise-Aware Training、NAT)を提案します。NATは、高コストな人間によるラベル付けドキュメントを取得する代わりに、弱ラベル付きドキュメントを活用してスケーラブルな方法で抽出器をトレーニングします。ノイズの多い弱ラベルサンプルによるモデル品質の低下を防ぐため、NATは各トレーニングサンプルの信頼度を推定し、それをトレーニング中の不確実性指標として組み込みます。NATを使用して複数の最先端抽出器モデルをトレーニングしました。多数の公開データセットおよび社内データセットでの実験結果から、NATでトレーニングされたモデルは性能がロバストであるだけでなく、マクロF1スコアにおいて転移学習ベースラインを最大6%上回り、さらにラベル効率も向上し、同等の性能を得るために必要な人間の労力を最大73%削減できることが示されました。
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示しており、ビデオレベルでの人間とAIのインタラクションを促進するためのビデオLLMに向けた研究が進められています。しかし、ビデオベースの対話システムにおいて、ビデオを効果的にエンコードし理解する方法は未解決の問題です。本論文では、一見単純ながらも未開拓の疑問を探ります:すべての空間-時間トークンをLLMに入力し、ビデオシーケンスのモデリングタスクをLLMに委任することは可能か?驚くべきことに、このシンプルなアプローチはビデオ理解において大幅な改善をもたらします。これに基づき、我々はST-LLMを提案します。これは、LLM内で空間-時間シーケンスモデリングを行う効果的なビデオLLMのベースラインです。さらに、LLM内の非圧縮ビデオトークンによって引き起こされるオーバーヘッドと安定性の問題に対処するため、動的マスキング戦略と特注のトレーニング目標を開発しました。特に長いビデオに対しては、効率と効果を両立させるためのグローバル-ローカル入力モジュールも設計しました。その結果、我々はLLMを活用して熟練した空間-時間モデリングを行いながら、効率と安定性を維持します。広範な実験結果は、我々の手法の有効性を裏付けています。より簡潔なモデルとトレーニングパイプラインを通じて、ST-LLMはVideoChatGPT-BenchとMVBenchにおいて新たな最先端の結果を確立しました。コードはhttps://github.com/TencentARC/ST-LLMで公開されています。