翻訳付きの日次キュレーションされたAI研究論文
テキストインバージョン、DreamBooth、LoRAなどの手法により、パーソナライズされた画像合成において大きな進展が見られています。しかし、これらの手法は、高いストレージ要求、長時間のファインチューニングプロセス、および複数の参照画像の必要性によって、実世界での適用性が制限されています。一方、既存のID埋め込みベースの手法は、単一のフォワード推論のみを必要としますが、多くのモデルパラメータにわたる広範なファインチューニングが必要である、コミュニティで事前学習されたモデルとの互換性がない、または高い顔の忠実度を維持できないといった課題に直面しています。これらの制限に対処するため、我々はInstantIDを紹介します。これは、強力な拡散モデルベースのソリューションです。我々のプラグアンドプレイモジュールは、単一の顔画像を使用してさまざまなスタイルでの画像パーソナライゼーションを巧みに処理し、高い忠実度を確保します。これを実現するために、我々は強力なセマンティック条件と弱い空間条件を課すことで、新しいIdentityNetを設計し、顔画像とランドマーク画像をテキストプロンプトと統合して画像生成を導きます。InstantIDは、卓越した性能と効率を示し、アイデンティティ保存が最重要視される実世界のアプリケーションにおいて非常に有益であることを証明しています。さらに、我々の研究は、SD1.5やSDXLのような人気のある事前学習済みテキスト画像拡散モデルとシームレスに統合し、適応可能なプラグインとして機能します。我々のコードと事前学習済みチェックポイントは、https://github.com/InstantID/InstantIDで利用可能になります。
本論文では、自己回帰目的で事前学習された視覚モデルのコレクションであるAIMを紹介する。これらのモデルは、そのテキスト版である大規模言語モデル(LLM)に着想を得ており、同様のスケーリング特性を示す。具体的には、2つの重要な発見を強調する:(1)視覚特徴の性能はモデルの容量とデータ量の両方に比例してスケールする、(2)目的関数の値は下流タスクにおけるモデルの性能と相関がある。これらの発見の実用的な意味を、20億枚の画像で事前学習した70億パラメータのAIMを用いて示し、凍結されたトランクでImageNet-1kにおいて84.0%を達成した。興味深いことに、この規模においても性能の飽和の兆候は観察されず、AIMが大規模視覚モデルの訓練における新たなフロンティアを表す可能性を示唆している。AIMの事前学習はLLMの事前学習と類似しており、大規模な訓練を安定化するための画像固有の戦略を必要としない。
中規模の大規模言語モデル(LLM)――7Bや13Bパラメータを持つモデル――は、機械翻訳(MT)において有望な性能を示す。しかし、ALMAのようなトップクラスの13B LLMベースの翻訳モデルでさえ、最先端の従来型エンコーダ-デコーダ翻訳モデルやGPT-4のような大規模LLMの性能には及ばない。本研究では、この性能差を埋める。まず、MTタスクにおけるLLMの教師ありファインチューニングの欠点を評価し、人間が生成したものであっても参照データに存在する品質問題を強調する。次に、参照翻訳を模倣するSFTとは対照的に、適切ではあるが完璧ではない翻訳を生成しないようにモデルを訓練する新しいアプローチであるContrastive Preference Optimization(CPO)を導入する。わずか22Kの並列文と12Mパラメータを持つALMAモデルにCPOを適用することで、大幅な改善が得られる。その結果得られたモデル、ALMA-Rは、WMT'21、WMT'22、WMT'23のテストデータセットにおいて、WMTコンペティションの優勝者やGPT-4の性能に匹敵またはそれを上回る性能を発揮する。
一般的に、長いコンテキストサイズで大規模言語モデル(LLM)を訓練することは計算コストが高く、長時間の訓練と大量のGPUリソースを必要とします。既存の長文脈拡張手法では、通常、対応する長文脈ウィンドウをサポートするために追加の訓練プロセスが必要であり、長文脈訓練データ(例:32k)が要求され、高いGPU訓練コストが想定されます。これらの課題を解決するため、我々はEfficient and Extreme length extension method for Large Language Models(E 2 -LLM)を提案します。この手法は、たった1回の訓練プロセスで大幅に計算コストを削減し、長文脈データの収集も不要とします。具体的には、まず、E 2 -LLMの訓練データは短い長さ(例:4k)のみを必要とし、これによりチューニングコストが大幅に削減されます。次に、短い訓練コンテキストウィンドウでの訓練プロセスは1回のみ実行され、推論時には異なる評価コンテキストウィンドウをサポートできます。さらに、E 2 -LLMでは、RoPE位置埋め込みに基づき、訓練中の異なるサンプルに対してスケールと位置インデックスパラメータに2つの異なる拡張手法を導入します。これにより、推論時に任意のコンテキスト長を直接補間する際に、異なる相対的差異に対してモデルをより頑健にすることが目的です。複数のベンチマークデータセットでの包括的な実験結果は、E 2 -LLMが挑戦的な長文脈タスクにおいて有効であることを示しています。
大規模な事前学習済み言語モデルは一般的な能力を有しているものの、所望の振る舞いをより良く達成するためには、さらなる適応が一貫して有効である。しかし、これらのモデルのチューニングはますますリソース集約的になっており、モデルの重みが非公開の場合には不可能となっている。本論文では、ブラックボックス型の言語モデルの上で動作する軽量なデコード時アルゴリズムであるプロキシチューニングを提案する。この手法は、モデルを直接チューニングした場合と同等の結果を達成するが、出力語彙に対する予測のみにアクセスすることで実現する。具体的には、より小さな言語モデルをチューニングし、チューニング済みと未チューニングの言語モデルの予測の差分を利用して、ベースモデルの予測をチューニングの方向にシフトさせる。これにより、大規模な事前学習の利点を維持しつつ、所望の振る舞いを実現する。実験では、Llama2-70Bに対して7Bサイズのプロキシモデルを用いてプロキシチューニングを適用した場合、知識、推論、安全性のベンチマークにおいて、Llama2-70Bとその完全にチューニングされたチャット版とのギャップの88%を埋めることができた。興味深いことに、TruthfulQAでテストした場合、プロキシチューニングされたモデルは直接チューニングされたモデルよりも実際に真実性が高く、これはデコード時のガイダンスがモデルの事実知識をより良く保持するためと考えられる。さらに、コードのドメイン適応や、質問応答および数学問題に対するタスク固有のファインチューニングにプロキシチューニングを適用することで、その汎用性を実証する。本研究は、小さなチューニング済み言語モデルを用いて、大規模な、潜在的にプロプライエタリな言語モデルをデコード時のガイダンスを通じて効率的にカスタマイズする可能性を示している。
生成モデルは、高品質なテキスト、画像、動画の合成において顕著な能力を発揮してきました。動画生成においては、現代のテキストから動画への変換モデルが視覚的に素晴らしい動画を作成するという印象的な能力を示しています。しかしながら、そのような動画を評価することは大きな課題を伴います。現在の研究では、主にFVD、IS、CLIPスコアといった自動化されたメトリクスが使用されています。しかし、これらのメトリクスは不完全な分析を提供し、特に動画コンテンツの時間的評価においては、真の動画品質の信頼できる指標とはなり得ません。さらに、ユーザー調査は人間の知覚を正確に反映する可能性があるものの、時間がかかり労力を要する性質や、主観的なバイアスに汚染されがちな結果という問題を抱えています。本論文では、既存のメトリクスに内在する限界を調査し、新たな評価パイプラインであるText-to-Video Score(T2VScore)を紹介します。このメトリクスは、2つの重要な基準を統合しています:(1) テキストと動画の整合性(Text-Video Alignment)で、与えられたテキスト記述を動画がどれだけ忠実に表現しているかを精査し、(2) 動画品質(Video Quality)で、専門家の混合による動画の全体的な制作水準を評価します。さらに、提案されたメトリクスを評価し、それらの将来の改善を促進するために、TVGEデータセットを提示します。このデータセットは、2,543のテキストから動画への生成動画について、2つの基準に基づく人間の判断を収集しています。TVGEデータセットでの実験により、提案されたT2VScoreがテキストから動画への生成においてより優れたメトリクスを提供することを実証しています。
大規模言語モデル(LLMs)は、事前学習されたコンテキストウィンドウを超える外挿能力が限られていることが知られており、長い入力が必要な下流タスクへの適用が制約されています。最近の研究では、LLaMA、PaLM、GPT-NeoXなどの著名なLLMで採用されている人気の位置符号化手法であるロータリーポジション埋め込み(RoPE)を修正することで、LLMのコンテキストウィンドウを拡張しようと試みています。しかし、Position Interpolation(PI)やYaRNなどの先行研究はリソース集約的であり、その適用性を評価するための比較実験が不足しています。本研究では、LLMのアテンションエントロピー(すなわち、アテンションスコアの情報エントロピー)が安定性を維持するための内在的な必要性を特定し、RoPEの基本周波数を調整し、アテンションロジットをスケーリングすることで、LLMが効率的に大きなコンテキストウィンドウに適応できるようにするRoPEの新たな拡張を提案します。我々は、様々なコンテキスト要求タスクにおいて、異なるコンテキストウィンドウサイズでのファインチューニング性能とロバスト性の優位性を検証しました。特に、我々の手法は、LLaMA-2-7B-Chatのコンテキストウィンドウを16,384に拡張し、わずか100サンプルと6トレーニングステップで、驚異的な効率性を示しました。最後に、特定の下流タスクにおけるコンテキストウィンドウ拡張にデータ構成とトレーニングカリキュラムがどのように影響するかを探り、長い会話でLLMをファインチューニングすることが良い出発点であることを示唆しています。我々は、コードとSFTデータをhttps://github.com/GAIR-NLP/Entropy-ABFで公開しています。
近年、DALL-E、Craiyon、Stable Diffusionなどの機械学習モデルは、簡潔な記述から高解像度の画像を生成する能力により、大きな注目を集めています。同時に、量子コンピューティング、特に量子機械学習は、量子力学を活用して従来の機械学習アルゴリズムの増大する計算要件に対応する有望な進展を示しています。本論文では、量子機械学習と変分量子回路の統合を探求し、拡散ベースの画像生成モデルの効率を向上させることを目的としています。具体的には、古典的な拡散モデルが抱える2つの課題、すなわちサンプリング速度の低さと膨大なパラメータ要件に取り組みます。我々は2つの量子拡散モデルを導入し、MNIST数字、Fashion MNIST、CIFAR-10を用いて古典的なモデルと比較評価を行いました。我々のモデルは、同程度のパラメータ数を持つ古典モデルを性能指標FID、SSIM、PSNRにおいて上回りました。さらに、拡散プロセスを単一ステップに統合し、高速なワンステップ画像生成を可能にする一貫性モデルユニタリシングルサンプリングアーキテクチャを提案します。
生成モデリングにおける最新の顕著な進展にもかかわらず、テキストプロンプトから高品質な3Dアセットを効率的に生成することは依然として困難な課題です。主な課題はデータの不足にあります。最も大規模な3Dデータセットでも数百万のアセットしか含まれていないのに対し、2Dデータセットには数十億のテキスト-画像ペアが存在します。この問題に対処するため、我々は大規模な事前学習済み2D拡散モデルの力を活用する新しいアプローチを提案します。具体的には、我々のアプローチであるHexaGen3Dは、事前学習済みのテキスト-to-画像モデルを微調整し、6つの正射投影図と対応する潜在トライプレーンを同時に予測します。その後、これらの潜在変数をデコードしてテクスチャ付きメッシュを生成します。HexaGen3Dはサンプルごとの最適化を必要とせず、テキストプロンプトから7秒で高品質かつ多様なオブジェクトを推論でき、既存のアプローチと比較して品質とレイテンシのトレードオフを大幅に改善します。さらに、HexaGen3Dは新しいオブジェクトや構成に対する強い汎化性能を示します。