翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルのサイズ増大に伴い、デプロイメントにおける課題や、高いエネルギー消費による環境への影響が懸念されている。本研究では、大規模言語モデル向けに設計されたスケーラブルで安定した1ビットTransformerアーキテクチャであるBitNetを提案する。具体的には、1ビットの重みをゼロから学習するために、nn.Linear層の代替としてBitLinearを導入する。言語モデリングにおける実験結果から、BitNetは最先端の8ビット量子化手法やFP16 Transformerベースラインと比較して、競争力のある性能を維持しつつ、メモリフットプリントとエネルギー消費を大幅に削減することが示された。さらに、BitNetはフル精度のTransformerと同様のスケーリング則を示し、効率性と性能の利点を維持しながら、さらに大規模な言語モデルへの効果的なスケーリングの可能性を示唆している。
本論文は、4K解像度における動的3Dシーンの高忠実度かつリアルタイムなビュー合成を対象としている。最近、動的ビュー合成に関するいくつかの手法が印象的なレンダリング品質を示している。しかし、高解像度画像をレンダリングする際の速度は依然として制限されている。この問題を克服するため、我々はハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4D点群表現である4K4Dを提案する。我々の表現は4D特徴グリッドに基づいて構築されており、点群が自然に正則化され、堅牢に最適化される。さらに、効率を維持しながらレンダリング品質を大幅に向上させる新しいハイブリッド外観モデルを設計した。また、RGBビデオから提案モデルを効果的に学習するための微分可能な深度ピーリングアルゴリズムを開発した。実験結果によると、我々の表現はRTX 4090 GPUを使用して、DNA-Renderingデータセットでは1080p解像度で400 FPS以上、ENeRF-Outdoorデータセットでは4K解像度で80 FPSでレンダリング可能であり、従来の手法よりも30倍高速で、最先端のレンダリング品質を達成している。再現性のためにコードを公開する予定である。
低ランク適応(LoRA)は、大規模言語モデルのファインチューニングにおいて学習可能なパラメータ数を削減する一般的な手法であるが、さらに大規模なモデルへのスケーリングや、多数のユーザーごとまたはタスクごとの適応モデルの展開において、深刻なストレージの課題に直面している。本研究では、Vector-based Random Matrix Adaptation(VeRA)を提案し、LoRAと比較して学習可能なパラメータ数を10分の1に削減しながら、同等の性能を維持する。これは、すべての層で共有される単一の低ランク行列ペアを使用し、代わりに小さなスケーリングベクトルを学習することで実現される。GLUEおよびE2Eベンチマークにおける有効性を実証し、Llama2 7Bモデルを使用した指示追従タスクにおいて、わずか1.4Mのパラメータでその応用を示す。
本論文では、GPT-4Vなどの大規模マルチモーダルモデル(LMM)の視覚的基盤能力を引き出すための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案します。図1(右)に示すように、SAMなどの既存のインタラクティブセグメンテーションモデルを使用して、画像を異なる粒度レベルで領域に分割し、これらの領域にアルファベット数字、マスク、ボックスなどのマークを重ね合わせます。マークされた画像を入力として使用することで、GPT-4Vは視覚的基盤を必要とする質問に答えることができます。我々は、SoMの有効性を検証するために、幅広い細粒度視覚タスクおよびマルチモーダルタスクにおいて包括的な実証研究を行いました。例えば、我々の実験では、SoMを適用したGPT-4Vが、ゼロショット設定においてRefCOCOgでの最先端の完全微調整参照セグメンテーションモデルを上回ることを示しています。
近年、視覚と言語の生成モデルが急速に発展しています。ビデオ生成においては、高品質なビデオを生成するための様々なオープンソースモデルや公開サービスがリリースされています。しかし、これらの手法はしばしばFVDやISといった学術的な指標を用いて性能を評価しています。我々は、大規模な条件付き生成モデルを単純な指標で判断することは難しいと主張します。なぜなら、これらのモデルは非常に大規模なデータセットでトレーニングされ、多面的な能力を備えているからです。そこで、我々は生成されたビデオの性能を徹底的に評価するための新しいフレームワークとパイプラインを提案します。これを実現するために、まず大規模言語モデルの助けを借りて現実世界のプロンプトリストを分析し、テキストからビデオ生成のための新しいプロンプトリストを作成します。次に、視覚品質、内容品質、動きの品質、テキストキャプションの整合性といった観点から、約18の客観的指標を用いて最先端のビデオ生成モデルを慎重に設計されたベンチマークで評価します。モデルの最終的なリーダーボードを得るために、客観的指標をユーザーの意見に合わせるための一連の係数もフィッティングします。提案された意見整合手法に基づいて、我々の最終スコアは単に指標を平均するよりも高い相関を示し、提案された評価方法の有効性を実証しています。
ChatGPTのような大規模言語モデルは、ファインチューニングなしで推論中に新しい概念を学習する驚異的な能力を示します。しかし、推論中に新しい物体を検出するように訓練された視覚モデルは、この能力を再現することができず、代わりに性能が低いか、類似の物体に対するメタ学習やファインチューニングを必要とします。本研究では、ファインチューニングなしで推論中に新しい視覚概念を学習することで、大規模言語モデルを模倣するメタ学習アルゴリズムを提案します。我々のアプローチは、凍結された事前学習済み特徴抽出器を活用し、コンテキスト内学習と同様に、既知のラベルを持つデータポイントと未知のラベルを持つテストデータポイントに対するシーケンスモデリングとしてメタ学習を再構築します。11のメタ学習ベンチマークのうち8つにおいて、我々のアプローチは、メタ学習やファインチューニングなしで、これらのベンチマークでメタ学習された最先端のアルゴリズムP>M>Fを上回るか、同等の性能を達成しました。
ニューラルネットワーク(NN)の計算量とメモリ要件を性能を犠牲にすることなく削減するにはどうすればよいか?近年の多くの研究では、リソース効率の高い大規模言語モデル(LM)を構築するために、スパースなMixture of Experts(MoE)が使用されている。本論文では、MoEに関するいくつかの新しい視点を紹介し、2層NN(例えば、Transformerのフィードフォワードブロック)を近似するための様々な手法を統合する一般的なフレームワークを提示する。これには、Product-Key Memories(PKM)も含まれる。このフレームワークからの洞察を活用し、MoEとPKMの両方を改善する手法を提案する。従来の研究では、MoEを計算量が等しい条件下での密なベースラインと比較していたが、我々の評価条件はパラメータ数が等しいものであり、これはLMを適切に評価する上で重要である。我々のMoEは、WikiText-103とenwiki8の2つのデータセットにおいて、異なるスケールで密なTransformer-XLと競合しつつ、はるかにリソース効率が高いことを示す。これは、MoEが極めて大規模なLMだけでなく、あらゆるスケールのリソース効率の高いLMにも関連があることを示している。我々のコードは公開されている。
大規模言語モデル(LLM)が普及するにつれ、これらの現代的なアーキテクチャの計算要求を満たしつつ精度を維持するための新たで改良された量子化手法の必要性が高まっています。本論文では、TEQ(Trainable Equivalent Transformation)を提案します。これは、モデル出力のFP32精度を維持しながら、特に3ビットおよび4ビットの重みのみの量子化といった低精度量子化の利点を活かすことができる訓練可能な等価変換です。訓練プロセスは軽量で、わずか1,000ステップと元のモデルの訓練可能パラメータの0.1%未満しか必要としません。さらに、この変換は推論時に計算オーバーヘッドを一切追加しません。我々の結果は、典型的なLLMにおいて最先端(SOTA)の手法と同等です。我々のアプローチは他の手法と組み合わせることで、さらなる性能向上を実現することができます。コードはhttps://github.com/intel/neural-compressorで公開されています。
拡散モデルに基づくテキストから画像への生成技術が目覚ましい進歩を遂げる中、その強力な生成能力をテキストからビデオへと拡張することに大きな注目が集まっている。既存の手法は、大規模なテキストとビデオのペアおよび大量の学習リソースを必要とするか、テンプレートビデオと厳密に連動した動きを学習するものである。ビデオ生成における生成自由度とリソースコストのトレードオフをバランスさせることは容易ではない。本研究では、テキストから画像への拡散モデルが、単一のGPU上で8~16のビデオを用いて特定のモーションパターンを学習することを可能にする、少数ショットベースのチューニングフレームワーク「LAMP」を提案する。具体的には、既存のテキストから画像へのモデルをコンテンツ生成に利用する初フレーム条件付きパイプラインを設計し、チューニングされたビデオ拡散モデルが主に動きの学習に集中できるようにした。発展したテキストから画像への技術は、視覚的に魅力的で多様なコンテンツを生成条件として提供し、ビデオの品質と生成自由度を大幅に向上させる。時間次元の特徴を捉えるために、T2Iモデルの事前学習済み2D畳み込み層を新たな時空間モーション学習層に拡張し、アテンションブロックを時間レベルに修正した。さらに、計算コストを伴うがビデオの安定性を向上させる効果的な推論トリック「共有ノイズサンプリング」を開発した。本手法は、実世界の画像アニメーションやビデオ編集などの他のタスクにも柔軟に適用可能である。大規模な実験により、LAMPが限られたデータでモーションパターンを効果的に学習し、高品質なビデオを生成できることが実証された。コードとモデルはhttps://rq-wu.github.io/projects/LAMPで公開されている。
コード補完モデルは近年大きな進歩を遂げてきたが、現在広く使われている評価データセット(HumanEvalやMBPPなど)は、主に単一ファイル内でのコード補完タスクに焦点を当てている。このような過度に単純化された設定は、現実世界のソフトウェア開発シナリオを十分に反映しておらず、実際のリポジトリは複数のファイルにまたがり、多くのクロスファイル依存関係が存在し、コードを正確に補完するためにはクロスファイルのコンテキストにアクセスし理解することがしばしば必要となる。 このギャップを埋めるため、我々はCrossCodeEvalを提案する。これは、コードを正確に補完するために深いクロスファイルの文脈理解を必要とする、多様で多言語に対応したコード補完ベンチマークである。CrossCodeEvalは、Python、Java、TypeScript、C#という4つの人気プログラミング言語における、多様な現実世界のオープンソースで許諾されたリポジトリのセットに基づいて構築されている。正確な補完のために厳密にクロスファイルのコンテキストを必要とする例を作成するために、我々は現在のファイル内でクロスファイルのコンテキストが使用されている箇所を特定する、シンプルでありながら効率的な静的解析ベースのアプローチを提案する。 CodeGenやStarCoderのような最先端のコード言語モデルを用いた大規模な実験により、CrossCodeEvalは関連するクロスファイルのコンテキストが欠如している場合に極めて困難であることが示され、プロンプトにこれらのコンテキストを追加することで明確な改善が見られた。しかし、そのような改善にもかかわらず、最高性能のモデルであっても最高のパフォーマンスには明らかに到達しておらず、CrossCodeEvalが広範なコンテキストを活用してより良いコード補完を行うモデルの能力を評価するのに適していることが示唆される。最後に、クロスファイルのコンテキストを取得するための様々な方法をベンチマークし、CrossCodeEvalがコード検索器の能力を測定するためにも使用できることを示す。