翻訳付きの日次キュレーションされたAI研究論文
我々は、オープンウェイトの事前学習済み大規模言語モデル(LLM)ファミリーに対して、シンプルなレイヤープルーニング戦略を実証的に研究した。その結果、層の大部分(最大で半分)を削除するまで、様々な質問応答ベンチマークにおける性能の低下は最小限であることがわかった。これらのモデルをプルーニングするために、層間の類似性を考慮して最適な層ブロックを特定し、その後、損傷を「修復」するために少量のファインチューニングを実施した。特に、パラメータ効率的なファインチューニング(PEFT)手法、具体的には量子化と低ランクアダプター(QLoRA)を使用し、各実験を単一のA100 GPUで実行できるようにした。実用的な観点から、これらの結果は、レイヤープルーニング手法が他のPEFT戦略を補完し、一方ではファインチューニングの計算リソースをさらに削減し、他方では推論時のメモリとレイテンシを改善できることを示唆している。科学的な観点から、これらのLLMが層の削除に対して頑健であることは、現在の事前学習手法がネットワークの深層にあるパラメータを適切に活用していないか、あるいは浅い層が知識を保存する上で重要な役割を果たしていることを意味している。
ChatGPTやGPT-4のような大規模言語モデル(LLM)の進化は、人工汎用知能(AGI)の到来に関する議論を引き起こしています。しかし、このような進歩をオープンソースモデルで再現することは困難でした。本論文では、InternLM2を紹介します。これは、6つの次元と30のベンチマークにわたる包括的評価、長文脈モデリング、およびオープンエンドの主観的評価において、先行モデルを上回る性能を発揮するオープンソースLLMです。InternLM2は、革新的な事前学習と最適化技術を採用しています。InternLM2の事前学習プロセスは詳細に説明されており、テキスト、コード、長文脈データなど多様なデータタイプの準備が強調されています。InternLM2は長期的な依存関係を効率的に捉え、最初に4kトークンで学習され、その後32kトークンで事前学習と微調整が行われ、200kの「Needle-in-a-Haystack」テストで顕著な性能を示します。InternLM2はさらに、教師あり微調整(SFT)と、人間の好みの衝突や報酬ハッキングに対処する新しいConditional Online Reinforcement Learning from Human Feedback(COOL RLHF)戦略を用いて調整されています。異なる学習段階とモデルサイズのInternLM2モデルを公開することで、コミュニティにモデルの進化に関する洞察を提供します。
3Dガウシアンスプラッティング(3DGS)は最近、ラディアンスフィールドの再構築に革命をもたらし、ベイキングなしで高品質な新視点合成と高速なレンダリングを実現しました。しかし、3Dガウシアンの多視点非整合性の性質により、3DGSは表面を正確に表現することができません。本論文では、多視点画像から幾何学的に正確なラディアンスフィールドをモデル化および再構築するための新しいアプローチである2Dガウシアンスプラッティング(2DGS)を提案します。私たちの鍵となるアイデアは、3Dボリュームを一連の2D指向平面ガウシアンディスクに折りたたむことです。3Dガウシアンとは異なり、2Dガウシアンは視点整合性のある幾何学を提供し、表面を本質的にモデル化します。薄い表面を正確に復元し、安定した最適化を実現するために、レイ-スプラット交差とラスタライゼーションを利用した視点正確な2Dスプラッティングプロセスを導入します。さらに、深度歪みと法線整合性の項を組み込むことで、再構築の品質をさらに向上させます。私たちの微分可能レンダラーは、ノイズのない詳細な幾何学再構築を可能にしつつ、競争力のある外観品質、高速な学習速度、リアルタイムレンダリングを維持することを実証します。私たちのコードは公開される予定です。
テキストから画像(T2I)生成モデルの目覚ましい進歩により、美的に魅力的で写真のようにリアルな画像を生成できる高性能なモデルが多数登場しています。しかし、これらのモデルは依然として入力プロンプトと一致する画像を生成するのに苦労しており、オブジェクトの数量、関係、属性を適切に捉えることができないことが多々あります。プロンプトと画像の一貫性を向上させるための既存の解決策は、以下の課題に直面しています:(1)モデルのファインチューニングが必要な場合が多い、(2)近傍のプロンプトサンプルにのみ焦点を当てている、(3)画像品質、表現の多様性、プロンプトと画像の一貫性の間で不利なトレードオフが生じる。本論文では、これらの課題に対処し、大規模言語モデル(LLM)を活用してT2Iモデルのプロンプトと画像の一貫性を向上させるT2I最適化プロンプティングフレームワーク、OPT2Iを紹介します。私たちのフレームワークは、ユーザーのプロンプトから始まり、一貫性スコアを最大化することを目的として、反復的に修正されたプロンプトを生成します。MSCOCOとPartiPromptsの2つのデータセットでの広範な検証により、OPT2Iが初期の一貫性スコアをDSGスコアで最大24.9%向上させながら、FIDを維持し、生成データと実データ間のリコールを増加させることが示されました。私たちの研究は、LLMの力を活用して、より信頼性が高く堅牢なT2Iシステムを構築する道を切り開くものです。
最近のテキストから4D生成を行う技術では、事前学習済みのテキストからビデオ生成モデルからの監督を用いて動的な3Dシーンを合成しています。しかし、変形モデルや時間依存のニューラル表現など、既存のモーション表現は生成できる動きの量に制限があり、ボリュームレンダリングに使用されるバウンディングボックスを大きく超える動きを合成することができません。より柔軟なモーションモデルの欠如が、4D生成手法と最近のほぼフォトリアルなビデオ生成モデルとの間のリアリズムのギャップに寄与しています。ここでは、TC4D: 軌道条件付きテキストから4D生成を提案します。これは、モーションをグローバルとローカルの成分に分解するものです。シーンのバウンディングボックスのグローバルな動きを、スプラインによってパラメータ化された軌道に沿った剛体変換として表現します。テキストからビデオ生成モデルからの監督を用いて、グローバルな軌道に従うローカルな変形を学習します。私たちのアプローチは、任意の軌道に沿ってアニメーション化されたシーンの合成、構成可能なシーン生成、および生成される動きのリアリズムと量の大幅な改善を可能にします。これらを定性的に評価し、ユーザースタディを通じて検証しました。ビデオ結果は私たちのウェブサイトでご覧いただけます: https://sherwinbahmani.github.io/tc4d。
最近の3Dガウシアンスプラッティング(3D-GS)は、NeRFベースのニューラルシーン表現と比較して、驚異的なレンダリングの忠実度と効率性を示しています。リアルタイムレンダリングの可能性を示す一方で、3D-GSは、視錐台内に過剰な数のガウシアンプリミティブが存在する大規模で複雑なシーンにおいて、レンダリングのボトルネックに直面します。この制限は、ズームアウトビューで特に顕著であり、詳細が異なるシーンではレンダリング速度が一貫しないことがあります。さらに、異なるスケールでの対応する詳細レベルを、ヒューリスティックな密度制御操作で捉えることがしばしば困難です。Level-of-Detail(LOD)技術に着想を得て、我々はOctree-GSを導入しました。これは、最終的なレンダリング結果に貢献するシーン表現のための詳細レベル分解をサポートするLOD構造化された3Dガウシアンアプローチを特徴としています。我々のモデルは、マルチ解像度のアンカーポイントのセットから適切なレベルを動的に選択し、適応的なLOD調整を行いながら、高忠実度のレンダリング結果を維持しつつ、一貫したレンダリング性能を確保します。
本研究では、音声と参照用ポートレート画像に基づいて高品質なアニメーションを生成する新しいフレームワーク「AniPortrait」を提案する。我々の手法は2段階に分かれている。最初に、音声から3D中間表現を抽出し、それを2D顔面ランドマークのシーケンスに投影する。次に、堅牢な拡散モデルとモーションモジュールを組み合わせて、ランドマークシーケンスをフォトリアルで時間的に一貫したポートレートアニメーションに変換する。実験結果は、AniPortraitが顔の自然さ、ポーズの多様性、視覚的品質の点で優れていることを示しており、これにより強化された知覚体験を提供する。さらに、我々の手法は柔軟性と制御性の点で大きな可能性を示しており、顔のモーション編集やフェイスリエナクトメントなどの分野に効果的に応用できる。コードとモデルウェイトはhttps://github.com/scutzzj/AniPortraitで公開している。
本論文では、幾何学的ガイダンスを備えた新しいガウススプラッティングベースの手法であるDreamPolisherを提案する。この手法は、テキスト記述からクロスビュー一貫性と精緻なディテールを学習するために特別に設計されている。テキストから3Dを生成する手法の最近の進展は有望であるものの、既存の手法ではビュー間の一貫性とテクスチャの豊かさを確保できないことが多い。特に、テキスト入力のみを扱う手法においてこの問題が顕著である。この課題に対処するため、ビュー間の幾何学的な一貫性を強化する2段階のガウススプラッティングベースのアプローチを提案する。最初に、粗い3D生成が幾何学的な最適化によって洗練される。その後、幾何学的な一貫性項と組み合わせたControlNet駆動のリファイナを使用して、生成された3Dアセットのテクスチャの忠実度と全体的な一貫性を向上させる。様々なオブジェクトカテゴリにわたる多様なテキストプロンプトを用いた実証評価により、DreamPolisherがテキスト指示の意味論に密接に沿った一貫性とリアリティを備えた3Dオブジェクトを生成する有効性が示された。
本論文では、Intel Data Center GPU Max 1550をターゲットに最適化されたマルチレイヤーパーセプトロン(MLP)のSYCL実装を提案する。性能向上のために、我々の実装では、MLPの各層における演算を融合させることで、汎用レジスタファイルと共有ローカルメモリ内でのデータ再利用を最大化し、低速なグローバルメモリアクセスを最小化している。シンプルなルーフラインモデルを用いて、これが演算強度の大幅な向上をもたらし、特に推論において性能が向上することを示す。我々のアプローチをMLP用の類似したCUDA実装と比較し、Intel Data Center GPU上での我々の実装が、NvidiaのH100 GPU上のCUDA実装に対して、推論では最大2.84倍、学習では最大1.75倍の性能を発揮することを示す。また、本論文では、画像圧縮、ニューラルラジアンスフィールド、物理情報機械学習という3つの重要な領域において、我々のSYCL実装の効率性を実証する。全てのケースにおいて、我々の実装は、同じIntel GPU上の標準的なIntel Extension for PyTorch(IPEX)実装に対して最大30倍、NvidiaのH100 GPU上のCUDA PyTorchバージョンに対して最大19倍の性能を発揮する。コードはhttps://github.com/intel/tiny-dpcpp-nnで公開されている。