翻訳付きの日次キュレーションされたAI研究論文
本技術レポートでは、化学分野に特化した初のオープンソースマルチモーダル大規模言語モデル「ChemVLM」を提案します。このモデルは、化学画像理解とテキスト分析の間の非互換性に対処するために設計されています。VIT-MLP-LLMアーキテクチャを基盤として、ChemLLM-20Bを基盤モデルとして活用し、化学テキスト知識の理解と利用において強力な能力を備えています。さらに、InternVIT-6Bを強力な画像エンコーダとして採用しています。化学領域から高品質なデータ(分子、反応式、化学試験データなど)を収集し、これらをバイリンガルマルチモーダル質問応答データセットにまとめました。複数のオープンソースベンチマークと3つのカスタム評価セットを用いてモデルの性能をテストしました。実験結果は、本モデルが優れた性能を発揮し、6つのタスクのうち5つで最先端の結果を達成したことを示しています。本モデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで公開されています。
テキストから画像を生成するモデルは、画像作成において強力なツールです。しかし、その生成プロセスはサイコロを振るようなものであり、ユーザーが望むすべてを捉えた一枚の画像を実現することは困難です。本論文では、生成された画像のさまざまな部分を合成することで、望ましい画像を作成するためのフレームワークを提案します。これは本質的に、生成フォトモンタージュを形成するものです。ControlNetによって同じ入力条件と異なるシードで生成された一連の画像が与えられた場合、ユーザーはブラシストロークインターフェースを使用して、生成結果から望ましい部分を選択できます。私たちは、ユーザーのブラシストロークを取り込み、拡散特徴空間におけるグラフベースの最適化を使用して生成された画像をセグメント化し、その後、新しい特徴空間ブレンディング手法によってセグメント化された領域を合成する新技術を導入します。私たちの手法は、ユーザーが選択した領域を忠実に保持しつつ、それらを調和して合成します。この柔軟なフレームワークが、新しい外観の組み合わせの生成、誤った形状やアーティファクトの修正、プロンプトの整合性の向上など、多くのアプリケーションに使用できることを示します。各アプリケーションにおいて説得力のある結果を示し、私たちの手法が既存の画像ブレンディング手法やさまざまなベースラインを上回ることを実証します。
本論文では、70億、340億、700億パラメータの多言語モデル群であるAquila2シリーズを紹介する。これらのモデルは、HeuriMentor(HM)と呼ばれる革新的なフレームワークに基づいて訓練されており、モデルの収束状況をリアルタイムで把握し、訓練プロセスとデータ管理を強化する。HMシステムは、Adaptive Training Engine(ATE)、Training State Monitor(TSM)、Data Management Unit(DMU)で構成され、モデルの訓練進捗を精密に監視し、データ分布の効率的な最適化を可能にすることで、訓練効果を向上させる。広範な評価により、Aquila2モデルシリーズが英語と中国語のベンチマークで同等の性能を発揮することが示されている。特に、Aquila2-34BはInt4に量子化しても性能がわずかに低下するのみである。さらに、訓練コード(https://github.com/FlagOpen/FlagScale)とモデル重み(https://github.com/FlagAI-Open/Aquila2)を公開し、継続的な研究とアプリケーション開発を支援している。
大規模なデータセット「DeepSpeak」について説明する。これは、ウェブカメラの前で話し、ジェスチャーをする人々の本物とディープフェイクの映像から構成されている。この最初のバージョンのデータセットにおける本物の映像は、220人の多様な個人からなる9時間分の映像である。25時間以上の映像を占めるフェイク映像は、自然な音声とAI生成音声を用いた、さまざまな最先端のフェイススワップおよびリップシンクディープフェイクで構成されている。今後、異なるおよび更新されたディープフェイク技術を用いたこのデータセットの新バージョンをリリースする予定である。このデータセットは、研究および非商用目的で自由に利用可能であり、商用利用のリクエストは検討される。
最近のChain-of-Thoughts(CoT)およびProgram-of-Thoughts(PoT)手法の進展により、言語モデルの数学的推論能力が大幅に向上し、LLM(大規模言語モデル)との命令チューニングデータセットへの統合が容易になりました。しかし、大規模データセット作成の既存手法では、大量のシードデータとデータ合成のための高い計算コストが必要であり、スケーラビリティに大きな課題を抱えています。本論文では、プログラム的数学推論のためのスケーラブルな命令チューニングデータセットであるInfinityMATHを紹介します。この構築パイプラインでは、数値と数学的問題を分離し、数値に依存しないプログラムを合成することに重点を置いており、特定の数値への依存を最小限に抑えつつ、効率的かつ柔軟なスケーリングを可能にします。Llama2やCodeLlamaなどのオープンソースの言語およびコードモデルを用いたファインチューニング実験により、InfinityMATHの実用的な利点が実証されました。これらのファインチューニングされたモデルは、ドメイン内およびドメイン外のベンチマークにおいて、平均184.7%から514.3%の大幅な相対的改善を示しました。さらに、これらのモデルは、単純な数値変異を加えた強化版テストセットであるGSM8K+およびMATH+ベンチマークにおいて高い堅牢性を示しました。InfinityMATHは、モデルがより広範な数学的問題に対して汎用的かつ効果的であることを保証します。データはhttps://huggingface.co/datasets/flagopen/InfinityMATHで公開されています。
現実世界からキャプチャされた3Dシーンのモデリングと操作は、さまざまなアプリケーションにおいて重要な役割を果たし、研究関心が高まっています。これまでの編集に関する研究では、3Dメッシュを操作することで興味深い結果を達成してきましたが、正確に再構築されたメッシュが必要であり、3Dコンテンツ生成における応用が制限されていました。このギャップを埋めるため、我々は3Dガウシアンスプラッティングに基づく新しい単一画像駆動型3Dシーン編集手法を提案します。この手法では、2D画像平面上で直接コンテンツを編集することで直感的な操作を可能にします。我々の手法は、元のシーンのユーザ指定視点からレンダリングされた画像の編集版に合わせて3Dガウシアンを最適化することを学習します。長距離の物体変形を捉えるために、3Dガウシアンスプラッティングの最適化プロセスに位置損失を導入し、再パラメータ化を通じて勾配伝播を可能にします。指定視点からのレンダリング時に遮蔽される3Dガウシアンを扱うため、アンカーベースの構造を構築し、構造的安定性を維持しながら長距離変形を扱える粗から細への最適化戦略を採用します。さらに、非剛体変形領域を適応的に識別するための新しいマスキング戦略を設計し、微細なモデリングを実現します。広範な実験により、我々の手法が幾何学的な詳細、長距離変形、非剛体変形を扱う上で有効であり、従来の手法と比較して優れた編集の柔軟性と品質を実現することを示しました。
近年、様々な分布外シナリオを条件とした汎用波形生成タスクが研究されています。GANベースの手法は高速な波形生成においてその強みを示していますが、2段階テキスト音声合成のような訓練-推論のミスマッチシナリオに弱いという課題があります。一方、拡散モデルは他の領域で強力な生成性能を示していますが、波形生成タスクでは推論速度が遅いため注目を集めていません。何よりも、高解像度波形信号の自然な周期的特徴を明示的に分離できる生成器アーキテクチャは存在しませんでした。本論文では、新しい汎用波形生成モデルであるPeriodWaveを提案します。まず、ベクトル場を推定する際に波形信号の周期的特徴を捉えることができる周期認識フローマッチング推定器を導入します。さらに、異なる周期的特徴を捉えるために、重複を避けたマルチ周期推定器を活用します。周期数を増やすことで性能が大幅に向上しますが、これにはより多くの計算コストが必要です。この問題を軽減するため、周期ごとのバッチ推論によって並列にフィードフォワードできる単一周期条件付き汎用推定器も提案します。さらに、高周波数モデリングのために波形信号の周波数情報をロスレスに分離する離散ウェーブレット変換を活用し、波形生成における高周波数ノイズを低減するためにFreeUを導入します。実験結果は、我々のモデルがメルスペクトログラム再構成とテキスト音声合成タスクの両方において従来モデルを上回ることを示しています。全てのソースコードはhttps://github.com/sh-lee-prml/PeriodWaveで公開されます。
シーンの3Dセマンティクスを理解することは、エンボディドエージェントなどの様々なシナリオにおける基本的な課題です。NeRFや3DGSは新規視点合成において優れた性能を発揮しますが、これまでのセマンティクス理解手法は不完全な3D理解に留まっていました。具体的には、セグメンテーション結果は2Dマスクであり、その教師信号も2Dピクセルに基づいていました。本論文では、NeRFや3DGSによってモデル化されたシーンのより良い3D理解を追求するために、この問題設定を再検討します。1) 3Dポイントを直接教師信号として言語埋め込みフィールドを学習させます。これにより、マルチスケール言語埋め込みに依存することなく、最先端の精度を達成します。2) 事前学習済みの言語フィールドを3DGSに転移し、トレーニング時間や精度を犠牲にすることなく、初めてリアルタイムレンダリング速度を実現します。3) 再構築されたジオメトリとセマンティクスを同時に評価するための3Dクエリと評価プロトコルを導入します。コード、チェックポイント、アノテーションはオンラインで公開されます。プロジェクトページ: https://hyunji12.github.io/Open3DRF