本論文では、高いID類似性、属性保存、画像忠実度、そして高速な推論速度を実現する拡散モデルベースの顔交換モデル「DreamID」を紹介します。従来の顔交換トレーニングプロセスは、暗黙的な監視に依存しがちで、満足のいく結果を得ることが難しい状況でした。DreamIDは、Triplet ID Groupデータを構築することで顔交換に対する明示的な監視を確立し、ID類似性と属性保存を大幅に向上させます。拡散モデルの反復的な性質は、効率的な画像空間損失関数の利用に課題を投げかけます。なぜなら、トレーニング中に生成画像を得るために時間のかかる多段階サンプリングを実行することは非現実的だからです。この問題に対処するため、我々は高速化された拡散モデルSD Turboを活用し、推論ステップを単一の反復に削減することで、明示的なTriplet ID Group監視を用いた効率的なピクセルレベルのエンドツーエンドトレーニングを可能にします。さらに、SwapNet、FaceNet、ID Adapterから構成される改良された拡散ベースのモデルアーキテクチャを提案します。この堅牢なアーキテクチャは、Triplet ID Groupの明示的監視の力を最大限に引き出します。最後に、我々の手法をさらに拡張するため、トレーニング中にTriplet ID Groupデータを明示的に修正し、眼鏡や顔の形などの特定の属性を微調整して保存します。大規模な実験により、DreamIDがID類似性、ポーズと表情の保存、画像忠実度の点で最先端の手法を凌駕することが実証されました。全体として、DreamIDは512*512解像度での高品質な顔交換結果をわずか0.6秒で達成し、複雑な照明、大きな角度、オクルージョンといった困難なシナリオでも優れた性能を発揮します。
最近、DeepSeek-R1(671B)(DeepSeek-AI et al., 2025)は複雑なタスクにおける優れた推論能力を実証し、その方法論を公開しました。これにより、小規模な大規模言語モデル(LLM)の推論能力を刺激するための高品質な連鎖思考(CoT)データが提供される可能性があります。異なるLLM向けに高品質なCoTデータを生成するため、我々はLLM適応型の質問難易度レベルを用いた効率的なCoTデータ生成方法を模索しています。まず、LLM自身の推論能力に基づいて質問の難易度を評価し、LLM適応型の質問データベースを構築します。次に、質問の難易度レベルに基づいて問題データベースをサンプリングし、DeepSeek-R1(671B)(DeepSeek-AI et al., 2025)を使用して対応する高品質なCoTデータと正解を生成します。LLM適応型の難易度レベルを持つCoTデータの構築により、データ生成のコストを大幅に削減し、モデルの教師あり微調整(SFT)の効率を向上させました。最後に、複雑な数学競技やコード生成タスクの分野において、提案手法の有効性と汎用性を検証しました。特に、わずか2kの高品質な数学CoTデータを用いて、我々のZMath-32Bは数学推論タスクにおいてDeepSeek-Distill-32Bを上回りました。同様に、わずか2kの高品質なコードCoTデータを用いて、ZCode-32Bはコード推論タスクにおいてDeepSeek-Distill-32Bを上回りました。