翻訳付きの日次キュレーションされたAI研究論文
Stable Diffusionを含む大規模なテキスト画像生成モデルは、高精細でフォトリアルなポートレート画像を生成することが可能です。これらのモデルを特定の被写体やスタイルを合成するためにパーソナライズすることを目的とした研究が活発に行われており、提供された参照画像セットを使用して特定の被写体やスタイルを生成しようとしています。しかし、これらのパーソナライズ手法がもたらす結果は一見妥当ではあるものの、リアリズムに欠けることが多く、まだ商業的に実用可能なレベルには至っていません。これは特にポートレート画像生成において顕著で、人間の顔における不自然なアーティファクトは、人間の持つ固有のバイアスによって容易に認識されてしまいます。この問題に対処するため、我々はMagiCaptureを提案します。これは、わずかな被写体とスタイルの参照画像を使用して、被写体とスタイルの概念を統合し、高解像度のポートレート画像を生成するパーソナライズ手法です。例えば、いくつかのランダムな自撮り写真を与えると、我々のファインチューニングされたモデルは、パスポート写真やプロフィール写真などの特定のスタイルで高品質なポートレート画像を生成することができます。このタスクにおける主な課題は、合成された概念に対する正解データが存在しないことにより、最終的な出力の品質が低下し、被写体のアイデンティティが変化してしまうことです。これらの問題に対処するため、我々は新しいAttention Refocusing損失と補助的な事前情報を組み合わせた手法を提案します。これらは、この弱教師あり学習設定において堅牢な学習を促進します。また、我々のパイプラインには、高度にリアルな出力を確保するための追加の後処理ステップも含まれています。MagiCaptureは、定量的および定性的な評価において他のベースラインを上回り、非人間のオブジェクトにも一般化することが可能です。
大規模言語モデルのコード最適化への新たな応用を探求する。本論文では、コードサイズ最適化のためにLLVMアセンブリを最適化する7BパラメータのTransformerモデルをゼロから学習させた。このモデルは、最適化されていないアセンブリを入力として受け取り、プログラムを最適化するための最適なコンパイラオプションのリストを出力する。重要な点として、学習中にモデルに対して最適化前後の命令数を予測させ、さらに最適化されたコード自体も予測させる。これらの補助学習タスクにより、モデルの最適化性能が大幅に向上し、モデルの理解の深さが増す。 大規模なテストプログラム群を用いて評価を行った。本手法は、コンパイラを上回る3.0%の命令数削減を達成し、数千回のコンパイルを必要とする2つの最先端ベースラインを凌駕した。さらに、このモデルは驚くほど強力なコード推論能力を示し、91%の確率でコンパイル可能なコードを生成し、70%の確率でコンパイラの出力を完璧に模倣した。
新規視点合成という長年の課題には多くの応用があり、特にスポーツ放送分野で注目を集めています。サッカーのアクションをフォトリアルに再現する新規視点合成は、放送業界にとって非常に重要なテーマです。しかし、これまでに提案された産業ソリューションはわずかであり、合成リプレイが放送品質に近いものはさらに少ない状況です。最高峰の独自システムは、ピッチ周囲に複数の固定カメラを設置する以外、その内部動作に関する情報をほとんど公開していません。このようなタスクに複数の固定カメラを活用することは、公開データセットの不足から、学術的にもほとんど取り組まれていない課題です。つまり、大規模で主に静的な環境に、小さく高速に動く要素を再構築するという課題です。 最近、ニューラルラディアンスフィールド(NeRF)の登場により、多くの新規視点合成アプリケーションで驚異的な進展が見られています。深層学習の原理を活用することで、最も困難な設定でもフォトリアルな結果を生成できるようになりました。本研究では、動的NeRF、すなわち一般的な動的コンテンツを再構築するためのニューラルモデルを基に、この課題に対するソリューションの実現可能性を探ります。私たちは合成サッカー環境を構築し、それらを用いて複数の実験を行い、動的NeRFでサッカーシーンを再構築するための重要な要素を特定しました。このアプローチはターゲットアプリケーションの品質要件を完全には満たせないものの、コスト効率の良い自動ソリューションに向けた有望な道筋を示唆しています。また、私たちは研究コミュニティが動的サッカーシーンの新規視点合成タスクにさらに取り組むことを奨励するため、データセットとコードを公開しました。コード、データ、およびビデオ結果については、https://soccernerfs.isach.be をご覧ください。
言語モデルの人間の選好との整合性を向上させることは、依然として活発な研究課題です。従来のアプローチでは、主にProximal Policy Optimization (PPO)などのオンライン強化学習手法を用いた人間のフィードバックからの強化学習(RLHF)が利用されてきました。最近では、Sequence Likelihood Calibration (SLiC)やDirect Preference Optimization (DPO)といったオフライン手法が、安定性と拡張性を向上させつつ競争力のある性能を維持する魅力的な代替手段として登場しています。SLiCは、教師ありファインチューニング(SFT)ポリシーからサンプリングされたシーケンスペアを使用して損失関数を改良し、DPOは報酬モデルを必要とせずに選好データに基づいて言語モデルを直接最適化します。しかし、目標とする最適ポリシーの最尤推定(MLE)には、そのポリシーからサンプリングされたラベル付き選好ペアが必要です。DPOは報酬モデルを持たないため、最適ポリシーから選好ペアをサンプリングする能力が制限され、SLiCはSFTポリシーからのみ選好ペアをサンプリングすることに制約されています。これらの制限に対処するため、我々は拒否サンプリングを使用して目標最適ポリシーから選好データを取得することを目指す新しいアプローチ、Statistical Rejection Sampling Optimization (RSO)を導入し、最適ポリシーのより正確な推定を可能にします。また、選好モデリングの観点からSLiCとDPOの両方で使用される損失関数を強化する統一フレームワークを提案します。3つの多様なタスクにわたる広範な実験を通じて、RSOが大規模言語モデル(LLM)と人間の評価者の両方の評価において、SLiCとDPOを一貫して上回ることを実証します。
大規模なテキストから画像への変換モデルの最近の進展は、芸術分野において顕著な成果を上げ、さまざまな応用が可能となっている。しかし、芸術作品の独自の特徴(例えば、筆遣い、色調、構図など)をテキストプロンプトのみで表現することは、言語記述の本質的な制約により限界に直面する可能性がある。この問題に対処するため、我々はDreamStylerを提案する。これは、テキストから画像への合成とスタイル転送の両方に精通した、芸術的画像合成のための新しいフレームワークである。DreamStylerは、文脈を考慮したテキストプロンプトを用いて多段階のテキスト埋め込みを最適化し、優れた画質を実現する。さらに、内容とスタイルのガイダンスを活用することで、DreamStylerは多様なスタイル参照に対応する柔軟性を示す。実験結果は、複数のシナリオにおいてその優れた性能を実証し、芸術作品の創作における有望な可能性を示唆している。
私たちの目標は、テキスト記述のみを用いて、髪やアクセサリーを含むリアルな3D顔面アバターを作成することです。この課題は近年大きな関心を集めていますが、既存の手法はリアリズムに欠けていたり、非現実的な形状を生成したり、ヘアスタイルの変更などの編集をサポートしていないという問題があります。私たちは、既存の手法が限定的である理由として、頭部、顔、髪、アクセサリーを単一の表現でモデル化するモノリシックなアプローチを採用している点を指摘します。例えば、髪と顔は構造的に非常に異なる特性を持っており、異なる表現が有効であると観察しています。この洞察に基づき、私たちは合成モデルを用いてアバターを生成します。このモデルでは、頭部、顔、上半身は従来の3Dメッシュで表現し、髪、衣服、アクセサリーはニューラルラジアンスフィールド(NeRF)で表現します。モデルベースのメッシュ表現は、顔領域に対して強力な幾何学的な事前知識を提供し、リアリズムを向上させると同時に、人物の外見の編集を可能にします。残りのコンポーネントをNeRFで表現することで、私たちの手法は、巻き毛やふわふわしたマフラーなど、複雑な形状と外観を持つ部分をモデル化および合成することができます。私たちの新しいシステムは、これらの高品質な合成アバターをテキスト記述から合成します。実験結果は、私たちの手法「テキストガイドによる合成アバターの生成と編集(TECA)」が、最近の手法よりもリアルなアバターを生成し、その合成性により編集可能であることを示しています。例えば、TECAは、ヘアスタイル、マフラー、その他のアクセサリーなどの合成特徴をアバター間でシームレスに転移することができます。この機能は、仮想試着などのアプリケーションをサポートします。
物体のシェーディングを単一画像から推論し、ツリー構造表現を構築する手法を研究する。従来の研究では、シェーディングをモデル化するためにパラメトリックまたは計測された表現が一般的に使用されてきたが、これらは解釈が難く、編集も容易ではなかった。本研究では、基本的なシェーディングノードと合成方法を組み合わせて物体表面のシェーディングを分解するシェードツリー表現を提案する。シェードツリー表現により、物理的なシェーディングプロセスに不慣れな初心者ユーザーでも、効率的かつ直感的に物体のシェーディングを編集できるようになる。シェードツリーを推論する際の主な課題は、推論問題が離散的なツリー構造とツリーノードの連続パラメータの両方を含むことである。この問題に対処するため、ハイブリッドアプローチを提案する。まず、自己回帰型推論モデルを導入してツリー構造とノードパラメータの大まかな推定を生成し、その後、最適化アルゴリズムを通じて推論されたシェードツリーを微調整する。合成画像、キャプチャされた反射率、実画像、および非写実的なベクタードローイングを用いた実験を行い、マテリアル編集、ベクトル化されたシェーディング、リライティングなどの下流アプリケーションの可能性を示す。プロジェクトウェブサイト: https://chen-geng.com/inv-shade-trees