翻訳付きの日次キュレーションされたAI研究論文
現代の大規模言語モデルによって生成されたテキストを検出することは困難であると考えられており、それはLLMと人間の両方が多様で複雑な振る舞いを示すためです。しかし、我々は、密接に関連する2つの言語モデルを対比させることに基づくスコアが、人間が生成したテキストと機械が生成したテキストを高い精度で区別できることを発見しました。このメカニズムに基づいて、我々は、事前に訓練された一対のLLMを使用するだけで簡単な計算を行う新しいLLM検出器を提案します。この手法は「Binoculars」と呼ばれ、トレーニングデータを一切必要とせずに最先端の精度を達成します。Binocularsは、モデル固有の修正を加えることなく、さまざまな現代のLLMから生成されたテキストを検出することが可能です。我々は、Binocularsを多数のテキストソースと多様な状況で包括的に評価しました。広範なドキュメントタイプにわたって、BinocularsはChatGPT(および他のLLM)から生成されたサンプルの90%以上を、0.01%の偽陽性率で検出します。これは、ChatGPTのデータでトレーニングされていないにもかかわらず達成された成果です。
オープンソースの大規模言語モデル(LLM)のロールプレイ能力を向上させるために、プロプライエタリなモデルを模倣する取り組みが多大に投資されてきた。しかしながら、我々はLLMが本質的にロールプレイ能力を有していると主張する。これは、その膨大な訓練コーパスに埋め込まれたキャラクターや潜在的な対話に関する広範な知識によるものである。したがって、本研究では、ロールプレイのための自己アライメント手法であるDittoを紹介する。Dittoはキャラクター知識を活用し、指示追従型LLMに読解の一形態としてロールプレイ対話をシミュレートするよう促す。この手法により、4,000キャラクターからなるロールプレイ訓練セットが作成され、現在利用可能なデータセットの役割数に関して10倍の規模を超える。その後、この自己生成データセットを用いてLLMを微調整し、そのロールプレイ能力を強化する。我々が慎重に構築し再現可能なロールプレイベンチマークおよびMT-Benchのロールプレイサブセットを評価した結果、Dittoは様々なパラメータスケールにおいて一貫した役割同一性を維持し、多ターンロールプレイ会話において正確な役割固有の知識を提供する。特に、全てのオープンソースロールプレイベースラインを上回り、高度なプロプライエタリチャットボットに匹敵する性能レベルを示す。さらに、ロールプレイ領域における初の包括的なクロススーパービジョンアライメント実験を提示し、LLMの内在的能力がロールプレイ内の知識を制限することを明らかにする。一方で、ロールプレイスタイルはより小さなモデルの指導により容易に獲得できることを示す。関連リソースはhttps://github.com/OFA-Sys/Dittoでオープンソース化している。
メタプロンプティングを紹介します。これは言語モデル(LM)の機能を強化するために設計された効果的な足場技法です。このアプローチにより、単一のLMを多面的な指揮者に変え、複数の独立したLMクエリを管理・統合する能力を備えさせます。高レベルの指示を用いることで、メタプロンプティングはLMに複雑なタスクをより小さく管理可能なサブタスクに分解するよう導きます。これらのサブタスクは、それぞれ特定のカスタマイズされた指示の下で動作する、同じLMの異なる「専門家」インスタンスによって処理されます。このプロセスの中心となるのは、指揮者としての役割を果たすLM自体であり、専門家モデルからの出力をシームレスに通信し効果的に統合します。さらに、LMはその内在する批判的思考と堅牢な検証プロセスを活用して、最終結果を洗練し認証します。この協調的なプロンプティングアプローチにより、単一のLMが包括的なオーケストレーターと多様な専門家パネルの両方の役割を同時に果たすことが可能になり、幅広いタスクにおけるパフォーマンスが大幅に向上します。メタプロンプティングのゼロショットかつタスク非依存の性質は、詳細なタスク固有の指示を不要にすることでユーザーインタラクションを大幅に簡素化します。さらに、私たちの研究は、Pythonインタプリタなどの外部ツールをメタプロンプティングフレームワークにシームレスに統合することを実証し、その適用性と有用性を広げています。GPT-4を用いた厳密な実験を通じて、メタプロンプティングが従来の足場技法を上回ることを確認しました:24ゲーム、ワンチェックメイト、Pythonプログラミングパズルを含む全てのタスクを平均すると、Pythonインタプリタ機能を強化したメタプロンプティングは、標準プロンプティングを17.1%、専門家(動的)プロンプティングを17.3%、マルチパーソナプロンプティングを15.2%上回りました。
Diffusionモデルはテキストから画像への生成および編集において卓越した性能を示しています。しかし、既存の手法では、複数の属性や関係性を持つ複数のオブジェクトを含む複雑なテキストプロンプトを扱う際に課題に直面することが多いです。本論文では、マルチモーダルLLMの強力な連鎖思考推論能力を活用して、テキストから画像へのDiffusionモデルの構成性を向上させる、新たなトレーニング不要のテキストから画像生成/編集フレームワーク、Recaption, Plan and Generate (RPG)を提案します。我々のアプローチでは、MLLMをグローバルプランナーとして利用し、複雑な画像の生成プロセスをサブリージョン内の複数のより単純な生成タスクに分解します。また、リージョンごとの構成生成を可能にする補完的なリージョナルDiffusionを提案します。さらに、提案したRPG内でテキストガイド付き画像生成と編集を閉ループ方式で統合し、汎化能力を向上させます。広範な実験により、我々のRPGがDALL-E 3やSDXLを含む最先端のテキストから画像へのDiffusionモデルを凌駕し、特に多カテゴリオブジェクトの構成とテキスト-画像の意味的整合性において優れていることが示されました。特に、我々のRPGフレームワークは、MiniGPT-4などの様々なMLLMアーキテクチャやControlNetなどのDiffusionバックボーンとの広範な互換性を示しています。コードは以下で公開されています: https://github.com/YangLing0818/RPG-DiffusionMaster
テキストから画像を生成する拡散モデルは、高品質な画像生成において驚異的な能力を発揮する深層生成モデルの一種です。しかし、これらのモデルはウェブ規模のテキスト-画像トレーニングペアから生じる暗黙のバイアスに影響を受けやすく、私たちが重視する画像の側面を不正確にモデル化する可能性があります。これにより、最適でないサンプル、モデルのバイアス、人間の倫理や嗜好に沿わない画像が生成されることがあります。本論文では、人間の嗜好、構成性、公平性など多様な報酬関数に基づいて、数百万枚の画像に対して強化学習(RL)を用いて拡散モデルを改善する効果的でスケーラブルなアルゴリズムを提案します。私たちのアプローチが、拡散モデルを人間の嗜好に合わせる既存の手法を大幅に上回ることを示します。さらに、この手法が事前学習済みのStable Diffusion(SD)モデルを大幅に改善し、ベースのSDモデルから生成されたサンプルよりも80.3%の確率で人間に好まれるサンプルを生成すると同時に、生成されたサンプルの構成と多様性の両方を向上させることを実証します。
空間関係の理解と推論は、視覚的質問応答(VQA)とロボティクスにおける基本的な能力である。視覚言語モデル(VLM)は特定のVQAベンチマークで顕著な性能を示しているものの、距離やサイズの違いといった物理的オブジェクトの定量的関係を認識するといった3D空間推論の能力はまだ不足している。我々は、VLMの空間推論能力の限界が、訓練データにおける3D空間知識の欠如によるものであると仮説を立て、インターネット規模の空間推論データを用いてVLMを訓練することでこの問題を解決することを目指す。この目的のために、我々はこのアプローチを促進するシステムを提案する。まず、1000万枚の実世界の画像に基づいて20億のVQA例を生成する自動3D空間VQAデータ生成フレームワークを開発する。次に、データ品質、訓練パイプライン、VLMアーキテクチャといった訓練レシピにおける様々な要因を調査する。我々の研究は、メトリック空間における初のインターネット規模の3D空間推論データセットを特徴としている。このようなデータを用いてVLMを訓練することで、定性的および定量的な空間VQAにおける能力を大幅に向上させる。最後に、このVLMが定量的推定能力により、連鎖的思考による空間推論やロボティクスにおける新たな下流アプリケーションを可能にすることを示す。プロジェクトウェブサイト: https://spatial-vlm.github.io/
大規模マルチモーダルモデル(LMM)の能力が進化を続ける中、その性能を評価する必要性が高まっています。さらに、中国語などの非英語コンテキストにおけるLMMの高度な知識と推論能力を評価する分野には、より大きなギャップが存在します。本論文では、中国語コンテキストにおいて大学レベルの専門知識と慎重な推論を必要とするタスクでLMMを評価するために設計された新しいベンチマーク、CMMMU(Chinese Massive Multi-discipline Multimodal Understanding)を紹介します。CMMMUはMMMUのアノテーションと分析パターンに着想を得て、それを厳密に踏襲しています。 CMMMUは、大学の試験、クイズ、教科書から手作業で収集した12,000のマルチモーダル問題を含み、Art & Design、Business、Science、Health & Medicine、Humanities & Social Science、Tech & Engineeringの6つの主要な学問分野をカバーしています。これは、その姉妹版であるMMMUと同様です。これらの問題は30の科目にまたがり、チャート、図表、地図、表、楽譜、化学構造など39の非常に多様な画像タイプで構成されています。 CMMMUは、中国語コンテキストにおけるドメイン固有の知識を用いた複雑な知覚と推論に焦点を当てています。我々は11のオープンソースLLMと1つのプロプライエタリモデルであるGPT-4V(ision)を評価しました。GPT-4Vでさえ42%の正答率しか達成できず、改善の余地が大きいことが示されています。CMMMUは、専門家レベルの人工知能を目指す次世代LMMの構築をコミュニティに促し、多様な言語コンテキストを提供することでLMMの民主化を推進するでしょう。
胸部X線(CXR)は、臨床現場で最も頻繁に行われる画像検査です。近年の視覚-言語基盤モデル(FM)の開発の進展により、自動化されたCXR解釈が可能となり、医師の臨床意思決定を支援し、患者のアウトカムを改善することが期待されています。しかし、CXRを正確に解釈できるFMを開発するには、(1) 医療画像領域における大規模な視覚-言語データセットの限られた可用性、(2) 医療データの複雑さを捉えることができる視覚および言語エンコーダの不足、(3) CXR解釈におけるFMの能力をベンチマークする評価フレームワークの欠如、といった課題があります。本研究では、これらの課題に対処するため、まず28の公開データセットからキュレーションされた大規模な指示チューニングデータセットであるCheXinstructを導入します。次に、CXRを分析し要約することができる指示チューニング済みFMであるCheXagentを提案します。CheXagentを構築するために、放射線レポートを解析するための臨床用大規模言語モデル(LLM)、CXR画像を表現するための視覚エンコーダ、および視覚と言語モダリティを橋渡しするネットワークを設計します。最後に、8つの臨床的に重要なCXR解釈タスクにわたってFMを体系的に評価するための新しいベンチマークであるCheXbenchを導入します。5人の専門放射線科医による詳細な定量的評価と定性的レビューにより、CheXagentがCheXbenchタスクにおいて、これまでに開発された一般領域および医療領域のFMを上回る性能を示すことが実証されました。さらに、モデルの透明性を向上させるため、性別、人種、年齢にわたる公平性評価を行い、潜在的な性能の差異を明らかにしました。本プロジェクトの詳細はhttps://stanford-aimi.github.io/chexagent.htmlに掲載されています。
本論文では、Hourglass Diffusion Transformer(HDiT)を提案する。これはピクセル数に対して線形スケーリングを示す画像生成モデルであり、高解像度(例:1024×1024)での直接的なピクセル空間での学習を可能にする。Transformerアーキテクチャを基盤として構築されたHDiTは、数十億パラメータへのスケーリングが可能なTransformerの特性を活かし、畳み込みU-Netの効率性とTransformerのスケーラビリティの間のギャップを埋める。HDiTは、マルチスケールアーキテクチャ、潜在オートエンコーダ、または自己条件付けといった従来の高解像度学習技術を必要とせずに成功裏に学習を行う。ImageNet 256^2において既存モデルと競合する性能を示し、FFHQ-1024^2では拡散モデルにおける新たなstate-of-the-artを達成することを実証する。
我々はDiffusion Inference-Time T-Optimization (DITTO)を提案する。これは、事前学習済みのテキストtoミュージック拡散モデルを推論時に初期ノイズ潜在変数を最適化することで制御するための汎用フレームワークである。本手法は、任意の微分可能な特徴マッチング損失を最適化して目標(スタイル化された)出力を達成するために使用でき、メモリ効率のために勾配チェックポインティングを活用する。我々は、音楽生成における驚くほど幅広い応用例を実証しており、インペインティング、アウトペインティング、ルーピング、および強度、メロディー、音楽構造の制御を、基盤となるモデルを微調整することなく実現している。関連する学習、ガイダンス、最適化ベースの手法と比較した場合、DITTOはほぼ全てのタスクで最先端の性能を達成し、制御性、音質、計算効率において同等のアプローチを上回る結果を示した。これにより、高品質で柔軟な、学習不要の拡散モデル制御の扉が開かれた。音声サンプルはhttps://DITTO-Music.github.io/web/で確認できる。
大規模言語モデル(LLM)を人間の選好に合わせるために強化学習(RLHF)を用いる場合、報酬モデル(RM)の欠陥を利用して、本来の目的を達成せずに表面的に高い報酬を得ようとする「報酬ハッキング」が発生する可能性があります。報酬ハッキングを軽減するためのRM設計において、我々は2つの主要な課題を特定しました:RLプロセス中の分布シフトと、人間の選好の不整合です。これらの課題に対する解決策として、我々は「重み平均化報酬モデル(WARM)」を提案します。WARMでは、まず複数のRMをファインチューニングし、その後それらの重みを重み空間で平均化します。この戦略は、同じ事前学習を共有する場合、ファインチューニングされた重みが線形モード接続性を保つという観察に基づいています。重みを平均化することで、WARMは従来の予測のアンサンブルに比べて効率性を向上させると同時に、分布シフト下での信頼性と選好の不整合に対する頑健性を高めます。要約タスクにおける実験では、best-of-N法とRL法を用いて、WARMがLLMの予測の全体的な品質と整合性を向上させることを示しています。例えば、WARMでRLファインチューニングされたポリシーは、単一のRMでRLファインチューニングされたポリシーに対して79.4%の勝率を達成しました。
拡散モデルは最近、セマンティックセグメンテーションタスクにおける優れた転移能力から研究の注目を集めています。しかし、拡散モデルを用いて細粒度のセグメンテーションマスクを生成するには、注釈付きデータセットでの追加学習が必要となることが多く、事前学習済みの拡散モデル単体で生成画像のセマンティック関係をどの程度理解しているかは不明瞭です。この疑問を解決するため、我々はStable Diffusion(SD)から抽出したセマンティック知識を活用し、追加の学習なしで細粒度のセグメンテーションマップを生成可能な画像セグメンターの開発を目指します。主な困難は、セマンティックに意味のある特徴マップが通常、空間的に低次元の層にのみ存在するため、これらの特徴マップから直接ピクセルレベルのセマンティック関係を抽出することが難しい点にあります。この問題を克服するため、我々のフレームワークは、SDの生成プロセスを活用して画像ピクセルと低次元特徴マップの空間位置間のセマンティック対応関係を特定し、それらを画像解像度のセグメンテーションマップ構築に利用します。大規模な実験において、生成されたセグメンテーションマップは明確に輪郭が描かれ、画像の詳細な部分を捉えていることが示され、拡散モデルに高精度なピクセルレベルのセマンティック知識が存在することを示唆しています。
自然言語や画像のための大規模生成モデルの学習において、重要な進展が見られています。しかし、3D生成モデルの進歩は、その訓練に必要な膨大なリソースと、非効率的で非コンパクト、かつ表現力の低い表現によって妨げられています。本論文では、大規模な訓練を効率的に行い、1000万の公開形状を利用可能な新しい3D生成モデル「Make-A-Shape」を紹介します。技術的には、まず、サブバンド係数フィルタリングスキームを定式化して係数間の関係を効率的に活用し、形状をコンパクトにエンコードするウェーブレットツリー表現を考案します。次に、低解像度グリッドに表現をレイアウトするサブバンド係数パッキングスキームを設計し、拡散モデルによって生成可能な表現とします。さらに、粗いウェーブレット係数と詳細なウェーブレット係数を効果的に学習するためのサブバンド適応型訓練戦略を導出します。最後に、追加の入力条件によって制御可能なフレームワークに拡張し、単一/複数視点画像、点群、低解像度ボクセルなど、さまざまなモダリティから形状を生成できるようにします。広範な実験を通じて、無条件生成、形状補完、多様なモダリティでの条件付き生成など、さまざまな応用例を実証します。我々のアプローチは、高品質な結果を提供する点で最先端を凌駕するだけでなく、ほとんどの条件でわずか2秒以内に形状を効率的に生成します。
本研究では、140億パラメータを持つ多言語大規模言語モデル群「Orion-14B」を紹介する。英語、中国語、日本語、韓国語などの多様な言語から収集した2.5兆トークンのコーパスを用い、データスケジューリング手法を活用して基盤モデルを学習した。さらに、会話型アプリケーションやその他の特定用途に特化した一連のモデルをファインチューニングした。評価結果から、Orion-14Bは幅広いタスクにおいて最先端の性能を達成することが示された。Orion-14Bモデルファミリーと関連コードをhttps://github.com/OrionStarAI/Orionで公開し、今後の研究と実践的な応用の発展に貢献することを目指している。
近年の言語モデル(LM)の進化により、ゼロショット音声変換(VC)において印象的な性能が示されてきた。しかし、既存のLMベースのVCモデルは通常、ソースセマンティクスから音響特徴へのオフライン変換を適用しており、完全なソース音声を必要とするため、リアルタイムアプリケーションへの展開が制限されている。本論文では、任意の話者プロンプトとソース音声をリアルタイムに変換可能な、新たなストリーミングLMベースのゼロショットVCモデルであるStreamVoiceを提案する。具体的には、ストリーミング機能を実現するため、StreamVoiceは完全に因果的なコンテキスト認識LMと時間独立な音響予測器を採用し、オートリグレッションの各タイムステップでセマンティック特徴と音響特徴を交互に処理することで、完全なソース音声への依存を排除している。ストリーミング処理における不完全なコンテキストに起因する性能低下に対処するため、LMのコンテキスト認識能力を強化する2つの戦略を導入した:1)教師誘導型コンテキスト予見。教師モデルを使用して、訓練中に現在および未来のセマンティックコンテキストを要約し、欠落したコンテキストに対するモデルの予測を誘導する。2)セマンティックマスキング戦略。先行する破損したセマンティックおよび音響入力からの音響予測を促進し、コンテキスト学習能力を向上させる。特に、StreamVoiceは、将来の先読みを一切行わない初のLMベースのストリーミングゼロショットVCモデルである。実験結果は、StreamVoiceがストリーミング変換能力を維持しつつ、非ストリーミングVCシステムに匹敵するゼロショット性能を達成することを示している。
近年、視覚、言語、ロボティクスの分野で目覚ましい進展が見られています。現在では、言語クエリに基づいて物体を認識できる視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、多様な物体を扱える把持モデルが存在します。しかし、これらの認識、ナビゲーション、把持といった基本的な能力に依存しているにもかかわらず、汎用ロボティクスアプリケーションの開発はまだ遅れを取っています。本論文では、システムファーストのアプローチを採用し、新たなOpen Knowledgeベースのロボティクスフレームワーク「OK-Robot」を開発します。OK-Robotは、物体検出のためのVision-Language Models (VLMs)、移動のためのナビゲーションプリミティブ、物体操作のための把持プリミティブを組み合わせることで、トレーニングを必要としないピックアンドドロップ操作の統合ソリューションを提供します。その性能を評価するため、OK-Robotを10の実世界の家庭環境で実行しました。結果は、OK-Robotがオープンエンドのピックアンドドロップタスクで58.5%の成功率を達成し、Open Vocabulary Mobile Manipulation (OVMM)において新たな最先端を記録し、従来の研究の約1.8倍の性能を示しました。より整理された環境では、OK-Robotの性能は82%に向上します。しかし、OK-Robotから得られた最も重要な洞察は、VLMsのようなOpen Knowledgeシステムとロボティックモジュールを組み合わせる際の微妙な詳細の重要性です。実験のビデオは当社のウェブサイトでご覧いただけます: https://ok-robot.github.io
近年、3Dアバター生成の分野で大きな進展が見られ、注目を集めています。これらのブレークスルーは、より現実的でアニメーション可能なアバターを生成し、仮想世界と現実世界の体験のギャップを縮めることを目指しています。既存の研究の多くは、スコア蒸留サンプリング(SDS)損失を微分可能なレンダラーとテキスト条件と組み合わせて、拡散モデルをガイドし、3Dアバターを生成しています。しかし、SDSはしばしば過度に滑らかな結果を生成し、顔の詳細が少なく、祖先サンプリングと比較して多様性に欠けることがあります。一方、他の研究では単一の画像から3Dアバターを生成しますが、不要な照明効果、視点、および劣化した画像品質の課題により、整列した完全なテクスチャを持つ3D顔メッシュを信頼性高く再構築することが困難です。本論文では、ジオメトリの忠実度を向上させ、不要な照明のない物理ベースレンダリング(PBR)テクスチャの優れた品質を備えた新しい3Dアバター生成アプローチ「UltrAvatar」を提案します。この目的のために、提案アプローチは拡散色抽出モデルと真正性ガイド付きテクスチャ拡散モデルを提示します。前者は不要な照明効果を取り除き、真の拡散色を明らかにすることで、生成されたアバターをさまざまな照明条件下でレンダリングできるようにします。後者は、PBRテクスチャを生成するための2つの勾配ベースのガイダンスに従い、3Dメッシュジオメトリに整列した多様な顔の識別特徴と詳細をより良くレンダリングします。提案手法の有効性と堅牢性を実証し、実験において最先端の手法を大きく上回る性能を示します。
本論文では、単一画像から人間のNeural Radiance Fields(NeRF)を予測するために設計された、シングルステージのフィードフォワード型Large Reconstruction ModelであるHuman-LRMを紹介する。我々のアプローチは、3Dスキャンやマルチビューキャプチャを含む大規模なデータセットを用いたトレーニングにおいて、顕著な適応性を示す。さらに、特にオクルージョンが存在する実世界のシナリオにおけるモデルの適用性を向上させるため、条件付きトライプレーン拡散モデルを介してマルチビュー再構成を単一ビューに蒸留する新たな戦略を提案する。この生成的拡張により、単一ビューから観察される人体形状の固有の変動に対処し、オクルージョンがかかった画像からでも全身を再構成することが可能となる。大規模な実験を通じて、Human-LRMが複数のベンチマークにおいて従来の手法を大きく上回る性能を示すことを実証する。
現実世界の物体のダイナミクスを正確にシミュレートすることは、ロボティクス、エンジニアリング、グラフィックス、デザインなど様々な応用において不可欠です。接触や摩擦といった複雑な現実のダイナミクスをより良く捉えるために、グラフネットワークに基づく学習型シミュレータが最近大きな注目を集めています。しかし、これらの学習型シミュレータを現実のシーンに適用するには、2つの大きな課題があります。第一に、現実世界のシーンの複雑さ(数百の物体がそれぞれ複雑な3D形状を持つ場合など)に対応するために学習型シミュレータをスケーリングすること、第二に、3D状態情報ではなく知覚からの入力を処理することです。本論文では、グラフベースの学習型シミュレータを実行するために必要なメモリを大幅に削減する手法を紹介します。このメモリ効率の良いシミュレーションモデルに基づいて、編集可能なNeRF(Neural Radiance Fields)の形で知覚インターフェースを提示し、現実世界のシーンをグラフネットワークシミュレータが処理可能な構造化表現に変換します。我々の手法は、従来のグラフベースシミュレータと比較して大幅に少ないメモリ使用量でありながら精度を維持し、合成環境で学習したシミュレータを複数のカメラ角度から撮影した現実世界のシーンに適用できることを示します。これにより、推論時に知覚情報のみが利用可能な設定においても、学習型シミュレータの応用範囲を拡大する道が開かれます。
仮想現実(VR)は、他のメディアよりも没入感の高い社会的相互作用を実現する可能性を秘めています。その鍵となるのは、VRヘッドセットを装着しながら、自分の外見を忠実に再現したフォトリアルなアバターを正確にアニメーション化する能力です。オフライン環境では、個人に特化したアバターをヘッドセット搭載カメラ(HMC)画像に高精度で登録することが可能ですが、汎用的なリアルタイムモデルの性能は大幅に低下します。また、斜めからのカメラ視点やモダリティの違いにより、オンライン登録も困難です。本研究ではまず、アバターとヘッドセットカメラ画像間のドメインギャップが主要な困難の源であることを示し、トランスフォーマーベースのアーキテクチャがドメイン整合データでは高い精度を達成するものの、ドメインギャップが再導入されると性能が低下することを明らかにします。この知見を基に、問題を2つの部分に分離するシステム設計を開発しました:1)ドメイン内の入力を処理する反復的リファインメントモジュール、および2)現在の表情と頭部姿勢の推定に基づいて条件付けられる汎用アバター誘導型画像間スタイル変換モジュールです。これら2つのモジュールは相互に補強し合い、グラウンドトゥルースに近い例が提示されると画像スタイル変換が容易になり、ドメインギャップの除去が改善されると登録精度が向上します。本システムは、高品質な結果を効率的に生成し、個人化されたラベルを生成するための高コストなオフライン登録の必要性を排除します。市販のヘッドセットを用いた広範な実験を通じて、本アプローチの精度と効率を検証し、直接回帰法やオフライン登録と比較して大幅な改善を示しました。