翻訳付きの日次キュレーションされたAI研究論文
ビジョンエンコーダは通常、大量のビジュアルトークンを生成し、情報量の多い表現を提供しますが、計算コストを大幅に増加させます。これにより、生成されたすべてのトークンが等しく価値があるのか、あるいは品質を損なうことなく計算コストを削減するために一部のトークンを破棄できるのかという疑問が生じます。本論文では、価値の低い特徴は価値の高い特徴から再構築できるという考えに基づいて、特徴の有用性を決定する新しい方法を紹介します。この概念を実装するために、オートエンコーダとGumbel-Softmax選択メカニズムを統合し、最も情報量の多いビジュアルトークンのみを特定して保持できるようにします。我々のアプローチを検証するために、LLaVA-NeXTモデルの性能を、我々の方法で選択された特徴とランダムに選択された特徴を使用して比較しました。OCRベースのタスクでは、ビジュアルコンテキストの50%以上を削除しても性能の低下は最小限であり、同じ割合の特徴をランダムに破棄するとモデルの能力に大きな影響を与えることがわかりました。さらに、一般的なドメインのタスクでは、トークンの30%をランダムに保持するだけで、ビジュアルトークンの完全なセットを使用した場合と同等の性能を達成できます。我々の結果は、性能を損なうことなくスケーラブルで低オーバーヘッドの推論を可能にする適応的で効率的なマルチモーダルプルーニングに向けた有望な方向性を示しています。
マルチモーダル科学問題(MSPs)は、テキストや図表など複数のモダリティを統合する必要がある複雑な課題を含み、人工知能における重要な挑戦となっています。従来の科学問題に対する進展は見られるものの、MSPsには依然として二つの主要な課題が存在します。一つは、科学的問題解決におけるマルチモーダル総合推論の難しさ、もう一つは反省的・再考能力の欠如です。これらの課題に対処するため、我々はBig Seven Personalityとソクラテス的指導に基づくマルチエージェントフレームワーク(MAPS)を提案します。このフレームワークは、フィードバックメカニズムとソクラテス法を活用する7つの異なるエージェントを採用し、MSPsの解決を導きます。最初の課題に対処するため、問題解決プロセスの特定の段階に焦点を当てた4つのエージェントによる段階的解決戦略を提案します。第二の課題に対しては、ソクラテス的質問に着想を得たCriticエージェントを導入し、批判的思考を促し自律学習を刺激します。EMMA、Olympiad、MathVistaデータセットを用いて広範な実験を行い、全てのタスクにおいて現行のSOTAモデルを15.84%上回る有望な結果を得ました。同時に、追加の分析実験により、モデルの進展と汎化能力も検証されています。
長文脈の効率的な処理は、自然言語処理における持続的な追求課題である。長文書、対話、その他のテキストデータの増加に伴い、広範な入力を効果的かつ効率的に処理・分析できる長文脈言語モデル(LCLM)の開発が重要となっている。本論文では、大規模言語モデルにおける長文脈モデリングの最近の進展に関する包括的なサーベイを提示する。本サーベイは、効果的かつ効率的なLCLMの獲得方法、LCLMの効率的な訓練とデプロイ方法、LCLMの包括的な評価と分析方法という3つの主要な側面を中心に構成されている。最初の側面では、長文脈処理を指向したデータ戦略、アーキテクチャ設計、ワークフローアプローチについて議論する。2番目の側面では、LCLMの訓練と推論に必要なインフラストラクチャを詳細に検討する。3番目の側面では、長文脈理解と長文生成の評価パラダイム、およびLCLMの行動分析とメカニズムの解釈可能性を提示する。これら3つの主要な側面を超えて、既存のLCLMが展開されている多様な応用シナリオを徹底的に探り、将来の有望な開発方向性を概説する。本サーベイは、長文脈LLMに関する文献の最新のレビューを提供し、研究者とエンジニアの両方にとって貴重なリソースとなることを願っている。最新の論文とリポジトリを収集した関連GitHubリポジトリは以下で利用可能である: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}。
大規模言語モデルの基本的な質問応答形式は、プロンプトを入力し応答を受け取るものであり、プロンプトの質が応答の効果に直接影響を与えます。自動プロンプト最適化(APO)は、手動で設計されたプロンプトの認知的バイアスから脱却し、より広範なプロンプト設計空間を探求することを目指しています。しかし、既存のAPO手法は、固定テンプレートの柔軟性の限界とプロンプト空間における非効率的な探索が主要な課題となっています。これに対処するため、我々はソクラテス的指導を取り入れたマルチエージェントフレームワーク(MARS)を提案します。MARSは、自動計画のためのマルチエージェント融合技術を活用し、段階的な継続的最適化と評価を行います。具体的には、MARSは7つのエージェントで構成され、それぞれが異なる機能を持ち、Plannerを使用して柔軟性を確保する最適化パスを自律的に考案します。さらに、Teacher-Critic-Studentのソクラテス的対話パターンを採用し、効果的な探索を行いながらプロンプトを反復的に最適化します。我々は、様々なデータセットで広範な実験を行い、本手法の有効性を検証し、モデルの進歩と解釈可能性を評価するための追加の分析実験も実施しました。
効果的なエンボディド・マルチエージェントシステムの設計は、複雑な現実世界のタスクを領域横断的に解決する上で極めて重要です。マルチエージェント・エンボディドシステムの複雑さのため、既存の手法では、こうしたシステム向けの安全かつ効率的なトレーニングデータを自動生成することが困難です。この課題に対処するため、我々はエンボディド・マルチエージェントシステムのための構成制約(compositional constraints)の概念を提案し、エンボディドエージェント間の協調から生じる課題に取り組みます。物理世界とのシームレスなインタラクションを可能にするため、さまざまな制約タイプに特化したインターフェースを設計します。構成制約と特別に設計されたインターフェースを活用し、エンボディド・マルチエージェントシステム向けの自動データ収集フレームワークを開発し、エンボディド・マルチエージェント操作の最初のベンチマークであるRoboFactoryを導入します。RoboFactoryベンチマークに基づき、模倣学習の手法を適応・評価し、異なる難易度のエージェントタスクにおける性能を分析します。さらに、安全で効率的なエンボディド・マルチエージェントシステムを構築するため、マルチエージェント模倣学習のアーキテクチャとトレーニング戦略を探求します。
創造的な文章作成タスクには唯一の正解が存在しないため、これらのタスクを実行するように訓練された大規模言語モデル(LLM)は、多様な有効な出力を生成できるべきです。しかし、LLMのポストトレーニングでは、生成品質の向上に重点が置かれる一方で、出力の多様性を促進することがしばしば見過ごされています。そこで、創造的な文章生成において、出力の多様性と品質の両方を促進するポストトレーニング手法を調査します。私たちの核心的なアイデアは、トレーニングサンプルと同じプロンプトを持つ他のすべてのサンプルとの差異の度合い(deviation)をトレーニング目的に含めることで、稀な高品質のインスタンスから学習を促進することです。このアプローチを直接選好最適化(DPO)とオッズ比選好最適化(ORPO)に適用することで、訓練されたモデルの出力多様性を促進しつつ、品質の低下を最小限に抑えることができることを実証します。8Bパラメータを持つ私たちの最良のモデルは、人間が作成したデータセットと同等の多様性を達成しつつ、調査した最良の指示チューニングモデルであるGPT-4oとDeepSeek-R1と同様の出力品質を実現しました。さらに、人間による評価、アブレーション、および既存の多様化手法であるDivPOとの比較を通じて、私たちのアプローチを検証します。
自己回帰型の視覚生成モデルは通常、画像を逐次予測可能なトークンに圧縮するためのトークナイザーに依存しています。トークン表現においては根本的なジレンマが存在します:離散トークンは標準的な交差エントロピー損失を用いた単純なモデリングを可能にしますが、情報の損失やトークナイザーの訓練不安定性に悩まされます。一方、連続トークンは視覚的詳細をより良く保持しますが、複雑な分布モデリングを必要とし、生成パイプラインを複雑化します。本論文では、連続トークンの強力な表現能力を維持しつつ、離散トークンのモデリングの単純さを保持するTokenBridgeを提案します。これを実現するために、我々はトークナイザーの訓練プロセスから離散化を切り離し、連続表現から直接離散トークンを取得する訓練後量子化を採用します。具体的には、各特徴次元を独立に離散化する次元単位の量子化戦略を導入し、それに伴う大規模なトークン空間を効率的にモデル化する軽量な自己回帰予測メカニズムを組み合わせます。大規模な実験により、本手法が連続手法と同等の再構成および生成品質を達成しつつ、標準的なカテゴリカル予測を使用できることが示されました。この研究は、離散と連続のパラダイムを橋渡しすることで両アプローチの強みを効果的に活用し、単純な自己回帰モデリングによる高品質な視覚生成の有望な方向性を提供することを実証しています。プロジェクトページ:https://yuqingwang1029.github.io/TokenBridge。
現実的な3D全身会話アバターはAR分野において大きな可能性を秘めており、eコマースライブストリーミングからホログラフィック通信まで幅広い応用が期待されています。3Dガウススプラッティング(3DGS)を用いたリアルなアバター作成技術は進歩しているものの、既存の手法では全身会話タスクにおける表情や身体動作の細かな制御に課題を抱えています。さらに、十分なディテールを保持できず、モバイルデバイスでのリアルタイム実行も困難です。本論文では、TaoAvatarを提案します。これは、高精細かつ軽量な3DGSベースの全身会話アバターで、様々な信号によって駆動されます。私たちのアプローチでは、まず、ガウシアンをバインドして外観を表現するためのパーソナライズされた衣服付き人体パラメトリックテンプレートを作成します。次に、複雑なポーズ依存の非剛体変形を処理するためにStyleUnetベースのネットワークを事前学習します。このネットワークは高周波の外観ディテールを捉えることができますが、モバイルデバイスではリソースが過剰になります。この問題を解決するために、蒸留技術を用いて非剛体変形を軽量なMLPベースのネットワークに「焼き付け」、ディテールを補うためのブレンドシェイプを開発します。大規模な実験により、TaoAvatarが最先端のレンダリング品質を達成しつつ、様々なデバイスでリアルタイムに動作し、Apple Vision Proのような高精細ステレオデバイス上で90 FPSを維持することが示されました。
DeepSeek-R1による最近の進展は、検証可能な報酬を用いた強化学習(RL)によって、大規模言語モデル(LLMs)における複雑な推論能力、自己検証や自己修正といった高度な振る舞いが実現可能であり、AIMEのような難易度の高いタスクにおいてモデルの性能が大幅に向上することを示しました。これらの知見に基づき、本研究では、同様の推論能力が大規模視覚言語モデル(LVLMs)に統合できるかどうかを調査し、難易度の高いマルチモーダル推論タスクへの影響を評価します。我々は、軽量なトレーニングデータに対する教師ありファインチューニング(SFT)と強化学習(RL)を反復的に活用してモデルの汎化性能をさらに向上させるアプローチを検討しました。最初に、純粋なテキストのR1モデルから推論能力を蒸留し、多様な視覚データセットから得られた高品質な画像キャプションを使用して推論ステップを生成しました。その後、反復的なRLトレーニングによって推論スキルがさらに強化され、各反復でRLによって改善されたモデルが次のラウンドのための洗練されたSFTデータセットを生成しました。この反復プロセスにより、MathVista、MathVerse、MathVisionといった難易度の高いベンチマークにおいて一貫して改善された推論性能を示すLVLMであるOpenVLThinkerが得られ、我々の戦略が堅牢な視覚言語推論の可能性を実証しました。コード、モデル、データはhttps://github.com/yihedeng9/OpenVLThinkerにて公開されています。
テキストからビデオ生成において大きな進展があったにもかかわらず、細粒度の時空間属性に対する正確で柔軟な制御を実現することは、ビデオ生成研究における重要な未解決の課題です。これらの制限に対処するため、我々はVCtrl(別名PP-VCtrl)という新しいフレームワークを提案します。このフレームワークは、事前学習済みのビデオ拡散モデルに対して統一的な方法で細粒度の制御を可能にするように設計されています。VCtrlは、Cannyエッジ、セグメンテーションマスク、人間のキーポイントなど、多様なユーザー指定の制御信号を、基盤となる生成器を変更することなく、複数の種類の補助信号を均一にエンコードできる汎用的な条件付きモジュールを介して事前学習済みビデオ拡散モデルに統合します。さらに、統一された制御信号エンコーディングパイプラインとスパースな残差接続メカニズムを設計し、制御表現を効率的に組み込みます。包括的な実験と人間による評価により、VCtrlが制御性と生成品質を効果的に向上させることが実証されています。ソースコードと事前学習済みモデルは公開されており、PaddlePaddleフレームワークを使用してhttp://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrlで実装されています。
多様なタスクにおいて印象的な性能を発揮しているにもかかわらず、マルチモーダル大規模言語モデル(MLLMs)は、特に図表を正確に認識し解釈する能力において、視覚的数学問題解決の可能性を完全には示していません。人間の典型的なプロセスに着想を得て、我々は、図表から意味のある情報を抽出する知覚能力が重要であると仮定しました。なぜなら、それはその後の推論プロセスに直接影響を与えるからです。この仮説を検証するため、我々はFlowVerseを開発しました。これは、問題解決中に使用されるすべての情報を4つの要素に分類し、それらを組み合わせて6つの問題バージョンを作成し評価する包括的なベンチマークです。FlowVerseにおける予備的な結果は、既存のMLLMsが、図表から本質的な情報と推論された特性を抽出し、これらの視覚的入力に基づいて複雑な推論を行う際に、重大な制限を示していることを明らかにしました。これに対応して、我々はMathFlowを導入しました。これは、知覚と推論を異なる段階に分離し、それぞれを独立して最適化するモジュール型問題解決パイプラインです。現在のMLLMsで観察された知覚的制限を考慮し、我々は専用の知覚モデルとしてMathFlow-P-7Bを訓練しました。実験結果は、MathFlow-P-7Bが、さまざまなクローズドソースおよびオープンソースの推論モデルと統合された場合に、大幅な性能向上をもたらすことを示しています。これは、MathFlowパイプラインの有効性と、多様な推論フレームワークとの互換性を実証しています。FlowVerseベンチマークとコードは、https://github.com/MathFlow-zju/MathFlow で利用可能です。
被写体の画像が少数、または単一の場合、画像生成と編集のパーソナライズは特に困難です。パーソナライズの一般的なアプローチとして、概念学習があります。これは被写体を既存のモデルに比較的迅速に統合できますが、被写体の画像数が少ない場合、生成される画像の品質が急速に低下する傾向があります。品質を向上させるためにエンコーダを事前学習することも可能ですが、学習は生成を学習分布に制限し、時間がかかります。学習なしで単一画像から画像生成と編集をパーソナライズすることは、依然として未解決の難しい課題です。ここでは、入力された被写体画像との類似度スコアを最適化する、新規の学習不要なアプローチであるSISOを提案します。具体的には、SISOは画像を反復的に生成し、与えられた被写体画像との類似度の損失に基づいてモデルを最適化し、満足のいく類似度が達成されるまで続けます。これにより、任意の画像生成器にプラグアンドプレイで最適化を適用できます。SISOを、画像編集と画像生成の2つのタスクで評価し、多様な個人被写体のデータセットを使用して、画像品質、被写体の忠実度、背景の保持において既存の手法を大幅に上回ることを実証しました。
テキストプロンプトと生成された動画間の意味的整合性を正確に評価することは、Text-to-Video(T2V)生成において依然として課題となっている。既存のテキスト-動画整合性評価指標(例:CLIPScore)は、粗粒度のスコアを生成するのみで、細粒度の整合性詳細を提供せず、人間の選好と一致しない。この制約を解決するため、我々はETVA(Evaluation method of Text-to-Video Alignment)を提案する。これは、細粒度の質問生成と回答を通じてテキスト-動画整合性を評価する新しい手法である。まず、マルチエージェントシステムがプロンプトを意味的シーングラフに解析し、原子質問を生成する。次に、知識拡張型の多段階推論フレームワークを設計し、補助的なLLMが関連する常識的知識(例:物理法則)を検索し、その後ビデオLLMが多段階推論メカニズムを通じて生成された質問に回答する。大規模な実験により、ETVAはSpearmanの相関係数58.47を達成し、既存の指標(31.0)と比較して人間の判断とより高い相関を示すことが実証された。また、テキスト-動画整合性評価のために特別に設計された包括的なベンチマークを構築し、10カテゴリにわたる2,000の多様なプロンプトと12,000の原子質問を特徴としている。15の既存テキスト-動画モデルの系統的評価を通じて、それらの主要な能力と限界を特定し、次世代T2V生成への道を開いた。
本論文では、\textsc{FastCuRL}を提案する。これは、R1のような推論モデルの強化学習トレーニング効率を加速しつつ、長い連鎖思考(chain-of-thought)を要する複雑な推論タスクにおける性能を向上させる、シンプルかつ効率的なカリキュラム強化学習アプローチである。特に、1.5Bパラメータの言語モデルにおいて有効である。\textsc{FastCuRL}は、主に2つの手順から構成される:長さを考慮したトレーニングデータの分割と、コンテキストウィンドウ拡張トレーニングである。具体的には、前者はまず入力プロンプトの長さに基づいて元のトレーニングデータを3つの異なるレベルに分割し、後者は分割されたトレーニングデータセットを利用して、徐々にコンテキストウィンドウの長さを増やしながら推論モデルをトレーニングする。実験結果から、\textsc{FastCuRL}-1.5B-Previewは、DeepScaleR-1.5B-Previewを全ての5つのデータセット(MATH 500、AIME 2024、AMC 2023、Minerva Math、OlympiadBenchを含む)において上回り、しかもトレーニングステップ数を50%しか使用しないことが示された。さらに、FastCuRL-1.5B-Previewの全てのトレーニング段階は、8つのGPUを搭載した単一のノードで完了している。
本論文では、複雑な経路探索シナリオからキュレーションされた、人間が読み取り可能なピクセルベースの地図を用いた屋外ナビゲーションに特化した初のデータセットであるMapBenchを紹介する。MapBenchは、100種類の多様な地図から1600以上のピクセル空間地図経路探索問題を包含している。MapBenchでは、LVLM(大規模視覚言語モデル)が地図画像と開始・終了地点のランドマークを含むクエリを与えられ、言語ベースのナビゲーション指示を生成する。各地図に対して、MapBenchはMap Space Scene Graph(MSSG)をインデックスデータ構造として提供し、自然言語との変換およびLVLM生成結果の評価を可能にする。我々は、MapBenchが最先端のLVLMに対して、ゼロショットプロンプティングおよび地図ナビゲーションを連続的な認知プロセスに分解するChain-of-Thought(CoT)拡張推論フレームワークの両方において、大きな課題を提示することを実証する。オープンソースおよびクローズドソースのLVLMの評価を通じて、MapBenchが空間推論および構造化意思決定能力における重大な限界を明らかにすることを示す。全てのコードとデータセットをhttps://github.com/taco-group/MapBenchで公開している。
大規模視覚言語モデル(LVLM)は、視覚理解と言語生成を組み合わせることで大きな進展を遂げています。しかし、この成功にもかかわらず、LVLMの学習データは依然としてロングテール(LT)問題に悩まされており、データ分布が非常に不均衡です。これまでの研究は主に、CLIPやViTなどの従来のVLMアーキテクチャや、認識や分類といった特定のタスクに焦点を当ててきました。それにもかかわらず、LVLM(例:LLaVA)やより一般的なタスク(例:視覚的質問応答や視覚的推論)の探求はまだ十分に行われていません。本論文では、まずLVLMにおけるLT問題を詳細に分析し、その核心的な原因として、主要概念の過剰表現と尾部概念の過小表現の2つを特定します。この観察に基づき、我々は適応的データ精製フレームワーク(ADR)を提案します。ADRは、データリバランス(DR)とデータ合成(DS)の2段階で構成されています。DR段階では、エンティティ分布に基づいて冗長なデータを適応的にリバランスし、DS段階では、Denoising Diffusion Probabilistic Models(DDPM)と希少な画像を活用して過小表現されている部分を補完します。11のベンチマークにわたる包括的な評価を通じて、提案するADRは学習データのロングテール問題を効果的に緩和し、LLaVA 1.5の平均性能を相対的に4.36%向上させることが示されました。これは、学習データ量を増やすことなく達成されています。
ビデオ大規模言語モデル(ViLLMs)は、話すや食べるといった一般的な活動の認識など、ビデオ理解において優れた性能を発揮しますが、「ウィルソンが化学療法を受けている」や「トムがサラと話し合っている」といった、個人を特定した理解には苦戦しており、スマートヘルスケアやスマートホーム環境での適用性が制限されています。この課題を解決するため、我々はワンショット学習フレームワーク「PVChat」を提案します。PVChatは、各個人に対して単一のビデオから個人を認識した質問応答(QA)を可能にする、初のパーソナライズドViLLMです。我々のアプローチでは、Mixture-of-Heads(MoH)を強化したViLLMを、合成的に拡張されたビデオ-QAデータセットで最適化し、プログレッシブな画像からビデオへの学習戦略を活用します。具体的には、個人の同一性を保持したポジティブサンプルを合成し、既存のビデオコーパスからハードネガティブを検索する自動拡張パイプラインを導入し、存在、外見、行動、位置の4種類のQAを含む多様なトレーニングデータセットを生成します。個人固有の学習を強化するため、ReLU Routing MoHアテンションメカニズムを提案し、さらに2つの新しい目的関数を導入します:(1)指数距離スケーリングを通じたプログレッシブ学習のためのスムーズプロキシミティ正則化、(2)バランスの取れたアテンションルーティングのためのヘッドアクティベーション強化。最後に、静的属性から動的表現への段階的な学習プロセスを可能にするため、画像事前学習からビデオ微調整への2段階のトレーニング戦略を採用します。PVChatを、医療シナリオ、テレビシリーズ、アニメ、実世界の映像をカバーする多様なデータセットで評価し、単一のビデオから学習した後の個人化された特徴理解において、最先端のViLLMsを上回る性能を示します。
暗黙のバイアスとは、認識、判断、行動を形成する自動的または自発的な心理プロセスを指す。これまでの大規模言語モデル(LLM)における「暗黙のバイアス」に関する研究は、主にモデルの出力に焦点を当てることで、人間における研究とは異なるアプローチを取ることが多かった。モデルの処理を検証するため、我々は推論モデル暗黙連想テスト(RM-IAT)と呼ばれる手法を提案する。これは、複雑なタスクを解決するために段階的な推論を用いるLLMにおいて、暗黙のバイアスに類似したパターンを研究するためのものである。この手法を用いて、推論モデルが連想非整合情報を処理する際には、連想整合情報と比べてより多くのトークンを必要とすることが明らかになった。これらの発見は、AIシステムが人間の暗黙のバイアスに類似した情報処理パターンを持つことを示唆している。我々は、これらの暗黙のバイアスに類似したパターンが実世界のアプリケーションに展開される際の影響について考察する。
近年、画像生成の分野では、特にモデルを普遍的な人間の好みに適合させるファインチューニング手法において、大きな進展が見られています。本論文では、拡散モデルの学習プロセスにおける選好データの重要性、特にDiffusion-DPOとその後の適応手法の文脈について探求します。我々は、画像生成における普遍的な人間の好みの複雑さを調査し、これらの好みの主観的な性質と、選好データセットにおける少数派サンプルがもたらす課題を明らかにします。パイロット実験を通じて、少数派サンプルの存在とそれらがモデルの性能に及ぼす悪影響を実証します。我々はAdaptive-DPOを提案します。これは、DPO目的関数に少数派インスタンスを意識した指標を組み込んだ新しいアプローチです。この指標は、アノテーター内の信頼度とアノテーター間の安定性を含み、多数派サンプルと少数派サンプルを区別します。我々は、Adaptive-DPO損失関数を導入し、DPO損失を2つの方法で改善します。多数派ラベルの学習を強化しつつ、少数派サンプルの負の影響を軽減します。我々の実験は、この手法が合成された少数派データと実世界の選好データの両方を効果的に処理し、画像生成タスクにおけるより効果的な学習方法論への道を開くことを示しています。
画像のジオローカライゼーションは、従来、AIモデルが画像の正確なGPS座標を予測するという課題であり、多くの下流アプリケーションが存在します。しかし、ユーザーはGPS座標以外の知識を活用することができず、モデルは場所の理解やユーザーとの会話能力を欠いています。近年、大規模マルチモーダルモデル(LMMs)の著しい進展に伴い、プロプライエタリおよびオープンソースの研究者たちがLMMsを介した画像のジオローカライゼーションに取り組んでいます。しかし、一般的なタスクを超えて、ジオローカライゼーションのようなより専門的な下流タスクにおいて、LMMsは依然として課題を抱えています。本研究では、ユーザーの要求に応じて画像の場所に関する情報を提供できる会話型モデルGAEAを導入することで、この問題を解決することを提案します。このようなモデルの訓練を可能にする大規模なデータセットは存在しないため、OpenStreetMap(OSM)の属性と地理的な文脈の手がかりを活用して構築された80万枚の画像と約160万の質問応答ペアからなる包括的なデータセットGAEAを提案します。定量的評価のために、多様な質問タイプを備えた会話能力を評価するための4Kの画像テキストペアからなる多様なベンチマークを提案します。11の最先端のオープンソースおよびプロプライエタリのLMMsを検討し、GAEAが最良のオープンソースモデルであるLLaVA-OneVisionを25.69%、最良のプロプライエタリモデルであるGPT-4oを8.28%上回ることを示します。私たちのデータセット、モデル、コードは公開されています。
最近の3D顔編集手法では、マスクを使用しつつNeural Radiance Fields (NeRF)を活用することで、高品質な編集画像を生成しています。しかし、既存の手法は事前学習済みのセグメンテーションマスクを使用するため、ユーザーコントロールが制限されることが多いです。所望のレイアウトを持つマスクを利用するためには、大規模なトレーニングデータセットが必要ですが、これを収集するのは困難です。本論文では、固定されたマスクレイアウトによるユーザーコントロールの制限を克服するNeRFベースの顔編集技術「FFaceNeRF」を提案します。本手法は、ジオメトリ属性を効果的に操作するための特徴注入を備えたジオメトリアダプタを採用しています。さらに、トライプレーン拡張のための潜在混合を採用し、少数のサンプルでトレーニングを可能にします。これにより、パーソナライズされた医療画像や創造的な顔編集などの分野での応用に不可欠な、所望のマスクレイアウトへの迅速なモデル適応が可能になります。比較評価の結果、FFaceNeRFは既存のマスクベースの顔編集手法を柔軟性、コントロール性、生成画像品質の点で凌駕し、カスタマイズされた高忠実度3D顔編集の将来の発展に道を開くことを示しています。コードは{https://kwanyun.github.io/FFaceNeRF_page/{プロジェクトページ}}で公開されています。
一般化されたFew-shot 3D点群セグメンテーション(GFS-PCS)は、ベースクラスのセグメンテーションを維持しながら、少数のサポートサンプルで新しいクラスにモデルを適応させます。既存のGFS-PCS手法は、サポートまたはクエリ特徴との相互作用を通じてプロトタイプを強化しますが、Few-shotサンプルからの疎な知識に制限されています。一方、3D視覚言語モデル(3D VLM)は、オープンワールドの新規クラスにわたって一般化し、豊富だがノイズの多い新規クラスの知識を含んでいます。本研究では、3D VLMからの密だがノイズの多い疑似ラベルと、正確だが疎なFew-shotサンプルを統合し、両方の強みを最大限に活用するGFS-PCSフレームワークを導入し、GFS-VLと名付けました。具体的には、低品質な領域をフィルタリングするためのプロトタイプガイド付き疑似ラベル選択を提示し、その後、疑似ラベルのコンテキストとFew-shotサンプルの知識を組み合わせて、フィルタリングされた未ラベル領域を適応的にラベル付けする適応型充填戦略を採用します。さらに、Few-shotサンプルをトレーニングシーンに埋め込み、新規クラスの学習を改善するために必要なコンテキストを保持する新規ベースミックス戦略を設計します。さらに、現在のGFS-PCSベンチマークの多様性の限界を認識し、包括的な一般化評価のための多様な新規クラスを含む2つの挑戦的なベンチマークを導入します。実験により、モデルとデータセットにわたる我々のフレームワークの有効性が検証されました。我々のアプローチとベンチマークは、現実世界でのGFS-PCSの進展のための堅固な基盤を提供します。コードはhttps://github.com/ZhaochongAn/GFS-VLにあります。