AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

自分を想像してみてください：チューニング不要の個人用画像生成
Imagine yourself: Tuning-Free Personalized Image Generation

Sep 20

ByZecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha

拡散モデルは、さまざまな画像対画像のタスクで驚異的な効果を示しています。この研究では、個人向け画像生成のために設計された最先端のモデルであるImagine yourselfを紹介します。従来のチューニングベースの個人化技術とは異なり、Imagine yourselfはチューニングフリーモデルとして機能し、個別の調整なしで全ユーザーが共有フレームワークを活用できます。さらに、以前の研究では、アイデンティティの保存、複雑なプロンプトの追跡、および視覚的な品質の維持のバランスを取る課題に直面し、参照画像の強いコピーアンドペースト効果を持つモデルが生じました。したがって、重要な変更を必要とするプロンプトに従った画像を生成することが困難であり、生成される画像の多様性が低いといった問題がありました。これらの制限に対処するため、提案された手法では、1) 画像の多様性を促進するための新しい合成ペアデータ生成メカニズム、2) テキストの忠実性を向上させるための完全並列のアテンションアーキテクチャ（3つのテキストエンコーダと完全にトレーニング可能なビジョンエンコーダを備え）、および3) 視覚的品質の境界を徐々に押し広げる新しい段階的なファインチューニング方法論を導入しています。当研究は、Imagine yourselfが最先端の個人化モデルを凌駕し、アイデンティティの保存、視覚的品質、およびテキストの整合性において優れた能力を示すことを証明しています。このモデルは、さまざまな個人化アプリケーションのための堅固な基盤を確立しています。人間の評価結果は、前の個人化モデルと比較して、アイデンティティの保存、テキストの忠実性、視覚的魅力のすべての側面で、当該モデルのSOTA優位性を検証しています。

YesBut: ビジョン言語モデルの風刺理解能力を評価するための高品質な注釈付きマルチモーダルデータセット
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

Sep 20

ByAbhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly

風刺とユーモアを理解することは、現在のビジョン・ランゲージ・モデルにとってさえ難しい課題です。本論文では、風刺画像の検出（画像が風刺的かどうかを検出する）、理解（画像が風刺的である理由を生成する）、および補完（画像の半分が与えられた場合、2つの選択肢から他の半分を選択して、完全な画像が風刺的であるようにする）という難解なタスクを提案し、2547枚の画像（風刺的なもの1084枚、非風刺的なもの1463枚）からなる高品質のデータセットYesButをリリースし、これらのタスクを評価します。データセット内の各風刺的な画像は、通常のシナリオと、面白いまたは皮肉な矛盾するシナリオを描いています。現在のビジョン・ランゲージ・モデルがビジュアルQAや画像キャプショニングなどのマルチモーダルなタスクで成功しているにもかかわらず、私たちのベンチマーク実験では、このようなモデルがZero-Shot設定においてYesButデータセットの提案されたタスクで自動評価および人間の評価の両方において低い性能を示すことがわかりました。さらに、さらなる研究のために、119枚の実際の風刺写真からなるデータセットをリリースします。データセットとコードは、https://github.com/abhi1nandy2/yesbut_dataset で入手可能です。

プリトヴィ WxC: 天候と気候のための基礎モデル
Prithvi WxC: Foundation Model for Weather and Climate

Sep 20

ByJohannes Schmude, Sujit Roy, Will Trojak, Johannes Jakubik, Daniel Salles Civitarese, Shraddha Singh, Julian Kuehnert, Kumar Ankur, Aman Gupta, Christopher E Phillips, Romeo Kienzler, Daniela Szwarcman, Vishal Gaur, Rajat Shinde, Rohit Lal, Arlindo Da Silva, Jorge Luis Guevara Diaz, Anne Jones, Simon Pfreundschuh, Amy Lin, Aditi Sheshadri, Udaysankar Nair, Valentine Anantharaj, Hendrik Hamann, Campbell Watson, Manil Maskey, Tsengdar J Lee, Juan Bernabe Moreno, Rahul Ramachandran

AIエミュレータがHPCシステムで実行される従来の数値気象予測モデルと競合できることに気付いたことから、予測、ダウンスケーリング、ナウキャスティングなどのユースケースに対応する大規模なAIモデルが増加しています。AI文献の並行する発展は、複数の異なるユースケースに効果的に調整できるファウンデーションモデルに焦点を当てていますが、気象と気候側の発展は、中期予測を特に重視した単一のユースケースに焦点を当てています。こうしたギャップを埋めるために、160の変数を使用して開発された23億のパラメータを持つファウンデーションモデルであるPrithvi WxCを紹介します。Prithvi WxCは、最近のさまざまなトランスフォーマーモデルからの概念を取り入れたエンコーダーデコーダーベースのアーキテクチャを採用し、入力データの地域的およびグローバルな依存関係を効果的に捉えます。このモデルは、異なるトポロジーで細かい解像度で気象現象をモデル化するために大規模なトークン数を収容するよう設計されています。さらに、マスクされた再構成と予測のパラダイムを組み合わせた混合目的で訓練されています。我々は、Autoregressive rollout forecasting、Downscaling、Gravity wave flux parameterization、およびExtreme events estimationという一連の難解な下流タスクでモデルをテストします。23億のパラメータを持つ事前学習済みモデルとそれに関連するファインチューニングワークフローは、Hugging Faceを介してオープンソースとして一般に公開されています。

事実、取得、および推論：検索拡張生成の統一評価
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

Sep 19

BySatyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui

大規模言語モデル（LLMs）は、さまざまな認知タスクで著しい性能向上を実証しています。新興の応用例として、LLMsを活用して検索拡張生成（RAG）能力を向上させることが挙げられます。これらのシステムは、ユーザークエリを理解し、関連情報を取得し、筋の通った正確な応答を生成することが求められます。このようなシステムの実世界での展開が増加するにつれ、包括的な評価が重要となります。このために、私たちはFRAMES（Factuality, Retrieval, And reasoning MEasurement Set）を提案します。これは、LLMsが事実に基づいた応答を提供し、検索能力を評価し、最終的な回答を生成するために必要な推論を評価するために設計された高品質な評価データセットです。これまでの研究では、これらの能力を個別に評価するためのデータセットやベンチマークが提供されてきましたが、FRAMESは、エンドツーエンドのRAGシナリオにおけるLLMsのパフォーマンスをより明確に示す統一されたフレームワークを提供しています。私たちのデータセットには、複数の情報源からの情報の統合を必要とする難解なマルチホップ質問が含まれています。私たちは、最先端のLLMsでさえこのタスクに苦労していることを示すベースライン結果を提示しました。これらのLLMsは、検索なしで0.40の精度を達成しています。私たちが提案するマルチステップ検索パイプラインにより、精度が著しく向上し、0.66の精度（50％以上の改善）が達成されました。私たちの研究が評価のギャップを埋め、より堅牢で能力の高いRAGシステムの開発を支援することを願っています。

MuCodec: 超低ビットレート音楽コーデック
MuCodec: Ultra Low-Bitrate Music Codec

Sep 20

ByYaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu

音楽コーデックはオーディオコーデック研究の重要な側面であり、超低ビットレートの圧縮は音楽の送信と生成において重要性を持ちます。音楽の背景の複雑さとボーカルの豊かさから、意味論的または音響情報のモデリングに単独で依存することは、ボーカルと背景を持つ音楽を効果的に再構築することができません。この問題に対処するために、私たちはMuCodecを提案しました。これは、超低ビットレートでの音楽の圧縮と再構築のタスクを特に対象としています。MuCodecは、MuEncoderを使用して音響的および意味的な特徴を抽出し、それらをRVQで離散化し、フローマッチングを介してMel-VAE特徴を取得します。音楽は、事前にトレーニングされたMEL-VAEデコーダーとHiFi-GANを使用して再構築されます。MuCodecは、超低ビットレート（0.35kbps）または高ビットレート（1.35kbps）で高品質な音楽を再構築し、主観的および客観的指標の両方でこれまでで最良の結果を達成しています。コードとデモ: https://xuyaoxun.github.io/MuCodec_demo/.

マルチモーダル生成事前知識によって強化されたポートレートビデオ編集
Portrait Video Editing Empowered by Multimodal Generative Priors

Sep 20

ByXuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang

PortraitGenは、マルチモーダルプロンプトを用いて一貫性のある表現豊かなスタイリゼーションを実現する強力な肖像ビデオ編集手法を紹介します。従来の肖像ビデオ編集手法は、しばしば3Dおよび時間的な一貫性に苦労し、レンダリングの品質と効率に欠けることが一般的です。これらの問題に対処するために、肖像ビデオフレームを統一された動的3Dガウス場に昇華させ、フレーム間の構造的および時間的な一貫性を確保します。さらに、洗練されたスタイル編集を可能にするだけでなく、レンダリング速度を100FPS以上にする新しいニューラルガウステクスチャメカニズムを設計しています。当社のアプローチは、大規模な2D生成モデルから抽出された知識を介してマルチモーダル入力を組み込んでいます。システムには、表情の類似性ガイダンスと顔認識型肖像編集モジュールも組み込まれており、反復的なデータセットの更新に関連する劣化問題を効果的に軽減しています。幅広い実験により、当社の手法の時間的一貫性、編集効率、および優れたレンダリング品質が示されています。提案された手法の広範な適用可能性は、テキスト駆動型編集、画像駆動型編集、およびリライティングを含むさまざまなアプリケーションを通じて示され、ビデオ編集分野の進歩に大きな潜在能力を持つことが強調されています。デモビデオとリリースされたコードは、当社のプロジェクトページで提供されています: https://ustc3dv.github.io/PortraitGen/

野生環境におけるカラフルな拡散固有画像分解
Colorful Diffuse Intrinsic Image Decomposition in the Wild

Sep 20

ByChris Careaga, Yağız Aksoy

固有画像分解は、単一の写真から表面反射率と照明効果を分離することを目指しています。問題の複雑さから、従来の多くの研究は単色の照明とランベルトワールドを仮定しており、これにより照明を考慮した画像編集アプリケーションでの使用が制限されています。本研究では、入力画像を拡散反射率、カラフルな拡散シェーディング、および鏡面残留成分に分離します。我々は、まず単色の照明を、次にランベルトワールドの仮定を段階的に取り除くことで結果を導き出します。問題をより簡単なサブ問題に分割することで、限られた正解データセットにもかかわらず、野生のカラフルな拡散シェーディングの推定が可能であることを示します。拡張された固有モデルにより、写真の照明を考慮した分析が可能となり、スペキュラリティの除去やピクセルごとのホワイトバランス調整などの画像編集アプリケーションに使用できます。

V^3：モバイル端末でストリーム可能な2Dダイナミックガウス関数を介して体積ビデオを表示する
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

Sep 20

ByPenghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu

高品質のボリューメトリックビデオを2Dビデオと同様にシームレスに体験することは長年の夢でした。しかし、現在の動的3DGSメソッドは、レンダリング品質が高いにもかかわらず、計算および帯域制約のため、モバイルデバイスでのストリーミングに課題を抱えています。本論文では、動的ガウス分布のストリーミングを通じて高品質なモバイルレンダリングを実現する革新的なアプローチであるV3（ビューイングボリューメトリックビデオ）を紹介します。主要なイノベーションは、動的3DGSを2Dビデオとして捉え、ハードウェアビデオコーデックの使用を容易にすることです。さらに、ストレージ要件を削減するための2段階のトレーニング戦略を提案します。最初の段階では、ハッシュ符号化と浅いMLPを使用して動きを学習し、次に、ストリーミング要件を満たすためにガウス分布の数を削減するために剪定を行います。2段階目では、残差エントロピー損失と時間的損失を使用して他のガウス分布属性を微調整し、時間的な連続性を向上させます。この動きと外観を分離する戦略は、高いレンダリング品質を維持しつつ、コンパクトなストレージ要件を実現します。また、2Dガウスビデオをデコードおよびレンダリングするためのマルチプラットフォームプレーヤーを設計しました。幅広い実験により、V3の効果を実証し、従来のデバイスでの高品質なレンダリングとストリーミングを可能にすることで、他の手法を凌駕しています。モバイルデバイスで動的ガウス分布をストリーミングする最初のプロジェクトとして、当社のコンパニオンプレーヤーは、スムーズなスクロールや即座の共有を含む前例のないボリューメトリックビデオ体験をユーザーに提供します。ソースコード付きのプロジェクトページは、https://authoritywang.github.io/v3/ で入手できます。

Minstrel: 非AI専門家向けのマルチエージェント調整による構造的プロンプト生成
Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts

Sep 20

ByMing Wang, Yuanzhong Liu, Xiaoyu Liang, Yijie Huang, Daling Wang, Xiaocui Yang, Sijia Shen, Shi Feng, Xiaoming Zhang, Chaofeng Guan, Yifei Zhang

LLMはさまざまな領域で優れたパフォーマンスを示しています。ただし、彼らの作業を支援するための高品質なプロンプトを作成することは、 AI非専門家にとって課題となっています。プロンプトエンジニアリングの既存の研究は、ある程度散在した最適化原則と経験に依存したプロンプト最適化器を示唆しています。残念ながら、これらの取り組みには構造的な設計が欠けており、高い学習コストがかかり、特にAI非専門家にとってはプロンプトの反復的な更新が容易ではありません。構造化再利用可能なプログラミング言語に着想を得て、構造的プロンプト設計フレームワークであるLangGPTを提案します。さらに、構造的プロンプトの自動生成を行う反映を持つ多生成エージェントシステムであるMinstrelを紹介します。実験と事例研究により、Minstrelによって生成された構造的プロンプトや手動で書かれたプロンプトがLLMのパフォーマンスを著しく向上させることを示します。さらに、オンラインコミュニティでのユーザーアンケートを通じて、構造的プロンプトの利用の容易さを分析します。

Hackphyr: ネットワークセキュリティ環境向けのローカルにファインチューニングされたLLMエージェント
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

Sep 17

ByMaria Rigaki, Carlos Catania, Sebastian Garcia

大規模言語モデル（LLMs）は、サイバーセキュリティを含むさまざまな領域で顕著な潜在能力を示しています。商用クラウドベースのLLMsを使用することは、プライバシー上の懸念やコスト、ネットワーク接続の制約から望ましくない場合があります。本論文では、ネットワークセキュリティ環境内でレッドチームエージェントとして使用するために、ローカルでファインチューニングされたLLMであるHackphyrを提案します。当社のファインチューニングされた70億パラメータモデルは、単一のGPUカードで実行でき、GPT-4などのはるかに大きくパワフルな商用モデルと同等のパフォーマンスを達成します。Hackphyrは、GPT-3.5-turboなどの他のモデルやQ学習エージェントなどのベースラインをはるかに上回る性能を発揮します。このパフォーマンスを達成するために、新しいタスク固有のサイバーセキュリティデータセットを生成して、ベースモデルの能力を向上させました。最後に、このようなエージェントの計画能力や潜在的な欠点に関する洞察を提供するエージェントの行動の包括的な分析を実施し、サイバーセキュリティコンテキストにおけるLLMベースのエージェントの広い理解に貢献しています。

自己回帰を用いたビデオ用の時間的に整列したオーディオ
Temporally Aligned Audio for Video with Autoregression

Sep 20

ByIlpo Viertola, Vladimir Iashin, Esa Rahtu

V-AURAは、高い時間的整合性と関連性を実現する最初の自己回帰モデルであり、ビデオからオーディオを生成する際に利用されます。V-AURAは、高フレームレートのビジュアル特徴抽出器とクロスモーダルオーディオビジュアル特徴融合戦略を使用して、細かいビジュアルモーションイベントを捉え、正確な時間的整合性を確保します。さらに、高いオーディオビジュアル関連性を持つベンチマークデータセットであるVisualSoundを提案しています。VisualSoundは、YouTubeから抽出された野外サンプルで構成されるビデオデータセットであるVGGSoundに基づいています。キュレーション中には、聴覚イベントがビジュアルイベントと整合していないサンプルは削除されます。V-AURAは、現在の最先端モデルを上回り、時間的整合性と意味的関連性で優れた性能を発揮しつつ、同等のオーディオ品質を維持しています。コード、サンプル、VisualSound、およびモデルは、以下のリンクから入手可能です：https://v-aura.notion.site

LLM-Agent-UMF: LLMベースのエージェント統合モデリングフレームワークによるマルチアクティブ/パッシブコアエージェントのシームレスな統合
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents

Sep 17

ByAmine B. Hassouna, Hana Chaari, Ines Belhaj

LLM ベースのエージェントにツールを統合することで、単独の LLM および従来のエージェントの能力の限界を克服しました。ただし、これらのテクノロジーの結合といくつかの最先端の作品で提案された改良は、統一されていないソフトウェアアーキテクチャに続き、モジュラリティの欠如をもたらしました。実際、これらは主に機能に焦点を当て、エージェント内のコンポーネントの境界の定義を見落としており、研究者の間で用語やアーキテクチャの曖昧さを引き起こしました。本論文では、機能的およびソフトウェアアーキテクチャの観点から LLM ベースのエージェントの開発のための明確な基盤を確立する統一されたフレームワークを提案することで、これに対処しました。当社のフレームワーク、LLM-Agent-UMF（LLM ベースのエージェント統一モデリングフレームワーク）、は、エージェントの異なるコンポーネント、つまり LLM とツールを、新たに導入された要素であるコアエージェントから区別することを明確にしています。コアエージェントは、エージェントの中心的なコーディネーターとしての役割を果たし、計画、メモリ、プロファイル、アクション、セキュリティの 5 つのモジュールから構成されており、前の作品ではしばしば無視されていた後者も含まれています。コアエージェントの内部構造の違いから、それらを受動型と能動型の分類に分けました。これに基づき、さまざまな個々のエージェントの固有の特性を組み合わせた異なるマルチコアエージェントアーキテクチャを提案しました。評価目的のために、このフレームワークを最先端のエージェントの選択に適用し、その機能性と見落とされていたアーキテクチャの側面との整合性を示しました。さらに、提案された 4 つのアーキテクチャを徹底的に評価し、異なるエージェントをハイブリッドな能動型/受動型コアエージェントシステムに統合することで、特定のエージェントの組み合わせに伴う課題を明らかにしました。