ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ROICtrl: 視覚生成のためのインスタンス制御の強化
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27, 2024
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
712

自然言語はしばしば、複数のインスタンスに位置情報や属性情報を正確に関連付けることに苦労し、これにより現在のテキストベースのビジュアル生成モデルは、わずかな支配的なインスタンスのみを備えたより単純な構成に限定されています。この制限に対処するために、本研究では、各インスタンスがバウンディングボックスとフリーフォームのキャプションによって制御される地域インスタンス制御を導入することで、拡散モデルを強化しています。この領域の従来の手法は、通常、暗黙の位置エンコーディングや明示的な注意マスクに依存して、関心領域(ROI)を分離しようとしますが、これにより不正確な座標の注入や大きな計算オーバーヘッドが生じます。物体検出におけるROI-Alignから着想を得て、ROI-Unpoolという補完的な操作を導入します。ROI-AlignとROI-Unpoolを組み合わせることで、視覚生成のための高解像度特徴マップ上での明示的で効率的かつ正確なROI操作が可能となります。ROI-Unpoolを基盤として、事前学習済みの拡散モデルに対して、精密な地域インスタンス制御を可能にするROICtrlを提案します。ROICtrlは、コミュニティによって微調整された拡散モデルと互換性があり、既存の空間ベースのアドオン(例:ControlNet、T2I-Adapter)や埋め込みベースのアドオン(例:IP-Adapter、ED-LoRA)とも互換性があり、これらのアプリケーションをマルチインスタンス生成に拡張します。実験結果は、ROICtrlが地域インスタンス制御において優れた性能を発揮し、計算コストを大幅に削減することを示しています。

交互に配置されたシーングラフによる交互のテキストと画像の生成の評価
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26, 2024
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
192

多くの実世界のユーザークエリ(例:「卵チャーハンの作り方は?」)は、料理本のように、テキスト手順とそれに付随する画像を生成するシステムの恩恵を受ける可能性があります。交互にテキストと画像を生成するモデルは、これらのモダリティ内および間での一貫性を確保する際に課題に直面します。これらの課題に対処するために、交互にテキストと画像を生成するための包括的な評価フレームワークであるISGを提案します。ISGは、テキストと画像ブロック間の関係を捉えるためにシーングラフ構造を活用し、全体的、構造的、ブロックレベル、画像固有の4つの粒度レベルで応答を評価します。この多層評価により、一貫性、結合性、および正確性の微妙な評価が可能となり、解釈可能な質問回答フィードバックを提供します。ISGと併せて、8つのカテゴリと21のサブカテゴリにまたがる1,150のサンプルを含むISG-Benchというベンチマークを紹介します。このベンチマークデータセットには、複雑な言語ビジョン依存関係とヴィジョン中心のタスクであるスタイル変換などを効果的に評価するためのゴールデンアンサーが含まれています。ISG-Benchを使用して、最近の統合ビジョン言語モデルが交互コンテンツを生成する際に性能が低いことを示します。統合モデルよりも別々の言語と画像モデルを組み合わせる構成的アプローチは、全体レベルで統合モデルよりも111%の改善を示しますが、ブロックおよび画像レベルでのパフォーマンスは依然として最適ではありません。将来の研究を促進するために、「計画-実行-改善」パイプラインを用いたISG-Agentというベースラインエージェントを開発し、ツールを呼び出して122%の性能向上を達成します。

周波数分解によるアイデンティティを保持したテキストからビデオへの生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26, 2024
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
133

アイデンティティを保持するテキストからビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高品質なビデオを作成することを目指しています。これはビデオ生成における重要な課題であり、生成モデルにとって未解決の問題です。本論文は、文献において未解決の2つの方向においてIPT2Vの技術的フロンティアを押し進めます:(1)煩雑なケースごとの微調整を必要としないチューニングフリーのパイプライン、および(2)周波数に敏感なヒューリスティックなアイデンティティ保持DiTベースの制御スキーム。私たちはConsisIDを提案します。これは、人間のアイデンティティを生成されたビデオで一貫させるためのチューニングフリーなDiTベースのコントロール可能なIPT2Vモデルです。拡散トランスフォーマーの周波数分析における先行研究に触発され、このモデルは顔の特徴を低周波数のグローバル特徴と高周波数の固有特徴に分解できる周波数領域でアイデンティティ制御信号を使用します。低周波数の観点から、参照画像と顔のキーポイントを潜在空間にエンコードするグローバルな顔抽出器を導入し、低周波数情報が豊富な特徴を生成します。これらの特徴は、DiTに関連するトレーニングの課題を軽減するためにネットワークの浅い層に統合されます。高周波数の観点から、高周波数の詳細を捉えるローカルな顔抽出器を設計し、これをトランスフォーマーブロックに注入することで、モデルが微細な特徴を保持する能力を向上させます。周波数情報を活用した階層的なトレーニング戦略を提案し、バニラの事前トレーニングされたビデオ生成モデルをIPT2Vモデルに変換し、アイデンティティを保持します。幅広い実験により、周波数に敏感なヒューリスティックなスキームがDiTベースのモデルに最適な制御ソリューションを提供することが示されました。このスキームのおかげで、ConsisIDは高品質でアイデンティティを保持するビデオを生成し、より効果的なIPT2Vに向けて大きな進歩を遂げています。

MARVEL-40M+: 高忠実度テキストから3Dコンテンツ作成のためのマルチレベルビジュアル詳細化
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26, 2024
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
214

テキストプロンプトから高品質な3Dコンテンツを生成することは、既存のデータセットのサイズ、多様性、および注釈の深さの制約から、コンピュータビジョンにおける重要な課題です。この課題に対処するために、私たちはMARVEL-40M+という、7つの主要な3Dデータセットから集約された8.9百万以上の3Dアセットに対する4,000万以上のテキスト注釈を持つ包括的なデータセットを導入します。私たちの貢献は、オープンソースの事前学習済みのマルチビューVLMおよびLLMを統合した新しいマルチステージ注釈パイプラインであり、詳細(150-200語)から簡潔な意味タグ(10-20語)までの多レベルの記述を自動的に生成します。この構造は、細かい粒度の3D再構築と迅速なプロトタイピングの両方をサポートします。さらに、ソースデータセットからの人間のメタデータを注釈パイプラインに組み込み、注釈にドメイン固有の情報を追加し、VLMの幻覚を減らします。さらに、私たちはMARVEL-FX3Dを開発し、2段階のテキストから3Dへのパイプラインを構築します。私たちの注釈を用いてStable Diffusionを微調整し、事前学習済みの画像から3Dへのネットワークを使用して、15秒以内に3Dテクスチャメッシュを生成します。包括的な評価により、MARVEL-40M+が注釈の品質と言語的多様性において既存のデータセットを大幅に上回り、GPT-4による勝率が72.41%、人間の評価者による勝率が73.40%を達成していることが示されました。

CAT4D: マルチビュー動画拡散モデルを用いた4次元での何でも創造
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27, 2024
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
595

CAT4Dは、単眼ビデオから4D(動的3D)シーンを作成する手法を提案します。CAT4Dは、さまざまな組み合わせのデータセットでトレーニングされたマルチビュー・ビデオ拡散モデルを活用し、任意のカメラポーズとタイムスタンプで新しいビュー合成を可能にします。新しいサンプリング手法と組み合わせることで、このモデルは単眼ビデオをマルチビュー・ビデオに変換し、変形可能な3Dガウス表現の最適化を通じて堅牢な4D再構築を実現します。私たちは、新しいビュー合成および動的シーン再構築のベンチマークで競争力のあるパフォーマンスを示し、実際または生成されたビデオからの4Dシーン生成の創造的な能力を強調します。結果やインタラクティブなデモについては、弊社のプロジェクトページをご覧ください:cat-4d.github.io。

大規模言語モデルを用いたGUIエージェント:調査
Large Language Model-Brained GUI Agents: A Survey

Nov 27, 2024
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
323

GUI(Graphical User Interfaces)は長い間、人間とコンピュータのインタラクションに中心的な役割を果たしており、直感的で視覚的な方法でデジタルシステムにアクセスし、相互作用する手段を提供してきました。特に多様なモダリティモデルを含むLLM(Large Language Models)の出現は、GUIの自動化の新時代をもたらしました。これらは、自然言語理解、コード生成、および視覚処理において優れた能力を示しています。これにより、複雑なGUI要素を解釈し、自然言語の指示に基づいて自律的にアクションを実行することができる新世代のLLM搭載GUIエージェントが可能となりました。これらのエージェントは、ユーザーが簡単な会話コマンドを通じて複雑な多段階のタスクを実行できるようにし、パラダイムシフトを表しています。これらのアプリケーションは、ウェブナビゲーション、モバイルアプリの相互作用、およびデスクトップ自動化を横断し、ソフトウェアとのインタラクション方法を革新する変革的なユーザーエクスペリエンスを提供しています。この新興分野は、研究と産業の両面で急速に進化しています。 このトレンドを構造化した理解を提供するため、本論文では、LLM搭載GUIエージェントの包括的な調査を行い、その歴史的な進化、中核コンポーネント、および高度な技術を探求します。既存のGUIエージェントフレームワーク、特化したGUIエージェントのトレーニング用データの収集と利用、GUIタスク向けの大規模なアクションモデルの開発、および有効性を評価するために必要な評価尺度やベンチマークなど、研究課題に取り組みます。さらに、これらのエージェントによって可能となる新興アプリケーションについても検討します。この調査を通じて、研究の欠陥を特定し、この分野での将来の進展のためのロードマップを概説します。基礎知識と最新の進歩を統合することで、この研究は、研究者と実務者の両方が課題を克服し、LLM搭載GUIエージェントのフルポテンシャルを引き出す手助けとなることを目指しています。

ゼロショットカスタマイズ画像生成のための拡散自己蒸留
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27, 2024
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
166

テキストから画像への拡散モデルは印象的な結果を生み出しますが、細かい制御を望むアーティストにとってはfrustratingなツールです。例えば、特定のインスタンスの画像を新しい文脈で生成する「identity-preserving generation」のような一般的な用途があります。この設定は、画像+テキスト条件付き生成モデルにとって適したものであり、その他のタスク(例:relighting)も同様です。ただし、このようなモデルを直接トレーニングするための高品質なペアデータが不足しています。私たちは、Diffusion Self-Distillationという手法を提案します。これは、事前にトレーニングされたテキストから画像へのモデルを使用して、テキスト条件付きの画像から画像へのタスクのためのデータセットを生成する方法です。最初に、テキストから画像への拡散モデルのコンテキスト内生成能力を活用して、画像のグリッドを作成し、Visual-Languageモデルの支援を受けて大規模なペアデータセットをキュレーションします。その後、キュレーションされたペアデータセットを使用して、テキストから画像へのモデルをテキスト+画像から画像へのモデルに微調整します。Diffusion Self-Distillationが既存のゼロショット手法を凌駕し、幅広いidentity-preservation生成タスクで個別チューニング技術と競合し、テスト時の最適化を必要とせずに優れた性能を発揮することを示します。

3D凸スプラッティング:3Dスムース凸体を用いた輝度場レンダリング
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22, 2024
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
165

最近の放射輝度場再構築の進歩、例えば3Dガウススプラッティング(3DGS)は、ガウス原理の組成でシーンを表現することにより、高品質な新しい視点合成と高速レンダリングを達成しています。しかし、3Dガウスはシーン再構築にいくつかの制限を持っています。硬いエッジを正確に捉えることは、ガウスの数を大幅に増やさないと難しく、大きなメモリフットプリントを作成します。さらに、彼らは平坦な表面を表現するのに苦労し、空間に拡散します。手作りの正則化子がないと、実際の表面の周りに不規則に分散する傾向があります。これらの問題を回避するために、私たちは3Dスムース凸スプラッティング(3DCS)という新しい手法を導入します。これは、幾何学的に意味のある放射輝度場をマルチビュー画像からモデリングするために3Dスムース凸体を原始体として利用します。スムースな凸形状はガウスよりも柔軟性があり、少ない原始体を使用して、硬いエッジと密なボリュームを持つ3Dシーンをより良く表現できます。私たちの効率的なCUDAベースのラスタライザによって強化された3DCSは、Mip-NeRF360、Tanks and Temples、Deep Blendingなどのベンチマークで3DGSに比べて優れたパフォーマンスを達成します。具体的には、PSNRで最大0.81、LPIPSで0.026の向上を達成し、高速なレンダリング速度を維持しつつ必要な原始体の数を減らします。私たちの結果は、3Dスムース凸スプラッティングが高品質なシーン再構築と新しい視点合成の新たな標準になる可能性を示しています。プロジェクトページ:convexsplatting.github.io。

DiffusionDrive: 端から端までの自律運転のための切り捨てられた拡散モデル
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22, 2024
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
152

最近、拡散モデルがロボットのポリシー学習において強力な生成技術として台頭し、複数モードの行動分布をモデリングする能力を持っています。その能力を活用してエンドツーエンドの自律走行に向けた方向性は有望です。ただし、ロボットの拡散ポリシーにおける多数のノイズ除去ステップと、よりダイナミックでオープンワールドな交通シーンの性質は、リアルタイムの速度で多様な運転アクションを生成する際に重大な課題を提起します。これらの課題に対処するために、私たちは新しい切り詰められた拡散ポリシーを提案します。このポリシーは事前の複数モードアンカーを組み込み、拡散スケジュールを切り詰めることで、モデルがアンカー付きガウス分布から複数モードの運転アクション分布へのノイズ除去を学習できるようにします。さらに、条件付きシーンコンテキストとの相互作用を強化する効率的なカスケード拡散デコーダを設計します。提案されたモデルであるDiffusionDriveは、バニラ拡散ポリシーに比べてノイズ除去ステップを10倍削減し、わずか2ステップで優れた多様性と品質を提供します。計画志向のNAVSIMデータセットにおいて、ResNet-34バックボーンを用いたDiffusionDriveは、装飾を施さずに88.1 PDMSを達成し、新記録を樹立します。また、NVIDIA 4090上で45 FPSのリアルタイム速度で実行されます。困難なシナリオに対する質的結果は、DiffusionDriveが堅牢に多様な運転アクションを生成できることをさらに確認しています。コードとモデルはhttps://github.com/hustvl/DiffusionDrive で入手可能です。

Make-It-Animatable: アニメーション準備が整った3Dキャラクターを制作するための効率的なフレームワーク
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27, 2024
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
144

現代のクリエイティブ産業において、3Dキャラクターは不可欠ですが、それらをアニメーション可能にするには、しばしばリギングやスキニングなどの手作業が必要です。既存の自動リギングツールは、手動注釈の必要性、剛性スケルトンのトポロジー、多様な形状やポーズに対する限られた一般化など、いくつかの制約に直面しています。代替手段として、リギングされたテンプレートメッシュに事前にバインドされたアニメーション可能なアバターを生成する方法があります。しかしこの方法はしばしば柔軟性に欠け、通常はリアルな人間の形状に限定されます。これらの問題に対処するため、私たちはMake-It-Animatableを提案します。この革新的なデータ駆動型手法は、形状やポーズに関係なく、任意の3Dヒューマノイドモデルを1秒未満でキャラクターアニメーション用に準備します。当社の統一フレームワークは、高品質なブレンドウェイト、ボーン、およびポーズ変換を生成します。粒子ベースの形状オートエンコーダを組み込むことで、当社の手法はメッシュや3Dガウススプラットなど、さまざまな3D表現をサポートします。さらに、粗から細の表現と構造に配慮したモデリング戦略を採用することで、非標準のスケルトン構造を持つキャラクターにおいても、精度と堅牢性の両方を確保します。当社のフレームワークの有効性を検証するために、幅広い実験を実施しました。既存の手法と比較して、当社の手法は品質と速度の両方で著しい改善を示しています。

UniPose: 人物ポーズの理解、生成、編集のための統合されたマルチモーダルフレームワーク
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25, 2024
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
134

人間のポーズはデジタル時代において重要な役割を果たしています。最近の研究は人間のポーズの理解と生成において印象的な進歩を達成してきましたが、しばしば単一の制御信号のみをサポートし、孤立して動作するため、実世界のシナリオでの適用が制限されています。本論文では、画像、テキスト、および3D SMPLポーズなど、さまざまなモダリティにわたる人間のポーズを理解、生成、編集するために、大規模言語モデル(LLMs)を用いるUniPoseフレームワークを提案します。具体的には、3Dポーズを離散的なポーズトークンに変換するためのポーズトークナイザを適用し、統一された語彙内でLLMにシームレスに統合することが可能となります。さらに、UniPoseを細かいポーズ知覚能力を向上させるために、ポーズ固有のビジュアルエンコーダを含む複数のビジュアルエンコーダを活用しています。統一された学習戦略から利益を得ることで、UniPoseは異なるポーズ関連タスク間で知識を効果的に転送し、見慣れないタスクに適応し、拡張された能力を示します。この研究は、ポーズの理解、生成、編集のための汎用フレームワークを構築する初の試みとなります。幅広い実験により、UniPoseはさまざまなポーズ関連タスクで競争力のある、さらには優れたパフォーマンスを発揮することが示されています。

共同デコーディングは、視覚的な自己回帰モデリングを効率的にします。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26, 2024
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
122

画像生成の急速に進化する分野において、Visual Auto-Regressive(VAR)モデリングは革新的な次元予測手法としてかなりの注目を集めています。このパラダイムは、効率性、拡張性、およびゼロショットの汎化において著しい改善をもたらします。しかし、VARの本質的なコースからファインな性質は、長いトークンシーケンスを導入し、メモリ消費と計算上の冗長性を招くことになります。これらのボトルネックに対処するために、我々はCollaborative Decoding(CoDe)を提案します。これは、VARフレームワークに適した新しい効率的なデコーディング戦略です。CoDeは、大規模なスケールでのパラメータ要求の大幅な削減と、異なるスケール間での排他的な生成パターンに基づいています。これらの洞察に基づき、マルチスケール推論プロセスを大規模なモデルと小規模なモデルの間でシームレスに協力するように分割します。大規模なモデルは、小規模なスケールで低周波数コンテンツを生成することに特化した「起案者」として機能し、一方、小規模なモデルは、大規模なスケールで高周波数の詳細を予測することに専念する「磨き上げ者」として機能します。この協力により、CoDeは驚異的な効率を実現し、品質にほとんど影響を与えません。CoDeは1.7倍のスピードアップを達成し、メモリ使用量を約50%削減し、画像品質を1.95から1.98にわずかなFID増加で維持します。起案ステップがさらに減少すると、CoDeは印象的な2.9倍の加速比を達成し、NVIDIA 4090 GPU1枚で256x256解像度で41枚/sに到達し、品質のFIDを2.27で維持します。コードはhttps://github.com/czg1225/CoDe で入手可能です。

DreamCache: 特徴キャッシングを介したフィントゥーニング不要の軽量個人化画像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26, 2024
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
123

個人化画像生成には、異なる文脈で制御された生成を可能にするために、参照主題の中核的な特徴を捉えるテキストから画像生成モデルが必要です。既存の手法は、複雑なトレーニング要件、高い推論コスト、限られた柔軟性、またはこれらの問題の組み合わせによる課題に直面しています。本論文では、効率的で高品質な個人化画像生成のためのスケーラブルなアプローチであるDreamCacheを紹介します。DreamCacheは、事前に学習された拡散ノイザーの一つのタイムステップと、一部のレイヤーからの少数の参照画像特徴をキャッシュすることにより、軽量で訓練された調整アダプターを介して生成された画像特徴の動的調整を可能にします。DreamCacheは、追加のパラメータが桁違いに少なく、既存のモデルよりも計算効率が高く、汎用性があり、最先端の画像とテキストの整合性を実現しています。

ChatRex: 共同認識と理解のためのマルチモーダルLLMの取りまとめ
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27, 2024
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
103

知覚と理解はコンピュータビジョンの二大要素です。マルチモーダル大規模言語モデル(MLLM)は驚異的な視覚理解能力を示していますが、正確な知覚能力が不足しているという議論もあります。例えば、最先端モデルQwen2-VLはCOCOデータセットでわずか43.9の再現率しか達成しておらず、知覚と理解の組み合わせを必要とする多くのタスクが制限されています。本研究では、この知覚のギャップをモデル設計とデータ開発の観点から埋めることを目指します。まず、デカップルされた知覚設計を持つMLLMであるChatRexを紹介します。LLMが直接ボックス座標を予測する代わりに、普遍的な提案ネットワークからの出力ボックスをLLMに供給し、検出結果を表すために対応するボックスインデックスを出力させることで、回帰タスクを検索ベースのタスクに変え、LLMがより熟練して処理するようにします。データの観点からは、完全自動化されたデータエンジンを構築し、知覚と理解の共同トレーニングをサポートする複数の粒度を持つRexverse-2Mデータセットを構築します。標準の2段階トレーニングの後、ChatRexは強力な知覚能力を示し、マルチモーダル理解パフォーマンスを維持します。これら2つの能力の組み合わせは同時に多くの魅力的なアプリケーションを開放し、MLLMにおける知覚と理解の補完的な役割を示しています。コードはhttps://github.com/IDEA-Research/ChatRex で入手可能です。

マルチモーダル制御を用いたビデオガイドフリーサウンド生成
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26, 2024
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
102

動画の効果音を生成するには、しばしば現実の音源から大きく逸脱した芸術的な効果音を作成し、音響デザインで柔軟な制御が必要とされます。この問題に対処するために、我々はMultiFoleyを導入します。これは、テキスト、オーディオ、ビデオを介したマルチモーダルな条件付けをサポートするビデオガイド型音声生成モデルです。無音のビデオとテキストプロンプトが与えられると、MultiFoleyは、ユーザーがクリーンな音(例:風の音がないスケートボードの車輪の回転音)やより風変わりな音(例:ライオンの咆哮を猫の鳴き声のように聞こえるようにする)を作成できるようにします。また、MultiFoleyは、条件付けのために効果音(SFX)ライブラリや部分的なビデオからリファレンスオーディオを選択することも可能です。当モデルの主要な革新点は、低品質のオーディオを持つインターネットビデオデータセットとプロのSFX録音の両方での共同トレーニングにあり、高品質でフルバンド幅(48kHz)の音声生成を実現しています。自動評価とヒューマンスタディを通じて、MultiFoleyがさまざまな条件付き入力にわたって同期した高品質な音を生成し、既存の手法を凌駕していることを示します。ビデオの結果については、弊社のプロジェクトページをご覧ください:https://ificl.github.io/MultiFoley/

オメガンス:拡散ベース合成におけるさまざまな粒度のための単一パラメータ
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26, 2024
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
72

本研究では、拡散ベースの合成において粒度を効果的に制御するための単一パラメータであるオメガを導入します。このパラメータは、拡散モデルの逆プロセスのノイズ除去ステップ中に組み込まれます。当手法は、モデルの再トレーニング、アーキテクチャの変更、または推論中の追加計算負荷を必要とせず、生成される出力の詳細レベルを正確に制御することが可能です。さらに、空間マスクやオメガ値を変化させたノイズ除去スケジュールを適用することで、領域固有またはタイムステップ固有の粒度制御を実現できます。制御信号や参照画像からの画像構成の事前知識は、特定のオブジェクトにおける粒度制御のための正確なオメガマスクの作成を容易にします。微妙な詳細の変化を制御するためのパラメータの役割を強調するために、この手法は「オメガ」と「ニュアンス」を組み合わせた「Omegance」と名付けられています。当手法は、さまざまな画像およびビデオ合成タスクで印象的なパフォーマンスを示し、高度な拡散モデルにも適応可能です。コードはhttps://github.com/itsmag11/Omegance で入手可能です。

ドラフトモデルはいつ停止すべきかを知っています:先読みデコーディングのための自己検証長ポリシー
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27, 2024
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
62

先行推論(Speculative Decoding、SD)は、大規模言語モデルの推論速度を向上させる上で重要な技術となっています。従来のSD方法は、タスク間のトークン生成の難易度を無視した固定のドラフト長を採用しています。そのため、本論文ではこの問題に取り組み、SVIP(Speculative Decoding Systems向けの難易度を考慮した動的ドラフト長ポリシー)を導入します。ドラフトトークンの受容率の理論的下限とその推論時間の近似に基づき、SVIPは各ドラフトトークン分布のエントロピーに基づいてドラフトシーケンスの長さを適応的に決定します。主要なSDベンチマークとフレームワークでの実験結果は、SVIPの優れた性能を示し、SpecBenchにおいてベースラインのSD方法に比べて最大20\%のウォールタイム高速化を達成し、8Kトークンまでの長文生成においてMT-Benchにおいて60\%の高速化を実現しています。さらに、SVIPは完全にトレーニング不要であり、自己回帰的にドラフトトークンを生成する既存のSD方法と互換性があります。実験結果は、SVIPがGliDe&CaPEおよびEAGLE-2に対しても一貫したウォールタイムの改善をもたらすことを示しています。

VideoLLMは話すタイミングを知っています:ビデオテキストデュエットインタラクション形式による時間的に敏感なビデオ理解の向上
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27, 2024
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
52

最近のビデオ大規模言語モデル(VideoLLM)に関する研究は、主にモデルアーキテクチャとトレーニングデータセットに焦点を当てており、ユーザーとモデルのインタラクション形式が未開拓のままとなっています。既存の研究では、ユーザーは通常、ビデオ全体とクエリを入力として使用してVideoLLMとやり取りし、その後モデルが応答を生成します。このインタラクション形式は、ビデオが終わらずリアルタイムで応答が必要なライブストリーミング理解などのシナリオでのVideoLLMの適用を制限し、また、ビデオセグメントのローカライズが必要な時間的に敏感なタスクでのパフォーマンスが不十分であるという結果をもたらします。本論文では、ビデオテキストデュエットのインタラクション形式に焦点を当てています。このインタラクション形式は、ビデオの連続再生と、ユーザーとモデルがビデオ再生中に任意の位置にテキストメッセージを挿入できることを特徴としています。テキストメッセージが終了すると、ビデオは再生を続け、デュエットのパフォーマーの代替と同様です。私たちは、VideoLLMをビデオテキストデュエットのインタラクション形式に適応させるために設計されたMMDuetITというビデオテキストトレーニングデータセットを構築します。また、リアルタイム応答能力を評価するためにMulti-Answer Grounded Video Question Answering(MAGQA)タスクを導入します。MMDuetITでトレーニングされたMMDuetは、ビデオテキストデュエットのインタラクション形式を採用することで、さまざまな時間的に敏感なタスク(YouCook2の密なビデオキャプショニングで76%のCIDEr、QVHighlightsのハイライト検出で90%のmAP、Charades-STAの時間的ビデオグラウンディングで25%のR@0.5)で著しい改善を達成し、トレーニングの努力を最小限に抑えつつ、ビデオ再生中にリアルタイムで応答することも可能となります。コード、データ、デモは以下で入手可能です:https://github.com/yellow-binary-tree/MMDuet.

MedNeXtを用いた脳腫瘍セグメンテーションの最適化:BraTS 2024 SSAと小児医学
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24, 2024
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
52

脳のMRIでの重要な病理学的特徴を特定することは、グリオーマ患者の長期生存にとって重要です。しかし、手動セグメンテーションは時間がかかり、専門家の介入が必要であり、人為的なエラーの影響を受けやすいです。そのため、3D多モーダル脳MRIスキャンで腫瘍を正確にセグメンテーションできる機械学習手法の開発に多くの研究が注がれています。最先端のモデルは進化していますが、訓練に使用されるデータによって制限されることが多く、異なる分布が導入されるさまざまな人口に適用された際の信頼性に関する懸念があります。このような分布の変化は、MRI技術の質が低い地域(例:サハラ以南のアフリカ)や患者の人口統計の変化(例:子供)から生じる可能性があります。BraTS-2024チャレンジは、これらの問題に取り組むプラットフォームを提供しています。この研究では、MedNeXt、包括的なモデルアンサンブル、および徹底的な事後処理を使用して、BraTS-2024 SSAおよび小児腫瘍タスクで腫瘍をセグメンテーションするための方法論を提案しています。当社の手法は、未知の検証セットで強力なパフォーマンスを発揮し、BraTS-2024 SSAデータセットで平均ダイス類似度係数(DSC)が0.896、BraTS小児腫瘍データセットで平均DSCが0.830を達成しました。さらに、当社の手法は、BraTS-2024 SSAデータセットで平均ハウスドルフ距離(HD95)が14.682、BraTS小児腫瘍データセットで平均HD95が37.508を達成しました。当社のGitHubリポジトリはこちらからアクセスできます:プロジェクトリポジトリ:https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

適応型ブラインドオールインワン画像復元
Adaptive Blind All-in-One Image Restoration

Nov 27, 2024
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
42

盲目のオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を回復することを目指しています。ただし、これらのモデルは、訓練段階ですべての可能な劣化タイプを定義する必要がありますが、未知の劣化に対して限られた汎化しか示さず、複雑なケースでの実用的な適用を制限しています。本論文では、シンプルで効果的な適応型ブラインドオールインワン復元(ABAIR)モデルを提案し、複数の劣化に対処し、未知の劣化に対してよく汎化し、新しい劣化を効率的に取り込むことができます。まず、大規模な自然画像データセットでベースラインモデルをトレーニングし、複数の合成劣化を施したものにセグメンテーションヘッドを追加して、ピクセルごとの劣化タイプを推定し、幅広い劣化に汎化できる強力なバックボーンを実現します。次に、独立した低ランクアダプタを使用して、ベースラインモデルをさまざまな画像復元タスクに適応させます。さらに、柔軟で軽量な劣化推定器を介して、アダプタを多目的な画像に適応的に組み合わせる方法を学習します。当モデルは、特定の歪みを処理する際に強力であり、複雑なタスクに適応する際に柔軟であり、5つおよび3つのタスクIRセットアップで圧倒的に最先端技術を上回るだけでなく、未知の劣化や複合歪みに対する汎化も向上しています。

テンプレートベースのデータ生成を用いた言語モデルの訓練と評価
Training and Evaluating Language Models with Template-based Data Generation

Nov 27, 2024
Yifan Zhang
33

大規模言語モデル(LLM)の急速な進化、例えばGPT-3、PaLM、およびLlamaなどは、自然言語処理を大きく変革し、言語の理解と生成において顕著な能力を示しています。ただし、これらのモデルは、複雑な推論を必要とするタスクでしばしば苦労します。特に数学的問題解決においては、洗練された推論能力を訓練するために必要な大規模で高品質な特定領域のデータセットが不足しているためです。この制限に対処するために、私たちはTemplate-based Data Generation(TDG)を導入します。これは、LLM(GPT-4)を活用してパラメータ化されたメタテンプレートを自動生成し、それを使用して多様な高品質の問題と解を合成する革新的な手法です。TDGを活用して、私たちはTemplateMath Part I: TemplateGSMを作成しました。これは、700万以上の合成された小学校の数学問題からなるデータセットで、それぞれがコードベースと自然言語の解とともに提供されており、効果的に無限の問題を生成する可能性があります。このデータセットは大規模な数学データセットの不足を緩和し、数学的推論においてLLMの事前トレーニング、微調整、評価に貴重なリソースとして機能します。私たちの手法は、ほぼ無限のデータ生成だけでなく、GPT-4をメタテンプレート生成に使用することで、多様で高品質な問題構造を確保し、データ拡張を新たなレベルに引き上げます。TemplateMath Part I: TemplateGSMデータセットは、https://huggingface.co/datasets/math-ai/TemplateGSM で公開されています。コードはhttps://github.com/iiis-ai/TemplateMath で入手可能です。

編集を取り除いても、私の顔は留まらない:悪意ある生成編集に対する個人バイオメトリック防御
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25, 2024
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
23

最近の拡散モデルの進歩により、生成画像編集がより利用しやすくなり、創造的な編集が可能になりましたが、倫理的な懸念が高まっています。特に、プライバシーや身元の安全を脅かす人物の肖像への悪意のある編集に関してです。既存の保護方法は、編集を無効にするために敵対的摂動に主に依存していますが、さまざまな編集リクエストに対してしばしば失敗します。私たちは、肖像保護のための新しいアプローチであるFaceLockを提案します。FaceLockは、敵対的摂動を最適化してバイオメトリック情報を破壊するか、大幅に変更することで、編集された出力をバイオメトリックに認識できないようにします。FaceLockは、顔認識と視覚認識を摂動最適化に統合し、さまざまな編集試行に対して堅牢な保護を提供します。また、一般的に使用される評価メトリクスの欠陥を指摘し、それらがどのように操作されるかを明らかにし、信頼性のある保護の評価の必要性を強調しています。実験では、FaceLockが悪意のある編集に対してベースラインを上回り、浄化技術に対しても堅牢であることが示されています。削除研究は、その安定性と拡散ベースの編集アルゴリズム全般にわたる広範な適用可能性を確認しています。私たちの研究は、バイオメトリック防御を前進させ、画像編集におけるプライバシー保護の実践の基盤を築いています。コードはこちらで入手可能です:https://github.com/taco-group/FaceLock。

Nov 27
Nov 28
Nov 29