HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

22 papers found

StreamDiffusion: リアルタイムインタラクティブ生成のためのパイプライン全体のソリューション
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Dec 19

ByAkio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer

本論文では、インタラクティブな画像生成を目的としたリアルタイム拡散パイプライン「StreamDiffusion」を提案する。既存の拡散モデルはテキストや画像プロンプトからの画像生成に優れているが、リアルタイムインタラクションにおいては限界がある。この制約は、メタバース、ライブビデオストリーミング、放送など、高スループットが求められる連続入力シナリオで特に顕著である。この課題に対処するため、我々は従来の逐次的なノイズ除去プロセスをバッチ処理に変換する新たなアプローチを提示する。Stream Batchは、従来の待機・インタラクション方式を排除し、流動的で高スループットなストリームを実現する。データ入力とモデルスループットの頻度差に対処するため、ストリーム処理を並列化する新たな入出力キューを設計した。さらに、既存の拡散パイプラインは分類器不要ガイダンス（CFG）を使用しており、追加のU-Net計算を必要とする。この冗長な計算を軽減するため、負の条件付きノイズ除去ステップを1回または0回に削減する新たな残差分類器不要ガイダンス（RCFG）アルゴリズムを提案する。また、電力消費を最適化するため、確率的類似性フィルター（SSF）を導入した。我々のStream Batchは、異なるノイズ除去レベルにおいて逐次的なノイズ除去方法と比較して約1.5倍の高速化を達成する。提案したRCFGは、従来のCFGと比較して最大2.05倍の高速化をもたらす。提案した戦略と既存の成熟した高速化ツールを組み合わせることで、1台のRTX4090上で画像間生成が最大91.07fpsを達成し、Diffusersが開発したAutoPiplineのスループットを59.56倍以上向上させた。さらに、提案したStreamDiffusionは、1台のRTX3060で2.39倍、1台のRTX4090で1.99倍のエネルギー消費削減を実現した。

VideoPoet: ゼロショット動画生成のための大規模言語モデル
VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dec 21

ByDan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

本論文では、多様な条件付け信号から高品質な映像とそれにマッチする音声を合成可能な言語モデル「VideoPoet」を紹介します。VideoPoetは、画像、映像、テキスト、音声といったマルチモーダル入力を処理するデコーダのみのTransformerアーキテクチャを採用しています。訓練プロトコルは大規模言語モデル（LLM）と同様に、事前学習とタスク固有の適応の2段階で構成されています。事前学習段階では、VideoPoetは自己回帰型Transformerフレームワーク内でマルチモーダル生成目標の混合を取り入れます。事前学習済みのLLMは、様々な映像生成タスクに適応可能な基盤として機能します。本論文では、ゼロショット映像生成におけるモデルの最先端性能を示す実証結果を提示し、特にVideoPoetが高忠実度の動きを生成する能力に焦点を当てています。プロジェクトページ: http://sites.research.google/videopoet/

PowerInfer: コンシューマー向けGPUを用いた高速大規模言語モデルサービング
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Dec 16

ByYixin Song, Zeyu Mi, Haotong Xie, Haibo Chen

本論文では、コンシューマー向け単一GPUを搭載したパーソナルコンピュータ（PC）上で動作する高速大規模言語モデル（LLM）推論エンジン「PowerInfer」を紹介する。PowerInferの設計の根幹にあるのは、LLM推論に内在する高い局所性を活用するという考え方である。この局所性は、ニューロン活性化におけるべき乗分布として特徴づけられる。この分布は、入力に依存せず常に活性化される少数のニューロン（ホットニューロン）と、特定の入力に応じて変化する大多数のニューロン（コールドニューロン）が存在することを示している。PowerInferはこの知見を活用し、GPU-CPUハイブリッド推論エンジンを設計している。具体的には、ホットニューロンをGPUに事前ロードして高速アクセスを実現し、コールドニューロンはCPUで計算することで、GPUメモリ要求とCPU-GPU間データ転送を大幅に削減している。さらに、PowerInferは適応型予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算スパース性の効率を最適化している。評価結果によると、PowerInferは単一のNVIDIA RTX 4090 GPU上で、様々なLLM（OPT-175Bを含む）に対して平均13.20トークン/秒、ピーク時29.08トークン/秒の生成速度を達成し、トップクラスのサーバー向けA100 GPUの性能と比べてわずか18%低い結果を示した。これは、モデルの精度を維持しつつ、llama.cppを最大11.69倍上回る性能である。

生成型マルチモーダルモデルはインコンテキスト学習者である
Generative Multimodal Models are In-Context Learners

Dec 20

ByQuan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

人間が文脈内でマルチモーダルタスクを容易に解決する能力（つまり、わずかなデモンストレーションや簡単な指示だけで行う能力）は、現在のマルチモーダルシステムが模倣するのに大きく苦労している点です。本研究では、大規模マルチモーダルモデルのタスク非依存的な文脈内学習能力が、効果的なスケールアップによって大幅に向上することを実証します。私たちは、370億パラメータを持つ生成型マルチモーダルモデル「Emu2」を紹介します。このモデルは、大規模なマルチモーダルシーケンスを統一された自己回帰目的でトレーニングされています。Emu2は、視覚的プロンプティングやオブジェクトに基づいた生成など、即興的な推論を必要とするタスクを解決するまでに至る、強力なマルチモーダル文脈内学習能力を示します。このモデルは、数ショット設定における複数のマルチモーダル理解タスクで新記録を樹立しました。特定の指示に従うように指示チューニングを行うと、Emu2はさらに、大規模マルチモーダルモデル向けの質問応答ベンチマークやオープンエンドの主題駆動型生成といった難しいタスクにおいて、新たな最先端の性能を達成します。これらの成果は、Emu2が幅広いマルチモーダルタスクの基盤モデルおよび汎用インターフェースとして機能し得ることを示しています。今後の研究を促進するため、コードとモデルは公開されています。

DREAM-Talk: 拡散モデルに基づくリアルな感情音声駆動型単一画像トーキングフェイス生成手法
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Dec 21

ByChenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng

単一のポートレート画像から感情を伴う話し顔を生成することは、依然として重要な課題です。特に、表現力豊かな感情的な話し方と正確なリップシンクを同時に達成することは困難であり、リップシンクの正確さのために表現力が損なわれることがよくあります。多くの先行研究で広く採用されているLSTMネットワークは、感情表現の微妙なニュアンスやバリエーションを捉えることができないことが多いです。これらの課題に対処するため、我々はDREAM-Talkを提案します。これは、多様な表情と正確なリップシンクを同時に生成するために設計された、2段階の拡散ベースの音声駆動フレームワークです。第1段階では、EmoDiffという新しい拡散モジュールを提案し、音声と参照された感情スタイルに従って、多様でダイナミックな感情表現と頭のポーズを生成します。唇の動きと音声の間に強い相関があることを考慮し、音声特徴と感情スタイルを使用して、リップシンクの正確さを向上させたダイナミクスを洗練します。この目的のために、ビデオツービデオレンダリングモジュールを展開し、プロキシ3Dアバターから任意のポートレートに表情と唇の動きを転送します。定量的および定性的に、DREAM-Talkは表現力、リップシンクの正確さ、知覚品質の点で最先端の手法を上回ります。

DreamTuner: 単一画像で実現する対象駆動型生成
DreamTuner: Single Image is Enough for Subject-Driven Generation

Dec 21

ByMiao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He

拡散モデルは、テキストから画像を生成する際に印象的な能力を発揮し、1枚または少数の参照画像を用いてカスタマイズされた概念を生成する必要がある、被写体駆動生成のパーソナライズドアプリケーションへの期待が高まっています。しかし、既存のファインチューニングベースの手法では、被写体の学習と事前学習済みモデルの生成能力の維持とのトレードオフを適切にバランスさせることができていません。さらに、追加の画像エンコーダを利用する他の手法では、エンコーディングの圧縮により被写体の重要な詳細が失われる傾向があります。これらの課題に対処するため、我々はDreamTurnerを提案します。これは、参照情報を粗から細へと注入することで、被写体駆動の画像生成をより効果的に実現する新しい手法です。DreamTurnerは、粗い被写体の同一性を保持するための被写体エンコーダを導入し、視覚-テキスト間のクロスアテンションの前に、圧縮された一般的な被写体の特徴をアテンションレイヤーを通じて導入します。次に、事前学習済みのテキストから画像へのモデル内の自己アテンションレイヤーを自己被写体アテンションレイヤーに変更し、ターゲット被写体の詳細を洗練します。生成された画像は、自己被写体アテンションにおいて、参照画像と自身の両方から詳細な特徴をクエリします。自己被写体アテンションは、カスタマイズされた被写体の詳細な特徴を維持するための効果的でエレガントな、かつトレーニング不要の手法であり、推論時にプラグアンドプレイのソリューションとして機能し得ることを強調する価値があります。最後に、追加の被写体駆動ファインチューニングにより、DreamTurnerは被写体駆動の画像生成において顕著な性能を達成し、テキストやポーズなどの他の条件によって制御可能です。詳細については、プロジェクトページhttps://dreamtuner-diffusion.github.io/をご覧ください。

視野角条件付き拡散モデルによるゼロショットメトリック深度推定
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Dec 20

BySaurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

単眼深度推定の手法は標準ベンチマークにおいて大きな進歩を遂げてきたが、ゼロショットメトリック深度推定は未解決の課題である。主な課題として、RGBと深度の分布が大きく異なる屋内と屋外シーンの共同モデリング、および未知のカメラ内部パラメータに起因する深度スケールの曖昧さが挙げられる。最近の研究では、屋内と屋外シーンを共同でモデル化するための専門的なマルチヘッドアーキテクチャが提案されている。これに対して我々は、汎用的でタスクに依存しない拡散モデルを提唱し、屋内と屋外シーンの共同モデリングを可能にする対数スケール深度パラメータ化、スケール曖昧性を扱うための視野角（FOV）条件付け、そしてトレーニングデータセットの限られたカメラ内部パラメータを超えて一般化するためにトレーニング中にFOVを合成的に拡張するといったいくつかの進歩を実現した。さらに、一般的なものよりも多様なトレーニング混合と効率的な拡散パラメータ化を採用することで、我々の手法DMD（Diffusion for Metric Depth）は、わずかなノイズ除去ステップのみを使用して、現在のSOTAと比較してゼロショット屋内データセットで25%、ゼロショット屋外データセットで33%の相対誤差（REL）の削減を達成した。概要についてはhttps://diffusion-vision.github.io/dmdを参照のこと。

Fairy: 高速並列化命令誘導型ビデオ間合成
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Dec 20

ByBichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

本論文では、Fairyを紹介する。これは、画像編集用拡散モデルを最小限かつ堅牢に適応させ、ビデオ編集アプリケーション向けに強化したものである。我々のアプローチは、アンカーベースのクロスフレームアテンションという概念を中心に展開されており、このメカニズムは拡散特徴をフレーム間で暗黙的に伝播させ、優れた時間的コヒーレンスと高忠実度の合成を保証する。Fairyは、メモリや処理速度といった従来のモデルの制約に対処するだけでなく、独自のデータ拡張戦略を通じて時間的一貫性を向上させる。この戦略により、モデルはソース画像とターゲット画像の両方におけるアフィン変換に対して等価性を持つ。驚くほど効率的で、Fairyは120フレームの512x384ビデオ（30 FPSで4秒間）をわずか14秒で生成し、従来の手法を少なくとも44倍上回る。1000の生成サンプルを含む包括的なユーザスタディにより、我々のアプローチが優れた品質を提供し、確立された手法を決定的に凌駕することが確認された。

InstructVideo: 人間のフィードバックを用いたビデオ拡散モデルの指示
InstructVideo: Instructing Video Diffusion Models with Human Feedback

Dec 19

ByHangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni

拡散モデルは、ビデオ生成における事実上のパラダイムとして登場しました。しかし、そのウェブスケールの多様な品質のデータへの依存は、視覚的に魅力的でなく、テキストプロンプトと整合しない結果をしばしば生み出します。この問題に対処するため、我々はInstructVideoを提案し、人間のフィードバックによる報酬ファインチューニングを通じてテキストからビデオへの拡散モデルを指導します。InstructVideoには2つの重要な要素があります：1) 完全なDDIMサンプリングチェーンを通じた生成によって引き起こされる報酬ファインチューニングのコストを改善するため、報酬ファインチューニングを編集として再構築します。拡散プロセスを利用してサンプリングされたビデオを破損させることで、InstructVideoはDDIMサンプリングチェーンの部分的な推論のみを必要とし、ファインチューニングのコストを削減しながら効率を向上させます。2) 人間の選好に基づく専用のビデオ報酬モデルの欠如を緩和するため、確立された画像報酬モデル（例：HPSv2）を再利用します。この目的のために、セグメンタルビデオ報酬（Segmental Video Reward）を提案します。これは、セグメンタルなスパースサンプリングに基づいて報酬信号を提供するメカニズムです。また、ファインチューニング中の時間的モデリングの劣化を緩和するための時間的減衰報酬（Temporally Attenuated Reward）を提案します。質的および量的な広範な実験により、InstructVideoにおける画像報酬モデルの実用性と有効性が検証され、汎化能力を損なうことなく生成ビデオの視覚的品質が大幅に向上することが示されました。コードとモデルは公開される予定です。

Splatter Image: 超高速シングルビュー3D再構成
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Dec 20

ByStanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi

Splatter Imageを紹介します。これは、38 FPSで動作する単眼3Dオブジェクト再構成のための超高速アプローチです。Splatter Imageは、最近、リアルタイムレンダリング、高速トレーニング、そしてマルチビュー再構成における優れたスケーリングをもたらしたGaussian Splattingに基づいています。初めて、Gaussian Splattingを単眼再構成の設定に適用します。私たちのアプローチは学習ベースであり、テスト時には、再構成にニューラルネットワークの順伝播評価のみを必要とします。Splatter Imageの主な革新は、驚くほどシンプルな設計です：2D画像から画像へのネットワークを使用して、入力画像をピクセルごとに1つの3Dガウシアンにマッピングします。結果として得られるガウシアンは、Splatter Imageという形の画像になります。さらに、この方法を拡張して、複数の画像を入力として取り込むことができるようにし、クロスビューアテンションを追加することで実現しています。レンダラーの速度（588 FPS）のおかげで、単一のGPUを使用してトレーニングを行いながら、各イテレーションで全体の画像を生成し、LPIPSのような知覚的メトリクスを最適化することができます。標準的なベンチマークでは、高速な再構成だけでなく、PSNR、LPIPS、その他のメトリクスにおいて、最近の非常に高価なベースラインよりも優れた結果を示しています。

TinySAM：効率的なSegment Anything Modelの限界を押し広げる
TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Dec 21

ByHan Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen

最近、Segment Anything Model（SAM）は強力なセグメンテーション能力を示し、コンピュータビジョン分野で大きな注目を集めています。多くの後続研究が、事前学習済みのSAMを基に様々なアプリケーションを開発し、下流の視覚タスクで印象的な性能を達成しています。しかし、SAMは重いアーキテクチャで構成されており、大規模な計算能力を必要とするため、計算リソースが制約されたエッジデバイスでのさらなる応用が妨げられています。この問題に対処するため、本論文では、強力なゼロショット性能を維持しながら、小さなSegment Anything Model（TinySAM）を取得するためのフレームワークを提案します。まず、オンラインハードプロンプトサンプリング戦略を用いた全段階知識蒸留法を提案し、軽量な学生モデルを蒸留します。また、プロンプト可能なセグメンテーションタスクに適応したポストトレーニング量子化を適用し、計算コストをさらに削減します。さらに、階層的な「すべてをセグメント化する」戦略を提案し、性能の低下をほとんど伴わずに「すべてを推論する」処理を2倍加速します。これらの提案手法により、TinySAMは計算量を桁違いに削減し、効率的なSegment Anythingタスクの限界を押し広げます。様々なゼロショット転移タスクでの広範な実験により、TinySAMが他の手法に対して著しく優れた性能を示すことが実証されています。事前学習済みモデルとコードは、https://github.com/xinghaochen/TinySAM および https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM で公開されます。

キャッシュド・トランスフォーマー：微分可能メモリによるトランスフォーマーの改善キャッシュ
Cached Transformers: Improving Transformers with Differentiable Memory Cache

Dec 20

ByZhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo

本研究では、Cached Transformerと呼ばれる新しいTransformerモデルを提案します。このモデルは、Gated Recurrent Cached（GRC）アテンションを用いて、自己注意機構を拡張し、トークンの微分可能なメモリキャッシュを導入します。GRCアテンションにより、過去と現在のトークンの両方に注意を向けることが可能となり、注意の受容野が拡大し、長距離依存性の探索が可能になります。再帰的なゲーティングユニットを利用してキャッシュを継続的に更新することで、我々のモデルは、言語モデリング、機械翻訳、ListOPs、画像分類、物体検出、インスタンスセグメンテーションといった6つの言語および視覚タスクにおいて、重要な進展を達成しました。さらに、我々のアプローチは、言語モデリングなどのタスクにおいて、従来のメモリベースの技術を凌駕し、より広範な状況に適用可能な能力を示しています。

ニューラルフィールドによる触覚：把持操作のための視覚-触覚知覚
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Dec 20

BySudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam

人間レベルの器用さを実現するためには、ロボットがマルチモーダルセンシングから空間認識を推論し、接触相互作用を推論する必要があります。新しい物体の把持操作中、このような空間認識には物体の姿勢と形状の推定が含まれます。把持知覚の現状では、主に視覚が使用され、事前に既知の物体の追跡に限定されています。さらに、操作中に把持中の物体が視覚的に遮蔽されることは避けられず、現在のシステムは遮蔽のないタスクを超えることができません。我々は、マルチフィンガーハンド上で視覚と触覚センシングを組み合わせ、把持操作中の物体の姿勢と形状を推定します。我々の手法であるNeuralFeelsは、オンラインでニューラルフィールドを学習して物体の形状を符号化し、姿勢グラフ問題を最適化することでそれを共同で追跡します。我々は、シミュレーションと実世界でマルチモーダル把持知覚を研究し、固有受容感覚駆動のポリシーを通じて異なる物体と相互作用します。我々の実験では、最終的な再構成Fスコアが81%、平均姿勢ドリフトが4.7mmであり、既知のCADモデルを使用すると2.3mmにさらに減少します。さらに、重度の視覚的遮蔽下では、視覚のみの方法と比較して最大94%の追跡改善を達成できることを観察しました。我々の結果は、触覚が少なくとも把持操作中の視覚推定を洗練し、最良の場合には曖昧さを解消することを示しています。我々は、この領域のベンチマークに向けた一歩として、70の実験からなる評価データセットFeelSightを公開します。マルチモーダルセンシングによって駆動される我々のニューラル表現は、ロボットの器用さを進歩させるための知覚の基盤として役立つことができます。ビデオはプロジェクトウェブサイトhttps://suddhu.github.io/neural-feels/でご覧いただけます。

MaskINT: 補間型非自己回帰マスクトランスフォーマーによるビデオ編集
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Dec 19

ByHaoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie

近年の生成AIの進展により、特にテキストプロンプト制御の文脈において、画像や動画の編集が大幅に向上しています。最先端のアプローチでは、これらのタスクを達成するために主に拡散モデルが用いられています。しかし、拡散ベースの手法は計算コストが高く、大規模なペアデータセットを必要とするため、実用アプリケーションへの展開が困難です。本研究では、この課題に対処するため、テキストベースの動画編集プロセスを2つの別々の段階に分割します。最初の段階では、既存のテキストから画像への拡散モデルを活用し、追加のファインチューニングなしに少数のキーフレームを同時に編集します。第二段階では、非自己回帰型マスク生成トランスフォーマーに基づく効率的なモデルであるMaskINTを導入し、中間フレームから提供される構造的ガイダンスを活用してキーフレーム間のフレーム補間に特化します。私たちの包括的な実験セットは、MaskINTの有効性と効率性を他の拡散ベースの手法と比較して示しています。この研究は、テキストベースの動画編集に対する実用的なソリューションを提供し、この領域における非自己回帰型マスク生成トランスフォーマーの可能性を示しています。

ガウシアンを整列させよ：動的3Dガウシアンと構成拡散モデルによるテキストから4D生成
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Dec 21

ByHuan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis

テキストガイド拡散モデルは、画像および動画生成に革命をもたらし、最適化ベースの3Dオブジェクト合成にも成功裏に適用されてきました。本論文では、未開拓のテキストから4Dへの設定に焦点を当て、時間次元を追加したスコア蒸留法を用いて動的なアニメーション3Dオブジェクトを合成します。従来の研究と比較して、我々は新たな構成的生成ベースのアプローチを追求し、テキストから画像、テキストから動画、3D対応マルチビュー拡散モデルを組み合わせることで、4Dオブジェクト最適化中にフィードバックを提供し、時間的一貫性、高品質な視覚的外観、現実的な幾何学を同時に実現します。我々の手法「Align Your Gaussians（AYG）」は、変形フィールドを伴う動的3Dガウシアンスプラッティングを4D表現として活用します。AYGの鍵となるのは、移動する3Dガウシアンの分布を正則化し、最適化を安定化させて動きを誘導する新たな手法です。また、動きを増幅するメカニズムと、複数の4Dシーケンスを生成・結合するための新しい自己回帰的合成スキームを提案します。これらの技術により、鮮やかな動的シーンを合成し、従来の研究を質的・量的に上回り、テキストから4Dへの最先端の性能を達成します。ガウシアン4D表現により、異なる4Dアニメーションをシームレスに結合できることを実証します。AYGは、アニメーション、シミュレーション、デジタルコンテンツ制作、および合成データ生成において有望な道を開きます。

Mini-GPTs: コンテキストに基づくプルーニングによる効率的な大規模言語モデル
Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Dec 20

ByTim Valicenti, Justice Vidal, Ritik Patnaik

AI研究において、大規模言語モデル（LLMs）の最適化は、分野の実用的な応用と持続可能性を進める上で重要な課題であり続けています。MITのSong Han教授の研究室の基礎研究を基盤として、本論文は、コンテキストプルーニングを介したMini-GPTsの開発における新たなアプローチを紹介します。私たちの方法論は、Phi-1.5のような従来のLLMsの計算アーキテクチャを戦略的にプルーニングし、コア機能を保持しながらモデルサイズを大幅に削減することに焦点を当てています。この技術を、米国法、医療Q&A、Skyrimの対話、英語-台湾語翻訳、経済学記事など、多様で複雑なデータセットに適用しました。結果は、コンテキストプルーニングが単なる理論的概念ではなく、ドメイン特化型でリソース効率の高いLLMsを開発するための実用的なツールとしての効率性と有効性を強調しています。コンテキストプルーニングは、ドメイン特化型LLMsを構築するための有望な方法であり、本研究は、より多くのハードウェア計算力、洗練されたファインチューニング、量子化を伴う将来の開発に向けた基盤となるものです。

適応的ガイダンス：条件付き拡散モデルの訓練不要な高速化
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Dec 19

ByAngela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet

本論文は、推論効率の観点から、テキスト条件付き拡散モデルにおけるClassifier-Free Guidance（CFG）の役割について包括的な研究を提示する。特に、CFGをすべての拡散ステップに適用するというデフォルトの選択を緩和し、効率的なガイダンスポリシーを探索する。我々は、そのようなポリシーの発見を微分可能なニューラルアーキテクチャサーチ（NAS）フレームワークに定式化する。我々の研究結果は、CFGによって提案されるノイズ除去ステップが単純な条件付きステップと次第に一致するようになり、特にノイズ除去プロセスの後半において、CFGの追加のニューラルネットワーク評価が冗長になることを示唆している。この洞察に基づき、我々は「Adaptive Guidance」（AG）を提案する。これはCFGの効率的な変種であり、ノイズ除去プロセスが収束を示す場合にネットワーク評価を適応的に省略する。我々の実験は、AGがCFGの画像品質を維持しながら計算量を25％削減することを実証している。したがって、AGはGuidance Distillationのプラグアンドプレイ代替手段として機能し、後者の速度向上の50％を達成しながら、トレーニング不要であり、ネガティブプロンプトを処理する能力を保持する。最後に、我々は拡散プロセスの前半におけるCFGのさらなる冗長性を明らかにし、ニューラル関数評価全体を過去のスコア推定の単純なアフィン変換で置き換えることができることを示す。この方法はLinearAGと称され、ベースラインモデルから逸脱する代償として、さらに安価な推論を提供する。我々の研究結果は、条件付きノイズ除去プロセスの効率に関する洞察を提供し、テキスト条件付き拡散モデルのより実用的で迅速な展開に貢献する。

Repaint123: プログレッシブで制御可能な2Dリペイントによる高速かつ高品質な単一画像からの3D生成
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting

Dec 20

ByJunwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan

最近の単一画像から3Dを生成する手法では、スコア蒸留サンプリング（SDS）が一般的に採用されています。印象的な結果が得られる一方で、多視点の不整合、過飽和および過平滑化されたテクスチャ、生成速度の遅さなど、複数の欠点が存在します。これらの欠点に対処するため、我々はRepaint123を提案し、多視点バイアスの軽減、テクスチャの劣化の改善、および生成プロセスの高速化を実現します。コアとなるアイデアは、2D拡散モデルの強力な画像生成能力と、再描画戦略のテクスチャ整合能力を組み合わせることで、一貫性のある高品質な多視点画像を生成することです。さらに、再描画プロセスにおける生成画像の品質を向上させるため、オーバーラップ領域に対する可視性を考慮した適応的な再描画強度を提案します。生成された高品質で多視点一貫性のある画像により、単純な平均二乗誤差（MSE）損失を用いた高速な3Dコンテンツ生成が可能となります。我々は広範な実験を行い、本手法が多視点一貫性と細かいテクスチャを備えた高品質な3Dコンテンツを2分間でゼロから生成する優れた能力を持つことを示します。コードはhttps://github.com/junwuzhang19/repaint123にあります。

UniSDF：反射を伴う複雑なシーンの高精細3D再構成のためのニューラル表現の統合
UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

Dec 20

ByFangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari

ニューラル3Dシーン表現は、2D画像からの3D再構成において大きな可能性を示しています。しかし、複雑なシーンの実世界キャプチャを再構成することは依然として課題です。既存の汎用3D再構成手法は、細かい幾何学的詳細を表現するのに苦労し、大規模シーンの反射面を適切にモデル化できません。反射面に特化した手法は、より優れた反射パラメータ化を活用することで、複雑で詳細な反射をモデル化できます。しかし、これらの手法は、非反射成分と反射成分が混在する実際の無境界シナリオではしばしばロバスト性に欠けることが観察されます。本研究では、反射を伴う大規模で複雑なシーンを再構成できる汎用3D再構成手法UniSDFを提案します。ビューベースおよび反射ベースの色予測パラメータ化技術を調査し、これらの表現を3D空間で明示的にブレンドすることが、特に反射面において、より幾何学的に正確な表面再構成を可能にすることを発見しました。さらに、この表現を粗から細へと訓練されるマルチ解像度グリッドバックボーンと組み合わせることで、従来手法よりも高速な再構成を実現します。オブジェクトレベルデータセットDTU、Shiny Blender、および無境界データセットMip-NeRF 360、Ref-NeRF realでの広範な実験により、本手法が細部と反射面を伴う複雑な大規模シーンをロバストに再構成できることが実証されました。詳細はプロジェクトページhttps://fangjinhuawang.github.io/UniSDFをご覧ください。

SpecNeRF: 鏡面反射のためのガウス方向符号化
SpecNeRF: Gaussian Directional Encoding for Specular Reflections

Dec 20

ByLi Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt

ニューラルラジアンスフィールドは、3Dシーンの外観をモデル化する際に顕著な性能を発揮している。しかし、既存の手法は、特に室内環境の複雑な照明下での光沢面の視点依存的な外観に依然として苦戦している。既存の手法が通常、環境マップのような遠方照明を仮定するのに対し、我々は近接照明条件下での視点依存効果をより良くモデル化するために、学習可能なガウス方向エンコーディングを提案する。重要な点として、我々の新しい方向エンコーディングは、近接照明の空間的に変化する性質を捉え、事前フィルタリングされた環境マップの挙動を模倣する。その結果、任意の3D位置における粗さ係数が変化する場合でも、事前畳み込みされた鏡面反射色を効率的に評価することが可能となる。さらに、反射モデリングにおける形状と放射輝度の曖昧さを軽減するためのデータ駆動型ジオメトリ事前分布を導入する。我々は、ガウス方向エンコーディングとジオメトリ事前分布が、ニューラルラジアンスフィールドにおける困難な鏡面反射のモデル化を大幅に改善し、外観をより物理的に意味のある成分に分解するのに役立つことを示す。

スパースニューラルダイナミクスを用いたモデルベース制御
Model-Based Control with Sparse Neural Dynamics

Dec 20

ByZiang Liu, Genggeng Zhou, Jeff He, Tobia Marcucci, Li Fei-Fei, Jiajun Wu, Yunzhu Li

深層ニューラルネットワーク（DNN）を用いて観測データから予測モデルを学習することは、多くの現実世界の計画および制御問題に対する有望な新たなアプローチです。しかし、一般的なDNNは効果的な計画のためには構造化されすぎておらず、現在の制御手法は通常、広範なサンプリングや局所的な勾配降下法に依存しています。本論文では、効率的な最適化アルゴリズムに適した統合的なモデル学習と予測制御のための新しいフレームワークを提案します。具体的には、システムダイナミクスのReLUニューラルモデルから始め、予測精度の最小限の損失で、冗長なニューロンを削除することで徐々にスパース化します。この離散的なスパース化プロセスを連続問題として近似し、モデルアーキテクチャと重みパラメータの両方をエンドツーエンドで最適化できるようにします。スパース化されたモデルは、ニューロンの活性化をバイナリ変数として表現し、効率的な分枝限定法を採用する混合整数予測制御器によって使用されます。私たちのフレームワークは、単純な多層パーセプトロンから複雑なグラフニューラルダイナミクスまで、さまざまなDNNに適用可能です。物体の押し出し、構成物の分類、変形可能な物体の操作など、複雑な接触ダイナミクスを伴うタスクを効率的に処理できます。数値実験およびハードウェア実験により、積極的なスパース化にもかかわらず、私たちのフレームワークが既存の最先端手法よりも優れた閉ループ性能を発揮できることが示されています。

RadEdit: 拡散画像編集による生体医療視覚モデルのストレステスト
RadEdit: stress-testing biomedical vision models via diffusion image editing

Dec 20

ByFernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse

生体医用画像データセットはしばしば小規模で偏りがあり、予測モデルの実世界での性能が内部テストから期待される値よりも大幅に低くなる可能性があります。本研究では、生成的な画像編集を用いてデータセットシフトをシミュレートし、生体医用視覚モデルの故障モードを診断することを提案します。これにより、展開前に準備状況を評価し、コストと患者へのリスクを低減できる可能性があります。既存の編集手法では、疾患と治療介入の共起による偽の相関が学習され、望ましくない変更が生じるため、実用性が制限されています。この問題に対処するため、複数の胸部X線データセットでテキストから画像への拡散モデルを学習し、複数のマスクを使用して変更を制約し、編集された画像の一貫性を保証する新しい編集手法RadEditを導入します。取得シフト、症状シフト、集団シフトという3種類のデータセットシフトを考慮し、追加のデータ収集なしに故障を診断し、モデルの堅牢性を定量化できることを示します。これにより、説明可能なAIのためのより定性的なツールを補完します。