AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Magpie: 整列済みLLMをゼロからプロンプトして生成するアライメントデータ合成
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Jun 12

ByZhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin

高品質な指示データは、大規模言語モデル（LLM）のアラインメントにおいて極めて重要です。Llama-3-Instructのような一部のモデルはオープンウェイトを公開していますが、そのアラインメントデータは非公開のままであり、AIの民主化を妨げています。既存のオープンソースデータ作成手法は、高い人的コストと限定的で事前定義されたプロンプトの範囲のために、効果的にスケールすることが難しく、公開されているアラインメントデータセットの多様性と品質を制限する可能性があります。では、アラインメントされたLLMから直接抽出することで、高品質な指示データを大規模に合成することは可能でしょうか？我々は、Magpieと名付けた大規模アラインメントデータを生成するための自己合成手法を提案します。我々の重要な観察は、Llama-3-InstructのようなアラインメントされたLLMは、その自己回帰的な性質により、ユーザーメッセージ用に予約された位置までの左側のテンプレートのみを入力しても、ユーザークエリを生成できるということです。この手法を用いてLlama-3-Instructをプロンプトし、400万の指示とそれに対応する応答を生成しました。抽出されたデータを包括的に分析し、30万の高品質なインスタンスを選別しました。Magpieデータを他の公開指示データセットと比較するため、各データセットでLlama-3-8B-Baseをファインチューニングし、ファインチューニングされたモデルの性能を評価しました。その結果、一部のタスクにおいて、Magpieでファインチューニングされたモデルは、教師ありファインチューニング（SFT）とその後のフィードバック学習を通じて1000万のデータポイントで強化された公式のLlama-3-8B-Instructと同等の性能を発揮することがわかりました。また、MagpieをSFTのみに使用することで、UltraFeedbackを用いた直接選好最適化など、SFTと選好最適化の両方に使用された以前の公開データセットの性能を上回ることも示しました。この利点は、AlpacaEval、ArenaHard、WildBenchなどのアラインメントベンチマークで顕著です。

NaRCan：拡散モデルの事前知識を統合した自然な精緻化カノニカル画像によるビデオ編集
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Jun 10

ByTing-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu

本論文では、入力動画を表現するための高品質な自然な正規化画像を生成するために、ハイブリッド変形場と拡散事前分布を統合した動画編集フレームワーク「NaRCan」を提案します。本手法は、ホモグラフィを用いてグローバルな動きをモデル化し、多層パーセプトロン（MLP）を用いて局所的な残差変形を捉えることで、複雑な動画のダイナミクスを扱う能力を向上させます。訓練の初期段階から拡散事前分布を導入することで、生成される画像が高品質で自然な外観を保つことを保証し、生成された正規化画像が様々な動画編集の下流タスクに適していることを実現します。これは、既存の正規化ベースの手法では達成できなかった能力です。さらに、低ランク適応（LoRA）のファインチューニングを組み込み、ノイズと拡散事前分布の更新スケジューリング技術を導入することで、訓練プロセスを14倍高速化します。広範な実験結果は、本手法が様々な動画編集タスクにおいて既存の手法を上回り、一貫性のある高品質な編集動画シーケンスを生成することを示しています。動画結果については、プロジェクトページ（https://koi953215.github.io/NaRCan_page/）をご覧ください。

MotionClone: 制御可能な動画生成のためのトレーニング不要なモーションクローニング
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Jun 8

ByPengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin

モーションベースの制御可能なテキストからビデオ生成は、ビデオ生成を制御するためにモーションを利用する。従来の手法では、モーションの手がかりをエンコードするモデルのトレーニングや、ビデオ拡散モデルのファインチューニングが必要とされることが一般的であった。しかし、これらのアプローチは、トレーニングされた領域外で適用された場合、最適でないモーション生成をもたらすことが多い。本研究では、参照ビデオからモーションをクローンしてテキストからビデオ生成を制御する、トレーニング不要のフレームワークであるMotionCloneを提案する。ビデオインバージョンにおいて時間的アテンションを活用して参照ビデオのモーションを表現し、アテンション重み内のノイズや非常に微妙なモーションの影響を軽減するために、主要な時間的アテンションガイダンスを導入する。さらに、生成モデルが合理的な空間関係を合成し、プロンプト追従能力を強化するのを支援するために、参照ビデオからの前景の大まかな位置と元のクラス分類不要ガイダンス特徴を活用してビデオ生成を導く、位置認識セマンティックガイダンスメカニズムを提案する。広範な実験により、MotionCloneがグローバルなカメラモーションとローカルなオブジェクトモーションの両方において熟練しており、モーションの忠実度、テキストの整合性、時間的一貫性の点で顕著な優位性を示すことが実証された。

もしLLaMA-3で数十億のウェブ画像を再キャプションしたらどうなるだろうか？
What If We Recaption Billions of Web Images with LLaMA-3?

Jun 12

ByXianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

ウェブクロールによって収集された画像とテキストのペアは、本質的にノイズを含んでいます。これまでの研究では、これらのペアのテキスト記述を意味的に整合させ、充実させることで、特にテキストから画像を生成するタスクにおいて、モデルのトレーニングを大幅に向上させることが実証されています。しかし、この分野における大規模な調査は、依然として主にクローズドソースのままです。本論文は、強力でオープンソースのGPT-4レベルの大規模言語モデルであるLLaMA-3を活用し、このコミュニティの取り組みを橋渡しすることを目指しています。私たちのリキャプショニングパイプラインはシンプルです。まず、LLaMA-3-8Bを基盤としたLLaVA-1.5をファインチューニングし、その後、DataComp-1Bデータセットの13億枚の画像に対してリキャプショニングを行います。私たちの実験結果は、この強化されたデータセットであるRecap-DataComp-1Bが、高度な視覚言語モデルのトレーニングにおいて大きな利点を提供することを確認しています。CLIPのような識別モデルでは、クロスモーダル検索タスクにおけるゼロショット性能の向上が観察されます。テキストから画像を生成するDiffusion Transformersのような生成モデルでは、生成された画像がユーザーのテキスト指示、特に複雑なクエリに従う点で大幅に改善されています。プロジェクトページはhttps://www.haqtu.me/Recap-Datacomp-1B/です。

MMLUはもう終わりなのか？
Are We Done with MMLU?

Jun 6

ByAryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini

必ずしもそうとは言えません。私たちは、広く採用されているMassive Multitask Language Understanding（MMLU）ベンチマークのエラーを特定し、分析しました。MMLUは広く採用されているものの、私たちの分析は、大規模言語モデル（LLM）の真の能力を曇らせる多数の正解エラーの存在を明らかにしています。例えば、ウイルス学分野のサブセットにおいて、分析された質問の57％にエラーが含まれていることがわかりました。この問題に対処するため、私たちは新しいエラータクソノミーを使用してデータセットエラーを特定する包括的なフレームワークを導入しました。その後、30のMMLU科目にわたる3,000の手動で再アノテーションされた質問からなるMMLU-Reduxを作成しました。MMLU-Reduxを使用することで、当初報告されていたモデルのパフォーマンス指標との間に大きな不一致があることを示しました。私たちの結果は、MMLUのエラーが多い質問を修正し、将来のベンチマークとしての有用性と信頼性を高めることを強く推奨しています。そのため、私たちはMMLU-Reduxを追加のアノテーションのために公開します https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。

Physics3D: ビデオ拡散を介した3Dガウシアンの物理的特性の学習
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

Jun 6

ByFangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan

近年、3D生成モデルの急速な発展により、3Dオブジェクトの動的な動きをシミュレートしたり、その挙動をカスタマイズしたりするといった新たな応用の可能性が開かれています。しかし、現在の3D生成モデルは色や形状といった表面の特徴に焦点を当てる傾向があり、現実世界での物体の挙動を支配する物理的特性を無視しがちです。物理法則に沿った動きを正確にシミュレートするためには、材料の物理的特性を予測し、それを挙動予測プロセスに組み込むことが不可欠です。とはいえ、現実世界の物体が持つ多様な材料を予測することは、その物理的属性の複雑さゆえに依然として困難です。本論文では、ビデオ拡散モデルを通じて3Dオブジェクトの様々な物理的特性を学習する新しい手法「Physics3D」を提案します。我々のアプローチは、粘弾性材料モデルに基づいた高い汎用性を持つ物理シミュレーションシステムを設計し、幅広い材料を高忠実度でシミュレートすることを可能にします。さらに、現実的な物体材料に対する理解をより多く含むビデオ拡散モデルから物理的な事前知識を蒸留します。弾性材料と塑性材料の両方を用いた広範な実験により、本手法の有効性が実証されています。Physics3Dは、物理世界と仮想ニューラル空間の間のギャップを埋め、仮想環境における現実的な物理法則の統合と応用をより良くする大きな可能性を示しています。プロジェクトページ: https://liuff19.github.io/Physics3D。

PowerInfer-2: スマートフォン上での高速大規模言語モデル推論
PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Jun 10

ByZhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen

本論文では、スマートフォン上での大規模言語モデル（LLM）の高速推論を実現するフレームワークであるPowerInfer-2を紹介します。特に、デバイスのメモリ容量を超えるサイズのモデルに対して効果的です。PowerInfer-2の鍵となる洞察は、スマートフォンの異種計算、メモリ、およびI/Oリソースを活用するために、従来の行列計算を細粒度のニューロンクラスタ計算に分解することです。具体的には、PowerInfer-2は、LLM推論の各段階に適応する多態性ニューロンエンジンを特徴としています。さらに、セグメント化されたニューロンキャッシュと細粒度のニューロンクラスタレベルのパイプラインを導入し、I/O操作によるオーバーヘッドを効果的に最小化および隠蔽します。PowerInfer-2の実装と評価により、2つのスマートフォン上で幅広いLLMモデルをサポートし、最先端のフレームワークと比較して最大29.2倍の速度向上を達成できることが示されました。特に、PowerInfer-2は、スマートフォン上でTurboSparse-Mixtral-47Bモデルを11.68トークン/秒の生成速度で提供する初のシステムです。メモリに完全に収まるモデルでは、PowerInfer-2はllama.cppやMLC-LLMと同等の推論速度を維持しながら、メモリ使用量を約40%削減できます。詳細やデモ動画については、プロジェクトサイトwww.powerinfer.ai/v2をご覧ください。

VideoLLaMA 2: ビデオLLMにおける時空間モデリングと音声理解の進展
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Jun 11

ByZesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

本論文では、映像と音声指向タスクにおける時空間モデリングと音声理解を強化するために設計されたVideo Large Language Models（Video-LLMs）のセットであるVideoLLaMA 2を紹介します。前身モデルを基に、VideoLLaMA 2は特注の時空間畳み込み（STC）コネクタを組み込んでおり、映像データの複雑な空間的・時間的ダイナミクスを効果的に捉えます。さらに、共同学習を通じてオーディオブランチをモデルに統合し、音声の手がかりをシームレスに取り入れることで、モデルのマルチモーダル理解能力を強化しています。多肢選択式映像質問応答（MC-VQA）、自由記述式映像質問応答（OE-VQA）、および映像キャプショニング（VC）タスクにおける包括的な評価により、VideoLLaMA 2はオープンソースモデルの中で一貫して競争力のある結果を達成し、いくつかのベンチマークでは一部のプロプライエタリモデルに迫る性能を示しています。さらに、VideoLLaMA 2は、既存モデルと比較して音声のみの質問応答（AQA）および音声-映像質問応答（OE-AVQA）ベンチマークにおいても適切な改善を示しています。これらの進歩は、VideoLLaMA 2のマルチモーダル理解における優れた性能を強調し、インテリジェントな映像分析システムの新たな基準を設定しています。すべてのモデルは公開されており、さらなる研究の促進に役立てられています。

3D-GRAND: より優れた接地性と低い幻覚を実現する100万規模の3D-LLM向けデータセット
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

Jun 7

ByJianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai

言語と3D知覚の統合は、物理世界を理解し相互作用するエンボディエージェントやロボットの開発において極めて重要です。大規模言語モデル（LLM）は、言語理解と生成能力において目覚ましい成果を示していますが、3D環境への適応（3D-LLM）はまだ初期段階にあります。主な課題は、言語と3Dシーンを密接に結びつける大規模データセットの欠如です。本論文では、40,087の家庭用シーンと620万の密接に結びついたシーン言語指示を組み合わせた先駆的な大規模データセット、3D-GRANDを紹介します。我々の結果は、3D-GRANDを用いた指示チューニングが、3D-LLMの接地能力を大幅に向上させ、幻覚を減少させることを示しています。貢献の一環として、3D-LLMの幻覚を体系的に評価し、将来のモデル間の公平な比較を可能にする包括的なベンチマーク3D-POPEを提案します。我々の実験は、データセットの規模と3D-LLMの性能の間にスケーリング効果があることを強調し、大規模な3DテキストデータセットがエンボディAI研究を進める上で重要な役割を果たすことを示しています。特に、我々の結果は、大規模な合成データで訓練されたモデルが実世界の3Dスキャンでも良好に機能することを示す、効果的なシミュレーションから現実への転移の初期兆候を示しています。3D-GRANDと3D-POPEを通じて、我々はエンボディAIコミュニティに不可欠なリソースと洞察を提供し、より信頼性が高く、より良く接地された3D-LLMの基盤を築くことを目指しています。プロジェクトウェブサイト: https://3d-grand.github.io

MMWorld: ビデオにおける多分野・多面的世界モデル評価の実現に向けて
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Jun 12

ByXuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

マルチモーダル言語モデル（MLLMs）は、「世界モデル」としての新たな能力を示しています。これは、複雑な現実世界のダイナミクスを解釈し、推論する能力です。これらの能力を評価するために、我々はビデオが理想的な媒体であると考えます。なぜなら、ビデオは現実世界のダイナミクスと因果関係を豊かに表現しているからです。この目的のために、我々はMMWorldという新しいベンチマークを導入します。これは、多分野にわたる多面的なマルチモーダルビデオ理解のためのベンチマークです。MMWorldは、以下の2つのユニークな利点により、従来のビデオ理解ベンチマークと区別されます：（1）多分野にわたるカバレッジ。包括的な理解のためにしばしば専門知識を必要とする様々な分野をカバーします。（2）多面的な推論。説明、反事実的思考、未来予測などを含みます。MMWorldは、ビデオ全体に関する質問でMLLMsを評価するための人間によるアノテーションデータセットと、単一の知覚モダリティ内でMLLMsを分析するための合成データセットで構成されています。MMWorldは、7つの広範な分野と69のサブ分野にわたる1,910のビデオ、6,627の質問-回答ペア、および関連するキャプションを含んでいます。評価には、2つのプロプライエタリモデルと10のオープンソースMLLMsが含まれており、これらのモデルはMMWorldで苦戦しています（例えば、GPT-4Vが最高の精度52.3%を達成していますが、まだ大きな改善の余地があります）。さらなるアブレーションスタディでは、モデルが人間とは異なるスキルセットを持っていることなど、興味深い発見が明らかになりました。我々は、MMWorldがビデオにおける世界モデル評価に向けた重要な一歩となることを期待しています。

Turbo Sparse: 最小の活性化パラメータでLLMのSOTA性能を実現
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Jun 10

ByYixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen

活性化のスパース性を活用することは、大規模言語モデル（LLM）の推論プロセスを性能を損なうことなく大幅に加速する有望なアプローチです。しかし、活性化のスパース性は活性化関数によって決定され、SwiGLUやGeGLUなどの一般的に使用される関数は限定的なスパース性しか示しません。これらの関数を単純にReLUに置き換えても十分なスパース性は達成できません。さらに、不十分なトレーニングデータは性能低下のリスクをさらに高める可能性があります。これらの課題に対処するため、我々はLLMの活性化スパース性を向上させるために設計された新しいdReLU関数と、効果的なスパース化を促進するための高品質なトレーニングデータの混合比率を提案します。加えて、Mixture-of-Experts（MoE）モデルのFeed-Forward Network（FFN）エキスパート内のスパース活性化パターンを活用して、さらに効率を向上させます。我々のニューロンスパース化手法をMistralおよびMixtralモデルに適用した結果、推論イテレーションごとにそれぞれ25億および43億のパラメータのみが活性化され、より強力なモデル性能を達成しました。評価結果は、このスパース性が2～5倍のデコード速度向上を実現することを示しています。特に、モバイル電話では、我々のTurboSparse-Mixtral-47Bが1秒あたり11トークンの推論速度を達成しました。我々のモデルはhttps://huggingface.co/PowerInferで公開されています。

FontStudio: 形状適応型拡散モデルによる一貫性のあるフォント効果生成
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Jun 12

ByXinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan

近年、現代的な拡散モデルに基づくテキストから画像への生成モデルを、従来は専門デザイナーの領域であった芸術的なフォントの作成に応用することが注目を集めています。既存の研究の多くが芸術的なタイポグラフィの生成に焦点を当てているのに対し、本研究は新たでより困難な課題、すなわち多言語フォントのテキストエフェクト生成に取り組むことを目指しています。このタスクは、従来の長方形キャンバスではなく、フォント形状のキャンバス内で一貫性のある視覚的コンテンツを生成することを本質的に要求します。この課題に対処するため、我々は与えられた形状を解釈し、不規則なキャンバス内でのピクセル分布を戦略的に計画できる新しい形状適応型拡散モデルを提案します。これを実現するために、高品質な形状適応型画像-テキストデータセットをキュレーションし、セグメンテーションマスクを視覚的条件として組み込むことで、不規則なキャンバス内での画像生成プロセスを誘導します。このアプローチにより、従来の長方形キャンバスベースの拡散モデルが、提供された幾何学的形状に従って所望の概念を生成することが可能になります。第二に、複数の文字間で一貫性を維持するため、生成された参照文字から他の文字へテクスチャを転送するためのトレーニング不要の形状適応型エフェクト転送手法も提示します。その鍵となる洞察は、フォントエフェクトノイズの事前分布を構築し、連結された潜在空間でフォントエフェクト情報を伝播することです。我々のFontStudioシステムの有効性は、ユーザー選好調査を通じて確認され、最新の無類の商業製品であるAdobe Fireflyと比較しても、我々のシステムが美的観点で78%の勝率を示すことが明らかになりました。

AV-DiT：音声と映像の共同生成のための効率的なオーディオビジュアル拡散トランスフォーマー
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Jun 11

ByKai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian

最近のDiffusion Transformer（DiT）は、画像、動画、音声などの高品質な単一モダリティコンテンツの生成において印象的な能力を示しています。しかし、Transformerベースの拡散モデルが、優れたマルチモーダルコンテンツ生成に向けてガウシアンノイズを効率的に除去できるかどうかは、まだ十分に検討されていません。このギャップを埋めるため、我々はAV-DiTを提案します。これは、視覚と音声の両方のトラックを備えた高品質でリアルな動画を生成するために設計された、新規で効率的なオーディオビジュアル拡散Transformerです。モデルの複雑さと計算コストを最小限に抑えるため、AV-DiTは画像のみのデータで事前学習された共有DiTバックボーンを利用し、軽量な新規挿入アダプタのみを学習可能としています。この共有バックボーンは、音声と動画の両方の生成を促進します。具体的には、動画ブランチは、事前学習済みの凍結されたDiTブロックに学習可能な時間的注意層を組み込み、時間的一貫性を実現します。さらに、少数の学習可能なパラメータが、画像ベースのDiTブロックを音声生成に適応させます。軽量なパラメータを備えた追加の共有DiTブロックは、音声と視覚モダリティ間の特徴相互作用を促進し、整合性を確保します。AIST++およびLandscapeデータセットでの広範な実験により、AV-DiTが、大幅に少ない調整可能なパラメータで、共同オーディオビジュアル生成において最先端の性能を達成することが実証されました。さらに、我々の結果は、モダリティ固有の適応を備えた単一の共有画像生成バックボーンが、共同オーディオビデオジェネレータを構築するのに十分であることを強調しています。我々のソースコードと事前学習済みモデルは公開される予定です。

大規模言語モデルを用いた、および大規模言語モデルのための選好最適化アルゴリズムの発見
Discovering Preference Optimization Algorithms with and for Large Language Models

Jun 12

ByChris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange

オフライン選好最適化は、大規模言語モデル（LLM）の出力品質を向上させ制御するための重要な手法である。通常、選好最適化は、手動で設計された凸損失関数を用いたオフラインの教師あり学習タスクとしてアプローチされる。これらの手法は理論的洞察に基づいているが、人間の創造力に本質的に制約されるため、可能な損失関数の広大な探索空間は未だ十分に探求されていない。我々はこの問題に対処するため、LLMを駆使した目的関数発見を行い、専門家の介入なしに新しい最先端の選好最適化アルゴリズムを自動的に発見する。具体的には、LLMに対して反復的にプロンプトを与え、以前に評価された性能指標に基づいて新しい選好最適化損失関数を提案し、実装させる。このプロセスを通じて、これまで知られていなかった高性能な選好最適化アルゴリズムが発見される。その中で最も優れた性能を示すものを「Discovered Preference Optimization (DiscoPOP)」と名付け、これはロジスティック損失と指数損失を適応的にブレンドする新規のアルゴリズムである。実験により、DiscoPOPの最先端性能と、保留タスクへの成功した転移が実証された。

高解像度動画生成のための階層的パッチ拡散モデル
Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Jun 12

ByIvan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov

拡散モデルは、画像および動画合成において顕著な性能を発揮してきました。しかし、高解像度入力へのスケーリングは困難であり、拡散パイプラインを複数の独立したコンポーネントに再構築する必要があるため、スケーラビリティが制限され、下流アプリケーションが複雑化します。これにより、トレーニング中に非常に効率的になり、高解像度動画でのエンドツーエンド最適化が可能になります。我々は、PDMを2つの原則的な方法で改善します。まず、パッチ間の一貫性を強化するために、低スケールから高スケールのパッチへと階層的にコンテキスト情報を伝播するアーキテクチャ技術であるディープコンテキストフュージョンを開発しました。次に、トレーニングと推論を加速するために、粗い画像詳細により多くのネットワーク容量と計算を割り当てる適応的計算を提案します。結果として得られたモデルは、UCF-101 256^2におけるクラス条件付き動画生成で、FVDスコア66.32とInceptionスコア87.68という新たな最先端のスコアを達成し、最近の手法を100%以上上回りました。その後、ベースの36×64低解像度ジェネレータから迅速にファインチューニングして、高解像度64×288×512のテキストから動画合成を行うことができることを示します。我々の知る限り、我々のモデルは、このような高解像度で完全にエンドツーエンドでトレーニングされた最初の拡散ベースのアーキテクチャです。プロジェクトウェブページ: https://snap-research.github.io/hpdm。

LLaVA-HDを超えて：高解像度大規模マルチモーダルモデルへの探求
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Jun 12

ByYi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin

高解像度で明確に見ることは、大規模マルチモーダルモデル（LMM）の基盤であり、視覚的知覚と推論において極めて重要であることが証明されています。既存の研究では通常、単純な解像度アップスケーリング手法が採用されており、画像はグローバルブランチとローカルブランチで構成され、後者はスライスされた画像パッチですが、前者と同じ解像度にリサイズされます。これは、より高い解像度を実現するためにはより多くのローカルパッチが必要となり、過剰な計算コストが発生することを意味します。同時に、ローカル画像トークンの優位性がグローバルコンテキストを弱める可能性があります。本論文では、これらの問題に深く掘り下げ、新しいフレームワークと詳細な最適化戦略を提案します。具体的には、異なるアダプターが異なるタスクに優れているという観察に基づき、アダプターの混合を使用してグローバルビューからコンテキスト情報を抽出します。ローカルパッチに関しては、学習可能なクエリ埋め込みを導入して画像トークンを削減し、ユーザーの質問に最も関連する重要なトークンが類似性ベースのセレクターによってさらに選択されます。我々の実験結果は、「少ないほど良い」というパターンを示しており、より少ないがより情報量の多いローカル画像トークンを使用することで性能が向上することが明らかになりました。また、グローバルマイニングブロックとローカル圧縮ブロックを同時にエンドツーエンドでトレーニングしても最適な結果が得られないという重要な課題があります。そこで、グローバルとローカルの両方の側面をバランスよく学習するために、交互トレーニング方式を提唱します。最後に、画像の詳細に対する高い要求を満たす挑戦的なデータセットを導入し、ローカル圧縮層のトレーニングを強化します。提案手法は、Sophisticated Tasks、Local image compression、Mixture of global Expertsを組み合わせたSliME（SliME）と名付けられ、わずか200万のトレーニングデータでさまざまなベンチマークにおいてリーダー性能を達成しました。

VCR: ビジュアルキャプション復元
VCR: Visual Caption Restoration

Jun 10

ByTianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio

我々は、画像内のピクセルレベルのヒントを用いて部分的に隠されたテキストを正確に復元する能力をモデルに求める新たな視覚言語タスク「Visual Caption Restoration (VCR)」を提案する。このタスクは、画像に埋め込まれたテキストが、視覚、テキスト、および画像に埋め込まれたテキストというモダリティを整合させる必要性から、一般的な視覚要素や自然言語とは本質的に異なるという観察に基づいている。これまで多くの研究が画像に埋め込まれたテキストを視覚的質問応答タスクに統合してきたが、これらのアプローチは一般的に光学文字認識（OCR）やマスク言語モデリングに依存しており、タスクを主にテキストベースの処理に還元している。しかし、VCRでは、正確なテキスト復元が提供された画像、文脈、およびマスクされたテキストの微小な露出部分からの微妙な手がかりの組み合わせに依存するため、テキストベースの処理は効果的ではない。我々は、画像とキャプションのペアを使用してVCRタスクのための合成画像を生成するパイプラインを開発し、キャプションの可視性を調整してタスクの難易度を制御する。このパイプラインを用いて、Wikipediaのキャプション付き画像から構成されるVCR-Wikiデータセットを構築し、英語2.11Mエンティティ、中国語346Kエンティティの簡単版と困難版の両方を含む。結果から、現在の視覚言語モデルはVCRタスクにおいて人間の性能に大きく遅れをとっており、我々のデータセットでモデルを微調整しても顕著な改善は見られないことが明らかになった。今後の研究を促進するため、VCR-Wikiとデータ構築コードを公開する。

キメラ：2次元状態空間モデルによる多変量時系列の効果的なモデリング
Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

Jun 6

ByAli Behrouz, Michele Santacatterina, Ramin Zabih

多変量時系列のモデリングは、医療から金融市場に至るまで幅広い応用を持つ確立された問題です。伝統的な状態空間モデル（SSM）は、そのシンプルさと線形依存性を表現する能力から、単変量時系列モデリングの古典的なアプローチとして知られています。しかし、SSMは非線形依存性を捉える能力が根本的に限られており、実際の運用では遅く、変量間の情報の流れをモデル化することができません。最近では、深層構造化SSMを使用してSSMの表現力を向上させようとする試みがありますが、既存の手法は単変量時系列に限定されているか、複雑なパターン（例えば季節性パターン）をモデル化できないか、変量と時間次元の依存性を動的にモデル化できないか、あるいは入力に依存しないものとなっています。本論文では、異なる離散化プロセスを持つ2つの入力依存型2次元SSMヘッドを使用して、長期的な進行と季節性パターンを学習するChimeraを提案します。複雑な2次元再帰の効率を向上させるために、新しい2次元並列選択的スキャンを使用した高速トレーニングを提案します。さらに、2次元MambaとMamba-2を2D SSMの特殊ケースとして提示し、議論します。実験的評価では、ChimeraがECGや音声時系列分類、長期的および短期的な時系列予測、時系列異常検出など、多様なベンチマークで優れた性能を示すことを確認しました。

Hibou：病理学のための基盤的ビジョントランスフォーマーファミリー
Hibou: A Family of Foundational Vision Transformers for Pathology

Jun 7

ByDmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova

病理学は、疾患組織の顕微鏡的検査を通じて、特にがんを含む様々な医療状態の診断において重要な役割を果たしています。従来の方法は労力を要し、人的ミスが生じやすいという課題がありました。デジタル病理学は、ガラススライドを高解像度のデジタル画像に変換し、コンピュータアルゴリズムによる分析を可能にすることで、自動化された画像解析と大規模データ処理を通じて診断の精度、一貫性、効率を向上させ、この分野に革命をもたらしています。基礎的なトランスフォーマーの事前学習は、大量の未注釈データから学習を可能にすることで、堅牢で汎用性の高いモデルの開発において極めて重要です。本論文では、病理学向けの基礎的ビジョントランスフォーマーファミリーであるHibouを紹介します。DINOv2フレームワークを活用し、多様な組織タイプと染色技術を代表する100万枚以上のホールスライド画像（WSI）からなる独自データセットを用いて、Hibou-BとHibou-Lの2つのモデルバリアントを事前学習しました。事前学習されたモデルは、パッチレベルおよびスライドレベルのベンチマークにおいて、既存の最先端手法を凌駕する優れた性能を示しています。特に、Hibou-Lは複数のベンチマークデータセットにおいて最高の平均精度を達成しました。この分野のさらなる研究と応用を支援するため、Hibou-Bモデルをオープンソースとして公開しており、https://github.com/HistAI/hibou からアクセス可能です。

大規模言語モデルの忘却を促すための埋め込み破損プロンプト
Large Language Model Unlearning via Embedding-Corrupted Prompts

Jun 12

ByChris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu

大規模言語モデル（LLM）は、多様な領域にわたる広範な知識を包含するまでに進化を遂げています。しかし、大規模言語モデルが知るべきでない情報を制御することは、整合性を確保し、安全な使用を実現する上で重要です。ただし、LLMから知識を正確かつ効率的に「忘却」させることは、保持と忘却の間の曖昧な境界によって引き起こされる潜在的な副作用や、数千億のパラメータを有する最先端モデル全体にわたる最適化に必要な膨大な計算リソースのため、依然として困難な課題です。本研究では、Embedding-COrrupted（ECO）Promptsを提案します。これは、知識の絡み合いと忘却効率の両方の課題に対処するための、大規模言語モデル向けの軽量な忘却フレームワークです。LLM自体に忘却を依存するのではなく、推論中に忘却状態を強制するために、プロンプト分類器を使用して忘却すべきプロンプトを識別し保護します。オフラインでゼロ次最適化を用いてプロンプト埋め込みに追加する破損を学習し、推論中に分類器によってフラグが立てられたプロンプトを破損させます。これらの埋め込み破損プロンプトは、忘却目標を満たす望ましい出力を導くだけでなく、忘却対象のデータで訓練されたことのないモデルからの出力に非常に近い結果をもたらすことがわかりました。忘却に関する広範な実験を通じて、本手法が一般的な領域および忘却対象と密接に関連する領域において、ほぼゼロの副作用で有望な忘却を達成する優位性を実証しました。さらに、0.5Bから236Bのパラメータにわたる100のLLMへのスケーラビリティを強調し、パラメータ数が増加しても追加コストが発生しないことを示しました。

簡略化・一般化された離散データ向けマスク拡散モデル
Simplified and Generalized Masked Diffusion for Discrete Data

Jun 6

ByJiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, Michalis K. Titsias

マスクド（または吸収型）拡散モデルは、離散データの生成モデリングにおける自己回帰モデルの代替として積極的に研究されています。しかし、この分野の既存研究は、不必要に複雑なモデル定式化や異なる視点間の関係性の不明瞭さに阻まれており、最適でないパラメータ設定、訓練目的関数、およびこれらの問題に対処するためのアドホックな調整が行われてきました。本研究では、マスクド拡散モデルの真の可能性を引き出すためのシンプルで汎用的なフレームワークを提供することを目指します。マスクド拡散モデルの連続時間変分目的関数が、クロスエントロピー損失の単純な重み付き積分であることを示します。また、本フレームワークにより、状態依存型マスキングスケジュールを用いた一般化されたマスクド拡散モデルの訓練が可能となります。OpenWebTextで訓練したモデルは、GPT-2規模の従来の拡散言語モデルをパープレキシティの点で上回り、5つのゼロショット言語モデリングタスクのうち4つで優れた性能を示しました。さらに、本モデルはピクセルレベルの画像モデリングにおいて従来の離散拡散モデルを大幅に上回り、CIFAR-10で2.78、ImageNet 64×64で3.42ビット/次元を達成し、同規模の自己回帰モデルと同等またはそれ以上の性能を示しました。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Magpie: 整列済みLLMをゼロからプロンプトして生成するアライメントデータ合成
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Jun 12

ByZhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin

NaRCan：拡散モデルの事前知識を統合した自然な精緻化カノニカル画像によるビデオ編集
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Jun 10

ByTing-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu

MotionClone: 制御可能な動画生成のためのトレーニング不要なモーションクローニング
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Jun 8

ByPengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin

もしLLaMA-3で数十億のウェブ画像を再キャプションしたらどうなるだろうか？
What If We Recaption Billions of Web Images with LLaMA-3?

Jun 12

ByXianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie

MMLUはもう終わりなのか？
Are We Done with MMLU?

Jun 6

Physics3D: ビデオ拡散を介した3Dガウシアンの物理的特性の学習
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

Jun 6

ByFangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan

PowerInfer-2: スマートフォン上での高速大規模言語モデル推論
PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Jun 10

ByZhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen

VideoLLaMA 2: ビデオLLMにおける時空間モデリングと音声理解の進展
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Jun 11

ByZesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

3D-GRAND: より優れた接地性と低い幻覚を実現する100万規模の3D-LLM向けデータセット
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

Jun 7

ByJianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai

MMWorld: ビデオにおける多分野・多面的世界モデル評価の実現に向けて
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Jun 12

ByXuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

Turbo Sparse: 最小の活性化パラメータでLLMのSOTA性能を実現
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Jun 10

ByYixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen

FontStudio: 形状適応型拡散モデルによる一貫性のあるフォント効果生成
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Jun 12

ByXinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan

AV-DiT：音声と映像の共同生成のための効率的なオーディオビジュアル拡散トランスフォーマー
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Jun 11

ByKai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian

大規模言語モデルを用いた、および大規模言語モデルのための選好最適化アルゴリズムの発見
Discovering Preference Optimization Algorithms with and for Large Language Models

Jun 12

ByChris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange

キメラ：2次元状態空間モデルによる多変量時系列の効果的なモデリング
Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

Jun 6

ByAli Behrouz, Michele Santacatterina, Ramin Zabih