AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LlamaFactory: 100以上の言語モデルを統一的に効率的にファインチューニング
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Mar 20

ByYaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo

156

大規模言語モデル（LLM）を下流タスクに適応させるためには、効率的なファインチューニングが不可欠です。しかし、異なるモデルに対してこれらの手法を実装するには多大な労力が必要です。本論文では、最先端の効率的なトレーニング手法を統合した統一フレームワーク「LlamaFactory」を提案します。このフレームワークは、組み込みのWeb UI「LlamaBoard」を通じて、100以上のLLMのファインチューニングをコーディングなしで柔軟にカスタマイズすることを可能にします。我々は、言語モデリングとテキスト生成タスクにおいて、本フレームワークの効率性と有効性を実証的に検証しました。本フレームワークはhttps://github.com/hiyouga/LLaMA-Factoryで公開されており、すでに13,000以上のスターと1,600以上のフォークを獲得しています。

Mora: マルチエージェントフレームワークによる汎用ビデオ生成の実現
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mar 20

ByZhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun

Soraは、社会全体で大きな注目を集めた初の大規模汎用ビデオ生成モデルである。2024年2月にOpenAIによって発表されて以来、Soraの性能や幅広いビデオ生成タスクをサポートする能力に匹敵するビデオ生成モデルは存在しない。さらに、完全に公開されているビデオ生成モデルはごく少数であり、そのほとんどがクローズドソースである。このギャップを埋めるため、本論文では、Soraが示した汎用ビデオ生成を再現するために、複数の先進的な視覚AIエージェントを組み込んだ新しいマルチエージェントフレームワークMoraを提案する。特に、Moraは複数の視覚エージェントを活用し、(1)テキストからビデオを生成、(2)テキスト条件付き画像からビデオを生成、(3)生成されたビデオを拡張、(4)ビデオからビデオを編集、(5)ビデオを接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、Soraのビデオ生成能力を模倣することに成功している。我々の広範な実験結果は、Moraが様々なタスクにおいてSoraに近い性能を達成することを示している。しかし、全体的に評価すると、我々の研究とSoraの間には明らかな性能差が存在する。要約すると、我々はこのプロジェクトが、協調的なAIエージェントを通じてビデオ生成の将来の方向性を導くことを期待している。

モデルマージングレシピの進化的最適化
Evolutionary Optimization of Model Merging Recipes

Mar 19

ByTakuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha

我々は、進化的アルゴリズムを活用して強力な基盤モデルの作成を自動化する新たなアプリケーションを提案する。モデルマージは、そのコスト効率の良さからLLM開発において有望なアプローチとして注目されているが、現状では人間の直感とドメイン知識に依存しており、その潜在能力が制限されている。本論文では、この制約を克服する進化的アプローチを提案する。このアプローチでは、多様なオープンソースモデルの効果的な組み合わせを自動的に発見し、大規模な追加学習データや計算資源を必要とせずに、それらの集合知を活用する。我々のアプローチはパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重みだけでなく、それ以上の最適化を可能にする。このアプローチは、数学的推論能力を備えた日本語LLMのような、クロスドメインのモデルマージも可能にする。驚くべきことに、我々の日本語数学LLMは、そのようなタスクを明示的に学習していないにもかかわらず、様々な確立された日本語LLMベンチマークにおいて最先端の性能を達成し、パラメータ数が大幅に多いモデルを凌駕した。さらに、我々のアプローチを通じて生成された文化的に意識した日本語VLMは、日本文化固有のコンテンツを記述する際の有効性を示し、従来の日本語VLMを上回る性能を発揮した。本研究は、オープンソースコミュニティに新たな最先端モデルを提供するだけでなく、自動化されたモデル構成の新たなパラダイムを導入し、基盤モデル開発のための効率的な代替アプローチを探求する道を切り開くものである。

SceneScript: 自己回帰型構造化言語モデルによるシーン再構築
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Mar 19

ByArmen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas

SceneScriptを紹介します。これは、自己回帰型のトークンベースアプローチを用いて、完全なシーンモデルを構造化された言語コマンドのシーケンスとして直接生成する手法です。提案するシーン表現は、トランスフォーマーや大規模言語モデル（LLM）の最近の成功に着想を得ており、メッシュ、ボクセルグリッド、ポイントクラウド、放射輝度場など、より伝統的な方法でシーンを記述する手法から離れています。本手法では、シーン言語エンコーダーデコーダーアーキテクチャを使用して、符号化された視覚データから直接構造化言語コマンドのセットを推論します。SceneScriptを訓練するために、10万の高品質な屋内シーンからなる大規模な合成データセット「Aria Synthetic Environments」を生成・公開しました。このデータセットには、フォトリアルなエゴセントリックシーンウォークスルーのグラウンドトゥルースアノテーション付きレンダリングが含まれています。本手法は、建築レイアウト推定において最先端の結果を示し、3D物体検出においても競争力のある結果を達成します。最後に、SceneScriptの利点として、構造化言語への簡単な追加によって新しいコマンドに容易に適応できる能力を探り、粗い3Dオブジェクトパーツ再構成などのタスクでその例を示します。

より大規模な視覚モデルが必要ないのはいつか？
When Do We Not Need Larger Vision Models?

Mar 19

ByBaifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell

視覚モデルのサイズをスケールアップすることは、より強力な視覚表現を得るための事実上の標準となってきました。本研究では、より大きな視覚モデルが必要とされるポイントを超えた点について議論します。まず、事前学習済みで凍結された小さな視覚モデル（例：ViT-BやViT-L）を複数の画像スケールで実行するScaling on Scales（S^2）の力を示し、分類、セグメンテーション、深度推定、マルチモーダルLLM（MLLM）ベンチマーク、およびロボット操作において、より大きなモデル（例：ViT-HやViT-G）を凌駕できることを実証します。特に、S^2はV*ベンチマークにおけるMLLMの詳細理解において、GPT-4Vなどのモデルを上回る最先端の性能を達成します。我々は、S^2がモデルサイズのスケーリングに比べて好ましいアプローチとなる条件を検証します。より大きなモデルは難しい例に対する汎化性能が優れているという利点がありますが、より大きな視覚モデルの特徴は、マルチスケールの小さなモデルによって十分に近似できることを示します。これは、現在の大規模事前学習モデルによって学習された表現のほとんど、あるいはすべてが、マルチスケールの小さなモデルからも得られることを示唆しています。我々の結果は、マルチスケールの小さなモデルがより大きなモデルと同等の学習能力を持ち、S^2を用いて小さなモデルを事前学習することで、より大きなモデルの利点に匹敵し、あるいはそれを上回ることができることを示しています。我々は、任意の視覚モデルにS^2を1行のコードで適用できるPythonパッケージを公開しました： https://github.com/bfshi/scaling_on_scales。

IDAdapter: テキストから画像モデルのチューニング不要なパーソナライゼーションのための混合特徴量の学習
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Mar 20

BySiying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng

安定拡散モデルを活用したパーソナライズドポートレート生成は、ユーザーが特定のプロンプトに基づいて高精細でカスタマイズされたキャラクターアバターを作成するための強力かつ注目すべきツールとして登場している。しかし、既存のパーソナライゼーション手法は、テスト時の微調整、複数の入力画像の必要性、アイデンティティの低い保存率、生成結果の多様性の限界といった課題に直面している。これらの課題を克服するため、我々はIDAdapterを提案する。これは、単一の顔画像からパーソナライズされた画像生成において、多様性とアイデンティティの保存を向上させるチューニング不要のアプローチである。IDAdapterは、テキストと視覚的な注入、および顔のアイデンティティ損失を組み合わせることで、生成プロセスにパーソナライズされた概念を統合する。トレーニングフェーズでは、特定のアイデンティティの複数の参照画像から混合された特徴を取り入れ、アイデンティティに関連するコンテンツの詳細を豊かにし、モデルが以前の研究と比較してより多様なスタイル、表情、角度を持つ画像を生成するよう導く。広範な評価により、我々の手法が生成画像において多様性とアイデンティティの忠実度の両方を達成する有効性が実証された。

RewardBench: 言語モデリングのための報酬モデル評価
RewardBench: Evaluating Reward Models for Language Modeling

Mar 20

ByNathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi

報酬モデル（RMs）は、事前学習済みモデルを人間の好みに合わせるためのRLHF（人間によるフィードバックを用いた強化学習）の成功において重要な役割を果たしていますが、これらの報酬モデルの評価に焦点を当てた研究は比較的少ないのが現状です。報酬モデルの評価は、言語モデルのアラインメントに使用される不透明な技術や、それらに埋め込まれた価値観を理解する機会を提供します。これまで、能力の記述、トレーニング方法、またはオープンソースの報酬モデルに関する情報はほとんど存在していません。本論文では、報酬モデルの科学的理解を深めるためのベンチマークデータセットとコードベースであるRewardBenchを紹介します。RewardBenchデータセットは、チャット、推論、安全性にわたるプロンプト-勝利-敗北のトリオを集めたもので、報酬モデルが挑戦的で構造化された、分布外のクエリに対してどのように機能するかをベンチマークします。私たちは、微妙ではあるが検証可能な理由（例：バグ、誤った事実）で一方の回答が他方よりも好まれるべきである特定の比較データセットを報酬モデル用に作成しました。RewardBenchリーダーボードでは、分類器の直接的なMLE（最尤推定）トレーニングやDirect Preference Optimization（DPO）の暗黙的な報酬モデリングなど、さまざまな方法でトレーニングされた報酬モデルを、多様なデータセットで評価します。私たちは、拒否の傾向、推論の限界、指示追従の欠点など、さまざまな報酬モデルの特性について多くの知見を提示し、RLHFプロセスのより良い理解に向けて貢献します。

HyperLLaVA: マルチモーダル大規模言語モデルのための動的視覚・言語エキスパートチューニング
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Mar 20

ByWenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang

最近の進展によると、マルチモーダル大規模言語モデル（MLLM）のスケールアップは、下流のマルチモーダルタスクにおける性能を効果的に向上させることが示されています。現在主流のMLLMパラダイム、例えばLLaVAは、静的な視覚-言語マッパーを使用して視覚的特徴をテキストのようなトークンに変換し、それによって静的なLLMが視覚情報を理解する能力を視覚的指示チューニングを通じて開発できるようにします。有望ではあるものの、静的なチューニング戦略（静的なパラメータを持つ訓練済みモデルを指す）は、異なる下流のマルチモーダルタスク間での性能を制約する可能性があります。これを踏まえて、我々はHyperLLaVAを導入します。これは、プロジェクターとLLMのパラメータを適応的にチューニングし、それぞれ動的な視覚エキスパートと言語エキスパートと組み合わせるものです。これらのエキスパートは、視覚と言語のガイダンスを通じて適応的なパラメータシフトを生成するHyperNetworksから派生しており、二段階の訓練において動的なプロジェクターとLLMのモデリングを可能にします。我々の実験は、我々のソリューションがMME、MMBench、SEED-Bench、LLaVA-Benchを含む既存のMLLMベンチマークにおいてLLaVAを大幅に上回ることを示しています。我々のプロジェクトは以下のリンクで利用可能です：https://github.com/DCDmllm/HyperLLaVA。

RadSplat: 放射輝度フィールドを活用したガウススプラッティングによる900FPS以上のロバストなリアルタイムレンダリング
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Mar 20

ByMichael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari

最近のビュー合成とリアルタイムレンダリングの進展により、驚異的なレンダリング速度でフォトリアルな品質が実現されています。ラディアンスフィールドベースの手法は、野外キャプチャや大規模シーンといった困難なシナリオにおいて最先端の品質を達成しますが、体積レンダリングに伴う過度な計算負荷に悩まされることが多いです。一方、ガウススプラッティングベースの手法はラスタライゼーションに依存し、自然にリアルタイムレンダリングを実現しますが、より困難なシーンでは最適化ヒューリスティックが脆弱で性能が低下する傾向があります。本研究では、複雑なシーンの堅牢なリアルタイムレンダリングを実現する軽量な手法であるRadSplatを提案します。主な貢献は3つあります。第一に、ラディアンスフィールドを事前情報および教師信号として活用し、ポイントベースのシーン表現の最適化を行うことで、品質の向上とより堅牢な最適化を実現します。次に、高品質を維持しながら総ポイント数を削減する新規のプルーニング技術を開発し、より小さくコンパクトなシーン表現と高速な推論速度を実現します。最後に、レンダリングをさらに加速し、家サイズの大規模シーンへのスケーリングを可能にする新規のテスト時フィルタリング手法を提案します。本手法により、900FPS以上の速度で複雑なキャプチャの最先端合成が可能になることを確認しました。

ZigMa: ジグザグマンバ拡散モデル
ZigMa: Zigzag Mamba Diffusion Model

Mar 20

ByVincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer

拡散モデルは長らく、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な計算複雑性の問題に悩まされてきた。本研究では、State-Space Modelの一種であるMambaの長いシーケンスモデリング能力を活用し、視覚データ生成への適用性を拡張することを目指す。まず、現在のMambaベースの視覚手法の多くに見られる重大な見落とし、すなわちMambaのスキャンスキームにおける空間的連続性の考慮不足を指摘する。次に、この洞察に基づいて、シンプルでプラグアンドプレイ、パラメータ不要の手法であるZigzag Mambaを提案し、Mambaベースのベースラインを上回る性能を示し、トランスフォーマーベースのベースラインと比較して速度とメモリ使用効率の向上を実証する。最後に、Zigzag MambaをStochastic Interpolantフレームワークと統合し、FacesHQ 1024×1024やUCF101、MultiModal-CelebA-HQ、MS COCO 256×256などの大解像度視覚データセットにおけるモデルのスケーラビリティを調査する。コードはhttps://taohu.me/zigma/で公開予定である。

DepthFM: フローマッチングによる高速単眼深度推定
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Mar 20

ByMing Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer

単眼深度推定は、多くの下流の視覚タスクやアプリケーションにおいて重要です。この問題に対する現在の識別的なアプローチは、ぼやけたアーティファクトのため制限されています。一方、最先端の生成的手法は、そのSDE（確率微分方程式）の性質によりサンプリングが遅いという課題を抱えています。ノイズから始めるのではなく、我々は入力画像から深度マップへの直接的なマッピングを追求します。これは、解空間を通る直線的な軌跡が効率性と高品質を提供するため、フローマッチングを用いて効果的に定式化できることを観察しました。本研究では、事前学習済みの画像拡散モデルがフローマッチング深度モデルの適切な事前分布として機能し、合成データのみで効率的に学習することで実画像に一般化できることを示します。さらに、補助的な表面法線損失が深度推定をさらに改善することがわかりました。我々のアプローチの生成的な性質により、モデルは深度推定の信頼度を確実に予測します。複雑な自然シーンの標準ベンチマークにおいて、我々の軽量なアプローチは、わずかな合成データで学習されたにもかかわらず、有利な低計算コストで最先端の性能を示します。

マジックフィックスアップ：動的ビデオ観察による写真編集の効率化
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Mar 19

ByHadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi

粗編集された画像を入力として、指定されたレイアウトに従ったフォトリアルな出力を合成する生成モデルを提案します。本手法は、元画像から細部を転写し、その部分の同一性を保持します。しかしながら、新しいレイアウトで定義された照明やコンテキストに適応させます。本手法の重要な洞察は、ビデオがこのタスクにとって強力な教師信号源であるということです。物体やカメラの動きは、視点、照明、物理的相互作用によって世界がどのように変化するかを多くの観測データとして提供します。我々は、各サンプルが同じビデオからランダムな時間間隔で抽出されたソースフレームとターゲットフレームのペアで構成される画像データセットを構築します。テスト時のユーザー編集を模倣する2つのモーションモデルを使用して、ソースフレームをターゲットに向かってワープさせます。事前学習済みの拡散モデルを出発点として、ワープされた画像をグラウンドトゥルースに変換するようにモデルを教師します。本モデルの設計は、ユーザー指定のレイアウトに忠実に従いながら、ソースフレームから生成画像への細部の転送を明示的に可能にします。単純なセグメンテーションと粗い2D操作を使用することで、ユーザーの入力に忠実なフォトリアルな編集を合成しつつ、照明の調和や編集されたオブジェクト間の物理的相互作用といった二次的な効果に対処できることを示します。

逆転の呪いを癒すための逆方向トレーニング
Reverse Training to Nurse the Reversal Curse

Mar 20

ByOlga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar

大規模言語モデル（LLM）には驚くべき欠陥が存在します。「Aは特徴Bを持つ」というデータで学習させた場合、それらは「BはAの特徴である」という逆の表現に一般化できないのです。これは「反転の呪い（Reversal Curse）」と呼ばれています。たとえ数兆トークンのデータで学習させたとしても、ジップの法則によりこの問題は依然として発生します。つまり、インターネット全体を学習データとして使用した場合でも同様です。本研究では、代替的な学習手法として「逆方向学習（reverse training）」を提案します。この手法では、すべての単語を2回使用することで、利用可能なトークン量を倍増させます。LLMは、エンティティなどの特定の部分文字列を保持（つまり反転させず）したまま、学習文字列を反転させることで、順方向と逆方向の両方で学習されます。我々は、データ量を一致させた逆方向学習モデルが標準タスクにおいて標準モデルよりも優れた性能を示すこと、そして計算量を一致させた逆方向学習モデルが反転タスクにおいてはるかに優れた性能を示し、反転の呪いの問題を解決することを実証しました。

Be-Your-Outpainter: 入力特化型適応によるビデオアウトペインティングの習得
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Mar 20

ByFu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li

ビデオアウトペインティングは、入力ビデオのビューポート外のコンテンツを生成しつつ、フレーム間およびフレーム内の一貫性を維持することを目指す挑戦的なタスクです。既存の手法は、生成品質または柔軟性のいずれかにおいて不十分です。本論文では、MOTIA（Mastering Video Outpainting Through Input-Specific Adaptation）を紹介します。これは、拡散モデルに基づくパイプラインであり、ソースビデオの固有のデータ固有パターンと画像/ビデオ生成の事前知識を活用して効果的なアウトペインティングを実現します。MOTIAは、入力固有の適応とパターン認識型アウトペインティングの2つの主要なフェーズで構成されています。入力固有の適応フェーズでは、シングルショットのソースビデオに対して効率的かつ効果的な疑似アウトペインティング学習を行います。このプロセスにより、モデルはソースビデオ内のパターンを識別し学習するとともに、標準的な生成プロセスとアウトペインティングの間のギャップを埋めます。続くパターン認識型アウトペインティングフェーズでは、これらの学習済みパターンを一般化してアウトペインティング結果を生成します。さらに、拡散モデルの生成事前知識とソースビデオから取得したビデオパターンをより効果的に活用するために、空間認識型挿入やノイズトラベルなどの追加戦略を提案します。広く認知されたベンチマークにおいて、MOTIAは既存の最先端手法を上回る優位性を示し、その評価結果が裏付けられています。特に、これらの進展は、大規模なタスク固有のチューニングを必要とせずに達成されています。

言語モデルにおける3D分子-テキスト解釈に向けて
Towards 3D Molecule-Text Interpretation in Language Models

Jan 25

BySihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian

言語モデル（LM）は多様な領域に大きな影響を与えてきた。しかし、3D分子構造を理解するという本質的な制約により、生体分子領域での可能性が大きく制限されてきた。このギャップを埋めるため、我々は3D分子-テキスト解釈に焦点を当て、3D-MoLM: 3D-Molecular Language Modelingを提案する。具体的には、3D-MoLMはLMに3D分子エンコーダを組み込むことで、LMが3D分子を解釈・分析できるようにする。この統合は、3D分子エンコーダの表現空間とLMの入力空間を橋渡しする3D分子-テキストプロジェクタによって実現される。さらに、3D-MoLMのクロスモーダル分子理解能力と指示追従能力を強化するため、3D分子中心の指示チューニングデータセット「3D-MoIT」を慎重に作成した。3D分子-テキストアラインメントと3D分子中心の指示チューニングを通じて、3D-MoLMは3D分子エンコーダとLMの統合を確立する。これにより、分子-テキスト検索、分子キャプショニング、そして特に3D依存特性に焦点を当てたより挑戦的なオープンテキスト分子QAタスクなど、下流タスクにおいて既存のベースラインを大幅に上回る性能を発揮する。

VSTAR: 長時間ダイナミックビデオ合成のための生成的時間的ナーチャリング
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Mar 20

ByYumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva

テキストからビデオ（T2V）合成の分野における大きな進展にもかかわらず、オープンソースのT2V拡散モデルは、動的に変化し進化するコンテンツを含む長いビデオを生成するのに苦戦しています。これらのモデルは、テキストプロンプトに含まれる時間経過に伴う視覚的変化を無視し、準静的なビデオを合成する傾向があります。同時に、より長くダイナミックなビデオ合成を可能にするためにこれらのモデルをスケーリングすることは、しばしば計算上不可能です。この課題に対処するため、我々は「Generative Temporal Nursing（GTN）」という概念を導入し、推論中に生成プロセスを動的に変更することで、時間的ダイナミクスに対する制御を改善し、より長いビデオの生成を可能にします。我々はGTNの手法として「VSTAR」を提案し、これには2つの主要な要素が含まれます：1) Video Synopsis Prompting（VSP）—元の単一プロンプトを基にLLMを活用してビデオのシノプシスを自動生成し、長いビデオの異なる視覚的状態に対する正確なテキストガイダンスを提供する、2) Temporal Attention Regularization（TAR）—事前学習済みのT2V拡散モデルの時間的注意ユニットを洗練する正則化技術で、ビデオのダイナミクスを制御可能にします。我々は実験的に、提案手法が既存のオープンソースT2Vモデルよりも長く視覚的に魅力的なビデオを生成する優位性を示します。さらに、VSTARの適用前後の時間的注意マップを分析し、望ましい視覚的変化の無視を軽減するために本手法を適用することの重要性を実証します。

Compress3D: 単一画像からの3D生成のための圧縮潜在空間
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

Mar 20

ByBowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao

3D生成技術は大きな進歩を遂げてきたものの、単一画像から高品質な3Dアセットを効率的に生成することは依然として課題となっている。本論文では、3Dモデルをコンパクトなトライプレーン潜在空間にエンコードすることで、3Dジオメトリとテクスチャ情報の両方を効果的に圧縮するトライプレーンオートエンコーダを提案する。オートエンコーダのフレームワーク内では、3D-awareなクロスアテンションメカニズムを導入し、低解像度の潜在表現を用いて高解像度の3D特徴ボリュームから特徴をクエリすることで、潜在空間の表現能力を向上させる。その後、この洗練された潜在空間上で拡散モデルを学習する。画像埋め込みのみに依存する3D生成とは異なり、提案手法では画像埋め込みと形状埋め込みの両方を条件として同時に利用することを提唱する。具体的には、形状埋め込みは画像埋め込みを条件とした拡散事前モデルによって推定される。包括的な実験を通じて、提案手法が最先端のアルゴリズムを上回り、より少ない学習データと時間で優れた性能を達成することを示す。本アプローチにより、単一のA100 GPU上でわずか7秒で高品質な3Dアセットを生成することが可能となる。

危険な能力に対するフロンティアモデルの評価
Evaluating Frontier Models for Dangerous Capabilities

Mar 20

ByMary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane

新たなAIシステムがもたらすリスクを理解するためには、そのシステムが何をでき、何ができないかを理解する必要がある。先行研究を基盤として、我々は新たな「危険な能力」評価プログラムを導入し、Gemini 1.0モデルにおいてそのパイロット評価を実施した。我々の評価は以下の4つの領域をカバーしている：(1) 説得と欺瞞、(2) サイバーセキュリティ、(3) 自己増殖、(4) 自己推論。評価したモデルにおいて強い危険な能力の証拠は見つからなかったが、早期警告の兆候を指摘した。我々の目標は、将来のモデルに備えて、危険な能力評価の厳密な科学を進展させることに貢献することである。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LlamaFactory: 100以上の言語モデルを統一的に効率的にファインチューニング
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Mar 20

ByYaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo

156

Mora: マルチエージェントフレームワークによる汎用ビデオ生成の実現
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mar 20

ByZhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun

モデルマージングレシピの進化的最適化
Evolutionary Optimization of Model Merging Recipes

Mar 19

ByTakuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha

SceneScript: 自己回帰型構造化言語モデルによるシーン再構築
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Mar 19

より大規模な視覚モデルが必要ないのはいつか？
When Do We Not Need Larger Vision Models?

Mar 19

ByBaifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell

IDAdapter: テキストから画像モデルのチューニング不要なパーソナライゼーションのための混合特徴量の学習
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Mar 20

BySiying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng

RewardBench: 言語モデリングのための報酬モデル評価
RewardBench: Evaluating Reward Models for Language Modeling

Mar 20

ByNathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi

HyperLLaVA: マルチモーダル大規模言語モデルのための動的視覚・言語エキスパートチューニング
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Mar 20

ByWenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang

RadSplat: 放射輝度フィールドを活用したガウススプラッティングによる900FPS以上のロバストなリアルタイムレンダリング
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Mar 20

ByMichael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari

ZigMa: ジグザグマンバ拡散モデル
ZigMa: Zigzag Mamba Diffusion Model

Mar 20

ByVincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer

DepthFM: フローマッチングによる高速単眼深度推定
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Mar 20

ByMing Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer

マジックフィックスアップ：動的ビデオ観察による写真編集の効率化
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Mar 19

ByHadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi

逆転の呪いを癒すための逆方向トレーニング
Reverse Training to Nurse the Reversal Curse

Mar 20

ByOlga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar

Be-Your-Outpainter: 入力特化型適応によるビデオアウトペインティングの習得
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Mar 20

ByFu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li