AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Seaweed-7B: ビデオ生成基盤モデルのコスト効率的なトレーニング
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

ByTeam Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

130

本技術レポートでは、ビデオ生成基盤モデルを効率的にトレーニングするためのコスト効果の高い戦略を提示します。約70億パラメータ（7B）の中規模研究モデル「Seaweed-7B」を、66万5千時間のH100 GPUを使用してゼロからトレーニングしました。中程度の計算リソースでトレーニングされたにもかかわらず、Seaweed-7Bは、はるかに大規模な現代のビデオ生成モデルと比較しても非常に競争力のある性能を発揮します。リソースが制約された環境では、設計選択が特に重要です。本レポートでは、中規模拡散モデルの性能を向上させるための主要な設計決定を強調します。経験的に、以下の2つの観察結果を得ました：(1) Seaweed-7Bは、大幅に多くのGPUリソースでトレーニングされた大規模モデルと同等、またはそれ以上の性能を達成し、(2) 強力な汎化能力を示す当モデルは、軽量なファインチューニングまたは継続トレーニングによって、幅広い下流アプリケーションに効果的に適応可能です。プロジェクトページはhttps://seaweed.video/をご覧ください。

GigaTok：自己回帰的画像生成のためのビジュアルトークナイザを30億パラメータにスケーリング
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

自己回帰（AR）画像生成において、ビジュアルトークナイザーは画像をコンパクトな離散潜在トークンに圧縮し、次のトークン予測による視覚生成のための下流自己回帰モデルの効率的な学習を可能にします。ビジュアルトークナイザーのスケーリングは画像再構成品質を向上させますが、しばしば下流生成品質を低下させるという課題があり、既存の研究では十分に対処されていません。この課題に対処するため、我々はGigaTokを導入します。これは、ビジュアルトークナイザーのスケーリング時に画像再構成、生成、および表現学習を同時に改善する初めてのアプローチです。我々は、潜在空間の複雑さの増大が再構成と生成のジレンマの背後にある主要な要因であることを特定しました。これを緩和するため、セマンティック正則化を提案します。これは、トークナイザーの特徴を事前学習されたビジュアルエンコーダーからの意味的に一貫した特徴と整合させるものです。この制約により、スケーリング中の過剰な潜在空間の複雑さが防止され、再構成と下流自己回帰生成の両方で一貫した改善がもたらされます。セマンティック正則化を基盤として、トークナイザーのスケーリングにおける3つの重要な実践を探求します：（1）スケーラビリティを向上させるための1Dトークナイザーの使用、（2）エンコーダーとデコーダーの両方を拡張する際のデコーダースケーリングの優先、（3）ビリオンスケールのトークナイザーの学習を安定化するためのエントロピー損失の採用。30億パラメータにスケーリングすることで、GigaTokは再構成、下流AR生成、および下流AR表現品質において最先端の性能を達成します。

MineWorld: Minecraft上でのリアルタイム・オープンソース型インタラクティブワールドモデル
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

世界モデリングは、知的エージェントが人間と効果的に相互作用し、動的な環境で動作するために不可欠なタスクです。本研究では、世界モデリングの共通テストベッドとして利用されてきたオープンエンドのサンドボックスゲームであるMinecraft上で、リアルタイムにインタラクティブな世界モデルであるMineWorldを提案します。MineWorldは、視覚-行動オートリグレッシブTransformerによって駆動され、ペアになったゲームシーンと対応する行動を入力として受け取り、その行動に続く新しいシーンを生成します。具体的には、画像トークナイザーと行動トークナイザーを使用して視覚的なゲームシーンと行動を離散的なトークンIDに変換し、これら2種類のIDを交互に連結してモデル入力を構成します。モデルは、次のトークン予測を通じて、ゲーム状態の豊かな表現と、状態と行動の間の条件を同時に学習するように訓練されます。推論時には、各フレームの空間的に冗長なトークンを同時に予測する新しい並列デコードアルゴリズムを開発し、異なるスケールのモデルが1秒間に4～7フレームを生成し、ゲームプレイヤーとのリアルタイムなインタラクションを可能にします。評価では、新しいシーンを生成する際の視覚的な品質だけでなく、世界モデルにとって重要な行動追従能力を評価するための新しい指標を提案します。我々の包括的な評価は、MineWorldの有効性を示し、SoTAのオープンソースの拡散ベースの世界モデルを大幅に上回る性能を発揮します。コードとモデルは公開されています。

VLM-R1: 安定性と汎用性を兼ね備えたR1スタイルの大規模視覚言語モデル
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

最近、DeepSeek R1は、シンプルでありながら効果的な設計により、強化学習（RL）が大規模言語モデル（LLMs）の推論能力を大幅に向上させることができることを示しました。R1の核心は、そのルールベースの報酬設計にあり、決定論的な正解を持つタスクを活用することで、正確で安定した報酬計算を可能にしています。視覚領域においても、同様に、幅広い視覚理解タスクが本質的に明確な正解アノテーションを備えていることが観察されます。この特性により、これらのタスクはルールベースの報酬メカニズムと自然に互換性があります。この観察に基づき、我々はR1スタイルの強化学習を視覚言語モデル（VLMs）に拡張し、その視覚推論能力を向上させることを目指して調査を行いました。この目的のために、我々はVLM-R1を開発しました。これは、VLMsの一般的な視覚言語タスクにおける性能を向上させるためにRLを活用する専用のフレームワークです。このフレームワークを使用して、我々はさらに視覚領域にRLを適用する可能性を探求しました。実験結果は、RLベースのモデルが視覚理解タスクにおいて競争力のある性能を発揮するだけでなく、教師あり微調整（SFT）を一般化能力において上回ることを示しています。さらに、我々は包括的なアブレーション研究を実施し、物体検出における報酬ハッキングの存在、「OD aha moment」の出現、トレーニングデータ品質の影響、および異なるモデルサイズにおけるRLのスケーリング挙動など、一連の注目すべき洞察を明らかにしました。これらの分析を通じて、我々は強化学習が視覚言語モデルの能力をどのように向上させるかを深く理解することを目指し、我々の研究成果とオープンソースの貢献が視覚言語RLコミュニティの継続的な進歩を支援することを願っています。我々のコードとモデルはhttps://github.com/om-ai-lab/VLM-R1で公開されています。

SQL-R1: 強化学習による自然言語からSQLへの推論モデルのトレーニング
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Apr 11

ByPeixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo

自然言語からSQLへの変換（NL2SQL）は、自然言語クエリを構造化されたSQL文に変換することで、データベースとの直感的なインタラクションを可能にします。データベースアプリケーションにおける人間とコンピュータの相互作用を強化するための最近の進展にもかかわらず、特に複数のテーブル結合やネストされたクエリを含む複雑なシナリオにおける推論性能に関して、重要な課題が残っています。現在の手法は主に教師あり微調整（SFT）を利用してNL2SQLモデルを訓練しており、これが新しい環境（例えば、金融や医療）での適応性と解釈可能性を制限する可能性があります。上記の複雑な状況においてNL2SQLモデルの推論性能を向上させるために、我々は強化学習（RL）アルゴリズムによって訓練された新しいNL2SQL推論モデルであるSQL-R1を導入します。我々はNL2SQLタスクに特化したRLベースの報酬関数を設計し、集中訓練の効果に対するコールドスタートの影響について議論しました。さらに、合成NL2SQLデータのごく少量のみを使用して拡張訓練を行い、競争力のある精度を達成し、RLのためのデータエンジニアリングをさらに探求しました。既存の実験では、SQL-R1は7Bベースモデルのみを使用して、ベンチマークSpiderとBIRDでそれぞれ88.6%と66.6%の実行精度を達成しました。

PixelFlow: フローを用いたピクセル空間生成モデル
PixelFlow: Pixel-Space Generative Models with Flow

Apr 10

ByShoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo

本研究では、PixelFlowと呼ばれる画像生成モデルのファミリーを提案します。このモデルは、主流の潜在空間モデルとは対照的に、生のピクセル空間で直接動作します。このアプローチにより、事前学習済みの変分オートエンコーダ（VAE）が不要となり、モデル全体をエンドツーエンドで学習可能にすることで、画像生成プロセスが簡素化されます。効率的なカスケードフローモデリングを通じて、PixelFlowはピクセル空間での計算コストを抑えつつ、256×256のImageNetクラス条件付き画像生成ベンチマークにおいて1.98のFIDを達成しました。テキストから画像への定性的な結果は、PixelFlowが画像品質、芸術性、および意味的制御において優れていることを示しています。この新しいパラダイムが、次世代の視覚生成モデルに新たなインスピレーションと機会をもたらすことを期待しています。コードとモデルはhttps://github.com/ShoufaChen/PixelFlowで公開されています。

ZipIR: 高解像度画像復元のための潜在ピラミッド拡散トランスフォーマー
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Apr 11

ByYongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo

近年の生成モデルの進展により、特に強力な拡散モデルを通じて、意味的詳細や局所的な忠実度の驚異的な回復が可能となり、画像修復能力が大幅に向上しました。しかし、超高解像度でのこれらのモデルの展開においては、長距離アテンションメカニズムの計算負荷により、品質と効率性の間で重大なトレードオフが生じています。この問題に対処するため、我々はZipIRを提案します。これは、高解像度画像修復のための効率性、拡張性、および長距離モデリングを強化する新しいフレームワークです。ZipIRは、画像を32倍に圧縮する高度に圧縮された潜在表現を採用し、空間トークンの数を効果的に削減し、Diffusion Transformer（DiT）のような高容量モデルの使用を可能にします。この目標に向けて、我々は潜在空間をサブバンドに構造化して拡散学習を容易にするLatent Pyramid VAE（LP-VAE）設計を提案します。2K解像度までのフル画像で学習されたZipIRは、既存の拡散ベースの手法を凌駕し、深刻に劣化した入力からの高解像度画像修復において、比類のない速度と品質を提供します。

博士レベルの大規模言語モデルは本当に初歩的な加算を理解しているのか？大規模言語モデルにおけるルール学習と記憶化の探求
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Apr 7

ByYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

高いベンチマークスコアにもかかわらず、大規模言語モデル（LLMs）はしばしば単純な問題に失敗し、重要な疑問を提起します：LLMsは数学的原理を学習しているのか、それとも単にパターンを記憶しているのか？最近の研究のようにますます複雑なベンチマークを設計するのではなく、我々は基本的な2整数の加算（0から2^{64}）を用いてこれを調査し、2つの核心的な特性を探ります：可換性（A+B=B+A）と合成的汎化（同型的シンボリックマッピングを通じて、例えば7→y）。最先端のLLMsは数値加算において73.8-99.8\%の精度を達成しますが、シンボリックマッピング下では精度がleq7.5\%にまで低下し、学習したルールを汎化できないことを示しています。桁数に伴う非単調な性能スケーリングや頻繁な可換性の違反（A+B neq B+Aの1,700件以上の事例）がこれをさらに支持します。加算ルールを明示的に提供すると、平均で81.2\%の性能低下が見られ、自己説明はベースラインの精度を維持し、LLMの算術処理が人間が定義した原理と一致していないことを示唆しています。我々の調査結果は、現在のLLMsが真のルール学習ではなく記憶パターンに依存していることを示し、真の数学的推論を達成するための新しいアプローチの必要性とアーキテクチャの限界を強調しています。

ビジュアル・クロニクル：大規模画像コレクションの分析におけるマルチモーダルLLMの活用
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Apr 11

ByBoyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

我々は、異なる時期に撮影された数千万枚の画像からなる大規模データベースを分析するために、マルチモーダルLLM（MLLM）を活用したシステムを提案します。その目的は、時間的変化におけるパターンを発見することです。具体的には、特定の期間にわたって都市全体で頻繁に共起する変化（「トレンド」）を捉えることを目指しています。従来の視覚分析とは異なり、我々の分析は、事前に定義された対象やトレーニングラベルなしに、オープンエンドなクエリ（例：「都市で頻繁に起こる変化の種類は何か？」）に答えることができます。これらの特性により、従来の学習ベースや教師なしの視覚分析ツールは不適格となります。我々は、MLLMをそのオープンエンドな意味理解能力のために新たなツールとして特定しました。しかし、我々のデータセットはMLLMがコンテキストとして取り込むには4桁大きすぎます。そこで、大規模な視覚分析問題をより扱いやすいサブ問題に分解するボトムアップの手順を導入します。各サブ問題に対して、MLLMベースのソリューションを慎重に設計します。システムの実験とアブレーションスタディを通じて、ベースラインを大幅に上回り、大都市で撮影された画像から興味深いトレンド（例：「屋外飲食の追加」、「高架橋が青く塗られた」など）を発見できることがわかりました。詳細な結果とインタラクティブなデモはhttps://boyangdeng.com/visual-chroniclesでご覧いただけます。

FlexIP: カスタマイズされた画像生成のための保存性と個性の動的制御
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Apr 10

ByLinyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao

2D生成モデルの急速な進化に伴い、被写体のアイデンティティを維持しつつ多様な編集を可能にすることが重要な研究課題として浮上しています。既存の手法では、アイデンティティの維持と個別化された操作の間に本質的なトレードオフが存在するのが一般的です。本研究では、これらの目的を分離する新しいフレームワーク「FlexIP」を提案します。FlexIPは、スタイル操作のためのPersonalization Adapterと、アイデンティティ維持のためのPreservation Adapterという2つの専用コンポーネントを備えています。生成モデルにこれらの制御機構を明示的に注入することで、推論時に重みアダプターの動的チューニングを通じて柔軟なパラメータ制御を実現します。実験結果から、本手法が従来の手法の性能限界を突破し、優れたアイデンティティ維持を実現しながら、より多様な個別化生成能力をサポートすることが示されました（プロジェクトページ: https://flexip-tech.github.io/flexip/）。

In-2-4D: 単一視点画像2枚から4D生成への中間補間
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Apr 11

BySauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

我々は、最小限の入力設定から生成的な4D（すなわち3D＋モーション）のインビトウィーニングを行うための新たな問題、In-2-4Dを提案する。具体的には、異なるモーション状態にある物体を捉えた2つの単一視点画像を入力とする。運動の開始状態と終了状態を表す2つの画像が与えられたとき、我々の目標は4D空間におけるモーションを生成し再構築することである。モーションの予測にはビデオ補間モデルを利用するが、フレーム間の大きな動きは曖昧な解釈を招く可能性がある。これを克服するため、階層的アプローチを用いて、入力状態に視覚的に近く、かつ重要な動きを示すキーフレームを特定し、それらの間を滑らかなフラグメントとして生成する。各フラグメントにおいて、Gaussian Splattingを用いてキーフレームの3D表現を構築する。フラグメント内の時間的フレームがモーションを導き、変形フィールドを通じて動的なガウシアンへと変換する。時間的一貫性を向上させ、3Dモーションを洗練させるため、マルチビューディフュージョンの自己注意機構をタイムステップ間で拡張し、剛体変換正則化を適用する。最後に、独立して生成された3Dモーションセグメントを、境界変形フィールドを補間し、ガイドビデオに整合するよう最適化することで統合し、滑らかでちらつきのない遷移を実現する。質的・量的な実験およびユーザスタディを通じて、我々の手法とその構成要素の有効性を示す。プロジェクトページはhttps://in-2-4d.github.io/で公開されている。

ModernBERTとDeBERTaV3？Transformerエンコーダモデルの性能に対するアーキテクチャとデータの影響を検証
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Apr 11

ByWissam Antoun, Benoît Sagot, Djamé Seddah

DeBERTaV3やModernBERTのような事前学習済みトランスフォーマーエンコーダモデルは、効率性と性能向上を目的としたアーキテクチャの進化を導入しています。ModernBERTの著者らは、いくつかのベンチマークでDeBERTaV3を上回る性能を報告していますが、トレーニングデータの開示がなく、共有データセットを用いた比較が行われていないため、これらの向上がアーキテクチャの改良によるものか、トレーニングデータの違いによるものかを判断するのは困難です。本研究では、ModernBERTをCamemBERTaV2（DeBERTaV3のフランス語モデル）と同じデータセットで事前学習させることで制御された実験を行い、モデル設計の効果を分離しました。その結果、前世代のモデルがサンプル効率と全体的なベンチマーク性能において依然として優れていることが示され、ModernBERTの主な利点はトレーニングと推論速度の速さであることが明らかになりました。しかし、新たに提案されたモデルは、BERTやRoBERTaのような以前のモデルと比較しても有意なアーキテクチャの改良を提供しています。さらに、高品質な事前学習データは収束を加速しますが、最終的な性能を大幅に向上させるわけではないことも観察され、ベンチマークの飽和を示唆しています。これらの発見は、トランスフォーマーモデルを評価する際に、事前学習データとアーキテクチャの革新を分離することの重要性を示しています。

CoRAG: 協調的検索拡張生成
CoRAG: Collaborative Retrieval-Augmented Generation

Apr 2

ByAashiq Muhamed, Mona Diab, Virginia Smith

Retrieval-Augmented Generation (RAG) モデルは、特に少ないサンプルでの学習制約下において、知識集約型タスクで優れた性能を発揮します。本論文では、RAGを共同学習環境に拡張したCoRAGフレームワークを提案します。CoRAGでは、クライアントが共同パッセージストアを活用して共有モデルを共同で学習します。CoRAGを評価するため、協調的均質オープンドメイン質問応答のベンチマークであるCRABを導入しました。実験結果から、CoRAGは低リソースシナリオにおいて、パラメトリックな共同学習手法やローカルで学習したRAGモデルを一貫して上回ることが示されました。さらに分析を行った結果、共有ストア内の関連パッセージの重要性、無関係なパッセージを取り入れることの意外な利点、およびハードネガティブが性能に悪影響を及ぼす可能性が明らかになりました。これにより、共同RAGにおける新たな考慮事項が浮かび上がりました。つまり、共同で強化された知識ベースを活用することと、他のクライアントからの有害なパッセージを取り入れるリスクとのトレードオフです。本研究の結果は、CoRAGの実用性を裏付けると同時に、主要な設計課題と今後の研究の有望な方向性を強調しています。

UKBOB：汎用可能な3D医用画像セグメンテーションのための10億のMRIラベル付きマスク
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Apr 9

ByEmmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

医療画像分野における主な課題は、プライバシー問題、ロジスティクス、高額なラベル付けコストにより、大規模なラベル付きデータを収集することです。本研究では、UK Biobank MRIデータセットに基づく、最大規模の身体臓器ラベル付きデータセットであるUK Biobank Organs and Bones（UKBOB）を紹介します。このデータセットは、51,761件のMRI 3Dサンプル（17.9百万枚の2D画像に相当）と72の臓器に対する13.7億以上の2Dセグメンテーションマスクを含んでいます。自動ラベル付けを活用し、臓器固有のフィルターを用いた自動ラベルクリーニングパイプラインを導入し、11の腹部クラスを含む300件のMRIを手動でアノテーションして品質を検証しました（これをUKBOB-manualと呼びます）。このアプローチにより、ラベルの信頼性を維持しながらデータセット収集を拡大することが可能になりました。さらに、フィルタリングされたUKBOBで訓練されたモデルのゼロショット一般化能力を、類似ドメインの他の小規模ラベル付きデータセット（例：腹部MRI）で実証することで、ラベルの有効性を確認しました。ノイジーなラベルの影響をさらに軽減するため、セグメンテーション出力を洗練する新しい手法であるEntropy Test-time Adaptation（ETTA）を提案しました。UKBOBを使用して、Swin-UNetrアーキテクチャに基づく3D医療画像セグメンテーションのための基盤モデルSwin-BOBを訓練し、BRATS脳MRI腫瘍チャレンジ（0.4%の改善）やBTCV腹部CTスキャンベンチマーク（1.3%の改善）を含む、いくつかの3D医療画像ベンチマークで最先端の結果を達成しました。事前訓練済みモデルとコードはhttps://emmanuelleb985.github.io/ukbobで公開されており、フィルタリングされたラベルはUK Biobankとともに利用可能になります。

テキストからビデオ生成におけるトレーニング不要のガイダンス：マルチモーダル計画と構造化ノイズ初期化によるアプローチ
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Apr 11

ByJialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

最近のテキストからビデオ（T2V）拡散モデルの進展により、生成されるビデオの視覚的品質が大幅に向上しました。しかし、最近のT2Vモデルでさえ、テキスト記述を正確に追従することは依然として困難であり、特にプロンプトが空間レイアウトや物体の軌跡の正確な制御を要求する場合に顕著です。最近の研究では、T2Vモデルにレイアウトガイダンスを使用するアプローチが取られており、推論時に注意マップの微調整や反復的な操作が必要となります。これによりメモリ要件が大幅に増加し、大規模なT2Vモデルをバックボーンとして採用することが難しくなっています。この問題に対処するため、我々はマルチモーダル計画と構造化ノイズ初期化に基づく、トレーニング不要のT2V生成ガイダンス手法であるVideo-MSGを提案します。Video-MSGは3つのステップで構成され、最初の2つのステップでは、Video-MSGは最終ビデオの詳細な時空間計画であるVideo Sketchを作成し、背景、前景、および物体の軌跡をドラフトビデオフレームの形で指定します。最後のステップでは、Video-MSGはノイズ反転とノイズ除去を通じて、Video Sketchを使用して下流のT2V拡散モデルをガイドします。特に、Video-MSGは推論時に追加のメモリを必要とする微調整や注意操作を必要としないため、大規模なT2Vモデルを容易に採用できます。Video-MSGは、人気のあるT2V生成ベンチマーク（T2VCompBenchおよびVBench）において、複数のT2Vバックボーン（VideoCrafter2およびCogVideoX-5B）を用いてテキストアラインメントを強化する効果を実証しています。我々は、ノイズ反転比率、異なる背景生成器、背景物体検出、および前景物体セグメンテーションに関する包括的なアブレーション研究を提供します。

BlenderGym：グラフィックス編集のための基盤モデルシステムのベンチマーキング
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Apr 2

ByYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

3Dグラフィックス編集は、映画制作やゲームデザインなどのアプリケーションにおいて重要な役割を果たすが、依然として時間を要するプロセスであり、高度に専門的なドメイン知識を必要とする。このプロセスを自動化することは困難である。なぜなら、グラフィカル編集は多様なタスクを実行する必要があり、それぞれが異なるスキルセットを要求するからだ。最近、ビジョン・ランゲージモデル（VLM）が編集プロセスを自動化するための強力なフレームワークとして登場したが、その開発と評価は、人間レベルの知覚を必要とし、現実世界の編集の複雑さを提示する包括的なベンチマークの欠如によってボトルネックとなっている。本研究では、3Dグラフィックス編集のための最初の包括的なVLMシステムベンチマークであるBlenderGymを提案する。BlenderGymは、コードベースの3D再構成タスクを通じてVLMシステムを評価する。クローズドソースおよびオープンソースのVLMシステムを評価し、最先端のVLMシステムでさえ、人間のBlenderユーザーにとって比較的容易なタスクに苦戦することを観察した。BlenderGymを活用して、推論スケーリング技術がグラフィックス編集タスクにおけるVLMの性能にどのように影響するかを研究する。特に、生成のスケーリングを導くために使用される検証器自体が、推論スケーリングを通じて改善できることが明らかになり、コーディングや数学タスクにおけるLLM生成の推論スケーリングに関する最近の知見を補完する。さらに、推論計算が一律に効果的ではなく、生成と検証の間に戦略的に分散することで最適化できることを示す。

InteractVLM: 2D基盤モデルからの3Dインタラクション推論
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Apr 7

BySai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

InteractVLMを紹介します。これは、単一の実世界画像から人体と物体の3D接触点を推定し、正確な3D人間-物体共同再構成を可能にする新しい手法です。これは、遮蔽、深度の曖昧さ、および多様な物体形状のため、非常に困難な課題です。既存の手法は、高価なモーションキャプチャシステムや手作業によるラベリングで収集された3D接触アノテーションに依存しており、スケーラビリティと汎用性が制限されています。これを克服するため、InteractVLMは大規模な視覚言語モデル（VLM）の広範な視覚知識を活用し、限られた3D接触データでファインチューニングします。しかし、これらのモデルを直接適用するのは容易ではありません。なぜなら、これらのモデルは2Dでのみ推論するのに対し、人間と物体の接触は本質的に3Dであるためです。そこで、新しいRender-Localize-Liftモジュールを導入します。このモジュールは、(1) 多視点レンダリングを通じて3Dの身体と物体表面を2D空間に埋め込み、(2) 新しい多視点位置推定モデル（MV-Loc）を訓練して2Dでの接触を推論し、(3) これらを3Dにリフトします。さらに、Semantic Human Contact estimationと呼ばれる新しいタスクを提案します。このタスクでは、人間の接触予測が物体の意味に明示的に条件付けられ、より豊富な相互作用モデリングを可能にします。InteractVLMは、接触推定において既存の研究を上回り、実世界画像からの3D再構成も容易にします。コードとモデルはhttps://interactvlm.is.tue.mpg.deで利用可能です。

SpecReason: 推論時の高速かつ正確な計算を実現する推測的推論
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Apr 10

ByRui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali

近年の推論時計算の進歩により、大規模推論モデル（LRM）を用いて長い思考連鎖（CoT）を生成することで、複雑なタスクにおける性能が大幅に向上しました。しかし、この精度向上は、生成される推論シーケンスの長さと自己回帰的なデコードの性質により、高い推論遅延という代償を伴います。これらのオーバーヘッドに対処するための我々の重要な洞察は、LRM推論およびそれに埋め込まれた推論が近似に対して非常に寛容であるということです。複雑なタスクは通常、より単純なステップに分解され、各ステップは生成される正確なトークンではなく、下流のステップに対する意味的洞察に基づいて有用性をもたらします。これに基づき、我々はSpecReasonを導入します。これは、軽量モデルを使用して（推測的に）単純な中間推論ステップを実行し、高コストのベースモデルは推測された出力を評価（および必要に応じて修正）するためにのみ使用するシステムです。重要な点として、SpecReasonは、最終的な回答の精度を維持するために思考トークンの意味的柔軟性を活用することに焦点を当てており、これは各ステップでトークンレベルの等価性を要求する従来の推測的デコード技術と補完的です。様々な推論ベンチマークにおいて、SpecReasonは従来のLRM推論に比べて1.5～2.5倍の高速化を実現し、精度を1.0～9.9％向上させます。SpecReasonなしの推測的デコードと比較すると、それらの組み合わせにより、さらに19.4～44.2％の遅延削減が得られます。我々はSpecReasonをhttps://github.com/ruipeterpan/specreasonでオープンソース化しています。

潜在拡散オートエンコーダ：医療画像における効率的で有意義な教師なし表現学習に向けて
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Apr 11

ByGabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman

本研究では、Latent Diffusion Autoencoder（LDAE）という新しいエンコーダ-デコーダ型の拡散ベースフレームワークを提案する。このフレームワークは、医療画像における効率的で意味のある教師なし学習を実現するもので、特にアルツハイマー病（AD）に焦点を当て、ADNIデータベースの脳MRIをケーススタディとして使用している。従来の画像空間で動作する拡散オートエンコーダとは異なり、LDAEは圧縮された潜在表現に拡散プロセスを適用することで、計算効率を向上させ、3D医療画像の表現学習を実現可能にする。提案手法を検証するため、以下の2つの主要な仮説を探求する：（i）LDAEは、ADと加齢に関連する3D脳MRIの意味のあるセマンティック表現を効果的に捉えること、（ii）LDAEは計算効率が高い一方で、高品質な画像生成と再構築を実現すること。実験結果は両方の仮説を支持する：（i）線形プローブ評価では、ADの診断性能（ROC-AUC: 90%, ACC: 84%）と年齢予測（MAE: 4.1年, RMSE: 5.2年）において有望な結果を示した；（ii）学習されたセマンティック表現は属性操作を可能にし、解剖学的に妥当な変更を実現する；（iii）セマンティック補間実験では、欠損スキャンの強力な再構築が示され、6ヶ月間隔でのSSIMは0.969（MSE: 0.0019）であった。さらに長い間隔（24ヶ月）でも、モデルは堅牢な性能を維持し（SSIM > 0.93, MSE < 0.004）、時間的進行傾向を捉える能力を示した；（iv）従来の拡散オートエンコーダと比較して、LDAEは推論スループットを大幅に向上させ（20倍高速）、再構築品質も向上させた。これらの知見は、LDAEがスケーラブルな医療画像アプリケーションのための有望なフレームワークであり、医療画像分析の基盤モデルとしての潜在能力を持つことを示している。コードはhttps://github.com/GabrieleLozupone/LDAEで公開されている。

SAEはアンラーニングを改善可能：LLMにおける精密なアンラーニングのための動的スパースオートエンコーダガードレール
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Apr 11

ByAashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

機械学習モデルからの知識削除（Machine Unlearning）は、LLMの安全性を向上させるための有望なアプローチです。しかし、現在主流の勾配ベースの削除手法は、高い計算コスト、ハイパーパラメータの不安定性、逐次的な削除能力の低さ、再学習攻撃への脆弱性、データ効率の悪さ、解釈可能性の欠如といった課題を抱えています。スパースオートエンコーダ（SAE）は、ターゲットを絞った活性化ベースの削除を可能にすることでこれらの側面を改善するのに適していますが、従来の手法は勾配ベースの方法に劣っていました。本研究では、これまでの知見とは異なり、SAEを動的に活用することで削除性能を大幅に向上できることを示します。我々は、原理に基づいた特徴選択と動的分類器を活用した新しい精密削除手法であるDynamic DAE Guardrails（DSG）を提案します。実験の結果、DSGは主要な削除手法を大幅に上回り、優れた忘却-有用性のトレードオフを達成することが示されました。DSGは、勾配ベースの削除手法の主要な欠点を解決します――計算効率と安定性の向上、逐次削除における堅牢な性能、再学習攻撃に対する強い耐性、ゼロショット設定を含む優れたデータ効率、そしてより解釈可能な削除を実現します。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Seaweed-7B: ビデオ生成基盤モデルのコスト効率的なトレーニング
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

130

GigaTok：自己回帰的画像生成のためのビジュアルトークナイザを30億パラメータにスケーリング
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

MineWorld: Minecraft上でのリアルタイム・オープンソース型インタラクティブワールドモデル
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

VLM-R1: 安定性と汎用性を兼ね備えたR1スタイルの大規模視覚言語モデル
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao