AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

長文脈自己回帰型ビデオモデリングと次フレーム予測
Long-Context Autoregressive Video Modeling with Next-Frame Prediction

Mar 25

ByYuchao Gu, Weijia Mao, Mike Zheng Shou

長文脈自己回帰モデリングは言語生成を大きく進歩させてきたが、映像生成では長い時間的文脈を十分に活用することに依然として苦戦している。長文脈映像モデリングを探求するため、我々はFrame AutoRegressive（FAR）を導入する。これは映像自己回帰モデリングの強力なベースラインである。言語モデルがトークン間の因果的依存関係（すなわちToken AR）を学習するのと同様に、FARは連続フレーム間の時間的因果的依存関係をモデル化し、Token ARや映像拡散トランスフォーマーよりも優れた収束性を達成する。FARを基盤として、長文脈視覚モデリングが視覚的な冗長性により課題に直面していることを観察する。既存のRoPEは遠隔文脈に対する効果的な時間的減衰を欠いており、長い映像シーケンスへの外挿がうまくいかない。さらに、長い映像の学習は計算コストが高く、視覚トークンは言語トークンよりもはるかに速く増加する。これらの問題に対処するため、我々は局所性と長距離依存性のバランスを取ることを提案する。FlexRoPEを導入し、これはRoPEに柔軟な時間的減衰を加えるテスト時技術であり、16倍長い視覚文脈への外挿を可能にする。さらに、長短期文脈モデリングを提案する。ここでは高解像度の短期文脈ウィンドウが細かい時間的一貫性を保証し、無制限の長期文脈ウィンドウが少ないトークンで長距離情報をエンコードする。このアプローチにより、管理可能なトークン文脈長で長い映像シーケンスを学習できる。我々は、FARが短編・長編映像生成の両方で最先端の性能を達成し、映像自己回帰モデリングのシンプルで効果的なベースラインを提供することを実証する。

4K解像度への視覚事前学習のスケーリング
Scaling Vision Pre-Training to 4K Resolution

Mar 25

ByBaifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin

高解像度での視覚的詳細の知覚は、日常的なタスクにおいて極めて重要である。しかし、現在の視覚事前学習は、より大きな画像を処理する際の二次的なコストのため、低解像度（例：378 x 378ピクセル）に限定されている。本論文では、PS3を導入し、CLIPスタイルの視覚事前学習を4K解像度にスケールアップしつつ、ほぼ一定のコストを維持する。PS3は、グローバルな画像表現に対するコントラスティブ学習ではなく、局所的な領域を選択的に処理し、それらを局所的な詳細なキャプションと対比させることで事前学習を行い、大幅に削減された計算オーバーヘッドで高解像度の表現学習を可能にする。事前学習されたPS3は、低解像度でグローバルな画像をエンコードするだけでなく、その顕著性やテキストプロンプトとの関連性に基づいて、局所的な高解像度領域を選択的に処理することができる。PS3をマルチモーダルLLM（MLLM）に適用した結果、VILA-HDと名付けられたモデルは、AnyResやS^2などの高解像度視覚事前学習を行わないベースラインと比較して、高解像度視覚知覚を大幅に改善し、最大4.3倍少ないトークンを使用する。PS3はまた、VILA-HDの魅力的なスケーリング特性を解き放ち、解像度を無料でスケールアップすることや、テスト時の計算量を増やして性能を向上させることを可能にする。最新技術と比較して、VILA-HDは、NVILAやQwen2-VLなどの従来のMLLMを複数のベンチマークで上回り、最新のトークンプルーニング手法よりも優れた効率を達成する。最後に、現在のベンチマークでは4K解像度の知覚が必要とされていないことがわかり、これが4K解像度での画像QAの新しいベンチマークである4KProを提案する動機となった。4KProにおいて、VILA-HDは、GPT-4oに対して14.5%、Qwen2-VLに対して3.2%の改善と2.96倍の高速化を達成し、すべての従来のMLLMを上回る性能を示した。

フローモデルの推論時スケーリング：確率的生成とロールオーバー予算強制によるアプローチ
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

Mar 25

ByJaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung

事前学習済みフローモデルに対する推論時スケーリング手法を提案する。最近、大規模言語モデル（LLM）や拡散モデルにおいて、推論時スケーリングが注目を集めており、追加の計算リソースを活用することでサンプル品質の向上やユーザー嗜好との整合性の改善が図られている。拡散モデルでは、中間段階の確率的なノイズ除去プロセスにより、粒子サンプリングが効率的なスケーリングを可能にしてきた。一方、フローモデルは拡散モデルの代替として人気を集めており、高速な生成と最先端の画像・動画生成モデルにおける高品質な出力を提供しているが、その決定論的な生成プロセスのため、拡散モデルで用いられる効率的な推論時スケーリング手法を直接適用することはできない。フローモデルにおける効率的な推論時スケーリングを実現するため、以下の3つの主要なアイデアを提案する：1) SDEベースの生成（フローモデルにおける粒子サンプリングを可能にする）、2) 補間変換（探索空間を広げ、サンプルの多様性を向上させる）、3) Rollover Budget Forcing (RBF)（計算リソースをタイムステップ間で適応的に割り当て、予算利用を最大化する）。実験結果から、SDEベースの生成、特に分散保存型（VP）補間に基づく生成が、フローモデルにおける推論時スケーリングのための粒子サンプリング手法の性能を向上させることが示された。さらに、VP-SDEとRBFを組み合わせることで、これまでのすべての推論時スケーリング手法を上回る最高の性能を達成することが実証された。

大規模マルチモーダルモデルのビデオ理解における幻覚現象の探求：ベンチマーク、分析、緩和策
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

Mar 25

ByHongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang

大規模マルチモーダルモデル（LMM）の幻覚問題、すなわち一見正しいが実際には誤った応答を生成する現象は、その信頼性と適用性を制限しています。本論文は、画像やテキストのような静的モダリティに比べて動的でより挑戦的なビデオモダリティにおけるLMMの幻覚問題を研究することを目的としています。この動機から、まずビデオ理解タスクにおけるLMMの幻覚を評価するための包括的なベンチマーク「HAVEN」を提示します。これは幻覚の原因、幻覚の側面、質問形式の3次元に基づいて構築され、6,000の質問を生成します。次に、提示されたベンチマークを用いて16のLMMを実験し、ビデオの再生時間、モデルサイズ、モデルの推論能力など、幻覚に影響を与える7つの要因を定量的に研究します。さらに、OpenAI o1のような最近の思考モデルに触発され、教師付き推論ファインチューニング（SRFT）と直接選好最適化（TDPO）を介してLMMの幻覚を軽減するビデオ思考モデルを提案します。SRFTは推論能力を強化し、TDPOは思考プロセスにおける幻覚を減少させます。広範な実験と分析により、その有効性が実証されています。特に、幻覚評価における精度を7.65％向上させ、バイアススコアを4.5％減少させました。コードとデータはhttps://github.com/Hongcheng-Gao/HAVENで公開されています。

CoMP：ビジョンファウンデーションモデルのための継続的マルチモーダル事前学習
CoMP: Continual Multimodal Pre-training for Vision Foundation Models

Mar 24

ByYitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang

事前学習済みの視覚基盤モデル（VFMs）は、幅広いアプリケーションに対して強力な視覚表現を提供します。本論文では、主流のVFMsをマルチモーダルな方法で継続的に事前学習し、元の事前学習プロセスに関わらず、さまざまなサイズの視覚入力を容易に処理し、言語表現とより整合性の高い視覚表現を生成できるようにします。この目的のために、我々はCoMPという慎重に設計されたマルチモーダル事前学習パイプラインを導入します。CoMPは、ネイティブ解像度での継続的事前学習をサポートするための継続的ロータリーポジション埋め込みと、言語プロトタイプを通じた視覚的特徴とテキスト的特徴の間の整合性損失を使用して、マルチモーダル表現を整列させます。3段階のトレーニングにより、我々のVFMsはマルチモーダル理解だけでなく、分類やセグメンテーションなどの他の下流タスクでも顕著な改善を達成します。特に、CoMP-SigLIPは0.5BのLLMを使用して、ChartQAで66.7、DocVQAで75.9のスコアを達成し、凍結チャンク評価下でImageNet-1Kで87.4%の精度、ADE20Kで49.5のmIoUを維持します。

再考：マルチラウンドテストタイム思考のスケーリングによるLLM推論能力の向上
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Mar 25

ByXiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li

最近の大規模言語モデル（LLMs）の進歩、例えばOpenAI-o1やDeepSeek-R1などは、テスト時のスケーリングの有効性を示しており、拡張された推論プロセスがモデルの性能を大幅に向上させることが実証されています。しかしながら、現在のモデルは長文の処理や強化学習（RL）のトレーニング効率における制約に直面しています。これらの課題に対処するため、我々はシンプルでありながら効果的なテスト時スケーリング手法である「マルチラウンド思考（Multi-round Thinking）」を提案します。この手法は、前回の回答を次のラウンドのプロンプトとして活用することで、モデルの推論を反復的に洗練させます。QwQ-32BやDeepSeek-R1を含む複数のモデルを用いた広範な実験により、AIME 2024、MATH-500、GPQA-diamond、LiveCodeBenchなどの様々なベンチマークで一貫して性能向上が確認されました。例えば、QwQ-32BのAIME 2024データセットにおける精度は、80.3%（ラウンド1）から82.1%（ラウンド2）に向上し、DeepSeek-R1も同様に79.7%から82.0%に上昇しました。これらの結果は、マルチラウンド思考がモデル性能の安定した向上を達成するための広く適用可能で簡潔なアプローチであることを裏付けており、テスト時スケーリング技術の将来の発展における潜在的可能性を強調しています。キープロンプト：{元の質問プロンプト} アシスタントの前回の回答は：<answer> {前回の回答} </answer>、そして再回答してください。

MDocAgent: ドキュメント理解のためのマルチモーダル・マルチエージェントフレームワーク
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Mar 18

BySiwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao

文書質問応答（DocQA）は非常に一般的なタスクである。既存の手法では、大規模言語モデル（LLM）や大規模視覚言語モデル（LVLM）、検索拡張生成（RAG）を利用するものが多いが、これらの手法は単一のモダリティからの情報を優先しがちで、テキストと視覚的な手がかりを効果的に統合することができない。これらのアプローチは複雑なマルチモーダル推論に苦戦し、実世界の文書に対する性能が制限されている。本論文では、MDocAgent（マルチモーダル・マルチエージェントフレームワークによる文書理解）を提案する。これは、テキストと画像の両方を活用する新しいRAGおよびマルチエージェントフレームワークである。我々のシステムは、一般エージェント、クリティカルエージェント、テキストエージェント、画像エージェント、要約エージェントの5つの専門エージェントを採用している。これらのエージェントはマルチモーダルな文脈検索を行い、個々の洞察を組み合わせることで、文書の内容をより包括的に理解する。この協調的なアプローチにより、システムはテキストと視覚的要素の両方から情報を統合し、質問応答の精度向上を実現する。MMLongBenchやLongDocURLなどの5つのベンチマークでの予備実験では、MDocAgentの有効性が示され、現在の最先端手法と比較して平均12.1%の改善を達成した。この研究は、豊富なテキストと視覚情報を含む実世界の文書の複雑さに対応できる、より堅牢で包括的なDocQAシステムの開発に貢献する。我々のデータとコードはhttps://github.com/aiming-lab/MDocAgentで公開されている。

偽物を見破る：アーティファクト説明付き大規模マルチモーダルモデルによる合成画像検出
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Mar 19

BySiwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li

人工知能生成コンテンツ（AIGC）技術の急速な進展に伴い、合成画像が日常生活においてますます普及し、真正性評価と検出に新たな課題を提起しています。既存の手法は画像の真正性評価や偽造箇所の特定において有効であるものの、これらのアプローチは人間による解釈可能性に欠けており、合成データの複雑化に対応しきれていません。これらの課題に対処するため、我々はFakeVLMを提案します。これは、一般的な合成画像とDeepFake検出タスクの両方に特化した大規模マルチモーダルモデルです。FakeVLMは、本物と偽物の画像を区別するだけでなく、画像のアーティファクトに対する明確で自然言語による説明を提供し、解釈可能性を向上させます。さらに、7つのカテゴリーにわたる10万枚以上の画像を含み、自然言語で詳細なアーティファクトの手がかりが注釈付けされた包括的なデータセットFakeClueを提示します。FakeVLMは、追加の分類器を必要とせずに専門家モデルに匹敵する性能を示し、合成データ検出のための堅牢なソリューションとなっています。複数のデータセットにわたる広範な評価により、FakeVLMが真正性分類とアーティファクト説明タスクの両方において優位性を確認し、合成画像検出の新たなベンチマークを確立しました。データセットとコードはhttps://github.com/opendatalab/FakeVLMで公開されます。

ReSearch: 強化学習による探索を用いた大規模言語モデルの推論能力の学習
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

Mar 25

ByMingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen

大規模言語モデル（LLM）は、OpenAI-o1やDeepSeek-R1の成功に代表されるように、推論能力において顕著な性能を示しています。しかし、外部検索プロセスと推論を統合することは依然として課題であり、特に複数の検索ステップを必要とする複雑なマルチホップ質問に対して困難が残っています。本研究では、ReSearchという新しいフレームワークを提案します。これは、推論ステップに関する教師データを使用せずに、強化学習を通じてLLMに検索を伴う推論を訓練するものです。我々のアプローチでは、検索操作を推論チェーンの不可欠な要素として扱い、いつどのように検索を実行するかはテキストベースの思考によって導かれ、検索結果はその後の推論に影響を与えます。ReSearchをQwen2.5-7B(-Instruct)およびQwen2.5-32B(-Instruct)モデルで訓練し、広範な実験を行いました。1つのデータセットのみで訓練されたにもかかわらず、我々のモデルは様々なベンチマークで強い汎化性能を示しました。分析の結果、ReSearchは強化学習プロセス中に、反射や自己修正といった高度な推論能力を自然に引き出すことが明らかになりました。

CoLLM: 合成画像検索のための大規模言語モデル
CoLLM: A Large Language Model for Composed Image Retrieval

Mar 25

ByChuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava

合成画像検索（Composed Image Retrieval, CIR）は、マルチモーダルクエリに基づいて画像を検索する複雑なタスクです。典型的なトレーニングデータは、参照画像、望ましい変更を記述したテキスト、およびターゲット画像を含むトリプレットで構成されており、これらを取得するにはコストと時間がかかります。CIRデータセットの不足により、合成トリプレットを利用するゼロショットアプローチや、ウェブクロールされた画像-キャプションペアを活用する視覚-言語モデル（VLMs）が用いられてきました。しかし、これらの方法には重大な制限があります：合成トリプレットは規模が限られており、多様性に欠け、不自然な変更テキストが含まれることが多く、画像-キャプションペアはトリプレットデータの欠如により、マルチモーダルクエリの共同埋め込み学習を妨げます。さらに、既存のアプローチは、視覚と言語モダリティの高度な融合と理解を要求する複雑で微妙な変更テキストに対処するのに苦労しています。本論文では、これらの制限を効果的に解決するワンストップフレームワークであるCoLLMを提案します。私たちのアプローチは、画像-キャプションペアからオンザフライでトリプレットを生成し、手動のアノテーションなしで教師あり学習を可能にします。大規模言語モデル（LLMs）を活用して、参照画像と変更テキストの共同埋め込みを生成し、より深いマルチモーダル融合を促進します。さらに、340万サンプルからなる大規模データセットであるMulti-Text CIR（MTCIR）を導入し、既存のCIRベンチマーク（CIRRおよびFashion-IQ）を改良して評価の信頼性を高めます。実験結果は、CoLLMが複数のCIRベンチマークと設定において最先端の性能を達成することを示しています。MTCIRは、最大15%の性能向上をもたらし、競争力のある結果を提供します。私たちが改良したベンチマークは、CIRモデルのより信頼性の高い評価指標を提供し、この重要な分野の進展に貢献します。

拡散モデルを用いた高解像度画像生成のための潜在空間超解像
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

Mar 24

ByJinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim

本論文では、潜在空間における超解像を直接活用することで、高解像度（1Kを超える）画像生成を実現する新しいフレームワークLSRNAを提案する。既存の拡散モデルは、学習解像度を超えたスケーリングに苦戦し、構造的な歪みや内容の繰り返しが生じることが多い。参照ベースの手法は、低解像度の参照画像をアップサンプリングして高解像度生成をガイドすることでこれらの問題に対処する。しかし、潜在空間でのアップサンプリングは多様体のずれを引き起こし、出力品質を低下させることが多い。一方、RGB空間でのアップサンプリングは過度に平滑化された出力を生成しがちである。これらの制限を克服するため、LSRNAは多様体整合のための潜在空間超解像（LSR）と高周波ディテールを強化する領域ごとのノイズ追加（RNA）を組み合わせる。我々の広範な実験により、LSRNAの統合が様々な解像度と評価指標において最先端の参照ベース手法を凌駕し、潜在空間アップサンプリングがディテールとシャープネスを保持する上で重要な役割を果たすことが実証された。コードはhttps://github.com/3587jjh/LSRNAで公開されている。

WikiAutoGen: マルチモーダルなWikipediaスタイル記事生成に向けて
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Mar 24

ByZhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny

知識の発見と収集は、伝統的に高品質なアウトプットを確保するために多大な人的労力を要する知的集約型タスクである。最近の研究では、インターネットから情報を検索し統合することで、Wikipediaスタイルの記事生成を自動化するためのマルチエージェントフレームワークが探求されている。しかし、これらの手法は主にテキストのみの生成に焦点を当てており、情報量とエンゲージメントを高める上でのマルチモーダルコンテンツの重要性を見落としている。本研究では、自動化されたマルチモーダルWikipediaスタイル記事生成のための新規システム、WikiAutoGenを紹介する。従来のアプローチとは異なり、WikiAutoGenはテキストと共に関連する画像を検索し統合することで、生成されるコンテンツの深みと視覚的魅力を向上させる。さらに、事実の正確性と包括性を向上させるために、多視点自己反映メカニズムを提案する。このメカニズムは、検索されたコンテンツを多様な視点から批判的に評価し、信頼性、広がり、一貫性などを高める。加えて、より挑戦的なトピックにおけるマルチモーダル知識生成を評価するために、Wikipedia記事とそのテキストおよび画像ベースの表現をペアにしたベンチマーク、WikiSeekを導入する。実験結果は、WikiAutoGenが我々のWikiSeekベンチマークにおいて、従来の手法を8%-29%上回り、より正確で一貫性があり、視覚的に豊かなWikipediaスタイルの記事を生成することを示している。生成された例の一部はhttps://wikiautogen.github.io/で公開している。

DiffPortrait360: 360度ビュー合成のための一貫性のあるポートレート拡散
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

Mar 19

ByYuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li

単一視点画像から高品質な360度ヒューマンヘッドビューを生成することは、アクセシブルな没入型テレプレゼンスアプリケーションとスケーラブルなパーソナライズドコンテンツ作成を実現するために不可欠です。最先端のフルヘッド生成手法は現実的な人間の頭部のモデリングに限定されていますが、スタイルを問わない頭部合成のための最新の拡散ベースアプローチは正面ビューのみを生成可能で、視点の一貫性に課題があり、任意の角度からのレンダリングのための真の3Dモデルへの変換を妨げています。本論文では、人間の頭部、スタイライズされた形態、擬人化された形態、さらには眼鏡や帽子などのアクセサリーを含む、完全に一貫した360度ヘッドビューを生成する新規アプローチを提案します。本手法はDiffPortrait3Dフレームワークを基盤とし、後頭部の詳細生成のためのカスタムControlNetと、前面と背面のグローバルな一貫性を保証するデュアルアピアランスモジュールを組み込んでいます。連続的な視点シーケンスでの学習と背面参照画像の統合により、本アプローチはロバストで局所的に連続的なビュー合成を実現します。本モデルは、高品質なニューラルラジアンスフィールド（NeRF）を生成し、リアルタイムの自由視点レンダリングを可能にし、非常に困難な入力ポートレートに対するオブジェクト合成と360度ヘッド生成において、最先端の手法を凌駕する性能を示します。

FullDiT：フルアテンションを備えたマルチタスク動画生成基盤モデル
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Mar 25

ByXuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu

現在のビデオ生成基盤モデルは主にテキストからビデオへのタスクに焦点を当てており、細粒度のビデオコンテンツ作成に対する制御が限られています。アダプタベースのアプローチ（例：ControlNet）は最小限のファインチューニングで追加の制御を可能にしますが、複数の条件を統合する際に課題に直面しています。これには、独立して訓練されたアダプタ間のブランチ競合、パラメータの冗長性による計算コストの増加、そして完全なファインチューニングに比べて最適でない性能が含まれます。これらの課題に対処するため、我々はFullDiTを紹介します。これは、統一されたフルアテンションメカニズムを介して複数の条件をシームレスに統合するビデオ生成のための統一基盤モデルです。マルチタスク条件を統一されたシーケンス表現に融合し、フルセルフアテンションの長文脈学習能力を活用して条件のダイナミクスを捉えることで、FullDiTはパラメータのオーバーヘッドを削減し、条件の競合を回避し、スケーラビリティと創発能力を示します。さらに、マルチタスクビデオ生成評価のためのFullBenchを導入します。実験により、FullDiTが最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性が強調されています。

FirePlace: 3Dオブジェクト配置におけるLLM常識推論の幾何学的精緻化
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Mar 6

ByIan Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi

3Dアセットを用いたシーン生成は、高レベルの意味理解と低レベルの幾何学的推論の両方を必要とする複雑な課題です。マルチモーダル大規模言語モデル（MLLMs）は意味タスクにおいて優れた性能を発揮しますが、3Dジオメトリに対する基盤が限られているため、3Dシーン生成への応用が制限されています。本論文では、オブジェクト配置タスクにおいてMLLMsをどのように活用するのが最適かを調査します。この目標に向けて、我々は新しいフレームワークであるFirePlaceを提案します。FirePlaceは、既存のMLLMsを以下の3つの側面で活用します：(1) 3D幾何学的推論と3Dシーンからの関連する幾何学的詳細の抽出、(2) 抽出された低レベルジオメトリに対する幾何学的制約の構築と解決、(3) 常識に従った最終的な配置の選定。幾何学的推論とMLLMsの現実世界理解を組み合わせることで、我々の手法は幾何学的制約と高レベルの意味的常識の両方を満たすオブジェクト配置を提案することができます。実験結果は、この能力が複雑なジオメトリを持つシーンにおいて、従来の研究を上回る品質でオブジェクトを効果的に配置できることを示しています。

PhysTwin: ビデオからの変形可能物体の物理情報に基づく再構築とシミュレーション
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos

Mar 23

ByHanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li

現実世界の物体の物理的デジタルツインを作成することは、ロボティクス、コンテンツ制作、XRにおいて非常に大きな可能性を秘めています。本論文では、PhysTwinという新しいフレームワークを紹介します。これは、相互作用下にある動的物体のスパースなビデオを使用して、写真のようにリアルで物理的に正確な、リアルタイムでインタラクティブな仮想レプリカを生成するものです。私たちのアプローチは、2つの主要なコンポーネントに焦点を当てています：(1) 現実的な物理シミュレーションのためのバネ-質量モデル、形状のための生成的形状モデル、レンダリングのためのガウススプラットを組み合わせた物理情報表現、(2) ビデオから完全な形状を再構築し、密度の高い物理特性を推定し、リアルな外観を再現するための新しい多段階最適化ベースの逆モデリングフレームワークです。私たちの手法は、逆物理フレームワークと視覚的知覚の手がかりを統合し、部分的で遮蔽された限定的な視点からでも高忠実度の再構築を可能にします。PhysTwinは、ロープ、ぬいぐるみ、布、配送パッケージなど、さまざまな変形可能な物体のモデリングをサポートします。実験では、PhysTwinが再構築、レンダリング、未来予測、新たな相互作用下でのシミュレーションにおいて、競合する手法を凌駕することを示しています。さらに、インタラクティブなリアルタイムシミュレーションやモデルベースのロボット動作計画への応用を実証します。

Mask^2DiT: マルチシーン長尺動画生成のためのデュアルマスクベース拡散Transformer
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Mar 25

ByTianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang

Soraは、単一シーンのビデオ生成におけるDiffusion Transformer（DiT）アーキテクチャの巨大な可能性を明らかにしました。しかし、より広範な応用が可能なマルチシーンビデオ生成というより困難なタスクは、まだ十分に探求されていません。このギャップを埋めるため、我々はMask^2DiTを提案します。これは、ビデオセグメントとそれに対応するテキスト注釈の間に細かい1対1のアラインメントを確立する新しいアプローチです。具体的には、DiTアーキテクチャ内の各アテンションレイヤーに対称的なバイナリマスクを導入し、各テキスト注釈がそれぞれのビデオセグメントにのみ適用されることを保証しながら、視覚トークン間の時間的整合性を維持します。このアテンションメカニズムにより、セグメントレベルのテキストから視覚への正確なアラインメントが可能になり、DiTアーキテクチャが固定数のシーンを持つビデオ生成タスクを効果的に処理できるようになります。さらに、DiTアーキテクチャに既存のシーンに基づいて追加のシーンを生成する能力を付与するため、セグメントレベルの条件付きマスクを組み込みます。これにより、新しく生成される各セグメントが先行するビデオセグメントに条件付けされ、自己回帰的なシーン拡張が可能になります。定性的および定量的な実験の両方で、Mask^2DiTがセグメント間の視覚的一貫性を維持しつつ、各セグメントとそれに対応するテキスト記述の間の意味的アラインメントを確保することに優れていることが確認されました。プロジェクトページはhttps://tianhao-qi.github.io/Mask2DiTProjectです。

Gumbel-Softmax Flow MatchingとStraight-Throughガイダンスを用いた制御可能な生物学的配列生成
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

Mar 21

BySophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee

連続シンプレックスにおけるフローマッチングは、DNA配列設計の有望な戦略として登場しましたが、ペプチドやタンパク質生成に必要な高次元シンプレックスへのスケーリングが困難です。本論文では、時間依存の温度を持つ新しいGumbel-Softmax補間法に基づくシンプレックス上の生成フレームワークであるGumbel-Softmax Flow and Score Matchingを提案します。この補間法を用いて、滑らかなカテゴリ分布からシンプレックスの単一頂点に集中した分布へと輸送するパラメータ化された速度場を導出し、Gumbel-Softmax Flow Matchingを導入します。また、確率密度の勾配を回帰するGumbel-Softmax Score Matchingも提示します。本フレームワークは、高品質で多様な生成を可能とし、高次元シンプレックスへの効率的なスケーリングを実現します。訓練不要のガイダンスを可能にするため、Straight-Through Guided Flows (STGFlow)を提案します。これは、ストレートスルー推定量を活用して無条件の速度場をシンプレックスの最適頂点へと誘導する分類器ベースのガイダンス手法です。STGFlowは、クリーンな配列で事前訓練された分類器を用いた効率的な推論時ガイダンスを可能とし、任意の離散フロー手法と組み合わせて使用できます。これらのコンポーネントを組み合わせることで、制御可能なデノボ配列生成のための堅牢なフレームワークを構築します。本手法は、条件付きDNAプロモーター設計、配列のみに基づくタンパク質生成、希少疾患治療のためのターゲット結合ペプチド設計において、最先端の性能を実証します。

xKV: KVキャッシュ圧縮のためのクロスレイヤーSVD
xKV: Cross-Layer SVD for KV-Cache Compression

Mar 24

ByChi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah

長いコンテキストウィンドウを持つ大規模言語モデル（LLM）は強力なアプリケーションを可能にしますが、キーとバリューの状態（KVキャッシュ）を保存するための高いメモリ消費が伴います。最近の研究では、複数の層からのKVキャッシュを共有表現に統合しようと試みましたが、これらのアプローチは高価な事前学習を必要とするか、層間での高いトークンごとのコサイン類似性を仮定しており、これは一般的に実際には成立しません。我々は、KVキャッシュの複数の層間で支配的な特異ベクトルが驚くほどよく整列していることを発見しました。この洞察を活用して、我々はxKVを提案します。これは、グループ化された層のKVキャッシュに特異値分解（SVD）を適用するシンプルなポストトレーニング手法です。xKVは、複数の層のKVキャッシュを共有された低ランク部分空間に統合し、KVキャッシュのサイズを大幅に削減します。広く使用されているLLM（例：Llama-3.1やQwen2.5）を用いたRULER長文コンテキストベンチマークでの広範な評価を通じて、xKVは最先端の層間技術と比べて最大6.8倍の高い圧縮率を達成し、精度を2.7%向上させました。さらに、xKVは新興のマルチヘッド潜在アテンション（MLA）（例：DeepSeek-Coder-V2）と互換性があり、コーディングタスクで性能低下なしに注目すべき3倍の圧縮率を実現しました。これらの結果は、長文コンテキストLLM推論におけるメモリボトルネックに対処するxKVの強力な能力と汎用性を強調しています。我々のコードは以下で公開されています： https://github.com/abdelfattah-lab/xKV。

LookAheadチューニング：部分回答プレビューによる安全な言語モデル
LookAhead Tuning: Safer Language Models via Partial Answer Previews

Mar 24

ByKangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen

ファインチューニングは大規模言語モデル（LLM）を特定のドメインに適応させることを可能にしますが、しばしばそれまでに確立された安全性の整合性を損なうことがあります。ファインチューニング中のモデル安全性の低下を緩和するために、我々はLookAhead Tuningを導入します。これは、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する、シンプルで低リソースかつ効果的な2つのデータ駆動型手法から構成されています。両手法とも、初期トークン分布への摂動を最小限に抑えることで、モデルの内在的な安全性メカニズムを維持することを目指しています。包括的な実験により、LookAhead Tuningが下流タスクでの堅牢な性能を犠牲にすることなく、モデル安全性を効果的に維持することが実証されました。我々の知見は、LookAhead TuningをLLMの安全かつ効果的な適応のための信頼性が高く効率的なソリューションとして位置づけています。コードはhttps://github.com/zjunlp/LookAheadTuningで公開されています。

ファインチューニング転移による効率的なモデル開発
Efficient Model Development through Fine-tuning Transfer

Mar 25

ByPin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu

現代の大規模言語モデル（LLM）は効率的な更新に苦戦しており、新しい事前学習モデルのバージョンごとに高コストなアライメントプロセスを繰り返す必要があります。この課題は、ドメイン固有や言語固有のモデルにも当てはまり、専門的なデータに対するファインチューニングは、新しいベースモデルのリリースごとに再実行しなければなりません。本論文では、モデルバージョン間でのファインチューニング更新の転移について探求します。具体的には、あるソースモデルバージョンからファインチューニングによる重みの変化を表す差分ベクトルを導出し、それを別のターゲットバージョンのベースモデルに適用します。様々なオープンウェイトモデルバージョンでの実証評価を通じて、差分ベクトルの転移がターゲットベースモデルを大幅に改善し、しばしばファインチューニングされたモデルと同等の性能を達成できることを示します。例えば、Llama 3.0 8Bからのファインチューニング更新を再利用することで、追加のトレーニングなしでベースLlama 3.1 8Bに対してGPQAでの絶対精度が10.7%向上し、Llama 3.1 8B Instructを上回りました。多言語モデル開発の設定では、このアプローチが再トレーニングなしでターゲット言語タスクの性能を大幅に向上させ、Global MMLUにおいてマダガスカル語とトルコ語でそれぞれ4.7%と15.5%の絶対的な改善を達成しました。制御された実験から、ファインチューニング転移はソースモデルとターゲットモデルがパラメータ空間で線形的に接続されている場合に最も効果的であることが明らかになりました。さらに、ファインチューニング転移がさらなるファインチューニングのためのより強力で計算効率の良い出発点を提供することを示します。最後に、継続的なモデル開発のための反復的なリサイクル・ファインチューニングアプローチを提案し、効率と効果の両方を改善します。我々の研究結果は、ファインチューニング転移がモデル性能を維持しながらトレーニングコストを削減するための有効な戦略であることを示唆しています。

言葉が視覚を凌駕するとき：人間中心の意思決定のためのテキストのみのトレーニングによりVLMは自己改善できる
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Mar 21

ByZhe Hu, Jing Li, Yu Yin

実世界環境で動作するAIエージェントにとって、身体化された意思決定は基本的な要素である。視覚言語モデル（VLM）はこの能力を進化させてきたが、特に人間のニーズや価値観に関する深い推論を必要とする人間中心の状況における複雑な意思決定には依然として苦戦している。本研究では、マルチモーダルな人間中心の意思決定タスクにおいて、オープンソースのVLMを体系的に評価する。その結果、テキスト記述のみを受け取る大規模言語モデル（LLM）が、実際の画像を処理する同規模のVLMを予想外に上回ることが判明し、視覚的アラインメントがVLMの能力を阻害している可能性が示唆された。この課題に対処するため、合成されたテキストデータを用いた新しいテキストのみのトレーニング手法を提案する。この方法はVLMの言語コンポーネントを強化し、学習した能力をマルチモーダル推論に転移させ、高価な画像-テキストペアデータの必要性を排除する。さらに、VLMはGPT-4のような大規模な教師モデルに依存するのではなく、LLMが生成したトレーニングデータを使用することで、自己改善を通じて大幅な性能向上を達成できることを示す。我々の知見は、VLMの人間中心の意思決定能力を強化するためのより効率的でスケーラブルなアプローチを確立し、自己改善メカニズムを通じてVLMを最適化する新たな道を開くものである。

地球ビジョンのための統一コペルニクス基盤モデルに向けて
Towards a Unified Copernicus Foundation Model for Earth Vision

Mar 14

ByYi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu

地球観測（EO）基盤モデルの進展により、衛星ビッグデータから宇宙空間における汎用的な表現を学習する可能性が開かれ、私たちの惑星にとって重要な多様な下流アプリケーションに恩恵をもたらしています。しかし、既存の取り組みの多くは固定されたスペクトルセンサーに限定され、地球の表面のみに焦点を当て、画像以外の貴重なメタデータを見落としています。本研究では、次世代のEO基盤モデルに向けて以下の3つの主要な要素を提案します：1）Copernicus-Pretrain、地球の表面から大気圏までをカバーする主要なCopernicus Sentinelミッションから得られた1870万枚の整列画像を統合した大規模な事前学習データセット；2）Copernicus-FM、拡張された動的ハイパーネットワークと柔軟なメタデータエンコーディングを使用して、任意のスペクトルまたは非スペクトルセンサーモダリティを処理可能な統一基盤モデル；3）Copernicus-Bench、各Sentinelミッションの前処理から専門的なアプリケーションまでを網羅する15の階層的な下流タスクを含む体系的な評価ベンチマーク。私たちのデータセット、モデル、ベンチマークは、EO基盤モデルのスケーラビリティ、汎用性、マルチモーダル適応性を大幅に向上させると同時に、EO、気象、気候研究を結びつける新たな機会を創出します。コード、データセット、モデルはhttps://github.com/zhu-xlab/Copernicus-FMで公開されています。

FRESA：少数の画像からのパーソナライズドスキンアバターのフィードフォワード再構築
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Mar 24

ByRong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh

少数の画像のみから現実的なアニメーションを伴うパーソナライズされた3D人間アバターを再構築するための新しい手法を提案します。身体形状、ポーズ、衣服タイプの多様性のため、既存の手法の多くは推論時に被験者ごとに数時間の最適化を必要とし、実用的な応用が制限されています。これに対し、私たちは1000体以上の衣服を着た人間から普遍的な事前知識を学習し、即時のフィードフォワード生成とゼロショット汎化を実現します。具体的には、アバターに共有のスキニングウェイトを適用する代わりに、パーソナライズされたアバター形状、スキニングウェイト、ポーズ依存の変形を共同で推論し、これにより全体的な幾何学的忠実度が向上し、変形アーティファクトが減少します。さらに、ポーズの変動を正規化し、標準形状とスキニングウェイトの間の結合された曖昧さを解決するために、3D正規化プロセスを設計し、ピクセル単位で整合した初期条件を生成することで、細かい幾何学的詳細の再構築を支援します。その後、正規化で導入されたアーティファクトを堅牢に減少させ、個人固有のアイデンティティを保持した妥当なアバターを融合するためのマルチフレーム特徴集約を提案します。最後に、大規模なキャプチャデータセット上でエンドツーエンドのフレームワークでモデルを訓練します。このデータセットには、高品質な3Dスキャンとペアになった多様な人間被験者が含まれています。広範な実験により、私たちの手法が最先端技術よりも本物らしい再構築とアニメーションを生成し、携帯電話で撮影されたカジュアルな入力にも直接汎化できることが示されています。プロジェクトページとコードはhttps://github.com/rongakowang/FRESAで公開されています。

強力なベースライン：YOLOv12とBoT-SORT-ReIDを用いた複数UAV追跡
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

Mar 21

ByYu-Hsi Chen

熱赤外映像における複数の無人航空機（UAV）の検出と追跡は、低コントラスト、環境ノイズ、および小さなターゲットサイズのため、本質的に困難な課題です。本論文では、検出と追跡の最新の進展を活用し、熱赤外映像における複数UAV追跡に対処するための簡潔なアプローチを提供します。YOLOv5とDeepSORTパイプラインに依存する代わりに、YOLOv12とBoT-SORTを基盤とした追跡フレームワークを提案し、それをカスタマイズした学習と推論戦略で強化します。第4回Anti-UAV Challengeの評価指標に従ってアプローチを評価し、競争力のある性能を実証します。特に、UAVの特徴を強化するためのコントラスト強調や時間情報融合を使用せずに優れた結果を達成し、複数UAV追跡タスクにおける「強力なベースライン」としてのアプローチの有効性を示します。実装の詳細、詳細な実験分析、および今後の改善点についての議論を提供します。コードはhttps://github.com/wish44165/YOLOv12-BoT-SORT-ReIDで公開されています。

Any6D：新規物体に対するモデルフリーな6次元姿勢推定
Any6D: Model-free 6D Pose Estimation of Novel Objects

Mar 24

ByTaeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon

我々はAny6Dを紹介する。これは、未知の物体の6D姿勢とサイズを推定するためのモデルフリーなフレームワークであり、単一のRGB-Dアンカー画像のみを必要とする。テクスチャ付き3Dモデルや複数の視点に依存する既存の手法とは異なり、Any6Dは2D-3Dアライメントとメトリックスケール推定を向上させるための共同物体アライメントプロセスを活用する。我々のアプローチは、レンダリング・アンド・コンペア戦略を統合し、姿勢仮説を生成・洗練することで、オクルージョン、非重複視野、多様な照明条件、大規模な環境間変動といったシナリオにおいても堅牢な性能を実現する。我々は、REAL275、Toyota-Light、HO3D、YCBINEOAT、LM-Oの5つの挑戦的なデータセットで本手法を評価し、新規物体姿勢推定において最先端の手法を大幅に上回る有効性を実証した。プロジェクトページ: https://taeyeop.com/any6d

LLaVAction: 行動認識のためのマルチモーダル大規模言語モデルの評価とトレーニング
LLaVAction: evaluating and training multi-modal large language models for action recognition

Mar 24

ByShaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis

人間の行動を理解するためには、行動そのものを測定する必要があります。その複雑さゆえに、行動は言語のような豊かな意味構造にマッピングすることが最適です。近年開発されたマルチモーダル大規模言語モデル（MLLMs）は、幅広い行動理解タスクにおいて有望な候補となっています。本研究では、MLLMsの評価とその改善に焦点を当て、行動認識の性能向上を目指します。最大級の難易度を誇るエゴセントリック行動データセットであるEPIC-KITCHENS-100を、ビデオ多肢選択問題（EPIC-KITCHENS-100-MQA）の形式に再構築しました。困難な不正解をディストラクタとしてサンプリングすると、主要なMLLMsが正しい行動を認識するのに苦戦することが明らかになりました。私たちは、MLLMsの行動認識能力を大幅に向上させる一連の手法を提案し、EPIC-KITCHENS-100の検証セットにおいて最先端の性能を達成し、EPIC-KITCHENS-100-MQAではGPT-4oを21ポイント上回る精度を実現しました。最後に、EgoSchema、PerceptionTest、LongVideoBench、VideoMME、MVBenchなどの他の行動関連ビデオベンチマークでも改善を示し、MLLMsが複雑な行動タスクにおいて有望な道筋であることを示唆しています。コードとモデルは以下で公開されています：https://github.com/AdaptiveMotorControlLab/LLaVAction。

OpenCity3D: ビジョン・ランゲージモデルは都市環境について何を知っているのか？
OpenCity3D: What do Vision-Language Models know about Urban Environments?

Mar 21

ByValentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann

ビジョン・ランゲージモデル（VLM）は3Dシーン理解において大きな可能性を示していますが、主に屋内空間や自動運転に適用され、セグメンテーションなどの低レベルタスクに焦点が当てられています。本研究では、マルチビュー航空画像からの3D再構成を活用することで、その適用範囲を都市規模の環境に拡張します。我々はOpenCity3Dというアプローチを提案し、人口密度推定、建物の築年数分類、不動産価格予測、犯罪率評価、騒音汚染評価などの高レベルタスクに対応します。我々の研究結果は、OpenCity3Dの印象的なゼロショットおよび少数ショットの能力を強調し、新しい文脈への適応性を示しています。この研究は、言語駆動型の都市分析の新たなパラダイムを確立し、計画、政策、環境モニタリングにおける応用を可能にします。プロジェクトページはこちら：opencity3d.github.io

高密度画像予測のための周波数動的畳み込み
Frequency Dynamic Convolution for Dense Image Prediction

Mar 24

ByLinwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu

動的畳み込み（DY-Conv）は、複数の並列重みと注意機構を組み合わせることで適応的な重み選択を可能にし、有望な性能を示してきました。しかし、これらの重みの周波数応答は高い類似性を示す傾向があり、高いパラメータコストに見合う適応性が限られています。本研究では、フーリエ領域で固定されたパラメータ予算を学習することでこれらの制限を緩和する新しいアプローチである周波数動的畳み込み（FDConv）を提案します。FDConvはこの予算を互いに重ならないフーリエインデックスを持つ周波数ベースのグループに分割し、パラメータコストを増やすことなく周波数多様な重みを構築します。さらに適応性を高めるために、カーネル空間変調（KSM）と周波数帯域変調（FBM）を提案します。KSMは各フィルタの周波数応答を空間レベルで動的に調整し、FBMは重みを周波数領域で異なる周波数帯域に分解し、局所的な内容に基づいて動的に変調します。物体検出、セグメンテーション、分類における広範な実験により、FDConvの有効性が検証されました。ResNet-50に適用した場合、FDConvはわずか+3.6Mのパラメータ増加で優れた性能を達成し、大幅なパラメータ予算の増加を必要とする従来の手法（例：CondConv +90M、KW +76.5M）を上回りました。さらに、FDConvはConvNeXtやSwin-Transformerなど様々なアーキテクチャにシームレスに統合され、現代の視覚タスクに対する柔軟で効率的なソリューションを提供します。コードはhttps://github.com/Linwei-Chen/FDConvで公開されています。

語彙の不一致を克服する：語彙に依存しない教師指導型言語モデリング
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

Mar 24

ByHaebin Shin, Lei Ji, Xiao Liu, Yeyun Gong

大規模な教師モデルを用いて小規模な学生モデルの訓練を導くことは、効率的かつ効果的な学習のための主流のパラダイムとなっています。しかし、教師モデルと学生モデルの言語モデル間の語彙の不一致は、言語モデリングにおいて重大な課題を引き起こし、異なるトークンシーケンスと出力分布をもたらします。これらの制限を克服するため、我々は語彙に依存しない教師誘導型言語モデリング（VocAgnoLM）を提案します。この新しいアプローチは、語彙の不一致によるギャップを2つの主要な手法で橋渡しします：(1) トークンレベルの語彙アラインメント、これは不一致した語彙間でトークンシーケンスを整合させ、(2) 教師誘導型損失、これは教師モデルの損失を活用して効果的な学生モデルの訓練を導きます。我々は、異なる語彙を持つ様々な7B教師モデルを用いて1B学生モデルでの言語モデリングにおけるその有効性を実証します。特に、TinyLlamaと約6%の語彙しか共有しない教師モデルであるQwen2.5-Math-Instructを用いて、VocAgnoLMは単純な継続事前学習と比較して46%の性能向上を達成します。さらに、VocAgnoLMがより強力な教師モデルから一貫して利益を得ることを示し、言語モデリングにおける語彙の不一致に対する堅牢なソリューションを提供します。

ST-VLM：視覚言語モデルにおける時空間推論のための運動学的指示チューニング
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models

Mar 25

ByDohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim

時空間推論は、自動運転やスポーツ分析など様々な分野において、現実世界の環境を理解する上で不可欠です。近年の進歩により、大規模データの導入によってVision-Language Models（VLMs）の空間推論能力は向上しましたが、移動物体の移動距離や速度などの運動学的要素を分析する点では依然として課題が残っています。このギャップを埋めるため、我々は運動学的指示チューニングを伴う時空間推論データセットとベンチマーク、STKitおよびSTKit-Benchを構築しました。これらは3Dアノテーションを伴う実世界のビデオで構成され、物体の運動ダイナミクス（移動距離、速度、移動方向、物体間距離の比較、相対的な移動方向）を詳細に記述しています。さらに、3Dラベルがないビデオに対しても、実世界スケールでの4D再構成を用いて擬似ラベルを生成する自動パイプラインを提案します。我々の運動学的指示チューニングデータを用いて、時空間推論を強化したVLMであるST-VLMを提示し、STKit-Benchで優れた性能を発揮することを示します。さらに、ST-VLMが多様なドメインやタスクにわたって堅牢に一般化し、他の時空間ベンチマーク（例：ActivityNet、TVQA+）においてベースラインを上回ることを示します。最後に、学習した時空間推論を既存の能力と統合することで、ST-VLMは複雑な多段階推論を可能にします。プロジェクトページ: https://ikodoh.github.io/ST-VLM。

視覚言語モデルは現実世界の対面質問に答えられるか？
Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Mar 25

ByReza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic

近年、AIモデルは現実世界の画像を説明し、それに関する質問に答える能力において大きな進歩を遂げてきました。また、音声入力を用いてユーザーとリアルタイムで会話する能力においても進展が見られています。これにより、カメラとマイクに接続されたAIモデルが、カメラの前でリアルタイムに展開されているシーンや出来事についてユーザーと会話できる段階に到達したのか、という疑問が浮かび上がります。これはAIにおける長年の目標であり、現実世界のAIアシスタントやヒューマノイドロボットが日常的な状況で人間と対話するための前提条件です。本研究では、既存のモデルがこれらの能力をどの程度サポートできるか、またファインチューニングを通じてこれらの能力をどの程度習得できるかを評価するための新しいデータセットとベンチマーク、Qualcomm Interactive Video Dataset (IVD)を紹介します。このデータセットは、ユーザーが質問をし、システムがカメラと音声入力に基づいてリアルタイムで回答するというシンプルな質問応答形式に基づいています。我々は、既存のモデルがこのタスクにおいて人間のパフォーマンスに大きく遅れをとっていることを示し、その性能差の主な要因を特定します。しかし、多くの必要な知覚スキルにおいて、この形式のデータを用いたファインチューニングがこのギャップを大幅に縮めることができることも示します。

LPOSS: オープンボキャブラリー意味セグメンテーションのためのパッチとピクセル上のラベル伝播
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

Mar 25

ByVladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias

我々は、Vision-and-Language Models（VLM）を用いたオープン語彙セマンティックセグメンテーションのためのトレーニング不要な手法を提案する。本手法は、ラベル伝播を通じてVLMの初期パッチ単位予測を強化し、パッチ間の関係性を組み込むことで予測を共同最適化する。VLMは主にクロスモーダルアラインメントに最適化されており、イントラモーダル類似性の捕捉には適していないため、これらの関係性をより良く捉えることが観察されたVision Model（VM）を利用する。パッチベースのエンコーダに内在する解像度の制限に対処するため、ピクセルレベルでのラベル伝播をリファインメントステップとして適用し、クラス境界付近のセグメンテーション精度を大幅に向上させる。我々の手法であるLPOSS+は、画像全体に対して推論を行い、ウィンドウベースの処理を回避することで、画像全体にわたる文脈的相互作用を捉える。LPOSS+は、多様なデータセットにおいて、トレーニング不要な手法の中で最先端の性能を達成する。コード: https://github.com/vladan-stojnic/LPOSS

Co-SemDepth：航空画像における高速なセマンティックセグメンテーションと深度推定の同時実行
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

Mar 23

ByYara AlaaEldin, Francesca Odone

シーンの幾何学的および意味的特性を理解することは、自律ナビゲーションにおいて極めて重要であり、特に無人航空機（UAV）のナビゲーションにおいては非常に困難な課題です。このような情報は、周囲環境の深度とセマンティックセグメンテーションマップを推定することで得ることができ、自律ナビゲーションにおける実用的な利用のためには、その処理を可能な限りリアルタイムに近い形で行う必要があります。本論文では、低高度の非構造化環境において、単眼カメラを搭載した空中ロボットを用いて深度とセマンティックマップを予測する手法を提案します。我々は、これら2つのタスクを正確かつ迅速に実行できる統合型ディープラーニングアーキテクチャを提案し、MidAirおよびAeroscapesベンチマークデータセットを用いてその有効性を検証します。提案する統合アーキテクチャは、他の単一および統合アーキテクチャ手法と比較して競争力があり、場合によっては優れていることを示しつつ、単一のNVIDIA Quadro P5000 GPU上で20.2 FPSの高速予測を実現し、メモリ使用量も少ないことが確認されました。トレーニングおよび予測のための全てのコードは、以下のリンクから入手可能です：https://github.com/Malga-Vision/Co-SemDepth

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

長文脈自己回帰型ビデオモデリングと次フレーム予測
Long-Context Autoregressive Video Modeling with Next-Frame Prediction

Mar 25

ByYuchao Gu, Weijia Mao, Mike Zheng Shou

4K解像度への視覚事前学習のスケーリング
Scaling Vision Pre-Training to 4K Resolution

Mar 25

ByBaifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin

フローモデルの推論時スケーリング：確率的生成とロールオーバー予算強制によるアプローチ
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

Mar 25

ByJaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung

大規模マルチモーダルモデルのビデオ理解における幻覚現象の探求：ベンチマーク、分析、緩和策
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

Mar 25

ByHongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang

CoMP：ビジョンファウンデーションモデルのための継続的マルチモーダル事前学習
CoMP: Continual Multimodal Pre-training for Vision Foundation Models

Mar 24

ByYitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang

再考：マルチラウンドテストタイム思考のスケーリングによるLLM推論能力の向上
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Mar 25

ByXiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li

MDocAgent: ドキュメント理解のためのマルチモーダル・マルチエージェントフレームワーク
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Mar 18

BySiwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao

偽物を見破る：アーティファクト説明付き大規模マルチモーダルモデルによる合成画像検出
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Mar 19

BySiwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li

ReSearch: 強化学習による探索を用いた大規模言語モデルの推論能力の学習
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

Mar 25

ByMingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen

CoLLM: 合成画像検索のための大規模言語モデル
CoLLM: A Large Language Model for Composed Image Retrieval

Mar 25

ByChuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava

拡散モデルを用いた高解像度画像生成のための潜在空間超解像
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

Mar 24

ByJinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim

WikiAutoGen: マルチモーダルなWikipediaスタイル記事生成に向けて
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Mar 24

ByZhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny

DiffPortrait360: 360度ビュー合成のための一貫性のあるポートレート拡散
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

Mar 19

ByYuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li

FullDiT：フルアテンションを備えたマルチタスク動画生成基盤モデル
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Mar 25

ByXuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu

FirePlace: 3Dオブジェクト配置におけるLLM常識推論の幾何学的精緻化
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Mar 6

ByIan Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi

PhysTwin: ビデオからの変形可能物体の物理情報に基づく再構築とシミュレーション
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos

Mar 23

ByHanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li

Mask^2DiT: マルチシーン長尺動画生成のためのデュアルマスクベース拡散Transformer
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Mar 25

ByTianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang

Gumbel-Softmax Flow MatchingとStraight-Throughガイダンスを用いた制御可能な生物学的配列生成
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

Mar 21

BySophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee

xKV: KVキャッシュ圧縮のためのクロスレイヤーSVD
xKV: Cross-Layer SVD for KV-Cache Compression

Mar 24

ByChi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah

LookAheadチューニング：部分回答プレビューによる安全な言語モデル
LookAhead Tuning: Safer Language Models via Partial Answer Previews

Mar 24

ByKangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen

ファインチューニング転移による効率的なモデル開発
Efficient Model Development through Fine-tuning Transfer

Mar 25

ByPin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu

言葉が視覚を凌駕するとき：人間中心の意思決定のためのテキストのみのトレーニングによりVLMは自己改善できる
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Mar 21

ByZhe Hu, Jing Li, Yu Yin

地球ビジョンのための統一コペルニクス基盤モデルに向けて
Towards a Unified Copernicus Foundation Model for Earth Vision

Mar 14

ByYi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu

FRESA：少数の画像からのパーソナライズドスキンアバターのフィードフォワード再構築
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Mar 24

ByRong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh