AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング則 ― 物語は続く
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

Jul 11

ByLiang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou

本論文では、大規模言語モデル（LLM）の数学的推論能力を向上させる潜在的な要因について調査する。現代のLLMにおける数学的推論能力のデータスケーリング則は飽和状態から程遠く、データ量の増加に伴ってモデルの品質が向上することを強調する。この主張を裏付けるため、我々はSkywork-Mathモデルシリーズを紹介する。これは、提案した250万インスタンスのSkywork-MathQAデータセットを用いて、一般的な7B LLMを教師ありファインチューニング（SFT）したものである。Skywork-Math 7Bは、SFTデータのみを使用して、競技レベルのMATHベンチマークで51.2%、GSM8Kベンチマークで83.9%という印象的な精度を達成し、MATHにおいて初期バージョンのGPT-4を上回った。Skywork-Mathモデルの優れた性能は、我々の新しい2段階のデータ合成とモデルSFTパイプラインに寄与しており、これには3つの異なる拡張方法と多様なシード問題セットが含まれ、Skywork-MathQAデータセットの量と質を様々な難易度レベルで保証している。最も重要なこととして、研究および産業応用におけるLLMの数学的推論能力を向上させるためのいくつかの実践的な知見を提供する。

報酬勾配によるビデオ拡散アライメント
Video Diffusion Alignment via Reward Gradients

Jul 11

ByMihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak

基盤的なビデオ拡散モデルの構築に向けて、我々は重要な進展を遂げました。これらのモデルは大規模な教師なしデータを用いて訓練されるため、特定の下流タスクに適応させることが極めて重要となっています。教師ありファインチューニングによるモデルの適応には、対象となるビデオデータセットの収集が必要ですが、これは困難で煩雑な作業です。本研究では、強力な視覚識別モデル上で選好学習によって得られた事前訓練済み報酬モデルを活用し、ビデオ拡散モデルを適応させます。これらのモデルは、生成されたRGBピクセルに関する密な勾配情報を含んでおり、ビデオのような複雑な探索空間における効率的な学習に不可欠です。報酬モデルからの勾配をビデオ拡散モデルに逆伝播させることで、計算量とサンプル効率の観点からビデオ拡散モデルの整合性を高められることを示します。様々な報酬モデルとビデオ拡散モデルを用いた実験結果から、本手法が従来の勾配不要なアプローチに比べて、報酬クエリと計算量の面で遥かに効率的に学習できることを実証します。コード、モデル重み、および追加の可視化結果はhttps://vader-vid.github.ioで公開しています。

マルチモーダル自己指導：言語モデルを用いた合成抽象画像と視覚的推論の指示生成
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Jul 9

ByWenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

現在の大規模マルチモーダルモデル（LMM）の多くは、自然風景や肖像画の写真を理解できるものの、チャート、地図、レイアウトなどの抽象的な画像や視覚的推論能力はまだ非常に初歩的です。時計で時間を読む、フローチャートを理解する、道路地図を使ってルートを計画するといった日常的な簡単なタスクにも苦戦しています。この問題を踏まえ、我々は大規模言語モデルとそのコード生成能力を活用し、日常的なシナリオに基づいて大量の抽象画像と視覚的推論指示を合成するマルチモーダル自己指導手法を設計しました。この戦略により、チャート、表、シミュレーションマップ、ダッシュボード、フローチャート、関係グラフ、間取り図、視覚パズルの8つの視覚シナリオに対応する11,193の指示を含むマルチモーダルベンチマークを容易に作成しました。このベンチマークは、単純な線や幾何学的要素で構成されており、Claude-3.5-SonnetやGPT-4oなどの最先端LMMが、抽象的な画像理解、空間関係の推論、視覚要素の帰納において抱える課題を浮き彫りにしています。さらに、合成データの品質を検証するため、62,476の合成チャート、表、道路地図の指示を用いてLMMをファインチューニングしました。その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクにも潜在的な利点があることが示されました。コードは以下で公開しています: https://github.com/zwq2018/Multi-modal-Self-instruct。

Q-GaLore: INT4投影とレイヤ適応型低ランク勾配を備えた量子化GaLore
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Jul 11

ByZhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

大規模言語モデル（LLM）のトレーニングは、膨大なパラメータ数と関連する最適化状態のため、メモリを大量に消費します。最近提案されたGaLoreという手法は、性能を損なうことなく、重み勾配を低ランク部分空間に射影することでメモリ使用量を削減します。しかし、GaLoreは部分空間を特定するために時間のかかる特異値分解（SVD）操作に依存しており、頻繁な部分空間の更新がトレーニング時間の大幅なオーバーヘッドを引き起こします。さらに、GaLoreは、よりアクセスしやすいファインチューニングシナリオにおいて、LoRAと比較して精度と効率の向上が限定的です。これらの制約を解決するため、我々は量子化と低ランク射影を組み合わせることでメモリ使用量を大幅に削減し、GaLoreの利点を上回る新しいアプローチであるQ-GaLoreを提案します。我々の手法は、以下の2つの重要な観察に基づいています：(i) 勾配部分空間は多様な特性を示し、一部の層はトレーニングの早い段階で収束する一方、他の層は頻繁に変化する；(ii) 射影行列は低ビット量子化に対して非常に耐性がある。これらの知見を活用し、Q-GaLoreは勾配部分空間の収束統計に基づいて適応的に部分空間を更新し、SVD操作の回数を大幅に削減しながら同等の性能を達成します。我々は射影行列をINT4形式、重みをINT8形式で維持し、蓄積された勾配情報を捕捉するために確率的丸めを組み込みます。このアプローチにより、低精度の重みのみを使用して高精度のトレーニング軌跡を実現します。Q-GaLoreが非常に競争力のある性能と卓越したメモリ効率を達成することを実証します。事前学習では、Q-GaLoreは16GBメモリの単一のNVIDIA RTX 4060 TiでLLaMA-7Bモデルをゼロからトレーニングすることを可能にします。ファインチューニングでは、LoRAやGaLoreと比較してメモリ消費量を最大50%削減し、同じメモリコストでQLoRAを一貫して上回ります。

MAVIS: 数学的視覚的指示チューニング
MAVIS: Mathematical Visual Instruction Tuning

Jul 11

ByRenrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li

マルチモーダル大規模言語モデル（MLLMs）は、近年、学界と産業界において重要な焦点として浮上しています。一般的なマルチモーダルシナリオにおける熟練度にもかかわらず、視覚的文脈における数学的問題解決能力は十分に探求されていません。私たちは、MLLMs内で改善が必要な3つの主要な領域を特定しました：数学図形の視覚的エンコーディング、図形と言語のアラインメント、および数学的推論スキルです。これにより、視覚的数学における大規模で高品質なデータとトレーニングパイプラインの緊急の需要が引き起こされています。本論文では、MLLMsのための最初の数学的視覚的指示チューニングパラダイムであるMAVISを提案します。これは、一連の数学的視覚データセットと専門的なMLLMsを含みます。3つの問題をターゲットに、MAVISはゼロから始まる3つの段階的なトレーニングステージを含んでいます。まず、558Kの図形-キャプションペアからなるMAVIS-Captionをキュレーションし、コントラスティブラーニングを通じて数学特化の視覚エンコーダ（CLIP-Math）を微調整し、図形の視覚的エンコーディングを改善します。次に、MAVIS-Captionを利用して、CLIP-Mathと大規模言語モデル（LLM）を投影層によってアラインメントし、数学的ドメインにおける視覚-言語アラインメントを強化します。最後に、900Kの注意深く収集され注釈が付けられた視覚的数学問題を含むMAVIS-Instructを導入し、MLLMを最終的に指示チューニングして、堅牢な数学的推論スキルを獲得します。MAVIS-Instructでは、各問題に対して完全な連鎖的思考（CoT）の根拠を組み込み、テキストの冗長性を最小限に抑えることで、モデルを視覚要素に集中させます。データとモデルはhttps://github.com/ZrrSkywalker/MAVISで公開されています。

MambaVision: ハイブリッドMamba-Transformerビジョンバックボーン
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Jul 10

ByAli Hatamizadeh, Jan Kautz

我々は、視覚アプリケーションに特化した新しいハイブリッドMamba-TransformerバックボーンであるMambaVisionを提案する。本論文の主な貢献は、視覚的特徴の効率的なモデリング能力を向上させるためにMambaの定式化を再設計したことである。さらに、Vision Transformers (ViT) とMambaを統合する可能性について包括的なアブレーションスタディを実施した。その結果、Mambaアーキテクチャの最終層にいくつかのセルフアテンションブロックを追加することで、長距離空間依存性を捉えるモデリング能力が大幅に向上することが示された。これらの知見に基づき、様々な設計基準を満たす階層型アーキテクチャを持つMambaVisionモデルファミリーを導入した。ImageNet-1Kデータセットにおける画像分類では、MambaVisionモデルのバリエーションがTop-1精度と画像スループットの両面で新たなState-of-the-Art (SOTA) 性能を達成した。MS COCOおよびADE20Kデータセットにおける物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクでは、MambaVisionが同規模のバックボーンを上回り、より優れた性能を示した。コード: https://github.com/NVlabs/MambaVision

言語モデルにおける自己認識
Self-Recognition in Language Models

Jul 9

ByTim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre

急速に増加するアプリケーションの多くが、少数のクローズドソース言語モデル（LMs）に依存しています。この依存関係は、LMsが自己認識能力を発達させた場合、新たなセキュリティリスクを引き起こす可能性があります。人間の本人確認方法に着想を得て、モデル生成の「セキュリティ質問」を使用してLMsの自己認識を評価する新しいアプローチを提案します。私たちのテストは、内部モデルパラメータや出力確率へのアクセスを必要としないため、外部から実施可能で、最先端モデルの追跡に役立ちます。このテストを使用して、現在公開されている最も能力の高い10のオープンソースおよびクローズドソースLMsの自己認識を調査しました。広範な実験の結果、どの調査対象LMsにおいても、一般的または一貫した自己認識の実証的証拠は見つかりませんでした。代わりに、結果は、選択肢が与えられた場合、LMsはその起源に関わらず「最良の」回答を選ぼうとすることを示唆しています。さらに、どのモデルが最良の回答を生成するかについての選好が、LMs間で一貫しているという兆候が見られました。また、多肢選択設定におけるLMsの位置バイアスに関する新たな洞察も明らかにしました。

SEED-Story: 大規模言語モデルを用いたマルチモーダル長編ストーリー生成
SEED-Story: Multimodal Long Story Generation with Large Language Model

Jul 11

ByShuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

画像生成と自由形式テキスト生成の著しい進展に伴い、画像とテキストが交互に配置されたコンテンツの作成は、ますます興味深い分野となっています。物語テキストと鮮やかな画像を交互に生成するマルチモーダルストーリー生成は、幅広い応用が可能な価値ある実用的なタスクとして浮上しています。しかし、このタスクは大きな課題を抱えており、テキストと画像の複雑な相互作用を理解し、長いシーケンスの一貫性があり文脈に関連したテキストとビジュアルを生成する能力が必要です。本研究では、マルチモーダル大規模言語モデル（MLLM）を活用して拡張されたマルチモーダルストーリーを生成する新しい手法であるSEED-Storyを提案します。私たちのモデルは、MLLMの強力な理解能力を基盤として、テキストトークンだけでなくビジュアルトークンも予測し、その後、適応されたビジュアルデトークナイザーで処理することで、一貫したキャラクターとスタイルを持つ画像を生成します。さらに、最大25シーケンス（トレーニングでは10シーケンスのみ）のストーリーを効率的な自己回帰方式で生成するためのマルチモーダルアテンションシンクメカニズムを提案します。加えて、私たちのモデルをトレーニングし、マルチモーダルストーリー生成タスクをさまざまな側面から定量的に評価するための大規模で高解像度のデータセットであるStoryStreamを提示します。

あなたのモデルは本当に優れた数学的推論者か？チェックリストを用いた数学的推論の評価
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Jul 11

ByZihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

卓越な数学的推論能力は、大規模言語モデル（LLMs）の力を示す重要な特徴の一つです。LLMsの数学的能力を包括的に定義し評価する方法、さらには現実世界のシナリオにおけるユーザー体験を反映することは、重要な課題として浮上しています。現在のベンチマークは主に問題解決能力に焦点を当てており、モデルの過剰適合のリスクが大きく、真の数学的推論能力を正確に表すことができていません。本論文では、モデルが本当に問題を理解しているならば、多様なタスクに頑健かつ容易に適用できるべきであると主張します。この動機に基づき、タスクの一般化と推論の頑健性をテストするための設計されたチェックリストであるMATHCHECKと、チェックリストを効率的に生成する自動ツールを導入します。MATHCHECKは、数学的推論能力と行動テストの包括的な評価を促進するために、複数の数学的推論タスクと頑健性テストタイプを含んでいます。MATHCHECKを活用して、数学的テキスト推論能力とマルチモーダル推論能力をそれぞれ評価するために、MATHCHECK-GSMとMATHCHECK-GEOを開発し、GSM8k、GeoQA、UniGeo、Geometry3Kなどのベンチマークのアップグレード版として機能させます。MATHCHECK-GSMとMATHCHECK-GEOを採用して、20以上のLLMsと11のMLLMsを評価し、それらの包括的な数学的推論能力を評価します。結果は、GPT-4oのような最先端のLLMsがチェックリスト上の様々な能力で引き続き優れている一方、他の多くのモデルファミリーが著しい低下を示すことを示しています。さらなる実験は、従来の数学ベンチマークと比較して、MATHCHECKが真の数学的能力をより良く反映し、数学的知能をより線形的に表すことを示しており、それによって我々の設計を支持しています。我々のMATHCHECKでは、詳細な行動分析を容易に行い、モデルを深く調査することができます。

DenseFusion-1M: 包括的なマルチモーダル知覚のための視覚エキスパートの統合
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Jul 11

ByXiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

既存のマルチモーダル大規模言語モデル（MLLM）は、複数のオブジェクト、テキスト情報、空間関係を含む様々な視覚要素の複雑な理解をますます重視しています。これらのモデルの包括的な視覚知覚の開発は、多様な視覚要素と詳細な画像記述を提供する高品質な画像-テキストデータセットの可用性にかかっています。しかし、現在、そのような超詳細なデータセットの不足がMLLMコミュニティの進展を妨げています。このボトルネックは、完全かつ正確なアノテーションを提供するのに不足している現在のキャプションエンジンの限られた知覚能力に起因しています。包括的な視覚知覚に関するMLLMの最先端研究を促進するために、我々は低予算でありながら非常に効果的なキャプションエンジンを使用して完全かつ正確な画像記述を提供する「Perceptual Fusion」を提案します。具体的には、Perceptual Fusionは、視覚要素に関する明示的な情報を提供するために多様な知覚エキスパートを画像事前分布として統合し、高度なMLLMの知覚能力を模倣するために効率的なMLLMを中心的な軸として採用します。我々は、未整理のLAIONデータセットから100万枚の代表的な画像を慎重に選択し、DenseFusion-1Mと名付けたエンジンを使用して密な記述を生成します。広範な実験により、我々のエンジンが他のエンジンを上回り、その結果得られたデータセットが既存のMLLMの知覚および認知能力を多様な視覚-言語ベンチマークで大幅に向上させることが検証されました。特に高解像度画像を入力とした場合に顕著な改善が見られました。データセットとコードはhttps://github.com/baaivision/DenseFusionで公開されています。

ベクトル量子化を用いない自己回帰型音声合成
Autoregressive Speech Synthesis without Vector Quantization

Jul 11

ByLingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei

本論文では、テキスト音声合成（TTS）のための新しい連続値トークンに基づく言語モデリング手法「MELLE」を提案する。MELLEは、テキスト条件から直接連続的なメルスペクトログラムフレームを自己回帰的に生成し、音声圧縮のために設計されメルスペクトログラムに比べて忠実度が犠牲になるベクトル量子化の必要性を回避する。具体的には、(i) 交差エントロピー損失の代わりに、提案されたスペクトログラムフラックス損失関数を用いた回帰損失を適用し、連続値トークンの確率分布をモデル化する。(ii) サンプリング機構を容易にするために変分推論をMELLEに組み込み、出力の多様性とモデルの堅牢性を向上させる。実験結果から、2段階のコーデック言語モデルであるVALL-Eおよびその派生モデルと比較して、1段階のMELLEは離散コードのサンプリングに伴う固有の欠陥を回避することで堅牢性の問題を軽減し、複数の評価指標で優れた性能を達成し、最も重要な点として、より簡潔なパラダイムを提供することが示された。デモはhttps://aka.ms/melleを参照のこと。

GTA：汎用ツールエージェントのベンチマーク
GTA: A Benchmark for General Tool Agents

Jul 11

ByJize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

大規模言語モデル（LLM）を様々なツールと統合し、汎用エージェントを開発することに大きな焦点が当てられています。これはLLMのツール使用能力に対する課題を提起しています。しかし、既存のツール使用評価と現実世界のシナリオの間には明らかなギャップが存在します。現在の評価では、AI生成クエリ、単一ステップタスク、ダミーツール、テキストのみのインタラクションが使用されることが多く、エージェントの現実世界の問題解決能力を効果的に明らかにすることができていません。この問題に対処するため、我々はGeneral Tool Agents（GTA）ベンチマークを提案します。このベンチマークは以下の3つの主要な側面を特徴としています：(i) 実ユーザークエリ：人間が作成したクエリで、シンプルな現実世界の目的を持ちながらもツール使用が暗黙的であり、LLMが適切なツールを推論し解決ステップを計画する必要があります。(ii) 実デプロイツール：知覚、操作、論理、創造性のカテゴリにわたるツールを備えた評価プラットフォームで、エージェントの実際のタスク実行性能を評価します。(iii) 実マルチモーダル入力：空間シーン、ウェブページのスクリーンショット、表、コードスニペット、印刷/手書き資料などの本物の画像ファイルをクエリコンテキストとして使用し、現実世界のシナリオに密接に合わせます。我々は229の現実世界タスクと実行可能なツールチェーンを設計し、主流のLLMを評価しました。その結果、現実世界のユーザークエリは既存のLLMにとって難易度が高く、GPT-4はタスクの50%未満しか完了できず、ほとんどのLLMは25%未満の達成率でした。この評価は、現実世界シナリオにおける現在のLLMのツール使用能力のボトルネックを明らかにし、汎用ツールエージェントの進化に向けた将来の方向性を提供します。コードとデータセットはhttps://github.com/open-compass/GTAで公開されています。

データとマルチモーダル大規模言語モデルの相乗効果：共進化の観点からのサーベイ
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Jul 11

ByZhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

近年、大規模言語モデル（LLM）の急速な発展が目撃されています。強力なLLMを基盤として、マルチモーダルLLM（MLLM）はテキストからより広範な領域へとモダリティを拡張し、より多様な応用シナリオにより広く注目を集めています。LLMとMLLMは、膨大なモデルパラメータとデータに依存して創発的な能力を実現するため、データの重要性がますます広く認識されるようになっています。最近のMLLM向けのデータ中心の研究を追跡・分析すると、モデルとデータの開発は別々の道ではなく、相互に関連していることがわかります。一方では、より広範で高品質なデータがMLLMの性能向上に寄与し、他方では、MLLMがデータの開発を促進することができます。マルチモーダルデータとMLLMの共発展を進めるためには、1) MLLMのどの開発段階で特定のデータ中心のアプローチを採用してどの能力を強化できるか、2) どの能力を活用し、どの役割を果たすことでモデルがマルチモーダルデータに貢献できるかを明確にする必要があります。MLLMコミュニティにおけるデータとモデルの共発展を促進するため、我々はデータとモデルの共発展の観点からMLLMに関連する既存の研究を体系的にレビューします。この調査に関連する定期的に更新されるプロジェクトは、https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md でアクセス可能です。

勾配ブースティング強化学習
Gradient Boosting Reinforcement Learning

Jul 11

ByBenjamin Fuhrer, Chen Tessler, Gal Dalal

ニューラルネットワーク（NN）は様々なタスクで顕著な成果を上げていますが、解釈可能性、カテゴリカル特徴量のサポート、エッジデバイス向けの軽量実装といった重要な特性を欠いています。これらの課題に対処するための取り組みが進行中ですが、勾配ブースティング木（GBT）はこれらの要件を本質的に満たしています。その結果、GBTは多くの実世界のアプリケーションやコンペティションにおける教師あり学習タスクの定番手法となっています。しかし、オンライン学習シナリオ、特に強化学習（RL）におけるGBTの応用は限られていました。本研究では、このギャップを埋めるために、GBTの利点をRL領域に拡張するGradient-Boosting RL（GBRL）フレームワークを導入します。GBRLフレームワークを用いて、様々なアクター・クリティックアルゴリズムを実装し、それらの性能をNNベースの対応手法と比較します。NNにおける共有バックボーンに着想を得て、異なる学習率を持つポリシー関数と価値関数のためのツリー共有アプローチを導入し、数百万回のインタラクションにわたる学習効率を向上させます。GBRLは、構造化された特徴量やカテゴリカル特徴量が支配的な領域で特に優れた性能を発揮し、多様なタスクにおいて競争力のある性能を達成します。さらに、広く使用されているRLライブラリとシームレスに統合する、高性能なGPUアクセラレーション実装を提供します（https://github.com/NVlabs/gbrl で入手可能）。GBRLは、RL実践者のためのツールキットを拡張し、特に構造化された特徴量やカテゴリカル特徴量が特徴的な領域において、RLパラダイム内でのGBTの実現可能性と将来性を示しています。

Live2Diff：ビデオ拡散モデルにおける一方向性アテンションを用いたライブストリーム翻訳
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Jul 11

ByZhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen

大規模言語モデルは、テキストや音声などのストリーミングデータ生成において顕著な効果を示してきました。これは、現在のトークンと過去のトークン間の相関をモデル化する時間的に一方向のアテンション機構によるものです。しかし、ライブ映像処理の需要が高まる中、映像ストリーミングはまだ十分に研究されていません。最先端の映像拡散モデルは、現在のフレームと周囲の（つまり未来を含む）フレーム間の相関をモデル化するために双方向の時間的アテンションを利用していますが、これがストリーミング映像の処理を妨げています。この問題を解決するため、我々はLive2Diffを提案します。これは、ライブストリーミング映像翻訳を特に対象とした、一方向の時間的アテンションを持つ映像拡散モデルを設計する初めての試みです。従来の研究と比較して、我々のアプローチは、未来のフレームを一切使用せず、現在のフレームをその前のフレームと少数の初期ウォームアップフレームと関連付けることで、時間的な一貫性と滑らかさを保証します。さらに、KVキャッシュ機構とパイプラインを特徴とする高効率なノイズ除去スキームを使用し、インタラクティブなフレームレートでのストリーミング映像翻訳を実現します。広範な実験により、提案されたアテンション機構とパイプラインの有効性が実証され、時間的な滑らかさや効率性の点で従来の手法を上回ることが示されました。

ビデオフレーム補間のための汎用的暗黙的モーションモデリング
Generalizable Implicit Motion Modeling for Video Frame Interpolation

Jul 11

ByZujin Guo, Wei Li, Chen Change Loy

動きのモデリングは、フローベースのビデオフレーム補間（VFI）において極めて重要です。既存のパラダイムでは、双方向フローの線形結合を考慮するか、あるいは特定のタイムスタンプに対する双方向フローを直接予測するものの、有利な動きの事前情報を探索しないため、実世界のビデオにおける時空間ダイナミクスを効果的にモデル化する能力に欠けています。この制限を解決するため、本研究では、VFIのための新しい効果的な動きモデリング手法であるGeneralizable Implicit Motion Modeling（GIMM）を提案します。具体的には、GIMMを効果的な動きモデリングパラダイムとして実現するため、事前学習済みのフロー推定器から抽出された双方向フローから時空間の動き潜在変数をモデル化する動きエンコーディングパイプラインを設計し、入力固有の動きの事前情報を効果的に表現します。次に、適応型の座標ベースニューラルネットワークを用いて、隣接する2つの入力フレーム間の任意のタイムステップにおけるオプティカルフローを暗黙的に予測します。この際、時空間座標と動き潜在変数を入力とします。我々のGIMMは、既存のフローベースVFI手法に追加の修正を加えることなくスムーズに統合可能です。VFIベンチマークにおいて、GIMMが現在の最先端技術よりも優れた性能を発揮することを示します。

システム1とシステム2の融合による専門化された汎用AIの構築に向けて
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

Jul 11

ByKaiyan Zhang, Biqing Qi, Bowen Zhou

本展望論文では、人工汎用知能（AGI）に向けた重要なマイルストーンとして、専門化された汎用人工知能（Specialized Generalist Artificial Intelligence、SGAIまたは単にSGI）の概念を紹介する。SGIは、一般的な能力を直接拡張するのではなく、少なくとも一つのタスクにおいて人間の専門家を凌駕する専門性を持ちながら、同時に汎用的な能力も保持するAIと定義される。この融合パスにより、SGIは迅速に高価値領域を達成することが可能となる。我々は、専門技能の習熟度と汎用性能に基づいてSGIを3つの段階に分類する。さらに、大規模言語モデルに関連する問題、すなわちその不十分な汎用性、専門能力、イノベーションの不確実性、実用化における課題に対処するためにSGIが必要であることを論じる。加えて、システム1とシステム2の認知処理の強みを統合したSGI開発のための概念的フレームワークを提案する。このフレームワークは、個々の能力を強化し、協調的進化を促進するための3つの層と4つの主要コンポーネントで構成される。最後に、潜在的な課題をまとめ、今後の方向性を示す。提案されたSGIが、AGI達成に向けたさらなる研究と応用に洞察を提供することを期待する。

Map It Anywhere (MIA): 大規模公開データを活用した鳥瞰図マッピングの実現
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

Jul 11

ByCherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer

トップダウン型の鳥瞰図（BEV）マップは、その豊富な情報量と下流タスクへの柔軟性から、地上ロボットナビゲーションにおいて人気のある表現形式です。最近の手法では、一人称視点（FPV）画像からBEVマップを予測することに有望な成果を示していますが、その汎用性は現在の自動車ベースのデータセットで捕捉される狭い領域に限定されています。この文脈において、私たちは、大規模なクラウドソーシングマッピングプラットフォームであるMapillary（FPV画像用）とOpenStreetMap（BEVセマンティックマップ用）を活用することで、汎用的なマップ予測に向けたよりスケーラブルなアプローチが可能であることを示します。本論文では、既存のオープンソースマッププラットフォームからラベル付きマップ予測データをシームレスにキュレーションおよびモデリングするデータエンジン「Map It Anywhere（MIA）」を紹介します。MIAデータエンジンを使用することで、多様な地理、景観、環境要因、カメラモデル、撮影シナリオを含む120万組のFPV画像とBEVマップのデータセットを自動的に収集する容易さを実証します。さらに、このデータを用いて、カメラモデルに依存しないシンプルなモデルをBEVマップ予測用に学習させます。確立されたベンチマークと私たちのデータセットを用いた広範な評価により、MIAによってキュレーションされたデータが、汎用的なBEVマップ予測のための効果的な事前学習を可能にし、既存のデータセットで学習されたベースラインを35%も上回るゼロショット性能を達成することが示されました。私たちの分析は、大規模な公開マップを活用して汎用的なBEV知覚を開発・テストすることの可能性を強調し、より堅牢な自律ナビゲーションへの道を開くものです。

WildGaussians：ワイルド環境における3Dガウシアンスプラッティング
WildGaussians: 3D Gaussian Splatting in the Wild

Jul 11

ByJonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler

3Dシーン再構成の分野では、NeRFがそのフォトリアルな品質により主流となっていますが、最近3Dガウシアンスプラッティング（3DGS）が登場し、リアルタイムレンダリング速度を維持しながら同様の品質を提供しています。しかし、どちらの手法も主に制御された3Dシーンで優れた性能を発揮し、オクルージョン、動的オブジェクト、変化する照明といった特徴を持つ「in-the-wild」データには依然として課題が残っています。NeRFは画像ごとの埋め込みベクトルを通じてこのような条件に容易に適応できますが、3DGSはその明示的な表現と共有パラメータの欠如により苦戦しています。この問題に対処するため、我々は3DGSを用いてオクルージョンや外観の変化を処理する新しいアプローチであるWildGaussiansを提案します。堅牢なDINO特徴を活用し、3DGS内に外観モデリングモジュールを統合することで、我々の手法は最先端の結果を達成します。WildGaussiansが3DGSのリアルタイムレンダリング速度を維持しつつ、in-the-wildデータの処理において3DGSとNeRFのベースラインを上回ることを、シンプルなアーキテクチャフレームワーク内で実証します。

OmniNOCS：2Dオブジェクトの3Dリフティングのための統一NOCSデータセットとモデル
OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects

Jul 11

ByAkshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown

私たちは、OmniNOCSという大規模な単眼データセットを提案します。このデータセットには、屋内および屋外シーン向けの3D正規化物体座標空間（NOCS）マップ、物体マスク、3Dバウンディングボックスアノテーションが含まれています。OmniNOCSは、既存のNOCSデータセット（NOCS-Real275、Wild6D）と比較して、20倍の物体クラスと200倍のインスタンスを有しています。私たちはOmniNOCSを使用して、新しいトランスフォーマーベースの単眼NOCS予測モデル（NOCSformer）をトレーニングしました。このモデルは、2D物体検出から正確なNOCS、インスタンスマスク、およびポーズを多様なクラスにわたって予測することができます。これは、2Dボックスをプロンプトとして与えられた場合に広範なクラスに一般化できる初めてのNOCSモデルです。私たちは、3D指向バウンディングボックス予測タスクにおいてモデルを評価し、Cube R-CNNなどの最先端の3D検出方法と同等の結果を達成しました。他の3D検出方法とは異なり、私たちのモデルは詳細で正確な3D物体形状とセグメンテーションも提供します。私たちは、OmniNOCSに基づいたNOCS予測タスクのための新しいベンチマークを提案し、この分野の将来の研究にとって有用なベースラインとなることを期待しています。私たちのデータセットとコードは、プロジェクトウェブサイト（https://omninocs.github.io）で公開されます。

タスクベクトルカスタマイズによるパーソナライズド美的評価のスケールアップ
Scaling Up Personalized Aesthetic Assessment via Task Vector Customization

Jul 9

ByJooyeol Yun, Jaegul Choo

個人的な画像美的評価のタスクは、ユーザーが提供したわずかな入力に基づいて、個人の好みに合致する美的スコア予測モデルを調整することを目指しています。しかし、現在のアプローチのスケーラビリティと汎化能力は、高価なキュレーションデータベースへの依存によって大幅に制限されています。この長年のスケーラビリティの課題を克服するため、私たちは一般的な画像美的評価と画像品質評価のために容易に利用可能なデータベースを活用する独自のアプローチを提案します。具体的には、各データベースを個別の画像スコア回帰タスクとして見なし、それぞれが異なる程度の個人化の可能性を示すものとします。各データベースの特定の特性を表すタスクベクトルの最適な組み合わせを決定することで、個人向けのモデルを成功裏に作成します。この複数のモデルを統合するアプローチにより、大量のデータを活用することが可能になります。私たちの広範な実験は、このアプローチがこれまでのアプローチが苦戦してきた未見のドメインへの汎化において有効であることを示しており、実世界のシナリオに非常に適用可能であることを証明しています。私たちの新しいアプローチは、個人的な美的評価のためのスケーラブルなソリューションを提供し、将来の研究のための高い基準を確立することで、この分野を大きく前進させます。 https://yeolj00.github.io/personal-projects/personalized-aesthetics/

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング則 ― 物語は続く
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

Jul 11

ByLiang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou

報酬勾配によるビデオ拡散アライメント
Video Diffusion Alignment via Reward Gradients

Jul 11

ByMihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak

マルチモーダル自己指導：言語モデルを用いた合成抽象画像と視覚的推論の指示生成
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Jul 9

ByWenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

Q-GaLore: INT4投影とレイヤ適応型低ランク勾配を備えた量子化GaLore
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Jul 11

ByZhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

MAVIS: 数学的視覚的指示チューニング
MAVIS: Mathematical Visual Instruction Tuning

Jul 11

ByRenrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li

MambaVision: ハイブリッドMamba-Transformerビジョンバックボーン
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Jul 10

ByAli Hatamizadeh, Jan Kautz

言語モデルにおける自己認識
Self-Recognition in Language Models

Jul 9

ByTim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre

SEED-Story: 大規模言語モデルを用いたマルチモーダル長編ストーリー生成
SEED-Story: Multimodal Long Story Generation with Large Language Model

Jul 11

ByShuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

あなたのモデルは本当に優れた数学的推論者か？チェックリストを用いた数学的推論の評価
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Jul 11

ByZihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

DenseFusion-1M: 包括的なマルチモーダル知覚のための視覚エキスパートの統合
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Jul 11

ByXiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

ベクトル量子化を用いない自己回帰型音声合成
Autoregressive Speech Synthesis without Vector Quantization

Jul 11

ByLingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei

GTA：汎用ツールエージェントのベンチマーク
GTA: A Benchmark for General Tool Agents

Jul 11

ByJize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

データとマルチモーダル大規模言語モデルの相乗効果：共進化の観点からのサーベイ
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Jul 11

ByZhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

勾配ブースティング強化学習
Gradient Boosting Reinforcement Learning

Jul 11

ByBenjamin Fuhrer, Chen Tessler, Gal Dalal

Live2Diff：ビデオ拡散モデルにおける一方向性アテンションを用いたライブストリーム翻訳
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Jul 11

ByZhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen

ビデオフレーム補間のための汎用的暗黙的モーションモデリング
Generalizable Implicit Motion Modeling for Video Frame Interpolation

Jul 11

ByZujin Guo, Wei Li, Chen Change Loy

システム1とシステム2の融合による専門化された汎用AIの構築に向けて
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

Jul 11

ByKaiyan Zhang, Biqing Qi, Bowen Zhou

Map It Anywhere (MIA): 大規模公開データを活用した鳥瞰図マッピングの実現
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

Jul 11

ByCherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer