翻訳付きの日次キュレーションされたAI研究論文
我々はTurboDiffusionを紹介する。これは動画生成の高速化フレームワークであり、動画品質を維持しながら拡散モデルによるエンドツーエンドの生成処理を100~200倍に高速化することができる。TurboDiffusionの高速化は主に以下のコンポーネントに依存している:(1) 注意機構の高速化:低ビットのSageAttentionと学習可能なSparse-Linear Attention(SLA)を用いて注意計算を高速化。(2) ステップ蒸留:効率的なステップ蒸留のためにrCMを採用。(3) W8A8量子化:モデルパラメータと活性化を8ビットに量子化し、線形層の高速化とモデル圧縮を実現。さらに、TurboDiffusionにはその他の工学的最適化も組み込まれている。 Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P、Wan2.1-T2V-14B-480Pモデルを用いた実験を実施した。実験結果から、単一のRTX 5090 GPU上でも動画生成が100~200倍高速化され、同等の動画品質が維持されることが確認された。モデルチェックポイントと使いやすいコードを含むGitHubリポジトリはhttps://github.com/thu-ml/TurboDiffusionで公開されている。
視覚言語モデル(VLM)は一般的な理解において優れる一方、動的空間推論(DSR)、すなわち3D空間内における物体の形状と関係性の時間的変化に関する推論については、依然として弱点があります。これは主に、スケーラブルな4D対応の学習リソースが不足していることに起因します。このデータセット、ベンチマーク、モデルにわたるギャップを埋めるため、我々はDSR Suiteを提案します。まず、実世界の動画からDSR向けの多肢選択式質問応答ペアを自動生成するパイプラインを構築しました。現代の視覚基盤モデルを活用し、カメラ姿勢、局所点群、物体マスク、方向、3D軌道といった豊富な幾何学情報と運動情報を抽出します。これらの幾何学的手がかりにより、学習用のDSR-Trainと、さらに人間による精緻化を経た評価用のDSR-Benchを構築しました。従来研究と比較して、我々のデータは以下の点を重視しています:(i) 実世界の動画ソース、(ii) 物体レベルおよびシーンレベルの3D要件、(iii) 視点変換、(iv) 複数物体間の相互作用、(v) きめ細かい手続き的な回答。データに加えて、幾何学的事前情報をVLMにシームレスに統合する軽量なGeometry Selection Module(GSM)を提案します。これは質問の意味を凝縮し、事前学習済みの4D再構成事前情報から質問に関連する知識を抽出し、コンパクトな幾何学トークンの集合として表現します。この標的化された抽出により、無関係な知識によってモデルが圧倒されるのを回避します。実験により、Qwen2.5-VL-7BにDSR-TrainとGSMを統合することで、一般的な動画理解ベンチマークにおける精度を維持しつつ、その動的空間推論能力が大幅に向上することが示されました。
Text-to-Audio-Video(T2AV)生成は、自然言語から時間的に一貫性のあるビデオと意味的に同期した音声を合成することを目的とするが、その評価は断片的であり、単一モダリティの指標や範囲が限定されたベンチマークに依存することが多く、複雑なプロンプト下でのクロスモーダル整合性、指示追従性、知覚的リアリズムを十分に捉えられていない。この課題に対処するため、我々はT2AVシステムを包括的に評価する統合ベンチマーク「T2AV-Compass」を提案する。これは、意味的豊かさと物理的妥当性を確保するため分類体系に基づくパイプラインで構築された500の多様で複雑なプロンプトから構成される。さらにT2AV-Compassは、映像品質・音声品質・クロスモーダル整合性を客観的信号レベルで評価する指標と、指示追従性とリアリズムを主観的に評価するMLLM-as-a-Judgeプロトコルを統合した二重評価フレームワークを導入する。代表的な11のT2AVシステムを用いた大規模評価により、最も優れたモデルであっても、人間レベルのリアリズムやクロスモーダル一貫性には大きく及ばず、音声のリアリズム、細粒度の同期、指示追従性などにおいて持続的な課題があることが明らかになった。これらの結果は、将来のモデルにおける大幅な改善の余地を示すとともに、T2AV-Compassがテキストからの音声付き動画生成の発展に向けた挑戦的かつ診断的なテストベッドとして価値を持つことを裏付けている。
「ワンショット」技法は、映画制作において独特かつ高度な美的表現である。しかし、その実現には莫大なコストと複雑な現実世界の制約が伴うことが多い。近年登場したビデオ生成モデルは仮想的な代替手段を提供するが、既存の手法は単純なクリップ連結に依存する場合が多く、視覚的な滑らかさや時間的整合性の維持に課題がある。本論文では、任意のフレーム誘導生成を実現する包括的フレームワーク「DreaMontage」を提案する。本手法は多様なユーザー入力から、シームレスで表現力に富み、長時間にわたるワンショット動画を合成可能である。この実現のために、我々は主に三つの次元で課題に取り組んだ。(i) DiTアーキテクチャに軽量な中間条件付け機構を統合し、基本訓練データを効果的に活用するAdaptive Tuning戦略により、強固な任意フレーム制御機能を実現した。(ii) 視覚的品質と映画的表現力を高めるため、高品質データセットを構築しVisual Expression SFT段階を導入。被写体動作の合理性や遷移の滑らかさといった重要課題に対し、Tailored DPO手法を適用することで、生成コンテンツの成功率と実用性を大幅に改善した。(iii) 長時間シーケンスの生成を可能にするため、メモリ効率の良いSegment-wise Auto-Regressive (SAR) 推論戦略を設計した。大規模な実験により、本手法が計算効率を維持しつつ、視覚的に印象的でシームレスに統合されたワンショット効果を実現できることを実証。断片的な視覚素材を、生き生きとした一貫性のあるワンショットの映画的体験へと変換するユーザー支援を可能にする。
最先端の視覚言語モデル(VLM)には重大な知名度バイアスが存在することを明らかにした。有名な建築物では一般的な建築物に比べて最大34%も精度が高く、一般化可能な理解ではなく記憶への依存を示唆している。この問題を体系的に調査するため、本タスク向けの最大規模のオープンベンチマーク「YearGuessrデータセット」を導入する。これは157カ国から収集した55,546枚の建築物画像から成り、建設年(1001-2024年)の連続順序ラベル、GPSデータ、知名度の代理指標としてのページビュー数といったマルチモーダル属性が付与されている。本データセットを用いて建設年予測タスクを順序回帰として定式化し、知名度を考慮した区間精度指標を導入してこのバイアスを定量化する。我々のYearCLIPモデルを含む30以上のモデルによるベンチマーク結果は、VLMが記憶された人気項目では優れる一方、認識されない対象では著しく苦戦することを確認し、推論能力における重大な欠陥を暴露する。プロジェクトページ: https://sytwu.github.io/BeyondMemo/
我々は、Mixture-of-ExpertsハイブリッドMamba-Transformer言語モデルであるNemotron 3 Nano 30B-A3Bを発表します。Nemotron 3 Nanoは25兆トークンのテキストで事前学習され(うちNemotron 2を超える新規ユニークトークンは3兆トークン以上)、その後教師ありファインチューニングと多様な環境での大規模な強化学習を経ています。Nemotron 3 Nanoは、フォワードパスあたりの活性化パラメータ数を半分以下に抑えつつ、前世代のNemotron 2 Nanoを上回る精度を達成しました。GPT-OSS-20BやQwen3-30B-A3B-Thinking-2507といった同規模のオープンモデルと比較して、推論スループットは最大3.3倍高く、人気のあるベンチマークでもより高い精度を示しています。Nemotron 3 Nanoはエージェント能力、推論能力、対話能力が強化され、最大100万トークンのコンテキスト長をサポートします。我々は事前学習済みのNemotron 3 Nano 30B-A3B Baseと、学習後のNemotron 3 Nano 30B-A3Bチェックポイントの両方をHugging Faceで公開します。
高解像度動画生成は、デジタルメディアや映画制作において重要である一方、拡散モデルの二次計算複雑性によって計算上のボトルネックが生じ、実用的な推論が困難となっている。この課題に対処するため、我々はHiStreamを提案する。これは、3つの軸で冗長性を体系的に削減する効率的な自己回帰フレームワークである:i) 空間圧縮:キャッシュされた特徴量を活用し、低解像度でノイズ除去後に高解像度で精緻化する、ii) 時間圧縮:固定サイズのアンカーキャッシュを用いたチャンク単位の処理戦略により、推論速度を安定化する、iii) タイムステップ圧縮:キャッシュ条件付けされた後続チャンクに対して、より少ないノイズ除去ステップを適用する。1080pベンチマークにおいて、基本モデルHiStream(i+ii)は、Wan2.1ベースラインと比較して最大76.2倍高速なノイズ除去を実現し、視覚品質の劣化を無視できるレベルに抑えつつ、最先端の画質を達成した。更に高速な変種であるHiStream+は3つの最適化(i+ii+iii)を全て適用し、ベースライン比107.5倍の高速化を実現。速度と品質の理想的なトレードオフを提供することで、高解像度動画生成を実用的かつスケーラブルなものとする。
私たちは、Nemotron 3ファミリーのモデル - Nano、Super、Ultraを紹介します。これらのモデルは、強力なエージェント機能、推論能力、対話能力を提供します。Nemotron 3ファミリーは、Mixture-of-ExpertsハイブリッドMamba-Transformerアーキテクチャを採用し、最高水準のスループットと最大100万トークンのコンテキスト長を実現しています。SuperおよびUltraモデルはNVFP4で学習され、モデル品質を向上させる新規アプローチであるLatentMoEを組み込んでいます。2つの大規模モデルには、より高速なテキスト生成のためのMTP層も含まれています。すべてのNemotron 3モデルは、マルチ環境強化学習を用いた事後学習により、推論能力、多段階のツール使用、きめ細かい推論リソース制御を可能にしています。最小モデルであるNanoは、同等のモデルを精度で上回りながら、推論において極めてコスト効率が高く設計されています。Superは、共同作業エージェントやITチケット自動化などの高負荷ワークロードに最適化されています。最大モデルであるUltraは、最先端の精度と推論性能を提供します。Nanoは技術報告書および本ホワイトペーパーと同時に公開され、SuperとUltraは今後数ヶ月以内に公開予定です。モデル重み、事前学習・事後学習用ソフトウェア、レシピ、および再配布権を保有するすべてのデータを公開予定です。
トークナイザーは、言語モデル(LM)によってテキストが表現され処理されるための基盤を提供する。トークナイズの重要性にもかかわらず、その影響を単離して測定する難しさから、LMの性能や振る舞いにおける役割は十分に理解されていない。この課題に対処するため、我々はトークナイズがLMに与える影響を研究するためのモデル群とベンチマークをまとめた「TokSuite」を提案する。具体的には、同一のアーキテクチャ、データセット、学習予算、初期化を用いながら、異なるトークナイザーを使用する14種類のモデルを学習する。さらに、トークナイズに影響を与えやすい現実世界の摂動に特化してモデル性能を測定する新たなベンチマークを構築し公開する。TokSuiteにより、モデルのトークナイザーの影響を頑健に分離できるようになり、多様な人気トークナイザーの利点と欠点を明らかにする一連の新規知見が得られた。
エージェント的強化学習は経験駆動型のスケーリングに依存を強める一方で、現実環境は非適応的でカバレッジが限られ、スケーリングが困難なままである。世界モデルは模擬経験を通じて学習効率を向上させる可能性を秘めるが、大規模言語モデルがこの役割を確実に果たせるか、またどの条件下でエージェントに有意な利益をもたらすかは未解明である。本論文ではテキストベース環境においてこれらの問題を検討する。この環境は、言語モデリングを相互作用下での次状態予測として再解釈する制御された枠組みを提供する。我々はLLMベース世界モデルを評価する3段階のフレームワークを提案する:(i) 忠実性と一貫性、(ii) 拡張性と頑健性、(iii) エージェント有用性。5種類の代表的な環境での検証により、適切に訓練された世界モデルは首尾一貫した潜在状態を維持し、データ量とモデルサイズに応じて予測可能なスケーリングを示し、行動検証・合成軌道生成・強化学習のウォームスタートを通じてエージェント性能を向上させることを明らかにした。一方、これらの利益は行動カバレッジと環境複雑性に強く依存し、世界モデリングがエージェント学習を効果的に支援する境界条件を明確に示唆する。
大規模汎用基盤モデルの事前学習における最近の進展は、多様な下流タスクにおける性能を著しく向上させてきた。GPTのような自己回帰的生成モデルが自然言語処理に革命をもたらした一方で、視覚的生成事前学習手法の大半は依然としてBERTスタイルのマスクモデリングに依存しており、映像分析に不可欠な時間情報を軽視しがちである。既存の数少ない自己回帰的視覚事前学習手法は、不正確な意味的局在化や低品質な生成といった問題を抱え、結果として貧弱な意味表現に陥っている。本研究では、マスク化次フレーム予測を活用して画像と映像を統合的にモデル化する新しい自己回帰的視覚生成事前学習フレームワーク「NExT-Vid」を提案する。NExT-Vidは、意味表現とターゲット復号を分離する文脈分離型自己回帰予測器と、生成品質と多様性を高める条件付きフローマッチング復号器を導入する。文脈分離型フローマッチング事前学習を通じて、我々の手法は強力な表現獲得を実現する。大規模事前学習モデルを用いた広範な実験により、提案手法が下流分類タスクにおける注意深いプロービングによる視覚表現学習において、従来の生成事前学習手法を一貫して凌駕することを実証する。
本論文では、汎用対話型アシスタントとして機能するリアルタイムストリーミング動画LLM「Streamo」を提案する。既存のオンライン動画モデルが質問応答やキャプション生成に特化しているのに対し、Streamoはリアルタイムナレーション、行動理解、イベントキャプション生成、時間的イベント定位、時間敏感な質問応答など、幅広いストリーミング動画タスクを実行する。この汎用性を実現するため、我々はストリーミング動画理解に特化した大規模指示追従データセット「Streamo-Instruct-465K」を構築した。本データセットは多様な時間的文脈とマルチタスク監督を網羅し、異種ストリーミングタスク間の統一的な学習を可能にする。効率化されたパイプラインを通じて指示追従データセットでエンドツーエンド学習後、Streamoは様々なストリーミングベンチマークにおいて、優れた時間推論能力、応答性の高い対話、広範な一般化性能を示す。大規模実験により、Streamoがオフライン動画認識モデルとリアルタイムマルチモーダルアシスタントの間の隔たりを埋め、連続動画ストリームにおける統合的で知的な動画理解への一歩を踏み出していることを実証する。
Retrieval-Augmented Generation(RAG)は、ドメイン固有または最新の情報を必要とする知識集約的なクエリに対処するための大規模言語モデル(LLM)の強力なパラダイムとして登場した。単一ステップの検索では困難な複雑なマルチホップ質問を処理するため、強化学習を組み込んだ反復的RAGアプローチが提案されている。しかし、既存の反復的RAGシステムは、通常、利用可能な検索コーパスに関する情報を活用せずに質問の分解を計画するため、非効率な検索と、最適ではない性能に連鎖する推論チェーンを引き起こす。本論文では、反復的RAGシステムにおいて、計画立案前にLLMを検索セットと文脈的に関連する検索済み知識で整合させる、シンプルかつ効果的なモジュールであるEarly Knowledge Alignment(EKA)を提案する。6つの標準的なRAGデータセットを用いた大規模な実験により、より強固な推論基盤を構築することで、EKAが検索精度を大幅に向上させ、連鎖誤差を減少させ、性能と効率の両方を向上させることを実証する。エントロピーの観点からの分析は、早期の知識の組み込みが推論過程における不必要な探索を減らし、モデルが関連する情報サブセットにより効果的に集中できることを示している。さらに、EKAは、大規模モデルにシームレスにスケールする、汎用的で訓練不要な推論戦略として有効であることが証明された。様々なデータセットと検索コーパスにわたる一般化テストは、本アプローチの堅牢性を確認している。全体として、EKAは反復的RAGシステムの最先端を進歩させると同時に、強化学習補強フレームワークにおける構造化推論と効率的探索の間の重要な相互作用を明らかにする。コードはhttps://github.com/yxzwang/EarlyKnowledgeAlignment{Github}で公開されている。
既存のAIコーディングエージェントのベンチマークは、バグ修正や小規模な機能実装といった単一課題に焦点を当てがちである。しかし、現実のソフトウェアエンジニアリングは本質的に長期的な取り組みを要する。開発者は高水準な要求を解釈し、多数のファイルにわたる調整された変更を計画し、既存の機能を維持しながらコードベースを反復的に進化させなければならない。本研究では、この長期的なソフトウェア進化の課題に対してエージェントを評価するベンチマーク「SWE-EVO」を提案する。本ベンチマークは、7つの成熟したオープンソースPythonプロジェクトのリリースノートとバージョン履歴から構築され、平均21ファイルにまたがる多段階の修正を実装することをエージェントに求める48の進化タスクで構成される。各インスタンスは平均874テストからなる包括的なテストスイートで検証される。最新モデルを用いた実験では、顕著な能力格差が明らかになった。例えばOpenHandsを組み合わせたGPT-5であっても、SWE-EVOの解決率は21%に留まり、単一課題のSWE-Bench Verifiedにおける65%と比較して大幅に低い。これは、現在のエージェントが持続的かつ複数ファイルにわたる推論に苦戦していることを示唆する。さらに我々は、これらの複雑で長期的なタスク解決に向けた部分的な進捗を捕捉する詳細な評価指標「Fix Rate」を提案する。
本研究では、AI生成結晶の動的安定性に関する初の大規模ベンチマーク「PhononBench」を提案する。最近開発されたMatterSim原子間ポテンシャルは1万種以上の材料においてフォノン予測でDFTレベルの精度を達成しており、これを活用することで、6つの主要結晶生成モデルによって生成された108,843の結晶構造に対して、効率的な大規模フォノン計算と動的安定性解析を可能にした。PhononBenchにより、現在の生成モデルが動的安定性を確保する際に広範に存在する限界が明らかとなった:全生成構造における平均動的安定率はわずか25.83%であり、最高性能のモデルであるMatterGenでも41.0%に留まった。さらに詳細なケーススタディでは、物性ターゲット生成(ここではMatterGenを用いたバンドギャップ条件付け)において、最適なバンドギャップ条件である0.5 eV時でも動的安定率は23.5%と低い値を示した。空間群制御生成では、高対称性結晶ほど優れた安定性を示す(例えば立方晶系は49.2%に達する)ものの、全ての制御生成における平均安定性は依然として34.4%に過ぎない。本研究の重要な副次的成果として、ブリルアンゾーン全域でフォノン安定性を有する28,119の結晶構造が同定され、将来の材料探索に向けた信頼性の高い候補群が大幅に拡充された。初の大規模動的安定性ベンチマークを確立することで、本研究は結晶生成モデルの現状の限界を体系的に浮き彫りにするとともに、物理的に実現可能な材料の設計・発見に向けた今後の発展に不可欠な評価基準と指針を提供する。PhononBenchで開発された全てのモデル生成結晶構造、フォノン計算結果、および高速評価ワークフローはhttps://github.com/xqh19970407/PhononBench で公開予定である。
大規模言語モデル(LLM)の急速な普及と多様化する専門ベンチマークの増加に伴い、断片的なタスク特化型評価から、複数の能力次元にわたる性能を効果的に集約する包括的で競争的なランキングシステムへの転換が求められている。現在主流の静的スコアリングに基づく評価手法は根本的な限界を有する。多様なベンチマーク間の適切な混合比率を決定することが困難であることに加え、特に重要なのは、逐次的でハイステークスなタスクに直面した際のモデルの動的な競争適性や脆弱性を捉えられない点である。この問題を解決するため、我々は新たな競争的スイス式ダイナミクス(CSD)フレームワークを提案する。CSDは、モデルが蓄積した勝敗記録に基づいて厳選された一連のベンチマーク上で動的にペアリングされる、多ラウンド逐次競技をシミュレートする。さらにモンテカルロシミュレーション(N=100,000回反復)を用いて、統計的に頑健な期待勝利スコア(E[S_m])を推定し、ランダムなペアリングや初期ラウンドの偶発的要因によるノイズを除去する。加えて、ラウンドごとの脱落数をパラメータ化(T_k)した失敗感度分析を実装し、リスク選好性に基づくモデルのプロファイリングを可能にする。これにより、頑健なゼネラリストと攻撃的なスペシャリストを明確に区別する。我々は、CSDが伝統的な集計スコアリングや静的ペアワイズモデルよりも繊細で文脈を考慮したランキングを提供することを示し、リスク情報を組み込んだ次世代LLM評価に向けた重要な一歩を表すものである。