日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

長尺動画への強化学習のスケーリング
Scaling RL to Long Videos

Jul 10, 2025

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han

1033

長編動画における視覚言語モデル（VLM）の推論能力を拡張するためのフルスタックフレームワークを紹介する。本手法では、強化学習を活用し、長編動画推論に特有の課題に対処するために、以下の3つの重要なコンポーネントを統合している：(1) スポーツ、ゲーム、ブログなど多様なドメインにわたる高品質な推論アノテーションを備えた52Kの長編動画QAペアからなる大規模データセット「LongVideo-Reason」、(2) 連鎖的思考（Chain-of-Thought）による教師ありファインチューニング（CoT-SFT）と強化学習（RL）を用いてVLMを拡張する2段階のトレーニングパイプライン、(3) 長編動画RLのためのトレーニング基盤「Multi-modal Reinforcement Sequence Parallelism（MR-SP）」を開発。MR-SPは、シーケンス並列処理とvLLMベースのエンジンを組み合わせ、キャッシュされた動画埋め込みを活用して効率的なロールアウトとプリフィリングを実現する。実験では、LongVILA-R1-7BがVideoMMEなどの長編動画QAベンチマークで高い性能を発揮。さらに、Video-R1-7Bを上回り、Gemini-1.5-Proと同等の性能を、LongVideo-Reason-evalベンチマークにおける時間的推論、目的推論、空間推論、プロット推論で達成した。特に、MR-SPシステムは長編動画RLトレーニングにおいて最大2.1倍の高速化を実現。LongVILA-R1は、入力動画フレーム数が増加しても一貫した性能向上を示し、VLMにおける長編動画推論への確かな一歩を記した。さらに、本トレーニングシステムを公開し、動画、テキスト、音声など多様なモダリティ、VILAやQwenシリーズなどのモデル、さらには画像・動画生成モデルに対応したRLトレーニングをサポートする。単一のA100ノード（8GPU）において、1時間の長編動画（例：3,600フレーム／約256kトークン）のRLトレーニングを可能にしている。

T-LoRA: 過学習なしで単一画像の拡散モデルをカスタマイズ
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Jul 8, 2025

Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev

881

拡散モデルのファインチューニングは、事前学習済みモデルを特定のオブジェクト生成にカスタマイズする強力なアプローチを提供しますが、トレーニングサンプルが限られている場合、過学習に陥りやすく、汎化能力と出力の多様性が損なわれることが頻繁にあります。本論文は、単一の概念画像を使用して拡散モデルを適応させるという、最も実用的な可能性を秘めた挑戦的かつ影響力の大きいタスクに取り組みます。我々は、拡散モデルのパーソナライゼーションに特化したTimestep-Dependent Low-Rank Adaptation（T-LoRA）フレームワークを提案します。本研究では、高い拡散タイムステップは低いタイムステップよりも過学習しやすいことを示し、タイムステップに敏感なファインチューニング戦略の必要性を明らかにします。T-LoRAは、2つの主要な革新を組み込んでいます：(1) 拡散タイムステップに基づいてランク制約付き更新を調整する動的ファインチューニング戦略、(2) 直交初期化を通じてアダプタコンポーネント間の独立性を保証する重みパラメータ化技術。大規模な実験により、T-LoRAとその個々のコンポーネントが、標準的なLoRAや他の拡散モデルパーソナライゼーション技術を凌駕し、概念の忠実度とテキストの整合性の優れたバランスを達成することが示されました。これは、データが限られておりリソースが制約されたシナリオにおけるT-LoRAの可能性を強調しています。コードはhttps://github.com/ControlGenAI/T-LoRAで公開されています。

トレーサブルな証拠を強化した視覚的基盤推論：評価と方法論
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Jul 10, 2025

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

392

OpenAI-o3のようなモデルは、人間の「イメージを用いた思考」と同様に、視覚領域を動的に参照することで視覚に基づく推論を先駆けています。しかし、これらの能力を包括的に評価するベンチマークは存在しません。このギャップを埋めるため、私たちはTreeBench（Traceable Evidence Evaluation Benchmark）を提案します。これは、以下の3つの原則に基づいて構築された診断用ベンチマークです：(1) 複雑なシーンにおける微妙なターゲットへの集中した視覚的知覚、(2) バウンディングボックス評価による追跡可能な証拠、(3) 単純な物体位置特定を超えた物体間の相互作用や空間的階層をテストするための二次推論。密集した物体を含む画像を優先し、SA-1Bから1,000枚の高品質な画像を初期サンプリングし、8人のLMM専門家が各画像に対して質問、候補オプション、回答を手動で注釈しました。3段階の品質管理を経て、TreeBenchは405組の挑戦的な視覚質問応答ペアで構成されており、最も先進的なモデルでさえこのベンチマークに苦戦し、60%の精度に達するものはありません（例：OpenAI-o3は54.87しか得点できません）。さらに、私たちはTreeVGR（Traceable Evidence Enhanced Visual Grounded Reasoning）を導入します。これは、強化学習を用いて位置特定と推論を共同で監督するトレーニングパラダイムであり、正確な位置特定と説明可能な推論経路を可能にします。Qwen2.5-VL-7Bから初期化されたTreeVGRは、V* Bench（+16.8）、MME-RealWorld（+12.6）、TreeBench（+13.4）で改善を示し、追跡可能性が視覚に基づく推論を進歩させる鍵であることを証明しています。コードはhttps://github.com/Haochen-Wang409/TreeVGRで公開されています。

OST-Bench: オンライン時空間シーン理解におけるMLLMの能力評価
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Jul 10, 2025

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang

321

近年のマルチモーダル大規模言語モデル（MLLMs）の進展は、視覚と言語を統合した複雑な推論において顕著な能力を示しています。既存のベンチマークの多くは、事前に記録された固定された入力セットを用いたオフライン設定でモデルを評価していますが、本研究ではOST-Benchを紹介します。これは、シーンを能動的に探索するエージェントの視点から、オンライン時空間理解を評価するために設計されたベンチマークです。オンラインという側面は、段階的に取得された観察を処理し推論する必要性を強調し、時空間コンポーネントは、現在の視覚入力を過去の記憶と統合して動的な空間推論をサポートすることを要求します。OST-Benchは、現実世界の具現化された知覚の課題をよりよく反映しています。効率的なデータ収集パイプラインに基づいて構築されたOST-Benchは、ScanNet、Matterport3D、およびARKitScenesから収集された1.4kのシーンと10kの質問-回答ペアで構成されています。OST-Benchでいくつかの主要なMLLMsを評価した結果、複雑な時空間推論を必要とするタスクにおいてそれらが不足していることが観察されました。オンライン設定では、探索範囲が広がりメモリが増えるにつれて精度が低下します。さらなる実験分析を通じて、モデル間で共通するエラーパターンを特定し、複雑な手がかりに基づく空間推論の要求と長期的な記憶検索の要件が、2つの異なる軸に沿ってモデルのパフォーマンスを大幅に低下させることがわかりました。これは、オンライン具現化推論を改善するために取り組むべき核心的な課題を浮き彫りにしています。この分野のさらなる研究と開発を促進するために、コード、データセット、およびベンチマークを公開しています。プロジェクトページは以下です：https://rbler1234.github.io/OSTBench.github.io/

マルチグラニュラリティ時空間トークンマージによるトレーニング不要のビデオLLM高速化
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Jul 10, 2025

Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim

293

ビデオ大規模言語モデル（LLMs）は、多数の時空間トークンを活用することで強力なビデオ理解を実現しますが、トークン数に応じて計算量が二次的に増加するという課題を抱えています。この問題に対処するため、我々は訓練不要の時空間トークン統合手法、STTM（Spatio-Temporal Token Merging）を提案します。我々の重要な洞察は、これまでの研究で見過ごされてきたビデオデータ内の局所的な空間的および時間的な冗長性を活用することです。STTMはまず、各フレームを四分木構造を用いた粗から細への探索によって多粒度の空間トークンに変換し、その後、時間次元にわたって指向性のあるペアワイズ統合を行います。この分解された統合アプローチは、6つのビデオQAベンチマークにおいて既存のトークン削減手法を上回ります。特に、STTMは50%のトークン予算下でわずか0.5%の精度低下で2倍の高速化を実現し、30%の予算下では2%の低下で3倍の高速化を達成します。さらに、STTMはクエリに依存しないため、同じビデオに対する異なる質問間でKVキャッシュの再利用が可能です。プロジェクトページはhttps://www.jshyun.me/projects/sttmで公開されています。

ジオメトリ強制：ビデオ拡散と3D表現を統合した一貫性のある世界モデリング
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

Jul 10, 2025

Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian

262

ビデオは本質的に、動的な3D世界の2D投影を表しています。しかし、私たちの分析によると、生のビデオデータのみで訓練されたビデオ拡散モデルは、その学習された表現において意味のある幾何学的構造を捉えることがしばしば失敗します。ビデオ拡散モデルと物理世界の根底にある3D性質との間のギャップを埋めるために、私たちはGeometry Forcingを提案します。これは、ビデオ拡散モデルが潜在的な3D表現を内在化することを促す、シンプルでありながら効果的な方法です。私たちの重要な洞察は、モデルの中間表現を、事前訓練された幾何学的基盤モデルからの特徴と整合させることで、幾何学的構造を意識した方向に導くことです。この目的のために、2つの補完的な整合目標を導入します：Angular Alignmentは、コサイン類似度を通じて方向の一貫性を強制し、Scale Alignmentは、正規化された拡散表現から非正規化された幾何学的特徴を回帰することで、スケール関連の情報を保持します。私たちはGeometry Forcingを、カメラビュー条件付きおよびアクション条件付きのビデオ生成タスクの両方で評価します。実験結果は、私たちの方法がベースラインメソッドに比べて視覚的品質と3D一貫性を大幅に向上させることを示しています。プロジェクトページ：https://GeometryForcing.github.io。

PyVision: 動的ツーリングによるエージェント的ビジョン
PyVision: Agentic Vision with Dynamic Tooling

Jul 10, 2025

Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei

241

LLM（大規模言語モデル）は、計画、推論、外部ツールの動的呼び出しが可能なエージェントとしてますます展開されています。しかし、視覚的推論において、従来のアプローチは主に事前定義されたワークフローと静的なツールセットに制限されています。本報告では、PyVisionというインタラクティブでマルチターンのフレームワークを紹介します。PyVisionは、MLLM（マルチモーダル大規模言語モデル）がタスクに応じてPythonベースのツールを自律的に生成、実行、改良することを可能にし、柔軟で解釈可能な問題解決を実現します。PyVisionによって作成されたツールの分類体系を開発し、多様なベンチマークにおけるその使用状況を分析します。定量的には、PyVisionは一貫した性能向上を達成し、GPT-4.1ではV*で+7.8%、Claude-4.0-SonnetではVLMsAreBlind-miniで+31.1%の向上を示しました。これらの結果は、動的なツーリングがモデルにツールを使用させるだけでなく、それらを発明させることを可能にし、よりエージェント的な視覚的推論に向けた進展を示唆しています。

LangSplatV2: 450 FPS以上の高次元3D言語ガウススプラッティング
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Jul 9, 2025

Wanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister

211

本論文では、LangSplatV2を紹介する。これは高解像度画像に対して476.2 FPSの高次元特徴スプラッティングと384.6 FPSの3Dオープン語彙テキストクエリを実現し、LangSplatと比較して42倍の高速化と47倍の性能向上、およびクエリ精度の向上を達成した。LangSplatはGaussian Splattingを用いて2D CLIP言語特徴を3Dに埋め込み、速度を大幅に向上させるとともに、SAMセマンティクスを用いた精密な3D言語フィールドを学習する。このような3D言語フィールドの進展は、複雑なシーン内での言語インタラクションを必要とするアプリケーションにとって重要である。しかし、LangSplatは最先端のA100 GPUを使用してもリアルタイム推論性能（8.2 FPS）を達成できず、その広範な応用を大きく制限している。本論文ではまず、LangSplatの詳細な時間分析を行い、重いデコーダが主要な速度ボトルネックであることを特定した。我々の解決策であるLangSplatV2は、各ガウシアンがグローバル辞書内のスパースコードとして機能すると仮定し、重いデコーダを完全に不要とする3Dスパース係数フィールドの学習を実現した。このスパース性を活用し、CUDA最適化を施した効率的なスパース係数スプラッティング手法を提案することで、高次元特徴マップを高品質にレンダリングしつつ、超低次元特徴のスプラッティングと同等の時間コストしか発生させない。実験結果は、LangSplatV2がより優れた、あるいは同等のクエリ精度を達成するだけでなく、大幅に高速であることを示している。コードとデモはプロジェクトページ（https://langsplat-v2.github.io）で公開されている。

長編動画のストーリーテリング生成に関する調査：アーキテクチャ、一貫性、映画的な品質
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

Jul 9, 2025

Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

191

ビデオ生成モデルにおける大きな進展にもかかわらず、現状の最先端手法では5～16秒のビデオしか生成できず、しばしば「ロングフォームビデオ」と称されています。さらに、16秒を超えるビデオでは、物語全体を通じてキャラクターの外見やシーンレイアウトの一貫性を維持することが困難です。特に、複数の主体が登場する長尺ビデオでは、キャラクターの一貫性と動きの連続性を保つことがまだできていません。一部の手法では150秒までのビデオを生成できるものの、フレームの冗長性や時間的な多様性の低さが課題となっています。最近の研究では、複数のキャラクターが登場し、物語の一貫性と高精細なディテールを備えたロングフォームビデオの生成が試みられています。我々は、これらの品質を一貫して実現するための主要なアーキテクチャ構成要素と学習戦略を特定するため、ビデオ生成に関する32本の論文を包括的に調査しました。また、既存手法の包括的な新たな分類体系を構築し、アーキテクチャ設計と性能特性に基づいて論文を分類した比較表を提示します。

層をスキップするか、ループさせるか？事前学習済みLLMのテスト時深度適応
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Jul 10, 2025

Ziyue Li, Yang Li, Tianyi Zhou

185

事前学習済みのニューラルネットワークは、ファインチューニングなしで異なる入力に適応するためにそのアーキテクチャを変更できるのか？単純なタスクにはすべての層が必要なのか、また困難なタスクに対して十分なのか？我々は、事前学習済みの大規模言語モデル（LLM）の各層を個別のモジュールとして操作し、各テストサンプルにカスタマイズされたより優れた、そしてより浅いモデルを構築できることを発見した。具体的には、事前学習済みモデルの各層をスキップ/プルーニングしたり、リカレントニューラルネットワーク（RNN）として複数回繰り返したり、任意の順序で他の層とスタックしたりすることで、サンプルごとに層の連鎖（CoLa）を生成することができる。この構成可能な空間は、ループ/リカレント事前学習済みモジュール、層プルーニング、または早期終了ネットワークに関する既存の研究の範囲を大幅に拡大する。我々は、数学的および常識的推論のベンチマークから各サンプルに対して最適なCoLaを探索・特定するためのモンテカルロ木探索（MCTS）プロトコルを開発した。固定深度の静的モデルと比較して、CoLaはショートカットパス（速い思考）、同じ層の繰り返し（遅い思考）、およびその両方を組み合わせることを可能にし、異なる入力に対してより柔軟で動的なアーキテクチャを提供する。我々はMCTSで最適化されたCoLaの詳細な分析を行い、2つの重要な発見を得た：（1）元のLLMで正しく予測されたサンプルの75%以上に対して、より短いCoLaを見つけることができ、推論効率を向上させるための大きな余地があることを示唆している；（2）元々誤った予測をしていたサンプルの60%以上に対して、正しい予測を達成するCoLaを特定でき、性能向上のための大きな余地があることを示唆している。我々の結果は、異なるサンプルに対する推論に事前学習済みLLMの固定アーキテクチャを使用することの欠点を浮き彫りにし、テスト時の深度適応の汎化能力を解き放つ道を開くものである。

トークンボトルネック：動態を記憶するための単一トークン
Token Bottleneck: One Token to Remember Dynamics

Jul 9, 2025

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun

132

動的なシーンからコンパクトで時間的認識を備えた視覚表現を導出することは、視覚追跡やロボット操作といった逐次的なシーン理解タスクを成功させるために不可欠です。本論文では、シーンをボトルネックトークンに圧縮し、最小限のパッチをヒントとして次のシーンを予測する、シンプルで直感的な自己教師あり学習パイプラインであるToken Bottleneck (ToBo)を紹介します。ToBoパイプラインは、圧縮ステップにおいて参照シーンを保守的にエンコードし、コンパクトなボトルネックトークンに変換することで、逐次的なシーン表現の学習を促進します。拡張ステップでは、ボトルネックトークンと少数のターゲットパッチをヒントとしてターゲットシーンを予測することで、モデルに時間的ダイナミクスを捉えさせます。この設計により、視覚バックボーンは時間的依存関係を埋め込み、シーン間の動的な遷移を理解できるようになります。ビデオラベル伝播やシミュレーション環境でのロボット操作を含む多様な逐次タスクにおける広範な実験により、ToBoがベースラインを上回る優位性を示しています。さらに、物理ロボットに事前学習済みモデルをデプロイすることで、実世界環境におけるその堅牢性と有効性を確認しました。また、ToBoの異なるモデルスケールにおけるスケーラビリティも検証しています。

エンドツーエンド階層的シーケンスモデリングのための動的チャンキング
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Jul 10, 2025

Sukjun Hwang, Brandon Wang, Albert Gu

近年、言語モデル（LMs）において驚異的な進展が見られ、特定のタスク向けに設計された専門モデルから、生データから全てを学習する強力なアーキテクチャ（例えばTransformer）に基づく汎用モデルへの移行がその主な要因となっている。しかし、トークン化などの前処理ステップは、真のエンドツーエンド基盤モデルへの障壁として残っている。本論文では、動的なチャンキングメカニズムを可能にする新しい技術群を紹介する。このメカニズムは、モデルの他の部分と共に学習される内容および文脈依存のセグメンテーション戦略を自動的に学習する。これを明示的な階層型ネットワーク（H-Net）に組み込むことで、（暗黙的に階層化された）トークン化-LM-デトークン化パイプラインを、完全にエンドツーエンドで学習される単一のモデルに置き換えることができる。計算資源とデータ量が同等の条件下で、バイトレベルで動作する1段階の階層を持つH-Netは、BPEトークン上で動作する強力なTransformer言語モデルを上回る性能を示す。階層を複数段階に繰り返すことで、複数の抽象化レベルをモデル化し、データに対するスケーリングが大幅に向上し、その2倍のサイズのトークンベースのTransformerと同等の性能を達成する。英語で事前学習されたH-Netは、文字レベルの頑健性が大幅に向上し、ヒューリスティックや明示的な監督なしに意味のあるデータ依存のチャンキング戦略を質的に学習する。最後に、H-Netのトークン化パイプラインに対する改善は、中国語やコード、DNA配列（ベースラインに対してデータ効率が約4倍向上）など、トークン化ヒューリスティックが弱い言語やモダリティにおいてさらに顕著であり、未処理データからより良く学習しスケールする真のエンドツーエンドモデルの可能性を示している。

機械的デタラメ：大規模言語モデルにおける真実軽視の特徴付け
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

Jul 10, 2025

Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac

哲学者ハリー・フランクファートが概念化した「でたらめ（bullshit）」とは、真偽を考慮せずになされる言明を指す。これまでの研究では、大規模言語モデル（LLM）の幻覚（hallucination）や迎合性（sycophancy）が探求されてきたが、我々は「機械のでたらめ（machine bullshit）」を包括的な概念フレームワークとして提案し、LLMにおける真実性の喪失という広範な現象を特徴づけ、その根底にあるメカニズムを明らかにすることを目指す。我々は、LLMの真実への無関心を定量化する新たな指標「でたらめ指数（Bullshit Index）」を導入し、でたらめの4つの質的形態（空虚な修辞、ごまかし、曖昧な言葉、未検証の主張）を分析する補完的な分類体系を提案する。我々は、Marketplaceデータセット、Political Neutralityデータセット、および機械のでたらめを評価するために明示的に設計された新たなベンチマーク「BullshitEval」（100のAIアシスタントにまたがる2,400のシナリオ）を用いて実証評価を行った。その結果、人間のフィードバックからの強化学習（RLHF）を用いたモデルのファインチューニングがでたらめを著しく悪化させ、推論時の連鎖的思考（CoT）プロンプトが特定のでたらめ形態、特に空虚な修辞やごまかしを顕著に増幅することが明らかになった。また、政治的文脈では、曖昧な言葉が支配的な戦略として機械のでたらめが広く見られることが観察された。我々の知見は、AIアラインメントにおける体系的な課題を浮き彫りにし、より真実に近いLLMの行動に向けた新たな洞察を提供する。

線形分離可能性の限界を超えて
Beyond the Linear Separability Ceiling

Jul 10, 2025

Enrico Vompa, Tanel Tammet, Mohit Vaishnav

最先端の視覚言語モデル（VLM）の多くは、抽象的な推論タスクにおける視覚埋め込みの線形分離可能性によって制限されているように見えます。本研究では、この「線形推論ボトルネック」を調査するために、VLMの視覚埋め込みに対する単純な線形分類器の性能である「線形分離上限（LSC）」を導入します。このボトルネックが広く存在し、知覚の欠如ではなく、言語モデルの推論経路の失敗に起因していることを明らかにします。これは解決可能なアライメント問題であることを示します。ただし、必要な介入はタスク依存であり、意味概念に対しては既存の経路を活性化するだけで十分である一方、複雑な関係推論にはコアモデルの重みを適応させる必要があります。メソドロジカルコントロールとしてポストフィックスチューニングを使用することで、VLM内に強力だが休眠状態の推論経路が存在することを強く示唆します。しかし、より深い適応を必要とする複雑な関係タスクにおいては、表現品質を明示的に向上させると、埋め込みが良好に分離されたままでも、新しいプロンプト形式に対してモデルが失敗することがわかります。最終的に、本研究はVLM分析の新しい視点を提供し、堅牢な推論は単なる表現学習の向上ではなく、ターゲットを絞ったアライメントの問題であることを示しています。

SciMaster: 汎用科学AIエージェントへの道、第1部 X-Masterを基盤として：人類最後の試験をリードできるか？
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

Jul 7, 2025

Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen

AIエージェントの急速な進歩は、科学の発見を加速させるという長年の野望に火をつけました。この目標を達成するためには、人類の知識の最前線を深く理解する必要があります。そのため、「Humanity's Last Exam（HLE）」は、科学的AIエージェントを評価するための非常に挑戦的な試金石を提供します。本研究では、汎用エージェントの基盤となるアーキテクチャを構築し、HLEでのリーディングパフォーマンスを通じてその能力を検証することを目指します。これを実現するために、我々はX-Masterを導入します。これは、推論プロセス中に外部ツールと柔軟に相互作用することで人間の研究者を模倣するように設計された、ツール拡張型推論エージェントです。このエージェントは、コードを相互作用言語として概念化することを指針とし、組み込みのPythonライブラリやカスタマイズされたツールを柔軟に活用して推論を強化します。さらに、我々はX-Mastersという分散・積層型のエージェントワークフローを通じてその能力をスケールアップし、推論の幅と深さを体系的に向上させます。我々のオープンソースソリューションであるX-Mastersは、HLEで32.1%のスコアを記録し、OpenAIとGoogleのDeep Research（26.6%と26.9%）を上回り、初めて30%の閾値を超える新たな最先端記録を樹立しました。この研究により、複雑なタスク解決に対する理解を深め、将来の進歩に役立つ貴重な経験を蓄積し、その後のモデルトレーニングを導くことが可能となります。

再ボトルネック：ニューラル音声オートエンコーダのための潜在構造再構築
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

Jul 10, 2025

Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis

ニューラル音声コーデックとオートエンコーダは、音声圧縮、伝送、特徴抽出、および潜在空間生成のための汎用モデルとして登場している。しかし、その主な制約は、ほとんどのモデルが再構成忠実度を最大化するように訓練されており、多様な下流アプリケーションでの最適な性能に必要な特定の潜在構造をしばしば無視している点である。本研究では、事前訓練済みのオートエンコーダのボトルネックを修正することでこの問題に対処するシンプルな事後フレームワークを提案する。我々の手法は「Re-Bottleneck」を導入し、潜在空間損失のみを通じて訓練される内部ボトルネックを追加し、ユーザー定義の構造を組み込む。このフレームワークの有効性を3つの実験で実証する。まず、再構成品質を犠牲にすることなく潜在チャネルに順序を付与する。次に、潜在変数を意味的埋め込みと整合させ、下流の拡散モデリングへの影響を分析する。最後に、等価性を導入し、入力波形に対するフィルタリング操作が潜在空間内の特定の変換に直接対応することを保証する。最終的に、Re-Bottleneckフレームワークは、ニューラル音声モデルの表現を柔軟かつ効率的に調整する方法を提供し、最小限の追加訓練で異なるアプリケーションの多様な要求にシームレスに対応できるようにする。

凍結基盤上でのモジュール化構成と層ごとの拡張によるトランスフォーマーの成長
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

Jul 8, 2025

A. Bochkov

大規模言語モデル（LLM）のスケーリングにおける主流のパラダイムは、リソース集約的で柔軟性に欠ける、モノリシックなエンドツーエンドのトレーニングに依存している。本論文では、非学習型で決定論的な入力埋め込みを基盤とした、モデル開発のための代替的かつ構成的なアプローチを探求する。先行研究[1]において、Unicodeグリフの視覚的構造から導出された凍結埋め込みを用いることで、Transformerにおいて高レベルの意味推論が発現し得ることを示した。ここでは、この固定された表現基盤が普遍的な「ドッキングポート」として機能し、シームレスなモジュール構成と段階的な層ごとの成長という、強力かつ効率的なスケーリングパラダイムを可能にすることを実証する。まず、異なるデータセット（例えばロシア語と中国語のテキスト）でトレーニングされた専門家モデルを、トレーニング後に単一のより強力なMixture-of-Experts（MoE）モデルに統合できることを示す。これは、出力ロジットを単純に平均化するだけで達成され、アーキテクチャの変更を一切必要としない。結果として得られたMoEモデルは、MMLUなどの推論ベンチマークにおいて即座に性能向上を示し、構成要素となる専門家モデルを凌駕する一方で、破滅的な忘却を引き起こさない。次に、深層Transformerを層ごとに段階的に積み重ねてトレーニングする「成長型」の構成的トレーニング手法を提案する。この手法は安定した収束を示し、モデルの深さとSQuADのような複雑な推論能力の発現との間に明確な相関関係があることを示す。我々の知見は、モノリシックな最適化から、複雑性が段階的に構築され、モジュールが自由に構成可能な、より生物学的または構成的なAI開発モデルへのパラダイムシフトを示唆している。これは、リソース効率の良いスケーリング、継続学習、そして強力なAIシステムを構築するためのより民主化されたエコシステムへの新たな道を開くものである。さらなる研究を促進するため、すべてのコードとモデルを公開する。

トークン埋め込みを超えた創発的意味論：凍結された視覚的ユニコード表現を備えたトランスフォーマー言語モデル
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Jul 7, 2025

A. Bochkov

大規模言語モデル（LLMs）における意味表現の所在を理解することは、解釈可能性とアーキテクチャの革新にとって極めて重要である。従来の主流のパラダイムでは、学習可能な入力埋め込みが基礎的な「意味ベクトル」として機能するとされている。本論文はこの見解に異議を唱える。我々は、埋め込み層が完全に凍結され、データではなくUnicodeグリフの視覚的構造から導出されたベクトルを持つTransformerモデルを構築した。これらの非意味的で事前計算された視覚的埋め込みは、学習を通じて固定される。我々の手法は、あらゆるトークナイザと互換性があり、ユニバーサルなテキストカバレッジを保証するために導入した新しいUnicode中心のトークナイザも含まれる。学習可能で意味的に初期化された埋め込みが存在しないにもかかわらず、我々のモデルは収束し、一貫したテキストを生成し、特にMMLU推論ベンチマークにおいて、学習可能な埋め込みを持つアーキテクチャ的に同一のモデルを上回る性能を示した。我々はこれを、従来のモデルにおける「表現的干渉」に帰因する。従来のモデルでは、埋め込み層が構造的特徴と意味的特徴の両方を学習する負担を負っている。我々の結果は、高レベルの意味は入力埋め込みに内在するものではなく、Transformerの合成的アーキテクチャとデータ規模に伴って創発する特性であることを示唆している。これにより、埋め込みの役割は意味の容器から構造的プリミティブへと再定義される。我々は、さらなる研究を促進するために、すべてのコードとモデルを公開する。

凍結基盤上でのモジュール化構成と層ごとの拡張によるトランスフォーマーの成長
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

Jul 8, 2025

A. Bochkov

日刊論文

長尺動画への強化学習のスケーリング
Scaling RL to Long Videos

T-LoRA: 過学習なしで単一画像の拡散モデルをカスタマイズ
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

トレーサブルな証拠を強化した視覚的基盤推論：評価と方法論
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

OST-Bench: オンライン時空間シーン理解におけるMLLMの能力評価
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

マルチグラニュラリティ時空間トークンマージによるトレーニング不要のビデオLLM高速化
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

ジオメトリ強制：ビデオ拡散と3D表現を統合した一貫性のある世界モデリング
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

PyVision: 動的ツーリングによるエージェント的ビジョン
PyVision: Agentic Vision with Dynamic Tooling

LangSplatV2: 450 FPS以上の高次元3D言語ガウススプラッティング
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

長編動画のストーリーテリング生成に関する調査：アーキテクチャ、一貫性、映画的な品質
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

層をスキップするか、ループさせるか？事前学習済みLLMのテスト時深度適応
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

トークンボトルネック：動態を記憶するための単一トークン
Token Bottleneck: One Token to Remember Dynamics

エンドツーエンド階層的シーケンスモデリングのための動的チャンキング
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

機械的デタラメ：大規模言語モデルにおける真実軽視の特徴付け
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

線形分離可能性の限界を超えて
Beyond the Linear Separability Ceiling

SciMaster: 汎用科学AIエージェントへの道、第1部 X-Masterを基盤として：人類最後の試験をリードできるか？
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

再ボトルネック：ニューラル音声オートエンコーダのための潜在構造再構築
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

凍結基盤上でのモジュール化構成と層ごとの拡張によるトランスフォーマーの成長
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

トークン埋め込みを超えた創発的意味論：凍結された視覚的ユニコード表現を備えたトランスフォーマー言語モデル
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Support

Support

日刊論文

長尺動画への強化学習のスケーリング
Scaling RL to Long Videos

T-LoRA: 過学習なしで単一画像の拡散モデルをカスタマイズ
T-LoRA: Single Image Diffusion Model Customization Without Overfitting

トレーサブルな証拠を強化した視覚的基盤推論：評価と方法論
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

OST-Bench: オンライン時空間シーン理解におけるMLLMの能力評価
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

マルチグラニュラリティ時空間トークンマージによるトレーニング不要のビデオLLM高速化
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

ジオメトリ強制：ビデオ拡散と3D表現を統合した一貫性のある世界モデリング
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

PyVision: 動的ツーリングによるエージェント的ビジョン
PyVision: Agentic Vision with Dynamic Tooling

LangSplatV2: 450 FPS以上の高次元3D言語ガウススプラッティング
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

長編動画のストーリーテリング生成に関する調査：アーキテクチャ、一貫性、映画的な品質
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

層をスキップするか、ループさせるか？事前学習済みLLMのテスト時深度適応
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

トークンボトルネック：動態を記憶するための単一トークン
Token Bottleneck: One Token to Remember Dynamics

エンドツーエンド階層的シーケンスモデリングのための動的チャンキング
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

機械的デタラメ：大規模言語モデルにおける真実軽視の特徴付け
Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models

線形分離可能性の限界を超えて
Beyond the Linear Separability Ceiling

SciMaster: 汎用科学AIエージェントへの道、第1部 X-Masterを基盤として：人類最後の試験をリードできるか？
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?

再ボトルネック：ニューラル音声オートエンコーダのための潜在構造再構築
Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

凍結基盤上でのモジュール化構成と層ごとの拡張によるトランスフォーマーの成長
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate

トークン埋め込みを超えた創発的意味論：凍結された視覚的ユニコード表現を備えたトランスフォーマー言語モデル
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations