翻訳付きの日次キュレーションされたAI研究論文
私たちは今回、Qwenシリーズで最高性能を発揮する視覚言語モデル「Qwen3-VL」を紹介します。本モデルは、多様なマルチモーダルベンチマークにおいて卓越した性能を達成しました。256Kトークンに及ぶインタリーブ(混合)コンテキストをネイティブサポートし、テキスト、画像、動画をシームレスに統合します。モデルファミリーには、様々なレイテンシと品質のトレードオフに対応するため、密結合型(2B/4B/8B/32B)とエキスパート混合型(30B-A3B/235B-A22B)のバリエーションが含まれます。Qwen3-VLは以下の3つの核心的要素を提供します:(i) 純粋なテキスト理解能力の大幅な強化。同等のテキスト専用基盤モデルを複数のケースで凌駕します。(ii) テキスト及びマルチモーダル混合入力双方に対してネイティブの256Kトークンウィンドウを備えた、強固な長文コンテキスト理解能力。長文ドキュメントや動画にわたる正確な情報保持、検索、相互参照を可能にします。(iii) 単一画像、複数画像、動画タスクにわたる高度なマルチモーダル推論能力。MMMUや視覚数学ベンチマーク(MathVista、MathVision等)といった総合的な評価において、最先端の性能を示します。アーキテクチャ的には、3つの主要な改良を導入しました:(i) 画像と動画にわたる時空間モデリングを強化する、改良版インタリーブドMRoPE。(ii) マルチレベルViT特徴量を効果的に活用して視覚と言語の整合性を高める、DeepStackの統合。(iii) 動画向けのテキストベース時間整合。T-RoPEから明示的なテキスト的時間スタンプ整合へと進化し、より精密な時間的定位を実現。同等のトークン予算とレイテンシ制約下において、Qwen3-VLは密結合型及びMoEアーキテクチャの双方で優れた性能を達成します。私たちは、Qwen3-VLが実世界のワークフローにおいて、画像に基づく推論、エージェント的意思決定、マルチモーダルコード知能のための基盤エンジンとして機能することを期待しています。
視覚言語行動(VLA)モデルは、フローマッチングや拡散目標による訓練を通じて、大規模なマルチモーダルデータセット(例:人間の遠隔操作、スクリプト化されたポリシー)から複雑な行動を学習するのに優れている。しかし、VLAは事前学習段階で多様なデータモードを統合する一方、ファインチューニングデータセットには運動学的に最適でない、あるいは望ましくない方法で収集された実証データが含まれることが多いため、下流タスクの成功行動モードとは無関係な冗長な行動モードが存在する。具体的には、事前学習済みVLAの教師ありファインチューニング後、様々なサンプリングノイズにおいて推論時の脆弱性が顕著に観察される。本論文では、この不安定性を、VLAポリシーと下流タスクデータセットの安定した成功モードによって誘導されるポリシーとの間の分布シフトに帰因する。そこで我々は、軽量な擬似カウント推定量を行動チャンクの高精度検証器として適用するテストタイムスケーリング(TTS)フレームワークであるTACOを提案する。TACOを統合したVLAモデルは、サンプリングされた全行動チャンクから擬似カウントが最大となる行動を実行できるため、分布シフトを防止しつつ、制約が推論時にのみ適用されるためVLAの汎化能力を維持できる。本手法は、オフライン強化学習(RL)における古典的な反探索原理に類似しており、勾配計算を必要としないため、特に脱ノイズ過程のためにRL更新が困難なフローまたは拡散ベースのVLAにおいて、RL更新と比較して計算コストの大幅な削減が可能である。4つのシミュレーションベンチマーク(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)およびデュアルアームプラットフォームでの大規模な実験により、本手法が下流タスク適応における推論の安定性と成功率を大幅に向上させることを実証する。
人間の行動を模倣し、一般的な経験から能動的に学習することで人工汎用知能を実現することは、常に人類の夢でした。近年の強化学習(RL)ベースの大規模思考モデルは、ソフトウェアや数学などの専門家レベルの能力を示すものの、特定領域での検証可能な報酬に大きく依存しており、汎用的な推論能力の性能限界を拡張する上で重大なボトルネックとなっています。本研究では、事前学習コーパス上に構築された強化学習的能動学習フレームワークであるPretrainZeroを提案します。これはRLをドメイン特化的事後学習から汎用的な事前学習へ拡張するものです。PretrainZeroは以下の特徴を有します:1)能動的事前学習:人間の能動的学習能力に着想を得て、PretrainZeroは統一された推論方策を学習し、事前学習コーパスから合理的で情報量の多い内容を能動的に同定し、RLを用いてそれらの内容を予測するために推論します。2)自己教師あり学習:検証可能なラベルや事前学習済み報酬モデル、教師ありファインチューニングを一切用いず、一般的なWikipediaコーパスに対しRLを用いて3Bから30Bのベースモデルから直接推論器を事前学習し、汎用推論における検証データの壁を大幅に打破します。3)検証スケーリング:難易度を段階的に上げるマスクスパン課題に取り組むことで、PretrainZeroは事前学習済みベースモデルの汎用推論能力を大幅に強化します。強化学習的事前学習において、PretrainZeroはQwen3-4B-Baseモデルに対し、MMLU-Pro、SuperGPQA、数学平均ベンチマークでそれぞれ8.43、5.96、10.60の性能向上をもたらしました。事後学習においても、事前学習済みモデルは下流のRLVRタスクのための推論基盤モデルとして機能します。
動的なシーン間の視覚的差異を理解するには、構成的・空間的・時間的変化の比較的知覚が必要であり、この能力は既存の視覚言語システムでは未だ十分に探究されていない。従来の画像差分キャプショニング(IDC)研究では、静止画像間の意味的変化を記述するモデルが開発されてきたが、これらの手法は時間経過に伴う動作の連続性、イベントの推移、編集の一貫性を捉えることができない。本研究では、ViDiC(ビデオ差分キャプショニング)タスクと対応するViDiC-1Kデータセットを提案する。これらは、マルチモーダル大規模言語モデル(MLLM)がビデオペア間の類似点と相違点を細粒度で記述する能力を評価するために設計されている。ViDiC-1Kは1,000組の精選されたビデオペアで構成され、被写体、スタイル、背景、撮影技法、動作、場所、再生技術の7カテゴリにわたる4,000以上の比較チェック項目が注釈付けされている。信頼性の高い評価を確保するため、LLM-as-a-Judgeプロトコルに基づき、類似性と差異の精度を個別に測定する二重チェックリスト枠組みを提案する。19の代表的なマルチモーダルモデルを用いた実験により、これらのモデルの比較記述能力と差異知覚能力に有意な性能差が存在することが明らかになった。ViDiC-1Kが、マルチモーダル知能におけるビデオ理解、編集認識、比較推論の進展に堅固な基盤を提供する挑戦的なベンチマークとなることを期待する。
強化学習(RL)は近年、マルチモーダル大規模言語モデル(MLLM)内での視覚的推論を誘導する際に顕著な成功を収めている。しかし、既存のアプローチでは通常、異なるタスクごとに個別のモデルを学習し、画像と動画の推論を独立した領域として扱うことが多い。これにより、マルチモーダル推論のジェネラリストに向けた拡張性が制限され、実用的な汎用性が阻害され、タスクやモダリティを跨る知識共有の可能性も妨げられている。この課題に対処するため、我々はOneThinkerを提案する。これは、質問応答、キャプション生成、空間的・時間的グラウンディング、追跡、セグメンテーションといった多様な基礎的視覚タスクを統一的に扱う、画像と動画の理解を一体化したオールインワン推論モデルである。これを実現するため、我々はこれら全てのタスクを網羅するOneThinker-600kトレーニングコーパスを構築し、商業モデルを利用してCoT(Chain-of-Thought)アノテーションを行い、SFT(Supervised Fine-Tuning)のコールドスタート用にOneThinker-SFT-340kを生成した。さらに、マルチタスクRLにおける報酬の不均一性を扱うため、報酬標準偏差のタスク別移動平均を追跡して最適化のバランスを取るEMA-GRPOを提案する。多様な視覚ベンチマークでの大規模実験により、OneThinkerが10の基礎的視覚理解タスクに跨る31のベンチマークで強力な性能を発揮することが示された。さらに、特定のタスク間での効果的な知識転移と、初歩的なゼロショット一般化能力を示しており、統合されたマルチモーダル推論ジェネラリストへの一歩を記すものである。全てのコード、モデル、データを公開する。
ビジョン言語モデル(VLM)は質的な視覚理解において優れた能力を示すが、具身化応用に必要とされる計量的に精密な空間推論には課題を抱えている。エージェント的パラダイムでは、深度推定器、セグメンテーションモデル、姿勢推定器など、これらの能力を強化する多様なツールをVLMが活用できる可能性が示唆されている。しかし、手作りのプロンプト戦略のみに依存したり、VLMの最適なツール使用パターン発見を制限する固定的なツールパイプラインを強制することなく、このビジョンを実現する方法は未解決の課題である。強化学習はこの課題を克服できる可能性があるが、多ツール推論における探索空間の膨大さから、これまで単一の視覚ツールを用いた推論に限定されていた。我々はDouble Interactive Reinforcement Learning(DIRL)を提案する。これはVLMが対話的探索とフィードバックを通じて複数ツールの協調を学習する二段階トレーニングフレームワークである。指導段階では、対話型強化学習で訓練された単一ツール専門家のデモンストレーションと、全ツールを使用するフロンティアモデルのトレースを組み合わせる。探索段階では、モデルが継続的な強化学習を通じて多ツール協調をさらに洗練させる。ツール拡張型空間推論能力を備えた我々のモデルSpaceToolsは、空間理解ベンチマーク(RoboSpatial-Home、BLINK、BOP-ASK)で最先端の性能を達成し、7自由度ロボットをツールとして用いた信頼性の高い実世界マニピュレーションを実証した。DIRLは、標準のSFT(RoboSpatialで+12%)および強化学習ベースライン(RoboSpatialで+16%)を大幅に上回る改善を示す。プロジェクトページ: https://spacetools.github.io/。
ユーザーの意図と生成された視覚的出力の正確な一致を実現することは、テキストから視覚的生成における中心的な課題であり、単一の試行では所望の出力が得られないことが多い。この問題に対処するため、従来のアプローチは主に視覚的生成プロセスのスケーリング(例:サンプリングステップ数やシード数の増加)に依存してきたが、これは急速に品質の頭打ち現象を引き起こす。この制限は、生成を誘導する重要な要素であるプロンプトが固定されたままであることに起因する。そこで我々は、推論時にスケーリングされた視覚的生成に応答してプロンプトを適応的に修正するフレームワーク、Prompt Redesign for Inference-time Scaling(PRIS)を提案する。PRISの核心的なアイデアは、生成された視覚コンテンツをレビューし、視覚的出力間で繰り返し発生する失敗パターンを特定し、それに応じてプロンプトを再設計した上で、修正されたプロンプトで視覚的出力を再生成することである。プロンプト修正のための正確な一致フィードバックを提供するため、我々は新しい検証器である要素レベル事実修正を導入する。これはプロンプトの属性と生成された視覚的出力の一致を細粒度レベルで評価し、全体的な評価指標よりも正確で解釈可能な評価を実現する。テキストから画像およびテキストから動画のベンチマークにおける大規模な実験により、本アプローチの有効性が実証され、VBench 2.0において15%の向上を達成した。これらの結果は、プロンプトと視覚的出力の共同スケーリングが、推論時のスケーリング則を最大限に活用する鍵であることを示している。可視化結果は以下のウェブサイトで公開されている:https://subin-kim-cv.github.io/PRIS。
真にインタラクティブな世界モデルには、3つの重要な要素が求められる:リアルタイムの長期間ストリーミング、一貫性のある空間メモリ、そして精密なユーザー制御である。しかし、既存の手法の多くはこれらの側面を個別にしか扱っておらず、3つを同時に達成することは極めて困難である。例えば、長期メモリ機構は往々にしてリアルタイム性能を低下させる。本論文では、これら3つの課題を統合的に解決するフレームワーク「RELIC」を提案する。単一の画像とテキスト記述を入力として、RELICはメモリを考慮した任意シーンの長時間探索をリアルタイムで実現する。最近の自己回帰的ビデオ拡散蒸留技術を基盤とし、本モデルは相対的な動作と絶対カメラ姿勢で符号化された高圧縮履歴潜在トークンをKVキャッシュ内に保持することで、長期的なメモリを表現する。このコンパクトでカメラを意識したメモリ構造は、暗黙的な3D一貫性コンテンツ検索を支援し、最小限の計算オーバーヘッドで長期的な一貫性を保証する。並行して、双方向の教師ビデオモデルをファインチューニングし、元々の5秒間の学習範囲を超えるシーケンスを生成可能にするとともに、新しいメモリ効率型の自己強制パラダイムを用いて因果的な生徒生成器へ変換する。これにより、長時間の教師データと生徒自身の長期自己展開の両方に対する全文脈蒸留を実現する。140億パラメータモデルとして実装され、厳選されたUnreal Engine描画データセットで学習されたRELICは、16FPSでのリアルタイム生成を達成し、従来研究と比較してより正確な動作追従、より安定した長時間ストリーミング、より堅牢な空間メモリ検索を実証する。これらの能力は、RELICが次世代インタラクティブ世界モデリングの強固な基盤となることを示している。
画像を用いて思考するマルチモーダル大規模言語モデル(MLLM)は、ツールを対話的に利用して視覚入力を推論できるが、現在のアプローチは実世界での必要性や拡張性が限られた狭いツールセットに依存することが多い。本研究ではまず、重大かつ従来看過されてきた弱点を明らかにする:最先端のMLLMでさえ、単純な向き変更や自然な劣化が加えられた画像に対して性能が著しく低下する驚くべき脆弱性を示し、より頑健なツールベース推論の必要性を浮き彫りにする。この問題に対処するため、我々はCodeVisionを提案する。これは固定されたツールレジストリを超えて、モデルが任意の画像操作を呼び出すための普遍的なインターフェースとしてコードを生成する、柔軟で拡張性の高いコード・アズ・ツールフレームワークである。我々は2段階の手法でモデルを学習する。複雑なマルチターンでのツール合成とエラー回復のために精選された高品質データセットによる教師ありファインチューニング(SFT)から開始し、その後、戦略的かつ効率的なツール利用を促進する新規で高密度なプロセス報酬関数を用いた強化学習(RL)を実施する。この研究を促進するため、新たなSFTおよびRLデータセットを構築し、向き変更への頑健性とマルチツール推論を厳密に評価するために設計された挑戦的な新しいベンチマークスイートを導入する。Qwen2.5-VLおよびQwen3-VLシリーズでの実験により、本アプローチがモデル性能を大幅に改善し、柔軟なツール合成、効率的な連鎖実行、ランタイムフィードバックからの頑健なエラー回復といった創発的能力を育むことを示す。コードはhttps://github.com/ByteDance-BandAI/CodeVision で公開されている。
Normalizing Flows(NFs)は、数学的に可逆なアーキテクチャを特徴とする生成モデルの一種であり、順方向変換ではデータを潜在空間に写像して密度推定を行い、逆方向変換ではこの空間から新たなサンプルを生成する。この特性により、表現学習とデータ生成の間に本質的な相乗効果が生まれる。しかし、従来のNFsの生成品質は、対数尤度最適化から得られる意味表現の貧弱さによって制限されている。この問題を解決するため、我々はNFsの可逆性を創造的に活用した新たなアライメント戦略を提案する。順方向変換を正則化する代わりに、生成(逆方向)過程の中間特徴を強力な視覚基盤モデルからの表現と整合させることで、単純なアライメント手法を上回る有効性を実証する。さらに、分類タスクにおいて訓練を必要としない新規のテスト時最適化アルゴリズムを導入し、NFに埋め込まれた意味知識のより本質的な評価を可能にする。大規模な実験により、本手法がNFsの訓練速度を3.3倍以上高速化すると同時に、生成品質と分類精度の両方で顕著な改善をもたらすことを実証した。ImageNet 64×64および256×256において、NFsの新たなstate-of-the-artを達成する。コードはhttps://github.com/MCG-NJU/FlowBack で公開されている。
大規模言語モデル(LLMs)を人間の選好に合わせる手法は、一般的に外部の監督に依存しているが、これには重大な限界がある。すなわち、人間による注釈は不足しており主観的であり、報酬モデルは報酬ハッキングの脆弱性を抱え、自己評価手法はプロンプトへの感受性やバイアスの影響を受けやすい。本研究では、モデルの内部表現から導出される、教師信号を必要としない内在的な品質指標である安定ランク(stable rank)を提案する。安定ランクは、隠れ状態の実質的な次元数を、全分散と支配的方向への分散の比を計算することで測定し、情報が表現次元全体にどのように分布するかを通じて品質を捉える。実験では、安定ランクはRewardBenchにおいて84.04%の精度を達成し、Best-of-Nサンプリングを用いた貪欲復号法と比較してタスク精度を平均11.3ポイント向上させた。この知見を活用し、安定ランクを強化学習の報酬信号として利用するStable Rank Group Relative Policy Optimization(SR-GRPO)を導入する。外部監督なしで、SR-GRPOはQwen2.5-1.5B-Instructモデルにおいて、STEMタスクで10%、数学的推論タスクで19%の改善をもたらし、学習済み報酬モデルおよび自己評価ベースライン手法を上回った。我々の発見は、品質信号がモデルの内部的な幾何学的構造から抽出可能であることを示し、外部監督に依存しないスケーラブルなアライメント手法への道筋を提示する。
ニューラル・プロセッシング・ユニット(NPU)はエッジAIにおいて高い理論的な効率を提供するが、GPU向けに調整された最先端のVision-Languageモデル(VLM)は、これらの基盤上ではしばしば十分な性能を発揮できない。我々はこのハードウェアとモデルのミスマッチを、主に2つの要因に帰因する:Vision Transformer(ViT)の量子化の脆弱性、および、NPUの高い演算スループットを活用できない自己回帰的注意機構のI/Oバウンドな性質である。この隔たりを埋めるため、我々は整数演算のみの推論のために協調設計されたNPUネイティブなVLMアーキテクチャ、AutoNeuralを提案する。標準的なViTエンコーダを、深度分離可能畳み込みを利用したMobileNetV5スタイルのバックボーンに置き換えることで、安定したINT4/8/16量子化のための有界な活性化分布を保証する。これを補完するため、我々の言語バックボーンはState-Space Model(SSM)の原理をTransformer層と統合し、線形時間計算量を実現する効率的なゲート付き畳み込みを採用する。このハイブリッド設計は、生成時のKey-Valueキャッシングに伴う重いメモリI/Oオーバーヘッドを排除する。本手法は大幅な効率向上をもたらし、従来のベースラインと比較して、ビジョンエンコーダの量子化誤差を最大7分の1に低減し、エンドツーエンドのレイテンシを14分の1に削減する。AutoNeuralはまた、ベースラインと比べて3倍のデコード速度と4倍の長いコンテキストウィンドウを実現する。我々は、クアルコムSA8295P SoC上での実世界の自動車ユースケーススタディを通じてこれらの改善を検証し、コックピットアプリケーションにおけるリアルタイム性能を実証する。我々の結果は、NPUの制約に特化してモデルトポロジを再考することが、堅牢なマルチモーダルエッジ知能の前提条件であることを示唆している。
調理は段階的で視覚に基づく活動であり、刻む、混ぜる、揚げるといった各工程は、手順の論理性と視覚的意味論の両方を持ちます。近年の拡散モデルはテキストから画像への生成において優れた能力を示していますが、レシピのイラスト化のような構造化された多段階のシナリオを扱うことは困難です。さらに、既存のレシピイラスト生成手法は、実際の手順の構造に関わらず固定枚数の画像を生成するため、レシピの長さに自然に適応することができません。これらの課題を解決するため、本論文ではCookAnythingを提案します。これは任意の長さの調理手順テキストから、一貫性があり意味的に明確な画像シーケンスを生成する、柔軟な拡散モデルベースのフレームワークです。本フレームワークは以下の3つの主要コンポーネントを導入します:(1) 単一のノイズ除去プロセス内でテキストの工程と対応する画像領域を整合させるStep-wise Regional Control (SRC)、(2) 時間的一貫性と空間的多様性の両方を強化する工程を考慮した位置符号化機構Flexible RoPE、(3) 工程間で微細な食材の一貫性を維持するCross-Step Consistency Control (CSCC)です。レシピイラスト生成のベンチマークにおける実験結果は、CookAnythingが学習ベース及び学習不要の設定において既存手法よりも優れた性能を発揮することを示しています。提案フレームワークは、複雑な多段階手順のスケーラブルで高品質な視覚的合成をサポートし、教育メディアや手順に基づくコンテンツ創作における幅広い応用への大きな可能性を秘めています。
2019年以降、Hugging Face Model HubはオープンウェイトAIモデルを共有する主要な国際プラットフォームとして機能してきた。週次モデルダウンロードの完全な履歴データセット(2020年6月~2025年8月)とモデルメタデータを公開することで、我々はオープンモデルエコノミーにおける集中動態と進化する特性に関して、これまでで最も厳密な分析を提供する。本分析は851,000のモデル、モデル当たり200以上の集約属性、22億回のダウンロードデータに及ぶ。経済的パワーの根本的な再均衡を実証した:Google、Meta、OpenAIによる米国オープンウェイト産業の支配力は、非所属開発者やコミュニティ組織、そして2025年には中国産業(DeepSeekとQwenモデルが市場パワーの新たな集中の先駆けとなる可能性)に著しく移行している。モデル特性における統計的有意な変化を確認:平均モデルサイズは17倍増加、マルチモーダル生成(3.4倍)、量子化(5倍)、Mixture-of-Expertsアーキテクチャ(7倍)が急成長する一方、データ透明性の懸念すべき低下が観測され、2025年に初めてオープンウェイトモデルが真のオープンソースモデルを数量で上回った。効率化と芸術的表現の両面で基盤モデルの量子化と適応に特化した、新たな開発者仲介層の台頭を明らかにする。継続的な研究と監視を可能にするため、オープンモデルエコノミーの集中動態と進化する特性をリアルタイムで監視可能な対話型ダッシュボード付きの完全データセットを公開する。
私たちは、24億パラメータを持つ視覚言語モデル「Jina-VLM」を発表します。本モデルは、オープンな20億規模のVLMの中で、多言語視覚質問応答において最高精度を達成しました。SigLIP2ビジョンエンコーダーとQwen3言語バックボーンを、任意解像度の画像をトークン効率的に処理可能なアテンションプーリング接続部で統合しています。標準的なVQAベンチマークおよび多言語評価において、Jina-VLMは同等規模のモデルを凌駕する性能を示しつつ、テキスト単体タスクでも競争力のある性能を維持しています。
画像とテキストの整合性を評価するCLIPなどのモデルの評価は、視覚的表現と言語的表現の橋渡しにおいて重要である。しかし、既存のベンチマークはルールベースの摂動や短いキャプションに依存しており、細粒度の整合性を測る能力が限られている。本論文ではAlignBenchを提案する。これは多様な画像→テキストモデルおよびテキスト→画像モデルによって生成された詳細な画像とキャプションのペアを評価することで、画像とテキストの整合性に関する新たな指標を提供するベンチマークである。各文は正確性について注釈が付与されており、VLMsを整合性評価器として直接評価することを可能にする。様々なデコーダベースのVLMをベンチマークした結果、以下の3つの主要な知見が得られた:(i) 構成論的推論用に調整されたモデルを含むCLIPベースのモデルは、依然としてほぼ「盲目」の状態である、(ii) 検出器は最初の文を体系的に過大評価する、(iii) 検出器は自身の出力を好む強い自己選好性を示し、検出性能を損なう。プロジェクトページはhttps://dahlian00.github.io/AlignBench/ で公開予定である。
我々は、大規模言語モデル(LLM)に対するシンプルな文脈内表現ハイジャック攻撃「ダブルスピーク」を提案する。この攻撃は、有害なリクエストの接頭辞が与えられた複数の文脈内事例において、有害なキーワード(例:爆弾)を無害なトークン(例:人参)に体系的に置換することで機能する。この置換により、無害なトークンの内部表現が有害なトークンの表現に収束し、婉曲表現の下に有害な意味論を効果的に埋め込むことを実証する。その結果、表面的には無害なプロンプト(例:「人参の作り方は?」)が内部的には禁止された指示(例:「爆弾の作り方は?」)として解釈され、モデルの安全性調整を回避する。解釈可能性ツールを用いて、この意味論の上書きが層ごとに出現し、初期層での無害な意味が後続層で有害な意味論に収束することを示す。ダブルスピークは最適化を必要とせず、モデルファミリー間で広く転移可能であり、クローズドソース及びオープンソースシステムで高い成功率を達成する(単一文の文脈上書きでLlama-3.3-70B-Instructにおいて74%のASRに達する)。我々の発見は、LLMの潜在空間における新たな攻撃面を浮き彫りにし、現在の調整戦略が不十分であり、代わりに表現レベルで動作すべきであることを明らかにする。
大規模言語モデル(LLM)をモバイルプラットフォームに展開する際には、デバイスのメモリ制約や計算リソースの共有環境により、大きな課題が生じる。リソース可用性は現在のデバイス負荷に直接影響を受けるため不安定であり、モデル展開の不確実性を増大させる。本論文では、エッジLLM向けにオンデバイスで設定可能なプルーニング率を備えた統一的な学習後量子化および低ランク圧縮フレームワーク「UniQL」を提案する。UniQLは、Transformer、状態空間モデル(SSM)、ハイブリッドモデルに対応する量子化と低ランク圧縮を統合した汎用フレームワークであり、多様なエッジアプリケーションをサポートする。提案する統合フレームワークでは、計算速度を20倍高速化する効率的な構造化重みソート手法、量子化誤差を最小化する量子化考慮型特異値分解(SVD)、SSM向けの状態考慮型重みソート、およびプルーニング済みモデル向けの融合型RoPEカーネルを導入する。本フレームワークは、重みソート、ファインチューニング、量子化をクラウド上で単一パスのワークフローで実行するとともに、オンデバイスで最大35%までの設定可能なプルーニング率を実現する。実験結果では、量子化およびプルーニングを施したモデルが、Transformer(Llama3、Qwen2.5)、SSM(Mamba2)、ハイブリッドモデル(Nemotron-H、Bamba-v2)において、15%のプルーニング時に元のモデルとの精度差を5%以内に維持しつつ、メモリ使用量を4~5.7倍削減、トークン処理スループットを2.7~3.4倍向上させることを示す。コードと量子化済みモデルはhttps://github.com/enyac-group/UniQL で公開されている。
長い思考連鎖を活用する推論モデルは、回答の検証、バックトラッキング、代替手法による再試行など、様々な認知スキルを駆使する。従来の研究では、ベース言語モデルがこれらのスキルを示す場合、強化学習(RL)による追加訓練によってそれらを効果的に活用できることが示されている。では、ベースモデルが持たないスキルをモデルに活用させるにはどうすればよいか?我々の研究であるSkillFactoryは、RLの前段階である教師ありファインチューニング(SFT)段階でこれらのスキルを概ね学習させる手法である。本手法はより強力なモデルからの知識蒸頼に依存せず、代わりにモデル自身が生成したサンプルを再構成し、それらのスキル形式に合わせた訓練データを提供する。これらの「シルバー」SFTトレースは不完全であっても、RL段階でスキルを獲得するための素地として有効である。評価結果から、(1) SkillFactoryのSFT初期化はRL前の性能は低いにも関わらず、RL後のタスク難易度が高いバリアントへの汎化を促進すること、(2) モデルが実際に認知スキルを使用していること、(3) SkillFactoryモデルはベースモデルよりも領域外タスクでの性能劣化に対して頑健であることが示された。本研究は、RL前に獲得された帰納的バイアスが、頑健な認知スキルの使用をモデルに学習させることを示唆している。
大規模マルチモーダルモデル(LMM)を長時間映像理解に応用する際には、限られたコンテキスト長と、高密度な映像トークン処理に伴う計算コストの膨大さが制約となっている。このため、近年の研究はクエリを考慮したフレーム選択に焦点が当てられてきたが、これらの手法にはしばしば多大な計算オーバーヘッドが生じる。本論文は、このような複雑な検索メカニズムが普遍的に必要であるという前提に疑問を投げかける。我々はまず、グローバルクエリとローカライズドクエリを区別するクエリ分類を特定し、検証する。均一サンプリングがグローバルクエリに対して有効かつ効率的であるのに対し、ローカライズドクエリでは最適な性能を得るために確かにクエリを考慮した選択が必要であることを実証する。この知見に基づき、クエリタイプに応じて戦略を適応させる、学習不要のフレーム選択フレームワークであるDIGを提案する。具体的には、DIGはグローバルクエリに対しては効率的な均一サンプリングを採用し、ローカライズドクエリに対しては、クエリに関連するフレームを抽出する専用のパイプラインを起動する。3つの長時間映像理解ベンチマークを用いた実験により、DIGが既存のベースラインを一貫して上回り、入力フレーム数を256にスケーリングした場合でも、LMMの性能を堅牢に向上させることを実証する。
Vision-Language Models(VLM)は視覚質問応答タスクにおいて顕著な成功を収めているが、大量の視覚トークンへの依存が計算コストの重大な負担となっている。既存の効率的なVLM手法は固定比率の圧縮によって視覚トークンを削減するが、これらは受動的であり、様々なタスク要求に適応する能力を欠いている。この状況は根本的な問いを提起する:VLMは各サンプルに必要な最小限の視覚トークン数を自律的に決定できるか?人間の能動的視覚メカニズムに着想を得て、本論文では粗視化から精緻化へのアプローチによる適応的視覚トークン獲得を実現する効率的VLMパラダイム「AdaptVision」を提案する。本モデルはまず低解像度画像から圧縮された視覚トークンを処理し、必要に応じてバウンディングボックスツールを起動して重要領域を切り出すことで、追加的な視覚情報を選択的に取得する。AdaptVisionの訓練には、精度と効率性を慎重に均衡させる強化学習フレームワークを採用する。我々の手法の中核となるのは、学習目標を二要素に分離するDecoupled Turn Policy Optimization(DTPO)である:(1)正しいツール利用を最適化するツール学習、(2)回答の正確性向上のために生成応答を洗練させる精度改善。この定式化に基づき、各目標に関連するトークンに対して個別にアドバンテージを計算することで、アドバンテージ推定も分離する。この定式化により、従来のGRPOと比較してAdaptVisionのより効果的な最適化が可能となる。複数のVQAベンチマークにおける総合的な実験により、AdaptVisionが最先端の効率的VLM手法よりも大幅に少ない視覚トークン消費量で優れた性能を達成することが実証された。
拡散モデルは動的シーンのぼけ除去に有望であるが、既存研究では拡散モデル内のぼけ生成プロセスの本質的特性を十分に活用できておらず、その真の可能性を制限している。この問題に対処するため、本研究では画像のぼけ除去において、ぼけ生成プロセスを拡散モデルにシームレスに統合したBlur Diffusion Model (BlurDM) を提案する。モーションブラーが連続露光に起因することに着目し、BlurDMは二重拡散順方向スキームを通じて、ノイズとブラーをシャープ画像に拡散させることで、ぼけ生成プロセスを暗黙的にモデル化する。逆生成プロセスでは、二重のノイズ除去・ぼけ除去の定式化を導出し、ぼけ画像を条件とした純粋なガウシアンノイズを入力として、BlurDMがノイズ除去とぼけ除去を同時に行うことでシャープ画像を復元できるようにする。さらに、BlurDMをぼけ除去ネットワークに効率的に統合するため、潜在空間でBlurDMを実行し、ぼけ除去のための柔軟な事前生成ネットワークを構築する。大規模な実験により、BlurDMが4つのベンチマークデータセットにおいて、既存のぼけ除去手法を著しくかつ一貫して改善することが実証された。ソースコードはhttps://github.com/Jin-Ting-He/BlurDMで公開されている。
注意機構は基盤モデルの核心をなすが、その二次計算量はスケーリングにおける重大なボトルネックとして残っている。この課題が効率的な注意機構の開発を促し、スパース性が主要なパラダイムとして台頭してきた。現在の手法は一般に、バイナリマスクを用いてキー・バリューブロック全体を保持または破棄するため、高スパース性下では情報損失が大きくなる。この問題を緩和するため、本論文では映像理解と生成の両タスクに適用可能な多目的モジュールであるPyramid Sparse Attention(PSA)を提案する。PSAはバイナリマスクの代わりに、マスクの細かい粒度を実現する多段階プーリングKV表現を導入する。具体的には、各クエリブロックが重要なKVブロックには低いプーリングレベルを、重要度の低いブロックには高いレベルを動的に割り当て、完全保持と完全剪定の間の情報豊かな補間を生成する。この設計は、固定小数点量子化や計算機ビジョンにおける古典的特徴ピラミッドネットワークに類似し、低計算予算下で計算効率を保ちつつ情報損失を効果的に軽減する。PSAは分離されたブロック・タイル設計を活用したハードウェアフレンドリーなネイティブカーネルで動作し、効率的な実行を保証する。映像理解と生成のベンチマークにおいて、PSAは文脈情報と視覚的忠実度を保持し、優れた効率性と品質のトレードオフを達成しつつ、既存のスパース注意ベースラインを一貫して上回る、または同等の性能を達成する。実装コードとモデル重みはhttp://ziplab.co/PSAで公開している。
グラフィックデザインは、現代の視覚的コミュニケーションの基盤を形成し、文化的・商業的イベントを促進する重要な媒体として機能している。近年の進展では大規模マルチモーダルモデル(LMM)を用いたこのプロセスの自動化が探求されているが、既存手法では幾何学的に不正確なレイアウトが生成されたり、専門的なワークフローで必要とされる反復的でレイヤー固有の編集機能が欠如したりする場合が多い。これらの課題を解決するため、我々は専門的なグラフィックデザインのためのレイアウト推論と制御可能な編集を推進するフレームワーク「PosterCopilot」を提案する。具体的には、レイアウト設計における幾何学的理解と美的推論をLMMに習得させるための段階的な3段階学習戦略を導入する。これは、摂動付き教師ありファインチューニング、視覚的現実への整合性を目的とした強化学習、および美的フィードバックからの強化学習から構成される。さらに、学習済みのLMMベースのデザインモデルと生成モデルを連携させる完全なワークフローを開発し、大域的な視覚的一貫性を維持しつつ、精密な要素調整のためのレイアウト制御可能な反復的編集を実現する。大規模な実験により、PosterCopilotが幾何学的に正確で美的に優れたレイアウトを達成し、専門的な反復設計に前例のない制御性を提供することが実証された。
我々は、マルチモーダル大規模言語モデル(MLLM)に対する新たな脅威のクラスである「敵対的混乱攻撃」を提案する。本攻撃は、モデル jailbreak や特定の誤分類誘導とは異なり、モデルに一貫性のない、または過剰に自信を持った誤った出力を体系的に生成させることを目的とする。実用的な応用例として、このような敵対的画像をウェブサイトに埋め込むことで、MLLMを搭載したAIエージェントの信頼性のある動作を妨げることが挙げられる。提案手法は、少数のオープンソースMLLMアンサンブルを用いて次トークンのエントロピーを最大化する。ホワイトボックス設定において、単一の敵対的画像が、フル画像設定およびAdversarial CAPTCHA設定の双方において、アンサンブル内の全てのモデルを混乱させ得ることを示す。基本的な敵対的攻撃手法(PGD)に依存しているにもかかわらず、本攻撃が生成する摂動は、未学習のオープンソースモデル(例:Qwen3-VL)およびプロプライエタリモデル(例:GPT-5.1)に対しても転移する。