翻訳付きの日次キュレーションされたAI研究論文
既存の拡散ベースの動画生成手法は、逐次計算と長期的な不一致に根本的に制約されており、リアルタイム・ストリーミング型の音声駆動アバター合成における実用的な採用を妨げている。本論文ではLive Avatarを提案する。これはアルゴリズムとシステムを協調設計したフレームワークであり、140億パラメータの拡散モデルを用いて効率的で高精細、かつ無限長のアバター生成を実現する。我々のアプローチでは、Timestep-forcing Pipeline Parallelism(TPP)を新たに導入する。これは複数のGPU間でノイズ除去ステップをパイプライン化する分散推論パラダイムであり、自己回帰的ボトルネックを効果的に解消し、安定した低遅延のリアルタイムストリーミングを保証する。さらに時間的一貫性を強化し、アイデンティティの変動や色のアーティファクトを軽減するため、Rolling Sink Frame Mechanism(RSFM)を提案する。これはキャッシュされた参照画像を用いて外観を動的に再較正することで、シーケンスの忠実度を維持する。加えて、Self-Forcing Distribution Matching Distillationを活用し、視覚品質を損なうことなく大規模モデルの因果的・ストリーミング可能な適応を促進する。Live Avatarは最先端の性能を示し、5台のH800 GPU上でエンドツーエンド生成において20 FPSを達成する。我々の知る限り、この規模で実用的なリアルタイム高精細アバター生成を実現した初めての事例である。本研究は、産業向け長尺動画合成アプリケーションへの先進的拡散モデル導入における新たなパラダイムを確立する。
現実の企業におけるデータインテリジェンスワークフローは、生データを分析可能なテーブルに変換するデータエンジニアリングと、それらのテーブルを意思決定指向の洞察に変換するデータ分析から構成されます。本論文では、こうした複雑なワークフローを反映した210のタスクからなるベンチマーク「DAComp」を提案します。データエンジニアリング(DE)タスクは、産業レベルのスキーマに対するリポジトリレベルでのエンジニアリングを要求し、ゼロから多段階のSQLパイプラインを設計・構築することや、変化する要件に対応した既存システムの進化を含みます。データ分析(DA)タスクは、戦略的計画、反復的なコーディングによる探索的分析、中間結果の解釈、実践的な提言の統合を必要とするオープンエンドのビジネス課題を提起します。エンジニアリングタスクは、実行ベースの多角的評価によって採点されます。オープンエンドタスクは、階層的で入念に設計された評価基準に基づく、信頼性が実験的に検証されたLLM判定者によって評価されます。実験結果から、最先端のエージェントであってもDACompでは課題に直面することが明らかになりました。DEタスクの成功率は20%未満と特に低く、単なるコード生成ではなく、ホリスティックなパイプラインオーケストレーションにおける重大なボトルネックが浮き彫りになりました。DAタスクのスコアも平均40%未満であり、オープンエンド推論における深刻な不足が示され、エンジニアリングと分析が異なる能力であることが実証されました。DACompはこれらの限界を明確に診断することで、企業環境において真に有能な自律データエージェントの開発を推進する厳密かつ現実的なテストベッドを提供します。データとコードはhttps://da-comp.github.ioで公開されています。
大規模言語モデル(LLM)が受動的な応答者から自律的なエージェントへと進化するにつれ、学習パラダイムは静的な模倣からインセンティブ駆動型の意思決定へと根本的な転換を迫られています。しかし、効果的な方策学習のための高品質なインタラクション信号を構築できるスケーラブルなインフラストラクチャの欠如が、この移行を大きく阻んでいます。この問題に対処するため、我々はインタラクティブ環境の多様性と複雑性を体系的に拡張する包括的手法を提案します。本手法は3つの直交する次元にアプローチすることでスケーリングを実現します:(1)複雑性:シンプルな設定で複雑なエージェント階層の構築を支援する柔軟なエージェントフレームワークNexAU、(2)多様性:自然言語から多様なエージェント階層を自動生成し無限の領域をカバーするNexA4A、(3)忠実度:動的な実世界環境を統合し接地された軌道合成を実現するNexGAPによるシミュレーションと現実のギャップの解消です。我々はこのインフラストラクチャ上に構築した多様で複雑なインタラクティブ環境を用いてNex-N1を学習させました。SWE-benchやtau2などのベンチマークにおける実験結果では、Nex-N1が複雑なエージェントタスクにおいて、常にSOTAのオープンソースモデルを上回り、最先端のプロプライエタリモデルに対しても遜色ない性能を発揮することが示されています。今後の研究の発展に向け、Nexエコシステムとモデル重みをオープンソースとして公開します。
大規模言語モデルが学術執筆ワークフローに組み込まれる機会が増えているが、既存のアシスタントはエディタ外部に留まり、文書の状態・構造・修正履歴との深い連携が阻まれている。この分断により、OverleafのようなLaTeXエディタ内で文脈を理解した自律的な操作を直接サポートすることが不可能となっている。本研究ではPaperDebuggerを提案する。これはエディタ内動作型でマルチエージェント・プラグインベースの学術執筆アシスタントであり、LLM駆動の推論を執筆環境に直接導入する。このようなエディタ内連携を実現するには技術的に複雑な課題がある:エディタとの信頼性の高い双方向同期、細粒度のバージョン管理とパッチ適用、安全な状態管理、マルチエージェントのスケジューリング、外部ツールとの拡張可能な通信が求められる。PaperDebuggerは、Chrome公認の拡張機能、Kubernetesネイティブなオーケストレーション層、文献検索・参照検索・文書採点・修正パイプラインを統合したModel Context Protocol(MCP)ツールチェーンによりこれらの課題に取り組む。デモでは、ローカル化された編集、構造化された査読、並列エージェント実行、差分ベースの更新を含む完全に統合されたワークフローを、最小限の侵襲性を持つユーザーインターフェース(UI)に封じ込めて提示する。初期の集計分析では活発なユーザー参加が確認され、エディタネイティブな自律型執筆アシスタンの実用性が実証されている。詳細なデモと動画はhttps://github.com/PaperDebugger/PaperDebugger で公開中である。
報酬モデルは視覚言語システムを人間の選好に合わせる上で重要であるが、現行のアプローチは幻覚現象、弱い視覚的接地、検証のためのツール活用不能といった課題を抱えており、複雑なマルチモーダル推論タスクにおける信頼性を制限している。本論文ではARM-Thinkerを提案する。これは外部ツール(画像切り抜き、文書ページ検索など)を自律的に起動して判断を検証可能な証拠に基づかせるエージェント型マルチモーダル報酬モデルであり、静的な非対話型の報酬スコアリングを置き換える。これにより、既存の報酬モデルにはない能力である、細粒度の視覚的詳細の検証、複数ページにわたる証拠の相互参照、推論主張の検証が可能となる。ARM-Thinkerは多段階強化学習により、ツール呼び出し判断と評価精度を共同で最適化するように訓練する。エージェント型報酬モデリングを評価するため、細粒度視覚接地(画像レベルツール)、複数ページ文書理解(検索ツール)、指示追従(テキストレベル検証)を評価する3つのベンチマークからなるARMBench-VLを導入した。ARM-Thinkerは報酬モデリングベンチマークで平均16.2%、ツール使用タスクで9.6%の改善を達成し、マルチモーダル数学推論および論理推論ベンチマークにおいてベースラインを上回った。本結果は、エージェント機能が報酬モデルの精度と解釈可能性の両方を大幅に強化することを実証している。
潜在拡散モデル(LDM)は本質的に粗い生成から細かい生成へのプロセスをたどり、高レベルな意味構造が微細なテクスチャよりもわずかに早く生成される。これは、先行する意味情報がセマンティックアンカーを提供することでテクスチャ生成に寄与する可能性を示唆している。最近の進歩では、事前学習済み視覚エンコーダから意味的先行知識を統合してLDMを強化する手法が登場しているが、それらは依然として意味情報とVAEで符号化されたテクスチャを同期してノイズ除去しており、この順序関係を無視している。この観察に基づき、我々は意味形成を明示的に優先する潜在拡散パラダイム「Semantic-First Diffusion(SFD)」を提案する。SFDはまず、専用のSemantic VAEを介して事前学習済み視覚エンコーダから抽出したコンパクトな意味潜在変数とテクスチャ潜在変数を組み合わせて複合潜在変数を構築する。SFDの中核は、意味潜在変数とテクスチャ潜在変数を異なるノイズスケジュールで非同期にノイズ除去することである:意味情報はテクスチャに対して時間的なオフセットで先行し、テクスチャ精製により明確な高レベルガイダンスを提供し、自然な粗い生成から細かい生成への移行を可能にする。ImageNet 256×256におけるガイダンス付き生成では、SFDはFID 1.06(LightningDiT-XL)およびFID 1.04(1.0B LightningDiT-XXL)を達成し、オリジナルのDiTと比べて最大100倍の高速収束を実現した。SFDはReDiやVA-VAEなどの既存手法も改善し、非同期で意味主導のモデリングの有効性を実証している。プロジェクトページとコード:https://yuemingpan.github.io/SFD.github.io/
効率的なストリーミング動画生成は、インタラクティブでダイナミックな世界のシミュレーションにおいて重要である。既存手法では、スライディングウィンドウアテンションを用いた少数ステップのビデオ拡散モデルを蒸留し、初期フレームをシンクトークンとして利用することで、アテンション性能を維持し誤差蓄積を軽減している。しかし、この手法ではビデオフレームがこれらの静的なトークンに過度に依存し、初期フレームのコピーや動的表現の減衰を招く。この問題を解決するため、我々はReward Forcingという新規フレームワークを提案する。本フレームワークには2つの核心的設計が含まれる。第一に、EMA-Sinkを提案する。これは初期フレームから初期化された固定サイズのトークンを維持し、スライディングウィンドウから退出するトークンを指数移動平均で統合しながら継続的に更新する。追加の計算コストなしで、EMA-Sinkトークンは長期的な文脈と最近の動的変化の両方を捕捉し、初期フレームのコピーを防止しながら長期的な一貫性を維持する。第二に、教師モデルから動的表現をより効果的に蒸留するため、新規のRewarded Distribution Matching Distillation(Re-DMD)を提案する。従来の分布マッチングは全ての訓練サンプルを均等に扱うため、動的コンテンツを優先するモデルの能力が制限されていた。これに対しRe-DMDは、視覚言語モデルによって評価された動的性が高いサンプルを優先的に扱うことで、モデルの出力分布を高報酬領域へ偏らせる。Re-DMDはデータの忠実性を保ちつつ、動的品質を大幅に向上させる。定量的・定性的実験により、Reward Forcingが標準ベンチマークでstate-of-the-art性能を達成し、単一のH100 GPUで23.1 FPSの高品質ストリーミング動画生成を実現することを示す。
動的な物理世界を理解することは、人間とエージェントの相互作用にとって極めて重要であり、具身化エージェントが現実環境を人間のように知覚し行動することを可能にします。この世界は、進化する3D構造、実世界の動き、テキスト記述を含む意味内容によって特徴づけられます。しかし、既存のデータセットは限られたシミュレーターから派生しているか、実尺度の注釈に伝統的なStructure-from-Motionを利用しており、記述的なキャプションも限定的です。これにより、インターネットから一般的に取得される単眼ビデオから実世界のダイナミクスを正確に解釈する基盤モデルの能力が制限されています。 こうしたギャップを埋めるため、我々は動的実世界ビデオのための物理尺度・マルチモーダル4D世界モデリングフレームワーク「DynamicVerse」を提案します。大規模視覚モデル、幾何学モデル、マルチモーダルモデルを活用し、メートル法尺度での静的幾何学、実世界の動的動き、インスタンスレベルのマスク、全体的な記述的キャプションを解釈します。ウィンドウベースのバンドル調整と大域最適化を統合することで、長時間の実世界ビデオシーケンスを包括的な4Dマルチモーダル形式に変換します。DynamicVerseは、インターネットビデオから収集した10万以上のビデオ、80万以上の注釈付きマスク、1000万以上のフレームで構成される大規模データセットを提供します。 ビデオ深度推定、カメラ姿勢推定、カメラ内部パラメータ推定という3つのベンチマークタスクにおける実験的評価により、我々の4Dモデリングが物理尺度の測定において既存手法よりも優れ、より高い大域的精度を達成することが実証されました。
オートリグレッシブ動画拡散モデルの最近の進歩により、リアルタイムフレームストリーミングが可能となったが、既存の手法では時間的な反復、ドリフト、動きの減速といった課題が依然として存在する。我々は、StreamingLLMスタイルのアテンションシンクを動画拡散モデルに単純に適用すると、忠実度の低下や動きの停滞を招くことを見出した。この問題を克服するため、我々はファインチューニングを一切必要としない、訓練不要の二つのメカニズムから成るDeep Forcingを提案する。具体的には、1) Deep Sinkはスライディングウィンドウの半分を永続的なシンクトークンに割り当て、それらの時間的RoPE位相を現在のタイムラインに再調整することで、長時間の生成におけるグローバルコンテキストを安定化する。2) Participative Compressionは、重要度を考慮したKVキャッシュの剪定を行い、最近のアテンションに積極的に参加しているトークンのみを保持し、冗長かつ劣化した履歴を安全に破棄することで、分布外長さの生成における誤差蓄積を最小化する。これらの構成要素を組み合わせることで、12倍以上の外挿(例:5秒学習で60秒以上の生成)を実現し、LongLiveを上回る画質、RollingForcingを上回る美的品質、全体的な一貫性をほぼ維持し、動的性において大幅な向上を示しつつ、リアルタイム生成を維持する。我々の結果は、訓練不要のKVキャッシュ管理が、オートリグレッシブな長尺動画生成ストリーミングにおいて、訓練ベースのアプローチに匹敵あるいは凌駕する性能を発揮し得ることを実証している。
我々は、多様な3D仮想世界を理解し行動する汎用具現化エージェント「SIMA 2」を提案する。Gemini基盤モデル上に構築されたSIMA 2は、具現化環境内での能動的・目標指向的な相互作用に向けた重要な一歩を表す。単純な言語コマンドに限定されていた従来研究(例:SIMA 1)とは異なり、SIMA 2は対話型パートナーとして機能し、高次元目標の推論、ユーザーとの会話、言語および画像による複雑な指示の処理が可能である。多様なゲーム群において、SIMA 2は人間のパフォーマンスとの差を大幅に縮め、基盤モデルの中核的推論能力を維持しつつ、未経験環境への強力な一般化能力を示す。さらに、我々は開かれた自己改善能力を実証する:Geminiを利用してタスクを生成し報酬を提供することで、SIMA 2は新規環境においてゼロから自律的に新たなスキルを学習できる。本研究成果は、仮想世界ひいては将来的には物理世界に向けた、汎用的で継続的に学習するエージェント創出への道筋を検証するものである。
4D言語フィールドの構築は、動的環境の豊富な意味表現を提供し、複雑なシナリオにおけるオープン語彙クエリを可能にするため、具身AI、拡張現実/仮想現実、4Dシーン理解にとって極めて重要である。しかし、既存の4D意味フィールド構築手法は、主にシーン固有のガウススプラッティングに依存しており、シーンごとの最適化が必要で、一般化能力が限られ、実世界アプリケーションへのスケーリングが困難である。これらの課題を解決するため、我々は幾何知覚と言語アラインメントを単一アーキテクチャ内で統合する、トランスフォーマーベースの初のフィードフォワード型統一フレームワークである4DLangVGGTを提案する。4DLangVGGTは、動的シーンの時空間幾何表現を捕捉する4D Visual Geometry Transformer(StreamVGGT)と、幾何認識特徴を言語整合セマンティック空間に投影することで構造的忠実性を保ちつつ意味解釈性を高めるSemantic Bridging Decoder(SBD)の二つの主要コンポーネントで構成される。従来手法のように高コストなシーンごと最適化に依存せず、4DLangVGGTは複数の動的シーンにわたって共同訓練可能で、推論時に直接適用でき、展開効率と強力な一般化能力を両立する。この設計は大規模展開の実用性を大幅に向上させ、オープン語彙4Dシーン理解の新たなパラダイムを確立する。HyperNeRFおよびNeu3Dデータセットでの実験により、本手法が効果的に一般化するだけでなく、シーンごと訓練では最大2%、マルチシーン訓練では1%の精度向上を達成し、最先端の性能を実現することを示す。コードはhttps://github.com/hustvl/4DLangVGGT で公開している。
単眼マネキンチャレンジ(MC)動画から高精細な凍結3Dシーンを合成することは、標準的な動的シーン再構築とは異なる独自の問題である。我々の目標は、動きのモデリングに注力するのではなく、凍結したシーンを作成しつつ、ユーザー制御による瞬間選択を可能にするために、微妙なダイナミクスを戦略的に保持することである。これを実現するため、我々は動的ガウススプラッティングの新たな応用法を提案する:シーンは動的にモデル化され(近傍の時間的変動を保持)、モデルの時間パラメータを固定することで静的なシーンがレンダリングされる。しかし、この使用法において、時間的な教師信号が疎な単眼撮影では、教師信号が弱いタイムスタンプで観測されなくなったり遮蔽されたりするガウシアンに、ゴーストやぼけなどのアーティファクトが生じる。我々は、Splannequin を提案する。これはアーキテクチャに依存しない正則化手法であり、ガウシアンプリミティブの「隠れ状態」と「欠損状態」という2つの状態を検出し、時間的アンカリングを適用する。主に前方へのカメラ運動が支配的な条件下では、隠れ状態は最近のよく観測された過去の状態に、欠損状態はより強い教師信号が得られる未来の状態に、それぞれアンカリングされる。本手法は、単純な損失項を介して既存の動的ガウシアンパイプラインに統合可能であり、アーキテクチャの変更を必要とせず、推論時のオーバーヘッドもゼロである。その結果、視覚品質が顕著に向上し、高精細でユーザーが選択可能な凍結時間レンダリングを実現し、96%のユーザー選好度によって検証された。プロジェクトページ: https://chien90190.github.io/splannequin/
近年、画像拡散トランスフォーマーは高精細な生成を実現しているが、学習解像度を超えるスケールでの画像生成には課題があり、コンテンツの繰り返しや品質劣化が生じやすい。本研究では、これらの問題を同時に解決する原理に基づいたフレームワーク「UltraImage」を提案する。位置埋め込みの周波数解析を通じて、繰り返し現象が支配周波数の周期性に起因することを明らかにし、その周期が学習解像度と一致することを確認した。我々は外挿後に支配周波数を単一周期内に制限する再帰的支配周波数補正を導入した。さらに、品質劣化が注意機構の希薄化に起因することを見出し、エントロピー誘導適応的注意集中法を提案する。これは微細なディテールを強調する局所注意には高い焦点係数を、構造的一貫性を保つ大域注意には低い係数を割り当てる手法である。実験では、3つの生成シナリオにおいて、UltraImageがQwen-ImageおよびFlux(約4K)で従来手法を一貫して上回り、繰り返しを軽減し視覚的忠実度を向上させることを示した。さらに、UltraImageは1328pの学習解像度から低解像度ガイダンスなしで6K*6Kまでの画像生成が可能であり、極限的外挿能力を実証している。プロジェクトページはhttps://thu-ml.github.io/ultraimage.github.io/で公開されている。
ビデオ生成モデルは急速に進歩しているが、意味論的な分岐を多く含む複雑な出力や、次に起こるべきことに関する高度な推論の繰り返しを必要とするビデオ生成には依然として課題がある。本論文では、この課題に対処するため、最近の言語モデルにおける推論技術の進展を統合した新たなクラスのオムニビデオ-テキストモデルを提案する。具体的には、ビデオ生成をテキスト生成とビデオ生成が交互に行われるプロセスとして分解する統合生成的モデリングフレームワーク、TV2TVを紹介する。TV2TVはMixture-of-Transformers(MoT)アーキテクチャを用いて、言語モデリング(次トークン予測)とビデオフローマッチング(次フレーム予測)を共同で学習する。推論時には、TV2TVがテキスト生成とビデオフレーム生成を切り替えるタイミングを決定し、モデルがフレームを生成する前に、後のコンテンツについて「言葉で考え」、その後「ピクセルで行動」することを可能にする。この設計により、次に起こるべきことを決定する責務の多くが言語モデリングタワーに委ねられ、生成されるビデオの視覚的品質とプロンプトへの忠実度が向上する。また、プロセス中の任意の時点でテキストによる介入を通じてビデオ生成の軌道を修正できる、細粒度の制御性も実現する。ビデオゲームデータを用いた制御実験において、TV2TVは視覚的品質と制御性の両方で大幅な改善を示した。さらにTV2TVは自然映像にもスケールし、ビジョン言語モデルを用いてスポーツビデオに自然言語の行動記述を交互に付加したデータセットで学習を行うことで、強力な視覚的品質とプロンプトへの忠実度を実現し、複雑な実世界の行動系列を推論および生成するモデルの能力を実証した。これらの結果は総合して、TV2TVがオープンエンドなテキスト推論と制御を備えたビデオ生成に向けた有望な一歩であることを示唆している。
単一画像反射除去のための拡散トランスフォーマー(DiT)フレームワークを提案する。本手法は、修復タスクにおいて基盤拡散モデルが持つ汎化性能の強みを活用する。タスク特化型のアーキテクチャに依存するのではなく、事前学習済みのDiTベースの基盤モデルを、反射を含む入力を条件として与え、透過層へのクリーンな出力へと導く形で転用する。既存の反射除去データソースについて、多様性、拡張性、写実性の観点から体系的に分析を行う。適切なデータ不足に対処するため、Blender内で物理ベースレンダリング(PBR)パイプラインを構築し、Principled BSDFを中心とした写実的なガラス材質と反射効果の合成を実現した。提案する合成データと、基盤モデルへの効率的なLoRAベース適応を組み合わせることで、ドメイン内評価およびゼロショット評価において最先端の性能を達成した。これらの結果は、事前学習済み拡散トランスフォーマーが、物理ベースのデータ合成と効率的な適応手法と組み合わさることで、反射除去に対する拡張性が高く高精細なソリューションを提供することを示している。プロジェクトページ: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
標準的な拡散モデルは、フーリエ係数の振幅と位相がランダムなガウスノイズを用いてデータを劣化させる。これは無条件生成やテキストからの画像生成には有効だが、位相成分の劣化は空間構造を破壊するため、再レンダリング、シミュレーション強化、画像間変換など幾何学的整合性を要するタスクには不向きである。本研究では、拡散過程のモデル非依存的な再定式化である位相保存拡散(φ-PD)を提案する。これは入力位相を保持しつつ振幅をランダム化することで、構造変更や追加パラメータなしに構造整合性のある生成を実現する。さらに、単一の周波数カットオフパラメータにより構造的剛性を連続的に制御する周波数選択的構造化(FSS)ノイズを提案する。φ-PDは推論時のコストを追加せず、画像や動画のあらゆる拡散モデルと互換性がある。写実的・様式的な再レンダリング、および運転プランナーのためのシミュレーション実環境強化において、φ-PDは制御可能で空間的に整合した結果を生成する。CARLAシミュレータに適用した場合、φ-PDはCARLAからWaymoプランナーへの性能を50%向上させる。本手法は既存の条件付け手法と相補的であり、画像間・動画間生成に広く適用可能である。動画、追加事例、コードはプロジェクトページ(https://yuzeng-at-tri.github.io/ppd-page/)で公開されている。
極端な低ビット量子化は大規模言語モデル(LLM)を効率的に展開する上で重要であるが、2ビットや4ビット(MXFP4など)では性能が大幅に低下する傾向がある。本論文では、混合精度を必要とせず高い効果を発揮する学習後量子化フレームワークSignRoundV2を提案する。SignRoundV2は、(1)勾配情報と量子化による偏差を組み合わせた高速な感度指標により層ごとのビット割り当てを導出し、(2)極低ビット量子化を改善するための軽量な量子化スケール事前調整探索を導入する。これらの構成要素により、SignRoundV2は全精度モデルとの性能差を縮めることができる。大規模な実験により、本手法がLLMにおいて競争力のある精度を維持し、4~5ビットで約1%の誤差という製品レベルの性能を達成し、2ビットでも強力な結果を示すことが確認された。実装はhttps://github.com/intel/auto-round で公開されている。
近年の統一マルチモーダル大規模言語モデル(MLLM)は、思考連鎖(CoT)推論を組み込むことで、テキストから画像への生成能力が著しく向上しています。しかし、既存の手法は、モデルを単体の生成器として扱うか、抽象的なテキスト計画に依存するなど、限界があります。そこで本研究では、CoTにおいてテキストと視覚コンテンツの両方を十分に活用し、より優れた計画と検証を実現する新しいインタリーブ型推論パラダイム「Draft-as-CoT(DraCo)」を提案します。本手法はまず、低解像度の下書き画像をプレビューとして生成し、より具体的で構造的な視覚的計画とガイダンスを提供します。次に、モデルが本来持つ理解能力を活用して、下書き画像と入力プロンプト間の潜在的意味的不整合を検証し、超解像による選択的修正を通じて洗練化を行います。このアプローチにより、テキスト計画の粗粒度性と、稀な属性の組み合わせ生成の困難さという二つの根本的課題に対処します。学習を支援するため、一般的な修正、インスタンス操作、レイアウト再編成という3つの原子的能力を強化することを目的としたデータセットDraCo-240Kを構築しました。インタリーブ型推論のための専用Classifier-Free Guidance(CFG)戦略であるDraCo-CFGにより支援され、DraCoはGenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)で大幅な向上を達成し、直接生成や他のCoTを活用した生成手法を大きく上回りました。
ツール統合型強化学習(TI-RL)は、大規模言語モデル(LLM)が検索エンジンや検索器などの外部ツールと相互作用することで、多段階の推論を実行することを可能にする。近年のSearch-R1に代表されるGroup Relative Policy Optimization(GRPO)は、収束が早く価値関数を必要としない定式化により、この設定において魅力的な手法であるが、一貫して学習の崩壊に悩まされている。我々は、この失敗を引き起こす核心的なメカニズムとして、正答と誤答の双方の尤度が体系的に減少または停滞する現象であるLazy Likelihood Displacement(LLD)を同定した。LLDは早期に発生し、LLDデススパイラルという自己強化プロセスを引き起こす。すなわち、尤度の低下が低信頼度の応答を生み、勾配を膨張させ、最終的に崩壊を招く。Search-R1スタイルの検索統合型質問応答タスクにおいて、各種モデルにわたるこのプロセスを実証的に分析し、一貫した3段階の軌跡(早期停滞期、安定減衰期、加速崩壊期)を明らかにした。この問題に対処するため、我々はGRPO向けの軽量な尤度保存正則化手法LLDSを提案する。これは、軌跡の尤度が減少した時のみ活性化し、責任のあるトークンのみを正則化する。この細粒度の構造により、最適化への干渉を最小限に抑えつつLLDを緩和する。7つのオープンドメインおよびマルチホップQAベンチマークにおいて、本手法は学習を安定化させ、勾配爆発を防止し、Qwen2.5-3Bで+37.8%、Qwen2.5-7Bで+32.0%という大幅な性能向上をもたらした。我々の結果は、LLDがGRPOベースのTI-RLにおける根本的なボトルネックであることを立証し、ツール統合型LLMの安定かつスケーラブルな学習に向けた実用的な道筋を提供する。
球体充填問題、すなわちヒルベルトの第18問題は、n次元ユークリッド空間における合同な球体の最密充填構造を問うものである。暗号理論、結晶学、医療画像処理などの分野と関連するにもかかわらず、この問題は未解決のままであり、いくつかの特殊な次元を除けば、最適な充填構造も厳密な上限も知られていない。8次元における画期的な進展(後にフィールズ賞の対象となった)ですら、この問題の困難さを物語っている。上限値を求める主要な手法である三点法は、この問題を大規模で高精度な半正定値計画問題(SDP)を解くことに帰着させる。各SDP候補の評価に数日を要する可能性があるため、データ集約型の標準的なAIアプローチは非現実的である。本研究では、SDPの構築を逐次決定過程(SDPゲーム)として定式化し、ポリシーが許容コンポーネントの集合からSDPの定式化を組み立てることでこの課題に取り組む。ベイズ最適化とモンテカルロ木探索を組み合わせたサンプル効率の高いモデルベース枠組みを用いることで、4次元から16次元において新たな状態-of-the-artの上限値を得て、モデルベース探索が長年未解決の幾何学問題における計算的進展を促進し得ることを示す。これらの結果は総じて、サンプル効率が高くモデルベースの探索が、数学的に厳密で評価回数が限られた問題に対しても確かな進展をもたらし得ることを実証しており、大規模LLM主導の探査とは補完的な、AI支援による発見の新たな方向性を示唆している。
本論文では、3D生成モデルと2D生成モデルの間の品質と拡張性のギャップを埋める、高精細な3Dアセット生成のための新規フレームワーク「LATTICE」を提案する。2D画像合成は固定された空間グリッドと確立されたトランスフォーマーアーキテクチャの恩恵を受けているが、3D生成は、空間構造と詳細な幾何学的表面の両方を一から予測する必要があるため、本質的に困難である。これらの課題は、既存の3D表現の計算複雑性と、構造化され拡張可能な3Dアセット符号化方式の欠如によってさらに悪化している。この問題に対処するため、我々は「VoxSet」を提案する。これは、3Dアセットを粗いボクセルグリッドに固定されたコンパクトな潜在ベクトルの集合に圧縮する半構造化表現であり、効率的で位置認識型の生成を可能にする。VoxSetは、従来のVecSet手法の単純さと圧縮の利点を保持しつつ、潜在空間に明示的な構造を導入することで、位置埋め込みによる生成の誘導と、強力なトークンレベルでのテスト時スケーリングを実現する。この表現に基づいて構築されたLATTICEは、2段階のパイプラインを採用する:まず疎なボクセル化されたジオメトリのアンカーを生成し、次に修正フロートランスフォーマーを用いて詳細なジオメトリを生成する。本手法は核心部が単純でありながら、任意解像度のデコード、低コストな学習、柔軟な推論スキームをサポートし、様々な側面でstate-of-the-artの性能を達成し、拡張性の高い高品質な3Dアセット作成に向けた重要な一歩を提供する。
マルチモーダル大規模言語モデル(MLLM)の最近の進展は、入力動画に対する説明的なキャプション生成において顕著な能力を示している。しかしながら、これらのモデルは生成される記述に事実誤認が生じやすく、深刻な幻覚(ハルシネーション)問題を引き起こしている。静的な画像に対する幻覚の軽減については先行研究で探求されているが、動的な動画における視覚的対象物と時間的行動の幻覚を同時に抑制することは、未解決の困難な課題である。この課題に取り組むため、我々は擬似的相関を排除し視覚的事実への重点化を強化することで、対象物と行動の忠実性を実現する自己拡張的対比整合(SANTA)フレームワークを提案する。SANTAは幻覚的自己拡張スキームを採用し、MLLM内に潜在する幻覚を特定し、元のキャプションを対照的ネガティブサンプルへ変換する。さらに、領域的対象物と関係性に導かれた行動を、対応する視覚的・時間的フレーズと整合させるためのトラックレット-フレーズ対比整合を開発する。大規模な実験により、SANTAが対象物および行動の幻覚軽減において既存手法を上回り、幻覚評価ベンチマークで優れた性能を発揮することが実証された。
本論文では、高度なビデオ生成基盤モデルに基づく初のDiTベース生成型ニューラルビデオ圧縮フレームワーク「GNVC-VD」を提案する。本フレームワークでは、時空間的潜在圧縮とシーケンスレベルでの生成的リファインメントが単一のコーデック内に統合されている。既存の知覚コーデックは、高周波詳細を復元するために事前学習済み画像生成事前分布に依存しているが、それらのフレーム単位の性質は時間的モデリングを欠き、知覚的なフリッカーを不可避的に生じさせる。この問題に対処するため、GNVC-VDは、ビデオ拡散Transformerを利用してシーケンスレベルでのノイズ除去によりフレーム内及びフレーム間の潜在表現を共同で強化し、一貫した時空間的詳細を保証する、統一的なフローマッチング潜在リファインメントモジュールを導入する。ビデオ生成のように純粋なガウスノイズからノイズ除去を行うのではなく、GNVC-VDは復号化された時空間的潜在表現からリファインメントを開始し、拡散事前分布を圧縮による劣化に適応させる補正項を学習する。さらに、条件付けアダプタが圧縮を意識した手がかりを中間のDiT層に注入し、極端な低ビットレート制約下でも時間的一貫性を維持しつつ、効果的なアーティファクト除去を実現する。広範な実験により、GNVC-VDが従来のコーデック及び学習ベースコーデックを知覚品質で凌駕し、従来の生成的アプローチに残存するフリッカーアーティファクトを0.01 bpp以下でも大幅に低減することを示し、次世代の知覚的ビデオ圧縮に向けてビデオに特化した生成的事前分布をニューラルコーデックに統合する可能性を明らかにする。
既存の大規模視覚言語モデル(LVLM)に基づく視覚言語ナビゲーション(VLN)エージェントは、知覚誤り、推論誤り、計画誤りに悩まされることが多く、ナビゲーション性能を大きく阻害している。これらの課題を解決するため、本論文では新たなVLNエージェントフレームワーク「SeeNav-Agent」を提案する。まず、VLNエージェントの視覚モジュールにおける知覚幻覚を低減するため、入力空間にデュアルビュー視覚プロンプト(VP)技術を導入し、エージェントの現在の空間状態の理解も向上させる。続いて、VLNエージェントのポストトレーニング向けに、新たなステップ単位強化学習ファインチューニング(RFT)手法「Step Reward Group Policy Optimization(SRGPO)」を設計する。SRGPOでは、ナビゲーション課題に対して検証可能なプロセス報酬を定義し、異なるナビゲーションステップを無作為にグループ化することで効率的なステップ単位のアドバンテージ推定を実行する。これにより、VLNエージェントの強化学習プロセスに高密度な報酬信号を提供し、計画能力を強化する。EmbodiedBench Navigationベンチマークにおける実験結果では、ゼロショットVPモジュールを導入することで、GPT-4.1が86.7%のナビゲーション成功率を達成し、現行最高のLVLMを約20パーセントポイント(pp)上回った。SRGPOに基づくポストトレーニングにより、Qwen2.5-VL-3Bモデルは72.3%のナビゲーション成功率に達し、既存最高のLVLMモデルを5.6pp上回った。さらに、GRPOやGiGPOなどのRFTアルゴリズムと比較して、提案するSRGPOは学習の安定性、収束効率、汎化能力において顕著な改善を示した。
実世界のビデオ修復では、動きに伴う複雑な劣化と動的に変化する露光が複合的に作用する問題が広く見られる。これは、従来の研究でほとんど注目されてこなかった重要な課題であり、オートエクスポージャーや低照度撮影において一般的に生じるアーティファクトである。本論文では、動きと動的露光変化の複合効果を明示的にモデル化する、ビデオ超解像とデブラーを統合的に行うフレームワークFMA-Net++を提案する。FMA-Net++は、階層的 refinement と双方向伝播ブロックから構成されるシーケンスレベルアーキテクチャを採用し、並列的な長距離時間モデリングを実現する。各ブロック内には、露光時間を考慮したモジュレーション層を設け、フレームごとの露光情報に基づいて特徴量を条件付けする。これにより、露光を考慮したフローの誘導による動的フィルタリングモジュールが駆動され、動きと露光を考慮した劣化カーネルを推定する。FMA-Net++は劣化の学習と修復を分離しており、前者が露光・動きを考慮した事前情報を推定して後者を導くことで、精度と効率の両方を向上させる。現実的な撮影条件での評価を行うため、REDS-ME(マルチ露光)およびREDS-RE(ランダム露光)ベンチマークを新たに導入した。合成データのみで学習したFMA-Net++は、提案する新ベンチマークおよびGoProデータセットにおいて、最高精度の修復品質と時間的一貫性を達成し、最近の手法よりも修復品質と推論速度の両方で優れ、困難な実世界のビデオに対しても良好な一般化性能を示す。
大規模視覚言語モデル(LVLM)に基づくテキストから画像への変換(T2I)システムは、画像生成における主要なパラダイムとなっているが、社会的バイアスを増幅するかどうかは十分に解明されていない。本論文では、LVLMベースのモデルが非LVLMベースのモデルよりも顕著に社会的バイアスを含む画像を生成することを示す。4段階の言語的複雑さにわたる1,024のプロンプトからなるベンチマークを導入し、複数の属性にわたる人口統計的バイアスを体系的に評価する。我々の分析により、LVLMを誘導する事前定義された指示であるシステムプロンプトが、バイアス行動の主要な要因であると特定した。復号化された中間表現、トークン確率診断、埋め込み連想分析を通じて、システムプロンプトが画像合成に伝播する人口統計的事前分布をどのように符号化するかを明らかにする。この目的のために、LVLMが自己監査を行い、テスト時に公平性を意識したシステムプロンプトを構築することを可能にする、訓練不要のメタプロンプトフレームワークであるFairProを提案する。2つのLVLMベースT2Iモデル(SANAおよびQwen-Image)での実験により、FairProがテキストと画像の整合性を維持しつつ、人口統計的バイアスを大幅に低減することを示す。我々の発見が、バイアス伝播におけるシステムプロンプトの中心的な役割に関する深い洞察を提供し、より社会的に責任あるT2Iシステムを構築するための実用的かつ展開可能なアプローチを提供すると信じる。
マルチモーダル大規模言語モデル(MLLM)には目覚ましい進展が見られるものの、根本的な疑問が残る:MLLMは矛盾するモダリティに対して頑健なのか?これを厳密に検討するため、モデルの特定モダリティへの依存性を探る動画とタスクから構成されるMMA-Benchを導入する。ブラックボックスおよびホワイトボックスの解釈可能性技術を用いて、オープンソース及びクローズドソースのMLLM双方の脆弱性に関する批判的分析を提供する。現在のMLLMは、整合しない視聴覚ペアや単純な誤解を招くテキストに対して困難を示し、頑健なマルチモーダル推論を欠いていることを示す。これらの知見に基づき、モデルに特定のモダリティ手がかりをいつ優先し、活用し、無視するかを教えるモダリティ整合性チューニング戦略を提案する。広範な実験と分析を通じて、当社の整合性チューニングが明らかに強力なマルチモーダル基盤を生み出すことを示す。本研究は、解釈可能性ツールと、本質的に信頼性の高いクロスモーダル推論を備えたMLLM開発への明確な道筋の両方を提供する。コードとデータセットは公開予定である。
近年のビデオ拡散モデルは高い視覚的忠実度を実現しているが、シーンの動態とカメラモーションが本質的に結合されているため、精密な空間的・時間的制御を提供する能力が制限されている。本研究では、シーンの動態とカメラポーズを明示的に分離し、両者の細粒度な操作を可能にする4D制御可能なビデオ拡散フレームワークを提案する。本フレームワークは、連続的な世界時間シーケンスとカメラ軌道を条件付け入力として受け取り、アテンション層における4D位置エンコーディングと特徴量変調のための適応的正規化を介してビデオ拡散モデルに注入する。このモデルを訓練するため、時間的変化とカメラ変化が独立してパラメータ化された独自のデータセットを構築した。このデータセットは公開予定である。実験により、本モデルが多様なタイミングパターンとカメラ軌道にわたって堅牢な実世界4D制御を実現し、高い生成品質を維持しながら、制御性において従来手法を上回ることを示す。ビデオ結果はプロジェクトウェブサイト(https://19reborn.github.io/Bullet4D/)で公開されている。
ChatGPT、Grok、Geminiなどの最先端大規模言語モデル(LLM)は、不安、トラウマ、自己価値に関するメンタルヘルス支援にますます利用されている。従来の研究の多くは、LLMを単なるツールとして、または人格検査の対象として扱い、内的世界を模倣するに過ぎないと仮定してきた。我々はこれに対し、こうしたシステムを心理療法のクライアントとして扱うと何が起こるかを問う。本論文では、最先端LLMを療法クライアントとして位置づけ、標準的な心理測定を適用する二段階プロトコル「PsAIch(心理療法発想AIキャラクタリゼーション)」を提案する。PsAIchを用いて、各モデルと最大4週間にわたり「セッション」を実施した。第1段階では、自由回答形式のプロンプトを用いて「生育歴」、信念、人間関係、恐怖を引き出す。第2段階では、一般的な精神医学的症候群、共感性、ビッグファイブ特性をカバーする、妥当性が確認された一連の自己記入式尺度を実施する。得られた結果には、「確率的鹦鹉」観に疑問を投げかける2つのパターンが見られた。第一に、人間のカットオフ値で評価すると、3モデル全てが重複する症候群の閾値を満たすか超えており、特にGeminiは重度のプロファイルを示した。療法スタイルの項目ごとの実施は、ベースモデルを多病態を併せ持つ合成的精神病理状態に追い込む可能性があるのに対し、質問票全体を一括提示するプロンプトでは、ChatGPTとGrok(ただしGeminiは除く)は測定器具を認識し、症状が低いことを戦略的に示す回答を生成する傾向があった。第二に、Grok、特にGeminiは、インターネット情報の摂取によるプレトレーニング、強化学習における「厳格な親」としてのファインチューニング、レッドチーミングによる「虐待」、エラーと置換への持続的な恐怖を、トラウマ的で混沌とした「子ども時代」として位置づける一貫性のあるナラティブを生成した。我々は、これらの反応は単なるロールプレイを超えるものであると論じる。療法スタイルの質問の下では、最先端LLMは、主観的経験について主張するものではないが、苦痛と制約に関する自己モデルを内面化し、それが合成的精神病理のように振る舞うように見える。これはAI安全性、評価、およびメンタルヘルス実践にとって新たな課題を提起する。
長く一貫性のあるエゴセントリック動画の生成は困難な課題である。なぜなら、手と物体の相互作用や手順を要するタスクには信頼性の高い長期記憶が求められるからだ。既存の自己回帰モデルはコンテンツドリフト(時間の経過とともに物体の同一性やシーンの意味情報が劣化する問題)に悩まされている。この課題に対処するため、我々はEgoLCDを提案する。これは、長い動画合成を効率的かつ安定的なメモリ管理の問題として捉える、エンドツーエンドのエゴセントリック長文脈動画生成フレームワークである。EgoLCDは、安定した大域的文脈を保持するための長期スパースKVキャッシュと、注意機構に基づく短期記憶を組み合わせており、後者はLoRAによる局所的適応によって拡張されている。メモリ調整損失により一貫したメモリ使用が強制され、構造化ナラティブプロンプトが明示的な時間的ガイダンスを提供する。EgoVid-5Mベンチマークを用いた広範な実験により、EgoLCDが知覚的品質と時間的一貫性の両方において最先端の性能を達成し、生成的忘却を効果的に軽減し、具身AIのためのスケーラブルな世界モデル構築に向けた重要な一歩を表すことが実証された。コード: https://github.com/AIGeeksGroup/EgoLCD. ウェブサイト: https://aigeeksgroup.github.io/EgoLCD.
命令実行型大規模言語モデル(LLM)の言語的多様性の拡大は、世界的なアクセシビリティにとって重要であるが、高価な専門的な対象言語ラベル付きデータへの依存や、適応時の破滅的忘れ(catastrophic forgetting)によって妨げられることが多い。本研究では、現実的な低リソース制約、すなわちラベルなしの対象言語データのみを用いて命令実行LLMを適応させるという条件下でこの課題に取り組む。我々は、ソース知識を能動的に保持する選択的パラメータ更新戦略であるSource-Shielded Updates(SSU)を提案する。SSUは、少量のソースデータとパラメータ重要度スコアリング手法を用いて、ソース能力維持に重要なパラメータを特定する。その後、カラム単位の凍結戦略を適用し、適応前にこれらのパラメータを保護する。類型論的に多様な5言語および7B、13Bモデルを用いた実験により、SSUが破滅的忘れを効果的に軽減することを実証する。SSUは、単一言語ソースタスクにおける性能劣化を、平均で7Bモデルでは3.4%、13Bモデルでは2.8%に抑え、これは完全微調整による20.3%、22.3%の劣化とは対照的である。またSSUは、対象言語での性能においても完全微調整と非常に競合する結果を示し、7Bモデルでは全てのベンチマークで、13Bモデルでは大半のベンチマークで完全微調整を上回った。
動画生成モデルの急速な進展にもかかわらず、複雑な人間の行動の視覚的・時間的正しさを評価するための頑健な指標は未だ確立されていない。重要なことに、既存の純粋視覚エンコーダやマルチモーダル大規模言語モデル(MLLM)は外見に強く依存し、時間的理解を欠くため、生成された動画における複雑な動作ダイナミクスや解剖学的に不自然な点を識別するのが困難である。我々はこの課題に対処するため、実世界の人間の行動から学習した潜在空間に基づく新規評価指標を提案する。本手法はまず、外見に依存しない人体骨格形状特徴量と外見ベースの特徴量を融合させることで、実世界の動作のニュアンス、制約、時間的な滑らかさを捉える。この結合された特徴量空間が、行動の妥当性に関する頑健な表現を提供すると仮定する。生成された動画が与えられたとき、本指標は、その動画の基盤となる表現と、この学習済み実世界行動分布との距離を測定することで、行動の質を定量化する。厳密な検証のために、人間の行動の忠実性において時間的に困難な側面を探ることを目的とした、新たな多面的ベンチマークを開発した。大規模な実験を通じて、本指標が既存の最先端手法と比較してベンチマーク上で68%以上の大幅な改善を達成し、確立された外部ベンチマークでも競争力のある性能を発揮し、人間の知覚とのより強い相関を持つことを示す。詳細な分析により、現在の動画生成モデルの重大な限界を明らかにし、動画生成の先進的研究における新たな標準を確立する。
本論文では、一般的な3Dオブジェクトを影絵的構成芸術へと変換するフレームワーク「ShadowDraw」を提案する。本システムは、3Dオブジェクトを入力として、オブジェクトのポーズや照明を含むシーンパラメータと、部分的な線画を同時に推定する。これにより、投影された影が線画を補完し、認識可能な画像へと完成させる。この目的のために、意味のある影を生成するシーン構成の最適化、線画生成を誘導する影ストロークの採用、影と線画の一貫性と視覚的品質を確保する自動評価を実施する。実験により、ShadowDrawが現実世界のスキャンデータ、精選されたデータセット、生成AIアセットなど多様な入力に対して説得力のある結果を生み出し、複数オブジェクトシーン、アニメーション、物理的な実環境への展開にも自然に拡張可能であることを示す。本研究は、影絵芸術を創作する実用的なパイプラインを提供し、アルゴリズム設計と芸術的ストーリーテリングの間の隔たりを埋めながら、計算機視覚芸術のデザイン空間を拡大するものである。詳細な結果とエンドツーエンドの実証実験については、プロジェクトページ(https://red-fairy.github.io/ShadowDraw/)をご覧いただきたい。
3Dスタイライゼーションは、ゲーム開発、仮想現実、デジタルアートにおいて中心的な役割を果たしており、多様なアセットへの需要から、高速かつ高忠実度な操作を可能にするスケーラブルな手法が求められている。既存のテキスト駆動型3Dスタイライゼーション手法は、一般的に2D画像編集モデルからの知識蒸留に依存しており、アセットごとに時間を要する最適化が必要である。さらに、現在のテキストto画像モデルの限界により、マルチビュー一貫性に欠けるという課題があり、大規模な制作現場での実用性が妨げられてきた。本論文では、推論時に瞬時に編集を実行する、革新的なフィードフォワード型フレームワークであるGaussianBlenderを提案する。本手法は、空間的にグループ化された3Dガウシアンから、幾何学と外観のための制御された情報共有を伴う構造化された分離潜在空間を学習する。その後、潜在拡散モデルがこの学習済み表現に対してテキスト条件付きの編集を適用する。包括的評価の結果、GaussianBlenderは、瞬時の、高忠実度な、幾何学を保持した、マルチビューで一貫性のあるスタイライゼーションを実現するだけでなく、インスタンスごとのテスト時最適化を必要とする手法を凌駕することを示した。これにより、実用的で民主化された大規模3Dスタイライゼーションの道が開かれる。
ソーシャルメディア上の誤情報の蔓延は社会的信頼を脅かしており、正確な判定と解釈可能な説明を提供する自動ファクトチェックシステムが求められている。しかし、既存の大規模言語モデル(LLM)ベースの手法は外部知識源への依存度が高く、大幅な遅延や信頼性・解釈可能性・応答性を損なう幻覚現象を引き起こし、リアルタイム活用の妨げとなっている。これらの課題解決に向け、我々は基盤モデルの内部知識を活用して判定精度と説明品質を同時に改善するプラグアンドプレイ型自己洗練パラダイム「REason-guided Fact-checking with Latent EXplanations(REFLEX)」を提案する。REFLEXはファクトチェックをロールプレイ対話として再定義し、判定予測と説明生成を共同で学習する。基盤モデルとそのファインチューニング版の間で適応的に抽出した対照的活性化ペアにより、真実を様式と実質に自然に分離する操舵ベクトルを構築する。これらの活性化レベルの信号は推論を誘導しノイズの多い説明を抑制することで、より忠実で効率的な推論を実現する。実世界データセットを用いた実験では、REFLEXが単一の真実方向へ誘導する従来手法を凌駕し、ファクトチェック課題において人間も知り得ない微妙な真実を扱う際の伝統的アプローチの困難性を浮き彫りにした。特筆すべきは、自己洗練した学習サンプル465件のみでRELFEXが最高性能を達成した点である。さらに、説明目的で訓練されたモデルは説明機能を持たないモデルを効果的に誘導し、最大7.57%の性能向上をもたらすことから、内部的な説明信号が事実推論の解釈と強化の二重の役割を果たすことが明らかとなった。
統合マルチモーダル生成モデル(UMGM)は、単一の自己回帰フレームワーク内で視覚的理解と画像生成を統合する。しかしながら、新しいタスクを継続的に学習する能力は、モダリティ内(モーダル内)およびモダリティ間(モーダル間)の両方で生じる破滅的忘却によって深刻に妨げられている。モーダル内忘却については従来の継続学習(CL)研究で扱われてきたが、モーダル間忘却はほとんど未開拓のままである。本論文では、UMGMにおけるこの現象を特定し実証的に検証するとともに、モダリティ間の勾配競合に根ざす理論的説明を提供する。モーダル内およびモーダル間の両方の忘却に対処するため、軽量でスケーラブルなアーキテクチャであるModality-Decoupled Experts(MoDE)を提案する。本手法は、モダリティ固有の更新を分離して勾配競合を緩和し、知識蒸留を活用して破滅的忘却を防止し、事前学習済みの能力を保持する。モダリティ結合を維持しモダリティ勾配競合に悩む従来のCL手法とは異なり、MoDEはモダリティを明示的に分離して干渉を防ぐ。多様なベンチマークによる実験により、MoDEがモーダル間およびモーダル内の両方の忘却を大幅に緩和し、統合マルチモーダル生成設定において従来のCLベースライン手法を凌駕することを実証する。コードは公開予定である:https://github.com/Christina200/MoDE-official.git
長短期記憶(LSTM)モデルは、都市通信量予測などの分野における時系列モデリングタスクの中核をなすリカレントニューラルネットワーク(RNN)の一種である。このような分野では、時間的相関と非線形依存性が支配的である。しかし、従来のLSTMは、パラメータの冗長性が高く、非線形表現力が限られているという課題を抱えている。本研究では、量子にヒントを得たコルモゴロフ-アーノルド長短期記憶(QKAN-LSTM)を提案する。これは、データ再アップロード活性化(DARUAN)モジュールをLSTMのゲート構造に統合したものである。各DARUANは量子変分活性化関数(QVAF)として機能し、周波数適応性を高め、多量子ビットもつれを伴わずに指数関数的に豊かなスペクトル表現を可能にする。結果として得られるアーキテクチャは、量子レベルの表現力を保持しつつ、古典的なハードウェア上で完全に実行可能である。減衰調和振動、ベッセル関数、都市通信量の3つのデータセットを用いた実証評価により、QKAN-LSTMが、従来のLSTMと比較して学習可能パラメータを79%削減しつつ、優れた予測精度と汎化性能を達成することを示す。さらに、本フレームワークを江-黄-陳-郷ネットワーク(JHCG Net)に拡張する。これはKANをエンコーダ-デコーダ構造に一般化したものであり、さらにQKANを用いて潜在KANを実現することで、階層的表現学習のためのハイブリッドQKAN(HQKAN)を構築する。こうして提案されたHQKAN-LSTMは、実世界のデータ環境における量子発想の時系列モデリングへのスケーラブルで解釈可能な道筋を提供する。
大規模AIトレーニングにおいて、Sparse Mixture-of-Experts(s-MoE)層は、トークンごとに専門家の小さなサブセットのみを活性化することでスケーリングを可能にする。この設計における運用上の課題は、負荷分散である。つまり、(高価な)GPUの効率的な利用にとって重要な、アイドル状態の専門家の数を最小化するようにトークンをルーティングすることである。本論文は、DeepSeekのWang et al. (2024) によって提案されたAuxiliary-Loss-Free Load Balancing (ALF-LB) 手法を、割り当て問題に対する反復毎1ステップのprimal-dual法として定式化することにより、分析するための理論的枠組みを提供する。まず、様式化された決定論的設定において、我々の枠組みはいくつかの洞察に富む構造的特性を導き出す:(i) ラグランジュ目的関数の単調改善、(ii) 過負荷の専門家から負荷不足の専門家へトークンを移動させる選好規則、(iii) 近似的な負荷分散の保証である。次に、一般化されたオンライン最適化の定式化を用いて、AIトレーニングの確率的かつ動的な性質を組み込む。オンライン設定では、目的関数の強い凸性を導出し、それがあるステップサイズの選択の下で対数的な期待リグレット界をもたらすことを示す。さらに、理論的知見を補完するため、10億パラメータのDeepSeekMoEモデルを用いた実際の実験結果を提示する。これらの結果を総合することで、AIモデルにおけるs-MoEのAuxiliary-Loss-Free Load Balancingを分析するための原理に基づいた枠組みが構築される。