翻訳付きの日次キュレーションされたAI研究論文
人間は視覚的観察の連続的な流れを通じて現実世界の空間を知覚・理解する。したがって、潜在的に無限のビデオストリームから空間的証拠を連続的に維持・更新する能力は、空間知能にとって不可欠である。核心的な課題は、単なる長いコンテキストウィンドウではなく、空間情報が時間とともにどのように選択・整理・保持されるかにある。本論文では、テストタイムトレーニング(TTT)を用いたストリーミング視覚ベースの空間知能を目指すSpatial-TTTを提案する。本手法は、パラメータの一部(高速重み)を適応させることで、長期間にわたるシーンビデオから空間的証拠を捕捉・整理する。具体的には、ハイブリッドアーキテクチャを設計し、大規模チャンク更新をスライディングウィンドウアテンションと並行して実行することで、効率的な空間的ビデオ処理を実現する。空間認識をさらに促進するため、3D時空間畳み込みを適用したTTT層に空間予測メカニズムを導入し、フレーム間の幾何学的対応関係と時間的連続性の捕捉を促す。アーキテクチャ設計に加えて、密な3D空間記述を含むデータセットを構築し、モデルが高速重みを更新して構造化された方法で大域的な3D空間信号を記憶・整理するよう導く。大規模な実験により、Spatial-TTTが長期的な空間理解を改善し、ビデオ空間ベンチマークにおいて最先端の性能を達成することを実証する。プロジェクトページ: https://liuff19.github.io/Spatial-TTT。
マルチモーダルエージェントは、文書集約型の複雑なワークフローを自動化する有望な道筋を示しています。しかし、重要な疑問が残されています:これらのエージェントは真の戦略的推論を示しているのか、それとも単なる確率的な試行錯誤検索に過ぎないのか?この問題に取り組むため、私たちはMADQAを導入します。これは800の多種多様なPDF文書に基づく2,250の人間作成の質問からなるベンチマークです。古典的テスト理論に導かれて、私たちはエージェント能力の様々なレベル間で識別力を最大化するよう設計しました。エージェント的行動を評価するため、精度と努力のトレードオフを測定する新しい評価プロトコルを導入します。この枠組みを用いて、最良のエージェントが生の精度では人間の検索者に匹敵し得るものの、彼らが成功する質問は大きく異なり、弱い戦略的計画を補うために力任せの検索に依存していることを示します。エージェントはオラクル性能との約20%のギャップを埋められず、非生産的なループに陥り続けています。私たちはデータセットと評価ハーネスを公開し、力任せの検索から較正された効率的な推論への移行を促進します。
長文脈エージェントワークフローは大規模言語モデルの代表的なユースケースとして登場し、推論速度とサービスコストの両面で注意力効率が重要となっています。疎な注意機構はこの課題に効果的に対処し、DeepSeek Sparse Attention(DSA)は代表的なプロダクショングレードのソリューションです。軽量なライトニングインデクサがクエリごとに最も関連性の高いトップkトークンを選択し、コア注意力計算をO(L^2)からO(Lk)に削減します。しかし、インデクサ自体はO(L^2)の計算複雑性を保持し、すべての層で独立して実行する必要があります。にもかかわらず、連続する層間でのトップk選択結果は非常に類似しています。本論文では、この層間冗長性を活用するIndexCacheを提案します。層を少数のフル層(自身のインデクサを実行)と多数の共有層(最も近いフル層のトップkインデックスを再利用)に分割します。この構成を決定・最適化するための2つの相補的アプローチを提案します。トレーニング不要のIndexCacheは、較正セットにおける言語モデリング損失を直接最小化する貪欲探索アルゴリズムによりインデクサを保持する層を選択し、重み更新を必要としません。トレーニング対応のIndexCacheは、保持された各インデクサが担当する全層の平均化された注意分布に対して学習する多層蒸留損失を導入し、単純な交互配置パターンでもフルインデクサの精度に匹敵することを可能にします。30B DSAモデルでの実験結果では、IndexCacheが品質劣化を無視できる範囲でインデクサ計算の75%を削除し、標準DSAと比較して最大1.82倍のプリフィル速度向上と1.48倍のデコード速度向上を達成しました。これらの好結果は、プロダクション規模のGLM-5モデルでの予備実験(図1)によってさらに確認されています。
コンピュータ利用エージェント(CUA)の能力は急速に高度化しているが、エージェントの軌跡が真にユーザーの指示を満たしているかどうかの評価をスケールさせることは依然として困難である。本研究では、実行ビデオからの報酬モデリングに着目する。これはエージェントの内部推論や行動に依存しない、エージェント軌跡からのキーフレームシーケンスである。ビデオ実行モデリングは手法に依存しないが、高度に冗長なレイアウトや成功を決定する微妙な局所的キューといった重大な課題を提示する。我々は、5万3千の高品質なビデオ・タスク・報酬トリプルからなるデータセットExecution Video Reward 53k(ExeVR-53k)を導入する。さらに、ステップ単位のアノテーション付き負例を合成するための敵対的指示翻訳を提案する。長く高解像度の実行ビデオからの学習を可能にするため、均質な領域や持続的なトークンを除去しつつ決定的なUI変化を保存する時空間トークンプルーニングを設計する。これらの構成要素に基づき、ユーザー指示とビデオ実行シーケンスのみを入力としてタスク成功を予測するExecution Video Reward Model(ExeVRM)をファインチューニングする。我々のExeVRM 8Bは、ビデオ実行評価において84.7%の精度と87.7%の再現率を達成し、Ubuntu、macOS、Windows、AndroidにわたってGPT-5.2やGemini-3 Proといった強力なプロプライエタリモデルを上回り、より精密な時間的帰属を提供する。これらの結果は、ビデオ実行報酬モデリングがCUAのためのスケーラブルでモデル非依存の評価器として機能し得ることを示している。
テキスト駆動型ビデオ生成は映像制作の民主化を進めてきたが、映画的マルチショットシナリオにおけるカメラ制御は依然として大きな障壁となっている。暗黙的なテキストプロンプトは精度に欠け、明示的な軌道条件付けは過度な手作業を強要し、現行モデルでは実行失敗を引き起こしがちである。このボトルネックを克服するため、我々はデータ中心のパラダイム転換を提案する。(キャプション、軌道、ビデオ)の三つ組が自動化されたプロット作成と精密な実行を結びつける固有の結合分布を形成すると仮定する。この知見に基づき、生成を2つの協働エージェントに分離する「Plan-then-Control」フレームワーク「ShotVerse」を提案する。VLM(Vision-Language Model)ベースのPlannerは空間事前分布を活用してテキストから映画的で大域的に整合した軌道を取得し、Controllerはカメラアダプタを介してこれらの軌道をマルチショット映像コンテンツにレンダリングする。本手法の中核はデータ基盤の構築にある。断片的な単一ショット軌道を統一された大座標系に整合させる自動マルチショットカメラ較正パイプラインを設計し、3段階評価プロトコルを備えた高精細な映画用データセットShotVerse-Benchを構築した。これは本フレームワークの基盤をなす。大規模な実験により、ShotVerseが信頼性の低いテキスト制御と労力を要する手動プロット作成の間の隔たりを効果的に埋め、優れた映画的審美性を達成し、カメラ精度とショット間整合性の両立したマルチショットビデオを生成することを実証した。
大規模拡散モデルは映像合成に革命をもたらしたが、複数被写体の識別性とマルチ粒度の動きを同時に精密制御する課題は未解決である。既存手法は動きの粒度不足、制御の曖昧さ、識別性の劣化に悩まされ、識別性維持と動作制御の両立が不十分だった。本研究では、段階的2段階訓練パラダイムにより調和的な複数被写体カスタマイズと全方向動作制御を実現する統一フレームワーク「DreamVideo-Omni」を提案する。第一段階では、被写体外観・大域動作・局所動態・カメラ運動を含む総合的な制御信号を統合した共同訓練を実施。確固たる制御精度を確保するため、異種入力を調整する条件感知型3D回転位置符号化と、大域動作ガイダンスを強化する階層的動作注入戦略を導入。さらに複数被写体の曖昧性解消のため、グループ符号化と役割符号化により動作信号を特定識別子に明示的に紐付け、複雑な場景を独立制御可能なインスタンスに分離する。第二段階では、識別性劣化を軽減するため、事前学習済み映像拡散基盤に潜在識別性報酬モデルを構築し、潜在空間で動作感知型識別性報酬を提供する潜在識別性報酬フィードバック学習を設計。人間の選好に沿った識別性維持を優先する。大規模キュレーションデータセットと複数被写体・全方向動作制御評価のための総合ベンチマーク「DreamOmni Bench」に支えられ、DreamVideo-Omniは精密な制御性を備えた高品質映像生成で優れた性能を実証する。
強化学習(RL)は、画像編集およびテキストから画像への生成(T2I)を強化する有望なパラダイムとして登場しました。しかし、RL中に批評家として機能する現在の報酬モデルは、しばしば幻覚(ハルシネーション)に悩まされ、ノイズの多いスコアを割り当てるため、最適化プロセスを根本的に誤った方向に導いてしまいます。本論文では、忠実な画像生成と編集のための正確かつ信頼性の高いガイダンスを提供する堅牢な報酬モデルを開発する包括的フレームワークであるFIRM(Faithful Image Reward Modeling)を提案します。まず、高品質なスコアリングデータセットを構築するために、特定の目的に合わせたデータキュレーションパイプラインを設計します。具体的には、編集を実行度と一貫性の両方で評価し、生成は主に指示への追従度によって評価します。これらのパイプラインを用いて、FIRM-Edit-370KおよびFIRM-Gen-293Kデータセットを収集し、これらの基準を正確に反映する専門的な報酬モデル(FIRM-Edit-8BおよびFIRM-Gen-8B)を学習させます。第二に、編集と生成の批評家のために特別に設計された包括的ベンチマークであるFIRM-Benchを導入します。評価結果は、我々のモデルが既存の指標と比較して、人間の判断との優れた整合性を達成することを実証しています。さらに、これらの批評家をRLパイプラインにシームレスに統合するために、相反する目的のバランスを取る新しい「基本報酬とボーナス報酬」戦略を定式化します。すなわち、編集のための「一貫性調整実行度(CME)」と、生成のための「品質調整整合度(QMA)」です。このフレームワークによって強化された結果得られるモデル、FIRM-Qwen-EditおよびFIRM-SD3.5は、大幅な性能向上を達成しました。包括的な実験により、FIRMが幻覚を軽減し、既存の汎用モデルを上回る忠実性と指示追従性の新たな標準を確立することが実証されています。我々のすべてのデータセット、モデル、コードは https://firm-reward.github.io で公開されています。
マルチモーダルエージェントは現在、多様なツールを用いて複雑な推論タスクに取り組むことが可能であるが、未だにオープンエンドな設定において非効率なツール使用と硬直的なオーケストレーションに課題を抱えている。中心的な課題は、過去の行動軌跡から学習することで、パラメータ更新なしにこのようなエージェントが継続的に改善できるようにすることである。我々は、この目標に不可欠な補完的な二つの再利用可能な知識形態を特定した。すなわち、ツール選択と意思決定に対する簡潔なアクションレベルの指針を提供する「経験」と、計画とツール使用に対する構造化されたタスクレベルの指針を提供する「スキル」である。この目的のために、我々はマルチモーダルエージェントにおける経験とスキルからの継続学習のためのデュアルストリームフレームワーク「XSkill」を提案する。XSkillは、知識の抽出と検索の両方を視覚的観察に基づいて行う。蓄積段階では、XSkillは、視覚に基づく要約とクロスロールアウト批評を通じて、複数経路のロールアウトから経験とスキルを蒸留・統合する。推論段階では、この知識を現在の視覚的コンテキストに基づいて検索・適応させ、使用履歴を蓄積段階にフィードバックして継続学習ループを形成する。4つの基盤モデルを用いた多様な領域にわたる5つのベンチマークで評価した結果、XSkillはツールのみのベースラインおよび学習ベースのベースラインの両方を一貫して大幅に上回った。さらなる分析により、二つの知識ストリームがエージェントの推論行動に影響を与える上で補完的な役割を果たし、優れたゼロショット汎化性能を示すことが明らかになった。
既存の動画深度推定技術は根本的なトレードオフに直面している:生成的モデルは確率的な幾何学的幻影やスケールドリフトに悩まされ、識別的モデルは意味的曖昧性を解決するために大規模なラベル付きデータセットを要求する。この行き詰まりを打破するため、我々は事前学習済み動画拡散モデルを単一パスで動作する深度回帰器に確定的に適応させる初のフレームワーク「DVD」を提案する。具体的には、DVDは以下の3つの核心的設計を特徴とする:(i)拡散タイムステップを構造的アンカーとして再利用し、大域的な安定性と高周波詳細のバランスを取る、(ii)潜在多様体補正(LMR)により回帰による過剰平滑化を緩和し、微分制約を適用して鋭い境界と一貫した動きを回復する、(iii)大域的アフィン一貫性という、ウィンドウ間の発散を制限する内在的特性により、複雑な時間アライメントを必要とせずに長尺動画推論を実現する。大規模な実験により、DVDがベンチマークにおいてゼロショット性能で最先端を達成することが実証された。さらにDVDは、主要ベースライン比163倍少ないタスク特化データで、動画基盤モデルに内在する深い幾何学的事前知識の解放に成功している。特筆すべきは、我々がパイプラインを完全公開し、最先端の動画深度推定のための訓練スイート全体をオープンソースコミュニティに提供することである。
指示に基づく画像編集は、既存の画像内の特定の内容をユーザーが提供する指示に従って修正し、非対象領域を保持することを目的としています。従来のオブジェクト中心やスタイル中心の操作を超えて、テキスト中心の画像編集は画像に埋め込まれたテキスト要素の修正、翻訳、または再配置に焦点を当てています。しかし、既存の主要モデルは複雑なテキスト編集を正確に実行するのに苦戦することが多く、ぼやけた文字や虚構の文字を生成することが頻繁にあります。私たちはこれらの失敗の主な原因を、テキスト中心の編集に特化した訓練パラダイムの不足、および閉ループの訓練と評価システムに必要な大規模なデータセットと標準化されたベンチマークの欠如にあると考えます。これらの制限に対処するため、私たちはWeEditを提案します。これは、スケーラブルなデータ構築パイプライン、2つのベンチマーク、および特化した2段階の訓練戦略を含む体系的なソリューションです。具体的には、新しいHTMLベースの自動編集パイプラインを提案し、多様な編集操作と15言語をカバーする33万組の訓練ペアを生成し、包括的な評価のための標準化された二言語および多言語ベンチマークを提供します。アルゴリズム面では、グリフ誘導監視ファインチューニングを用いて明示的な空間および内容の事前情報を注入し、その後、多目的強化学習段階を経て、生成を指示への遵守、テキストの明瞭さ、背景の保持に整合させます。大規模な実験により、WeEditが多様な編集操作において従来のオープンソースモデルを明確に上回る性能を示すことが実証されています。
統一的マルチモーダルモデルは、理解・推論・生成の統合を目指すが、現行の画像編集ベンチマークは自然画像と浅い常識推論に偏重し、構造化された分野特化的制約下での能力評価が不十分である。本論文では、学術的知識に基づく画像編集の推論能力を評価する初のベンチマークGRADEを提案する。GRADEは自然科学から社会科学にわたる10学術分野・520検証サンプルで構成される。厳密な評価のため、分野推論・視覚的一貫性・論理的可読性を総合評価する多次元評価プロトコルを設計した。20の先進的オープンソース/クローズドソースモデルを用いた大規模実験により、暗黙的で知識集約的な編集設定において現行モデルが重大な限界を示し、大幅な性能差が生じることを明らかにした。定量的評価に加え、厳密な分析とアブレーション研究を通じてモデルの欠点を特定し、学術分野編集における制約要因を解明した。GRADEは統一的マルチモーダルモデルの発展に向けた重要方向性を示し、学術知識に基づく画像編集・推論研究の進展に寄与する。ベンチマークと評価コードは公開済みである。
拡散トランスフォーマー(DiT)は高い生成品質を実現するが、FLOPsが画像解像度に固定されるため、原理的なレイテンシと品質のトレードオフが制限され、入力空間トークン全体に均一に計算を割り当てるため、重要でない領域へのリソース配分が非効率である。本研究では、Elastic Latent Interface Transformer(ELIT)を提案する。これはドロップインでDiT互換のメカニズムであり、入力画像サイズと計算量を分離する。我々のアプローチは、潜在インターフェース、すなわち標準的なトランスフォーマーブロックが操作可能な学習可能な可変長トークン系列を挿入する。軽量なReadおよびWriteクロスアテンション層が空間トークンと潜在変数の間で情報を移動し、重要な入力領域を優先する。末尾の潜在変数をランダムにドロップする学習により、ELITは重要度順の表現を生成することを学習する。初期の潜在変数は大域的な構造を捕捉し、後期の潜在変数は詳細を洗練するための情報を含む。推論時には、潜在変数の数を動的に調整して計算制約に合わせることができる。ELITは意図的に最小限に設計されており、修正フロー目的関数とDiTスタックは変更せず、2つのクロスアテンション層を追加するのみである。様々なデータセットとアーキテクチャ(DiT、U-ViT、HDiT、MM-DiT)において、ELITは一貫した改善をもたらす。ImageNet-1K 512pxでは、ELITはFIDおよびFDDスコアで平均35.3%、39.6%の改善を達成する。プロジェクトページ: https://snap-research.github.io/elit/
創造性の主要な構成要素は、連想的推論である。これは概念間の新規かつ有意義な関連性を見出す能力を指す。本論文では、モデルの創造的連想推論能力を評価するために設計されたベンチマーク「CREATE」を提案する。CREATEは、モデルのパラメトリック知識内で概念間を結ぶ経路の集合を生成することをモデルに要求する。経路は高い特異性(概念間の関連性の明確さと近接性)と高い多様性(他の経路との非類似性)を有するべきであり、強力で多様な経路の集合を多く生成するモデルほど高く評価される。このタスクは、仮説生成のような現実の創造的タスクと同様の要求(極めて大規模な探索空間を含む)を共有しつつ、客観的な回答評価が可能な大規模ベンチマークの構築を可能にする。先端モデルの評価により、最も強力なモデルは他よりも高い創造的効用を達成するが、回答の多重性と探索の複雑さからベンチマークの飽和は困難であることが示された。さらに、思考モデルが高いトークン予算を割り当てられても本タスクで常に有効とは限らないことが結果から明らかとなった。創造的プロンプト手法による最近のアプローチは限定的な改善しかもたらさなかった。CREATEは、モデルの連想的創造性を高める新手法開発のためのサンドボックスを提供する。
自己回帰型(AR)ビデオ生成モデルは、ピクセルを離散的なトークン列に圧縮するビデオトークナイザに依存している。これらのトークン列の長さは、再構築品質と下流の生成計算コストのバランスを取る上で極めて重要である。従来のビデオトークナイザは、異なるビデオの時間ブロック全体に均一なトークン割り当てを適用しており、単純な静的セグメントや反復的セグメントにトークンを浪費する一方で、動的または複雑なセグメントへの割り当てが不十分になることが多い。この非効率性を解決するため、我々は効率的なビデオ適応型トークナイザを生成するフレームワークであるEVATokを提案する。本フレームワークは、最適な品質とコストのトレードオフを実現するために各ビデオへの最適なトークン割り当てを推定し、これらの最適割り当てを高速に予測する軽量なルータを開発し、ルータによって予測された割り当てに基づいてビデオを符号化する適応型トークナイザを訓練する。EVATokがビデオ再構築と下流のAR生成において、効率性と全体的な品質の大幅な改善をもたらすことを実証する。ビデオ意味エンコーダを統合した高度な訓練レシピによって強化されたEVATokは、優れた再構築性能と、UCF-101におけるstate-of-the-artのクラス対ビデオ生成を達成し、従来のstate-of-the-artであるLARPおよび我々の固定長ベースラインと比較して、平均トークン使用量を少なくとも24.4%削減する。
高密度画像キャプショニングは、視覚言語事前学習やテキストから画像への生成におけるクロスモーダル対応付けにおいて重要であるが、専門家品質のアノテーションを大規模化することは法外なコストがかかる。強力な視覚言語モデル(VLM)を用いた合成的キャプショニングは現実的な代替手段であるが、教師あり蒸留では出力の多様性や一般化性能が限られることが多い。強化学習(RL)はこれらの制限を克服できる可能性があるが、その成功はこれまで決定論的チェッカーに依存する検証可能な領域に集中しており、オープンエンドなキャプショニングでは利用できない。我々はこのボトルネックを解決するため、LLMが作成する評価基準から細粒度でサンプル固有の報酬信号を導出する新規RLフレームワーク「RubiCap」を提案する。RubiCapはまず多様な候補キャプションの委員会を構築し、次にLLM評価基準作成器を用いて現在のポリシーの合意された強みを抽出し、欠点を診断する。これらの知見を明示的な評価基準に変換することで、LLM評価器が全体的な品質評価を分解し、粗いスカラー報酬を構造化された多面的評価に置き換えることを可能にする。大規模なベンチマークにおいて、RubiCapはCapArenaで最高の勝率を達成し、教師あり蒸留、従来のRL手法、人間専門家のアノテーション、GPT-4V拡張出力を上回った。CaptionQAでは優れた単語効率を示し、7BモデルはQwen2.5-VL-32B-Instructに匹敵し、3Bモデルはその7B対応モデルを凌駕した。特筆すべきは、コンパクトなRubiCap-3Bをキャプショナーとして使用すると、プロプライエタリモデルからのキャプションで学習したVLMよりも強力な事前学習済みVLMが得られる点である。
近年、マルチモーダル大規模言語モデル(MLLM)は、主にテキストエンコーダとして拡散モデルフレームワークに広く統合され、空間推論などの複雑なタスクに取り組んでいる。しかし、このパラダイムには2つの重大な限界がある。(i) MLLMテキストエンコーダの推論深度が不十分である。単一ステップのエンコーディングでは、MLLMが複雑なタスクに対して正確なガイダンスを提供するために不可欠な連鎖思考プロセスを活性化できない。(ii) デコーディング過程においてガイダンスが不変である。不変のガイダンスは、たとえ正しいMLLMエンコーディングが得られた場合でも、DiTが複雑な指示を実行可能なノイズ除去ステップへと段階的に分解することを妨げる。 そこで我々は、内生的連鎖思考(EndoCoT)という新規フレームワークを提案する。本フレームワークでは、まず反復的思考ガイダンスモジュールを通じて潜在的な思考状態を反復的に精緻化することでMLLMの推論可能性を活性化し、次にこれらの状態をDiTのノイズ除去過程に接続する。第二に、終端思考接地モジュールを適用し、最終状態を正解と一致させることで、推論の軌跡がテキストによる監督に基づいたものであり続けることを保証する。これら2つの構成要素により、MLLMテキストエンコーダは緻密に推論されたガイダンスを提供し、DiTがそれを段階的に実行して最終的に複雑なタスクを段階的に解決することを可能にする。多様なベンチマーク(Maze, TSP, VSP, Sudokuなど)における広範な評価では、平均精度92.1%を達成し、最強のベースラインを8.3パーセントポイント上回った。
現代の視覚エージェントは、リアルタイムストリーミング環境で動作するために、汎用的で因果的、かつ物理的に構造化された表現を必要としている。しかし、現在の視覚基盤モデルは断片的なままであり、画像の意味的知覚、オフライン時系列モデリング、空間的ジオメトリといった分野に特化している。本論文では、多様な視覚入力から効果的に知覚、再構築、行動する統合型ストリーミング視覚バックボーン「OmniStream」を提案する。因果的時空間注意と3D回転位置埋め込み(3D-RoPE)を組み込むことで、本モデルは永続的KVキャッシュによるビデオストリームの効率的なフレーム単位のオンライン処理を実現する。OmniStreamは、静的・時間的表現学習、ストリーミング幾何再構築、視覚言語アラインメントを結合した協調的マルチタスクフレームワークを用いて、29のデータセットで事前学習を行う。詳細な評価により、バックボーンを厳密に固定した場合でも、OmniStreamが画像・ビデオプロービング、ストリーミング幾何再構築、複雑なビデオ・空間推論、さらにはロボット把持(学習時未経験)において、特化した専門モデルと一貫して競争力のある性能を達成することが示された。ベンチマーク特化型の優位性を追求するのではなく、本研究は意味的・空間的・時間的推論に汎化する単一の多用途視覚バックボーンを訓練する可能性を実証する。すなわち、対話的で具身化されたエージェントのための汎用視覚理解に向けた、より意味のある一歩を示すものである。
3Dガウススプラッティング(3DGS)は、多様なアプリケーションにおける高品質レンダリングの強力な表現法として登場した。しかし、その高い計算要求と大規模なストレージコストは、モバイルデバイスへの展開において重大な課題となっている。本研究では、モバイル向けに調整されたリアルタイムガウススプラッティング手法であるMobile-GSを提案し、エッジデバイス上での効率的なガウススプラッティングの推論を実現する。具体的には、まず、時間のかかるガウス深度ソート処理に依存するため、アルファブレンディングが主要な計算ボトルネックであることを特定する。この問題を解決するために、ソートを不要とする深度感知順序独立レンダリング方式を提案し、レンダリングを大幅に高速化する。この順序独立レンダリングはレンダリング速度を向上させるが、レンダリング順序の不足により、幾何学的に重複する領域で透明度に関するアーティファクトが生じる可能性がある。この問題に対処するため、視点方向、3Dガウス形状、および外観属性に条件付けされた視点依存効果のより正確なモデリングを可能にする、ニューラル視点依存強調戦略を提案する。これにより、Mobile-GSは高品質かつリアルタイムのレンダリングを両立できる。さらに、メモリ制約の厳しいモバイルプラットフォームへの展開を容易にするため、一次球面調関数蒸留、ニューラルベクトル量子化技術、および貢献度ベースの剪定戦略を導入し、ニューラルネットワークの支援によりガウスプリミティブの数を削減し、3Dガウス表現を圧縮する。大規模な実験により、提案するMobile-GSが、高視覚品質を維持しつつ、リアルタイムレンダリングとコンパクトなモデルサイズを達成し、モバイルアプリケーションに適していることを実証する。
自然言語で訓練された大規模言語モデルは、顕著な異方性を示す。すなわち、ごく少数の方向に不均衡にエネルギーが集中し、残りの次元は広範な意味的テイルを形成する。低ビット訓練体制では、この幾何学的構造は数値的に不安定になる。ブロック単位の量子化スケールは要素ごとの極値に基づいて決定されるため、優勢な方向がダイナミックレンジを拡張し、ロングテイルの意味的変動を狭い数値ビンに圧縮してしまう。本論文では、この不安定性が主に、コヒーレントなランク1の平均バイアスによって駆動されることを示す。この平均成分はLLM表現のスペクトル異方性の主要因を構成しており、層や訓練段階を系統的に横断して出現し、極端な活性化値の大部分を占めるため、低精度条件下におけるダイナミックレンジ膨張の主要因となっている。決定的に重要なのは、この主要な不安定性がランク1であるため、単純なソースレベルの平均減算操作によって除去可能である点である。このバイアス中心の条件付けは、SVDに基づくスペクトル法の安定化効果の大半を維持しつつ、縮約操作と標準的な量子化カーネルのみを必要とする。FP4(W4A4G4)訓練における実証結果から、平均除去がBF16との損失差を大幅に縮小し、下流タスクの性能を回復させ、ハードウェア効率の良い低ビットLLM訓練の実現経路を提供することが示された。
本論文では、自己反省を備えたエージェント検索のためのインコンテキストメタ強化学習(RL)フレームワークであるMR-Searchを提案する。単一の独立したエピソード内で報酬が疎な方策を最適化する代わりに、MR-Searchは過去のエピソードを条件とし、エピソードを跨いで検索戦略を適応させる方策を訓練する。MR-Searchは自己反省による検索戦略を学習することを学び、検索エージェントがテスト時にインコンテキストな探索を改善できるようにする。具体的には、MR-Searchは各エピソード後に明示的な自己反省を生成し、それを追加の文脈として活用して後続の試行を導くことで、エピソード間探索を実行し、テスト時のより効果的な探索を促進する。さらに、ターンレベルで密な相対的アドバンテージを推定するマルチターンRLアルゴリズムを導入し、各エピソードに対するきめ細かい信用割り当てを可能にする。様々なベンチマークによる実験結果は、ベースラインRL手法に対するMR-Searchの優位性を示しており、8つのベンチマークで強力な一般化性能と9.2%から19.3%の相対的改善を実証している。コードとデータはhttps://github.com/tengxiao1/MR-Search で公開されている。
実環境における視覚言語モデルの展開では、天候、遮蔽、カメラ動作などの外乱に頻繁に直面する。こうした条件下では、モデルの理解と推論能力は大幅に低下し、清浄で制御された(すなわち摂動のない)評価環境と実世界のロバスト性の間に隔たりが生じることが明らかになっている。この課題を解決するため、我々はROVAを提案する。これは時空間的摂動下でのロバスト性を考慮した一貫性報酬をモデル化することで、堅牢性を向上させる新しいトレーニングフレームワークである。ROVAは、モデルの発展する能力に基づいて情報量の多いサンプルを優先する、難易度を考慮したオンライン学習戦略を導入する。具体的には、自己反省的評価を通じてサンプルの難易度を継続的に再推定し、ロバスト性を考慮した一貫性報誉を用いた適応的トレーニングを可能にする。さらに、実世界の摂動を具象化ビデオデータセットに注入し、現実的な外乱下での精度と推論品質の両方を評価する新しいベンチマークPVRBenchを提案する。我々はROVAとベースラインモデルをPVRBench、UrbanVideo、VisBenchで評価した。その結果、オープンソースモデルおよびプロプライエタリモデルは、現実的な摂動下で精度が最大35%、推論能力が最大28%低下することが明らかになった。ROVAは性能低下を効果的に抑制し、ベースラインモデル(QWen2.5/3-VL、InternVL2.5、Embodied-R)と比較して、相対精度を少なくとも24%以上、推論能力を9%以上向上させた。これらの改善効果は、清浄な標準ベンチマークにも転移し、一貫した性能向上をもたらした。
大規模言語モデル(LLM)はコード生成において顕著な成功を収めているが、複雑なソフトウェア工学に必要とされる深遠で長期的な推論には依然として苦戦することが多い。我々はこの限界を、標準的な事前学習データの性質に起因すると考える。すなわち、静的なソフトウェアリポジトリは、複雑な知的プロセスの最終状態のみを表現しており、中間段階の計画、デバッグ、反復的な改良という過程を抽象化してしまっている。この隔たりを埋めるため、我々は「再構成による理解」という新たなパラダイムを提案する。静的なリポジトリの背後に潜むエージェント的行動軌跡(計画、推論、デバッグのステップ)をリバースエンジニアリングすることで、生のコード単体よりもはるかに豊富な教師信号が得られると仮説を立てる。 これを具体化するため、マルチエージェントシミュレーションを用いてこれらの軌跡を合成するフレームワークを導入する。このプロセスは、ソースリポジトリの構造的現実(依存関係グラフやファイル階層など)に基づいており、忠実性を保証する。さらに、合成データの論理的厳密性を保証するため、検索ベースの最適化手法を採用し、正解コードの尤度を最大化するように連鎖思考(Chain-of-Thought)推論を反復的に洗練させる。実証実験の結果、これらの再構成された軌跡による継続的な事前学習が、Llama-3-8Bの性能を、長文理解、コーディング能力、エージェント機能といった多様なベンチマークにおいて大幅に向上させることが示された。
アクセントは社会の不可欠な要素であり、多文化主義を反映し、個人のアイデンティティ表現の在り方を形作る。英語話者の大多数は非母語話者(L2)であるが、現在のテキスト音声合成(TTS)システムは、アクセント付きデータの不足により、主にアメリカ英語アクセントをモデル化している。本論文では、アクセント付き学習データを必要とせずに多言語TTSでアクセント操作を可能にする制御可能な表現「Accent Vector」を提案する。Accent Vectorは、異なる言語(すなわち非英語)の母語話者音声でTTSシステムをファインチューニングし、アクセント特性(すなわち英語における)を捕捉するタスクベクトルを計算することで導出される。このベクトルをスケーリングおよび補間することにより、アクセントの強度に対する細かな制御を実現し、混合アクセント音声を生成する。さらに、この手法は英語以外にも一般化可能で、複数言語にわたるアクセント制御を可能にする。客観的および主観的評価により、Accent Vectorが細粒度かつ合成的なアクセント制御に有効であることが確認された。
推論能力を備えたLLM審査官(Reasoning LLMs-as-Judges)は、推論時のスケーリングによる恩恵を受け得るため、出力の正しさ/品質を直接検証できない非検証可能領域において、推論モデルの成功を拡張する有望な道筋を提供する。しかしながら、推論審査官が静的な評価ベンチマークでより優れた性能を示す一方で、実際の方策訓練におけるその有効性は体系的に検証されていなかった。そこで我々は、強化学習に基づくLLMアライメントにおいて、非推論審査官と推論審査官が実際に与える影響を調査するため、厳密な研究を行った。我々の制御された合成設定(「ゴールドスタンダード」審査官(gpt-oss-120b)がより小さい審査官を訓練するための嗜好注釈を提供する)により、非推論審査官と推論審査官の間の重要な差異が明らかになった:非推論審査官は報酬ハッキングを容易に引き起こすのに対し、推論審査官は、ゴールドスタンダード審査官による評価で強力な性能を達成する方策をもたらすのである。興味深いことに、推論審査官によって訓練された方策は、他のLLM審査官を欺いてArena-Hardのような一般的なベンチマークでも高得点を獲得し得る、非常に効果的な敵対的出力を生成することを学習することで、この強力な性能を達成していることがわかった。さらなる分析と合わせて、本研究は、非検証可能なLLMのポストトレーニングにおいて(推論)LLM審査官を適用する際の重要な知見と改善の余地の両方を浮き彫りにしている。
複雑な強化学習(RL)環境を高性能な実装に変換する作業は、従来、数ヶ月に及ぶ専門的なエンジニアリングを必要としてきました。本研究では、再利用可能な手法―具体的には、汎用プロンプトテンプレート、階層的検証、エージェント支援による反復的修復―を提案します。この手法により、計算コスト10ドル未満で意味的に等価な高性能環境を生成できます。5つの環境において、3つの異なるワークフローを実証しました。直接変換(既存の高性能実装が存在しない場合):EmuRust(Game BoyエミュレータのRust並列化によるPPO速度1.5倍)および、初のGPU並列化PokemonバトルシミュレータであるPokeJAX(ランダム行動時5億SPS、PPO時1520万SPS;TypeScriptリファレンス比22,320倍)。既存の高性能実装に対する検証付き変換:MJXとのスループット同等性(1.04倍)、同一GPUバッチサイズにおけるBrax比5倍(HalfCheetah JAX);PPO比42倍(Puffer Pong)。新規環境作成:ウェブ抽出仕様から合成された、初のデプロイ可能なJAX版PokemonカードゲームエンジンTCGJax(ランダム行動時71.7万SPS、PPO時15.3万SPS;Pythonリファレンス比6.6倍)。パラメータ数が2億に達すると、環境のオーバーヘッドは学習時間の4%未満に低下します。階層的検証(特性テスト、相互作用テスト、ロールアウトテスト)により、5環境全ての意味的等価性が確認されました。また、バックエンドを跨ぐポリシー転送により、5環境全てでシミュレーション間ギャップがゼロであることが確認されました。公開リポジトリに存在しない非公開リファレンスから合成されたTCGJaxは、エージェント事前学習データに関する汚染対策として機能します。本論文には、代表的なプロンプト、検証方法論、完全な結果を含む十分な詳細が記載されており、コーディングエージェントが論文から直接変換を再現できる内容となっています。
粗大誘導による視覚生成は、劣化または低精細度の粗い参照から高精細な視覚サンプルを合成する技術であり、様々な実世界応用において重要である。学習ベースの手法は有効であるが、ペアデータ収集に伴う高い学習コストと一般化性能の制約が本質的な課題となる。このため、近年の学習不要手法では、事前学習済み拡散モデルを活用し、サンプリング過程に誘導を組み込むことが提案されている。しかし、これらの手法は、双三次ダウンサンプリングなどの順方向(高精細から粗大への)変換演算子の知識を必要とするか、誘導と合成品質のバランス調整が困難である。これらの課題に対処するため、本論文では確率過程(例:サンプリング過程)を所定の条件で制約するツールであるh変換を利用した新規な誘導手法を提案する。具体的には、各サンプリング時間ステップにおける遷移確率を、理想的な高精細サンプルへ生成を方向付けるドリフト関数を元の微分方程式に追加することで修正する。回避不可能な近似誤差に対処するため、誤差の増大に伴って当該項の重みを漸減するノイズレベル感知型スケジュールを導入し、誘導の忠実度と高品質合成の両立を確保する。多様な画像・動画生成タスクにおける大規模実験により、本手法の有効性と一般化性能を実証する。
近年、ポストトレーニングによるツール利用LLM向けのエージェント的タスクの合成が進められているが、タスクやツールセットの変化に対する頑健な汎化性能は未解決の課題である。我々はこの脆弱性の原因を、合成タスクの多様性不足に遡る。多様性の拡大は困難を伴う。なぜなら、学習にはタスクが実行可能かつ検証可能であることが求められる一方で、汎化には多様なツールタイプ、ツールセットの組み合わせ、異種のツール利用パターンを含む網羅性が要求されるためである。本論文では、DIVEを提案する。これは証拠駆動型の手法であり、合成の順序を逆転させ、まず多様な実世界のツールを実行し、その結果得られた実行トレースから厳密に導出されるタスクを逆算することで、構成的に接地を提供する。DIVEは、制御可能な二つの軸、すなわちツールプールの網羅性とタスク毎のツールセット多様性に沿って構造的多様性を拡大する。さらに、「証拠収集-タスク導出」ループにより、5分野373のツールにわたる豊富なマルチステップのツール利用パターンを誘導する。DIVEデータ(48k SFT + 3.2k RL)でQwen3-8Bを学習させた結果、9つのOODベンチマークで平均+22ポイント向上し、最強の8Bベースラインを+68ポイント上回った。特筆すべきは、制御されたスケーリング分析により、OOD汎化においては、データ量が4分の1であっても、多様性の拡大が量の拡大を一貫して上回ることが明らかになった点である。
Tiny Ayaは、小規模多言語言語モデルの可能性を再定義します。70言語で学習され、地域を意識した事後学習によって洗練されたこのモデルは、わずか35億パラメーターで、最先端の翻訳品質、強力な多言語理解、高品質な目標言語生成を実現します。リリースには、事前学習済み基盤モデル、世界的にバランスの取れた指示チューニング版、そしてアフリカ、南アジア、ヨーロッパ、アジア太平洋、西アジアの言語を対象とした3つの地域特化モデルが含まれます。本報告書では、Tiny Ayaの背後にある学習戦略、データ構成、包括的な評価フレームワークを詳述し、効率性、言語間のバランスの取れた性能、実用的な配備を中心とした、多言語AIの新たなスケーリング手法を提案します。
標準的なLLM蒸留では、計算リソースが二つの面で無駄になっている。一つは生徒モデルが既に習得した問題(勾配がほぼゼロ)、もう一つは生徒モデルの能力を大きく超える問題(既存の能力を損なう無秩序な勾配)である。本論文では、この無駄が直感的に理解できるだけでなく、構造的に不可避であることを示す。すなわち、蒸留における勾配の信号対雑音比は、合格率の両極端で理論的に消失することが証明される。この理論的観察から導かれたのがPacedである。これは、蒸留勾配の境界消失構造から導出された原理的な合格率重み関数 w(p) = p^α(1 - p)^β を用いて、蒸留を発達の最近接領域、すなわち生徒モデルの能力の最先端に集中させるフレームワークである。主な成果は以下の通り。(1) 理論: Betaカーネル w(p) = p^α(1-p)^β が蒸留のSNR構造から生じる主要な重み関数族であり、これがミニマックス頑健性を持つことを証明する。具体的には、有界な乗法的誤設定の下で、最悪ケースの効率損失はわずか O(δ^2) に留まる。(2) 蒸留: 大規模な教師モデルから小規模な生徒モデルへの順方向KLを用いた蒸留において、Pacedはベースモデルを大幅に上回る性能向上を達成し、ベンチマークでの忘却を低水準に抑える。(3) 自己蒸留: 逆方向KLを用いた指示チューニング済みモデルにおいても、ベースラインを上回る性能向上が得られる。(4) 二段階の相乗効果: 順方向KL、その後逆方向KLというスケジュールは、我々の設定で最強の結果をもたらし、標準的な推論ベンチマークで大幅な改善を達成する。これは蒸留プロセスを「モードの網羅、その後定着」と解釈する見方を支持する。全ての構成では、合格率の推定に生徒モデルのロールアウトのみを必要とし、アーキテクチャの変更は不要で、あらゆるKLの方向性と互換性がある。
本論文では、産業レベルのオールインワン自動音声認識システム「FireRedASR2S」を提案する。本システムは、ASR、音声活動検出(VAD)、話者言語識別(LID)、句読点予測(Punc)の4モジュールを統合パイプラインとして統合している。全てのモジュールが評価ベンチマークでSOTA性能を達成した:FireRedASR2:2つのバリアント(FireRedASR2-LLM:80億以上、FireRedASR2-AED:10億以上のパラメータ)を有するASRモジュール。中国語普通話、中国方言・アクセント、英語、コードスイッチングに対応し、音声および歌唱の転写をサポート。前世代のFireRedASRと比較し、認識精度が向上し、方言・アクセントのカバレッジが拡大。FireRedASR2-LLMは、公開ベンチマーク4種で平均CER 2.89%、中国方言・アクセントベンチマーク19種で平均CER 11.55%を達成し、Doubao-ASR、Qwen3-ASR、Fun-ASRなどの競合ベースラインを上回った。FireRedVAD:Deep Feedforward Sequential Memory Network(DFSMN)ベースの超軽量モジュール(60万パラメータ)。ストリーミングVAD、非ストリーミングVAD、マルチラベルVAD(mVAD)をサポート。FLEURS-VAD-102ベンチマークにおいて、フレームレベルF1値97.57%、AUC-ROC 99.60%を達成し、Silero-VAD、TEN-VAD、FunASR-VAD、WebRTC-VADを凌駕。FireRedLID:100以上の言語と20以上の中国方言・アクセントをサポートするEncoder-Decoder型LIDモジュール。FLEURS(82言語)において発話レベル精度97.18%を達成し、Whisper、SpeechBrainを上回る。FireRedPunc:中国語と英語向けのBERTスタイルの句読点予測モジュール。マルチドメインベンチマークで平均F1値78.90%を達成し、FunASR-Punc(62.77%)を優位に上回った。音声処理研究の発展に向け、モデル重みとコードをhttps://github.com/FireRedTeam/FireRedASR2S で公開する。
潜在拡散モデルは高解像度画像生成において新たなstate-of-the-artを確立している。視覚基盤モデル(VFM)の事前知識を統合することで生成効率は向上するものの、既存の潜在設計は依然として経験則に依存している。これらの手法は、意味論的分離性、再構成忠実度、潜在空間のコンパクト性を統一することに課題を抱えている。本論文では、これらの課題を体系的に解決する原理に基づいたフレームワークである幾何学オートエンコーダ(GAE)を提案する。様々なアライメント手法を分析することで、GAEはVFMから最適化された低次元の意味論的教師信号を構築し、オートエンコーダに指導を提供する。さらに、標準VAEの制約の強いKLダイバージェンスを置き換える潜在正規化を採用し、拡散学習に特化してより安定した潜在多様体を実現する。高強度ノイズ下での堅牢な再構成を保証するため、GAEは動的ノイズサンプリング機構を組み込んでいる。ImageNet-1K 256×256ベンチマークにおける実証実験では、GAEはClassifier-Free Guidanceなしで、80エポックでgFID 1.82、800エポックで1.31を達成し、既存のstate-of-the-art手法を大幅に上回る性能を示した。生成品質を超えて、GAEは圧縮率、意味的深度、堅牢な再構成安定性の間で優れた均衡を確立している。これらの結果は我々の設計思想を検証し、潜在拡散モデリングにおける有望なパラダイムを提供する。コードとモデルはhttps://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Modelsで公開されている。
大規模言語モデル(LLM)において、事前学習は表現能力と各種機能の大部分が獲得される極めて重要な段階である。しかし、自然言語を用いた事前学習には問題点がある。高品質なテキストデータには限界があり、人間のバイアスを含み、知識と推論能力が密接に絡み合っている。これにより、自然言語こそが知能獲得への唯一の経路なのかという根本的疑問が生じる。本研究では、神経細胞オートマトン(NCA)を活用し、非言語的な合成データを生成してLLMの事前事前学習(合成データ→自然言語の二段階学習)に用いる手法を提案する。NCAデータは、自然言語に類似した豊かな時空間構造と統計的特性を示しつつ、大規模生成が低コストで制御可能である。わずか1億6400万トークンのNCAデータによる事前事前学習により、下流の言語モデリングタスクで最大6%の精度向上と最大1.6倍の収束加速を達成した。驚くべきことに、この結果は計算量を増やしてCommon Crawlの16億自然言語トークンで事前事前学習した場合を上回る。この効果はGSM8K、HumanEval、BigBench-Liteなどの推論ベンチマークにも転移した。転移効果の要因を調査すると、Attention層の転移性が最も高く、最適なNCAの複雑度は領域によって異なることが判明した。コード領域では単純な力学が、数学やウェブテキストでは複雑な力学が有効である。これらの知見は、対象領域に応じて合成データ分布を体系的に調整することを可能にする。より広義には、本研究成果は完全合成データによる事前学習を通じた効率的なモデル開発への道を開くものである。
マルチモーダル大規模言語モデル(MLLM)は、様々な視覚タスクにおいて人間の判断との高い一致を示すことから、「MLLM-as-a-Judge」(審判としてのMLLM)として広く採用されている。しかし、既存の審判モデルの多くは単一タスクシナリオ向けに最適化されており、信頼性のある評価に不可欠な要件である多様な文脈への汎化が困難である。この課題を解決するため、我々は複数タスクにわたって審判モデルを共同最適化し、RLの汎化能力を活用するフレームワーク「Multi-Task Reinforcement Learning for MLLM-as-a-Judge(MT-RL-Judge)」を提案する。いくつかの強力なベースラインとの比較実験により、MT-RL-Judgeが判断の一貫性と人間の選好との相関の両方において、強力なベースラインを上回ることを実証した。さらに、本手法は分布外タスクにおいても頑健な汎化性能を示し、その有効性をさらに裏付けている。
テキスト音声拡散モデルは高精細な音声を生成するが、数十回の関数評価(NFE)を必要とし、数秒の遅延と限られたスループットが生じる。本論文では、意味的に類似したキャッシュ音声からのウォームスタートによりテキスト音声拡散を高速化する、学習不要かつモデル非依存の初の推論システム「SoundWeaver」を提案する。SoundWeaverは3つの構成要素を導入する:意味的・時間長認識ゲーティングによりキャッシュ候補を検索し時間軸調整する参照選択器、スキップするNFE割合を動的に決定するスキップゲーター、品質認識型の追い出しと洗練によりキャッシュ効用を維持する軽量キャッシュ管理器である。実世界の音声トレースを用いた評価では、SoundWeaverは約1,000エントリのキャッシュ規模で知覚品質を維持または向上させつつ、1.8~3.0倍の遅延低減を達成した。
事前学習によって得られる学習済みパラメータベクトルは、通常、さらなる反復的適応の出発点として扱われる。本研究では、事前学習の結果をパラメータベクトル上の分布として捉え直し、その支持集合には既にタスク特化のエキスパートが含まれていると見なす。我々は、小規模モデルではこのようなエキスパート解が分布の体積において無視できる割合しか占めておらず、その発見が勾配降下法のような構造化された最適化手法に依存することを示す。対照的に、大規模で十分に事前学習されたモデルでは、タスクエキスパートの密度が劇的に増加し、多様なタスク改善型の専門家が事前学習済み重みの近傍のかなりの部分を占めるようになる。この視点に動機付けられ、我々は単純かつ完全並列な事後学習手法を探求する。これはN個のパラメータ摂動を無作為にサンプリングし、上位K個を選択し、多数決によって予測をアンサンブルする手法である。この手法は単純であるにも関わらず、現代の大規模モデルにおいて、PPO、GRPO、ESなどの標準的な事後学習手法と同等の性能を示す。
視覚言語行動(VLA)モデルに対する継続的強化学習(CRL)は、開かれた進化環境に適応可能な自己改善型具身エージェント実現への有望な方向性である。しかし、継続学習における従来の知見は、単純な逐次ファインチューニング(Seq. FT)が破滅的忘れ込みを引き起こし、複雑なCRL戦略を必要とすると示唆してきた。本研究では、大規模事前学習済みVLAモデル3種と挑戦的な生涯RLベンチマーク5種を用い、CRLに関する体系的な研究を改めて行った。その結果、確立された通説に反し、低ランク適応(LoRA)を組み合わせた単純なSeq. FTが驚くほど強力であることを発見した。これは高い可塑性を達成し、忘れ込みがほとんどなく、強力なゼロショット汎化性能を維持し、より複雑なCRL手法をしばしば上回る。詳細な分析を通じて、この頑健性は大規模事前学習モデル、パラメータ効率の良い適応、方策オン型RLの相乗効果から生じることを示す。これらの要素が組み合わさることで、安定性と可塑性のトレードオフが再構築され、継続的適応が安定かつスケーラブルに実現される。我々の結果は、Seq. FTをVLAを用いた継続的RLの強力な手法として位置づけ、大規模モデル時代における生涯学習に関する新たな知見を提供する。コードはgithub.com/UT-Austin-RobIn/continual-vla-rlで公開されている。
我々は、Neural Field Thermal Tomography (NeFTY) を提案する。これは、過渡的な表面温度測定から材料特性を定量的に3D再構築するための微分可能物理フレームワークである。従来のサーモグラフィが側方拡散を無視した画素単位の1次元近似に依存し、ソフト制約のPhysics-Informed Neural Networks (PINNs) が勾配の硬さのために過渡拡散問題でしばしば失敗するのに対し、NeFTYは、厳密な数値ソルバーを通じて最適化される連続神経場として3D拡散率場をパラメータ化する。微分可能物理ソルバーを活用することで、本手法は熱力学法則をハード制約として強制しつつ、高解像度3Dトモグラフィに必要なメモリ効率を維持する。我々の「離散化してから最適化する」パラダイムは、逆熱伝導に内在するスペクトルバイアスと不適切性を効果的に緩和し、任意のスケールでの内部欠陥の回復を可能にする。合成データによる実験的検証により、NeFTYがベースライン手法と比較して内部欠陥位置特定の精度を大幅に改善することを示す。詳細は https://cab-lab-princeton.github.io/nefty/ を参照。
物理ベースのヒューマノイド制御は、現実的で高性能な単一エージェントの動作実現において著しい進歩を遂げているが、これらの能力を協調的な人物-物体インタラクション(HOI)に拡張することは依然として課題である。本論文では、単一の分散型ポリシーが任意の数の協調エージェントにわたる協調的HOIを扱うことを可能にするフレームワーク、TeamHOIを提案する。各エージェントは局所観測を用いて動作すると同時に、Transformerベースのポリシーネットワーク内のチームメートトークンを介して他のチームメートに注意を向けることで、チームサイズが変動しても拡張可能な協調を実現する。協調的HOIデータの不足という課題に対処しつつ動作の現実性を確保するため、単一人物の参照動作を使用し、訓練中に対象物と相互作用する身体部位をマスクするマスク付き敵対的動作事前分布(AMP)戦略をさらに導入する。マスクされた領域は、タスク報酬を通じて多様で物理的に妥当な協調行動を生成するように導かれる。TeamHOIを、2体から8体のヒューマノイドエージェントと様々な形状の物体が関わる困難な協調運搬タスクで評価する。最後に、安定した運搬を促進するため、チームサイズと形状に依存しない隊形報酬を設計する。TeamHOIは高い成功率を達成し、単一のポリシーで多様な構成にわたって一貫した協調動作を示す。
大規模言語モデル(LLM)におけるフィードフォワードネットワーク(FFN)が、高次元潜在空間内で情報フローをどのように組織化し制御するかを理解するための、統一的な固有スペクトル枠組み「NerVE」を提案する。FFNはパラメータ予算の大部分を占めるにもかかわらず、その高次元動態は十分に理解されていない。NerVEは、4つの相補的指標——スペクトルエントロピー(分散度)、参加率(実効次元数)、固有値早期富化(トップ重み性)、およびジェンセン-シャノン発散(分布変位)——による軽量かつメモリ効率的な固有スペクトル動態の追跡を通じてこの課題に取り組む。我々の重要な知見は、FFNの非線形性が固有モード間で分散を再注入し、潜在次元の利用を根本的に支配すること、そしてオプティマイザの幾何学がこの分散再注入の程度を強く調整することである。NerVEを様々なモデル規模、多様なアーキテクチャおよびオプティマイザ設定で検証し、それぞれがFFN動態を独自に形成することを確認した:正規化手法は分散の流れを制御し、FFN重みの幾何学は潜在空間を拘束し、位置エンコーディングと活性化関数は情報フローを調整し、オプティマイザの選択は深さ方向への実効容量の再配分を行う。これらの設定において、NerVEはモデルの汎化能力と相関し、設計選択に対して予測可能な応答を示す安定したスペクトル特性を一貫して抽出する。これはTransformerを超えてMLP-Mixerアーキテクチャにも一般化され、試行錯誤を超えたアーキテクチャおよびオプティマイザ選択に対する実践的な知見を提供する。
フェデレート言語モデル(FedLM)は、生データを共有することなく協調学習を可能にするが、信頼できないクライアントが受信した機能モデルインスタンスを漏洩させる可能性があるという重大な脆弱性を導入する。現在のFedLM向け透かし手法は、ホワイトボックスアクセスとクライアント側の協力を必要とすることが多く、個々の追跡可能性ではなくグループレベルの所有権証明しか提供しない。本論文では、FedLMに特化したサーバーサイドの追跡可能なブラックボックス透かしフレームワーク「EmbTracker」を提案する。EmbTrackerは、単純なAPIクエリで検出可能なバックドア型透かしを埋め込むことでブラックボックス検証を実現する。クライアントレベルの追跡可能性は、各クライアントに配布するモデルに固有のIDに基づく透かしを注入することで実現する。これにより、漏洩したモデルを特定の原因クライアントに帰属させ、非協力的な参加者に対しても堅牢性を確保する。様々な言語モデルおよび視覚言語モデルを用いた大規模な実験により、EmbTrackerが100%に近い検証率で強固な追跡可能性を達成し、除去攻撃(ファインチューニング、プルーニング、量子化)に対する高い耐性を持ち、主要タスクの性能への影響が無視できる範囲(通常1-2%以内)であることを実証した。
Audio-Visual Speech Recognition (AVSR) は、雑音下での頑健な認識のために音声情報と視覚情報の両方を活用する。しかし、モデルがこれらのモダリティをどのようにバランスさせるかは未だ不明である。本論文では、Shapley値を用いてAVSRにおけるモダリティ寄与を分析するフレームワーク、Dr. SHAP-AVを提案する。2つのベンチマークと様々なSNRレベルにわたる6つのモデルを用いた実験を通じて、3つの分析を導入する:全体的なモダリティバランスのためのGlobal SHAP、デコーディング中の寄与の動的変化を捉えるGenerative SHAP、そして入出力対応関係を分析するTemporal Alignment SHAPである。我々の知見は、モデルが雑音下では視覚への依存を強める一方、音声が深刻に劣化した条件下でも高い寄与を維持することを明らかにする。モダリティバランスは生成過程で変化し、時間的アライメントは雑音下でも保持され、SNRがモダリティの重み付けを駆動する支配的要因である。これらの知見は、モデルに持続的な音声バイアスが存在することを露呈し、アドホックなモダリティ重み付け機構の必要性、およびShapley値に基づく帰属分析を標準的なAVSR診断手法とする動機付けを提供する。
トランスフォーマーはしばしばアテンションシンク(attention sink)を示す。すなわち、確率質量が固定的でコンテンツに依存しない位置に集中する現象である。本論文では、単純なトリガー条件付きの振る舞いを計算することが、ソフトマックス自己注意モデルにおいて必然的にシンクを誘発することを証明する。我々の結果は、よく知られた直感を形式化するものである。つまり、確率単体上の正規化は、デフォルト状態(例えば、モデルが入力を無視する必要がある場合)を実現するために、注意を安定したアンカーに収束させることを強制するはずである。我々はこれを具体的なタスクで例示する。指定されたトリガートークンが出現した場合、モデルは先行する全てのトークン表現の平均を返さなければならず、それ以外の場合はゼロを出力する。このタスクは、実際のアテンションヘッドの機能を反映している(Barbero et al., 2025; Guo et al., 2024)。さらに我々は、正規化されていないReLU注意が、シンクを一切伴わずに同じタスクを解決できることを証明し、正規化の制約がシンク行動の根本的な要因であることを確認する。実験により我々の予測が検証され、それらが理論的に分析された設定を超えて拡張されることが実証される。すなわち、ソフトマックスモデルは強力なシンクを発達させるのに対し、ReLU注意は単一ヘッド及び多頭バリアントの両方においてシンクを排除する。
右側打ち切りの生存データから異質な治療効果(HTE)を推定することは、精密医療や個別化された政策決定などの高リスク応用において極めて重要である。しかし、生存分析の設定では、打ち切り、観測不能な反事実、複雑な識別仮定により、HTE推定に特有の課題が生じる。Causal Survival Forestsから生存メタラーナーや結果代入アプローチに至る最近の進展にもかかわらず、評価手法は断片的で一貫性に欠けている。本研究では、打ち切り結果を伴うHTE推定のための初の包括的ベンチマークであるSurvHTE-Benchを提案する。このベンチマークは、(i) 既知の真実値を持つ合成データセットのモジュール式スイート(因果仮説と生存ダイナミクスを体系的に変化)、(ii) 実世界の共変量と模擬的な治療・結果を組み合わせた半合成データセット、(iii) 双子研究(既知の真実値あり)およびHIV臨床試験に基づく実世界データセットを含む。合成、半合成、実世界の設定全体において、多様な条件下および現実的な仮定違反下での生存HTE手法の初の厳密な比較を提供する。SurvHTE-Benchは、因果生存手法の公平で再現性が高く拡張可能な評価の基盤を確立する。ベンチマークのデータとコードは以下で利用可能である:https://github.com/Shahriarnz14/SurvHTE-Bench
Stable Diffusion(SD)などの拡散モデルは画像生成において優れた性能を示すものの、推論速度の遅さが実用上の課題となっている。近年の研究では、多段階の拡散プロセスを1段階の生成器に蒸留することで推論の高速化が図られている。本論文では蒸留メカニズムの理解を深めるため、1段階の学生モデルと多段階の教師モデル間におけるU-Net/DiTの重み変化を分析する。分析の結果、重みの方向変化が重みのノルム変化を大幅に上回っており、これが蒸留過程における主要因であることが明らかとなった。この知見に基づき、我々は重み方向の低ランク回転(LoRaD)を提案する。これは1段階拡散蒸留に特化したパラメータ効率の高いアダプタであり、学習可能な低ランク回転行列を用いて構造化された方向変化をモデル化する。さらにLoRaDをVariational Score Distillation(VSD)に統合し、重み方向を考慮した新しい蒸留フレームワーク「WaDi」を構築した。WaDiはU-Net/DiTの学習可能パラメータの約10%のみを使用しながら、COCO 2014およびCOCO 2017においてstate-of-the-artのFIDスコアを達成した。さらに、蒸留された1段階モデルは強力な汎用性と拡張性を示し、制御可能な生成、関係性反転、高解像度合成といった様々な下流タスクに良好に適応することが確認された。
DINOv2に代表される事前学習済み視覚エンコーダーは、単一モダリティタスクにおいて卓越した性能を発揮することが実証されている。しかしながら、我々はその特徴表現が異なるモダリティ間で十分に整合されていないことを確認した。例えば、同一シーンのRGB画像とそれに対応する深度マップの特徴埋め込みのコサイン類似度は、無関係な二つのランダムな画像間の類似度とほとんど同程度である。この問題を解決するため、我々はモダリティに依存しない特徴空間を学習する新しいフレームワーク「Omnivorous Vision Encoder」を提案する。本エンコーダーは二つの目的で学習を行う。第一に、同一シーンの異なるモダリティ間の特徴整合性を最大化すること。第二に、学習された表現をDINOv2のような完全に凍結された教師モデルの出力に固定する蒸留目的である。これにより得られた学生エンコーダーは、入力モダリティ(RGB、深度、セグメンテーションなど)に関わらず、与えられたシーンに対して一貫性のある強力な埋め込みを生成する「オムニボラス(何でも食べる)」な特性を獲得する。本手法は、頑健なクロスモーダル理解を可能にすると同時に、基盤モデルが有する識別的セマンティクスを保持する。
単眼映像からの馬科動物(例:ウマ)の4次元再構成は、動物福祉の観点から重要である。従来の主流な4D動物再構成手法は、映像全体にわたる動きと外観の共同最適化を必要とし、時間がかかる上に不完全な観測に対して敏感である。本研究では、4D再構成問題を「動的モーション再構成」と「静的外観再構成」の二つのサブ問題に分離する、4DEquineという新しいフレームワークを提案する。モーションについては、時空間トランスフォーマーと事後最適化段階を組み合わせた簡潔かつ効果的な手法を導入し、映像から滑らかで画素整合性のあるポーズ及び形状シーケンスを回帰する。外観については、単一画像からでも高精細でアニメーション可能な3D Gaussianアバターを再構成する新しい順伝播型ネットワークを設計する。学習を支援するため、高品質な表面モーションと多様なカメラ軌道を特徴とする大規模合成モーションデータセットVarenPoser、およびマルチビュー拡散により生成された写実的なマルチビュー画像から成る合成外観データセットVarenTexを構築した。合成データセットのみで学習したにもかかわらず、4DEquineは実世界のAPT36KおよびAiMデータセットにおいて state-of-the-art の性能を達成し、幾何形状と外観の両方の再構成分野における4DEquineと新データセットの優位性を実証した。詳細なアブレーション研究は、モーション及び外観再構成ネットワークの有効性を検証している。プロジェクトページ: https://luoxue-star.github.io/4DEquine_Project_Page/。
生成的モデルは、コンピュータビジョンアルゴリズムの学習用に合成データの写真的リアリズムを高めるため広く利用されている。しかし、これらのモデルは視覚的アーティファクトをしばしば導入し、アルゴリズムの精度を低下させるほか、高い計算リソースを必要とするため、リアルタイム学習や評価シナリオへの適用が制限されている。本論文では、U-Net構造のジェネレータに基づく軽量な画像変換手法であるHybrid Patch Enhanced Realism Generative Adversarial Network(HyPER-GAN)を提案する。本モデルは、合成画像と写真的リアリズム強化画像のペアを用いて学習され、視覚的リアリズムと意味的一貫性を改善するために実世界データから抽出したマッチングパッチを組み込んだハイブリッド学習戦略によって補完されている。実験結果により、HyPER-GANが推論遅延時間、視覚的リアリズム、意味的ロバスト性において、最先端のペア画像変換手法を凌駕することが実証された。さらに、提案するハイブリッド学習戦略が、合成画像と写真的リアリズム強化画像のペアのみでモデルを学習した場合と比較して、視覚的品質と意味的一貫性を実際に改善することが示されている。コードと事前学習済みモデルはhttps://github.com/stefanos50/HyPER-GAN で公開されている。
インドネシアのニッケル鉱石輸出禁止政策は、中部スラウェシ州沿岸に位置するインドネシア・モロワリ工業団地(IMIP)における製錬および湿式製錬能力の急速な拡大を促進し、同地を世界最大の統合型ニッケル加工拠点へと発展させた。この工業化が隣接する海洋環境を悪化させたかどうかは、これまで定量的に評価されていなかった。本研究では、数十年にわたる多センサー衛星海洋カラー観測データから得られた490 nmにおける減衰係数K_d(490)を用い、ベイジアン構造時系列モデル(BSTS)による因果推論を適用し、IMIPの拡大と沿岸域の濁度変化との因果関係を検証した。コンセンサス構造ブレイクポイント、バンダ海を対照群とした有意な事後因果効果の推定、およびノンパラメトリックなプラセボ順位検定の結果は、初期のニッケルピギアイラン生産から電池用ニッケル製造のための高圧酸浸出施設の急拡大への移行後に、沿岸水域の透明度が悪化したことを総合的に立証する。衛星由来の土地被覆分析はこの時期を独立裏付け、IMIP区域内における著しい建築面積の増加と同時期の樹木被覆の減少を示している。結果として生じた有光層の浅化は、高い海洋生物多様性を支える貧栄養水域で発生しており、わずかな光環境の悪化でもサンゴの光合成を阻害し、深度に依存する礁生態系の生息域を圧迫する可能性がある。これらの知見は、インドネシアの鉱物下流化政策論議で見過ごされてきた海洋環境コストを定量化するとともに、データが限られる熱帯地域の沿岸工業地帯における因果的影響評価のための、応用可能な衛星ベースの準実験的枠組みを提示する。