翻訳付きの日次キュレーションされたAI研究論文
テキストから画像(T2I)生成の最近の進展は印象的な結果を達成していますが、既存のモデルは依然として、豊富な世界知識と暗黙の推論を必要とするプロンプトに苦戦しています。これらは、現実世界のシナリオにおいて意味的に正確で一貫性があり、文脈に適した画像を生成するために不可欠です。このギャップを埋めるため、私たちはWorldGenBenchを導入しました。これは、T2Iモデルの世界知識の基盤と暗黙の推論能力を体系的に評価するためのベンチマークで、人文科学と自然科学の両方の領域をカバーしています。私たちは、生成された画像が主要な意味的期待をどれだけ満たしているかを測定する構造化された指標である「知識チェックリストスコア」を提案します。21の最先端モデルにわたる実験では、拡散モデルがオープンソース手法の中でリードしている一方で、GPT-4oのような独自の自己回帰モデルが、より強力な推論と知識統合を示すことが明らかになりました。私たちの調査結果は、次世代のT2Iシステムにおいて、より深い理解と推論能力が必要であることを強調しています。プロジェクトページ: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Transformerは多くのNLPタスクで大きな成功を収めているが、特に実世界の知識が乏しい場合の多段階の事実推論において、依然として顕著なギャップを示している。最近のgrokkingの進展により、ニューラルネットワークが基礎となる論理パターンを検出すると、記憶から完全な一般化へと移行できることが実証されたが、これらの研究は主に小規模で人工的なタスクを使用してきた。本論文では、初めてgrokkingを実世界の事実データに拡張し、データセットの希薄性という課題に対処するため、既存の知識グラフを注意深く設計された合成データで拡張し、推論された事実と原子的事実の比率φ_rをgrokkingに必要な閾値以上に引き上げる。驚くべきことに、事実的に誤った合成データでさえ、モデルが記憶ではなく関係構造に依存することを強制するため、推論回路の出現を強化し、精度を低下させることはないことがわかった。多段階推論ベンチマークで評価した結果、我々のアプローチは2WikiMultiHopQAにおいて最大95-100%の精度を達成し、強力なベースラインを大幅に上回り、現在の最先端の結果に匹敵またはそれを超える性能を示した。さらに、φ_rの増加がTransformer内部での一般化回路の形成をどのように促進するかについて詳細な分析を提供する。我々の知見は、grokkingに基づくデータ拡張が暗黙的な多段階推論能力を解き放ち、大規模言語モデルにおけるより堅牢で解釈可能な事実推論への扉を開く可能性を示唆している。
日常生活にシームレスに溶け込む音声AIエージェントは、自律的かつリアルタイムで、感情表現豊かに人間と対話する。単に命令に反応するだけでなく、継続的に聞き、推論し、積極的に応答することで、流動的でダイナミックかつ感情的に共鳴する相互作用を促進する。本稿では、このビジョンに向けた一歩を踏み出す大規模音声言語基盤モデル群「Voila」を紹介する。Voilaは、従来のパイプラインシステムを超え、新しいエンドツーエンドアーキテクチャを採用することで、フルデュプレックスで低遅延の会話を実現しつつ、トーン、リズム、感情といった豊かな音声ニュアンスを保持する。その応答遅延はわずか195ミリ秒であり、人間の平均応答時間を上回る。階層型マルチスケールTransformerは、大規模言語モデル(LLM)の推論能力と強力な音響モデリングを統合し、自然で人物認識型の音声生成を可能にする。ユーザーはテキスト指示を書くだけで、話者のアイデンティティ、トーン、その他の特性を定義できる。さらに、Voilaは100万以上の事前構築された音声をサポートし、わずか10秒の短い音声サンプルから新しい音声を効率的にカスタマイズできる。音声対話を超えて、Voilaは自動音声認識(ASR)、テキスト読み上げ(TTS)、そして最小限の適応で多言語音声翻訳を含む幅広い音声ベースのアプリケーションのための統一モデルとして設計されている。Voilaは完全にオープンソース化されており、オープンな研究を支援し、次世代の人間と機械の相互作用に向けた進歩を加速する。
報酬モデリングは、特に人間のフィードバックからの強化学習(RLHF)を通じて、大規模言語モデル(LLMs)を人間の選好に適合させるために不可欠である。正確な報酬信号を提供するためには、報酬モデル(RM)が深い思考を促し、解釈可能な推論を行った上でスコアや判断を割り当てるべきである。しかし、既存のRMは不透明なスカラー値を生成するか、直接的に好ましい回答の予測を生成するため、自然言語による批判を統合することが難しく、解釈可能性に欠けている。最近の長い連鎖思考(CoT)の進展に触発され、報酬モデリングに推論能力を統合することでRMの解釈可能性と性能が大幅に向上するという仮説を立て、検証した。本研究では、報酬モデリングを推論タスクとして定式化する新しいクラスの生成的報酬モデル——推論報酬モデル(ReasRMs)——を導入する。推論指向のトレーニングパイプラインを提案し、ReasRMsのファミリーであるRM-R1をトレーニングした。トレーニングは2つの主要な段階から構成される:(1)高品質な推論連鎖の蒸留、(2)検証可能な報酬を用いた強化学習。RM-R1は、自己生成した推論トレースやチャット固有のルーブリックを用いてLLMのロールアウトを改善し、候補回答をそれらに対して評価する。実験的に、我々のモデルは複数の包括的な報酬モデルベンチマークにおいて、生成的なRMとして最先端またはそれに近い性能を達成し、より大規模なオープンウェイトモデル(例:Llama3.1-405B)やプロプライエタリモデル(例:GPT-4o)を最大13.8%上回った。最終的な性能を超えて、成功したReasRMトレーニングの鍵となる要素を理解するために徹底的な実証分析を行った。今後の研究を促進するため、6つのReasRMモデルとコードおよびデータをhttps://github.com/RM-R1-UIUC/RM-R1で公開する。
我々は、第二次の最適化手法の最も単純な実装であるMuonが、AdamWと比較して計算時間と性能のトレードオフにおけるパレートフロンティアを明示的に拡張することを実証した。Muonは、いわゆる臨界バッチサイズをはるかに超える大規模バッチサイズにおいてもデータ効率を維持する点でAdamWよりも効果的であり、かつ計算効率も高いため、より経済的な学習を可能にすることがわかった。我々は、効率的なハイパーパラメータ転送のためのMuonと最大更新パラメータ化(muP)の組み合わせを研究し、muPにおけるすべての誤差源を考慮しながら、リソースのオーバーヘッドを最小限に抑える単純なテレスコーピングアルゴリズムを提示した。これらの知見は、最大40億パラメータのモデルサイズにおける広範な実験と、データ分布およびアーキテクチャに関するアブレーションスタディを通じて検証された。
大規模言語モデル(LLMs)は、チャットボット、コード生成器、検索エンジンなどに広く応用されています。連鎖思考(chain-of-thought)、複雑な推論、エージェントサービスなどのワークロードは、モデルを繰り返し呼び出すことで推論コストを大幅に増加させます。並列化、圧縮、キャッシュなどの最適化手法がコスト削減のために採用されていますが、多様なサービス要件により適切な手法を選択することが困難です。最近では、専用のLLM推論エンジンが、最適化手法をサービス指向のインフラに統合するための重要なコンポーネントとして登場しています。しかし、推論エンジンに関する体系的な研究はまだ不足しています。本論文では、25のオープンソースおよび商用推論エンジンを包括的に評価します。各推論エンジンを、使いやすさ、デプロイの容易さ、汎用性のサポート、スケーラビリティ、スループットおよびレイテンシを意識した計算の適合性の観点から検証します。さらに、各推論エンジンの設計目標を、サポートする最適化技術を調査することで探ります。加えて、オープンソース推論エンジンのエコシステムの成熟度を評価し、商用ソリューションのパフォーマンスとコストポリシーを扱います。複雑なLLMベースのサービスのサポート、様々なハードウェアのサポート、セキュリティの強化など、将来の研究方向性を概説し、研究者や開発者が最適化されたLLM推論エンジンを選択・設計するための実践的なガイダンスを提供します。また、この急速に進化する分野の進展を継続的に追跡するための公開リポジトリを提供します: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
大規模言語モデル(LLMs)は、複雑な推論タスクにおいて顕著な進歩を遂げてきたが、依然として静的で内部的な知識とテキストのみの推論に依存しているという根本的な制約を抱えている。現実世界の問題解決では、動的で多段階の推論、適応的な意思決定、外部ツールや環境との相互作用能力がしばしば求められる。本研究では、ARTIST(Agentic Reasoning and Tool Integration in Self-improving Transformers)を提案する。これは、エージェント的推論、強化学習、およびツール統合を密接に連携させた統一フレームワークである。ARTISTは、モデルが多段階の推論連鎖において、いつ、どのように、どのツールを呼び出すかを自律的に決定することを可能にし、結果ベースの強化学習を活用して、ステップレベルの監視を必要とせずにツール使用と環境相互作用のための堅牢な戦略を学習する。数学的推論および多段階関数呼び出しベンチマークにおける広範な実験により、ARTISTが最先端のベースラインを一貫して上回り、ベースモデルに対して最大22%の絶対的な改善と、最も困難なタスクにおいても大きな向上を示すことが明らかになった。詳細な研究とメトリック分析により、エージェント的強化学習トレーニングが、より深い推論、より効果的なツール使用、およびより高品質な解決策をもたらすことが示された。我々の結果は、ツール統合を伴うエージェント的強化学習が、LLMsにおける堅牢で解釈可能かつ汎用的な問題解決のための強力な新たなフロンティアであることを確立する。
形式的数学推論は、人工知能にとって依然として重要な課題であり、既存のベンチマークの範囲と規模の制約によって妨げられています。これを解決するため、私たちはFormalMATHを提案します。これは、高校のオリンピック問題から大学レベルの定理まで、多様な領域(代数、応用数学、微積分、数論、離散数学など)にわたる5,560個の形式的に検証された問題を含む大規模なLean4ベンチマークです。手動での形式化の非効率性を軽減するため、以下の要素を統合した新しい人間参加型自動形式化パイプラインを導入します:(1) ステートメントの自動形式化のための専門化された大規模言語モデル(LLM)、(2) 複数LLMによる意味的検証、(3) 既存のLLMベースの証明器を用いた否定ベースの反証フィルタリング戦略。このアプローチにより、専門家のアノテーションコストを削減しつつ、手動検証前に72.09%のステートメントを保持し、元の自然言語問題への忠実性を確保します。最先端のLLMベースの定理証明器の評価からは、重要な限界が明らかになりました:最も強力なモデルでさえ、実用的なサンプリング予算の下では16.46%の成功率しか達成できず、顕著な領域バイアス(例えば、代数では優れるが微積分では失敗する)や簡素化された自動化戦術への過度の依存が見られました。特に、連鎖的思考推論シナリオにおいて、自然言語の解決ガイダンスと証明の成功との間に直感に反する逆相関関係を特定し、人間が書いた非形式的な推論が形式的推論設定においてノイズを導入することを示唆しています。私たちは、FormalMATHが形式的数学推論のベンチマークとして堅牢な基盤を提供すると信じています。
マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(MLLM)の性能向上において重要な役割を果たします。近年の進歩は主にMRMのモデル構造とトレーニングデータの改善に焦点が当てられてきましたが、報酬モデリングにおける長期的推論能力の有効性や、これらの能力をMRMで活性化する方法については限定的な探求しか行われていません。本論文では、強化学習(RL)を用いて報酬モデリングを改善する方法を探ります。具体的には、報酬モデリング問題をルールベースのRLタスクとして再定式化します。しかし、Reinforce++などの既存のRLアルゴリズムを報酬モデリングに直接適用すると、これらのアルゴリズムの固有の制限により、トレーニングの不安定化や崩壊がしばしば引き起こされることが観察されます。この問題に対処するため、我々はStableReinforceアルゴリズムを提案します。このアルゴリズムは、既存のRL手法のトレーニング損失、アドバンテージ推定戦略、および報酬設計を改良し、より安定したトレーニングダイナミクスと優れた性能を実現します。MRMのトレーニングを促進するため、多様なデータセットから20万件の選好データを収集しました。このデータセット上でStableReinforceアルゴリズムを用いてトレーニングした我々の報酬モデル、R1-Rewardは、マルチモーダル報酬モデリングのベンチマークにおいて大幅な性能向上を示します。従来のSOTAモデルと比較して、R1-RewardはVL Reward-Benchで8.4%、Multimodal Reward Benchで14.3%の改善を達成しました。さらに、推論計算量を増やすことで、R1-Rewardの性能はさらに向上し、RLアルゴリズムがMRMを最適化する上で持つ潜在能力が明らかになりました。
我々はReplaceMeを紹介する。これは、Transformerブロックを線形演算で効果的に置き換えながら、低圧縮率においても高い性能を維持する、汎用的なトレーニング不要の深さプルーニング手法である。従来のプルーニング手法が追加のトレーニングやファインチューニングを必要とするのに対し、本手法では、プルーニングされたブロックを近似するための線形変換を推定するために使用される少量のキャリブレーションデータセットのみを必要とする。この推定された線形マッピングは、残りのTransformerブロックとシームレスに統合可能であり、追加のネットワークパラメータを必要としない。我々の実験では、ReplaceMeは他のトレーニング不要の手法を一貫して上回り、大規模な再トレーニング/ファインチューニングやアーキテクチャ変更を伴う最先端のプルーニング手法とも高い競争力を維持している。いくつかの大規模言語モデル(LLM)に適用した結果、ReplaceMeは最大25%のプルーニングを達成し、オープンベンチマークにおいて元のモデルの性能の約90%を保持した。これは、トレーニングやヒーリングステップを一切必要とせず、最小限の計算オーバーヘッドで実現されている(図1参照)。我々は、ReplaceMeとともにいくつかの最先端の深さプルーニング技術を実装したオープンソースライブラリを提供しており、このリポジトリで利用可能である。
大規模言語モデル(LLM)における連鎖的思考(Chain-of-Thought, CoT)推論は、モデルが中間的な推論ステップを生成する必要がある潜在変数問題として形式化することができます。これまでのアプローチ、例えば反復的報酬ランク付きファインチューニング(RAFT)などは、このような定式化に依存してきましたが、通常はプロンプト全体に均一な推論予算を適用しており、難易度や収束行動の変動を考慮していませんでした。本研究では、CoTトレーニングの主要なボトルネックとして、静的サンプリング戦略による確率的勾配推定の非効率性を特定しました。我々は、計算予算制約下で確率的勾配分散を最小化するために設計された、プロンプト固有の動的サンプル割り当て戦略であるGVM-RAFTを提案します。この手法は、プロンプトの受容率と確率的勾配ノルムを監視することで計算リソースを動的に割り当て、結果として得られる勾配分散が最小化されることを保証します。理論的分析により、提案された動的サンプリング戦略が適切な条件下で加速された収束保証をもたらすことが示されています。数学的推論に関する実験では、GVM-RAFTがバニラRAFTと比較して2~4倍の高速化と精度の大幅な向上を達成しました。提案された動的サンプリング戦略は汎用的であり、GRPOなどの他の強化学習アルゴリズムに組み込むことができ、同様の収束とテスト精度の向上をもたらします。コードはhttps://github.com/RLHFlow/GVMで公開されています。
リアルタイムで知的かつ自然な音声インタラクションは、次世代の人間とコンピュータの相互作用において不可欠な要素です。最近の進歩により、大規模言語モデル(LLM)に基づいたインテリジェントな音声チャットボットの構築が可能であることが示されています。本論文では、0.5Bから14Bパラメータまでの音声言語モデル(SpeechLM)シリーズであるLLaMA-Omni 2を紹介します。LLaMA-Omni 2は、高品質なリアルタイム音声インタラクションを実現可能です。LLaMA-Omni 2はQwen2.5シリーズモデルを基盤として構築されており、音声エンコーダと自己回帰型ストリーミング音声デコーダを統合しています。わずか20万件の多ターン音声対話サンプルで学習されたにもかかわらず、LLaMA-Omni 2は、複数の音声質問応答および音声指示追従ベンチマークにおいて、数百万時間の音声データで学習されたGLM-4-Voiceなどの従来の最先端SpeechLMを凌駕する強力な性能を示しています。
効果的な社会知能シミュレーションには、言語エージェントが推論の深さを動的に調整する能力が必要であり、これは現在の手法では顕著に欠けている。既存の手法は、この種の推論能力を欠いているか、すべてのシナリオにわたって均一な長い連鎖思考(chain-of-thought)推論を強制しており、その結果、過剰なトークン使用と不適切な社会シミュレーションが生じている。本論文では、リアルタイムの文脈に基づいて4つの思考モード(直感的反応 → 深い考察)から戦略的に選択するAdaptive Mode Learning(AML)を提案する。我々のフレームワークの中核となる革新であるAdaptive Mode Policy Optimization(AMPO)アルゴリズムは、既存の手法に対して3つの重要な進歩を導入する:(1)マルチグラニュラリティな思考モード設計、(2)社会的相互作用における文脈を考慮したモード切り替え、(3)深さ適応型処理によるトークン効率の良い推論。社会知能タスクにおける広範な実験により、AMLが最先端の手法よりも15.6%高いタスク性能を達成することが確認された。特に、我々の手法はGRPOを7.0%上回り、32.8%短い推論連鎖を実現した。これらの結果は、AMPOで実装された文脈に敏感な思考モード選択が、GRPOの固定深度アプローチよりも人間らしい適応的推論を可能にすることを示している。
インタラクション実演からの強化学習(RLID)における根本的な課題、すなわち実演ノイズとカバレッジの限界に取り組みます。既存のデータ収集手法は貴重なインタラクション実演を提供しますが、しばしば疎で断片的かつノイズの多い軌跡を生成し、可能なスキルのバリエーションや遷移の全範囲を捉えることができません。我々の重要な洞察は、ノイズや疎な実演にもかかわらず、実演されたスキル間を自然に橋渡しする、またはそれらの近傍状態から生じる無限の物理的に実現可能な軌跡が存在し、可能なスキルのバリエーションと遷移の連続的な空間を形成するという点です。この洞察に基づき、我々は2つのデータ拡張技術を提案します。一つは、実演スキル間の潜在的な遷移を発見するStitched Trajectory Graph(STG)であり、もう一つは、実演近傍内の任意の状態に対して一意の接続を確立するState Transition Field(STF)です。拡張データを用いた効果的なRLIDを実現するため、動的なカリキュラム生成のためのAdaptive Trajectory Sampling(ATS)戦略と、メモリ依存型スキル学習のための履歴エンコーディングメカニズムを開発しました。我々のアプローチは、参照実演を大幅に超える汎化能力を持つ堅牢なスキル獲得を可能にします。多様なインタラクションタスクにわたる広範な実験により、収束安定性、汎化能力、および回復ロバスト性の点で、最先端の手法を大幅に上回る改善が実証されました。
正確な編集データを手動で収集する困難さから、既存のデータセットは通常、様々な自動化された方法を用いて構築されており、編集指示と元画像-編集画像ペアのミスマッチによるノイズの多い教師信号が生じています。最近の取り組みでは、より高品質な編集画像の生成、認識タスクでの事前学習、または視覚言語モデル(VLM)の導入を通じて編集モデルの改善を試みていますが、この根本的な問題を解決することには至っていません。本論文では、与えられた画像ペアに対してより効果的な編集指示を構築するという新たな解決策を提案します。これには、編集指示を修正して元画像-編集画像ペアとの整合性を高めること、および対照的な編集指示を使用してその効果をさらに向上させることが含まれます。具体的には、編集モデルがテキストとは独立して、異なる推論ステップで特定の生成属性を示すことを発見しました。これらの事前属性に基づいて、VLMに対して編集指示を修正するための統一されたガイドを定義します。しかし、修正された指示だけでは解決できない難しい編集シナリオも存在します。このため、ポジティブとネガティブな指示を用いて対照的な教師信号を構築し、それをトリプレット損失を用いてモデル学習に導入することで、教師信号の効果をさらに促進します。我々の方法は、従来の研究で使用されていたVLMモジュールや事前学習タスクを必要とせず、より直接的かつ効率的に優れた教師信号を提供し、指示ベースの画像編集に対して新たでシンプルかつ効果的な解決策を提供します。複数のベンチマークでの結果は、我々の方法が既存のアプローチを大幅に上回ることを示しています。従来のSOTAであるSmartEditと比較して、Real-Editベンチマークで9.19%の改善を達成し、トレーニングデータは30分の1、モデルサイズは13分の1です。
Ming-Lite-Uniを紹介します。これは、新たに設計された統一視覚生成器と、視覚と言語を統合するために特化したネイティブマルチモーダル自己回帰モデルを特徴とするオープンソースのマルチモーダルフレームワークです。具体的には、このプロジェクトでは、統合されたMetaQueriesとM2-omniフレームワークのオープンソース実装を提供し、新たなマルチスケール学習可能トークンとマルチスケール表現アライメント戦略を導入しています。固定されたMLLMと学習可能な拡散モデルを活用することで、Ming-Lite-UniはネイティブマルチモーダルARモデルがテキストから画像生成および指示に基づく画像編集タスクを実行できるようにし、純粋な視覚理解を超えた能力を拡張します。実験結果は、Ming-Lite-Uniの強力な性能とそのインタラクティブプロセスの印象的な流動性を示しています。すべてのコードとモデルウェイトはオープンソース化され、コミュニティ内でのさらなる探求を促進します。特に、この研究は、2025年3月25日に更新されたネイティブ画像生成を備えたChatGPT-4oなど、同時期のマルチモーダルAIのマイルストーンと一致し、AGIへの道におけるMing-Lite-Uniのような統一モデルの広範な重要性を強調しています。Ming-Lite-Uniはアルファ段階にあり、今後さらに洗練される予定です。
大規模言語モデル(LLM)は、さまざまな領域で印象的な性能を達成してきた。しかし、その訓練に必要な膨大なハードウェアリソースは、効率性とスケーラビリティに対する大きな障壁となっている。この課題を緩和するため、低精度訓練技術が広く採用され、訓練効率の顕著な向上がもたらされている。これらの進展にもかかわらず、低精度訓練は重み、活性化、勾配など複数の要素を含み、それぞれが異なる数値形式で表現される可能性がある。その結果、低精度訓練研究は多様化し、研究者がこの分野を統一的な視点で把握することが困難になっている。本調査では、既存の低精度訓練手法を包括的にレビューする。これらのアプローチを体系的に整理するため、ハードウェア互換性、計算効率、読者にとっての参照の容易さに影響を与える重要な要素である数値形式に基づいて、主に3つのグループに分類する。カテゴリは以下の通りである:(1) 固定小数点および整数ベースの手法、(2) 浮動小数点ベースの手法、(3) カスタマイズ形式ベースの手法。さらに、順伝播中に低精度訓練と重要な類似点を持つ量子化対応訓練アプローチについても議論する。最後に、この分野を進展させるためのいくつかの有望な研究方向性を提示する。本調査で議論された論文のコレクションは、https://github.com/Hao840/Awesome-Low-Precision-Training で提供されている。
映像と言語モデルにおいて、因果的なイベント関係の理解と細粒度の時間的グラウンディングの達成は依然として課題となっている。既存の手法では、時間解像度を低下させるためにビデオトークンを圧縮するか、ビデオを未分割のストリームとして扱うことが多く、これにより細粒度のイベント境界が曖昧になり、因果依存関係のモデリングが制限される。本論文では、TEMPURA(Temporal Event Masked Prediction and Understanding for Reasoning in Action)を提案する。これは、ビデオの時間的理解を強化する2段階のトレーニングフレームワークである。TEMPURAはまず、効果的な穴埋め技術に着想を得て、欠落したイベントを再構築し、密なイベントアノテーションから段階的な因果説明を生成するためのマスクされたイベント予測推論を適用する。次に、TEMPURAはビデオセグメンテーションと密なキャプショニングを学習し、ビデオを詳細なタイムスタンプ付きの説明とともに重複しないイベントに分解する。TEMPURAは、我々が作成した大規模データセットVERでトレーニングされる。VERは、時間的に整列したイベント説明と構造化された推論ステップを含む100万のトレーニングインスタンスと50万のビデオで構成されている。時間的グラウンディングとハイライト検出のベンチマークでの実験により、TEMPURAが強力なベースラインモデルを上回ることが示され、因果推論と細粒度の時間的セグメンテーションを統合することがビデオ理解の向上につながることが確認された。
現在のマルチサブジェクトカスタマイズ手法は、2つの重要な課題に直面しています。1つは多様なマルチサブジェクトのトレーニングデータを取得する難しさ、もう1つは異なるサブジェクト間の属性の絡み合いです。これらのギャップを埋めるため、我々はMUSARを提案します。これはシングルサブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチサブジェクトカスタマイズを実現するシンプルかつ効果的なフレームワークです。 まず、データの制限を打破するために、バイアス除去型ディプティック学習を導入します。これはシングルサブジェクト画像からディプティックトレーニングペアを構築し、マルチサブジェクト学習を促進すると同時に、静的アテンションルーティングとデュアルブランチLoRAを通じて、ディプティック構築によって導入される分布バイアスを積極的に補正します。 次に、サブジェクト間の絡み合いを解消するために、動的アテンションルーティングメカニズムを導入します。これは生成画像と条件付きサブジェクトの間の双射的マッピングを適応的に確立します。この設計は、マルチサブジェクト表現の分離を実現するだけでなく、参照サブジェクトが増加してもスケーラブルな汎化性能を維持します。 包括的な実験により、我々のMUSARは、マルチサブジェクトデータセットでトレーニングされた既存手法よりも、画像品質、サブジェクトの一貫性、インタラクションの自然さにおいて優れていることが実証されました。これはシングルサブジェクトデータセットのみを必要とするにもかかわらずです。
アテンション機構は大規模言語モデル(LLM)の成功に不可欠であり、複数の分野で重要な進展を遂げています。しかし、グラフ構造データにおいては、トポロジー的な接続性を重視する必要があるため、Graph Neural Networks(GNN)などで用いられる固定リンク上のメッセージパッシング機構と比較して、その性能が劣ります。これにより、「自然言語設定におけるグラフに対してアテンションは失敗するのか?」という疑問が生じます。これらの観察に基づき、我々はアテンション機構の観点から、LLMがどのようにグラフ構造データを処理するかを探るための実証研究に着手しました。目的は、LLMのグラフ構造に対するアテンションの振る舞いをより深く理解することです。我々は、LLMがグラフ構造データにアテンションを適用する際の独特な現象を明らかにし、これらの知見を分析して、LLMによるグラフ構造データのモデリングを改善することを目指しました。本研究の主な発見は以下の通りです:1)LLMはグラフデータを認識し、テキストとノード間の相互作用を捉えることができるが、グラフ構造内のノード間関係をモデル化する際には、そのアーキテクチャ上の制約により困難を抱えています。2)LLMのグラフノード間のアテンション分布は理想的な構造パターンと一致せず、グラフトポロジーの微妙な違いに適応できないことを示しています。3)完全接続アテンションも固定接続性も最適ではなく、それぞれに特定の適用シナリオにおける限界があります。代わりに、中間状態のアテンションウィンドウはLLMのトレーニング性能を向上させ、推論時には完全接続ウィンドウにシームレスに移行します。ソースコード:https://github.com/millioniron/LLM_exploration{LLM4Exploration}
大規模シーンにおける最近のNeRF手法は、スケーラブルなNeRFのためのシーン分解の重要性を強調している。合理的なスケーラビリティを達成しているものの、学習可能な分解、シーンの異質性のモデリング、およびモデリング効率といったいくつかの重要な問題が未解決のままである。本論文では、これらの課題を統一的なフレームワーク内で解決するHeterogeneous Mixture of Hash Experts (HMoHE)ネットワークであるSwitch-NeRF++を紹介する。これは、大規模シーンに対して異質な分解と異質なNeRFをエンドツーエンドで効率的に学習する、非常にスケーラブルなNeRFである。我々のフレームワークでは、ゲーティングネットワークがシーンを分解し、3Dポイントを専門のNeRFエキスパートに割り当てる。このゲーティングネットワークは、提案するSparsely Gated Mixture of Experts (MoE) NeRFフレームワークによってエキスパートと共に最適化される。ハッシュベースのゲーティングネットワークと異なる異質性を持つハッシュエキスパートを組み込んでいる。ハッシュベースのゲーティングは、大規模シーンの分解を効率的に学習する。異なる異質性を持つハッシュエキスパートは、異なる解像度範囲のハッシュグリッドで構成され、異なるシーンパーツの異質な表現を効果的に学習する。これらの設計選択により、我々のフレームワークは、品質と効率の両方を達成するための現実世界の大規模シーンモデリングに対するエンドツーエンドで非常にスケーラブルなNeRFソリューションとなる。既存の大規模NeRFデータセットとUrbanBISからの非常に大規模なシーン(>6.5km^2)を含む新しいデータセットで、精度とスケーラビリティを評価する。広範な実験により、我々のアプローチが様々な大規模シーンに容易にスケールでき、最先端のシーン描画精度を達成できることが示されている。さらに、我々の手法は、Switch-NeRFと比較して、トレーニングで8倍、レンダリングで16倍の大幅な効率向上を示す。コードはhttps://github.com/MiZhenxing/Switch-NeRFで公開される予定である。
大規模なデータセットで訓練されたLLM(大規模言語モデル)は、個人情報や潜在的に有害なコンテンツなどの機密情報を意図せず取得する可能性があります。このリスクは、マルチモーダルLLM(画像とテキストなど複数のモダリティを統合するモデル)においてさらに高まります。攻撃者は、マルチモーダルプロンプトを利用してこの知識を悪用し、機密情報を抽出することができます。MLLMがそのような情報を効果的に忘れる能力(ターゲット型アンラーニング)を評価するためには、高品質で適切に注釈付けされた画像-テキストペアの作成が必要です。これまでのアンラーニング研究はテキストに焦点を当ててきましたが、マルチモーダルアンラーニングはまだ十分に探求されていません。このギャップを埋めるため、我々はまずマルチモーダルアンラーニングのベンチマークであるUnLOK-VQA(Unlearning Outside Knowledge VQA)と、MLLMから特定のマルチモーダル知識を削除する手法を評価するための攻撃-防御フレームワークを導入します。視覚的質問応答データセットを拡張し、汎用性と特異性をテストするための近接度が異なるサンプルを自動生成するパイプラインを構築し、その後手動でフィルタリングを行い高品質を維持します。次に、7つの攻撃(4つのホワイトボックス、3つのブラックボックス)に対して6つの防御目標を評価します。これには、隠れ状態の解釈可能性を活用した新しいホワイトボックス手法も含まれます。結果は、マルチモーダル攻撃がテキストのみまたは画像のみの攻撃を上回り、最も効果的な防御は内部モデル状態から回答情報を削除するものであることを示しています。さらに、大規模なモデルは編集後の堅牢性が高く、スケールが安全性を向上させることを示唆しています。UnLOK-VQAは、MLLMにおけるアンラーニングの進展に向けた厳密なベンチマークを提供します。
イベントカメラは動きのダイナミクスを捉え、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めた独自のモダリティを提供します。しかし、RGBとイベントの融合には3つの本質的なミスアライメントが存在します:(i)時間的、(ii)空間的、(iii)モーダルなミスアライメントです。既存のボクセルグリッド表現は、連続するイベントウィンドウ間の時間的相関を無視しており、非同期で疎なイベントを単純に累積するその定式化は、同期型で密なRGBモダリティと互換性がありません。これらの課題に対処するため、我々は新しいイベント表現であるMotion-enhanced Event Tensor (MET)を提案します。METは、密なオプティカルフローとイベントの時間的特徴を活用して、疎なイベントボクセルを密で時間的に一貫した形式に変換します。さらに、Frequency-aware Bidirectional Flow Aggregation Module (BFAM)とTemporal Fusion Module (TFM)を導入します。BFAMは周波数領域とMETを活用してモーダルなミスアライメントを軽減し、双方向フロー集約と時間的融合メカニズムによって時空間的なミスアライメントを解決します。2つの大規模データセットでの実験結果は、我々のフレームワークが最先端のRGB-イベントセマンティックセグメンテーション手法を大幅に上回ることを示しています。コードは以下で公開されています: https://github.com/zyaocoder/BRENet。