翻訳付きの日次キュレーションされたAI研究論文
超解像(SR)のための拡散モデルは高品質な視覚的結果を生成しますが、高い計算コストを必要とします。拡散ベースのSRモデルを加速するためのいくつかの手法が開発されているにもかかわらず、一部の手法(例:SinSR)は現実的な知覚的詳細を生成できず、他の手法(例:OSEDiff)は存在しない構造を幻覚的に生成する可能性があります。これらの問題を克服するために、我々はRSDを提案します。これは、トップクラスの拡散ベースSRモデルであるResShiftのための新しい蒸留手法です。我々の手法は、学生ネットワークを訓練して、それらの画像上で訓練された新しい偽のResShiftモデルが教師モデルと一致するような画像を生成することを基にしています。RSDは単一ステップでの復元を実現し、教師モデルを大幅に上回ります。我々の蒸留手法は、ResShiftの他の蒸留ベース手法であるSinSRを凌駕し、最先端の拡散ベースSR蒸留手法と同等の性能を達成できることを示します。事前訓練されたテキストから画像へのモデルに基づくSR手法と比較して、RSDは競争力のある知覚的品質を提供し、劣化した入力画像との整合性が高い画像を生成し、より少ないパラメータとGPUメモリを必要とします。我々は、RealSR、RealSet65、DRealSR、ImageNet、DIV2Kを含む様々な実世界および合成データセットでの実験結果を提供します。
LLMベースのエージェントの出現は、AIにおけるパラダイムシフトを象徴し、自律システムが動的な環境と相互作用しながら計画、推論、ツールの使用、記憶の維持を可能にします。本論文は、これらのますます高度化するエージェントの評価方法論に関する初の包括的な調査を提供します。私たちは、評価ベンチマークとフレームワークを以下の4つの重要な次元にわたって体系的に分析します:(1) 計画、ツール使用、自己反省、記憶を含む基本的なエージェント能力、(2) Web、ソフトウェア工学、科学、会話型エージェントのためのアプリケーション固有のベンチマーク、(3) 汎用エージェントのためのベンチマーク、(4) エージェントを評価するためのフレームワーク。私たちの分析は、継続的に更新されるベンチマークを用いた、より現実的で挑戦的な評価への移行といった新たなトレンドを明らかにします。また、コスト効率、安全性、堅牢性の評価、および細粒度でスケーラブルな評価方法の開発において、将来の研究が取り組むべき重要なギャップを特定します。本調査は、急速に進化するエージェント評価の状況をマッピングし、分野における新たなトレンドを明らかにし、現在の限界を指摘し、将来の研究の方向性を提案します。
大規模言語モデル(LLMs)は、複雑なタスクにおいて顕著な能力を発揮してきた。最近の大規模推論モデル(LRMs)の進歩、例えばOpenAI o1やDeepSeek-R1などは、教師あり微調整(SFT)や強化学習(RL)技術を活用して、数学やプログラミングなどのSystem-2推論領域での性能をさらに向上させている。しかし、長いChain-of-Thought(CoT)推論シーケンスは性能を向上させる一方で、冗長で冗長な出力による「過剰思考現象」として知られる計算オーバーヘッドを引き起こす。本論文では、LLMsにおける効率的な推論を達成するための現在の進展を体系的に調査し、探求する初めての構造化された調査を提供する。全体として、LLMsの内在的なメカニズムに依存し、既存の研究をいくつかの主要な方向に分類する:(1)モデルベースの効率的推論、これは完全な長さの推論モデルをより簡潔な推論モデルに最適化するか、直接効率的な推論モデルを訓練することを考慮する;(2)推論出力ベースの効率的推論、これは推論中に推論ステップと長さを動的に削減することを目指す;(3)入力プロンプトベースの効率的推論、これは入力プロンプトの特性(例えば難易度や長さ制御)に基づいて推論効率を向上させることを探求する。さらに、推論モデルの訓練に効率的なデータを使用すること、小規模言語モデルの推論能力を探求すること、評価方法とベンチマークについても議論する。
本研究は、大規模言語モデル(LLM)がその出力に表す以上の事実知識をパラメータ内に符号化しているかどうかを評価するためのフレームワークを提示する。この可能性を示唆する研究はいくつか存在するが、この現象を明確に定義し実証したものはない。まず、知識を形式的に定義し、与えられた質問に対する正解と不正解のペアにおいて正解がより高い順位にランクされる割合として定量化する。これにより、個々の回答候補をスコアリングする際に使用する情報に応じて、外部知識と内部知識が生じる。前者はモデルの観測可能なトークンレベルの確率、後者は中間計算に基づく。内部知識が外部知識を上回る場合、隠れた知識が生じる。次に、このフレームワークを3つの人気のあるオープンウェイトLLMに適用したケーススタディを提示し、クローズドブックQA設定で検証する。結果は以下の通りである:(1)LLMは一貫して、外部に表す以上の事実知識を内部に符号化しており、その平均ギャップは40%に及ぶ。(2)驚くべきことに、一部の知識は非常に深く隠されており、モデルが内部的には完璧に答えを知っているにもかかわらず、1,000回の大規模な繰り返しサンプリングを行っても一度も生成できない場合がある。これはLLMの生成能力における根本的な限界を明らかにしており、(3)クローズドブックQAにおけるテスト時の計算リソースのスケーリング(繰り返し回答サンプリング)に実用的な制約を課す。なぜなら、一部の回答は実質的にサンプリングされないため、性能向上の可能性が閉ざされているが、もしそれらがサンプリングされれば、確実に最上位にランクされるからである。
大規模言語モデル(LLM)の推論能力を向上させるには、通常、膨大な計算リソースと大規模なデータセットが必要であり、リソースが限られた環境でのアクセシビリティが制限されています。本研究では、リソース制約下での小型LLMの推論能力を強化するための強化学習(RL)の可能性を探り、1.5億パラメータのモデル「DeepSeek-R1-Distill-Qwen-1.5B」に焦点を当てました。具体的には、4台のNVIDIA A40 GPU(各48GB VRAM)を使用し、24時間以内にトレーニングを行うという厳しい制約下で実験を行いました。Group Relative Policy Optimization(GRPO)アルゴリズムを適用し、コンパクトで高品質な数学的推論データセットを整備することで、モデルの挙動と性能を探るための3つの実験を実施しました。その結果、わずか7,000サンプルと42ドルのトレーニングコストで、AMC23の精度が63%から80%に向上し、AIME24では46.7%を達成し、o1-previewを上回る迅速な推論能力の向上が確認されました。これは、ベースラインモデルに比べて数千ドルのコスト削減を実現しています。ただし、長時間のトレーニングでは最適化の不安定性や長さの制約といった課題も浮かび上がりました。これらの結果は、小型LLMに対するRLベースのファインチューニングの有効性を示しており、大規模アプローチに代わるコスト効率の高い代替手段を提供します。本研究では、トレードオフに関する洞察を提供し、リソースが限られた環境でもスケーラブルな推論能力を持つLLMの基盤を築くため、コードとデータセットをオープンソースとして公開しています。詳細はhttps://github.com/knoveleng/open-rsでご覧いただけます。
物理AIシステムは、物理世界を認識し、理解し、複雑な行動を実行する必要があります。本論文では、物理世界を理解し、長い連鎖思考推論プロセスを通じて自然言語で適切な具身化された意思決定(例えば、次のステップの行動)を生成できるCosmos-Reason1モデルを紹介します。まず、物理AI推論の主要な能力を定義し、物理的常識と具身化推論に焦点を当てます。物理的常識を表現するために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。具身化推論については、異なる物理的具現化を一般化する2次元オントロジーに依存します。これらの能力を基盤として、2つのマルチモーダル大規模言語モデル、Cosmos-Reason1-8BとCosmos-Reason1-56Bを開発します。データをキュレーションし、モデルを4つの段階でトレーニングします:視覚事前トレーニング、一般的な教師あり微調整(SFT)、物理AI SFT、およびポストトレーニングとしての物理AI強化学習(RL)。モデルを評価するために、オントロジーに基づいて物理的常識と具身化推論の包括的なベンチマークを構築します。評価結果は、物理AI SFTと強化学習が大幅な改善をもたらすことを示しています。物理AIの開発を促進するために、コードと事前トレーニング済みモデルをNVIDIA Open Model Licenseの下でhttps://github.com/nvidia-cosmos/cosmos-reason1で公開します。
マルチエージェントシステム(MAS)に対する熱意が高まる中、複数のLLMエージェントが協力してタスクを達成するというアプローチが注目されています。しかし、人気のあるベンチマークにおいて、その性能向上はシングルエージェントフレームワークと比べて最小限に留まっています。このギャップは、MASの効果を妨げる課題を分析する必要性を浮き彫りにしています。 本論文では、MASの課題に関する初の包括的な研究を提示します。150以上のタスクにわたる5つの人気MASフレームワークを分析し、6人の専門家による人間アノテーターを関与させました。14の独自の失敗モードを特定し、さまざまなMASフレームワークに適用可能な包括的な分類体系を提案します。この分類体系は、研究ごとに3人の専門家アノテーター間の合意から反復的に導き出され、CohenのKappaスコア0.88を達成しました。これらの詳細な失敗モードは、(i)仕様とシステム設計の失敗、(ii)エージェント間の不一致、(iii)タスク検証と終了の3つのカテゴリに整理されています。スケーラブルな評価を支援するため、MASFTをLLM-as-a-Judgeと統合しました。また、特定された失敗が簡単に防止できるかどうかを探るため、エージェントの役割の仕様改善とオーケストレーション戦略の強化という2つの介入を提案しました。私たちの調査結果は、特定された失敗にはより複雑な解決策が必要であることを明らかにし、将来の研究のための明確なロードマップを示しています。データセットとLLMアノテーターをオープンソース化しました。
3D形状生成は、いわゆる「ネイティブ」3D拡散、特にVecset Diffusion Model(VDM)の開発を通じて大きく発展してきました。最近の進歩により、高解像度の3D形状を生成する有望な結果が示されていますが、VDMは依然として高速生成に苦戦しています。この課題は、拡散サンプリングの加速だけでなく、VDMにおけるVAEデコードの困難さにも起因しており、これまでの研究では十分に探求されていない領域です。これらの課題に対処するため、我々はFlashVDMを提案します。これは、VDMにおけるVAEとDiTの両方を加速するための体系的なフレームワークです。DiTに関しては、FlashVDMはわずか5ステップの推論で同等の品質を実現する柔軟な拡散サンプリングを可能にします。これは、新たに導入したProgressive Flow Distillationによる一貫性蒸留の安定化によって実現されています。VAEに関しては、Adaptive KV Selection、Hierarchical Volume Decoding、およびEfficient Network Designを備えた軽量なvecsetデコーダを導入します。vecsetの局所性と体積内の形状表面の疎性を活用することで、我々のデコーダはFLOPsを大幅に削減し、全体的なデコードのオーバーヘッドを最小限に抑えます。我々はFlashVDMをHunyuan3D-2に適用し、Hunyuan3D-2 Turboを実現しました。体系的な評価を通じて、我々のモデルが既存の高速3D生成手法を大幅に上回り、最先端の性能に匹敵しながら、再構築において45倍以上、生成において32倍以上の推論時間を短縮することを示します。コードとモデルはhttps://github.com/Tencent/FlashVDMで公開されています。
本論文では、拡散モデル(DMs)のためのスケールワイズ蒸留フレームワーク「SwD」を提案する。SwDは、拡散ベースの少ステップ生成器に対して、次スケール予測のアイデアを効果的に活用する。具体的には、SwDは、拡散プロセスと暗黙的なスペクトル自己回帰との関連性に関する最近の知見に着想を得ている。我々は、DMsが低いデータ解像度で生成を開始し、各ノイズ除去ステップでサンプルを段階的にアップスケールしても性能を損なうことなく、計算コストを大幅に削減できると仮定する。SwDは、このアイデアを既存の分布マッチングに基づく拡散蒸留手法に自然に統合する。さらに、ターゲット分布とのより細粒度な類似性を強制する新しいパッチ損失を導入することで、分布マッチング手法のファミリーを拡充する。最先端のテキストから画像への拡散モデルに適用した場合、SwDは2つのフル解像度ステップの推論時間に近づき、自動化されたメトリクスと人間の嗜好調査において、同じ計算予算下で他の手法を大幅に上回る性能を示す。
近年、オープンワールド環境における行動ベースの意思決定が注目を集めています。大規模なウェブデータセットで事前学習されたVisual Language Action(VLA)モデルは、意思決定タスクにおいて有望な成果を示しています。しかし、従来の研究は主に行動の事後学習に焦点を当てており、基礎モデル自体の強化をしばしば見落としていました。これに対応して、我々は「Act from Visual Language Post-Training」という新しいアプローチを提案します。これは、視覚的および言語的ガイダンスを用いて自己教師あり方式でVisual Language Models(VLMs)を改良するものです。この強化により、オープンワールド環境における世界知識、視覚認識、空間的基盤付けの能力が向上します。上記の事後学習パラダイムに従い、我々はMinecraftにおいて1,000以上の異なるアトミックタスク(クラフト、精錬、調理、採掘、殺害など)で人間の指示に従うことができる初のVLAモデルを獲得しました。実験結果は、非軌道タスクでの事後学習が、多様なアトミックタスクにおいて最良のエージェントベースラインを40%上回る大幅な改善をもたらすことを示しています。さらに、我々のアプローチがMinecraftにおける従来の模倣学習ベースのポリシーを凌駕し、最先端の性能を達成することを実証しました。研究のさらなる進展を促進するため、コード、モデル、データセットをオープンソース化しました。プロジェクトページはhttps://craftjarvis.github.io/JarvisVLAでご覧いただけます。
柔軟かつ高忠実なアイデンティティ保存画像生成の実現は、特にFLUXのような高度なDiffusion Transformer(DiT)において依然として困難な課題です。本論文では、この課題に対処するためにDiTを活用した最初期の堅牢なフレームワークであるInfiniteYou(InfU)を提案します。InfUは、既存手法が抱える重要な問題、すなわちアイデンティティ類似性の不足、テキストと画像の整合性の低さ、生成品質および美的感覚の欠如を解決します。InfUの中核となるのは、InfuseNetというコンポーネントで、これは残差接続を介してDiTベースモデルにアイデンティティ特徴を注入し、生成能力を維持しながらアイデンティティ類似性を向上させます。さらに、合成された単一人物複数サンプル(SPMS)データを用いた事前学習と教師あり微調整(SFT)を含む多段階トレーニング戦略により、テキストと画像の整合性が向上し、画像品質が改善され、顔のコピー&ペーストが軽減されます。大規模な実験により、InfUが既存のベースラインを凌駕する最先端の性能を達成することが実証されています。加えて、InfUのプラグアンドプレイ設計は、様々な既存手法との互換性を確保し、広範なコミュニティに貴重な貢献を提供します。
単一画像からのアニメーション可能な3D人体再構成は、形状、外観、変形の分離における曖昧さから困難な課題である。近年の3D人体再構成の進展は主に静的な人体モデリングに焦点を当てており、合成3Dスキャンを用いた学習への依存が一般化能力を制限している。一方、最適化ベースのビデオ手法は高い忠実度を達成するが、制御された撮影条件と計算集約的な精緻化プロセスを必要とする。効率的な静的再構成のための大規模再構成モデルの出現に触発され、我々はLHM(Large Animatable Human Reconstruction Model)を提案し、フィードフォワードパスで3Dガウススプラッティングとして表現される高忠実度アバターを推論する。本モデルは、マルチモーダルトランスフォーマーアーキテクチャを活用し、注意機構を用いて人体の位置特徴と画像特徴を効果的に符号化することで、衣服の形状とテクスチャの詳細な保存を可能にする。さらに、顔の同一性保存と微細なディテールの回復を促進するため、頭部領域のマルチスケール特徴を集約する頭部特徴ピラミッド符号化スキームを提案する。広範な実験により、我々のLHMが、顔や手の後処理なしで数秒で妥当なアニメーション可能な人体を生成し、再構成精度と一般化能力の両面で既存手法を凌駕することを実証した。
推論能力を備えた大規模言語モデルは、様々な領域で急速に進化を遂げています。しかし、複雑な金融タスクを扱う能力については、まだ深い探求が必要です。本論文では、金融分野に特化して設計された推論大規模言語モデルFin-R1を紹介します。Fin-R1は、DeepSeek-R1に基づいて蒸留・処理された金融推論データセットを活用した2段階アーキテクチャで構築されています。教師ありファインチューニング(SFT)と強化学習(RL)によるトレーニングを通じて、70億パラメータの規模でありながら、DeepSeek-R1に近い性能を一連の金融推論タスクで示します。評価対象の大規模言語モデルの中で、FinQAとConvFinQAタスクにおいて最先端(SOTA)を達成し、他のタスクでもより大規模なモデルを凌駕しています。Fin-R1は強力な推論と意思決定能力を示し、金融領域で遭遇する様々な問題に対する解決策を提供します。私たちのコードはhttps://github.com/SUFE-AIFLM-Lab/Fin-R1で公開されています。
拡散モデルは様々な画像生成タスクで顕著な成功を収めてきましたが、その性能は多くの場合、異なる条件やノイズレベルに対する入力の均一な処理によって制限されています。この制限に対処するため、我々は拡散プロセスの内在的な不均一性を活用する新しいアプローチを提案します。我々の手法であるDiffMoEは、バッチレベルのグローバルトークンプールを導入し、専門家がトレーニング中にグローバルトークン分布にアクセスできるようにすることで、専門家の特化した振る舞いを促進します。拡散プロセスの全ポテンシャルを引き出すために、DiffMoEはノイズレベルとサンプルの複雑さに基づいて計算リソースを動的に割り当てるキャパシティ予測器を組み込んでいます。包括的な評価を通じて、DiffMoEはImageNetベンチマークにおいて拡散モデルの中で最先端の性能を達成し、3倍の活性化パラメータを持つ密なアーキテクチャや既存のMoEアプローチを大幅に上回りながら、1倍の活性化パラメータを維持しています。我々のアプローチの有効性は、クラス条件付き生成を超えて、テキストから画像生成といったより挑戦的なタスクにも及び、異なる拡散モデルアプリケーションにわたる広範な適用性を示しています。プロジェクトページ: https://shiml20.github.io/DiffMoE/
テキスト記述から3D世界を生成する課題に取り組みます。我々は、事前学習済み3D生成モデルの幾何学的精度と2D画像生成器の芸術的多様性を活用し、大規模で高品質な3D空間を創出する、トレーニングや最適化を必要としないアプローチ「SynCity」を提案します。ほとんどの3D生成モデルはオブジェクト中心であり、大規模な世界を生成できませんが、3Dと2D生成器を組み合わせることで、拡張可能なシーンを生成する方法を示します。タイルベースのアプローチにより、シーンのレイアウトと外観を細かく制御できます。世界はタイルごとに生成され、各新しいタイルはその世界コンテキスト内で生成された後、シーンに融合されます。SynCityは、詳細と多様性に富んだ魅力的で没入感のあるシーンを生成します。
ビデオ大規模言語モデル(VideoLLMs)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする能力を実証しています。しかし、ビデオフレームから得られる数千の視覚的トークンにより、キー・バリュー(KV)キャッシュがメモリ要件を大幅に増加させ、推論速度とメモリ使用量のボトルネックとなっています。KVキャッシュの量子化は、この問題に対処するために広く使用されている手法です。本論文では、VideoLLMsの2ビットKV量子化がモデルの性能をほとんど損なわないことを発見しましたが、さらに低いビット数でのKVキャッシュ量子化の限界はまだ調査されていません。このギャップを埋めるため、我々はVidKVを導入します。これは、KVキャッシュを2ビット未満に圧縮するプラグアンドプレイ型のKVキャッシュ量子化手法です。具体的には、(1) キーに対して、チャネル次元での混合精度量子化戦略を提案し、異常なチャネルには2ビット量子化を、通常のチャネルには1ビット量子化とFFTを組み合わせて適用します。(2) バリューに対しては、1.58ビット量子化を実装し、意味的に重要な視覚的トークンを選択的にフィルタリングして保存することで、精度とモデル性能のバランスを改善します。重要な点として、我々の研究結果は、VideoLLMsのバリューキャッシュは、従来のLLMs向けKVキャッシュ量子化研究で提案されたトークンごとではなく、チャネルごとに量子化すべきであることを示唆しています。実験的には、LLaVA-OV-7BとQwen2.5-VL-7Bを用いた6つのベンチマークでの広範な結果が、VidKVがKVキャッシュを1.5ビットおよび1.58ビット精度に効果的に圧縮し、FP16と比較してほとんど性能低下がないことを示しています。
大規模言語モデル(LLMs)は、数学的推論において目覚ましい進歩を示しています。データ拡張は数学的問題解決能力を向上させる有望な手法ですが、現在のアプローチは主にインスタンスレベルの修正(言い換えや構文的なバリエーションの生成など)に限定されており、数学的知識に内在する関係的構造を捉え活用することができていません。人間の学習プロセスに着想を得て、数学的熟達度が相互に関連する概念に体系的に触れることで発達することを踏まえ、我々はMathFusionという新しいフレームワークを提案します。MathFusionは、問題間の指示合成を通じて数学的推論を強化します。このフレームワークは、以下の3つの融合戦略を実装しています:(1) 関連する問題を連鎖させ、解決の依存関係をモデル化する逐次融合、(2) 類似した問題を組み合わせ、概念理解を強化する並列融合、(3) 文脈を考慮した選択的問題を作成し、推論の柔軟性を高める条件付き融合。これらの戦略を適用することで、新しいデータセットMathFusionQAを生成し、それに基づいてモデル(DeepSeekMath-7B、Mistral-7B、Llama3-8B)をファインチューニングしました。実験結果は、MathFusionが高いデータ効率を維持しながら数学的推論を大幅に改善し、多様なベンチマークで精度を18.0ポイント向上させ、わずか45Kの追加合成指示で従来の単一指示アプローチを大幅に上回ることを示しています。我々のデータセット、モデル、コードはhttps://github.com/QizhiPei/mathfusionで公開されています。
本論文は、集合ベースのトークン化と分布モデリングを通じた画像生成の根本的に新しいパラダイムを提案する。従来の手法が画像を均一な圧縮率で固定位置の潜在コードにシリアライズするのに対し、我々は領域ごとの意味的複雑度に基づいて符号化容量を動的に割り当てる非順序トークン集合表現を導入する。このTokenSetは、グローバルな文脈の集約を強化し、局所的な摂動に対するロバスト性を向上させる。離散集合のモデリングという重要な課題に対処するため、集合を総和制約付きの固定長整数列に双射的に変換する二重変換メカニズムを考案した。さらに、離散値、固定列長、総和不変性を同時に扱う初のフレームワークであるFixed-Sum Discrete Diffusionを提案し、効果的な集合分布モデリングを可能にした。実験により、本手法の意味認識表現と生成品質の優位性が実証された。新たな表現とモデリング戦略にわたる我々の革新は、従来の逐次トークンパラダイムを超えた視覚生成を推進するものである。コードとモデルはhttps://github.com/Gengzigang/TokenSetで公開されている。
本論文では、3D空間マルチモーダルメモリ(M3)を提案する。M3は、ビデオソースを通じた視覚知覚によって中規模な静的なシーンに関する情報を保持するように設計されたマルチモーダルメモリシステムである。3Dガウシアンスプラッティング技術とファウンデーションモデルを統合することで、M3は粒度を超えた特徴表現をレンダリング可能なマルチモーダルメモリを構築し、幅広い知識を包含する。我々の探求において、従来の特徴スプラッティング研究における2つの主要な課題を特定した:(1)各ガウシアンプリミティブに対する高次元特徴を保存する際の計算上の制約、(2)蒸留された特徴とファウンデーションモデルの特徴間の不整合や情報損失。これらの課題に対処するため、主要シーン構成要素とガウシアンメモリアテンションを中核コンポーネントとするM3を提案し、効率的な学習と推論を実現する。M3を検証するため、特徴類似性と下流タスクに関する包括的な定量的評価を行い、ガウシアンメモリアテンションのピクセルトレースを強調する定性的な可視化を実施した。我々のアプローチは、視覚言語モデル(VLM)、知覚モデル、大規模マルチモーダル・言語モデル(LMM/LLM)など、多様なファウンデーションモデルを包含する。さらに、実世界での適用性を示すため、M3の特徴場を四足歩行ロボットに搭載し、屋内シーンで展開した。特に、M3は3D特徴蒸留における中核的な圧縮課題に取り組んだ初めての研究であると主張する。
知識編集(Knowledge Editing, KE)は、大規模言語モデル(LLMs)内の古くなったまたは誤った情報を修正することを可能にします。既存のKE手法は孤立した事実を更新できますが、修正された知識に依存するマルチホップ推論タスクにこれらの更新を一般化するのに苦労しています。推論回路(reasoning circuits)——LLMsが知識ベースの推論に使用する神経経路——の分析を通じて、現在の層局所的なKEアプローチ(例えばMEMITやWISE)が、単一または少数のモデル層のみを編集するため、更新された情報をこれらの推論経路に効果的に組み込むのに苦労していることが観察されます。この制限に対処するため、我々はCaKE(Circuit-aware Knowledge Editing)を提案します。これは、LLMs内で更新された知識をより効果的に統合する新しい手法です。CaKEは、回路ベースの分析に基づいて戦略的に選ばれたデータを活用し、モデルに修正された知識を利用させ、新たに統合された知識に対する適切な推論回路を開発するよう促します。実験結果は、CaKEが関連する推論タスク全体で更新された知識をより正確かつ一貫して使用することを可能にし、MQuAKEデータセットにおけるマルチホップ推論精度が既存のKE手法と比較して平均20%向上することを示しています。コードとデータはhttps://github.com/zjunlp/CaKEで公開しています。
本論文は、テキスト条件付きストリーミングモーション生成の課題に取り組む。この課題では、可変長の過去のモーションと入力テキストに基づいて、次のステップの人間の姿勢を予測する必要がある。既存の手法はストリーミングモーション生成を実現するのに苦労しており、例えば、拡散モデルは事前に定義されたモーション長に制約され、GPTベースの手法は離散化された非因果的トークン化による応答遅延と誤差蓄積の問題に悩まされている。これらの問題を解決するため、我々はMotionStreamerを提案する。これは、連続的な因果的潜在空間を確率的自己回帰モデルに組み込んだ新しいフレームワークである。連続的な潜在変数は離散化による情報損失を軽減し、長期的な自己回帰生成における誤差蓄積を効果的に低減する。さらに、現在と過去のモーション潜在変数間に時間的な因果的依存関係を確立することで、我々のモデルは利用可能な情報を最大限に活用し、正確なオンラインモーションデコードを実現する。実験結果は、我々の手法が既存のアプローチを上回り、多段階生成、長期生成、動的モーション合成などのより多くの応用を提供することを示している。プロジェクトページ: https://zju3dv.github.io/MotionStreamer/
長文脈Transformerモデル(LCTM)は実世界のアプリケーションにおいて重要ですが、アテンションの二次的な計算複雑性により高い計算コストが課題となっています。ブロックスパースアテンションは、重要な領域に計算を集中させることでこれを緩和しますが、既存の手法ではブロックの重要性を測定するコストが高く、精度と効率のバランスを取るのが困難です。本論文では、スパースアテンションを用いてTransformerモデルの長文脈推論を劇的に加速するプラグアンドプレイフレームワーク、XAttentionを紹介します。XAttentionの重要な革新点は、アテンション行列の対角線方向(左下から右上)の値の合計が、ブロックの重要性を表す強力な代理指標となるという洞察です。これにより、非必須のブロックを正確に特定し、削除することが可能となり、高いスパース性と劇的な推論の加速が実現します。言語処理のRULERやLongBench、ビデオ理解のVideoMME、ビデオ生成のVBenchといった厳しい長文脈ベンチマークでの包括的な評価を通じて、XAttentionは完全なアテンションと同等の精度を維持しながら、大幅な計算効率の向上を達成しました。アテンション計算において最大13.5倍の加速を実証しています。これらの結果は、XAttentionがブロックスパースアテンションの実用的な可能性を解き放ち、LCTMの実世界アプリケーションにおけるスケーラブルで効率的な展開の道を開く能力を強調しています。コードはhttps://github.com/mit-han-lab/x-attentionで公開されています。
4Dガウシアンスプラッティング(4DGS)は、動的シーンの再構築手法として最近注目を集めています。優れた品質を達成しているにもかかわらず、4DGSは通常、大量のストレージを必要とし、レンダリング速度が遅いという課題があります。本研究では、これらの問題に深く掘り下げ、時間的な冗長性の2つの主要な原因を特定しました。(Q1) 短寿命ガウシアン: 4DGSは、シーンのダイナミクスを表現するために、時間的に短いスパンを持つガウシアンを大量に使用しており、過剰な数のガウシアンが生成されます。(Q2) 非活性ガウシアン: レンダリング時には、各フレームに対してごく一部のガウシアンしか寄与しません。それにもかかわらず、ラスタライズ中にすべてのガウシアンが処理されるため、冗長な計算オーバーヘッドが発生します。これらの冗長性を解決するため、我々は4DGS-1Kを提案します。これは、最新のGPU上で1000 FPS以上で動作します。Q1に対しては、短寿命ガウシアンを効果的に除去しつつ、4DGSがより長い時間スパンを持つガウシアンを使用してシーンのダイナミクスを捉えることを促す新しい剪定基準である「空間-時間変動スコア」を導入します。Q2に対しては、連続するフレーム間で活性なガウシアンのマスクを保存し、レンダリングにおける冗長な計算を大幅に削減します。従来の4DGSと比較して、我々の手法は複雑な動的シーンにおいて、ストレージを41倍削減し、ラスタライズ速度を9倍向上させながら、同等の視覚品質を維持します。詳細はプロジェクトページ(https://4DGS-1K.github.io)をご覧ください。
拡散モデルは視覚生成における主流のフレームワークとして登場しました。この成功を基盤として、Mixture of Experts(MoE)手法の統合は、モデルのスケーラビリティと性能の向上に有望な結果を示しています。本論文では、柔軟なルーティング戦略「Expert Race」を備えた拡散トランスフォーマーのための新規MoEモデル、Race-DiTを紹介します。トークンとエキスパートが競争し、上位候補を選択することを可能にすることで、モデルは重要なトークンにエキスパートを動的に割り当てることを学習します。さらに、浅い層の学習における課題に対処するための層ごとの正則化と、モード崩壊を防ぐためのルーター類似性損失を提案し、エキスパートのより良い活用を確保します。ImageNetでの大規模な実験により、本手法の有効性が検証され、スケーリング特性を保証しつつ、大幅な性能向上が示されました。
テキストから画像への拡散モデルは近年、目覚ましい進歩を遂げています。しかし、高解像度画像生成のためのモデル訓練は、特に訓練データと計算資源が限られている場合、依然として困難な課題です。本論文では、この実践的な問題をデータ効率性とパラメータ効率性という2つの主要な視点から探求し、超解像度適応のための一連の重要なガイドラインであるURAEを提案します。データ効率性に関しては、いくつかの教師モデルによって生成された合成データが訓練の収束を大幅に促進することを理論的かつ実証的に示します。パラメータ効率性に関しては、合成データが利用できない場合、重み行列の小さなコンポーネントを調整することが広く使用されている低ランクアダプタを上回り、効率を維持しながら大幅な性能向上をもたらすことを発見しました。さらに、FLUXのようなガイダンス蒸留を活用するモデルにおいて、分類器なしガイダンスを無効化すること、つまり適応中にガイダンススケールを1に設定することが満足のいく性能を得るために重要であることを示します。大規模な実験により、URAEがわずか3,000サンプルと2,000イテレーションで、FLUX1.1 [Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K生成性能を達成し、4K解像度生成において新たなベンチマークを設定することが検証されました。コードはhttps://github.com/Huage001/URAEで公開されています。
本論文では、限られたデータと最小限の計算量で、単純な線形プロービングを通じて多様な3Dタスクに使用可能な信頼性の高い自己教師あり点群モデルが存在するかどうかを問いかけます。既存の3D自己教師あり学習手法は、線形プロービングによる表現品質の評価において不十分であることがわかりました。我々は、これが「幾何学的ショートカット」と呼ばれる現象によるものであり、表現が低レベルの空間的特徴に崩壊する原因となっていると仮説を立てました。この課題は3Dに特有であり、点群データの疎な性質から生じます。我々は、空間情報を隠蔽し、入力特徴への依存性を高めるという2つの主要な戦略を通じてこの課題に取り組み、自己蒸留を通じて140k点群のソナタを構成しました。ソナタはシンプルで直感的でありながら、学習された表現は強力で信頼性があります:ゼロショット可視化はセマンティックなグループ化を示し、最近傍関係を通じた強力な空間推論も実証しています。ソナタは、パラメータ効率とデータ効率に優れており、ScanNetでの線形プロービング精度を3倍(21.8%から72.5%に)向上させ、従来の手法と比較してデータの1%のみで性能をほぼ倍増させました。完全なファインチューニングにより、3D室内および屋外知覚タスクの両方でSOTAをさらに進化させました。
近年のビデオ生成技術の進歩により、視覚品質と時間的整合性が著しく向上しています。これに基づき、軌道制御可能なビデオ生成が登場し、明示的に定義された空間パスを通じて物体の動きを精密に制御することが可能になりました。しかし、既存の手法は複雑な物体の動きや複数物体の動き制御に苦戦しており、軌道の正確な追従、物体の一貫性の欠如、視覚品質の低下といった問題が生じています。さらに、これらの手法は単一形式の軌道制御しかサポートしておらず、多様なシナリオでの適用性が制限されています。加えて、軌道制御可能なビデオ生成に特化した公開データセットやベンチマークが存在しないため、堅牢なトレーニングと体系的な評価が妨げられています。これらの課題に対処するため、我々はMagicMotionを導入します。これは、マスク、バウンディングボックス、スパースボックスという密から疎までの3つのレベルの条件を通じて軌道制御を可能にする新しい画像からビデオへの生成フレームワークです。入力画像と軌道が与えられると、MagicMotionは物体の一貫性と視覚品質を維持しながら、定義された軌道に沿って物体をシームレスにアニメーション化します。さらに、大規模な軌道制御ビデオデータセットであるMagicDataと、注釈とフィルタリングのための自動化パイプラインを提供します。また、異なる数の物体にわたるビデオ品質と軌道制御精度を評価する包括的なベンチマークであるMagicBenchを導入します。広範な実験により、MagicMotionが様々なメトリクスにおいて従来の手法を凌駕することが実証されています。プロジェクトページはhttps://quanhaol.github.io/magicmotion-siteで公開されています。
アニメーション可能な頭部アバター生成は、通常、トレーニングに大量のデータを必要とします。データ要件を削減するための自然な解決策は、事前学習済みの拡散モデルとスコア蒸留サンプリング(SDS)を使用したデータ不要の静的アバター生成手法を活用することです。これらの手法は、拡散モデルからの疑似グラウンドトゥルース出力とアバターを整合させます。しかし、ビデオ拡散から直接4Dアバターを蒸留すると、生成されたビデオの空間的および時間的な不整合により、過度に滑らかな結果が生じることがあります。この問題に対処するため、我々はZero-1-to-Aを提案します。これは、ビデオ拡散モデルを使用して4Dアバター再構築のための空間的および時間的に一貫したデータセットを合成する堅牢な手法です。具体的には、Zero-1-to-Aはビデオデータセットを反復的に構築し、アニメーション可能なアバターを段階的に最適化することで、学習プロセス全体を通じてアバターの品質が滑らかかつ一貫して向上することを保証します。この段階的学習は2つのステージで構成されます:(1)空間的一貫性学習は表情を固定し、正面から側面のビューから学習し、(2)時間的一貫性学習はビューを固定し、リラックスした表情から誇張された表情へと学習し、4Dアバターを単純から複雑な方法で生成します。広範な実験により、Zero-1-to-Aが既存の拡散ベースの手法と比較して忠実度、アニメーション品質、レンダリング速度を向上させ、リアルなアバター作成のための解決策を提供することが示されています。コードはhttps://github.com/ZhenglinZhou/Zero-1-to-Aで公開されています。
本論文では、城から高層ビルまで、広大な屋外シーンを生成するタスクを探求する。従来の研究が主に焦点を当ててきた屋内シーン生成とは異なり、屋外シーン生成は、シーンの高さの大幅な変化や、大規模な景観を迅速に生成する手法の必要性といった独自の課題を提示する。これに対処するため、シーンのチャンクを均一なベクトルセットとしてエンコードする効率的なアプローチを提案し、従来の空間構造化された潜在表現よりも優れた圧縮率と性能を実現する。さらに、無制限の生成のための明示的なアウトペインティングモデルを訓練し、従来のリサンプリングベースのインペインティング手法と比較して一貫性を向上させるとともに、余分な拡散ステップを排除することで生成速度を向上させる。このタスクを支援するため、共同訓練用に前処理された高品質な小規模シーンセットであるNuiScene43をキュレーションした。特に、様々なスタイルのシーンで訓練された場合、本モデルは田舎の家と都市の高層ビルといった異なる環境を同一シーン内で融合させることができ、異種シーンを共同訓練に活用する本キュレーションプロセスの可能性を浮き彫りにする。
分類は機械学習における中核的なタスクである。最近の研究では、マルチモーダル大規模言語モデル(MLLM)は当初画像分類において性能が低いものの、適切な量のデータでファインチューニングを行うことで性能が大幅に向上し、SOTA分類モデルに匹敵するレベルに達することが示されている。しかし、大規模なラベル付きデータを取得するのはコストがかかる。本論文では、Few-shot MLLM分類のファインチューニングを探求する。我々は、SFTが深刻な過学習問題を引き起こし、ゼロショットアプローチよりも性能が低下する可能性があることを発見した。この課題に対処するため、ルールベースの強化学習の最近の成功に着想を得て、検証可能な信号を報酬として使用してMLLMをファインチューニングするCLS-RLを提案する。我々は、CLS-RLがほとんどのデータセットでSFTを上回り、ベースから新規、およびFew-shot学習設定の両方で平均精度が大幅に高いことを発見した。さらに、CLS-RLにおいてフリーランチ現象を観察した。特定のデータセットでモデルをファインチューニングすると、分布やクラス名が異なる他のデータセットにおいても、ゼロショットモデルよりも性能が向上する場合がある。これは、RLベースの手法がモデルに分類の基礎を効果的に教えていることを示唆している。最後に、推論時の思考に関する最近の研究に着想を得て、視覚分類の文脈でRLベースの手法の重要な側面であるファインチューニング中の「思考プロセス」を再検討する。我々は、そのようなタスクがファインチューニング中に広範な思考プロセスを必要とするかどうかを疑問視し、これが実際に性能を損なう可能性があることを提案する。この前提に基づき、平等な精度報酬を設定することでトレーニング中の思考プロセスを最小化するNo-Thinking-CLS-RL手法を導入する。我々の調査結果は、No-Thinking-CLS-RL手法が、はるかに少ないファインチューニング時間で、CLS-RLよりも優れたドメイン内性能と汎化能力を達成することを示している。
我々は、生成型言語モデルの時間的・空間的計算量を指定したコードの理解と生成能力を評価するための新しいコーディングベンチマーク「BigO(Bench)」を紹介する。このベンチマークは、計算量の制約を理解し、それに基づいてコードを生成するモデルの能力を見落としがちな現在の評価手法のギャップを埋めるものである。BigO(Bench)には、プロファイリング測定値から任意のPython関数のアルゴリズム的複雑性を推論するツールが含まれており、人間またはLLMが生成したソリューションも対象としている。また、BigO(Bench)には、複雑性フレームワークから推論された(合成された)時間的・空間的複雑性ラベルと、多数の入力サイズに対する対応する実行時間とメモリ使用量の値が注釈付けされた、Code Contestsからの3,105のコーディング問題と1,190,250のソリューションが含まれている。我々は、このベンチマークを用いて複数の最先端言語モデルを評価した結果を提示し、計算量の要件を扱う際のそれらの強みと弱みを明らかにする。特に、トークン空間推論モデルはコード生成においては他を寄せ付けないが、複雑性の理解においてはそうではないことから、トレーニング時に報酬が与えられなかったタスクに対してはうまく汎化しない可能性が示唆される。
我々は、言語誘導型ポリシー生成を通じて数千の3Dビデオゲームをプレイ可能な人工知能エージェントを開発するための新規フレームワーク「PORTAL」を提案する。意思決定問題を言語モデリングタスクに変換することで、本アプローチは大規模言語モデル(LLM)を活用し、ドメイン固有言語(DSL)で表現されたビヘイビアツリーを生成する。この手法は、従来の強化学習アプローチに伴う計算負荷を排除しつつ、戦略的深さと迅速な適応性を維持する。本フレームワークは、ルールベースのノードとニューラルネットワークコンポーネントを組み合わせたハイブリッドポリシー構造を導入し、高レベルの戦略的推論と精密な低レベル制御の両方を可能にする。定量的ゲーム指標と視覚言語モデル分析を組み込んだデュアルフィードバックメカニズムにより、戦術的および戦略的レベルでの反復的ポリシー改善を促進する。結果として得られるポリシーは即座に展開可能で、人間が解釈可能であり、多様なゲーム環境にわたる汎化能力を有する。実験結果は、PORTALが数千のファーストパーソンシューティング(FPS)ゲームにわたる有効性を示し、従来のアプローチと比較して開発効率、ポリシー汎化、行動多様性において大幅な改善を実証する。PORTALは、最小限の開発オーバーヘッドで数千の商用ビデオゲームにわたって動作する洗練されたエージェントを作成するための実用的なソリューションを提供し、ゲームAI開発における重要な進展を表している。3Dビデオゲームに関する実験結果は、https://zhongwen.one/projects/portal で最適に閲覧できる。
自己回帰モデルは、言語モデリングから逐次予測技術を適用することで、画像生成において顕著な成功を収めてきました。しかし、これらのアプローチを画像に適用するには、VQ-VAEのようなベクトル量子化手法を用いて連続的なピクセルデータを離散化する必要があります。VQ-VAEに存在する量子化誤差を軽減するため、最近の研究ではより大きなコードブックを使用する傾向があります。しかし、これに伴い語彙サイズが拡大し、自己回帰モデリングのタスクが複雑化します。本論文では、自己回帰モデリングをより困難にすることなく、大きなコードブックの利点を享受する方法を探ることを目的としています。実証的な調査を通じて、類似したコードワード表現を持つトークンが最終的に生成される画像に類似した効果を及ぼすことを発見し、大きなコードブックには重要な冗長性が存在することを明らかにしました。この知見に基づき、類似したトークンに同じ粗いラベルを割り当てることで、粗から細かい(CTF)トークンを予測することを提案します。我々のフレームワークは2つの段階で構成されます:(1)シーケンス内の各トークンの粗いラベルを逐次予測する自己回帰モデル、(2)粗いラベルに基づいて全てのトークンの細かいラベルを同時に予測する補助モデル。ImageNetでの実験により、我々の手法がベースラインと比較してInception Scoreで平均59ポイントの改善を達成し、優れた性能を示すことが実証されました。特に、推論ステップを追加したにもかかわらず、我々のアプローチはより高速なサンプリング速度を実現しています。
医療画像セグメンテーションの複雑な性質を考えると、詳細なドメイン固有の特徴を捉えるために特別に設計されたモデルが必要です。大規模な基盤モデルは高い柔軟性を提供しますが、これらのモデルのファインチューニングにかかるコストは依然として大きな障壁となっています。パラメータ効率型ファインチューニング(PEFT)手法、例えばLow-Rank Adaptation(LoRA)は、低ランク行列を用いてモデルの重みを効率的に更新しますが、選択したランクがドメイン固有のニュアンスを捉えるのに不十分な場合、アンダーフィッティングの問題が生じる可能性があります。一方、フルランクの特異値分解(SVD)ベースの手法は、すべての特異値を変更することで包括的な更新を提供しますが、柔軟性に欠け、データセット間で性能がばらつく傾向があります。本論文では、SALT(Singular Value Adaptation with Low-Rank Transformation)を提案します。この手法は、最も影響力のある特異値を学習可能なスケールおよびシフトパラメータを用いて選択的に適応させ、残りの部分空間に対して低ランク更新を補完します。このハイブリッドアプローチは、LoRAとSVDの両方の利点を活用し、モデルのサイズや深さを増やすことなく効果的な適応を可能にします。20サンプルから1000サンプルまでの5つの難易度の高い医療データセットで評価した結果、SALTは最先端のPEFT(LoRAおよびSVD)をDice係数で2%から5%上回り、わずか3.9%の学習可能パラメータで、低リソース環境下でも堅牢な適応性を示しました。SALTのコードは以下で公開されています:https://github.com/BioMedIA-MBZUAI/SALT
大規模視覚言語モデル(LVLM)は、視覚言語理解と推論タスクにおいて有望な性能を示しています。しかし、その視覚理解の振る舞いはまだ十分に解明されていません。根本的な疑問が生じます:LVLMはどの程度視覚入力を依存しているのか、またどの画像領域がその応答に寄与しているのか?LVLMの自由形式生成を解釈することは、複雑な視覚アーキテクチャ(例:複数のエンコーダやマルチ解像度)や可変長の出力のため、容易ではありません。本論文では、既存のヒートマップ可視化手法(例:iGOS++)を拡張し、オープンエンドの視覚的質問応答をサポートするLVLMに対応させます。生成された回答と入力画像の関連性を反映する視覚的に関連性のあるトークンを選択する手法を提案します。さらに、視覚情報を必要とするように設計されたベンチマークにおいて、最先端のLVLMの包括的な分析を行います。私たちの調査結果は、焦点領域と回答の正確性の関係、アーキテクチャ間の視覚的注意の違い、LLMのスケールが視覚理解に与える影響など、LVLMの振る舞いに関するいくつかの洞察を提供します。コードとデータはhttps://github.com/bytedance/LVLM_Interpretationで公開されています。
大規模言語モデルとそのマルチモーダル拡張の最近の進展は、自己回帰的な次トークン予測を通じて生成と理解を統合する手法の有効性を実証してきました。しかし、AI for Scienceにおける3D構造生成と理解({3D GU})の重要性にもかかわらず、これらのタスクは独立して進化しており、自己回帰的手法は未だ十分に探求されていません。このギャップを埋めるため、我々はUni-3DARを提案します。これは、自己回帰予測を通じて{3D GU}タスクをシームレスに統合する統一フレームワークです。Uni-3DARの中核では、3D空間をオクツリーを用いて圧縮する新しい階層的トークン化を採用し、3D構造の内在的なスパース性を活用します。さらに、微細な構造の詳細を捉えるための追加のトークン化を行い、原子種や正確な空間座標といった重要な属性をマイクロスコピックな3D構造において表現します。効率と効果を高めるため、2つの最適化を提案します。1つ目は、オクツリートークンシーケンスを最大8倍に圧縮する2レベルのサブツリー圧縮戦略です。2つ目は、動的に変化するトークン位置に適応したマスク付き次トークン予測メカニズムで、モデルの性能を大幅に向上させます。これらの戦略を組み合わせることで、Uni-3DARは多様な{3D GU}タスクを単一の自己回帰フレームワーク内で統合することに成功しました。分子、タンパク質、ポリマー、結晶を含む複数のマイクロスコピックな{3D GU}タスクにおける広範な実験により、その有効性と汎用性が検証されました。特に、Uni-3DARは従来の最先端の拡散モデルを大幅に上回り、最大256%の相対的改善を達成するとともに、推論速度を最大21.8倍高速化しました。コードはhttps://github.com/dptech-corp/Uni-3DARで公開されています。
3D分子生成は創薬や材料科学において極めて重要であり、原子種、化学結合、3D座標といった複雑なマルチモダリティを処理するモデルが求められています。主要な課題は、これらの異なる形状のモダリティを統合しつつ、3D座標に対するSE(3)等価性を維持することです。これを実現するため、既存のアプローチでは通常、不変性と等価性を持つモダリティに対して別々の潜在空間を維持しており、学習とサンプリングの両方において効率が低下しています。本研究では、3D分子の潜在拡散モデリングのための統一変分オートエンコーダ(UAE-3D)を提案します。これは、3D分子を統一された潜在空間から潜在シーケンスに圧縮しつつ、ほぼゼロの再構成誤差を維持するマルチモーダルVAEです。この統一潜在空間により、潜在拡散モデリングを行う際のマルチモダリティと等価性の処理の複雑さが解消されます。これを実証するため、分子帰納バイアスを持たない汎用拡散モデルであるDiffusion Transformerを潜在生成に採用しました。GEOM-DrugsとQM9データセットでの大規模な実験により、本手法がデノボおよび条件付き3D分子生成の両方において新たなベンチマークを確立し、優れた効率性と品質を達成することが示されました。
一般的な動画学習手法は、事前に決められた時空間グリッドからサンプリングされた固定数のトークンを主に扱っており、動画の冗長性により最適とは言えない精度と計算量のトレードオフが生じています。また、下流タスクにおける計算リソースの変動への適応性に欠けており、現実世界のシーンで最も競争力のあるモデルを適用することを妨げています。そこで我々は、予算内で最大限の入力情報を得るための新しいテスト設定「Token Optimization」を提案します。これは、より適切にサンプリングされた動画からトークンを選択することで、サイズ制限のある入力トークンのセットを最適化するものです。この目的のために、我々は「Flux」という新しい拡張ツールを提案します。サンプリンググリッドを柔軟にし、トークン選択を活用することで、ほとんどの一般的な動画学習フレームワークに容易に適用でき、追加コストをほとんどかけずにモデルの堅牢性を向上させます。我々は大規模な動画事前学習にFluxを統合し、その結果として得られたFluxViTは、標準的なコストで広範なタスクにおいて新たな最先端の結果を確立しました。特に、トークン数を1/4に削減しても、Token Optimizationを用いることで以前の最先端モデルの性能に匹敵し、約90%の節約を実現しています。すべてのモデルとデータはhttps://github.com/OpenGVLab/FluxViTで公開されています。
視覚言語(VL)モデルは、様々なタスクにおいて高い性能を発揮することが実証されています。しかし、これらのモデルは予測において特定のモダリティに依存することが多く、「支配的モダリティバイアス」を引き起こします。このバイアスは、特に一方のモダリティが損なわれた場合に、性能を著しく低下させます。本研究では、支配的モダリティバイアス下でのモデルの挙動を分析し、勾配の非整合性や勾配の大きさの違いが損失の均衡収束を妨げることを理論的に示します。これらの知見に基づき、支配的モダリティバイアスを軽減するための新しいフレームワーク、BalGradを提案します。我々のアプローチは、モダリティ間の勾配再重み付け、各モダリティの貢献に基づくKLダイバージェンスの勾配調整、およびタスク方向を非衝突的に整合させるためのタスク間勾配射影を含みます。UPMC Food-101、Hateful Memes、MM-IMDbデータセットでの実験により、BalGradが予測時の特定のモダリティへの過度な依存を効果的に緩和することが確認されました。
ビデオIDカスタマイズは、ユーザーの参照画像に基づいて一貫したIDを維持し、顕著なダイナミクスを示す高精細なビデオを生成することを目指しています。しかし、既存のアプローチでは、2つの主要な課題に直面しています。1つは、ビデオの長さが長くなるにつれてIDが劣化すること、もう1つは、主に静的な画像を用いた従来の自己再構成トレーニングに依存しているため、トレーニング中のダイナミクスが低下することです。これらの問題を解決するために、我々はMagicIDを導入しました。これは、ユーザーの好みに合わせたID一貫性とダイナミックなビデオ生成を直接促進する新しいフレームワークです。具体的には、従来の自己再構成に固執するのではなく、明示的なIDとダイナミックな報酬を持つペアワイズ選好ビデオデータを構築して選好学習を行うことを提案します。カスタマイズされた選好データの制約に対処するために、ハイブリッドサンプリング戦略を導入しました。このアプローチでは、まず参照画像から派生した静的なビデオを活用してIDの保存を優先し、次にFrontierベースのサンプリング方法を使用して生成されたビデオの動きの質を向上させます。これらのハイブリッド選好ペアを利用することで、モデルを最適化し、カスタマイズされた選好ペア間の報酬差に合わせます。広範な実験により、MagicIDが一貫したIDと自然なダイナミクスを成功裏に達成し、様々なメトリクスで既存の方法を凌駕することが示されました。
ビデオ生成モデル(VGM)の急速な発展に伴い、AI生成ビデオ(AIGV)に対する信頼性の高く包括的な自動評価指標の開発が不可欠となっています。既存の手法は、他のタスク向けに最適化された既製モデルを使用するか、専門的な評価器を訓練するために人間の評価データに依存しています。これらのアプローチは特定の評価側面に限定されており、より細粒度で包括的な評価の需要が高まる中で拡張することが困難です。この問題に対処するため、本研究では、強力な視覚知覚と言語理解能力を活用して、マルチモーダル大規模言語モデル(MLLM)をAIGVの統一評価器として使用する可能性を探ります。統一AIGV評価における自動指標の性能を評価するために、UVE-Benchというベンチマークを導入しました。UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面にわたるペアワイズ人間選好アノテーションを提供します。UVE-Benchを使用して、16のMLLMを広範に評価しました。我々の実証結果は、先進的なMLLM(例:Qwen2VL-72BやInternVL2.5-78B)が人間の評価者にはまだ及ばないものの、統一AIGV評価において有望な能力を示し、既存の専門的評価手法を大幅に上回ることを示唆しています。さらに、MLLM駆動の評価器の性能に影響を与える主要な設計選択について詳細な分析を行い、今後のAIGV評価研究に貴重な洞察を提供します。コードはhttps://github.com/bytedance/UVEで公開されています。
私たちは、ビデオ生成モデルを活用して現実世界の無境界シーンに対するリアルな3Dガウススプラッティング(3DGS)を生成する、直接的なテキストから3DへのモデルであるVideoRFSplatを提案します。多様なカメラポーズと無境界の空間範囲を生成しつつ、任意のテキストプロンプトへの汎化を確保するために、従来の手法では2D生成モデルを微調整してカメラポーズとマルチビュー画像を共同でモデル化していました。しかし、これらの手法は、モダリティギャップのために2D生成モデルを共同モデル化に拡張する際に不安定さを抱えており、訓練と推論を安定させるために追加のモデルが必要でした。本研究では、ビデオ生成モデルを微調整する際にマルチビュー画像とカメラポーズを共同でモデル化するためのアーキテクチャとサンプリング戦略を提案します。私たちの核心となるアイデアは、事前訓練されたビデオ生成モデルに専用のポーズ生成モデルをコミュニケーションブロックを介して接続するデュアルストリームアーキテクチャであり、マルチビュー画像とカメラポーズを別々のストリームを通じて生成します。この設計により、ポーズと画像のモダリティ間の干渉が減少します。さらに、マルチビュー画像よりもカメラポーズを高速にノイズ除去する非同期サンプリング戦略を提案し、迅速にノイズ除去されたポーズがマルチビュー生成を条件付けることで、相互の曖昧さを減少させ、クロスモーダル一貫性を向上させます。複数の大規模な現実世界データセット(RealEstate10K、MVImgNet、DL3DV-10K、ACID)で訓練されたVideoRFSplatは、スコア蒸留サンプリングによる事後精製に大きく依存する既存のテキストから3D直接生成手法を上回り、そのような精製なしで優れた結果を達成します。
深層学習(DL)ベースのコード補完ツールは、高度なコード生成を可能にすることでソフトウェア開発を変革してきました。これらのツールは、多数のリポジトリから収集された膨大な量のコードで訓練されたモデルを活用し、一般的なコーディングパターンを捕捉します。しかし、特定の組織や開発者向けにこれらのモデルをファインチューニングすることで、そのような対象でのパフォーマンスを向上させる影響については未解明のままでした。本研究では、このギャップを埋めるため、この疑問に答える確固たる実証的証拠を提示します。具体的には、2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、および3つのモデルサイズ(6000万、7億5000万、70億の学習可能パラメータ)を検討しました。T5モデル(6000万、7億5000万)は、対象組織のデータを除いた2000以上のオープンソースプロジェクトで事前訓練およびファインチューニングされ、組織固有および開発者固有のデータセットでファインチューニングされたバージョンと比較されました。Code Llamaモデル(70億)については、オンラインで公開されている事前訓練済みモデルと、組織固有および開発者固有のデータセットでパラメータ効率的なファインチューニングを施した同じモデルのパフォーマンスを比較しました。結果は、組織固有および開発者固有の追加ファインチューニングによって予測能力が向上し、特に前者が高いパフォーマンスを示すことを明らかにしました。この発見は、(i) 2つの対象組織(ApacheとSpring)および(ii) 全く異なる規模のモデル(6000万から70億の学習可能パラメータ)にわたって一般化されます。最後に、組織固有のデータセットでファインチューニングされたDLモデルが、そのまま使用される事前訓練済みコードモデルと同等の補完性能を達成し、その10分の1のサイズで済むことを示し、展開と推論コストの節約(例:より小さなGPUの必要性)をもたらすことを示しました。
画像キャプショニングは長らく視覚理解における重要なタスクであり、近年の視覚言語モデル(VLM)の進展により、詳細な画像キャプション生成能力が大幅に向上しています。しかし、詳細な画像キャプショニングの評価は、時代遅れの評価指標と粗いアノテーションのため、十分に探究されていません。本論文では、詳細なキャプショニングタスクに特化した新しい指標DCScoreとともに、DeCapBenchを紹介します。DCScoreは、応答を最小の自己完結型単位である「原始情報単位」に分解し、個別に評価することで、幻覚と細粒度の包括性を評価します。我々の評価では、DCScoreが他のルールベースまたはモデルベースの指標よりも人間の判断に近いことが示されています。同時に、DeCapBenchは記述タスクにおいてVLMアリーナの結果と高い相関を示し、既存の視覚言語モデルのベンチマークを凌駕しています。さらに、我々は先進的な指標に基づく選好最適化のための自動細粒度フィードバック収集手法FeedQuillを提示し、自動生成された選好データにおいて堅牢な汎化能力を示します。複数のVLMに対する広範な実験により、本手法が幻覚を大幅に減少させるだけでなく、様々なベンチマークで性能を向上させ、GPT-4oを凌ぐ優れた詳細キャプショニング性能を達成することが実証されています。
本論文では、虚偽の主張や誤情報から派生したユーモアを研究するための新たなリソースであるDeceptive Humor Dataset(DHD)を紹介する。誤情報が蔓延する時代において、ユーモアが欺瞞とどのように絡み合うかを理解することは極めて重要である。DHDは、ChatGPT-4oモデルを使用して虚偽の主張や操作された情報を組み込んだ誤った物語から生成されたユーモアを含むコメントで構成されている。各インスタンスは、微妙な風刺を示す1から高度な風刺を示す3までのSatire Levelでラベル付けされ、さらにDark Humor(ブラックユーモア)、Irony(皮肉)、Social Commentary(社会批評)、Wordplay(言葉遊び)、Absurdity(不条理)の5つの異なるHumor Categoryに分類される。このデータセットは、英語、テルグ語、ヒンディー語、カンナダ語、タミル語、およびそれらのコード混合バージョン(Te-En、Hi-En、Ka-En、Ta-En)を含む複数言語にまたがり、貴重な多言語ベンチマークとなっている。DHDを導入することで、欺瞞的文脈におけるユーモアを分析するための構造化された基盤を確立し、ユーモアが誤情報とどのように相互作用するだけでなく、その認識と拡散にどのように影響を与えるかを探る新たな研究方向性を切り開く。また、提案されたデータセットに対する強力なベースラインを確立し、今後の研究が欺瞞的ユーモア検出モデルをベンチマークし、進化させるための基盤を提供する。
次トークン予測に基づく自己教師あり事前学習により、大規模言語モデルはテキストの基本構造を捉えることが可能となり、大規模に適用することで幅広いタスクで前例のない性能を達成しました。同様に、自動運転は膨大な量の時空間データを生成し、その規模を活用して環境の幾何学的・意味的構造とその時間的変化を学習する可能性を示唆しています。この方向性において、我々は幾何学的・意味的自己教師あり事前学習手法GASPを提案します。GASPは、時空間内の任意の未来点において、(1) 3Dシーンの進化する構造を捉える一般占有、(2) 環境内の自車両経路をモデル化する自車占有、(3) 視覚基盤モデルから抽出された高レベル特徴を予測することで、統一された表現を学習します。生のセンサーデータではなく幾何学的・意味的4D占有場をモデル化することで、モデルは環境とその時間的変化の構造化され汎化可能な表現を学習します。我々はGASPを複数の自動運転ベンチマークで検証し、意味的占有予測、オンラインマッピング、自車軌道予測において大幅な改善を示しました。我々の結果は、連続的な4D幾何学的・意味的占有予測が自動運転のためのスケーラブルで効果的な事前学習パラダイムを提供することを実証しています。コードと追加の可視化については、\href{https://research.zenseact.com/publications/gasp/}をご覧ください。
生成AIの台頭に伴い、テキストキャプションから図形を合成することが注目を集めるアプリケーションとなっています。しかし、高い幾何学的精度と編集性を実現するためには、TikZのような言語で図形をグラフィックスプログラムとして表現する必要があり、整列したトレーニングデータ(つまり、キャプション付きのグラフィックスプログラム)は依然として不足しています。一方で、整列していない大量のグラフィックスプログラムとキャプション付きラスター画像はより容易に入手可能です。私たちは、これらの異なるデータソースを統合するために、TikZeroを提案します。TikZeroは、画像表現を中間ブリッジとして利用することで、グラフィックスプログラムの生成をテキスト理解から分離します。これにより、グラフィックスプログラムとキャプション付き画像を独立してトレーニングすることが可能になり、推論時にゼロショットでテキストガイドによるグラフィックスプログラムの合成が可能になります。私たちの手法は、キャプションと整列したグラフィックスプログラムのみを扱えるベースラインを大幅に上回ることを示します。さらに、キャプションと整列したグラフィックスプログラムを補助的なトレーニング信号として活用する場合、TikZeroはGPT-4oのような商用システムを含む、はるかに大規模なモデルの性能に匹敵またはそれを上回ります。私たちのコード、データセット、および選択されたモデルは公開されています。
慢性疾患を持つ個人にとって、処方された治療を遵守することは、高額な医療費や健康上の悪影響を避けるために極めて重要です。特定の患者グループにとっては、集中的な生活習慣介入が薬物治療遵守率を向上させるために不可欠です。治療遵守率を正確に予測することは、オンデマンドの介入ツールを開発する道を開き、タイムリーで個別化されたサポートを可能にします。スマートフォンやウェアラブルデバイスの普及により、スマートな活動モニタリングシステムの開発と展開がこれまで以上に容易になりました。しかし、ウェアラブルセンサーに基づく治療遵守率の効果的な予測システムは、まだ広く利用可能ではありません。私たちはこのギャップを埋めるため、Adherence Forecasting and Intervention with Machine Intelligence (AIMI)を提案します。AIMIは、スマートフォンセンサーと過去の服薬履歴を活用して、処方された薬を飲み忘れる可能性を推定する知識誘導型の遵守率予測システムです。心血管疾患を管理するために毎日薬を服用する27名の参加者を対象にユーザー調査を実施しました。様々な入力特徴の組み合わせを用いてCNNおよびLSTMベースの予測モデルを設計・開発し、LSTMモデルが薬物治療遵守率を0.932の精度と0.936のF-1スコアで予測できることを発見しました。さらに、畳み込みニューラルネットワークとリカレントニューラルネットワークのアーキテクチャを用いた一連のアブレーションスタディを通じて、将来に関する既知の知識と個別化されたトレーニングを活用することが、薬物治療遵守率の予測精度を向上させることを実証しました。コードは以下で公開されています: https://github.com/ab9mamun/AIMI。