翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、自然言語処理において顕著な成功を収めてきました。最近の進展により、新しいクラスの推論LLMsが開発されています。例えば、オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで、最先端の性能を達成しました。これらの印象的な能力にもかかわらず、そのようなモデルの内部推論メカニズムは未解明のままです。本研究では、Sparse Autoencoders(SAEs)を用いて、ニューラルネットワークの潜在表現を解釈可能な特徴に分解する手法を採用し、DeepSeek-R1シリーズのモデルにおける推論を駆動する特徴を特定します。まず、SAE表現から「推論特徴」の候補を抽出するアプローチを提案します。これらの特徴を実証分析と解釈可能性手法を通じて検証し、モデルの推論能力との直接的な相関を実証します。特に、これらの特徴を体系的に制御することで推論性能が向上することを示し、LLMsにおける推論のメカニズムを初めて説明します。コードはhttps://github.com/AIRI-Institute/SAE-Reasoningで公開されています。
トレーニングデータの規模、モデルサイズ、計算コストの増大に伴い、ビデオ生成はデジタル創作において目覚ましい成果を上げ、ユーザーがさまざまな領域で創造性を発揮することを可能にしています。最近、大規模言語モデル(LLMs)の研究者たちは、スケーリングを推論時にも拡張し、より多くの推論時の計算リソースを使用することでLLMの性能を大幅に向上させることができることを示しました。高額なトレーニングコストをかけてビデオ基盤モデルをスケールアップする代わりに、私たちはビデオ生成におけるテストタイムスケーリング(TTS)の可能性を探り、次の問いに答えようとしています:ビデオ生成モデルが非自明な量の推論時の計算リソースを使用できる場合、挑戦的なテキストプロンプトを与えられたとき、生成品質をどれだけ向上させることができるか。本研究では、ビデオ生成のテストタイムスケーリングを、ガウスノイズ空間からターゲットビデオ分布へのより良い軌道をサンプリングする探索問題として再解釈します。具体的には、フィードバックを提供するテストタイム検証器と探索プロセスを導くヒューリスティックアルゴリズムを用いて探索空間を構築します。テキストプロンプトが与えられた場合、まず推論時にノイズ候補を増やす直感的な線形探索戦略を検討します。すべてのフレームを同時に完全ステップでノイズ除去することは、重いテストタイム計算コストを必要とするため、ビデオ生成のためのより効率的なTTS手法であるTree-of-Frames(ToF)を設計しました。これは、自己回帰的にビデオブランチを適応的に拡張し、剪定するものです。テキスト条件付きビデオ生成ベンチマークでの広範な実験により、テストタイムの計算リソースを増やすことが、ビデオの品質を一貫して大幅に向上させることを実証しました。プロジェクトページ: https://liuff19.github.io/Video-T1
現代のゲーム開発は、従来のゲームエンジンにおける事前に決定されたコンテンツのため、創造性とコストの面で大きな課題に直面しています。最近のビデオ生成モデルのブレークスルーは、現実的でインタラクティブな仮想環境を合成する能力を持ち、ゲーム制作に革命をもたらす可能性を秘めています。本ポジションペーパーでは、次世代ゲームにおける無限の新規コンテンツ生成を可能にする生成型ゲームエンジン(GGE)の基盤として、インタラクティブ生成ビデオ(IGV)を提案します。GGEは、IGVの無限の高品質コンテンツ合成、物理法則を考慮した世界モデリング、ユーザー制御のインタラクティビティ、長期記憶能力、因果推論といった独自の強みを活用します。本論文では、GGEの中核モジュールを詳細に説明する包括的なフレームワークと、その進化を導く階層的な成熟度ロードマップ(L0-L4)を提示します。私たちの研究は、AI時代におけるゲーム開発の新たな方向性を示し、AIを活用した生成システムがゲームの制作と体験を根本的に変える未来を描いています。
DeepSeek-R1は、ルールベースの報酬を用いたシンプルな強化学習(RL)フレームワークを通じて、長い連鎖的思考(CoT)推論が自然に出現することを示しました。このトレーニングはベースモデルから直接開始できるため、ゼロRLトレーニングと呼ばれるパラダイムです。最近のゼロRLトレーニングの再現努力は主にQwen2.5モデルシリーズに焦点を当てていますが、ベースモデルが既に強力な指示追従能力と自己反省能力を示しているため、代表的な例とは言えません。本研究では、LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B、および0.5Bから32BまでのすべてのQwen2.5モデルを含む、10種類の多様なベースモデルにわたるゼロRLトレーニングを調査しました。フォーマット報酬の調整やクエリの難易度制御などの重要な設計戦略を活用することで、ほとんどの設定において推論精度と応答長の大幅な改善を達成しました。しかし、トレーニングダイナミクスを注意深く監視することで、異なるベースモデルがトレーニング中に異なるパターンを示すことが観察されました。例えば、応答長の増加が必ずしも検証(いわゆる「アハ体験」)などの特定の認知行動の出現と相関するわけではありませんでした。特に、Qwenファミリー以外の小さなモデルで初めて「アハ体験」を観察しました。成功したゼロRLトレーニングを可能にする主要な設計と、その発見と実践を共有します。さらなる研究を促進するため、コード、モデル、および分析ツールをオープンソース化しました。
幾何学的再構成と生成的モデリングの統合は、人間のような空間推論能力を持つAIシステムを開発する上で依然として重要な課題です。本論文では、Aetherという統一フレームワークを提案します。Aetherは、3つのコア能力(1)4次元動的再構成、(2)行動条件付きビデオ予測、(3)目標条件付き視覚計画を共同最適化することで、世界モデルにおける幾何学的認識を可能にします。タスクを交互に行う特徴学習を通じて、Aetherは再構成、予測、計画の目標間で相乗的な知識共有を実現します。ビデオ生成モデルを基盤として、本フレームワークはトレーニング中に実世界のデータを一切観察していないにもかかわらず、前例のない合成から実世界への汎化性能を示します。さらに、本アプローチは、その本質的な幾何学的モデリングにより、行動追従と再構成タスクの両方においてゼロショット汎化を達成します。驚くべきことに、実世界のデータがなくても、その再構成性能はドメイン固有のモデルをはるかに凌駕します。加えて、Aetherは幾何学的に情報化された行動空間を活用して、予測を行動にシームレスに変換し、効果的な自律軌道計画を可能にします。本研究が、物理的に妥当な世界モデリングとその応用における新たなフロンティアを探求するコミュニティのインスピレーションとなることを願っています。
Omnimatteは、与えられた動画を意味的に意味のあるレイヤーに分解することを目指しており、背景や個々のオブジェクト、それに伴う影や反射などの効果を含みます。既存の手法では、多くの場合、広範なトレーニングや高コストな自己教師あり最適化が必要です。本論文では、事前学習済みのビデオ拡散モデルを活用したトレーニング不要のアプローチであるOmnimatteZeroを提案します。これにより、動画からオブジェクトを除去し、個々のオブジェクトレイヤーとその効果を抽出し、それらのオブジェクトを新しい動画に合成することが可能です。これを実現するために、ゼロショット画像インペインティング技術を動画オブジェクト除去に適応させます。この技術は、そのままでは効果的に処理できないタスクです。次に、自己注意マップがオブジェクトとその足跡に関する情報を捕捉することを示し、それを使用してオブジェクトの効果をインペイントし、クリーンな背景を残します。さらに、単純な潜在空間演算を通じて、オブジェクトレイヤーを分離し、新しいビデオレイヤーとシームレスに再結合して新しい動画を生成することができます。評価結果は、OmnimatteZeroが背景再構築において優れた性能を発揮するだけでなく、最小限のフレーム実行時間でリアルタイム性能を達成し、最速のOmnimatteアプローチとして新記録を樹立することを示しています。
科学的発見の進展は、単一の「ユーレカ」の瞬間によるものではなく、むしろ数百人の科学者が共通の目標に向かって漸進的に協力する結果である。既存のエージェントワークフローは自律的に研究を生成することが可能だが、それらは孤立して行われ、過去の研究成果を継続的に改善する能力を持たない。これらの課題に対処するため、我々はAgentRxivを導入する。これはLLMエージェントラボが共有のプレプリントサーバーにレポートをアップロードし、検索することで、協力し、洞察を共有し、互いの研究を反復的に構築することを可能にするフレームワークである。我々はエージェントラボに新しい推論技術とプロンプト技術の開発を課し、過去の研究にアクセスできるエージェントが、孤立して動作するエージェントと比較してより高いパフォーマンス向上を達成することを発見した(MATH-500においてベースラインに対して11.4%の相対的改善)。最も優れた戦略は他のドメインのベンチマークにも一般化し、平均で3.3%の改善が見られた。AgentRxivを通じて研究を共有する複数のエージェントラボは、共通の目標に向かって協力し、孤立したラボよりも迅速に進展し、全体としてより高い精度を達成した(MATH-500においてベースラインに対して13.7%の相対的改善)。これらの発見は、自律エージェントが人間と共に将来のAIシステムを設計する役割を果たす可能性を示唆している。我々は、AgentRxivがエージェントが研究目標に向かって協力し、研究者が発見を加速することを可能にすることを期待している。
Classifier-Free Guidance (CFG) は、拡散/フローモデルにおいて画像の忠実度と制御性を向上させるために広く採用されている技術です。本研究では、まず、ガウス混合分布で学習されたフローマッチングモデルに対するCFGの影響を解析的に調査します。ここでは、真のフローを導出できる状況を想定しています。その結果、学習の初期段階でフロー推定が不正確な場合、CFGがサンプルを誤った軌道に向かわせることが観察されました。この観察に基づき、我々はCFG-Zero*を提案します。これは、以下の2つの改善点を備えたCFGの改良版です:(a) 最適化されたスケール。ここでは、推定された速度の不正確さを補正するためにスカラー値が最適化されます。これが名前の * の由来です。(b) zero-init。これは、ODEソルバーの最初の数ステップをゼロにすることを含みます。テキストから画像への生成(Lumina-Next、Stable Diffusion 3、Flux)およびテキストから動画への生成(Wan-2.1)の実験において、CFG-Zero* がCFGを一貫して上回ることを示し、フローマッチングモデルを導く上での有効性を強調しています。(コードは github.com/WeichenFan/CFG-Zero-star で公開されています)
大規模言語モデル(LLM)は、外部環境と相互作用するエージェントシステムにますます導入されています。しかし、LLMエージェントは信頼できないデータを扱う際にプロンプトインジェクション攻撃に対して脆弱です。本論文では、CaMeLという堅牢な防御手法を提案します。CaMeLはLLMの周囲に保護システム層を構築し、基盤となるモデルが攻撃に対して脆弱であっても安全を確保します。CaMeLは動作において、(信頼された)クエリから制御フローとデータフローを明示的に抽出するため、LLMが取得した信頼できないデータがプログラムフローに影響を与えることはありません。さらにセキュリティを向上させるため、CaMeLは「能力(capability)」の概念に基づいて、不正なデータフローを介したプライベートデータの流出を防ぎます。我々は、最近のエージェントセキュリティベンチマークであるAgentDojo [NeurIPS 2024]において、CaMeLが証明可能なセキュリティを保ちつつ67%のタスクを解決することを実証しました。
多様なモダリティ(例:画像、音声、動画)にわたるオープンエンドなマルチモーダル理解(MMU)および生成(MMG)タスクにおいて、生成基盤モデルを評価することは、クロスモーダル相互作用の複雑さから大きな課題を抱えています。このため、マルチモーダルLLM(MLLM)を自動評価者として活用するアイデアが浮上し、視覚言語理解タスクの評価において有望な結果を示しています。さらに、本論文では、MLLM-as-a-Judgeをモダリティ横断的に統一的な方法で拡張し、TaskAnythingとJudgeAnythingという2つのベンチマークを導入することで、任意のモダリティ間タスクにおけるMLLMの全体的な性能と評価能力をそれぞれ評価します。具体的には、TaskAnythingは、確立されたベンチマークから厳選された1,500のクエリを用いて、15の任意モダリティカテゴリにわたるMMUおよびMMG能力を評価します。さらに、JudgeAnythingは、5つの先進的なMLLM(例:GPT-4oやGemini-2.0-Flash)の評価能力を、ペア比較とスコア評価の観点から評価し、人間の判断と詳細な評価基準を組み込んだ標準化されたテストベッドを提供します。我々の大規模な実験により、これらのMLLMはMMUの評価において有望な結果を示す一方(ペア比較設定で平均66.55%、スコア評価設定で平均42.79%)、MMGタスクでは大きな課題に直面していることが明らかになりました(ペア比較設定で平均53.37%、スコア評価設定で平均30.05%)。これにより、クロスモーダルのバイアスや幻覚問題が露呈しました。これを解決するため、我々はオムニモデルとマルチモーダル報酬モデルを評価するための自動プラットフォームであるOmniArenaを提案します。我々の研究は、より公平な評価プロトコルと人間の嗜好との強い整合性の必要性を強調しています。ソースコードとデータセットは以下のURLで公開されています:https://urrealhero.github.io/judgeanythingweb/。
本論文では、FFN Fusionというアーキテクチャ最適化技術を提案する。この技術は、大規模言語モデルにおける逐次計算を削減するため、並列化の自然な機会を特定し活用するものである。我々の重要な洞察は、特に特定のアテンションレイヤーを除去した後に残るFeed-Forward Network(FFN)層のシーケンスが、精度への影響を最小限に抑えつつ並列化可能であるという点にある。我々は、そのようなシーケンスを特定し融合するための体系的な方法論を開発し、それらを並列操作に変換することで、モデルの振る舞いを維持しつつ推論レイテンシを大幅に削減する。これらの技術をLlama-3.1-405B-Instructに適用し、Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)を作成した。この効率的で近く公開予定のモデルは、推論レイテンシで1.71倍の高速化とトークンあたり35倍の低コストを実現しつつ、ベンチマーク全体で強力な性能を維持している。49Bから253Bパラメータまでのモデルを用いた広範な実験を通じて、FFN Fusionが規模が大きくなるほど効果的であり、量子化やプルーニングなどの既存の最適化技術を補完できることを示す。最も興味深いことに、アテンション層とFFN層の両方を含む完全なトランスフォーマーブロックでさえ、場合によっては並列化可能であることが判明し、ニューラルアーキテクチャ設計の新たな方向性を示唆している。
大規模視覚言語モデル(LVLM)は通常、事前学習と教師あり微調整という2段階の訓練パラダイムに従います。最近、言語領域から派生した選好最適化が、LVLMの能力を向上させる効果的な訓練後強化戦略として登場しました。しかし、高品質な人間による注釈付き選好データの構築と、これらの選好を模倣する堅牢な報酬モデルの開発は、いずれもコストがかかり困難です。この観察に動機づけられ、私たちはVision-R1を提案します。これは、決定的な視覚フィードバックでモデルを報酬する、LVLM向けの新しい視覚誘導型R1風強化学習アルゴリズムです。これはキュレーションされた指示データのみを活用し、専門的な報酬モデルや手作り選好データセットの必要性を排除します。私たちは、視覚タスクのロジックに基づいてモデルの完成度を包括的に評価するために、多次元フィードバックをさらに統合する基準駆動型報酬関数を組み込みます。さらに、訓練中に報酬基準を動的に調整する漸進的ルール改良戦略を導入し、継続的なモデル改善を可能にし、報酬ハッキングを軽減します。分布内および分布外ベンチマークでの広範な実験により、7B LVLMをVision-R1で微調整することで、一貫した性能向上が達成され、最大50%の改善と、最先端の10倍サイズモデルを凌駕することが実証されました。
現在の生成モデル、例えば自己回帰モデルや拡散モデルは、高次元データ分布の学習を一連のより単純なサブタスクに分解します。しかし、これらのサブタスクを同時に最適化する際に本質的な衝突が生じ、既存の解決策では効率性やスケーラビリティを犠牲にすることなくそのような衝突を解決できません。本研究では、自然な視覚信号の並進不変性を活用することで、サブタスク間の最適化目標を本質的に整合させる新しい等変画像モデリングフレームワークを提案します。我々の手法は、(1)水平軸に沿った並進対称性を強化する列単位のトークン化、および(2)位置間の一貫した文脈的関係を強制するウィンドウ化された因果的注意機構を導入します。256x256解像度のクラス条件付きImageNet生成において評価した結果、我々のアプローチは最先端の自己回帰モデルに匹敵する性能を達成しつつ、より少ない計算リソースを使用します。体系的な分析により、強化された等変性がタスク間の衝突を軽減し、ゼロショット汎化を大幅に改善し、超長尺画像合成を可能にすることが示されました。本研究は、生成モデリングにおけるタスク整合分解の最初のフレームワークを確立し、効率的なパラメータ共有と衝突のない最適化に関する洞察を提供します。コードとモデルはhttps://github.com/drx-code/EquivariantModelingで公開されています。
大規模言語モデル(LLM)は、数学的問題を解決する際に顕著な推論能力を示してきた。しかし、既存のアプローチは主に、正しいトレーニングデータの品質向上に焦点を当てており、例えば、高度なモデルから高品質な正解を蒸留するなど、誤りデータに含まれる価値を軽視している。これにより、モデルの反省能力が妨げられる可能性がある。一部の研究では誤りデータを活用しようと試みているが、モンテカルロ木探索(MCTS)を用いて誤りノードを探索するなど、複雑なメカニズムを伴うことが多い。本研究では、誤りから学ぶことで数学的進歩を促す「LEMMA(Learning from Errors for Mathematical Advancement)」を提案し、LLMの推論能力を向上させる。LEMMAは、誤ったステップを含む不正解と、正解への反省的接続からなるデータを構築し、ファインチューニングに利用する。具体的には、モデルが生成する誤りのタイプを体系的に分析し、誤りタイプに基づいたミス拡張法を導入して、多様で代表的な誤りを収集する。正解は、誤りを修正するか、新たに生成することで得られる。モデルを意識した滑らかな反省的接続を通じて、誤った解法が正しい解法へと転換される。構築されたデータセットでファインチューニングを行うことで、モデルは外部の批評モデルに依存することなく、生成プロセス内で自律的に誤りを自己修正できるようになる。実験結果は、LEMMAが他の強力なベースラインを大幅に上回る性能向上を達成することを示している。
言語モデル(LM)の事前学習における計算スケーリングは、人間が書いたテキストの成長を上回っており、データがLMスケーリングのボトルネックになる懸念が生じています。このデータ制約下で事前学習を継続的にスケールするために、テキスト生成プロセスの基盤となる潜在的な思考を明示的にモデル化し推論することが、事前学習のデータ効率を大幅に改善できると提案します。直感的に、私たちのアプローチはウェブテキストを冗長な人間の思考プロセスの圧縮された最終結果と見なし、潜在的な思考にはデータ効率的な学習に不可欠な重要な文脈知識と推論ステップが含まれていると考えます。数学におけるデータ制約下での継続的事前学習を通じて、このアプローチの有効性を実証します。まず、潜在的な思考を推論するための合成データアプローチがデータ効率を大幅に改善し、同じ量の生データでの学習を上回ることを示します(MATHで5.7\% → 25.4\%)。さらに、強力な教師なしで潜在的な思考を推論する方法を実証し、LMがEMアルゴリズムを使用して訓練されたLMの能力と思考強化された事前学習データの品質を反復的に改善することで、自身のパフォーマンスをブートストラップします。1BのLMが少なくとも3回の反復でパフォーマンスをブートストラップし、生データで訓練されたベースラインを大幅に上回り、Eステップを実行する際に追加の推論計算から得られる利益が増加することを示します。推論スケーリングとEM反復からの利益は、データ制約下での事前学習をスケールする新たな機会を示唆しています。
自然言語からSQLへの変換(NL2SQL)は、大規模言語モデル(LLMs)の進展により大きな進歩を遂げてきました。しかし、これらのモデルはしばしばクローズドソースのシステムと高い計算リソースに依存しており、データプライバシーとデプロイメントにおいて課題を抱えています。一方、小規模言語モデル(SLMs)はNL2SQLタスクに苦戦し、性能が低く、既存のフレームワークとの互換性に欠けるという問題があります。これらの課題に対処するため、我々はSLMsに特化した新しい軽量フレームワークであるFeather-SQLを提案します。Feather-SQLは、1) スキーマのプルーニングとリンキング、2) マルチパスおよびマルチ候補生成を通じて、SQLの実行可能性と精度を向上させます。さらに、強力な汎用チャットモデルと微調整されたSQL専門家を組み合わせた「1+1モデル協調パラダイム」を導入し、強力な分析的推論と高精度なSQL生成を融合させます。BIRDでの実験結果は、Feather-SQLがSLMsにおけるNL2SQLの性能を向上させ、微調整なしのモデルで約10%の向上をもたらすことを示しています。提案されたパラダイムは、SLMsの精度の上限を54.76%まで引き上げ、その有効性を強調しています。
3Dガウシアンスプラッティング(3DGS)は、リアルタイムで高性能なレンダリングを可能にする強力な表現として登場し、幅広い応用が可能となっています。しかし、多数の明示的なガウシアンプリミティブで3Dシーンを表現することは、大きなストレージとメモリのオーバーヘッドを伴います。最近の研究では、高精度の属性で表現することで、大幅に削減された数のガウシアンでも高品質なレンダリングが達成できることが示されています。それにもかかわらず、既存の3DGS圧縮手法は依然として比較的多数のガウシアンに依存しており、主に属性の圧縮に焦点を当てています。これは、少数のガウシアンでは、非可逆属性圧縮に対して非常に敏感になり、品質の大幅な低下を引き起こすためです。ガウシアンの数は計算コストに直接関連するため、ストレージの最適化だけでなく、ガウシアンの数を効果的に削減することが重要です。本論文では、最小限のプリミティブを使用しながらストレージを大幅に削減する最適化最小ガウシアン表現(OMG)を提案します。まず、近接するガウシアンから異なるガウシアンを特定し、品質を犠牲にすることなく冗長性を最小化します。次に、プリミティブ間の連続性と不規則性を効率的に捉えるコンパクトで精密な属性表現を提案します。さらに、不規則性の表現を改善するためのサブベクトル量子化技術を提案し、コードブックサイズを無視できる程度に抑えながら高速な学習を維持します。大規模な実験により、OMGは従来の最先端技術と比較してストレージ要件を約50%削減し、600 FPS以上のレンダリングを可能にしながら高品質なレンダリングを維持することが実証されています。ソースコードはhttps://maincold2.github.io/omg/で公開されています。
拡散モデルは視覚コンテンツ生成において顕著な能力を発揮していますが、推論時の高い計算コストにより、実際の展開には依然として課題が残っています。この計算負荷は主に、画像や映像の解像度に対する自己注意機構の二次的な複雑さに起因しています。既存の高速化手法は出力品質を犠牲にしたり、高コストな再学習を必要とすることが多いですが、我々はほとんどの拡散モデルが低解像度で事前学習されていることに着目しました。これにより、性能を低下させることなく、これらの低解像度の事前知識を活用して効率的な推論を行う機会が得られます。本研究では、低解像度の事前知識を活用して計算オーバーヘッドを削減しつつ、出力の忠実度を維持する、学習不要のフレームワークであるBottleneck Samplingを提案します。Bottleneck Samplingは、高-低-高のノイズ除去ワークフローを採用しています:初期段階と最終段階では高解像度でノイズ除去を行い、中間ステップでは低解像度で動作します。エイリアシングやぼやけのアーティファクトを軽減するために、解像度遷移点をさらに最適化し、各段階でのノイズ除去タイムステップを適応的にシフトさせます。Bottleneck Samplingを画像生成と映像生成の両タスクで評価し、広範な実験を通じて、画像生成では最大3倍、映像生成では最大2.5倍の推論速度向上を実現しつつ、複数の評価指標において標準的な全解像度サンプリングプロセスと同等の出力品質を維持できることを示しました。コードは以下で公開されています:https://github.com/tyfeld/Bottleneck-Sampling
大規模ビデオ言語モデル(LVLM)の最近の進歩は、マルチモーダル理解におけるその可能性を浮き彫りにしているが、ビデオコンテキストにおける事実の基盤を評価することは依然として重要な未解決の課題である。このギャップを埋めるため、我々はLVLMの事実性評価に特化した最初の包括的なベンチマークであるVideo SimpleQAを導入する。我々の研究は、以下の主要な特徴を通じて既存のビデオベンチマークと区別される:1)必要な知識:明示的なナレーションを超えた外部知識の統合を要求する;2)事実探求型の質問:客観的で議論の余地のない事象や関係を対象とし、主観的な解釈を避ける;3)明確かつ短い形式の回答:回答は曖昧さがなく、短い形式で明確に正しいものとして作成され、LLM-as-a-judgeフレームワークを通じた自動評価を可能にし、スコアのばらつきを最小限に抑える;4)外部ソースによる検証:すべてのアノテーションは信頼性を確保するため、権威ある外部参照に対して厳密に検証される;5)時間的推論が必要:アノテーションされた質問タイプは、静的な単一フレーム理解と動的な時間的推論の両方を含み、長文脈依存性下でのLVLMの事実性を明示的に評価する。我々は41の最先端LVLMを広範に評価し、以下の主要な知見をまとめた:1)現在のLVLMは、特にオープンソースモデルにおいて、事実の遵守に顕著な欠陥を示す。最高性能のモデルGemini-1.5-Proでさえ、Fスコアはわずか54.4%である;2)テスト時の計算パラダイムは性能向上にほとんど寄与せず、事後計算を通じた事実性向上の根本的な制約を明らかにする;3)Retrieval-Augmented Generationは、追加の推論時間オーバーヘッドを伴うが、一貫した改善を示し、効率と性能の重要なトレードオフを提示する。
本論文は、3次元デカルト空間ナビゲーションにおける大規模言語モデル(LLM)の空間推論能力を向上させるための新規手法「AlphaSpace」を提案する。AlphaSpaceは、意味論に基づくトークン化戦略を採用し、高さ情報を専門的な意味トークンを通じて符号化し、主に記号的な合成推論データを統合する。このアプローチにより、LLMは特定の[x, y, z]座標にオブジェクトを正確に配置することが可能となる。実験結果では、AlphaSpaceが操作サブタスクにおいて既存モデルを大幅に上回り、総合精度66.67%を達成した。これは、GPT-4oの37.5%、Claude 3.5 Sonnetの29.17%と比較して優れた性能を示している。
テキストからビデオ(T2V)生成は、拡散モデルの進展により大きな進歩を遂げてきました。しかし、既存の手法では、属性の正確な紐付け、空間関係の決定、複数の主体間の複雑な動作相互作用の捕捉に依然として苦戦しています。これらの課題を解決するため、我々はMagicCompを提案します。これは、デュアルフェーズの精緻化を通じて、構成要素を強化したT2V生成を実現するトレーニング不要の手法です。具体的には、(1) 条件付け段階において、セマンティックアンカーの方向ベクトルを元のテキスト埋め込みに段階的に注入することで、主体固有の意味を強化し、主体間の曖昧さを解消する「セマンティックアンカー曖昧性解消」を導入します。(2) ノイズ除去段階において、グラウンディング事前情報とモデル適応型空間知覚を統合し、マスクされたアテンションモジュレーションを通じて主体をその時空間領域に柔軟に紐付ける「ダイナミックレイアウト融合アテンション」を提案します。さらに、MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合可能です。T2V-CompBenchとVBenchでの広範な実験により、MagicCompが最先端の手法を凌駕することが示され、複雑なプロンプトベースや軌道制御可能なビデオ生成などの応用における潜在能力が強調されました。プロジェクトページ: https://hong-yu-zhang.github.io/MagicComp-Page/。
本論文では、テキストから画像を生成する拡散モデルを用いた直接的な超高解像度画像合成のための新たなフレームワーク、Diffusion-4Kを提案する。主な進展は以下の通りである:(1) Aesthetic-4Kベンチマーク:公開されている4K画像合成データセットの欠如に対処するため、GPT-4oによって生成された厳選された画像とキャプションから構成された高品質な4KデータセットであるAesthetic-4Kを構築した。さらに、細部の評価のためにGLCMスコアと圧縮率の指標を導入し、FID、Aesthetics、CLIPScoreなどの包括的な評価指標と組み合わせて、超高解像度画像の総合的な評価を行った。(2) ウェーブレットベースのファインチューニング:フォトリアルな4K画像を用いた直接的な学習のためのウェーブレットベースのファインチューニング手法を提案し、様々な潜在拡散モデルに適用可能であることを示し、高度に詳細な4K画像の合成における有効性を実証した。その結果、Diffusion-4Kは、特に現代の大規模拡散モデル(例:SD3-2BやFlux-12B)を活用した場合、高品質な画像合成とテキストプロンプトへの忠実性において印象的な性能を達成した。我々のベンチマークによる広範な実験結果は、Diffusion-4Kが超高解像度画像合成において優れていることを示している。
大規模言語モデル(LLMs)は、特にコーディング、数学的推論、論理的問題解決といった様々な分野で大きな進歩を遂げてきた。しかし、重要な疑問が残されている:これらの数学的推論能力は、LLMsが文化的に適応された数学問題に直面した際にも持続するのだろうか?具体的には、主流のウェブスケールAIトレーニングデータに重要な表現がない文化的文脈に埋め込まれた数学問題にLLMsがどのように対応するのか?これを探るため、我々はLLMsの数学的推論能力を評価するために広く使用されているベンチマークであるGSM8Kから、6つの合成的な文化的データセットを生成した。元のGSM8Kテストセットの数学的論理と数値を保持しつつ、個人名、食品名、地名などの文化的要素を変更した。これらの文化的に適応されたデータセットは、変化する文化的文脈下でのLLMsの数学的推論を評価するためのより信頼性の高い枠組みを提供する。我々の調査結果は、文化的参照が変化した場合、数学的構造が変わらないにもかかわらず、LLMsが数学問題に苦戦することを明らかにしている。小規模なモデルは、大規模なモデルと比較してより大きな性能低下を示す。興味深いことに、我々の結果は、文化的な親しみが数学的推論を向上させる可能性があることも示唆している。明示的な数学的トレーニングを受けていないが、関連する文化的文脈にさらされたモデルが、文化的に埋め込まれた数学問題において、より大規模で数学的に熟練したモデルを凌ぐ場合もある。この研究は、LLMsの数学的推論能力に対する文化的文脈の影響を強調し、現実世界のアプリケーションにおける堅牢性を向上させるためにより多様で代表的なトレーニングデータの必要性を強調している。ベンチマークデータセットと結果を再現するためのスクリプトは、https://github.com/akarim23131/Lost_in_Cultural_Translation で利用可能である。
近年の大規模言語モデル(LLM)の急速な発展は、GPUベースのシステムに依存してきました。しかし、特に推論や推論ワークロードを対象とする場合、CPUは柔軟性と低コストを兼ね備えた代替手段として注目を集めています。この分野では、オープンでベンダー中立なISAを特徴とするRISC-Vが急速に支持を拡大しています。ただし、LLMワークロード向けのRISC-Vハードウェアとそれに対応するソフトウェアエコシステムは、ドメイン固有のチューニングが必要なため、まだ完全に成熟し最適化されていません。本論文はこのギャップを埋めることを目的としており、ベクトル処理能力を備えた初の商用マルチコアRISC-V CPUであるSophon SG2042上でのLLM推論の最適化に焦点を当てています。 推論向けに最適化された最新の2つのLLM、DeepSeek R1 Distill Llama 8BとDeepSeek R1 Distill QWEN 14Bにおいて、トークン生成では4.32/2.29トークン/秒、プロンプト処理では6.54/3.68トークン/秒を達成し、ベースラインと比較して最大2.9倍/3.0倍の高速化を実現しました。
非ファクトイド質問応答(NFQA)は、そのオープンエンドな性質、多様な意図、および多面的な推論の必要性により、従来のファクトイドQAアプローチ(検索拡張生成(RAG)を含む)では不十分であるという重要な課題を提起します。ファクトイド質問とは異なり、非ファクトイド質問(NFQ)には明確な答えがなく、さまざまな推論次元にわたる複数の情報源から情報を統合する必要があります。これらの制約に対処するため、我々はTyped-RAGを提案します。これは、NFQAのためのRAGパラダイム内でタイプを意識した多面的分解フレームワークです。Typed-RAGは、NFQを議論、経験、比較などの異なるタイプに分類し、アスペクトベースの分解を適用して検索と生成戦略を洗練させます。多面的なNFQを単一アスペクトのサブクエリに分解し、結果を集約することで、Typed-RAGはより情報量が多く文脈に関連した応答を生成します。Typed-RAGを評価するために、我々は多様なNFQタイプをカバーするベンチマークデータセットであるWiki-NFQAを導入します。実験結果は、Typed-RAGがベースラインを上回ることを示し、NFQAにおける効果的な検索と生成のためのタイプを意識した分解の重要性を強調します。我々のコードとデータセットはhttps://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}で利用可能です。
テキストからビデオ(T2V)生成は、テキスト記述から現実的なビデオを合成する能力により、大きな注目を集めています。しかし、既存のモデルは、特にリソースが限られたデバイス(例:iGPUやスマートフォン)において、計算効率と高品質な視覚的クオリティのバランスを取ることに苦戦しています。ほとんどの先行研究は視覚的な忠実度を優先しつつも、実世界での展開に適した小型で効率的なモデルの必要性を見落としています。この課題に対処するため、我々は軽量なT2Vフレームワーク「Hummingbird」を提案します。このフレームワークは既存のモデルを剪定し、視覚的フィードバック学習を通じて視覚的クオリティを向上させます。我々のアプローチにより、U-Netのパラメータ数を14億から7億に削減し、効率を大幅に向上させながらも高品質なビデオ生成を維持します。さらに、大規模言語モデル(LLM)とビデオ品質評価(VQA)モデルを活用した新しいデータ処理パイプラインを導入し、テキストプロンプトとビデオデータの品質を向上させます。ユーザー主導のトレーニングとスタイルのカスタマイズをサポートするため、データ処理とモデルトレーニングを含む完全なトレーニングコードを公開します。広範な実験により、我々の手法はVideoCrafter2などの最先端モデルと比較して31倍の高速化を達成し、VBenchで最高の総合スコアを獲得することが示されました。さらに、我々の手法は最大26フレームのビデオ生成をサポートし、既存のU-Netベースの手法が長いビデオ生成において抱える制限に対処します。特に、トレーニングプロセス全体で4つのGPUのみを必要としながらも、既存の主要な手法と競争力のある性能を提供します。Hummingbirdは、高性能、拡張性、柔軟性を兼ね備えた実用的で効率的なT2V生成ソリューションを提示し、実世界のアプリケーションに適しています。
大規模言語モデル(LLM)の事前学習の結果は、重み初期化と分散制御戦略に大きく依存します。一般的なニューラルネットワークにおいて初期分散制御の重要性は十分に文書化されていますが、特にLLMの事前学習における初期化とその成長管理に関する文献はやや乏しい状況です。本論文では、レイヤーインデックス再スケーリング(LIR)重み初期化スキームと、ターゲット分散再スケーリング(TVR)分散制御戦略を紹介します。1BパラメータのLLaMAモデルを用いた実験により、これらの技術を用いたより良い分散管理が下流タスクのパフォーマンスを大幅に向上させ(一般的な事前学習ベンチマークで最大4.6%の改善)、極端な活性化値を減少させることで、量子化や低精度学習に関連する課題を軽減することが実証されました。私たちのコードは以下で公開されています:https://github.com/bluorion-com/weight_rescaling。
我々はMetaSpatialを提案する。これは、ビジョン言語モデル(VLM)における3D空間推論を強化するための初の強化学習(RL)ベースのフレームワークであり、ハードコードされた最適化を必要とせずにリアルタイムの3Dシーン生成を可能にする。MetaSpatialは、以下の2つの核心的な課題に対処する:(i)VLMにおける内部化された3D空間推論の欠如、これにより現実的なレイアウト生成能力が制限されること、(ii)レイアウト生成タスクにおける従来の教師あり微調整(SFT)の非効率性、完全な正解アノテーションが利用できないためである。我々の主要な革新は、物理を意識した制約とレンダリングされた画像評価を統合した多段階RLベースの最適化メカニズムであり、生成された3Dレイアウトが一貫性があり、物理的に妥当で、美的に整合性を持つことを保証する。方法論的に、MetaSpatialは適応的で反復的な推論プロセスを導入し、VLMがレンダリングされた出力を分析することで、シーンの一貫性を段階的に向上させる。実証評価により、MetaSpatialが様々なスケールモデルの空間的一貫性とフォーマットの安定性を大幅に向上させることが示された。トレーニング後、オブジェクトの配置はより現実的で整列され、機能的に一貫しており、メタバース、AR/VR、デジタルツイン、ゲーム開発アプリケーションにおける3D空間推論のためのRLの有効性が検証された。我々のコード、データ、トレーニングパイプラインはhttps://github.com/PzySeere/MetaSpatialで公開されている。
自然言語による指示は自動画像編集を直感的にガイドする方法を提供しますが、深層学習モデルは高品質な結果を達成するのに苦戦することが多く、その主な原因は大規模で高品質なトレーニングデータセットの作成における課題にあります。従来の研究では、テキストから画像(T2I)を生成するモデルに依存して、指示に基づく画像編集モデルの入力/出力をシミュレートする元画像と編集画像のペアを生成することが一般的でした。しかし、これらの画像ペアはT2Iモデルの制限により、指定された編集指示にうまく整合しないことが多く、そのようなデータセットでトレーニングされたモデルに悪影響を及ぼします。この問題に対処するため、我々はInstruct-CLIPを提案します。これは自己教師ありの手法で、元画像と編集画像の間の意味的変化を学習し、既存のデータセット内の指示を洗練し、より整合させるものです。さらに、Instruct-CLIPをノイジーな潜在画像と拡散タイムステップに対応させることで、潜在拡散モデル(LDMs)[19]のトレーニングに使用し、拡散パイプラインの任意のステップで編集指示と画像変化の潜在空間における整合性を効率的に強化できるようにしました。我々はInstruct-CLIPを使用してInstructPix2Pixデータセットを修正し、12万以上の洗練されたサンプルを取得し、それを我々の新しいInstruct-CLIPベースの損失関数に基づいてモデルのファインチューニングに使用しました。その結果、与えられた指示により整合した編集を生成できるモデルが得られました。我々のコードとデータセットはhttps://github.com/SherryXTChen/Instruct-CLIP.gitで公開されています。
言語モデルは近年、推論の領域に進化を遂げてきたが、より包括的で人間らしい認知能力を実現する可能性を最大限に引き出すためには、マルチモーダル推論が鍵となる。本調査は、最近のマルチモーダル推論アプローチを体系的に概観し、それらを2つのレベルに分類している:言語中心のマルチモーダル推論と協調的マルチモーダル推論である。前者は、ワンパスの視覚知覚と能動的視覚知覚を含み、視覚が主に言語推論を支援する役割を担う。後者は、推論プロセス内でのアクション生成と状態更新を伴い、モダリティ間のより動的な相互作用を可能にする。さらに、これらの手法の技術的進化を分析し、内在する課題を議論し、マルチモーダル推論性能を評価するための主要なベンチマークタスクと評価指標を紹介する。最後に、今後の研究方向性について以下の2つの視点から洞察を提供する:(i)視覚-言語推論からオムニモーダル推論へ、(ii)マルチモーダル推論からマルチモーダルエージェントへ。本調査は、マルチモーダル推論研究のさらなる進展を促す構造化された概観を提供することを目的としている。
離散的なビジュアルトークナイザーは、画像を一連のトークンに変換し、言語モデルと同様のトークンベースの視覚生成を可能にします。しかし、このプロセスは本質的に困難であり、視覚信号をコンパクトな表現に圧縮し、固定されたコードセットに離散化する必要があります。従来の離散トークナイザーは通常、これら2つのタスクを同時に学習するため、不安定なトレーニング、低いコードブック利用率、限定的な再構成品質が生じることが多いです。本論文では、圧縮と離散化を分離するフレームワークであるCODA(COntinuous-to-Discrete Adaptation)を紹介します。CODAは、ゼロから離散トークナイザーをトレーニングする代わりに、既に知覚的圧縮に最適化された既存の連続VAEを、慎重に設計された離散化プロセスを介して離散トークナイザーに適応させます。離散化に主眼を置くことで、CODAは安定した効率的なトレーニングを確保しつつ、連続VAEの強力な視覚的忠実性を維持します。実験的に、標準的なVQGANの6分の1のトレーニング予算で、ImageNet 256×256ベンチマークにおいて、8倍および16倍の圧縮に対して、100%の顕著なコードブック利用率と、0.43および1.34の再構成FID(rFID)を達成しました。
近年、ビデオ生成技術において大きな進展が見られ、研究者の幅広い注目を集めています。この技術をリソースが制約された条件下での下流アプリケーションに適用するため、研究者たちは通常、AdapterやLoraなどのパラメータ効率の良いチューニング手法に基づいて事前学習済みモデルをファインチューニングします。これらの手法はソースドメインからターゲットドメインへの知識転移を可能にしますが、訓練パラメータが少ないためフィッティング能力が低く、ソースドメインからの知識が推論プロセスをターゲットドメインから逸脱させる可能性があります。本論文では、制約されたリソース下において、数百万レベルのサンプルのみを使用してゼロからより小さなビデオ生成モデルを訓練することが、より大きなモデルに対するパラメータ効率の良いチューニングを下流アプリケーションで上回ることを主張します:その核心はデータとカリキュラム戦略の効果的な活用にあります。アニメーションステッカー生成(ASG)をケーススタディとして、まず低フレームレートのステッカー用の離散フレーム生成ネットワークを構築し、そのパラメータが制約されたリソース下でのモデル訓練の要件を満たすことを保証します。ゼロから訓練されたモデルのためのデータサポートを提供するために、デュアルマスクに基づくデータ活用戦略を考案し、限られたデータの可用性を向上させ、多様性を拡大します。デュアルマスク状況下での収束を促進するために、難易度適応型カリキュラム学習手法を提案し、サンプルのエントロピーを静的および適応的コンポーネントに分解することで、容易なものから難しいものへとサンプルを取得します。実験により、リソース効率の良いデュアルマスク訓練フレームワークがI2V-AdapterやSimDAなどの効率的なパラメータチューニング手法を量的・質的に上回り、制約されたリソース下での下流タスクにおける本手法の実現可能性を検証しました。コードは公開予定です。
大規模言語モデルの登場とそれらをAIエージェントとして応用することは、最先端のコード生成ベンチマークを大幅に進化させ、現代のソフトウェアエンジニアリングタスクを変革してきました。しかし、テスト時に計算された推論モデルを備えていても、これらのシステムは依然として複雑なソフトウェアエンジニアリングの課題に苦戦しています。本研究では、言語プロセス監視(VPS)を強化したコード理解および推論エージェントシステムであるCURAを紹介し、BigCodeBenchのような難易度の高いベンチマークにおいてベースラインモデルを3.65%上回る改善を達成しました。さらに、CURAはo3-miniモデルとVPS技術を組み合わせることで、最先端の性能を実現しています。この研究は、推論駆動型アーキテクチャとLLMベースのコード生成を統合し、言語モデルが複雑なソフトウェアエンジニアリングタスクを解決するためのエージェント的推論を可能にする一歩を表しています。
我々は、一般的なテキストからモーション生成の性能を維持しつつ、有害なアニメーションの合成を防ぐための「人間のモーションのアンラーニング」タスクを提案する。有害なモーションのアンラーニングは、明示的なテキストプロンプトから生成される場合や、安全なモーションの組み合わせから暗黙的に生成される場合(例えば、「蹴る」は「脚を振り上げて振り下ろす」)があるため、課題が多い。我々は、大規模で最新のテキストからモーションデータセットであるHumanML3DとMotion-Xから有害なモーションをフィルタリングすることで、初めてのモーションアンラーニングベンチマークを提案する。また、最先端の画像アンラーニング技術を時空間信号処理に適応させたベースラインを提案する。さらに、Latent Code Replacement(LCR)と呼ばれる新しいモーションアンラーニングモデルを提案する。LCRはトレーニング不要であり、最先端のテキストからモーションディフュージョンモデルの離散潜在空間に適している。LCRはシンプルであり、定性的および定量的にベースラインを一貫して上回る。プロジェクトページ: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}。
複数の光源が存在するシーンにおけるホワイトバランス(WB)補正は、コンピュータビジョンにおける未解決の課題として残っています。最近の研究では、ニューラルネットワークが事前定義されたWBプリセットで処理された複数のsRGBバージョンの入力画像を線形にブレンドする融合ベースのアプローチが探求されてきました。しかし、これらの手法は一般的な複数光源シナリオにおいて最適ではないことを実証します。さらに、既存の融合ベース手法は、専用の複数光源画像を欠くsRGB WBデータセットに依存しており、学習と評価の両方を制限しています。これらの課題に対処するため、我々は2つの重要な貢献を紹介します。まず、sRGB WBプリセット間の空間的依存関係を効果的に捉える効率的なTransformerベースのモデルを提案し、線形融合技術を大幅に改善します。次に、5つの異なるWB設定でレンダリングされた16,000枚以上のsRGB画像とWB補正画像を含む大規模な複数光源データセットを導入します。我々の手法は、新しい複数光源画像融合データセットにおいて、既存技術に対して最大100%の改善を達成します。
近年の画像超解像(SR)技術は、その出力の知覚品質を継続的に向上させていますが、定量的評価ではしばしば失敗することがあります。この不一致により、既存の画像評価指標に対する不信感が高まっています。画像評価は指標と参照用のグラウンドトゥルース(GT)の両方に依存しますが、研究者は通常、GTの役割を検証しません。なぜなら、GTは一般的に「完璧な」参照として受け入れられているからです。しかし、データが初期の年に収集されたことや、他の種類の歪みを制御することを怠ったことにより、既存のSRデータセットのGTは比較的低品質である可能性があり、これが偏った評価を引き起こすことを指摘します。この観察に基づいて、本論文では以下の疑問に興味を持ちます:既存のSRデータセットのGT画像はモデル評価において100%信頼できるのか?GTの品質はこの評価にどのように影響するのか?そして、不完全なGTが存在する場合、どのように公平な評価を行うべきか?これらの疑問に答えるため、本論文では2つの主要な貢献を提示します。まず、3つの実世界のSRデータセットにわたる7つの最先端SRモデルを系統的に分析することにより、低品質のGTがモデル間で一貫してSR性能に影響を与えること、およびGT品質が制御された場合にモデルが大きく異なる性能を示すことを示します。次に、画像ペアの相対的な品質の不一致を測定する新しい知覚品質指標、Relative Quality Index(RQI)を提案し、信頼できないGTによる偏った評価を解消します。提案したモデルは、人間の意見との一貫性が大幅に向上しています。我々の研究が、将来のデータセット、モデル、および指標がどのように開発されるべきかについて、SRコミュニティに洞察を提供することを期待しています。
GPT-4のような大規模視覚言語モデル(VLM)は、さまざまな分野で顕著な成功を収めています。しかし、VLMを用いた3D室内シーン生成に関する研究はほとんどありません。本論文では、このタスクを空間的およびレイアウトの常識的制約に従う計画問題として捉えます。この問題をVLMで解決するために、新しいグローバル-ローカルツリー探索アルゴリズムを提案します。グローバルでは、各オブジェクトを順番に配置し、各配置プロセス中に複数の配置を探索します。ここで、問題空間はツリーとして表現されます。ツリーの深さを減らすために、シーン構造を階層的に分解します。つまり、部屋レベル、領域レベル、床オブジェクトレベル、および支持オブジェクトレベルです。このアルゴリズムは、異なる領域の床オブジェクトと、異なる床オブジェクト上に配置される支持オブジェクトを独立して生成します。ローカルでは、各オブジェクトの配置というサブタスクを複数のステップに分解します。アルゴリズムは問題空間のツリーを探索します。VLMモデルを活用してオブジェクトの位置を生成するために、トップダウンビューの空間を密なグリッドとして離散化し、各セルを多様な絵文字で埋めてセルを区別します。絵文字グリッドをVLMにプロンプトとして与えると、VLMは絵文字の名前で位置を記述することで、オブジェクトの合理的な位置を生成します。定量的および定性的な実験結果は、我々のアプローチが最先端のアプローチよりもより妥当な3Dシーンを生成することを示しています。ソースコードはhttps://github.com/dw-dengwei/TreeSearchGenで公開されています。
単眼深度推定(Monocular Depth Estimation: MDE)は、コンピュータビジョンにおける重要なタスクとして登場し、数多くの実世界のアプリケーションを支えています。しかし、リソースが限られたエッジデバイス、特に特定用途向け集積回路(ASIC)上で正確な深度推定モデルを展開することは、高い計算量とメモリ要求のため困難です。最近の基盤的な深度推定の進歩は印象的な結果をもたらしていますが、ASICへの展開の難易度をさらに高めています。この問題に対処するため、我々はQuartDepthを提案します。これは、ASIC向けのハードウェアアクセラレーションを活用してMDEモデルを量子化するために、学習後量子化(post-training quantization)を採用しています。我々のアプローチでは、重みと活性化の両方を4ビット精度に量子化し、モデルサイズと計算コストを削減します。性能低下を軽減するために、活性化量子化の前後に適用する活性化研磨と補償アルゴリズム、および重み量子化の誤差を最小化するための重み再構築法を導入しています。さらに、カーネル融合とカスタマイズされた命令プログラマビリティをサポートすることで、柔軟でプログラム可能なハードウェアアクセラレータを設計し、スループットと効率を向上させています。実験結果は、我々のフレームワークが競争力のある精度を達成しつつ、ASIC上での高速推論と高いエネルギー効率を実現し、高性能な深度推定と実用的なエッジデバイス適用性のギャップを埋めることを示しています。コード: https://github.com/shawnricecake/quart-depth
リモートセンシング技術の進化により、衛星画像の空間分解能が向上し、多様な解釈のための詳細な視覚表現が容易になりました。しかし、既存の手法は様々なアプリケーションにわたる汎化能力に限界があります。一部の現代的な基盤モデルは潜在能力を示していますが、クロスタスク適応性の不足や、主に制限されたサイズの低解像度画像を処理することに制約されており、高解像度データを十分に活用したり、大規模シーンの意味論を活用したりすることができません。重要なことに、リモートセンシング画像は自然画像とは根本的に異なり、主要な前景ターゲット(例:海上物体、人工構造物)はしばしば最小限の空間割合(約1%)を占め、疎な分布を示します。長大な2Dトークン(約100,000)からクロスタスク汎化可能な知識を効率的にモデル化することは大きな課題でありながら、リモートセンシング画像理解にとって重要です。人間の視覚システムに内在する選択的注意メカニズムに動機づけられ、我々はDynamicVisを提案します。これはリモートセンシング画像のための動的視覚知覚基盤モデルです。このフレームワークは、選択的状態空間モデルに基づく新しい動的領域知覚バックボーンを統合し、局所的な詳細抽出とグローバルな文脈統合を戦略的にバランスさせ、大規模データの計算効率の良いエンコーディングを可能にしつつ、アーキテクチャのスケーラビリティを維持します。クロスタスク知識転移を強化するために、メタ埋め込み表現を利用したマルチインスタンス学習パラダイムを導入し、百万規模の領域レベルアノテーションで訓練します。9つの下流タスクにわたる評価は、モデルの汎用性を示しています。DynamicVisは、例外的な効率で多レベル特徴モデリングを達成し、(2048x2048)ピクセルを97ミリ秒の遅延(ViTの6%)と833MBのGPUメモリ(ViTの3%)で処理します。