翻訳付きの日次キュレーションされたAI研究論文
ベクトル量子化(VQ)を用いたマスク画像モデリング(MIM)は、自己教師あり事前学習と画像生成の両方で大きな成功を収めています。しかし、既存の手法の多くは、生成品質と表現学習および効率性の間のトレードオフを共有潜在空間で解決するのに苦労しています。このパラダイムの限界を押し広げるため、我々はMergeVQを提案します。MergeVQは、トークン統合技術をVQベースの生成モデルに組み込むことで、画像生成と視覚表現学習のギャップを統一アーキテクチャで橋渡しします。事前学習中、MergeVQはエンコーダの自己注意ブロック後にトークン統合モジュールを使用してトップkの意味情報を潜在空間から分離し、その後のルックアップフリー量子化(LFQ)とグローバルアラインメントを行います。また、デコーダのクロスアテンションを通じて細部を復元し、再構築を行います。第二段階の生成では、MergeARを導入し、効率的なラスター順予測のためにKVキャッシュ圧縮を実行します。ImageNetでの大規模な実験により、MergeVQがAR生成モデルとして、視覚表現学習と画像生成タスクの両方で競争力のある性能を発揮しつつ、良好なトークン効率と推論速度を維持することが検証されました。コードとモデルはhttps://apexgen-x.github.io/MergeVQで公開予定です。
近年の画像および動画合成技術の進歩により、生成型ゲームに新たな可能性が開かれています。特に興味深い応用例として、アニメ映画のキャラクターをインタラクティブでプレイ可能なエンティティに変換することが挙げられます。これにより、プレイヤーは言語指示を通じて、お気に入りのキャラクターとしてダイナミックなアニメの世界に没頭し、ライフシミュレーションを体験できます。このようなゲームは、事前に設定された境界や固定されたゲームプレイルールを排除し、プレイヤーがオープンエンドな言語を通じてゲーム世界とインタラクションし、常に進化するストーリーや環境を体験できるため、無限ゲームと定義されます。最近、無限アニメライフシミュレーションの先駆的なアプローチとして、大規模言語モデル(LLMs)を使用して、マルチターンのテキスト対話を画像生成のための言語指示に変換する方法が提案されました。しかし、この方法は過去の視覚的コンテキストを無視するため、ゲームプレイに一貫性がありません。さらに、静的な画像のみを生成し、魅力的なゲーム体験に必要なダイナミクスを取り入れていません。本研究では、Multimodal Large Language Models(MLLMs)を基盤としたAnimeGamerを提案します。AnimeGamerは、図1に示すように、キャラクターの動きやキャラクター状態の更新を描いたダイナミックなアニメーションショットを含む各ゲーム状態を生成します。我々は、アニメーションショットを表現するための新しいアクション認識マルチモーダル表現を導入し、ビデオ拡散モデルを使用して高品質なビデオクリップにデコードします。過去のアニメーションショット表現をコンテキストとして取り、その後の表現を予測することで、AnimeGamerはコンテキストの一貫性と満足のいくダイナミクスを備えたゲームを生成できます。自動化されたメトリクスと人間による評価を用いた広範な評価により、AnimeGamerがゲーム体験のさまざまな側面において既存の手法を凌駕することが実証されています。コードとチェックポイントはhttps://github.com/TencentARC/AnimeGamerで公開されています。
近年の画像ベースの人間アニメーション手法は、現実的な身体と顔の動きの合成を実現していますが、細粒度の全体的な制御性、マルチスケール適応性、長期的な時間的一貫性において重要な課題が残っており、表現力とロバスト性の低下を招いています。我々は、これらの制限を克服するために、ハイブリッドガイダンスを備えた拡散トランスフォーマー(DiT)ベースのフレームワーク、DreamActor-M1を提案します。モーションガイダンスにおいて、暗黙的な顔表現、3D頭部球体、3D身体骨格を統合したハイブリッド制御信号を用いることで、表情と身体の動きをロバストに制御しつつ、表現力豊かでアイデンティティを保持したアニメーションを生成します。スケール適応においては、ポートレートから全身ビューまでの様々な身体ポーズと画像スケールに対応するため、異なる解像度とスケールのデータを使用した段階的なトレーニング戦略を採用します。外観ガイダンスにおいては、連続フレームからのモーションパターンを補完的な視覚的参照と統合し、複雑な動き中の未見領域に対する長期的な時間的一貫性を確保します。実験結果は、我々の手法が最先端の研究を上回り、ポートレート、上半身、全身生成において表現力豊かな結果を提供し、長期的な一貫性をロバストに実現することを示しています。プロジェクトページ: https://grisoon.github.io/DreamActor-M1/。
マルチモーダル大規模言語モデル(MLLM)の推論能力の向上に注目が集まっている。物理世界で機能するAIエージェントの基盤として、ビデオベースの視覚空間知能(VSI)はMLLMの最も重要な推論能力の一つとして浮上している。本研究では、R1-Zeroに似たトレーニングを通じてMLLMの視覚空間推論を改善する初めての詳細な調査を行った。技術的には、まず、小規模から中規模のQwen2-VLモデルの視覚空間推論能力がChain of Thought(CoT)プロンプトでは活性化されないことを特定した。次に、DeepSeek-R1-Zeroに従い、慎重にキュレーションされたVSI-100kデータセットを使用して、視覚空間推論を改善するためのGRPOトレーニングを組み込んだ。調査中に、GRPOにおいてKLペナルティ(小さな値であっても)を維持する必要性を特定した。わずか120 GPU時間で、Qwen2-VL-2BからファインチューンされたvsGRPO-2Bモデルは、ベースモデルを12.1%上回り、GPT-4oを凌駕した。さらに、Qwen2-VL-7BからファインチューンされたvsGRPO-7Bモデルは、最高のオープンソースモデルLLaVA-NeXT-Video-72Bに匹敵する性能を達成した。加えて、vsGRPOを教師ありファインチューニングと直接選好最適化のベースラインと比較し、強い性能優位性を観察した。コードとデータセットは近日中に公開予定である。
DeepSeek-R1-Zeroは、大規模な強化学習(RL)が教師あり微調整なしに直接LLMの推論能力を向上させることができることを示しました。本研究では、R1-Zeroのようなトレーニングを批判的に検証し、その2つの主要な構成要素であるベースモデルとRLを分析します。DeepSeek-V3-Baseを含む幅広いベースモデルを調査し、事前学習の特性がRLの性能にどのように影響するかを理解します。分析の結果、DeepSeek-V3-Baseはすでに「Ahaモーメント」を示し、Qwen2.5ベースモデルはプロンプトテンプレートなしでも強い推論能力を示すことがわかり、事前学習におけるバイアスの可能性が示唆されました。さらに、Group Relative Policy Optimization(GRPO)における最適化バイアスを特定し、トレーニング中に(特に誤った出力に対して)応答の長さを人為的に増加させることがわかりました。これに対処するため、トークン効率を向上させながら推論性能を維持するDr. GRPOというバイアスのない最適化手法を導入します。これらの知見を活用し、7BベースモデルでAIME 2024において43.3%の精度を達成するミニマリストなR1-Zeroレシピを提示し、新たな最先端を確立しました。コードはhttps://github.com/sail-sg/understand-r1-zeroで公開されています。
学術論文の執筆には、首尾一貫したテキスト生成と関連文献の正確な引用が求められる。近年のRetrieval-Augmented Generation(RAG)システムは、汎用テキスト生成における事実の正確性を大幅に向上させたが、専門的な学術論文執筆を十分に支援する能力はまだ限られている。本研究では、既存の大規模言語モデルを強化し、正確で文脈に即した引用を含む専門的な学術論文を生成するための統合フレームワークであるScholarCopilotを提案する。ScholarCopilotは、検索トークン[RET]を生成することで学術文献の検索タイミングを動的に決定し、その表現を利用してデータベースから関連する引用文献を検索する。検索された文献はモデルに入力され、生成プロセスを強化する。生成タスクと引用タスクを単一フレームワーク内で共同最適化することで効率性を高める。arXivの50万件の論文で訓練された我々のモデルは、評価データセットにおいてトップ1の検索精度40.1%を達成し、E5-Mistral-7B-Instruct(15.0%)やBM25(9.8%)などのベースラインを上回った。1,000件の学術論文サンプルからなるデータセットでは、ScholarCopilotは生成品質(関連性、一貫性、学術的厳密性、完全性、革新性を測定)で16.2/25点を獲得し、Qwen-2.5-72B-Instruct(15.8/25)などパラメータ数が10倍のモデルを凌駕した。人間による評価でも、ScholarCopilotは引用の再現性、執筆効率、全体的なユーザーエクスペリエンスにおいて優れた性能を示し、我々のアプローチの有効性が確認された。
疎な視点から3Dシーンを復元することは、本質的に不良設定問題であるため困難な課題です。従来の手法では、この問題を緩和するために専門的な解決策(例えば、幾何学的正則化やフィードフォワード決定論的モデル)が開発されてきました。しかし、視覚情報が不十分な入力視点間の最小限の重なりによって、性能の低下が依然として生じています。幸いなことに、最近のビデオ生成モデルは、説得力のある3D構造を持つビデオクリップを生成できるため、この課題に取り組む可能性を示しています。大規模な事前学習済みビデオ拡散モデルを活用し、いくつかの先駆的な研究がビデオ生成の事前知識を探求し、疎な視点から3Dシーンを作成し始めています。印象的な改善が見られるものの、遅い推論時間と3D制約の欠如により、非効率性や現実世界の幾何学的構造に整合しない再構成アーティファクトが生じています。本論文では、ビデオ拡散モデルを蒸留して3Dシーンを一ステップで生成するVideoSceneを提案し、ビデオから3Dへのギャップを埋める効率的で効果的なツールを構築することを目指します。具体的には、時間のかかる冗長な情報を飛び越える3D対応のリープフロー蒸留戦略を設計し、推論中に最適なリープタイムステップを適応的に決定する動的ノイズ除去ポリシーネットワークを訓練します。広範な実験により、VideoSceneが従来のビデオ拡散モデルよりも高速かつ優れた3Dシーン生成結果を達成することが示され、将来のビデオから3Dへのアプリケーションにおける効率的なツールとしての可能性が強調されています。プロジェクトページ: https://hanyang-21.github.io/VideoScene
近年、ビデオ拡散モデル(VDM)は大きく進歩し、非常にリアルなビデオの生成を可能にし、世界シミュレーターとしての潜在能力にコミュニティの注目を集めています。しかし、その能力にもかかわらず、VDMは物理的な理解の欠如により、しばしば物理的に妥当なビデオを生成できず、誤ったダイナミクスやイベントシーケンスを生み出します。この制限を解決するため、我々は物理を明示的に組み込んだ新しい2段階の画像からビデオ生成フレームワークを提案します。第1段階では、ビジョン言語モデル(VLM)を粗いモーションプランナーとして使用し、連鎖思考と物理を意識した推論を統合して、現実世界の物理的ダイナミクスを近似しつつフレーム間の一貫性を保証する粗いモーション軌道/変化を予測します。第2段階では、予測されたモーション軌道/変化を使用してVDMのビデオ生成をガイドします。予測されたモーション軌道/変化は粗いため、推論中にノイズを加えて、VDMがより細かい詳細を持つモーションを生成する自由度を提供します。広範な実験結果は、我々のフレームワークが物理的に妥当なモーションを生成できることを示し、比較評価は我々のアプローチが既存の方法を大きく上回ることを強調しています。より多くのビデオ結果はプロジェクトページでご覧いただけます:https://madaoer.github.io/projects/physically_plausible_video_generation。
我々は、AIエージェントが最先端のAI研究を再現する能力を評価するベンチマーク「PaperBench」を紹介する。エージェントは、ICML 2024のSpotlightおよびOral論文20本をゼロから再現する必要があり、論文の貢献を理解し、コードベースを開発し、実験を成功させることを含む。客観的な評価のために、各再現タスクを明確な評価基準を持つ小さなサブタスクに階層的に分解するルーブリックを開発した。全体で、PaperBenchには8,316の個別に評価可能なタスクが含まれる。ルーブリックは、各ICML論文の著者と共同で開発され、正確性と現実性を確保している。スケーラブルな評価を可能にするため、LLMベースの評価者を開発し、再現試行をルーブリックに基づいて自動的に採点する。また、評価者の性能を評価するために、別のベンチマークを作成した。我々はいくつかの最先端モデルをPaperBenchで評価し、最高性能を示したエージェントであるClaude 3.5 Sonnet(新)とオープンソースのスキャフォールディングを使用した場合、平均再現スコアが21.0\%であることを確認した。最後に、トップのML PhD候補者を募集し、PaperBenchの一部を試行してもらった結果、モデルはまだ人間のベースラインを上回っていないことがわかった。我々は、AIエージェントのAIエンジニアリング能力を理解するための将来の研究を促進するために、コードをオープンソースとして公開した。
本論文では、スケルトンベースのアニメーションと現代的な生成モデルの強みを融合させ、高精細なキャラクターアニメーションを生成するためのフレームワークであるArticulated Kinematics Distillation (AKD)を提案します。AKDは、リグ付き3Dアセットに対してスケルトンベースの表現を用いることで、関節レベルの制御に焦点を当て、自由度(DoFs)を大幅に削減します。これにより、効率的で一貫性のあるモーション合成が可能となります。事前学習済みのビデオ拡散モデルを用いたScore Distillation Sampling (SDS)を通じて、AKDは複雑な関節運動を蒸留しつつ、構造的整合性を維持します。これにより、4Dニューラル変形場が直面する形状一貫性の課題を克服します。このアプローチは物理ベースのシミュレーションと自然に互換性があり、物理的に妥当な相互作用を保証します。実験結果から、AKDは既存のテキストから4D生成に関する研究と比較して、優れた3D一貫性とモーション品質を達成することが示されています。プロジェクトページ: https://research.nvidia.com/labs/dir/akd/
我々は、深層的な意味理解と高精細な画像生成の両方を改善するために、デュアル視覚トークン化と拡散デコーダを活用するILLUME+を提案します。既存の統合モデルは、理解、生成、編集という3つの基本的な能力を同時に扱うことに苦戦してきました。ChameleonやEMU3のようなモデルは、VQGANを画像の離散化に利用していますが、深層的な意味的相互作用の欠如により、LLaVAのような専門モデルに比べて視覚理解タスクで遅れを取っています。これを緩和するために、LaViTやILLUMEは意味エンコーダをトークン化に使用していますが、テクスチャの保存が不十分なため、画像編集に苦戦しています。一方、Janusシリーズは入力と出力の画像表現を分離しているため、インタリーブされた画像とテキストの理解と生成をシームレスに処理する能力が制限されています。対照的に、ILLUME+は、細かいテクスチャとテキストに沿った意味の両方を保存し、マルチモーダル理解と生成のための粗から細かい画像表現戦略を可能にする統合デュアル視覚トークナイザー、DualViTokを導入します。さらに、生成品質の向上と効率的な超解像のために、拡散モデルを画像デトークナイザーとして採用しています。ILLUME+は、統合MLLM内で連続入力、離散出力のスキームを採用し、視覚トークナイザー、MLLM、拡散デコーダ全体で動的解像度をサポートする段階的なトレーニング手順を採用しています。この設計により、多様なタスクにわたる柔軟で効率的なコンテキスト認識型の画像編集と生成が可能になります。ILLUME+(3B)は、マルチモーダル理解、生成、編集のベンチマークにおいて、既存の統合MLLMや専門モデルに対して競争力のあるパフォーマンスを示しています。その強力なパフォーマンスにより、ILLUME+は将来のマルチモーダルアプリケーションのためのスケーラブルで汎用的な基盤を提供します。プロジェクトページ: https://illume-unified-mllm.github.io/。
テキストから画像(T2I)生成手法を用いた高品質な人間画像の生成は、重要な課題であると同時に非常に困難なタスクです。一般的な画像生成とは異なり、人間画像の合成では、人間のポーズ、解剖学的構造、テキストプロンプトとの整合性といった厳格な基準を満たす必要があり、現実的な結果を得ることが特に難しいとされています。拡散モデルに基づくT2I生成の最近の進展は有望ですが、人間特有の嗜好を満たす点では依然として課題が残っています。本論文では、Direct Preference Optimization(DPO)を活用した、人間画像生成に特化した新しいアプローチを提案します。具体的には、高コストな人間のフィードバックを必要とせずに、人間画像生成モデルのトレーニング用に特化したDPOデータセットを構築する効率的な手法を紹介します。また、アーティファクトを最小化し、画像の忠実度を向上させることでDPOトレーニングプロセスを強化する修正された損失関数を提案します。本手法は、パーソナライズされたテキストから画像生成を含む人間画像生成において、その汎用性と有効性を実証しています。包括的な評価を通じて、本アプローチが自然な解剖学的構造、ポーズ、テキストと画像の整合性の点で優れた結果を達成し、人間画像生成の現状を大きく前進させることを示します。
ビジョン・ランゲージモデル(VLMs)は、大規模言語モデル(LLMs)の能力を視覚情報の統合によって拡張するが、特にノイズや破損した画像を処理する際に、ジャイルブレイク攻撃に対して脆弱なままである。既存のVLMsは、そのような攻撃を緩和するためにトレーニング中にセキュリティ対策を採用しているが、ノイズ増強された視覚入力に関連する脆弱性は見過ごされている。本研究では、ノイズ増強トレーニングの欠如が重大なセキュリティギャップを引き起こすことを明らかにした:多くのVLMsは、ガウシアンノイズのような単純な摂動に対しても脆弱である。この課題に対処するため、我々はRobust-VLGuardを提案する。これは、整合/非整合の画像-テキストペアを組み合わせたマルチモーダルセーフティデータセットであり、ノイズ増強ファインチューニングを組み合わせることで、VLMの機能を維持しながら攻撃成功率を低減する。さらに、最適化ベースの視覚的摂動攻撃に対しては、DiffPure-VLMを提案する。これは、拡散モデルを活用して敵対的摂動をガウシアンライクなノイズに変換し、ノイズ増強セーフティファインチューニングを施したVLMsによって防御可能にする。実験結果は、拡散モデルの分布シフト特性が、我々のファインチューニングされたVLMsとよく整合し、様々な強度の敵対的摂動を大幅に緩和することを示している。データセットとコードはhttps://github.com/JarvisUSTC/DiffPure-RobustVLMで公開されている。
近年のゼロショットテキスト音声合成(TTS)モデルは、音声品質と表現力の大幅な向上を実現していますが、主流のシステムでは依然として音声-テキストアライメントモデリングに関連する課題が存在します。1) 明示的な音声-テキストアライメントモデリングを欠くモデルは、特に実用アプリケーションにおける難解な文に対して堅牢性に欠ける傾向があります。2) 事前定義されたアライメントベースのモデルは、強制アライメントの自然さに制約を受けます。本論文では、革新的なスパースアライメントアルゴリズムを特徴とするTTSシステム、MegaTTS 3を紹介します。このアルゴリズムは、潜在拡散トランスフォーマー(DiT)をガイドします。具体的には、MegaTTS 3にスパースアライメント境界を提供し、探索空間を制限することなくアライメントの難易度を低減することで、高い自然さを実現します。さらに、アクセント強度調整のための多条件クラス分類不要ガイダンス戦略を採用し、生成プロセスを加速するために区分的整流フロー技術を採用しています。実験結果は、MegaTTS 3が最先端のゼロショットTTS音声品質を達成し、アクセント強度に対する高度に柔軟な制御をサポートすることを示しています。特に、当システムはわずか8サンプリングステップで高品質な1分間の音声を生成可能です。音声サンプルはhttps://sditdemo.github.io/sditdemo/でご覧いただけます。
視覚言語モデル(VLM)は、画像内に特定の物体が存在すると誤って示す「物体幻覚」を起こしやすい傾向があります。既存のベンチマークでは、比較的小規模なラベル付きデータセットを使用して幻覚を定量化しています。しかし、このアプローチには以下の課題があります:i) VLMが広く使用されるオープンワールド設定で発生する幻覚を評価するには不十分であり、ii) VLMの系統的なエラーを検出するには不適切です。本研究では、オープンワールド設定における実世界の画像に対してVLMの系統的な幻覚を特定するための自動化された大規模パイプライン「DASH(Detection and Assessment of Systematic Hallucinations)」を提案します。DASHの重要なコンポーネントとして、画像ベースの検索を行う「DASH-OPT」を開発しました。ここでは、「自然画像多様体」上で最適化を行い、VLMを誤らせる画像を生成します。DASHの出力は、VLMが物体幻覚を起こす実世界の画像と意味的に類似した画像のクラスタで構成されます。DASHをPaliGemmaと2つのLLaVA-NeXTモデルに適用し、380の物体クラスにわたって合計19,000以上のクラスタと950,000枚の画像を発見しました。特定された系統的な幻覚が他のVLMに転移するかどうかを調査し、DASHで得られたモデル固有の画像を用いてPaliGemmaをファインチューニングすることで、物体幻覚を軽減できることを示しました。コードとデータはhttps://YanNeu.github.io/DASHで公開されています。
畳み込みニューラルネットワークやVision Transformerを含む視覚ネットワーク設計は、コンピュータビジョンの分野を大きく進歩させてきました。しかし、その複雑な計算は、特にリアルタイムアプリケーションにおける実用的な展開に課題を投げかけています。この問題に対処するため、研究者たちは様々な軽量で効率的なネットワーク設計を探求してきました。しかし、既存の軽量モデルは主にトークンミキシングのためにセルフアテンションメカニズムと畳み込みを活用しています。この依存性は、軽量ネットワークの知覚と集約プロセスにおける効果性と効率性に制限をもたらし、限られた計算予算下での性能と効率のバランスを妨げています。本論文では、効率的な人間の視覚システムに内在する動的異尺度視覚能力に着想を得て、軽量視覚ネットワーク設計のための「大きく見て、小さく焦点を当てる」戦略を提案します。我々は、大カーネル知覚と小カーネル集約を組み合わせたLS(Large-Small)畳み込みを導入します。これにより、広範な知覚情報を効率的に捕捉し、動的で複雑な視覚表現のための精密な特徴集約を実現し、視覚情報の熟練した処理を可能にします。LS畳み込みに基づいて、我々は新しい軽量モデルファミリーであるLSNetを提示します。広範な実験により、LSNetが様々な視覚タスクにおいて既存の軽量ネットワークを凌駕する性能と効率を達成することが実証されています。コードとモデルはhttps://github.com/jameslahm/lsnetで公開されています。
State Space Models(SSMs)は、メモリ使用量の一貫性と高いパフォーマンスから、Transformerの有力な代替として注目を集めています。しかし、SSMsをクラウドサービスやリソースが限られたデバイスでスケールアップすることは、ストレージ要件と計算能力の点で課題があります。これを克服するため、低ビット幅のデータ形式でSSMsを量子化することで、モデルサイズを削減し、ハードウェアアクセラレーションの恩恵を受けることができます。SSMsは量子化によるエラーが発生しやすいため、最近の研究では、性能を犠牲にせずに効率を最大化するために特定のモデルやビット幅を最適化することに焦点が当てられています。しかし、異なるシナリオでは異なるビット幅設定が重要であり、例えば大規模バッチデコード速度を向上させるためのW4A8や、単一ユーザーの短いプロンプトアプリケーションでの生成速度を向上させるためのW4A16などがあります。これに対応するため、我々はQuamba2を提案します。Quamba2は、Mamba1とMamba2のバックボーンに対応し、W8A8、W4A8、W4A16のビット幅設定をサポートし、様々なプラットフォームでのSSM展開の需要に応えます。SSMsのチャネル順序保存とアクティベーション持続性に基づき、線形再帰の入力を8ビットで量子化するためのオフラインアプローチを提案します。これは、入力xに対してソートとクラスタリングを組み合わせ、入力依存パラメータBとCに対しては状態グループごとの量子化を行います。SSM出力の計算不変性を保証するため、クラスタリングシーケンスに従って重みをオフラインで再配置します。実験結果では、Quamba2-8Bがいくつかの最先端のSSM量子化手法を上回り、プリフィル段階で1.3倍、生成段階で3倍の高速化を実現し、メモリ使用量を4分の1に削減しながら、平均精度の低下はわずか1.6%でした。MMLUでの評価は、我々のフレームワークの汎用性と堅牢性を示しています。コードと量子化モデルは、https://github.com/enyac-group/Quamba で公開されます。
大規模言語モデルは驚異的な推論能力を示すものの、しばしば信頼性の低い、あるいは誤った応答を生成します。既存の検証手法は、通常、モデル固有または領域限定であり、多大な計算リソースを必要とし、多様な推論タスクにわたるスケーラビリティに欠けています。これらの制限に対処するため、我々はVerifiAgentを提案します。これは、2つのレベルの検証を統合した統一検証エージェントです。メタ検証では、モデルの応答の完全性と一貫性を評価し、ツールベースの適応的検証では、VerifiAgentが推論のタイプ(数学的、論理的、常識的推論など)に基づいて適切な検証ツールを自律的に選択します。この適応的アプローチにより、異なる検証シナリオにおいて効率性と堅牢性の両方が確保されます。実験結果は、VerifiAgentがすべての推論タスクにおいてベースラインの検証手法(例:演繹的検証器、後方検証器)を上回ることを示しています。さらに、検証結果からのフィードバックを活用することで、推論の精度をさらに向上させることができます。VerifiAgentは、推論スケーリングにも効果的に適用可能であり、数学的推論領域における既存のプロセス報酬モデルと比較して、より少ない生成サンプルとコストでより良い結果を達成します。コードはhttps://github.com/Jiuzhouh/VerifiAgentで公開されています。
大規模言語モデル(LLM)におけるトークン生成を加速するため、様々なレイヤースキップ手法が提案されてきた。しかし、これらの手法は根本的な問いを見落としてきた。すなわち、異なるトークンの生成において、計算要求がどのように変化するのか、という点である。本研究では、FlexiDepthという手法を導入し、テキスト生成に使用するTransformerレイヤーの数を動的に調整する。プラグインルーターとアダプターを組み込むことで、FlexiDepthはLLMの元のパラメータを変更することなく、適応的なレイヤースキップを可能にする。Llama-3-8BモデルにFlexiDepthを導入した結果、32レイヤーのうち8レイヤーをスキップしながら、ベンチマーク性能を100%維持することができた。FlexiDepthを用いた実験結果は、LLMにおける計算要求がトークンの種類に応じて大きく変化することを示している。具体的には、反復的なトークンや固定フレーズの生成には少ないレイヤー数で済む一方、計算を伴うトークンや不確実性の高いトークンの生成にはより多くのレイヤーを必要とする。興味深いことに、この適応的な割り当てパターンは人間の直感と一致している。この分野の研究を推進するため、FlexiDepthとそのレイヤー割り当てパターンを記録したデータセットをオープンソースとして公開し、今後の探求に役立てる。
入力画像から、指定されたターゲットと相互作用しながら所望のアクションを実行するアクターを含む動画を生成するターゲット認識型ビデオ拡散モデルを提案します。ターゲットはセグメンテーションマスクによって定義され、所望のアクションはテキストプロンプトで記述されます。既存の制御可能な画像から動画への拡散モデルでは、アクターの動きをターゲットに向けて誘導するために密な構造的または運動的な手がかりを必要とすることが多いのに対し、我々のターゲット認識型モデルは、ターゲットを示すための単純なマスクのみを必要とし、事前学習済みモデルの汎化能力を活用して妥当なアクションを生成します。これにより、正確なアクションガイダンスを提供することが難しいヒトと物体の相互作用(HOI)シナリオにおいて特に有効であり、さらにロボティクスなどのアプリケーションにおける高レベルのアクションプランニングのためにビデオ拡散モデルを使用することが可能になります。我々は、ベースラインモデルを拡張してターゲットマスクを追加の入力として組み込むことで、ターゲット認識型モデルを構築します。ターゲット認識を強化するために、テキストプロンプト内でターゲットの空間情報をエンコードする特別なトークンを導入します。次に、このトークンに関連するクロスアテンションマップを入力ターゲットマスクと整合させる新しいクロスアテンション損失を使用して、キュレートされたデータセットでモデルを微調整します。さらに性能を向上させるために、この損失を最も意味的に関連性の高いトランスフォーマーブロックとアテンション領域に選択的に適用します。実験結果は、我々のターゲット認識型モデルが、アクターが指定されたターゲットと正確に相互作用する動画を生成する点で既存のソリューションを上回ることを示しています。さらに、ビデオコンテンツ作成とゼロショット3D HOIモーション合成という2つの下流アプリケーションにおける有効性を実証します。
従来の分布外検出(OoDD)に関する研究は、主に単一モダリティモデルに焦点を当ててきました。最近では、CLIPのような大規模事前学習済み視覚言語モデルの登場により、ゼロショット学習やプロンプト学習戦略を活用したマルチモーダル表現を用いるOoDD手法が現れています。しかし、これらの手法は通常、事前学習済みの重みを凍結するか、部分的にチューニングするのみであり、下流のデータセットに対して最適でない場合があります。本論文では、マルチモーダルファインチューニング(MMFT)が顕著なOoDD性能を達成できることを強調します。最近のいくつかの研究では、OoDDのためのファインチューニング手法の影響が示されていますが、性能向上のための大きな可能性が残されています。我々は、ナイーブなファインチューニング手法の限界を調査し、なぜそれらが事前学習済みの知識を十分に活用できないのかを検証します。我々の実証分析によると、この問題は分布内(ID)埋め込みにおけるモダリティギャップに起因する可能性があります。これを解決するために、IDデータの画像とテキスト埋め込み間の距離を正則化することで、クロスモーダルアラインメントを強化する訓練目的関数を提案します。この調整により、異なるモダリティ(すなわち、テキストと画像)からの類似した意味を超球表現空間でより密接に整列させることで、事前学習済みのテキスト情報をより効果的に活用することが可能になります。我々は、提案する正則化が超球上のエネルギーベースモデルの最尤推定に対応することを理論的に示します。ImageNet-1k OoDベンチマークデータセットを用いて、事前学習済みの知識を活用した事後OoDD手法(例えば、NegLabel)と組み合わせた我々の手法が、既存の手法を大幅に上回り、最先端のOoDD性能と最高のID精度を達成することを示します。
大規模言語モデル(LLM)は医療を変革する可能性を秘めていますが、現実世界の臨床シナリオにはパフォーマンスを低下させる余計な情報が含まれています。ライブの患者診察から自動的にドラフトノートを生成するアンビエントディクテーションのような支援技術の台頭は、さらなるノイズを導入する可能性があり、LLMが関連データをフィルタリングする能力を評価することが重要です。これを調査するために、USMLE形式の質問に現実世界のシミュレートされた雑音を組み込んだベンチマークであるMedDistractQAを開発しました。私たちの調査結果は、注意をそらす記述(臨床的な意味を持つ多義語が非臨床的な文脈で使用される場合や、無関係な健康状態への言及)がLLMの精度を最大17.9%低下させる可能性があることを示しています。モデルのパフォーマンスを向上させるために一般的に提案されている解決策、例えば検索拡張生成(RAG)や医療分野でのファインチューニングは、この効果を変えず、場合によっては独自の交絡因子を導入し、さらなるパフォーマンスの低下を招きました。私たちの調査結果は、LLMが本質的に、関連する臨床情報と無関係な情報を区別するための論理的なメカニズムを欠いていることを示唆しており、現実世界での応用に課題を投げかけています。MedDistractQAと私たちの結果は、LLMの余計な情報に対する耐性を強化するための堅牢な緩和戦略の必要性を強調しています。