翻訳付きの日次キュレーションされたAI研究論文
事前学習用データセットは通常、ウェブコンテンツから収集され、固有のドメイン分割を欠いています。例えば、Common Crawlのような広く使用されているデータセットには明示的なドメインラベルが含まれておらず、The Pileのようなラベル付きデータセットを手作業でキュレーションするのは労力を要します。その結果、事前学習のパフォーマンスに大きな利益をもたらすにもかかわらず、最適な事前学習データの混合を見つけることは依然として難しい問題です。これらの課題に対処するため、我々はCLustering-based Iterative Data Mixture Bootstrapping (CLIMB)を提案します。これは、事前学習設定においてデータの混合を発見し、評価し、洗練する自動化されたフレームワークです。具体的には、CLIMBは大規模データセットを意味空間に埋め込み、クラスタリングし、その後、より小さなプロキシモデルと予測器を使用して最適な混合を反復的に探索します。この混合で4000億トークンを継続的に学習させた場合、我々の10億パラメータモデルは最先端のLlama-3.2-1Bを2.0%上回ります。さらに、特定のドメイン(例:社会科学)に対して最適化を行うことで、ランダムサンプリングよりも5%の改善が得られることを観察しました。最後に、研究のためのプレイグラウンドとして20のクラスターを持つ1.2兆トークンのフィルタリングされたコーパスであるClimbLabと、等しいトークン予算の下で優れたパフォーマンスを発揮する効率的な事前学習用に設計されたコンパクトながら強力な4000億トークンのデータセットであるClimbMixを紹介します。最終的なデータ混合を分析し、最適なデータ混合の特性を明らかにします。我々のデータは以下で利用可能です:https://research.nvidia.com/labs/lpr/climb/
拡張的な推論トレースを生成するフロンティアモデルは、意図せずにモデル蒸餾を促進する豊富なトークンシーケンスを生成してしまう。この脆弱性を認識したモデル所有者は、モデルの性能を損なうことなく蒸餾の効果を制限するサンプリング戦略を模索する可能性がある。アンチ蒸餾サンプリングはまさにこの機能を提供する。モデルの次トークン確率分布を戦略的に変更することで、アンチ蒸餾サンプリングは推論トレースを汚染し、蒸餾の効果を大幅に低下させながらもモデルの実用性を維持する。詳細については、https://antidistillation.com を参照のこと。
本論文では、ビデオ生成のための次フレーム(または次フレームセクション)予測モデルを学習するためのニューラルネットワーク構造「FramePack」を提案します。FramePackは入力フレームを圧縮し、ビデオの長さに関わらずトランスフォーマーのコンテキスト長を固定数にします。その結果、画像拡散と同程度の計算ボトルネックで、多数のフレームをビデオ拡散を用いて処理することが可能になります。これにより、トレーニング時のビデオバッチサイズも大幅に増加し(バッチサイズが画像拡散トレーニングと同等になります)、また、エクスポージャーバイアス(反復処理における誤差の蓄積)を回避するために、早期に終端点を設定し、逆時間順でフレームを生成する「アンチドリフトサンプリング法」を提案します。最後に、既存のビデオ拡散モデルをFramePackでファインチューニング可能であり、次フレーム予測がよりバランスの取れた拡散スケジューラをサポートし、極端なフローシフトタイムステップを減らすことで視覚品質が向上することを示します。
視覚言語モデル(VLMs)は視覚理解において優れているが、しばしば視覚的幻覚(visual hallucinations)に悩まされ、存在しない物体、行動、または概念を説明するテキストを生成してしまう。これは安全性が重要なアプリケーションにおいて重大なリスクを引き起こす。既存の幻覚緩和手法は、通常、2つのパラダイムに従う。1つは生成調整(generation adjustment)で、デコード動作を変更してテキストを視覚入力に整合させる。もう1つは事後検証(post-hoc verification)で、外部モデルが出力を評価し修正する。生成調整手法は効果的ではあるが、ヒューリスティックに依存しがちで修正メカニズムが欠如している。一方、事後検証は複雑で、通常複数のモデルを必要とし、出力を拒否する傾向がある。本論文では、幻覚を意識したトレーニングとオンザフライの自己検証を統合した統一フレームワーク「REVERSE」を提案する。130万以上の半合成サンプルを含む新しい幻覚検証データセットと、推論時の回顧的リサンプリング技術を活用することで、VLMsが生成中に幻覚を検出し、それらを動的に修正することを可能にする。評価結果では、REVERSEがCHAIR-MSCOCOで最大12%、HaloQuestで最大28%の幻覚削減を達成し、既存の最良の手法を上回る性能を示した。データセット、モデル、コードはhttps://reverse-vlm.github.ioで公開されている。
我々は、シンプルな視覚-言語学習を通じて訓練された、画像および映像理解のための最先端エンコーダであるPerception Encoder(PE)を紹介します。従来、視覚エンコーダは、分類、キャプション生成、位置特定といった特定の下流タスクに特化した多様な事前学習目的関数に依存してきました。驚くべきことに、我々が慎重に調整した画像事前学習レシピをスケールアップし、堅牢な映像データエンジンで洗練させた後、対照的な視覚-言語学習のみで、これら全ての下流タスクに対して強力で汎用的な埋め込みを生成できることがわかりました。唯一の注意点は、これらの埋め込みがネットワークの中間層に隠れていることです。これらを引き出すために、我々は2つのアライメント手法を導入します。マルチモーダル言語モデリングのための言語アライメントと、密な予測のための空間アライメントです。コアの対照的チェックポイントとともに、我々のPEモデルファミリーは、ゼロショット画像・映像分類と検索、文書・画像・映像のQ&A、検出、深度推定、追跡といった空間タスクなど、幅広いタスクで最先端の性能を達成します。さらなる研究を促進するため、我々はモデル、コード、そして合成および人手で注釈付けされた映像からなる新規データセットを公開します。
世界シミュレーションは、仮想環境をモデル化し、行動の結果を予測する能力から、近年注目を集めています。しかし、限られた時間的文脈ウィンドウは、特に3D空間の一貫性を維持する際に、長期的な整合性の欠如を引き起こすことがあります。本研究では、WorldMemを提案します。これは、メモリフレームと状態(例えば、ポーズやタイムスタンプ)を保存するメモリユニットからなるメモリバンクを用いてシーン生成を強化するフレームワークです。これらのメモリフレームから状態に基づいて関連情報を効果的に抽出するメモリアテンションメカニズムを採用することで、本手法は、視点や時間的な隔たりが大きい場合でも、以前に観測されたシーンを正確に再構築することが可能です。さらに、状態にタイムスタンプを組み込むことで、本フレームワークは静的な世界をモデル化するだけでなく、時間の経過に伴う動的な進化も捉え、シミュレートされた世界内での知覚と相互作用を可能にします。仮想および現実のシナリオにおける広範な実験により、本アプローチの有効性が検証されています。
大規模言語モデル(LLMs)は急速にサイズが拡大し、リソースが制約されたハードウェア上での効率的なデプロイメントに大きな課題を生み出しています。本論文では、Dynamic-Length Float(DFloat11)という、LLMのサイズを30%削減しながら、元のモデルとビット単位で同一の出力を維持するロスレス圧縮フレームワークを紹介します。DFloat11は、LLMのBFloat16重み表現における低エントロピーに着目し、既存のストレージ形式の非効率性を明らかにすることで動機付けられています。エントロピー符号化を適用することで、DFloat11は重みに頻度に基づいた動的長さのエンコーディングを割り当て、精度を損なうことなく情報理論的に最適に近い圧縮を実現します。動的長さエンコーディングを用いた効率的な推論を可能にするため、高速なオンライン展開のためのカスタムGPUカーネルを開発しました。我々の設計は以下の要素を組み込んでいます:(i) メモリ集約的なルックアップテーブル(LUT)をGPUのSRAMに収まるコンパクトなLUTに分解すること、(ii) 軽量な補助変数を用いてスレッドの読み書き位置を調整する2段階カーネル、(iii) レイテンシを最小化するためのトランスフォーマーブロックレベルの展開。Llama-3.1、Qwen-2.5、Gemma-3などの最新モデルを用いた実験により、DFloat11がビット単位で正確な出力を維持しながら約30%のモデルサイズ削減を達成するという仮説を検証しました。メモリ制約を満たすために非圧縮モデルの一部をCPUにオフロードする代替案と比較して、DFloat11はトークン生成において1.9~38.8倍のスループットを達成しました。固定のGPUメモリ予算において、DFloat11は非圧縮モデルと比べて5.3~13.17倍の長いコンテキスト長を可能にします。特に、我々の手法は810GBのモデルであるLlama-3.1-405Bを、8x80GB GPUを搭載した単一ノード上でロスレス推論することを可能にします。コードとモデルはhttps://github.com/LeanModels/DFloat11で公開されています。
データ合成と蒸留は小型言語モデルの性能向上に有望な戦略であるが、現状のアプローチは大規模言語モデル(LLM)に大きく依存しており、高い計算コスト、環境非効率性、そして単一アーキテクチャから継承される潜在的なバイアスといった課題を抱えている。一方で、小型のLLMはよりアクセスしやすく持続可能であるが、個々の能力では高品質で多様かつ信頼性の高いデータを生成するには不十分な場合が多い。人間の協調的プロセス(例:ピアレビュー)に着想を得て、我々は複数の小型LLMを活用するフレームワーク「GRA」を提案する。このフレームワークでは、複数の小型LLMが専門的な役割を分担し、単一の大規模LLMによって達成される反復的な改良と品質管理を実現する。この協調的フレームワークでは、複数の小型LLMが異なる役割——生成者(Generator)、レビュアー(Reviewer)、裁定者(Adjudicator)——を担い、ピアレビューを模倣したデータ合成パイプラインを構築する。生成者が初期データサンプルを提案し、レビュアーがその品質と多様性を批判し、裁定者が矛盾を解決して最終的な出力を決定する。合成プロセスを専門的なサブタスクに分解することで、協調的な小型LLMは大規模LLMベースの蒸留と同等のデータ品質を達成できる。複数のベンチマークを通じた実験により、GRAが生成するデータは単一の大規模LLM(例:Qwen-2.5-72B-Instruct)の出力品質に匹敵またはそれを上回ることを実証した。我々の結果は、高品質なデータ合成において単一の大規模モデルが必要であるという前提に疑問を投げかけ、代わりに小型エージェントの戦略的連携を提唱するものである。我々のデータセット、モデル、コードはhttps://github.com/GX-XinGao/GRAで公開されている。
チャートは至る所で使用されており、人々はデータを分析し、質問に答え、重要な洞察を発見するために頻繁に活用しています。しかし、チャートを用いて複雑な分析タスクを実行するには、多大な知覚的・認知的努力が必要です。チャート質問応答(Chart Question Answering, CQA)システムは、モデルがデータの視覚的表現を解釈し、推論することを可能にすることで、このプロセスを自動化します。しかし、ChartQAのような既存のベンチマークは現実世界の多様性に欠けており、最近では現代の大規模視覚言語モデル(Large Vision-Language Models, LVLMs)において性能の飽和が示されています。これらの課題を解決するため、私たちはChartQAProを導入しました。これは、157の多様なソースから1,341のチャートを含み、インフォグラフィックやダッシュボードを含むさまざまなチャートタイプを網羅し、多肢選択、会話型、仮想的、および回答不能な質問など、1,948の質問を特徴とする新しいベンチマークです。これにより、現実世界の課題をよりよく反映しています。21のモデルを用いた評価では、LVLMsのChartQAProにおける性能が大幅に低下することが示されました。例えば、Claude Sonnet 3.5はChartQAで90.5%のスコアを記録しましたが、ChartQAProではわずか55.81%でした。これは、チャート推論の複雑さを浮き彫りにしています。私たちは、詳細なエラー分析とアブレーション研究を通じて、主要な課題と機会を特定し、LVLMsのチャート理解と推論の進化に向けた重要な洞察を提供します。ChartQAProはhttps://github.com/vis-nlp/ChartQAProで公開されています。
大規模言語モデル(LLM)を基盤とした大規模ビデオモデル(LVM)は、ビデオ理解において有望な成果を示しているが、人間の直感との不一致やビデオ幻覚の問題に悩まされることが多い。これらの課題に対処するため、我々はVistaDPOという新しいフレームワークを提案する。VistaDPOは、ビデオの階層的時空間的直接選好最適化(Video Hierarchical Spatial-Temporal Direct Preference Optimization)を実現し、テキストとビデオの選好整合性を3つの階層レベルで強化する。i) インスタンスレベル:ビデオ全体の内容と応答を整合させる、ii) 時間レベル:ビデオの時間的セマンティクスとイベント記述を整合させる、iii) 知覚レベル:空間的オブジェクトと言語トークンを整合させる。細粒度のビデオと言語の選好整合性を評価するためのデータセットが不足していることを踏まえ、我々はVistaDPO-7kを構築した。これは7.2KのQAペアからなり、選択された応答と拒否された応答、タイムスタンプ、キーフレーム、バウンディングボックスなどの時空間的グラウンディング情報が注釈付けされている。ビデオ幻覚、ビデオQA、キャプショニング性能タスクなどのベンチマークでの広範な実験により、VistaDPOが既存のLVMの性能を大幅に向上させ、ビデオと言語の不一致や幻覚を効果的に軽減することが実証された。コードとデータはhttps://github.com/HaroldChen19/VistaDPOで公開されている。
テキストから画像(T2I)生成モデルの成功により、同じベースモデルから様々な専門データセットでファインチューニングされた多数のモデルチェックポイントが急増しています。この過剰な専門モデルの生産は、高いパラメータ冗長性と巨大なストレージコストという新たな課題を引き起こし、多様な強力なモデルの能力を単一のモデルに統合・統一する効果的な手法の開発を必要としています。モデルマージの一般的な手法では、スタイルの混合を達成するためにパラメータ空間での静的な線形補間が採用されています。しかし、この手法はT2I生成タスクの特徴、すなわち多数の異なるモデルが多様なスタイルをカバーしているため、マージされたモデルにおいて互換性の欠如や混乱を引き起こす可能性があることを無視しています。この問題に対処するため、我々はスタイルベクトルの制御下で任意のスタイルの画像を正確に生成できるスタイルプロンプト可能な画像生成パイプラインを導入します。この設計に基づき、複数のモデルを単一の汎用T2Iモデルに圧縮するスコア蒸留ベースのモデルマージングパラダイム(DMM)を提案します。さらに、T2I生成の文脈においてモデルマージングタスクを再考し、新たなマージング目標と評価プロトコルを提示します。我々の実験により、DMMが複数の教師モデルからの知識をコンパクトに再編成し、制御可能な任意スタイル生成を実現できることが実証されました。
強化学習(RL)の最近の進展により、視覚言語モデル(VLM)の推論能力が強化されてきた。しかし、テスト時の計算リソースをより効果的にスケールさせるためのポリシー探索の強化は、VLMにおいてまだ十分に検討されていない。さらに、VLMは不完全な視覚知覚に悩まされており、それがその後の推論プロセスに影響を与えている。この問題に対処するため、我々はNoisyRolloutを提案する。これは、クリーンな画像と中程度に歪んだ画像の両方からの軌跡を混合し、視覚知覚とそれに続く推論パターンにターゲットを絞った多様性を導入する、シンプルでありながら効果的なRLアプローチである。追加のトレーニングコストなしで、NoisyRolloutは視覚指向の帰納的バイアスを組み込むことでVLMの探索能力を向上させる。さらに、NoisyRolloutはノイズの強度をトレーニング中に徐々に減少させるノイズアニーリングスケジュールを採用し、初期段階ではノイズ信号の恩恵を受けつつ、後期段階ではトレーニングの安定性とスケーラビリティを確保する。たった2.1Kのトレーニングサンプルで、NoisyRolloutは推論タスクと知覚タスクの両方にわたる5つのドメイン外ベンチマークにおいて、オープンソースのRLチューニングモデルの中で最先端の性能を達成し、ドメイン内性能も同等またはそれ以上を維持する。
視覚言語モデルはコンピュータビジョン研究において不可欠な存在であるが、多くの高性能モデルはクローズドソースのままであり、そのデータ、設計、トレーニング手法が不明瞭な状態にある。研究コミュニティは、ブラックボックスモデルからの蒸留を用いてトレーニングデータにラベルを付けることで対応し、強力なベンチマーク結果を達成しているが、その代償として科学的進歩の測定可能性が損なわれている。しかし、教師モデルの詳細やそのデータソースを知らないままでは、科学的進歩を測定することは依然として困難である。本論文では、画像および映像理解における透明性のある研究を目的として、完全にオープンで再現可能なフレームワーク内で知覚言語モデル(PLM)を構築する方法を検討する。プロプライエタリモデルからの蒸留を行わない標準的なトレーニングパイプラインを分析し、大規模な合成データを探索することで、特に詳細な映像理解における重要なデータギャップを特定する。これらのギャップを埋めるため、280万件の人間によるラベル付きの細粒度な映像質問応答ペアおよび時空間的に基づいた映像キャプションを公開する。さらに、「何が」「どこで」「いつ」「どのように」という映像の理解能力に焦点を当てた挑戦的な映像理解タスクを評価するためのスイートであるPLM-VideoBenchを導入する。データ、トレーニングレシピ、コード、モデルを提供することで、本研究の完全な再現性を確保する。
現在の学習ベースのキャラクターカスタマイズ手法は、主にU-Netアーキテクチャに依存しており、汎化能力が限られ、画質が低下するという課題を抱えています。一方、最適化ベースの手法では、対象ごとの微調整が必要であり、これによりテキストの制御性が必然的に損なわれます。これらの課題に対処するため、我々はInstantCharacterを提案します。これは、基盤となる拡散トランスフォーマーに基づいたスケーラブルなキャラクターカスタマイズフレームワークです。InstantCharacterは、以下の3つの基本的な利点を有しています。第一に、多様なキャラクターの外見、ポーズ、スタイルにわたるオープンドメインのパーソナライゼーションを実現しつつ、高忠実度の結果を維持します。第二に、スタックされたトランスフォーマーエンコーダーを備えたスケーラブルなアダプターを導入し、オープンドメインのキャラクター特徴を効果的に処理し、現代の拡散トランスフォーマーの潜在空間とシームレスに相互作用します。第三に、フレームワークを効果的に訓練するため、1000万レベルのサンプルを含む大規模なキャラクターデータセットを構築しました。このデータセットは、ペア(マルチビューキャラクター)と非ペア(テキスト-画像の組み合わせ)のサブセットに体系的に整理されています。この二重データ構造により、異なる学習経路を通じて、アイデンティティの一貫性とテキスト編集性を同時に最適化することが可能です。定性実験により、InstantCharacterが高忠実度でテキスト制御可能かつキャラクター一貫性のある画像を生成する先進的な能力を実証し、キャラクター駆動型画像生成の新たなベンチマークを確立しました。ソースコードはhttps://github.com/Tencent/InstantCharacterで公開されています。
大規模言語モデル(LLM)が難しい問題を解決するためには、テスト時の計算リソースのスケーリングが重要な要素として浮上していますが、これには高いレイテンシと推論コストが伴います。本論文では、スリープ時計算(sleep-time compute)を導入し、クエリが提示される前にモデルがコンテキストについてオフラインで「考える」ことを可能にします。ユーザーがどのようなクエリを投げるかを予測し、有用な量を事前計算することで、テスト時に必要な計算リソースを大幅に削減できます。本手法の有効性を実証するため、2つの推論タスク(Stateful GSM-SymbolicおよびStateful AIME)を改変したバージョンを作成しました。その結果、スリープ時計算により、同じ精度を達成するために必要なテスト時の計算量をStateful GSM-SymbolicとStateful AIMEで約5分の1に削減できることがわかりました。さらに、スリープ時計算をスケールさせることで、Stateful GSM-Symbolicでは最大13%、Stateful AIMEでは最大18%の精度向上が可能であることも明らかになりました。また、Multi-Query GSM-Symbolicを導入し、GSM-Symbolicを拡張してコンテキストごとに複数の関連クエリを含めることで、同じコンテキストに関する関連クエリ間でスリープ時計算を分散させ、クエリあたりの平均コストを2.5分の1に削減できることを示しました。さらに、スリープ時計算が最も効果的となる条件を理解するため追加分析を行い、ユーザークエリの予測可能性がスリープ時計算の有効性と強く相関していることを明らかにしました。最後に、現実的なエージェント型ソフトウェアエンジニアリング(SWE)タスクにスリープ時計算を適用するケーススタディを行いました。
大規模言語モデル(LLM)はエージェントとして非常に大きな可能性を示しており、複数回の推論と相互作用を必要とするタスクにおいて優れた性能を発揮しています。Rejection Sampling Fine-Tuning(RFT)は、LLMをエージェントとしてファインチューニングするための効果的な手法として登場しました。この手法は、まず専門家が生成した成功軌跡を模倣し、その後、自己生成した成功軌跡に対する反復的なファインチューニングを通じてエージェントのスキルをさらに向上させます。しかし、専門家(例:GPT-4)が主に単純なサブタスクで成功し、RFTが本質的に単純なシナリオを好むため、多くの複雑なサブタスクは未解決のままであり、分布外(OOD)の状態が続いています。これらの難しいサブタスクを調査した結果、以前に失敗した専門家の軌跡がしばしば貴重なガイダンス(例:計画や重要なアクション)を提供し、エージェントの探索効率と重要なスキルの習得を大幅に改善できることがわかりました。これらの観察に基づき、我々はExploring Expert Failures(EEF)を提案します。EEFは、失敗した専門家の軌跡から有益なアクションを特定し、それらをトレーニングデータセットに統合します。モデルの学習プロセスを汚染しないよう、潜在的に有害なアクションは慎重に除外されます。専門家の失敗から有益なアクションを活用することで、EEFは以前に解決できなかったいくつかのサブタスクを解決し、エージェントのチューニング性能を向上させます。特に、我々のアプローチはWebShopで62%の勝率を達成し、RFT(53.6%)やGPT-4(35.6%)を上回り、我々の知る限り、WebShopで0.81を超える初の手法として新たな最先端を確立し、SciWorldでも81を超えるスコアを達成しました。
計算機的色彩恒常性、またはホワイトバランスは、カメラの画像信号処理プロセッサ(ISP)における重要なモジュールであり、シーン照明による色かぶりを補正します。この操作はカメラ固有のRAWカラースペースで行われるため、ホワイトバランスアルゴリズムは異なるカメラに適応する必要があります。本論文では、再学習なしで新しいカメラに一般化するクロスカメラ色彩恒常性のための学習ベースの手法を紹介します。私たちの手法は、ISPで利用可能な事前較正済みの色補正行列(CCM)を活用し、カメラのRAWカラースペースを標準空間(例:CIE XYZ)にマッピングします。この手法では、これらのCCMを使用して、事前に定義された照明色(例:プランキアン軌跡に沿った色)をテストカメラのRAW空間に変換します。マッピングされた光源は、コンパクトなカメラフィンガープリント埋め込み(CFE)としてエンコードされ、ネットワークが未見のカメラに適応できるようにします。トレーニング中のカメラとCCMの数が限られていることによる過学習を防ぐため、カメラとそのCCMの間を補完するデータ拡張技術を導入します。複数のデータセットとバックボーンにわたる実験結果は、私たちの手法が軽量であり、カメラISPで容易に利用可能なデータのみに依存しながら、最先端のクロスカメラ色彩恒常性を達成することを示しています。
映画の音声解説(Audio Description, AD)は、特に視覚障害者や弱視者(BVI)の観客を対象に、台詞のない場面で視覚的な内容をナレーションすることを目的としています。一般的な映像キャプションと比較して、ADはプロットに関連したナレーションと明確なキャラクター名の参照を要求し、映画理解において独特の課題を提起します。主要な登場人物の活動を特定し、ストーリーに関連する領域に焦点を当てるために、我々はキャラクター中心の映画音声解説を提供する新しいフレームワーク「FocusedAD」を提案します。これには以下が含まれます:(i) キャラクター領域を追跡し、名前と関連付けるためのキャラクター知覚モジュール(Character Perception Module, CPM)、(ii) 事前のADや字幕から文脈的な手がかりを学習可能なソフトプロンプトを通じて注入する動的優先モジュール(Dynamic Prior Module, DPM)、(iii) プロットに関連した詳細と名前付きキャラクターを豊かに含むナレーションを生成する焦点キャプションモジュール(Focused Caption Module, FCM)。キャラクター識別の限界を克服するために、キャラクタークエリバンクを構築する自動化されたパイプラインも導入しました。FocusedADは、MAD-eval-Namedや新たに提案したCinepile-ADデータセットを含む複数のベンチマークで最先端の性能を達成し、特にゼロショット設定で強い結果を示しています。コードとデータはhttps://github.com/Thorin215/FocusedADで公開されます。
私たちは、Complex-Editという包括的なベンチマークを紹介します。このベンチマークは、さまざまな複雑さの指示に基づいて画像編集モデルを体系的に評価するために設計されています。このベンチマークを開発するために、GPT-4oを活用して多様な編集指示を自動的に大規模に収集しました。私たちのアプローチは、構造化された「Chain-of-Edit」パイプラインに従っています。まず、個別の原子編集タスクを独立して生成し、それらを統合して一貫性のある複雑な指示を形成します。さらに、編集性能のさまざまな側面を評価するための一連のメトリクスを導入し、大規模評価をサポートするVLMベースの自動評価パイプラインを提供します。私たちのベンチマークからは、以下の注目すべき洞察が得られました:1) オープンソースモデルは、プロプライエタリなクローズドソースモデルに比べて大幅に性能が低く、指示の複雑さが増すほどその性能差が拡大する。2) 指示の複雑さが増すと、モデルが入力画像から重要な要素を保持し、全体的な美的品質を維持する能力が主に損なわれる。3) 複雑な指示を原子ステップのシーケンスに分解し、段階的に実行すると、複数のメトリクスで性能が大幅に低下する。4) シンプルなBest-of-N選択戦略は、直接編集と段階的シーケンシャルアプローチの両方で結果を改善する。5) 「合成データの呪い」が観察される:モデルのトレーニングに合成データが関与している場合、そのようなモデルから編集された画像は、編集指示の複雑さが増すにつれてますます合成されたように見える傾向がある。この現象は、興味深いことに最新のGPT-4oの出力にも現れている。
大規模言語モデル(LLM)エージェントは、応答の事実性を向上させるために、検索拡張生成(RAG)をますます活用しています。しかし、実際には、これらのシステムは曖昧なユーザークエリや複数のソースからの潜在的に矛盾する情報を処理しつつ、ノイズや無関係なドキュメントからの不正確な情報を抑制する必要があります。従来の研究では、これらの課題を個別に扱い、曖昧さの処理やノイズ・誤情報に対する頑健性など、一度に一つの側面のみを考慮してきました。我々は代わりに、複数の要因を同時に考慮し、(i) RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)という新しいデータセットを提案します。これは、曖昧さ、誤情報、ノイズを含む、ユーザークエリに対する複雑で現実的な矛盾する証拠のシナリオをシミュレートします。また、(ii) MADAM-RAGというマルチエージェントアプローチを提案します。これは、LLMエージェントが複数ラウンドにわたって回答のメリットについて議論し、曖昧さを解消したエンティティに対応する回答を集約しながら、誤情報やノイズを排除することで、多様な矛盾の源を共同で処理します。我々は、MADAM-RAGの有効性を、閉じたモデルとオープンソースモデルの両方でAmbigDocs(曖昧なクエリに対してすべての有効な回答を提示する必要がある)とFaithEval(誤情報を抑制する必要がある)で実証し、Llama3.3-70B-Instructを使用して、それぞれ最大11.40%と15.80%(絶対値)の改善を示しました。さらに、RAMDocsが既存のRAGベースラインにとって課題となることを発見しました(Llama3.3-70B-Instructは32.60の正確一致スコアしか得られませんでした)。MADAM-RAGはこれらの矛盾する要因に対処し始めていますが、特に支持証拠と誤情報の不均衡レベルを増加させた場合に、依然として大きなギャップが残っていることが分析から示されています。
テキストから画像を生成するモデルの倫理的な展開を確保するためには、有害または不適切なコンテンツの生成を防ぐ効果的な技術が必要です。概念消去法は有望な解決策を提供しますが、既存のファインチューニングベースのアプローチには顕著な限界があります。アンカーフリーの方法はサンプリング軌道を乱すリスクがあり、視覚的なアーティファクトを引き起こす可能性があります。一方、アンカーベースの方法はヒューリスティックなアンカー概念の選択に依存しています。これらの欠点を克服するため、我々はANTと呼ばれるファインチューニングフレームワークを導入します。ANTは、不要な概念を避けるためにデノイジング軌道を自動的に誘導します。ANTは、分類器不要ガイダンスの条件方向を中後期のデノイジング段階で逆転させるという重要な洞察に基づいて構築されています。これにより、初期段階の構造的整合性を犠牲にすることなく、正確なコンテンツ修正が可能になります。これにより、ヒューリスティックなアンカー概念選択に依存せず、自然画像多様体に向けてサンプルを導く初期段階のスコア関数場の整合性を保つ軌道認識目的関数が生まれます。単一概念消去のため、我々は拡張強化された重みサリエンシーマップを提案し、不要な概念に最も大きく寄与する重要なパラメータを正確に特定し、より徹底的かつ効率的な消去を可能にします。複数概念消去のため、我々の目的関数は汎用性の高いプラグアンドプレイソリューションを提供し、パフォーマンスを大幅に向上させます。広範な実験により、ANTが単一および複数概念消去において最先端の結果を達成し、生成品質を損なうことなく高品質で安全な出力を提供することが実証されています。コードはhttps://github.com/lileyang1210/ANTで公開されています。
最近のPhi-3.5やPhi-4のような小規模な言語モデルは、大規模な言語モデルを用いて生成された合成データに依存しています。しかし、特定のドメインにLLMを適応させるといった他のユースケースにおいて合成データを活用する方法については、未だに疑問が残っています。合成データの主な制限は多様性の低さであり、これは他のモデルを改善するための下流適用性に悪影響を及ぼします。この問題を解決するため、我々はMetaSynthを提案します。MetaSynthは、メタプロンプティングを通じて多様性を高める合成データ生成手法であり、言語モデルが複数の「専門家」LLMエージェントを調整して協調的にデータを生成します。MetaSynthで生成されたわずか2500万トークンの合成データを使用して、我々はよく訓練されたLLM(Mistral-7B-v0.3)を金融と生物医学という2つの専門ドメインに適応させることに成功し、その結果得られたモデルの一般的なタスクにおける能力を損なうことなく達成しました。さらに、我々は7つの自動化された指標を用いて合成データの多様性を評価し、それがLLMの事前学習コーパスの多様性に近づいていることを確認しました。 MetaSynthを用いてMistral-7B-v0.3を継続的に事前学習させた結果、ベースのLLMを大幅に上回り、金融では最大4.08%、生物医学では最大13.75%の改善を示しました。同じモデルをテンプレートプロンプトで生成されたデータで訓練した場合、そのテンプレートに以前の生成や実データの多様なIn-Context例が含まれていても、性能が低下しました。我々の研究結果は、MetaSynthを使用する場合、実データを混ぜることなく、わずか数百万トークンの多様な合成データが効果的なドメイン適応に十分であることを示唆しています。
Vision Transformer (ViT) バックボーンを使用したシングルストリームアーキテクチャは、最近、リアルタイムのUAV追跡において大きな可能性を示しています。しかし、建物や木などの障害物による頻繁なオクルージョンは、これらのモデルがオクルージョンを効果的に処理する戦略を欠いているという重大な欠点を露呈しています。空中追跡におけるシングルストリームViTモデルのオクルージョン耐性を向上させるための新しい手法が必要です。本研究では、空間的Coxプロセスによってモデル化されたランダムマスキング操作に対するターゲットの特徴表現の不変性を強制することで、UAV追跡のためのViTベースのオクルージョン耐性表現(ORR)を学習することを提案します。このランダムマスキングは、ターゲットのオクルージョンを近似的にシミュレートし、UAV追跡においてターゲットオクルージョンに強いViTを学習することを可能にします。このフレームワークはORTrackと名付けられています。さらに、リアルタイムアプリケーションを促進するために、タスクの難易度に応じて教師モデルORTrackの動作を適応的に模倣する、よりコンパクトなトラッカーを作成するための適応的特徴ベースの知識蒸留(AFKD)手法を提案します。この学生モデルはORTrack-Dと名付けられ、ORTrackの性能を大幅に維持しながら、より高い効率を提供します。複数のベンチマークでの広範な実験により、本手法の有効性が検証され、最先端の性能が実証されています。コードはhttps://github.com/wuyou3474/ORTrackで公開されています。