翻訳付きの日次キュレーションされたAI研究論文
東南アジア(SEA)は、言語的・文化的に非常に多様な地域であるにもかかわらず、視覚言語(VL)研究において著しく過小評価されています。これにより、人工知能(AI)モデルがSEAの文化的ニュアンスを捉えられないことがしばしば生じています。このギャップを埋めるため、私たちはSEA-VLを発表します。これは、SEA言語向けの高品質で文化的に関連性のあるデータを開発するためのオープンソースイニシアチブです。SEA諸国からの貢献者を巻き込むことで、SEA-VLは文化的関連性と多様性を確保し、VL研究における過小評価されている言語の包摂性を促進することを目指しています。クラウドソーシングに加えて、私たちのイニシアチブは、クローリングや画像生成を通じた文化的に関連性のある画像の自動収集の探求にも一歩踏み込んでいます。まず、画像クローリングは文化的関連性が約85%に達し、クラウドソーシングよりもコストと時間の効率が高いことがわかりました。次に、生成的視覚モデルの大幅な進歩にもかかわらず、合成画像はSEA文化を正確に反映する信頼性が低いままです。生成された画像は、地域の微妙な伝統や文化的文脈を反映し損なうことが多いです。全体として、私たちは1.28MのSEA文化的に関連性のある画像を収集し、他の既存のデータセットの50倍以上の規模を達成しました。SEA-VLを通じて、私たちはSEAにおける表現のギャップを埋め、SEA全体の多様な文化を真正に反映するより包括的なAIシステムの開発を促進することを目指しています。
大規模マルチモーダルモデル(LMMs)における推論能力の向上は、視覚的知覚と論理的推論の複雑な相互作用から生じる特有の課題に直面しています。特に、3Bパラメータ規模のコンパクトなアーキテクチャでは、アーキテクチャ上の制約が推論能力とモダリティ間の整合性を制限しています。 ルールベースの強化学習(RL)はテキストのみの領域では優れた性能を発揮しますが、マルチモーダル領域への拡張においては、以下の2つの重要な障壁に直面します:(1) 曖昧な回答や複雑な推論事例の不足によるデータ制約、(2) マルチモーダル事前学習によって引き起こされる基礎的推論能力の低下。 これらの課題に対処するため、我々は\methodを提案します。これは、ルールベースのRLをマルチモーダル推論に適応させるための2段階フレームワークであり、まず「基礎的推論強化(FRE)」を行い、その後「マルチモーダル汎化訓練(MGT)」を実施します。FRE段階では、テキストのみのデータを用いてルールベースのRLで推論能力を強化し、MGT段階ではこれらの推論能力をマルチモーダル領域に汎化させます。 Qwen2.5-VL-Instruct-3Bを用いた実験では、\methodがマルチモーダルおよびテキストのみのベンチマークにおいて、それぞれ4.83%と4.5%の平均的な改善を達成し、複雑なFootball Gameタスクでは3.63%の向上を示しました。これらの結果は、テキストベースの推論強化が効果的なマルチモーダル汎化を可能にし、高品質なマルチモーダル訓練データのコストを回避するデータ効率的なパラダイムを提供することを実証しています。
長編音楽生成、特に挑戦的な歌詞から楽曲への変換問題に取り組むため、LLaMA2アーキテクチャに基づくオープンな基盤モデルファミリーであるYuEを導入します。具体的には、YuEは数兆トークンにスケールし、最大5分間の音楽を生成しながら、歌詞の整合性、一貫した音楽構造、適切な伴奏を伴う魅力的なボーカルメロディーを維持します。これを実現するために、(1) 密な混合信号を克服するためのトラック分離型次トークン予測、(2) 長文脈の歌詞整合性のための構造的漸進的コンディショニング、(3) 収束と汎化のためのマルチタスク・マルチフェーズ事前学習レシピを採用しています。さらに、音楽生成のためのインコンテキスト学習技術を再設計し、多様なスタイル転送(例えば、日本のシティポップを英語のラップに変換しながら元の伴奏を保持)や双方向生成を可能にします。広範な評価を通じて、YuEが音楽性とボーカルの機敏性において一部のプロプライエタリシステムに匹敵し、あるいは凌駕することを実証します。さらに、YuEのファインチューニングにより、追加の制御と低頻度言語の強化サポートが可能になります。また、生成を超えて、YuEの学習表現が音楽理解タスクにおいても優れた性能を発揮し、MARBLEベンチマークにおいて最先端の手法に匹敵またはそれを上回る結果を示します。キーワード: 歌詞から楽曲、楽曲生成、長編、基盤モデル、音楽生成
テスト時の計算リソースを効果的に活用するようモデルを訓練することは、LLMの推論性能を向上させる上で重要です。現在の手法の多くは、検索トレースを用いたファインチューニングや、0/1結果報酬を用いた強化学習(RL)を通じてこれを実現していますが、これらのアプローチはテスト時の計算リソースを効率的に活用しているでしょうか?また、これらのアプローチは計算リソースの予算が増えるにつれてスケールし続けるでしょうか?本論文では、これらの疑問に答えることを試みます。我々は、テスト時の計算リソースの最適化問題をメタ強化学習(RL)問題として形式化し、これによりテスト時の計算リソースの使用に関する原則的な視点を提供します。この視点により、LLMからの長い出力ストリームを、テスト時に実行される複数のエピソードで構成されていると見なし、出力トークンに対する累積的後悔を、テスト時の計算リソースの有効性を測る方法として用いることが可能になります。RLアルゴリズムが訓練中に探索と活用の最適なトレードオフを実現するのと同様に、累積的後悔を最小化することは、トークンストリームにおける探索と活用の最適なバランスを提供します。最先端のモデルが後悔を最小化していないことを示す一方で、これを実現するためには、0/1結果報酬RLと併せて、各出力ブロックがもたらす「進捗」を定量化した密な報酬ボーナスを最大化することが有効です。このボーナスは、最終的な成功の尤度の変化によって定量化されます。これらの洞察を基に、我々はテスト時の計算リソースを最適化する新しいファインチューニング手法のクラスである「メタ強化学習ファインチューニング(MRT)」を開発しました。MRTは、数学的推論において、結果報酬RLと比較して2~3倍の相対的性能向上と、約1.5倍のトークン効率の向上をもたらします。
本報告では、Googleの最先端大規模言語モデルであるGeminiの能力を活用した、最新の埋め込みモデル「Gemini Embedding」を紹介します。Geminiが持つ多言語理解とコード理解の能力を活かし、Gemini Embeddingは多数の言語とテキストモダリティにわたるテキストに対して、高い汎用性を持つ埋め込みを生成します。Gemini Embeddingによって生成された表現は事前計算が可能で、分類、類似性判定、クラスタリング、ランキング、検索など、さまざまな下流タスクに適用できます。250以上の言語にわたる100以上のタスクを含むMassive Multilingual Text Embedding Benchmark(MMTEB)で評価した結果、Gemini Embeddingは従来の最先端モデルを大幅に上回り、埋め込み品質の大幅な向上を示しました。MMTEBの多言語、英語、コードのベンチマークにおいて最先端の性能を達成し、当社の統一モデルは幅広いタスクにおいて強力な能力を発揮し、特定ドメインに特化したモデルを凌駕しています。
拡散モデルの急速な進展は、画像生成分野において目覚ましい進歩を促してきました。しかし、Flux、SD3.5、Midjourneyなどの主流モデルは、モデルのバイアス、テキストレンダリング能力の限界、中国文化のニュアンスに対する理解不足といった課題に依然として直面しています。これらの制約を克服するため、我々はSeedream 2.0を提案します。これは、中国語と英語のネイティブなバイリンガル画像生成基盤モデルであり、多様な次元で優れた性能を発揮します。特に、中国語と英語の両方でのテキストプロンプトの適切な処理を可能にし、バイリンガル画像生成とテキストレンダリングをサポートします。我々は、知識統合を促進する強力なデータシステムと、画像記述の正確性と豊かさをバランスさせるキャプションシステムを開発しました。特に、Seedreamは、独自開発のバイリンガル大規模言語モデルをテキストエンコーダとして統合しており、大量のデータから直接ネイティブな知識を学習することができます。これにより、中国語または英語で記述された文化的ニュアンスや美的表現を正確に反映した高忠実度画像を生成することが可能です。さらに、Glyph-Aligned ByT5を適用して柔軟な文字レベルでのテキストレンダリングを実現し、Scaled ROPEは未学習の解像度にもうまく一般化します。SFTやRLHFの反復を含む多段階のポストトレーニング最適化により、全体的な能力がさらに向上します。広範な実験を通じて、Seedream 2.0がプロンプト追従性、美的感覚、テキストレンダリング、構造的正確性の複数の側面で最先端の性能を達成することを実証しました。さらに、Seedream 2.0は複数のRLHF反復を通じて最適化され、その出力が人間の好みに密接に一致するように調整されており、その優れたELOスコアがそれを裏付けています。加えて、SeedEditのような指示ベースの画像編集モデルに容易に適応可能であり、指示追従と画像の一貫性をバランスさせる強力な編集能力を備えています。
MagicInfiniteを紹介します。これは、従来のポートレートアニメーションの制約を克服し、リアルな人間、全身像、スタイリッシュなアニメキャラクターなど、多様なキャラクタータイプにわたって高忠実度の結果を提供する新しい拡散Transformer(DiT)フレームワークです。背面ビューを含むさまざまな顔のポーズをサポートし、単一または複数のキャラクターをアニメーション化し、マルチキャラクターシーンでの正確な話者指定のための入力マスクを提供します。私たちのアプローチは、以下の3つの革新により主要な課題に取り組みます:(1)スライディングウィンドウノイズ除去戦略を備えた3D全注意メカニズムにより、多様なキャラクタースタイルにわたって時間的整合性と視覚的品質を備えた無限のビデオ生成を可能にします;(2)リップシンクのためのオーディオ、表現力豊かなダイナミクスのためのテキスト、アイデンティティ保存のための参照画像を統合した2段階のカリキュラム学習スキームにより、長いシーケンスにわたる柔軟なマルチモーダル制御を可能にします;(3)グローバルなテキスト制御とローカルなオーディオガイダンスのバランスを取るための適応的損失関数を備えた地域固有のマスクにより、話者固有のアニメーションをサポートします。効率性は、革新的な統一ステップとcfg蒸留技術により向上し、ベースモデルに比べて20倍の推論速度向上を実現します:8つのH100 GPUで、10秒の540x540pビデオを10秒、720x720pビデオを30秒で生成し、品質の損失なしに実現します。新しいベンチマークでの評価により、MagicInfiniteがオーディオリップ同期、アイデンティティ保存、多様なシナリオにわたるモーションの自然さにおいて優れていることが示されています。https://www.hedra.com/で公開されており、例はhttps://magicinfinite.github.io/で確認できます。
同じ動作を行う二人の個人はどのように異なるのか?本研究では、同一動作のビデオ間の微妙な差異を識別する新たなタスクであるVideo Action Differencing(VidDiff)を提案する。このタスクは、コーチングやスキル学習など多くの応用が期待される。この新たなタスクの開発を可能にするため、まずVidDiffBenchというベンチマークデータセットを作成した。このデータセットには549組のビデオペアが含まれており、4,469の細粒度の動作差異と、これらの差異が発生する箇所を示す2,075のローカライゼーションタイムスタンプが人間によってアノテーションされている。我々の実験では、VidDiffBenchがGPT-4oやQwen2-VLなどの最先端の大規模マルチモーダルモデル(LMM)にとって重大な課題であることを示した。VidDiffBenchにおけるLMMの失敗事例を分析することで、このタスクにおける二つの主要な課題を明らかにした:二つのビデオにわたる関連サブアクションのローカライゼーションと、細粒度のフレーム比較。これらの課題を克服するため、VidDiffメソッドを提案する。これは、タスクを三つの段階に分割するエージェンシックなワークフローである:動作差異提案、キーフレームローカライゼーション、フレーム差分。各段階では専門の基盤モデルを活用する。この新たなタスクにおける将来の研究を促進するため、ベンチマークをhttps://huggingface.co/datasets/jmhb/VidDiffBenchで、コードをhttp://jmhb0.github.io/viddiffで公開している。
統一マルチモーダルモデル(UMMs)は、基礎的なコンピュータビジョン研究において強力なパラダイムとして登場し、画像理解と生成の両方で大きな可能性を示しています。しかし、顔領域における既存の研究は主に粗い顔属性の理解に焦点を当てており、細粒度の顔属性を扱う能力が限られており、生成能力には対応していません。これらの制限を克服するため、我々は細粒度の顔理解と生成に特化した最初のUMMであるUniF^2aceを提案します。一般的に、UniF^2aceは、相互に有益な2つの拡散技術と2段階のエキスパート混合アーキテクチャを活用して、独自に構築した専門データセットで訓練します。具体的には、まず、130Kの画像-テキストペアと100万の質問-回答ペアを含む大規模な顔データセット、UniF^2ace-130Kを構築します。これらは幅広い顔属性をカバーしています。次に、離散拡散スコアマッチングとマスク生成モデルの間の理論的接続を確立し、両方の証拠下限を同時に最適化することで、モデルの顔の詳細を合成する能力を大幅に向上させます。最後に、トークンレベルとシーケンスレベルのエキスパート混合を導入し、理解と生成タスクの両方に対して効率的な細粒度表現学習を可能にします。UniF^2ace-130Kでの広範な実験により、UniF^2aceが既存のUMMsや生成モデルを上回り、理解と生成タスクの両方で優れた性能を達成することが実証されています。
MLLM(マルチモーダル大規模言語モデル)は、画像理解能力において一定の成果を示しているものの、ピクセルレベルの理解には依然として課題があり、実用的な応用が制限されています。現在の評価タスクであるVQA(視覚的質問応答)やビジュアルグラウンディングは、細かいピクセルレベルの理解を正確に評価するには粗すぎます。セグメンテーションはピクセルレベルの理解の基盤ですが、既存の手法では、MLLMに暗黙的なトークンを生成させ、外部のピクセルデコーダーを通じてデコードする必要があります。このアプローチは、MLLMのテキスト出力空間を乱し、言語能力を損なう可能性があり、柔軟性と拡張性を低下させると同時に、モデルの本質的なピクセルレベルの理解を反映しません。 そこで、我々は「Human-Like Mask Annotation Task(HLMAT)」を導入しました。これは、MLLMがインタラクティブなセグメンテーションツールを使用して人間のアノテーターを模倣する新しいパラダイムです。セグメンテーションを多段階のマルコフ決定過程としてモデル化することで、HLMATはMLLMがテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙的なトークンを必要とせずに高品質なマスクを実現します。この設定を通じて、人間のようなアノテーショントラジェクトリに微調整されたモデル「SegAgent」を開発し、最新の手法(SOTA)に匹敵する性能を達成し、マスクの精緻化やアノテーションフィルタリングなどの追加タスクもサポートします。 HLMATは、MLLMの細かいピクセルレベルの理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入することで、MLLMの視覚的推論能力の探求を促進します。我々は、ポリシー改善手法「StaR」とPRMガイド付き木探索を適応させ、複雑なセグメンテーションタスクにおけるモデルの堅牢性をさらに向上させ、MLLMの細かい視覚的知覚と多段階意思決定の将来の発展の基盤を築きました。
近年のテキストからビデオへの拡散モデルの進歩により、単一のプロンプトから高品質な短編ビデオを生成することが可能になりました。しかし、現実世界の長編ビデオを一気に生成することは、データの制約と高い計算コストのため、依然として困難です。この問題に対処するため、いくつかの研究では、既存のモデルを長編ビデオ生成に拡張するチューニング不要のアプローチを提案しています。具体的には、複数のプロンプトを使用して動的で制御されたコンテンツの変更を可能にします。しかし、これらの手法は主に隣接するフレーム間のスムーズな遷移を確保することに焦点を当てており、長いシーケンスではコンテンツのドリフトや意味的一貫性の徐々の喪失を引き起こすことがあります。このような問題を解決するために、我々はSynchronized Coupled Sampling (SynCoS)という新しい推論フレームワークを提案します。SynCoSは、ビデオ全体にわたってノイズ除去パスを同期させ、隣接するフレームだけでなく遠く離れたフレーム間でも長距離の一貫性を確保します。我々のアプローチは、逆サンプリングと最適化ベースのサンプリングという2つの補完的なサンプリング戦略を組み合わせています。これにより、シームレスな局所的な遷移とグローバルな一貫性がそれぞれ確保されます。しかし、これらのサンプリングを直接交互に行うと、ノイズ除去の軌跡がずれ、プロンプトのガイダンスが乱れ、意図しないコンテンツの変更が導入されます。これを解決するために、SynCoSは、グラウンドされたタイムステップと固定されたベースラインのノイズを通じてこれらを同期させ、完全に結合されたサンプリングと整列したノイズ除去パスを確保します。広範な実験により、SynCoSがマルチイベントの長編ビデオ生成を大幅に改善し、よりスムーズな遷移と優れた長距離の一貫性を達成し、従来のアプローチを量的にも質的にも上回ることが示されました。
テスト時計算は、OpenAIのo1やo3、そしてDeepSeekのR1の成功が示すように、言語モデルの複雑な多段階推論能力を向上させる新たなパラダイムとして登場しています。テスト時計算における明示的推論と比較して、暗黙的推論は推論効率が高く、生成されるトークン数が少なくて済みます。しかし、なぜ高度な推論能力が暗黙的推論スタイルでは発現しないのでしょうか?本研究では、GPT-2を厳選された多段階数学的推論データセットでゼロから訓練し、言語モデルが多段階タスクにおいて暗黙的推論をどのように行うかを調査するための分析実験を行いました。その結果、以下のことが明らかになりました:1)言語モデルは段階的な推論を行い、暗黙的推論を通じてドメイン内およびドメイン外のテストで高い精度を達成できます。ただし、この能力は固定パターンのデータで訓練された場合にのみ発現します。2)逆に、非固定パターンのデータで訓練された場合に発現する暗黙的推論能力は、特定のパターンに過剰適合し、さらに一般化することができません。注目すべきは、この制約が最先端の大規模言語モデルでも観察されることです。これらの発見は、言語モデルがショートカット学習を通じて暗黙的推論を獲得し、類似したパターンのタスクでは強力な性能を発揮する一方で、一般化能力を欠いていることを示唆しています。
テキストから画像を生成する技術の最近の進展は、主に大規模なデータセットとパラメータ数の多いアーキテクチャに依存してきました。これらの要件は、十分な計算リソースを持たない研究者や実務者にとってアクセシビリティを大幅に制限しています。本論文では、知識蒸留(KD)とDirect Preference Optimization(DPO)を活用した効率的な画像生成モデルのトレーニングパラダイムである\modelを紹介します。マルチモーダル大規模言語モデル(MLLM)で広く採用されているデータKD技術の成功に着想を得て、LightGenは最先端(SOTA)のテキストから画像を生成するモデルの知識を、わずか0.7BパラメータのコンパクトなMasked Autoregressive(MAR)アーキテクチャに蒸留します。多様なキャプションから生成された200万枚の高品質な画像からなるコンパクトな合成データセットを使用し、モデルの性能を決定する上でデータの多様性がデータ量を大幅に上回ることを実証します。この戦略により、計算需要が劇的に削減され、事前学習時間が潜在的に数千GPU日からわずか88GPU日に短縮されます。さらに、合成データに内在する欠点、特に高周波ディテールの不足や空間的な不正確さに対処するため、画像の忠実度と位置精度を向上させるDPO技術を統合します。包括的な実験により、LightGenがSOTAモデルに匹敵する画像生成品質を達成しつつ、計算リソースを大幅に削減し、リソースが限られた環境でのアクセシビリティを拡大することが確認されました。コードはhttps://github.com/XianfengWu01/LightGenで公開されています。
近年、統一されたマルチモーダル理解と視覚生成(またはマルチモーダル生成)モデルの進展は、その二次的な計算複雑性と大規模な訓練データへの依存によって妨げられてきた。本論文では、OmniMambaを紹介する。これは、統一された次トークン予測パラダイムを通じてテキストと画像の両方を生成する、初の線形アーキテクチャに基づくマルチモーダル生成モデルである。このモデルは、Mamba-2の高い計算効率とメモリ効率を最大限に活用し、その能力をテキスト生成からマルチモーダル生成へと拡張する。既存の統一モデルのデータ非効率性に対処するため、我々は二つの主要な革新を提案する:(1) モダリティ固有の生成を導くための分離された語彙、(2) パラメータ効率の良い適応のためのタスク固有のLoRA。さらに、二つのタスク間のデータ不均衡を緩和するために、分離された二段階の訓練戦略を導入する。これらの技術を備えたOmniMambaは、JanusFlowと競争力のある性能を達成し、Show-oをベンチマークで上回る。これは、Show-oの1,000分の1に過ぎない200万の画像-テキストペアで訓練されたにもかかわらずである。特に、OmniMambaは優れた推論効率で際立っており、Transformerベースのモデルと比較して、長いシーケンス生成において最大119.2倍の高速化と63%のGPUメモリ削減を実現する。コードとモデルはhttps://github.com/hustvl/OmniMambaで公開されている。
命令追従型検索システムは、大規模言語モデル(LLM)と共に実世界のアプリケーションで広く採用されていますが、その検索能力の向上に伴う安全性リスクについてはほとんど研究が行われていません。本研究では、検索システムが悪意のあるクエリを満たす能力を、直接使用した場合と検索拡張生成(RAG)ベースのセットアップで使用した場合の両方について実証的に調査します。具体的には、NV-EmbedやLLM2Vecを含む6つの主要な検索システムを調査し、悪意のあるリクエストが与えられた場合、ほとんどの検索システムが(50%以上のクエリに対して)関連する有害な文章を選択できることを明らかにしました。例えば、LLM2Vecは、私たちの悪意のあるクエリの61.35%に対して正しく文章を選択しました。さらに、命令追従型検索システムにおける新たなリスクを発見しました。その命令追従能力を悪用することで、非常に関連性の高い有害な情報が表面化する可能性があります。最後に、Llama3のような安全性が考慮されたLLMでさえ、コンテキスト内で有害な検索結果が提供された場合、悪意のあるリクエリを満たすことができることを示します。要約すると、本研究の結果は、検索システムの能力向上に伴う悪用リスクを浮き彫りにしています。
コードローカライゼーション――コードベース内で変更が必要な箇所を正確に特定すること――は、ソフトウェア保守における基本的でありながら困難なタスクです。既存のアプローチでは、関連するコードセクションを特定する際に複雑なコードベースを効率的にナビゲートすることが困難です。この課題は、自然言語による問題記述と適切なコード要素を結びつけることにあり、しばしば階層構造や複数の依存関係にわたる推論を必要とします。本論文では、グラフベースの表現を通じてコードローカライゼーションに取り組むLocAgentフレームワークを紹介します。LocAgentは、コードベースを有向異種グラフに解析することで、コード構造(ファイル、クラス、関数)とそれらの依存関係(インポート、呼び出し、継承)を捉えた軽量な表現を作成し、LLMエージェントが強力なマルチホップ推論を通じて関連するエンティティを効果的に検索・特定できるようにします。実世界のベンチマークでの実験結果は、本アプローチがコードローカライゼーションの精度を大幅に向上させることを示しています。特に、ファインチューニングされたQwen-2.5-Coder-Instruct-32Bモデルを使用した本手法は、SOTAのプロプライエタリモデルと同等の結果を大幅に低コスト(約86%削減)で達成し、ファイルレベルのローカライゼーションで最大92.7%の精度に達するとともに、複数回の試行(Pass@10)におけるGitHubイシュー解決成功率を12%向上させました。本コードはhttps://github.com/gersteinlab/LocAgentで公開されています。
人間と外部世界との相互作用は、本質的に個人の記憶の交換を伴います。それは他の個人、ウェブサイト、アプリケーション、そして将来的にはAIエージェントとの間で行われます。この相互作用の大部分は冗長であり、ユーザーは異なる文脈で同じ情報を繰り返し提供する必要があります。既存の解決策、例えばブラウザに保存された認証情報、自動入力機能、統一認証システムなどは、一般的に使用されるユーザーデータを保存・取得する仲介役として、この冗長性を軽減することを目指してきました。大規模言語モデル(LLM)の登場は、AIネイティブなパラダイムを通じて記憶管理を再定義する機会を提供します:SECOND MEです。SECOND MEは、知的で永続的な記憶オフロードシステムとして機能し、ユーザー固有の知識を保持、整理、動的に活用します。ユーザー相互作用の仲介役として、文脈を意識した応答を自律的に生成し、必要な情報を事前に入力し、外部システムとのシームレスなコミュニケーションを促進することで、認知負荷と相互作用の摩擦を大幅に軽減します。従来の記憶ストレージソリューションとは異なり、SECOND MEはLLMベースの記憶パラメータ化を活用することで、静的なデータ保持を超えた機能を提供します。これにより、構造化された整理、文脈に基づく推論、適応的な知識検索が可能となり、より体系的で知的な記憶管理アプローチを実現します。SECOND MEのようなAI駆動の個人エージェントがデジタルエコシステムにますます統合されるにつれ、SECOND MEは、永続的で文脈を意識し、自己最適化する記憶システムを通じて、人間と世界の相互作用を強化するための重要な一歩を表しています。私たちは、完全にローカライズ可能な展開システムをGitHubでオープンソース化しました:https://github.com/Mindverse/Second-Me。
我々は、潜在トークン空間に証明可能なPCA(主成分分析)に似た構造を埋め込む新しい視覚的トークン化フレームワークを提案する。既存の視覚的トークナイザーは主に再構成精度を最適化するが、潜在空間の構造的特性——解釈可能性と下流タスクの両方にとって重要な要素——をしばしば無視している。我々の手法は、画像に対して1次元の因果的トークン列を生成し、各連続するトークンが重複しない情報を提供し、説明される分散が数学的に保証された形で減少する。これは主成分分析と類似しており、この構造的制約により、トークナイザーは最も重要な視覚的特徴を最初に抽出し、その後の各トークンが減少するが補完的な情報を追加することを保証する。さらに、拡散デコーダを活用することで、高レベルの意味的内容と低レベルのスペクトル詳細がトークン内で望ましくない形で絡み合うセマンティック-スペクトル結合効果を特定し、解決した。実験結果は、我々のアプローチが最先端の再構成性能を達成し、人間の視覚システムに沿ったより良い解釈可能性を実現することを示している。さらに、我々のトークン列で訓練された自己回帰モデルは、現在の最先端手法と同等の性能を達成しつつ、訓練と推論に必要なトークン数を削減する。
マルチモーダル基盤モデルが自動運転車に実験的に導入され始める中、私たちが自問する合理的な疑問は、これらのシステムが特定の運転状況、特に分布外の状況において、人間とどの程度似た反応を示すかということです。これを研究するため、私たちはRobusto-1データセットを作成しました。このデータセットは、世界で最も攻撃的なドライバーがいる国の一つであり、交通指数が高く、訓練中に見たことがないような奇妙な街路物体の比率が高いペルーのダッシュカム映像データを使用しています。特に、基盤視覚言語モデル(VLM)が運転において人間とどの程度比較できるかを認知レベルで予備的にテストするため、バウンディングボックス、セグメンテーションマップ、占有マップ、軌道推定から離れ、マルチモーダル視覚質問応答(VQA)を用いて、システム神経科学で一般的な表現類似性分析(RSA)を通じて人間と機械を比較します。私たちが尋ねる質問の種類とこれらのシステムが与える回答に応じて、VLMと人間がどの場合に収束または分岐するかを示し、それらの認知的な整合性を探ることができます。私たちは、各システム(人間対VLM)に尋ねる質問の種類によって整合性の度合いが大きく異なることを発見し、それらの整合性におけるギャップを浮き彫りにしました。
本論文では、動的な視聴覚刺激中のEEG(脳波)とfMRI(機能的磁気共鳴画像法)の同時記録を特徴とする初の大規模データセット、CineBrainを紹介します。EEGの高い時間分解能とfMRIの深部脳空間カバレッジの相補的な強みを認識し、CineBrainは人気テレビシリーズ『The Big Bang Theory』からの約6時間の物語駆動型コンテンツを6名の被験者それぞれに対して提供します。このユニークなデータセットを基盤として、マルチモーダル融合エンコーダと拡散ベースのニューラル潜在デコーダを統合した革新的なマルチモーダルデコーディングフレームワーク、CineSyncを提案します。我々のアプローチはEEGとfMRI信号を効果的に融合し、複雑な視聴覚刺激の再構成品質を大幅に向上させます。厳密な評価を促進するため、意味的および知覚的次元にわたる再構成を評価する包括的な評価プロトコル、Cine-Benchmarkを導入します。実験結果は、CineSyncが最先端のビデオ再構成性能を達成し、fMRIとEEGを組み合わせてビデオおよびオーディオ刺激を再構成する我々の初期の成功を強調しています。プロジェクトページ: https://jianxgao.github.io/CineBrain。
大規模視覚言語モデル(LVLM)は顕著な成果を上げているものの、事実を求める質問応答(QA)において非事実的な回答の生成が依然として広く見られます。現在のマルチモーダル事実探索ベンチマークは、主にモデルの出力を正解と比較することに焦点を当てており、モダリティ固有のモジュールの性能に関する洞察は限られています。このギャップを埋めるため、我々はVisualSimpleQAというマルチモーダル事実探索ベンチマークを導入します。このベンチマークには2つの主要な特徴があります。第一に、視覚と言語のモダリティにおいて、LVLMの評価を簡素化し分離することが可能です。第二に、明確に定義された難易度基準を組み込むことで、人間によるアノテーションをガイドし、挑戦的なサブセットであるVisualSimpleQA-hardの抽出を容易にします。15のLVLMを用いた実験では、GPT-4oのような最先端のモデルでさえ、VisualSimpleQAにおけるマルチモーダル事実探索QAでわずか60%以上の正答率、VisualSimpleQA-hardでは30%以上の正答率しか達成できませんでした。さらに、これらのモデルにおける分離評価は、視覚と言語の両モジュールにおいて大幅な改善の余地があることを示しています。データセットはhttps://huggingface.co/datasets/WYLing/VisualSimpleQAで公開されています。
ベンチマークは、一貫した評価と再現性を確保するために不可欠です。ソフトウェア工学への人工知能の統合(AI4SE)により、コード生成やバグ修正などのタスクに対する数多くのベンチマークが生まれました。しかし、この急増は以下の課題をもたらしています:(1)タスク間で分散したベンチマーク知識、(2)関連するベンチマークの選択の難しさ、(3)ベンチマーク開発の統一標準の欠如、(4)既存ベンチマークの限界。本論文では、173の研究をレビューし、204のAI4SEベンチマークを特定しました。これらのベンチマークを分類し、その限界を分析し、実践におけるギャップを明らかにします。レビューに基づき、関連研究の文脈を自動クラスタリングして、適切なベンチマークを見つけるためのセマンティック検索ツールであるBenchScoutを作成しました。22名の参加者によるユーザー調査を実施し、BenchScoutの使いやすさ、有効性、直感性を評価した結果、それぞれ5点満点中4.5、4.0、4.1の平均スコアを得ました。ベンチマーク標準を進化させるため、ベンチマーク品質を向上させる統一手法であるBenchFrameを提案します。ケーススタディとして、BenchFrameをHumanEvalベンチマークに適用し、その主な限界に対処しました。これにより、(1)誤りの修正、(2)言語変換の改善、(3)テストカバレッジの拡大、(4)難易度の向上を特徴とするHumanEvalNextが生まれました。その後、HumanEval、HumanEvalPlus、HumanEvalNextの3つに対して、最先端のコード言語モデル10種を評価しました。HumanEvalNextでは、モデルのpass@1スコアがHumanEvalと比較して31.22%、HumanEvalPlusと比較して19.94%減少しました。
大規模言語モデルのニューロンは、しばしば多義性を示し、複数の無関係な概念を同時に符号化することで解釈可能性を曖昧にします。事後的な手法に頼るのではなく、本質的に解釈可能な設計を目指したMixture-of-Experts(MoE)言語モデルであるMoE-Xを提案します。我々のアプローチは、言語モデルにおいて、スパースな活性化を持つ幅広いネットワークが解釈可能な因子を捉えやすいという観察に基づいています。しかし、そのような大規模なスパースネットワークを直接訓練することは計算上非現実的です。MoEアーキテクチャは、任意の入力に対して専門家のサブセットのみを活性化することで、解釈可能性の目的と本質的に整合するスケーラブルな代替手段を提供します。MoE-Xでは、MoE層を等価なスパースな大規模MLPとして再定式化することで、この関連性を確立します。このアプローチにより、スパース性を維持しながら隠れ層のサイズを効率的にスケーリングすることが可能になります。さらに解釈可能性を向上させるため、各専門家内でスパースな活性化を強制し、最も活性化スパース性の高い専門家を優先するようにルーティングメカニズムを再設計します。これらの設計により、最も顕著な特徴のみが専門家にルーティングされ処理されることが保証されます。MoE-Xをチェスおよび自然言語タスクで評価し、密なモデルと同等の性能を維持しながら、解釈可能性を大幅に向上させることを示します。MoE-XはGPT-2を上回るパープレキシティを達成し、スパースオートエンコーダ(SAE)ベースのアプローチさえ凌ぐ解釈可能性を実現します。
オーディオとビデオの共同生成(AV生成)は、生成AIにおける重要な課題であり、主に以下の3つの要件が原因となっています:生成サンプルの品質、シームレスなマルチモーダル同期と時間的一貫性(音声トラックが視覚データと一致し、その逆も同様であること)、そして無制限のビデオ再生時間。本論文では、AV生成の主要な課題をすべて解決する、新しいトランスフォーマーベースのアーキテクチャを提案します。3つの異なるクロスモダリティ相互作用モジュールを探求し、軽量な時間的融合モジュールが、音声と視覚モダリティを整列させるための最も効果的で計算効率の高いアプローチであることを明らかにしました。実験結果は、提案モデルがマルチモーダルAV生成タスクにおいて、既存の最先端モデルを凌駕することを示しています。コードとチェックポイントはhttps://github.com/ErgastiAlex/R-FLAVで公開されています。
学習ベースのモーションインビートウィーニングにおける最近の進展にもかかわらず、重要な制限が見落とされてきました:キャラクター固有のデータセットが必要であることです。本研究では、この制限を解決する新しい手法AnyMoLeを紹介します。AnyMoLeは、外部データなしで任意のキャラクターのモーションインビートウィーンフレームを生成するためにビデオ拡散モデルを活用します。私たちのアプローチは、文脈理解を強化するための2段階のフレーム生成プロセスを採用しています。さらに、実世界とレンダリングされたキャラクターアニメーションの間のドメインギャップを埋めるために、ビデオ拡散モデルのためのファインチューニング技術であるICAdaptを導入します。加えて、「モーションビデオ模倣」最適化技術を提案し、2Dおよび3D対応の特徴を使用して任意の関節構造を持つキャラクターのシームレスなモーション生成を可能にします。AnyMoLeは、データ依存性を大幅に削減しながら、滑らかでリアルな遷移を生成し、幅広いモーションインビートウィーニングタスクに適用可能です。
従来の研究では、言語モデルがステレオタイプ的なバイアスを示すことが確認されています。既存のバイアス除去戦略、例えば反事実的データを用いたモデルの再学習、表現射影、プロンプティングなどは、効率的にバイアスを除去することや、モデルの偏った内部表現を直接変更することにしばしば失敗します。これらの問題に対処するため、我々はBiasEditを提案します。これは、軽量なネットワークをエディタとして使用し、パラメータ更新を生成することで、言語モデルからステレオタイプ的なバイアスを除去する効率的なモデル編集手法です。BiasEditは、バイアス除去を導く損失関数を用いて、エディタネットワークが言語モデルの一部のパラメータに対して局所的な編集を行い、編集中に言語モデリング能力を保持するための保持損失を組み合わせています。StereoSetとCrows-Pairsでの実験により、BiasEditがバイアスを除去する効果、効率性、堅牢性が、接線的なバイアス除去ベースラインと比較して優れていること、また言語モデルの一般的な能力にほとんど影響を与えないことが実証されました。さらに、我々はバイアストレーシングを行い、様々なモジュールにおけるバイアスを探り、言語モデルの異なるコンポーネントに対するバイアス編集の影響を探求しました。
コンピュータビジョンにおいて、人間は間違いなく最も重要な対象であり、自然言語の記述に基づいて任意の個人を検出する能力、すなわち「人物参照」タスクは、実用的な価値が極めて高い。しかし、既存のモデルは実世界での使用に耐える性能を達成できておらず、現在のベンチマークも一対一の参照に焦点を当てているため、この分野の進展が妨げられている。本研究では、このタスクを「タスク定義」「データセット設計」「モデルアーキテクチャ」という3つの重要な観点から再検討する。まず、参照可能なエンティティの5つの側面と、このタスクの3つの特徴を特定する。次に、これらの課題に対処し、実世界のアプリケーションをよりよく反映するために設計された新しいデータセット「HumanRef」を紹介する。モデル設計の観点では、マルチモーダル大規模言語モデルと物体検出フレームワークを統合し、堅牢な参照モデル「RexSeek」を構築する。実験結果から、RefCOCO/+/gなどの一般的なベンチマークで良好な性能を示す最先端のモデルは、複数の個人を検出できないためHumanRefでは苦戦することが明らかになった。一方、RexSeekは人物参照において優れた性能を発揮するだけでなく、一般的な物体参照にも効果的に汎化し、さまざまな知覚タスクに広く適用可能であることが示された。コードはhttps://github.com/IDEA-Research/RexSeekで公開されている。
拡散モデルやFlow Matchingは高品質なサンプルを生成しますが、推論が遅く、それらを少ステップモデルに蒸留すると不安定さや大量のチューニングが必要になることがよくあります。これらのトレードオフを解決するため、我々はInductive Moment Matching (IMM)を提案します。これは、単一ステージの訓練手順で1ステップまたは少数ステップのサンプリングを可能にする新しいクラスの生成モデルです。蒸留とは異なり、IMMは事前訓練された初期化や2つのネットワークの最適化を必要としません。また、Consistency Modelsとは異なり、IMMは分布レベルの収束を保証し、様々なハイパーパラメータや標準的なモデルアーキテクチャの下で安定しています。IMMは、ImageNet-256x256において8推論ステップのみで1.99のFIDを達成し、拡散モデルを上回りました。さらに、CIFAR-10ではスクラッチから訓練したモデルで2ステップFID 1.98という最先端の結果を達成しました。
先行研究では、PLMベースの検索モデルがLLM生成コンテンツに対して選好を示し、その意味的品質が人間が書いたものと同等である場合でも、これらの文書により高い関連性スコアを付与することが明らかになっています。この現象は「ソースバイアス」として知られ、情報アクセスエコシステムの持続可能な発展を脅かしています。しかし、ソースバイアスの根本的な原因は未解明のままでした。本論文では、因果グラフを用いて情報検索のプロセスを説明し、PLMベースの検索器が関連性推定のためにパープレキシティ特徴を学習し、パープレキシティの低い文書を高くランク付けすることでソースバイアスが生じることを明らかにしました。理論分析により、この現象は言語モデリングタスクと検索タスクにおける損失関数の勾配間の正の相関に起因することがさらに示されました。この分析に基づき、因果関係に着想を得た推論時のバイアス除去手法「Causal Diagnosis and Correction(CDC)」を提案します。CDCはまずパープレキシティのバイアス効果を診断し、次にそのバイアス効果を全体の関連性スコア推定から分離します。3つのドメインにわたる実験結果は、CDCの優れたバイアス除去効果を示しており、提案した説明フレームワークの有効性を強調しています。ソースコードはhttps://github.com/WhyDwelledOnAi/Perplexity-Trapで公開されています。
拡散モデルは様々な領域で顕著な成功を収めてきた。しかし、その生成速度の遅さは依然として重要な課題である。既存の高速化手法はステップ数を削減することを目指すが、サンプル品質や制御性を犠牲にしたり、学習の複雑さを増したりすることが多い。そこで我々は、これらの限界を解決する新しい拡散フレームワークであるRayFlowを提案する。従来の手法とは異なり、RayFlowは各サンプルをインスタンス固有の目標分布に向かう独自のパスに沿って導く。この手法はサンプリングステップを最小化しつつ、生成の多様性と安定性を維持する。さらに、重要なタイムステップに焦点を当てることで学習効率を向上させる重要度サンプリング技術であるTime Samplerを導入する。大規模な実験により、RayFlowが既存の高速化技術と比較して、高品質な画像をより高速に、制御性を高め、学習効率を向上させて生成できる優位性が実証された。
ニューラル機械翻訳(NMT)の分野は、大規模言語モデル(LLM)の登場によって変化してきた。近年の自然言語処理(NLP)では、機械翻訳やその他の多くの問題を単一の事前学習済みTransformerデコーダでモデル化することに重点が置かれており、従来のNMTモデルで標準的だったエンコーダ-デコーダアーキテクチャは比較的注目を集めていない。本論文では、LLMの世界とNMTの世界を融合させることで、普遍的で効率的かつ最適化が容易な翻訳モデルを探求する。我々はLLMをNMTのエンコーディングに適用し、NMTデコーダはそのまま残す。また、LLMをNMTデコーダとより良く連携させるための適応手法を開発する。さらに、機械翻訳システムが様々なタスクにわたってどれだけ汎化するかを評価するために、複数のタスクを含む新しいデータセットを構築する。WMTおよび我々のデータセットでの評価では、我々の手法を用いた結果が翻訳品質の面で一連のベースラインと同等またはそれを上回りつつ、推論速度が2.4~6.5倍向上し、KVキャッシュのメモリ使用量が75%削減されることが示された。また、翻訳関連の様々なタスクにわたって強い汎化性能を示すことも実証された。
長尺動画理解における最近の進展では、通常、注意分布に基づく視覚トークンのプルーニングを通じて視覚的な冗長性を軽減しています。しかし、既存の手法はデコーダ層での事後的な低応答トークンのプルーニングを採用している一方で、視覚トークンと指示(クエリ)間の入力レベルの意味的相関を見落としています。本論文では、既存の大規模動画言語モデル(LVLM)を拡張し、クエリ指向のフレームレベル重要度評価に基づく視覚トークン割り当てを行う、訓練不要のモジュールであるQuoTAを提案します。クエリ指向のトークン選択は、視覚処理をタスク固有の要件に合わせることで、トークン予算の効率的な利用を最適化しつつ、意味的に関連するコンテンツを保持するために重要です。具体的には、(i) QuoTAはクエリ関連性に基づいてフレームレベル重要度スコアを戦略的に割り当て、デコーダ層でのクロスモーダル相互作用前に一度だけ視覚トークンを割り当てることを可能にし、(ii) Chain-of-Thoughts推論を通じてクエリを分離し、より正確なLVLMベースのフレーム重要度スコアリングを促進し、(iii) QuoTAは既存のLVLMに拡張可能なプラグアンドプレイ機能を提供します。広範な実験結果は、LLaVA-Video-7BにQuoTAを実装することで、ベースラインと同一の視覚トークン予算内で動作しながら、Video-MMEやMLVUを含む6つのベンチマークで平均3.2%の性能向上を達成することを示しています。コードはhttps://github.com/MAC-AutoML/QuoTAで公開されています。
一見単純に見える画像内のオブジェクト移動は、実際には非常に挑戦的な画像編集タスクです。これには、照明の再調和、視点に基づくポーズ調整、遮蔽領域の正確な補填、影や反射の一貫した同期化、そしてオブジェクトの同一性の維持が要求されます。本論文では、高度に複雑なシーンでのオブジェクト移動を可能にする生成モデル「ObjectMover」を提案します。私たちの重要な洞察は、このタスクをシーケンス間問題としてモデル化し、ビデオ生成モデルを微調整して、ビデオフレーム間での一貫したオブジェクト生成の知識を活用することです。このアプローチにより、モデルが複雑な現実世界のシナリオに適応し、極端な照明調和やオブジェクト効果の移動を処理できることを示します。オブジェクト移動のための大規模データが存在しないため、現代のゲームエンジンを使用して高品質なデータペアを合成するデータ生成パイプラインを構築しました。さらに、現実世界のビデオデータでのトレーニングを可能にするマルチタスク学習戦略を提案し、モデルの汎化性能を向上させます。広範な実験を通じて、ObjectMoverが優れた結果を達成し、現実世界のシナリオに適応することを実証します。
Mixture of Experts(MoE)は、スパースなエキスパート活性化を活用し、性能と効率性のトレードオフを最適化することで、大規模言語モデルのスケーリングに有効なアーキテクチャです。しかし、エキスパート並列処理の下では、MoEはトークンからエキスパートへの割り当ての不均衡による推論の非効率性に悩まされます。一部のエキスパートが過負荷になる一方で、他のエキスパートは十分に活用されないため、リソースの利用率が低下し、最も負荷のかかったエキスパートが全体の遅延を決定するという現象が発生します。この現象を我々は「Straggler Effect」と定義します。これを緩和するために、我々はCapacity-Aware Inferenceを提案します。これには2つの主要な技術が含まれます:(1)過負荷のトークンを破棄してMoEの最大遅延を調整する「Capacity-Aware Token Drop」と、(2)オーバーフローしたトークンを未活用のエキスパートに再割り当てし、トークン分布を均衡化する「Capacity-Aware Token Reroute」です。これらの技術を組み合わせることで、高負荷および低負荷のエキスパートの利用率を最適化し、より効率的なMoE推論パイプラインを実現します。大規模な実験により、我々の手法の有効性が実証され、推論効率の大幅な改善が示されました。例えば、Mixtral-8×7B-Instructでは、平均性能が0.2%向上し、推論速度が1.94倍に高速化されました。
情報検索(IR)アプリケーション、特にRetrieval-Augmented Generation(RAG)において、密な検索モデルは一般的に使用されています。これらのシステムの最初のステップとして機能することが多いため、その堅牢性は失敗を回避する上で極めて重要です。本研究では、関係抽出データセット(例:Re-DocRED)を再利用し、Dragon+やContrieverなどの検索モデルにおけるヒューリスティックなバイアス(例えば、短い文書を優先する傾向)の影響を定量化するための制御実験を設計しました。我々の調査結果は、検索モデルが文書の冒頭を過度に優先する、短い文書を好む、繰り返し出現するエンティティを重視する、文字通りの一致を優先するといった表面的なパターンに依存していることを明らかにしています。さらに、これらのモデルは、文書がクエリの答えを含んでいるかどうかを深く理解せずに見落とす傾向があります。特に、複数のバイアスが組み合わさると、モデルは壊滅的な性能低下を示し、答えを含まないバイアスのかかった文書を優先して、答えを含む文書を選択する確率が3%未満にまで低下します。さらに、これらのバイアスはRAGのような下流アプリケーションに直接的な影響を及ぼし、検索モデルが優先する文書が大規模言語モデル(LLM)を誤導し、文書を提供しない場合と比べて34%の性能低下を引き起こすことを示しました。
知性とは、限られた試行錯誤の回数の中で解決策を見つけるための生物にとって重要な特性である。この考えに基づき、我々は試行錯誤プロセスにおける失敗回数に基づいて知性を評価するフレームワークとして「サバイバルゲーム」を提案する。失敗回数が少ないほど、より高い知性を示す。失敗回数の期待値と分散がともに有限である場合、それは新しい課題に対して一貫して解決策を見つける能力を示しており、我々はこれを「自律レベル」の知性と定義する。サバイバルゲームを用いて、既存のAIシステムを包括的に評価した結果、AIシステムは単純なタスクでは自律レベルを達成しているものの、視覚、検索、推薦、言語といったより複雑なタスクではまだ遠く及ばないことが明らかになった。現在のAI技術をスケールアップすることで改善が期待されるが、それには天文学的なコストがかかる。一般的なタスクにおける自律レベルを達成するためには10^{26}のパラメータが必要と予測されており、このような巨大なモデルをロードするにはH100 GPUが大量に必要で、その総価値はApple社の時価総額の10^{7}倍に相当する。ムーアの法則を考慮しても、この規模のパラメータをサポートするには70年かかる。この驚異的なコストは、人間のタスクの複雑さと現在のAI技術の不十分さを浮き彫りにしている。この現象をさらに調査するため、我々はサバイバルゲームとその実験結果について理論的な分析を行った。その結果、人間のタスクには臨界性の特性があることが示唆された。そのため、自律レベルを達成するには、タスクの根本的なメカニズムを深く理解する必要がある。しかし、現在のAIシステムはこれらのメカニズムを完全には理解しておらず、表面的な模倣に頼っているため、自律レベルに到達することが困難である。我々は、サバイバルゲームがAIの将来の発展を導くだけでなく、人間の知性に対する深い洞察を提供できると信じている。
言語モデルによる幻覚的な出力は、医療分野において特に健康関連の意思決定を行う一般の聴衆にとってリスクをもたらします。既存の事実性評価手法(例えば、含意関係や質問応答ベースの手法)は、平易な言語での要約(PLS)生成において困難を抱えています。これは、理解を深めるために元の文書には含まれていない外部の内容(定義、背景、例など)を導入する「詳細な説明現象」によるものです。この問題に対処するため、我々はPlainQAFactを提案します。これは、細かく人間が注釈を付けたデータセットPlainFactで訓練されたフレームワークであり、ソースを簡略化した文と詳細に説明された文の両方の事実性を評価します。PlainQAFactはまず事実性のタイプを分類し、その後、検索拡張型の質問応答ベースのスコアリング手法を用いて事実性を評価します。我々のアプローチは軽量で計算効率が高いです。実験結果は、既存の事実性評価指標がPLS、特に詳細な説明の事実性を効果的に評価できないのに対し、PlainQAFactが最先端の性能を達成することを示しています。さらに、外部知識源、回答抽出戦略、重複度測定、文書の粒度レベルにわたる有効性を分析し、全体的な事実性評価を洗練させます。
デジタル時代において、増え続けるカメラに対するプライバシー懸念が高まっています。既存の匿名化手法は個人情報を隠蔽することが可能ですが、画像の有用性を維持する点で課題を抱えています。本研究では、個人識別に関連しない重要な属性を保持しつつ、顔を匿名化するトレーニング不要の手法を提案します。私たちのアプローチは、最適化やトレーニングを必要とせず、事前学習済みのテキストから画像への拡散モデルを活用します。まず、入力画像を反転させて初期ノイズを復元します。その後、ノイズを識別情報に条件付けられた拡散プロセスを通じて除去し、修正された識別情報埋め込みにより、匿名化された顔が元の個人と異なることを保証します。また、局所的な匿名化もサポートしており、ユーザーが匿名化する顔の領域を選択できる柔軟性を提供します。最先端の手法との包括的な比較評価により、本手法が匿名化、属性保持、画像品質の面で優れていることが示されました。その柔軟性、堅牢性、実用性から、実世界のアプリケーションに適していると言えます。コードとデータはhttps://github.com/hanweikung/nullfaceで公開されています。
近年、生成的な事前学習を通じて基盤モデルが大きく進展しているが、この分野におけるアルゴリズムの革新は、離散信号のための自己回帰モデルと連続信号のための拡散モデルにほぼ停滞している。この停滞は、豊富なマルチモーダルデータの可能性を十分に引き出すことを妨げるボトルネックを生み出し、結果としてマルチモーダル知能の進歩を制限している。我々は、推論時のシーケンス長と精緻化ステップにわたるスケーリング効率を優先する「推論第一」の視点が、新しい生成的な事前学習アルゴリズムを生み出すきっかけとなり得ると主張する。帰納的モーメントマッチング(IMM)を具体例として、拡散モデルの推論プロセスの限界を特定の修正によって解決することで、安定した単一段階のアルゴリズムが得られ、推論効率を一桁以上向上させながら優れたサンプル品質を達成することを実証する。
Vision-Language-Action (VLA) モデルは、視覚的観察と言語指示に基づいてロボットの動作を予測することを目的としています。既存のアプローチでは、視覚と言語の特徴が独立して下流のポリシーに供給されるため、事前学習済みの視覚言語モデル(VLM)を微調整する必要があり、事前学習された意味的アラインメントが劣化してしまいます。本研究では、OTTERという新しいVLAアーキテクチャを提案します。OTTERは、明示的でテキストを意識した視覚特徴抽出を通じて、これらの既存のアラインメントを活用します。OTTERはすべての視覚特徴を処理するのではなく、言語指示と意味的に整合したタスク関連の視覚特徴のみを選択的に抽出し、ポリシートランスフォーマーに渡します。これにより、OTTERは事前学習済みの視覚言語エンコーダを凍結したままにすることができます。その結果、OTTERは大規模な事前学習から得られた豊富な意味理解を保持し、強力なゼロショット汎化能力を実現します。シミュレーションおよび実世界の実験において、OTTERは既存のVLAモデルを大幅に上回り、新しい物体や環境に対する強力なゼロショット汎化能力を示しました。動画、コード、チェックポイント、データセット: https://ottervla.github.io/。