翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の登場は、人工知能に変革をもたらし、高度な推論、堅牢な知覚、多様な領域での汎用的な行動を可能とする先進的インテリジェントエージェントの道を切り開きました。これらのエージェントがAI研究や実用化をますます牽引する中、その設計、評価、継続的改善は複雑で多面的な課題を提示しています。本調査では、認知科学、神経科学、計算機研究の原則を統合したモジュール型の脳に着想を得たアーキテクチャの中で、インテリジェントエージェントを包括的に概観します。私たちの探求は、四つの相互接続された部分に構造化されています。まず、インテリジェントエージェントのモジュール基盤に深く入り込み、その認知、知覚、操作モジュールを人間の脳機能に系統的にマッピングし、記憶、世界モデリング、報酬処理、感情に似たシステムなどのコアコンポーネントを明らかにします。次に、自己強化と適応的進化のメカニズムについて議論し、エージェントがどのように自律的に能力を向上させ、動的環境に適応し、AutoMLやLLM駆動の最適化戦略を含む自動化された最適化パラダイムを通じて継続的学習を達成するかを探ります。第三に、協調的および進化的なマルチエージェントシステムを検討し、エージェント間の相互作用、協力、社会構造から生まれる集団知能を調査し、人間の社会動態との類似点を強調します。最後に、安全でセキュアかつ有益なAIシステムを構築するための重要な要請に取り組み、信頼できる実世界展開に必要な内在的および外在的なセキュリティ脅威、倫理的整合性、堅牢性、実践的な緩和策を強調します。
大規模言語モデル(LLM)の学習には、勾配の不安定性や損失スパイクなど、数多くの課題が存在します。これらの現象は、致命的な発散を引き起こし、高コストなチェックポイントの復元やデータバッチのスキップを必要とします。従来の勾配クリッピング技術、例えば定数やノルムベースの手法は、固定された閾値やヒューリスティックに依存しているため、これらの問題を効果的に解決できず、非効率な学習や頻繁な手動介入を招きます。本研究では、ZClipという適応型勾配クリッピングアルゴリズムを提案します。ZClipは、時間経過に伴う勾配ノルムの統計的特性に基づいて、クリッピング閾値を動的に調整します。従来の反応型戦略とは異なり、ZClipは勾配ノルムのスケールや時間的進化について事前の仮定を置くことなく、学習動態に積極的に適応します。その核心には、zスコアベースの異常検出を活用し、大きな勾配スパイクを特定して緩和することで、悪性の損失スパイクを防ぎつつ、収束を妨げないようにします。私たちのコードは以下で公開されています:https://github.com/bluorion-com/ZClip。
大規模マルチモーダルモデル(LMMs)は視覚理解と生成において大きな進歩を遂げてきたが、一般的な視覚編集、特に複雑な指示の追従、外観の一貫性の維持、柔軟な入力形式のサポートにおいて依然として課題に直面している。このギャップを埋めるため、我々は推論を考慮した視覚編集(RISE)を評価する最初のベンチマークであるRISEBenchを導入する。RISEBenchは、時間的、因果的、空間的、論理的推論という4つの主要な推論タイプに焦点を当てている。各カテゴリに対して高品質なテストケースを精選し、指示推論、外観一貫性、視覚的妥当性を評価するフレームワークを提案し、人間の評価者とLMM-as-a-judgeアプローチの両方を用いて評価を行う。実験の結果、GPT-4o-Nativeが他のオープンソースおよびプロプライエタリモデルを大幅に上回る一方で、この最先端のシステムでさえ論理的推論タスクに苦戦することが明らかとなり、未開拓の領域が浮き彫りになった。初期の取り組みとして、RISEBenchは推論を意識した視覚編集に関する基礎的な洞察を提供し、将来の研究を促進することを目指している。まだ初期段階ではあるが、次世代マルチモーダルシステムのより包括的で信頼性が高くスケーラブルな評価をサポートするため、ベンチマークの継続的な拡張と改良に取り組む。コードとデータはhttps://github.com/PhoenixZ810/RISEBenchで公開予定である。
OpenAIのGPT4oモデルにおける最近のブレークスルーは、画像生成と編集において驚くほど優れた能力を示し、コミュニティに大きな興奮をもたらしました。本技術レポートでは、GPT-4oの性能を定量的かつ定性的に診断するための初の評価ベンチマーク(GPT-ImgEvalと命名)を提示します。このベンチマークは、以下の3つの重要な次元に焦点を当てています:(1) 生成品質、(2) 編集能力、(3) 世界知識に基づく意味的合成。これら3つのタスクにおいて、GPT-4oは強力な性能を示し、画像生成の制御と出力品質の両面で既存の手法を大幅に上回るとともに、卓越した知識推論能力を発揮しました。さらに、GPT-4oの生成データに基づいて、そのアーキテクチャの根底にある構造を調査するための分類モデルベースのアプローチを提案します。我々の実験結果は、GPT-4oがVARのようなアーキテクチャではなく、画像デコードのために自己回帰(AR)と拡散ベースのヘッドを組み合わせた構造を持つことを示唆しています。また、GPT-4oの全体的なアーキテクチャに関する完全な推測も提供します。加えて、GPT-4oの特定の制限と、その画像生成において頻繁に観察される合成アーティファクトを特定し、可視化するための一連の分析を行います。さらに、GPT-4oとGemini 2.0 Flashの多段階画像編集に関する比較研究を提示し、GPT-4oの出力、特に既存の画像フォレンジックモデルによる検出可能性に関する安全性の意味について議論します。我々の研究が、将来の研究を導き、再現性を促進し、画像生成およびその他の分野におけるイノベーションを加速するための貴重な洞察と信頼性の高いベンチマークを提供することを願っています。GPT-4oの評価に使用されたコードとデータセットは、https://github.com/PicoTrex/GPT-ImgEval で公開されています。
本論文では、同期音声-映像生成(JAVG)のための新しいJoint Audio-Video Diffusion Transformer(JavisDiT)を紹介する。強力なDiffusion Transformer(DiT)アーキテクチャを基盤として構築されたJavisDiTは、オープンエンドのユーザープロンプトから高品質な音声と映像コンテンツを同時に生成することができる。最適な同期を確保するために、Hierarchical Spatial-Temporal Synchronized Prior(HiST-Sypo)Estimatorを通じた細粒度の時空間アライメントメカニズムを導入した。このモジュールは、グローバルおよび細粒度の時空間事前情報を抽出し、視覚的要素と聴覚的要素の同期を導く。さらに、多様なシーンと複雑な現実世界のシナリオにわたる10,140の高品質なテキストキャプション付き音声映像からなる新しいベンチマーク、JavisBenchを提案する。さらに、現実世界の複雑なコンテンツにおける生成された音声-映像ペアの同期を評価するための堅牢な指標を特別に考案した。実験結果は、JavisDiTが高品質な生成と正確な同期を両立することで既存の手法を大幅に上回り、JAVGタスクの新たな基準を確立することを示している。我々のコード、モデル、データセットはhttps://javisdit.github.io/で公開される予定である。
大規模言語モデル(LLM)のポストトレーニングにおいて、強化学習(RL)が広く採用されています。最近、LLMの推論能力をRLによって強化する取り組みが進んでおり、適切な学習方法が効果的な推論時のスケーラビリティを可能にすることが示唆されています。RLの主要な課題は、検証可能な質問や人工的なルールを超えた様々な領域において、LLMに対して正確な報酬信号を取得することです。本研究では、一般的なクエリに対する推論計算を増やすことで報酬モデリング(RM)を改善する方法、すなわち汎用的なRMの推論時スケーラビリティを探求し、さらに適切な学習方法を用いて性能-計算スケーリングの効果を高める方法を調査します。RMアプローチでは、異なる入力タイプに対する柔軟性と推論時スケーリングの可能性を実現するために、ポイントワイズ生成型報酬モデリング(GRM)を採用します。学習方法としては、オンラインRLを通じてGRM内でスケーラブルな報酬生成行動を促進するために、自己原則化批判チューニング(SPCT)を提案し、適応的に原則を生成し、正確に批判を行うことで、DeepSeek-GRMモデルを開発します。さらに、効果的な推論時スケーリングを実現するために、並列サンプリングを用いて計算使用量を拡大し、メタRMを導入して投票プロセスをガイドし、より良いスケーリング性能を実現します。実験的に、SPCTがGRMの品質とスケーラビリティを大幅に向上させ、既存の手法やモデルを上回り、深刻なバイアスなしに様々なRMベンチマークで優れた結果を示し、トレーニング時スケーリングと比較しても優れた性能を達成できることを示します。DeepSeek-GRMは一部のタスクにおいて課題に直面していますが、汎用的な報酬システムに関する今後の取り組みによって解決可能であると考えています。モデルは公開され、オープンソース化されます。
トーキングヘッド合成は、仮想アバターや人間とコンピュータのインタラクションにおいて重要な技術です。しかし、既存の手法の多くは、単一の主要なモダリティからの制御に限定されており、実用性が制限されています。この問題を解決するため、我々はACTalkerを提案します。これは、トーキングヘッド動画生成において、複数の信号制御と単一信号制御の両方をサポートするエンドツーエンドのビデオ拡散フレームワークです。複数制御のため、並列マンバ構造を設計し、各ブランチが個別の駆動信号を利用して特定の顔領域を制御します。すべてのブランチにゲートメカニズムを適用し、動画生成に対する柔軟な制御を実現します。制御された動画が時間的および空間的に自然に調和することを保証するため、マンバ構造を採用し、各ブランチで駆動信号が特徴トークンを両次元にわたって操作できるようにします。さらに、マスクドロップ戦略を導入し、各駆動信号がマンバ構造内で対応する顔領域を独立して制御できるようにし、制御の衝突を防ぎます。実験結果は、我々の手法が多様な信号によって駆動される自然な顔動画を生成し、マンバ層が複数の駆動モダリティを衝突なくシームレスに統合することを示しています。
本論文では、SkyReels-A2を紹介する。これは、テキストプロンプトに基づいて任意の視覚要素(キャラクター、オブジェクト、背景など)を合成動画に組み込みながら、各要素の参照画像との厳密な一貫性を維持可能な制御可能な動画生成フレームワークである。我々はこのタスクを「要素から動画(E2V)」と呼び、その主な課題は各参照要素の忠実度の維持、シーンの一貫した構成、自然な出力の実現にある。これらに対処するため、まずモデル学習のためのプロンプト-参照-動画のトリプレットを構築する包括的なデータパイプラインを設計した。次に、多要素表現を生成プロセスに注入し、要素固有の一貫性とグローバルな整合性、テキストアライメントのバランスを取る新しい画像-テキスト結合埋め込みモデルを提案した。また、推論パイプラインを速度と出力安定性の両面で最適化した。さらに、体系的な評価のための慎重に選定されたベンチマーク、A2 Benchを導入した。実験により、本フレームワークが多様で高品質な動画を正確な要素制御で生成できることが実証された。SkyReels-A2は、E2V生成において先進的なクローズドソース商用モデルに対しても優位に立つ、初のオープンソース商用グレードモデルである。我々は、SkyReels-A2がドラマやバーチャルeコマースなどの創造的アプリケーションを推進し、制御可能な動画生成の境界を押し広げることを期待している。
我々は、自然災害や政治選挙などの現実世界の出来事に関する多様な複数のビデオから情報を集約し、ウィキペディアスタイルの高レベルな記事を自動生成するという挑戦的な課題を提示する。ビデオは検索拡張生成(RAG)にとって直感的な情報源であるが、現代のRAGワークフローの多くはテキストに重点を置いており、既存のビデオベースの要約手法は低レベルのシーン理解に焦点を当てているため、高レベルのイベント意味論を捉えることができない。このギャップを埋めるため、我々はWikiVideoを導入する。これは専門家が執筆した記事と、記事の主張を裏付ける詳細な注釈付きビデオから構成されるベンチマークであり、ビデオをRAGパイプラインに統合し、マルチモーダルソースに基づいた詳細なコンテンツの作成を可能にする。さらに、複数のビデオから記事を作成するための新しいインタラクティブ手法であるCollaborative Article Generation(CAG)を提案する。CAGは、r1スタイルの推論モデルとVideoLLMとの反復的な相互作用を活用し、低レベルの視覚的特徴に固執するVideoLLM単体では不可能な、対象イベントに関するより高次の推論を導き出す。我々は最先端のVideoLLMとCAGを、オラクル検索とRAG設定の両方でベンチマークし、CAGが代替手法を一貫して上回ることを確認するとともに、今後の研究に向けた興味深い方向性を示唆する。
強化学習(RL)は最近、大規模言語モデルの推論能力を向上させる強力な可能性を示しており、現在では視覚言語モデル(VLM)にも積極的に拡張されています。しかし、VLMにおける既存のRLアプリケーションは、再現性とアクセシビリティを妨げる高度に設計されたフレームワークに依存しており、標準化された評価プロトコルが欠如しているため、結果の比較やトレーニングダイナミクスの解釈が困難です。本研究では、VLMにおけるRLのための透明でゼロから構築されたフレームワークを紹介し、複数のモデルとデータセットで検証された最小限でありながら機能的な4ステップのパイプラインを提供します。さらに、トレーニングダイナミクスと反射的行動を評価するための標準化された評価スキームを提案します。視覚推論タスクにおける広範な実験から、重要な実証的知見が明らかになりました:応答の長さはランダムシードに敏感であり、反射は出力の長さと相関し、RLは高品質なデータがあっても教師あり微調整(SFT)を一般化において一貫して上回ります。これらの知見と提案されたフレームワークは、再現可能なベースラインを確立し、RLベースのVLM研究へのより広範な参加を支援することを目指しています。
既存の音声言語モデル(SLM)のスケーリング分析は、暗い見通しを示しています。それによると、SLMはテキストと比べてはるかに多くの計算リソースとデータを必要とし、高品質なSLMの訓練の実現可能性に疑問を投げかけています。しかし、現代のSLMは、事前に訓練されたテキスト言語モデル(TextLM)を初期化し、音声とテキストを交互に組み合わせることで知識の転移を可能にすることが多いです。これにより、次の疑問が生じます - 交互に組み合わせたSLMは、テキストなしのSLMよりも効率的にスケールするのでしょうか?本論文では、その答えは「はい」であると断言します!私たちは、交互に組み合わせたSLMのスケーリング分析を行い、数十のモデルを訓練し、スケーリングの傾向を分析しました。この設定では、SLMは計算リソースに対してより効率的にスケールすることがわかりました。さらに、私たちの結果は、スケーリングのダイナミクスがテキストなしのSLMとは大きく異なることを示しており、計算予算の多くをモデルサイズの増大に割り当てるべきであることを示唆しています。また、合成データとTextLMモデルファミリーがこの潜在能力を引き出す役割についても研究しました。結果は、私たちのスケールアップしたモデルが、他のアプローチよりも少ない計算リソースとデータを使用しながら、音声の意味的指標において主要なモデルと同等の性能を達成することを示しています。私たちは、モデル、サンプル、データをオープンソースとして公開しています - https://pages.cs.huji.ac.il/adiyoss-lab/sims。
マルチモーダル大規模言語モデル(MLLMs)は、その巨大なサイズと大量の視覚トークンにより、高い計算コストに悩まされています。本論文では、新しい指標である「層貢献度(Layer Contribution, LC)」を導入し、MLLMsにおける層ごとの冗長性を調査します。LCは、特定のトークンに対する層の変換を除去した際のモデル出力の差異を測定することで、視覚トークンとテキストトークンそれぞれに対する層の影響を定量化します。予備実験により、MLLMsの多くの層が視覚トークンの処理において最小限の貢献しか示さないことが明らかになりました。この観察に基づき、我々はLCを活用して非効率な層を特定し、これらの層における視覚トークンの更新を凍結するトレーニング不要の手法「ShortV」を提案します。実験結果から、ShortVはMLLMsの約60%の層で視覚トークンの更新を凍結し、視覚トークン更新に関連する計算コストを劇的に削減できることが示されました。例えば、LLaVA-NeXT-13BにおいてFLOPsを50%削減しつつ、優れた性能を維持します。コードはhttps://github.com/icip-cas/ShortVで公開予定です。
拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にするクラスフリーフリーガイダンスを通じて、画像タスクにおいて印象的な制御性を提供します。このスケーリングメカニズムは、微細な意味操作の可能性が未開拓の「スケーリング空間」を暗黙的に定義します。我々はこの空間を調査し、条件付き/無条件ノイズ予測間の差が重要な意味情報を運ぶ逆変換ベースの編集から始めます。我々の核心的な貢献は、ノイズ予測のフーリエ解析から得られ、その低周波数成分と高周波数成分が拡散過程を通じて異なる進化を示すことを明らかにします。この洞察に基づき、我々はFreScaを導入します。これは、フーリエ領域の異なる周波数帯域に対してガイダンススケーリングを独立に適用するシンプルな手法です。FreScaは、再学習なしで既存の画像編集手法を向上させることが実証されています。さらに、その有効性は深度推定などの画像理解タスクにも拡張され、複数のデータセットにわたって定量的な向上をもたらします。
時系列予測におけるモデル選択は重要なステップであり、伝統的にはさまざまなデータセットにわたる広範な性能評価を必要としてきました。メタ学習アプローチはこのプロセスを自動化することを目指していますが、通常は事前に構築された性能マトリックスに依存しており、その構築には多大なコストがかかります。本研究では、大規模言語モデル(LLM)を軽量なモデル選択の代替手段として活用することを提案します。私たちの手法は、LLMの内在する知識と推論能力を利用することで、明示的な性能マトリックスの必要性を排除します。LLaMA、GPT、Geminiを用いた広範な実験を通じて、このアプローチが従来のメタ学習技術やヒューリスティックなベースラインを上回り、計算オーバーヘッドを大幅に削減することを実証しました。これらの知見は、時系列予測における効率的なモデル選択におけるLLMの可能性を強調するものです。
推論ベースの大規模言語モデルの登場以来、多くの研究者が推論能力を学生モデルに蒸留することに大きな成功を収めてきました。このような技術は、コーディングタスクにおける推論と標準的なLLMの間のギャップを大幅に埋めてきました。しかし、推論モデルの蒸留に関する進展の多くは、独自のデータセットに閉ざされているか、データのキュレーション、フィルタリング、およびその後のトレーニングに関する詳細が欠けています。この問題に対処するため、我々は優れた教師ありファインチューニング(SFT)データセットを構築し、さまざまなサイズのモデルで最先端のコーディング能力を達成しました。我々の蒸留モデルは、SFTのみを使用してLiveCodeBenchで61.8%、CodeContestsで24.6%を達成し、強化学習でトレーニングされた代替モデルを上回りました。次に、データセット構築に使用されたデータソース、コード実行フィルタリングの影響、および指示/ソリューションの多様性の重要性について分析を行いました。実行フィルタリングがベンチマーク精度に悪影響を及ぼすことを観察し、ソリューションの正確性よりも指示の多様性を優先することを決定しました。最後に、これらのモデルが使用するトークン効率と推論パターンについても分析しました。我々はこれらのデータセットと蒸留モデルをコミュニティにオープンソースとして公開します。
大規模言語モデル(LLMs)の最近の進展により、プロセス報酬モデル(PRMs)を検証器として活用することがLLMsの性能向上に有望であることが示されています。しかし、現在のPRMsは3つの主要な課題に直面しています:(1)プロセス監視と汎化能力の限界、(2)スカラー値予測への依存とLLMsの生成能力の活用不足、(3)PRMsのテスト時計算リソースのスケーリングの不可能性。本研究では、GenPRMを紹介します。これは、各推論ステップの判断を提供する前に、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成型プロセス報酬モデルです。高品質なプロセス監視ラベルと理論的根拠データを取得するために、相対的進捗推定(RPE)とコード検証を組み込んだ理論的根拠合成フレームワークを提案します。ProcessBenchおよびいくつかの数学的推論タスクでの実験結果は、GenPRMがMATHデータセットからのわずか23Kのトレーニングデータで、従来のPRMsを大幅に上回ることを示しています。テスト時スケーリングを通じて、1.5BのGenPRMはGPT-4oを上回り、7BのGenPRMはProcessBenchでQwen2.5-Math-PRM-72Bを凌駕します。さらに、GenPRMは、ポリシーモデルの改良のための批評モデルとしての強力な能力を示します。本研究は、PRMsとLLMsの批評モデルの間のギャップを埋める新しいプロセス監視のパラダイムを確立します。私たちのコード、モデル、データはhttps://ryanliu112.github.io/GenPRMで公開されます。
モデルフリー強化学習エージェントが計画を学習できることを示す初のメカニズム的証拠を提示する。これは、概念ベースの解釈可能性に基づく方法論を、計画研究のための一般的なベンチマークであるSokobanにおけるモデルフリーエージェントに適用することで達成された。具体的には、Guezら(2019)によって導入された汎用モデルフリーエージェントであるDRCが、学習された概念表現を用いて、行動の長期的な環境への影響を予測し、行動選択に影響を与える計画を内部で策定していることを実証する。我々の方法論は、(1) 計画に関連する概念の探索、(2) エージェントの表現内での計画形成の調査、(3) 発見された計画(エージェントの表現内)が介入を通じてエージェントの行動に因果的影響を及ぼすことの検証、を含む。また、これらの計画の出現が、追加のテスト時間計算を活用する能力という計画に似た特性の出現と一致することを示す。最後に、エージェントが学習した計画アルゴリズムの質的分析を行い、並列化された双方向探索との強い類似性を発見する。我々の知見は、最近のLLMにおけるRLを通じた計画と推論能力の創発的傾向を踏まえ、エージェントの計画行動の内部メカニズムの理解を進めるものである。
科学の発見は、高度なロボット工学と人工知能を通じて急速な進歩を遂げようとしている。現在の科学的手法は、手動による実験が時間とリソースを要すること、また学際的な研究が個々の研究者の専門知識の境界を超えた知識の統合を必要とすることから、大きな制約に直面している。ここで我々は、エージェント型AIと具現化されたロボット工学を組み合わせて研究のライフサイクル全体を自動化する自律型汎用科学者(AGS)の概念を提唱する。このシステムは、物理的および仮想的な環境と動的に相互作用しながら、多様な科学分野にわたる知識の統合を促進することができる。これらの技術を文献レビュー、仮説生成、実験、論文執筆といった研究の全段階にわたって展開し、内部的な省察と外部からのフィードバックを組み込むことで、科学の発見に必要な時間とリソースを大幅に削減することを目指す。仮想AI科学者から汎用性の高いAIベースのロボット科学者への進化を踏まえ、AGSは画期的な可能性を秘めている。これらの自律システムが研究プロセスにますます統合されるにつれ、科学の発見は新しいスケーリング則に従う可能性があり、それはこれらの自律システムの数と能力によって形作られるかもしれず、知識がどのように生成され進化するかについての新たな視点を提供する。具現化されたロボットが極限環境に適応する能力と、蓄積される科学知識のフライホイール効果を組み合わせることで、物理的および知的なフロンティアを常に押し広げる可能性が期待される。
3D Gaussian Splatting (3DGS)は優れた品質とレンダリング速度を実証していますが、数百万の3Dガウシアンと大きなストレージおよび伝送コストを伴います。最近の3DGS圧縮手法は主にScaffold-GSの圧縮に焦点を当て、印象的な性能を達成していますが、追加のボクセル構造と複雑なエンコーディングおよび量子化戦略を必要とします。本論文では、ボクセル構造や複雑な量子化戦略なしに、元の3DGSをコンパクトな表現に圧縮する別の方法を探る、シンプルで効果的な手法であるNeuralGSを開発することを目指します。私たちの観察によると、NeRFのようなニューラルフィールドは、わずか数メガバイトで複雑な3Dシーンを多層パーセプトロン(MLP)ニューラルネットワークで表現できます。したがって、NeuralGSはニューラルフィールド表現を効果的に採用し、3Dガウシアンの属性をMLPでエンコードし、大規模なシーンでも小さなストレージサイズしか必要としません。これを実現するために、クラスタリング戦略を採用し、ガウシアンの重要度スコアをフィッティングの重みとして、各クラスタに異なる小さなMLPでガウシアンをフィットさせます。複数のデータセットで実験を行い、視覚品質を損なうことなく平均45倍のモデルサイズ削減を達成しました。元の3DGSに対する本手法の圧縮性能は、専用のScaffold-GSベースの圧縮手法に匹敵し、ニューラルフィールドで直接元の3DGSを圧縮する大きな可能性を示しています。
スパースオートエンコーダ(SAE)は最近、大規模言語モデル(LLM)の解釈可能性と制御性を向上させることが示されています。本研究では、SAEの応用をCLIPなどの視覚言語モデル(VLM)に拡張し、視覚表現における単義性を評価する包括的なフレームワークを導入します。実験結果から、VLMで訓練されたSAEは個々のニューロンの単義性を大幅に向上させると同時に、専門家が定義した構造(例:iNaturalistの分類体系)とよく一致する階層的表現を示すことが明らかになりました。特に注目すべきは、SAEをCLIPの視覚エンコーダに適用して介入することで、基盤となるモデルを変更することなく、マルチモーダルLLM(例:LLaVA)の出力を直接制御できることを実証した点です。これらの発見は、VLMの解釈可能性と制御性を向上させる教師なしアプローチとしてのSAEの実用性と有効性を強調しています。
自動音声認識システムは、Whisperのような多言語・マルチタスクモデルの統合により、間違いなく進化を遂げてきました。これらのモデルは、幅広い言語における音声の理解と処理において有望な能力を示しています。しかし、その堅牢性にもかかわらず、これらのモデルはしばしば少数言語の言語的区別を扱う際に課題を抱えています。本研究では、このギャップを埋めるために、伝統的および新規の言語モデルを微調整されたWhisperモデルと統合し、あまり研究されていない言語における性能向上を図ります。複数のデータセットを用いた厳密な微調整と評価を通じて、特に低リソース環境において、単語誤り率の大幅な改善を実証しました。我々のアプローチは、Whisperが事前学習した広範なデータを活用するだけでなく、言語モデルを組み込むことでその言語的適応性を補完します。統計的言語モデルを使用することで、分布内データセットでは最大51%、分布外の文では最大34%の改善を達成し、大規模言語モデルは多様な言語的文脈において中程度ながら一貫して堅牢な改善を提供しました。これらの結果から、統合はすべてのモデルサイズにおいて確実に利益をもたらすものの、改善の程度は異なり、最適化された言語モデルパラメータの重要性が浮き彫りになりました。最後に、TransformerベースのASRモデルを使用して結果を報告する際に、適切な評価パラメータを選択することの重要性を強調します。要約すると、本研究は、言語的知識を豊かにすることで、より包括的なASR技術の道を切り開き、言語横断的に優れた性能を発揮することを目指しています。本研究のさらなる実装詳細については、技術文書とソースコードがhttp://www.github.com/hitz-zentroa/whisper-lmで公開されています。
タスク記述とアーキテクチャ仕様に基づいてニューラルネットワークのパラメータを生成する方法を学習することは、モデルの適応性と転移学習を進展させる上で極めて重要です。既存の手法、特に拡散モデルに基づくものは、大規模なアーキテクチャへのスケーラビリティの制限、ネットワークの深さの変化に対する柔軟性の欠如、層間の一貫性を損なう断片的なパラメータ生成といった課題を抱えています。本研究では、IGPG(Instruction Guided Parameter Generation)を提案します。これは、多様なタスクとアーキテクチャにわたるパラメータ合成を統合する自己回帰型フレームワークです。IGPGは、VQ-VAEと自己回帰モデルを活用し、タスク指示、データセット、アーキテクチャの詳細に基づいてニューラルネットワークのパラメータを生成します。ニューラルネットワークの重みのトークンを自己回帰的に生成することで、IGPGは層間の一貫性を確保し、モデルやデータセット間での効率的な適応を可能にします。トークンレベルで動作するIGPGは、幅広い事前学習済みモデルから集約された複雑なパラメータ分布を効果的に捉えます。複数の視覚データセットでの大規模な実験により、IGPGが多様な事前学習済みモデルを単一の柔軟な生成フレームワークに統合できることが実証されました。生成されたパラメータは、特に大規模なアーキテクチャに適用した際のスケーラビリティと効率性の点で、最先端の手法と比較して競争力のある、あるいは優れた性能を達成します。これらの結果は、IGPGが事前学習済みの重みの取得、モデル選択、迅速なタスク固有のファインチューニングのための強力なツールとしての可能性を強調しています。
教師なしパノプティックセグメンテーションは、手動でアノテーションされたデータを用いたトレーニングなしに、画像を意味的に有意義な領域と個別のオブジェクトインスタンスに分割することを目指す。従来の教師なしパノプティックシーン理解の研究とは異なり、本手法ではオブジェクト中心のトレーニングデータを必要とせず、複雑なシーンの教師なし理解を可能にする。そのために、シーン中心の画像データを直接トレーニングする初の教師なしパノプティック手法を提案する。具体的には、視覚表現、深度、およびモーションの手がかりを組み合わせることで、複雑なシーン中心データに対する高解像度のパノプティック擬似ラベルを取得するアプローチを提案する。擬似ラベルトレーニングとパノプティック自己学習戦略の両方を活用することで、人間のアノテーションを一切必要とせずに複雑なシーンのパノプティックセグメンテーションを正確に予測する新規手法を実現する。本手法はパノプティック品質を大幅に向上させ、例えばCityscapesデータセットにおける教師なしパノプティックセグメンテーションの最新技術をPQスコアで9.4%ポイント上回る成果を示す。