翻訳付きの日次キュレーションされたAI研究論文
視覚的数学的推論は、基本的な視覚的推論能力として、大規模マルチモーダルモデル(LMMs)コミュニティから広く注目を集めています。既存のベンチマーク、例えばMathVistaやMathVerseは、結果指向のパフォーマンスに焦点を当てる一方で、知識獲得と一般化における基本原理を軽視しています。人間のような数学的推論にインスパイアされ、我々はエンドツーエンドのパフォーマンスを超えた問題解決の原理を探求するために特別に設計された最初のベンチマークであるWE-MATHを紹介します。我々は6.5Kの視覚的数学問題を慎重に収集し、67の階層的知識概念と5つの知識粒度層に分類しました。複合問題を必要な知識概念に従ってサブ問題に分解し、新しい四次元の指標、すなわち知識不足(IK)、不十分な一般化(IG)、完全な習得(CM)、そして丸暗記(RM)を導入して、LMMsの推論プロセスにおける内在的な問題を階層的に評価します。WE-MATHを用いて、既存のLMMsの視覚的数学的推論を徹底的に評価し、解決ステップと問題固有のパフォーマンスの間に負の相関があることを明らかにしました。LMMsのIK問題は、知識拡張戦略によって効果的に改善できることを確認しました。さらに注目すべきは、GPT-4oの主要な課題がIKからIGに大きく移行し、知識一般化段階に向かって進む最初のLMMとして確立されたことです。対照的に、他のLMMsは丸暗記への顕著な傾向を示しています—それらは複数の知識概念を含む複合問題を正しく解決する一方で、サブ問題には答えられません。我々は、WE-MATHがLMMsの視覚的数学的推論の進歩に向けた新しい道を開くことを期待しています。WE-MATHのデータと評価コードはhttps://github.com/We-Math/We-Mathで利用可能です。
非専門家による直感的なロボットプログラミングのためのフレームワークを提案します。本システムは、自然言語プロンプトとRobot Operating System(ROS)からの文脈情報を活用し、大規模言語モデル(LLM)を統合することで、非専門家がチャットインターフェースを通じてシステムにタスク要件を伝えることを可能にします。本フレームワークの主な特徴は以下の通りです:ROSと多数のオープンソースおよび商用LLMに接続されたAIエージェントの統合、LLM出力からの動作の自動抽出とROSアクション/サービスの実行、3つの動作モード(シーケンス、ビヘイビアツリー、ステートマシン)のサポート、可能なアクションのライブラリに新しいロボットアクションを追加するための模倣学習、人間と環境からのフィードバックによるLLMのリフレクション。広範な実験により、本フレームワークの堅牢性、拡張性、多様なシナリオ(長期タスク、テーブルトップ再配置、遠隔監視制御など)での汎用性が実証されました。本フレームワークの採用を促進し、結果の再現を支援するため、コードをオープンソースとして公開しています。以下のURLからアクセスできます:https://github.com/huawei-noah/HEBO/tree/master/ROSLLM。
ドキュメントは、テキストだけでなく、表、図、ページレイアウト、フォントなどを通じて情報を伝える視覚的に豊かな構造物です。現代のドキュメント検索システムは、クエリとテキストのマッチングにおいて高い性能を発揮しますが、視覚的な手がかりを効率的に活用することが難しく、Retrieval Augmented Generationなどの実用的なドキュメント検索アプリケーションでの性能が制限されています。視覚的に豊かなドキュメント検索における現行システムのベンチマークを行うため、複数のドメイン、言語、設定にわたるページレベルの検索タスクから構成されるVisual Document Retrieval Benchmark ViDoReを導入します。現代のシステムの内在的な欠点を踏まえ、最近のVision Language Modelsのドキュメント理解能力を活用して、ドキュメントページの画像のみから高品質な文脈化された埋め込みを生成する新しい検索モデルアーキテクチャ、ColPaliを提案します。後段のインタラクションマッチングメカニズムと組み合わせることで、ColPaliは現代のドキュメント検索パイプラインを大幅に上回る性能を発揮し、かつ大幅に高速でエンドツーエンドの学習が可能です。
近年の研究によると、木探索アルゴリズム(例:モンテカルロ木探索)は、複雑な数学的推論タスクにおける大規模言語モデル(LLM)の性能を劇的に向上させることが示されている。しかし、これらのアルゴリズムは、無駄の多い探索戦略のために、貪欲法デコーディングの10倍以上の計算リソースを必要とすることが多く、実用的なアプリケーションへの展開が困難である。本研究では、この問題を解決するために、動的なノード選択とノードレベルの探索予算(最大子ノード数)計算を備えた新しいガイド付き木探索アルゴリズムを提案する。最終的な答えに向けた探索の進捗(履歴)と、ステップごとのアノテーションなしで訓練された価値ネットワークからのガイダンス(未来)を考慮することで、本アルゴリズムは、割り当てられた計算予算の範囲内で最も有望な木ノードを反復的に選択し、それを展開する。GSM8KおよびTabMWPデータセットで実施した実験により、本手法が競争力のある性能を提供するだけでなく、ベースライン手法と比較して大幅に低い計算コストを享受することが実証された。
大規模言語モデルの事前学習におけるデータ混合は性能に大きな影響を与えるが、効果的な混合を決定する方法は依然として不明確である。本研究では、RegMixを提案し、データ混合を回帰タスクとして定式化することで、高性能なデータ混合を自動的に特定する。RegMixは、多様なデータ混合で訓練された一連の小規模モデルを訓練し、それぞれの混合を与えられた場合の性能を予測する回帰モデルを適合させることを含む。適合された回帰モデルを用いて、最上位の混合をシミュレートし、それを大規模モデルの訓練に使用する。RegMixを実証的に検証するため、512個の100万パラメータのモデルを10億トークンの異なる混合で訓練し、回帰モデルを適合させて最適な混合を見つけた。この混合を用いて、10億パラメータのモデルを250億トークン(つまり1000倍大きく、25倍長く)訓練し、他の混合で訓練された64個の候補モデルの中で最高の性能を示すことを確認した。さらに、本手法は人間による選択よりも優れた性能を示し、DoReMiと同等またはそれ以上の結果を達成しながら、計算予算の10%しか使用しない。実験結果から、(1) データ混合は性能に大きな影響を与え、単一タスクの性能変動は最大14.6%に及ぶこと、(2) Wikipediaのような高品質とされるデータよりも、Webコーパスが下流タスクの性能と最も強い正の相関を持つこと、(3) ドメイン間の相互作用は複雑で、しばしば常識に反するため、RegMixのような自動アプローチが必要であること、(4) データ混合の効果はスケーリング則を超越し、本手法はすべてのドメインを一緒に考慮することでその複雑さを捉えることが示された。コードはhttps://github.com/sail-sg/regmixで公開されている。
大規模マルチモーダルモデル(LMMs)は、画像、質問、および複数の選択肢を含む多肢選択問題(MCQs)を通じて評価されることが多い、印象的なクロスモーダル理解と推論能力を示します。しかし、そのような評価に使用される多くのベンチマークは、体系的なバイアスに悩まされています。驚くべきことに、視覚的知覚能力を持たない大規模言語モデル(LLMs)でも、非自明な性能を達成し、これらの評価の信頼性を損なっています。この問題に対処しつつ、MCQ評価の効率を維持するために、我々はMMEvalProを提案します。これは、三部構成の評価パイプラインとより厳格なメトリクスを通じて、タイプIエラーを回避するように設計されたベンチマークです。既存のベンチマークからの各オリジナル質問に対して、人間のアノテーターが、慎重なアノテーションプロセスを通じて、1つの知覚質問と1つの知識アンカー質問を作成することで拡張します。MMEvalProは、2,138の質問トリプレットからなり、合計6,414の異なる質問を含みます。これらの質問の3分の2は人間の専門家によって手動でラベル付けされ、残りは既存のベンチマーク(MMMU、ScienceQA、MathVista)から引用されています。既存のベンチマークと比較して、最新のLLMsとLMMsを用いた我々の実験は、MMEvalProがより挑戦的(最良のLMMは人間の性能に31.73%遅れをとり、以前のベンチマークでの平均ギャップは8.03%)で、より信頼性が高い(最良のLLMは最良のLMMに23.09%遅れをとり、以前のベンチマークでのギャップはわずか14.64%)ことを示しています。我々の詳細な分析は、大きな性能ギャップの理由を説明し、評価の信頼性を正当化し、将来の研究を進めるための重要な潜在性を強調しています。
本論文では、自己回帰型画像生成に対して新しいアプローチを提案する。このアプローチは2つの主要な要素に基づいている。第一に、ウェーブレット画像符号化を用いることで、最も重要なウェーブレット係数の最上位ビットから始まる情報の順序付けにより、粗い詳細から細かい詳細まで画像の視覚的特徴をトークン化することが可能となる。第二に、この「ウェーブレット言語」におけるトークン列に最適化され、アーキテクチャが再設計された言語トランスフォーマーの変種を用いる。このトランスフォーマーは、トークン列内の重要な統計的相関関係を学習する。これらの相関関係は、様々な解像度におけるウェーブレットサブバンド間のよく知られた相関関係の現れである。生成プロセスにおける条件付けを用いた実験結果を示す。
直接選好最適化(Direct Preference Optimization, DPO)は、推論やアラインメントなどの下流タスクにおける大規模言語モデル(LLMs)の性能向上に効果的であることが証明されています。本研究では、ステップ制御型DPO(Step-Controlled DPO, SCDPO)を提案します。これは、指定されたステップで誤りを始める数学的推論の根拠のネガティブサンプルを作成することで、段階的な誤り監視を自動的に提供する手法です。これらのサンプルをDPOトレーニングに適用することで、SCDPOはモデルをより適切にアラインメントし、推論エラーを理解し、正確な推論ステップを出力する能力を向上させます。SCDPOをコード統合型および連鎖思考型のソリューションに適用し、既存のSFTモデルと私たちがファインチューニングした2つのモデルを含む3つの異なるSFTモデルにおいて、単純なDPOと比較して一貫して性能が向上することを実証しました。SCDPOとDPOのクレジット割り当ての定性的分析は、SCDPOが数学的ソリューションのエラーを特定する効果を示しています。その後、SCDPOをInternLM2-20Bモデルに適用し、GSM8Kで88.5%、MATHで58.1%の高スコアを達成する20Bモデルを作成しました。これは他のオープンソースLLMsと肩を並べるものであり、私たちの手法の大きな可能性を示しています。
本論文では、事前学習済みの画像復元拡散モデルを用いたゼロショット動画復元手法を提案する。従来の動画復元手法は、異なる設定ごとに再学習が必要であり、多様な劣化タイプやデータセット間での汎化性能に課題を抱えていた。我々のアプローチでは、キーフレームとローカルフレームに対する階層的トークン統合戦略を採用し、オプティカルフローと特徴ベースの最近傍マッチング(潜在統合)を組み合わせたハイブリッド対応メカニズムを導入している。本手法は、ゼロショット動画復元において最高の性能を達成するだけでなく、多様なデータセットや極端な劣化(8倍超解像や高標準偏差動画ノイズ除去)に対する汎化性能において、学習済みモデルを大幅に上回ることを示す。様々な挑戦的なデータセットにおける定量的指標と視覚的比較を通じて、その有効性を実証する。さらに、本手法は任意の2D復元拡散モデルと互換性があり、大規模な再学習を必要とせずに動画強調タスクに適用可能な汎用的で強力なツールを提供する。本研究は、より効率的で広く適用可能な動画復元技術の開発につながり、高品質な動画出力を必要とする分野の進展を支援するものである。動画結果についてはプロジェクトページ(https://jimmycv07.github.io/DiffIR2VR_web/)を参照されたい。
スタイル転写は、元の画像の本質を保ちつつ、別の視覚スタイルを取り入れた画像を作成する創造的なプロセスです。拡散モデルは、個別の被写体やスタイルに基づくアプリケーションにおいて印象的な生成能力を示していますが、既存の最先端手法では、コンテンツの保存とスタイルの強化の間のシームレスなバランスを達成するのに依然として困難が生じています。例えば、スタイルの影響を強めると、コンテンツの構造的整合性が損なわれることがよくあります。これらの課題に対処するため、我々はスタイル転写タスクを3つの核心要素に分解します:1)スタイル、画像の美的特性に焦点を当てる;2)空間構造、視覚要素の幾何学的配置と構成に関わる;3)セマンティックコンテンツ、画像の概念的意味を捉える。これらの原則に基づき、我々はInstantStyle-Plusを導入します。このアプローチは、元のコンテンツの整合性を優先しつつ、ターゲットスタイルをシームレスに統合します。具体的には、我々の手法は、最先端のInstantStyleフレームワークを活用し、効率的で軽量なプロセスを通じてスタイル注入を実現します。コンテンツ保存を強化するため、プロセスを反転したコンテンツ潜在ノイズと、元の画像の固有のレイアウトを保存するための汎用プラグアンドプレイタイルControlNetで開始します。また、セマンティックコンテンツの忠実度を高めるために、グローバルセマンティックアダプターを組み込みます。スタイル情報の希釈を防ぐため、スタイル抽出器を判別器として使用し、補助的なスタイルガイダンスを提供します。コードはhttps://github.com/instantX-research/InstantStyle-Plusで公開されます。
言語モデルの能力向上に伴い、その応用はより長い文脈へと拡大し、長文脈の評価と開発が活発な研究領域となっています。しかし、「長文脈」という包括的な用語の下には、モデルの入力の総長さによって単純に定義される多様なユースケースが混在しています。例えば、「干し草の山の中の針」タスク、書籍要約、情報集約などが含まれます。これらのタスクの難易度は多様であるため、本ポジションペーパーでは、文脈の長さによって異なるタスクを混同することは非生産的であると主張します。我々は、長文脈タスクの類似点や相違点を理解するためにより精密な語彙が必要であると考えます。そこで、長文脈に基づく分類体系を、文脈が長くなることで難しくなる特性に基づいて解きほぐすことを提案します。難易度の2つの直交する軸を提案します:(I) 拡散性:必要な情報を文脈内で見つけることがどれほど難しいか?(II) 範囲:見つける必要のある情報の量はどれくらいか?長文脈に関する文献を調査し、この分類体系が有益な記述子であることを正当化し、文献をそれに基づいて位置づけます。最も難しく興味深い設定、すなわち必要な情報が非常に長く、入力内に高度に拡散している状況が、深刻に未開拓であると結論づけます。記述的な語彙を使用し、長文脈における難易度の関連特性を議論することで、この分野におけるより情報に基づいた研究を実施できます。我々は、短い文脈とは質的に異なる特性を考慮した、明確に長い文脈を有するタスクとベンチマークの慎重な設計を呼びかけます。
本論文では、人間レベルの自然さと最先端の話者類似性・明瞭性を実現する、完全非自己回帰型ゼロショットテキスト音声合成システム「Embarrassingly Easy Text-to-Speech (E2 TTS)」を紹介する。E2 TTSフレームワークでは、テキスト入力をフィラートークン付きの文字列に変換し、フローマッチングに基づくメルスペクトログラム生成器を音声補完タスクに基づいて学習させる。従来の多くの研究とは異なり、追加コンポーネント(例:持続時間モデル、書記素-音素変換)や複雑な技術(例:単調アライメント探索)を必要としない。そのシンプルさにもかかわらず、E2 TTSはVoiceboxやNaturalSpeech 3を含む従来研究に匹敵し、あるいは凌駕する最先端のゼロショットTTS性能を達成している。E2 TTSのシンプルさは、入力表現の柔軟性も可能にする。我々は、推論時の使いやすさを向上させるため、E2 TTSのいくつかのバリエーションを提案する。デモサンプルはhttps://aka.ms/e2tts/を参照。
人物非依存の音声駆動型顔生成は、コンピュータビジョンにおける挑戦的な課題である。従来の手法は音声と視覚の同期において顕著な進展を遂げてきたが、現在の結果と実用化の間には依然として大きな隔たりがある。この課題は二つの側面に分けられる:1)高精度な唇の同期を実現するための個々の特徴の保持。2)リアルタイム性能での高品質な顔レンダリングの生成。本論文では、新たな汎用音声駆動フレームワーク「RealTalk」を提案する。これは、音声から表情へのトランスフォーマーと、高精細な表情から顔へのレンダラーで構成される。最初のコンポーネントでは、話す唇の動きに関連する個人の特徴と個人内の変動特徴の両方を考慮する。強化された顔の事前情報に対するクロスモーダルアテンションを組み込むことで、唇の動きを音声と効果的に同期させ、表情予測の精度を向上させることができる。第二のコンポーネントでは、軽量な顔の同一性アライメント(FIA)モジュールを設計する。これには唇形状制御構造と顔テクスチャ参照構造が含まれる。この新しい設計により、複雑で非効率的な特徴アライメントモジュールに依存することなく、リアルタイムで細部を生成することが可能となる。公開データセットにおける定量的および定性的な実験結果は、本手法が唇と音声の同期および生成品質において明確な優位性を持つことを示している。さらに、本手法は効率的で計算リソースを必要としないため、実用化のニーズに適している。
大規模言語モデル(LLMs)の最近の進歩により、LLMエージェントは自律的に世界の情報を収集し、それに基づいて推論を行うことで複雑な問題を解決する能力を獲得しました。この能力を背景に、国際的な意思決定や政策形成に影響を与える可能性がある国際イベントの予測にLLMエージェントを活用することへの関心が高まっています。しかし、このような関心が高まる一方で、LLMエージェントの予測能力と信頼性を厳密に評価するためのベンチマークが不足しています。このギャップを埋めるため、我々はMIRAIという新しいベンチマークを導入しました。MIRAIは、国際イベントの文脈においてLLMエージェントを時間的予測者として体系的に評価するために設計されています。このベンチマークは、広範な歴史的構造化イベントやテキストニュース記事にアクセスするためのツールを備えたエージェント環境を特徴としています。我々はGDELTイベントデータベースを慎重にクリーニングおよび解析し、短期から長期にわたる予測タスクを精選しました。さらに、LLMエージェントがコードベースのインターフェースを介してさまざまなツールを利用できるようにするためのAPIを実装しました。要約すると、MIRAIはエージェントの能力を以下の3つの次元で包括的に評価します:1) 大規模なグローバルデータベースから重要な情報を自律的に収集し統合する能力、2) ドメイン固有のAPIやライブラリを使用してツールを活用するためのコードを記述する能力、3) 多様な形式や時間にわたる歴史的知識を統合し、将来のイベントを正確に予測する能力。包括的なベンチマークを通じて、我々は国際イベントの予測におけるLLMエージェントの能力を評価する信頼性の高いフレームワークを確立し、国際関係分析のためのより正確で信頼性の高いモデルの開発に貢献することを目指しています。
拡散モデルは、様々なレイアウトで高品質な画像を生成する大きな可能性を示しており、下流の知覚タスクに有益です。しかし、言語のみによって駆動される完全自動のレイアウト生成と、複数の生成インスタンスを測定する適切な指標は、十分に探求されていません。本研究では、Auto Cherry-Picker(ACP)という新しいフレームワークを提案します。これは、知覚とマルチモーダルトレーニングを強化するための高品質なマルチモーダルトレーニング例を生成します。自然言語の概念リストから始めて、大規模言語モデル(LLM)に詳細な説明を生成させ、合理的なレイアウトを設計します。次に、既存のテキストから画像へのモデルを使用して複数の画像を生成します。その後、生成されたデータは、品質を保証するために包括的に設計された指標を使用して精製されます。特に、生成された画像を公平に評価するための新しい指標、Composite Layout and Image Score(CLIS)を提示します。私たちの合成高品質例は、特に長尾分布や不均衡なデータセットに関連する課題に対処するために、初期の概念リストをカスタマイズすることで、様々なシナリオでパフォーマンスを向上させます。下流タスクでの実験結果は、Auto Cherry-Pickerが既存のモデルのパフォーマンスを大幅に改善できることを示しています。さらに、CLISと下流タスクでのパフォーマンス向上の相関関係を徹底的に調査し、より良いCLISスコアがより良いパフォーマンスをもたらすことを発見しました。この発見は、様々な視覚知覚およびMLLMタスクの役割としての評価指標の可能性を示しています。コードは公開予定です。
我々は、オープンワールドMinecraftにおける指示追従エージェントのための新しいVision-Language-Action(VLA)モデルであるOmniJARVISを提案する。従来の研究では、テキスト形式の目標を別個のコントローラに出力するか、直接制御コマンドを生成するかのいずれかのアプローチが取られていたが、OmniJARVISは、マルチモーダル相互作用データの統一的なトークン化を通じて、強力な推論能力と効率的な意思決定能力の両方を確保するための異なる道を模索する。まず、行動軌跡τ = {o_0, a_0, ...}の離散化トークンを生成する行動エンコーダと、これらのトークンに条件付けられた模倣学習(IL)ポリシーデコーダを学習する自己教師ありアプローチを導入する。これらの追加の行動トークンは、事前学習済みのマルチモーダル言語モデル(MLM)の語彙に拡張される。このエンコーダを用いて、タスク指示、記憶、思考、観察、テキスト応答、行動軌跡などを含む長期的なマルチモーダル相互作用を統一的なトークンシーケンスにパッケージ化し、自己回帰型トランスフォーマーでモデル化する。意味的に意味のある行動トークンにより、結果として得られるVLAモデルであるOmniJARVISは、(連鎖思考を生成することで)推論し、計画し、質問に答え、(ILポリシーデコーダのための行動トークンを生成することで)行動することができる。OmniJARVISは、オープンワールドMinecraftにおける原子的、プログラム的、およびオープンエンドのタスクの包括的なコレクションにおいて優れた性能を示す。我々の分析はさらに、相互作用データの形成、統一的なトークン化、およびそのスケーリング可能性における重要な設計原則を明らかにする。
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、ますます複雑化する推論を含む様々な課題で印象的な能力を発揮しています。知識推論は主要な推論の一つであり、既存の知識から新しい知識を導き出すことを目的としています。知識グラフ(KG)の文脈では広く研究されてきましたが、LLMにおける知識推論はまだ十分に探究されていません。本論文では、データセット構築とモデル学習の両方の方法論を含む、知識推論のための包括的なフレームワークであるChain-of-Knowledge(CoK)を紹介します。データセット構築においては、KG上のルールマイニングを通じてKnowReasonを作成します。モデル学習においては、単純な訓練によって引き起こされるルールの過学習を観察しました。そこで、人間の内部知識探索プロセスを模倣する試行錯誤メカニズムをCoKに組み込みました。KnowReasonを用いた広範な実験を行い、CoKが知識推論だけでなく一般的な推論ベンチマークにおいてもLLMを改善する効果を示す結果を得ました。
エッジデバイス上での大規模言語モデル(LLMs)の展開は、オンデバイスインテリジェンスを強化するためにますます重要になっています。重みの量子化は、デバイス上のLLMsのメモリフットプリントを削減するために不可欠です。しかし、低ビットのLLMsは、推論時に低精度の重みと高精度のアクティベーションの混合精度行列乗算(mpGEMM)を必要とします。既存のシステムは、mpGEMMのネイティブサポートを欠いているため、高精度計算のために重みを逆量子化することを余儀なくされています。このような間接的な方法は、推論のオーバーヘッドを大幅に増加させる可能性があります。 本論文では、CPU上での効率的な低ビットLLM(すなわち、重み量子化されたLLM)推論のために設計された、革新的なルックアップテーブル(LUT)ベースの方法であるT-MACを紹介します。T-MACは、逆量子化なしでmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を削減します。具体的には、T-MACは従来のデータ型中心の乗算をビット単位のテーブルルックアップに変換し、統一されたスケーラブルなmpGEMMソリューションを実現します。 私たちのLUTベースのカーネルは、重みのビット幅に対して線形にスケールします。低ビットのLlamaおよびBitNetモデルで評価されたT-MACは、llama.cppと比較して最大4倍のスループット向上と70%のエネルギー消費削減を示しました。BitNet-b1.58-3Bでは、T-MACはM2-Ultra上でシングルコアで30トークン/秒、8コアで71トークン/秒のトークン生成スループットを提供し、Raspberry Pi 5のような低スペックデバイスでも11トークン/秒を達成し、成人の平均読書速度を大幅に上回ります。LUTベースのコンピューティングパラダイムを採用したT-MACは、計算効率を損なうことなく、リソースが制約されたエッジデバイス上での低ビットLLMsの実用的な展開の道を開きます。このシステムはhttps://github.com/microsoft/T-MACでオープンソース化されています。
自己教師あり学習(SSL)は、ラベル付きデータの必要性を低減することで、音声技術をより多くの言語に拡張するのに貢献してきました。しかし、モデルは依然として世界の7000以上の言語をサポートするには程遠い状況です。私たちは、4057言語にわたる100万時間以上のデータでトレーニングされた、普遍的音声のためのクロスリンガルエンコーダ「XEUS」を提案します。これにより、SSLモデルの言語カバレッジを4倍に拡張します。既存の公開アクセス可能なコーパスから100万時間の音声と、新たに作成した4057言語にわたる7400時間以上のコーパスを組み合わせており、このコーパスは公開されます。多言語音声データの多様な条件に対処するため、典型的なSSLのマスク予測アプローチに新たな残響除去目的を追加し、堅牢性を向上させます。XEUSをいくつかのベンチマークで評価し、様々なタスクにおいて、最先端(SOTA)のSSLモデルと比較して一貫して優れた、または同等の結果を達成することを示します。XEUSはML-SUPERBベンチマークで新たなSOTAを確立し、MMS 1Bおよびw2v-BERT 2.0 v2をそれぞれ0.8%および4.4%上回りました。これは、パラメータ数や事前学習データが少ないにもかかわらず達成されたものです。チェックポイント、コード、データはhttps://www.wavlab.org/activities/2024/xeus/にあります。
ビデオ生成モデルは、印象的な単眼ビデオを生成する優れた能力を示していますが、3Dステレオスコピックビデオの生成はまだ十分に探索されていません。本研究では、市販の単眼ビデオ生成モデルを使用して、3Dステレオスコピックビデオを生成するためのポーズ不要かつトレーニング不要なアプローチを提案します。本手法では、生成された単眼ビデオを推定されたビデオ深度を使用してステレオスコピックベースライン上のカメラビューにワープし、新しいフレーム行列ビデオインペインティングフレームワークを採用します。このフレームワークは、ビデオ生成モデルを活用して、異なるタイムスタンプとビューから観察されたフレームをインペイントします。この効果的なアプローチにより、シーン最適化やモデルのファインチューニングなしで、一貫性と意味的整合性のあるステレオスコピックビデオを生成します。さらに、潜在空間におけるディスオクルージョン領域から伝播する負の影響を軽減することで、ビデオインペインティングの品質をさらに向上させるディスオクルージョン境界再注入スキームを開発します。提案手法の有効性を検証するため、Sora [4]、Lumiere [2]、WALT [8]、Zeroscope [42]など、さまざまな生成モデルからのビデオを用いて実験を行いました。実験結果は、本手法が従来の手法に比べて大幅な改善をもたらすことを示しています。コードはhttps://daipengwa.github.io/SVG_ProjectPageで公開されます。
最近、固有表現認識(NER)に特化した命令チューニング済み大規模言語モデル(LLMs)がいくつか登場しています。従来のNERアプローチと比較して、これらのモデルは強力な汎化能力を有しています。既存のLLMsは主に、ドメイン外分布におけるゼロショットNERに焦点を当てており、テストセットと高度にまたは完全に重複する多数のエンティティクラスに対してファインチューニングされています。本研究では、それとは異なり、SLIMERというアプローチを提案します。SLIMERは、未見の固有表現タグに対処するために設計されており、より少ない例でモデルを指導し、定義とガイドラインを組み込んだプロンプトを活用します。実験結果から、定義とガイドラインが、特に未見の固有表現のラベリングにおいて、より良い性能、迅速かつ堅牢な学習をもたらすことが示されています。さらに、SLIMERは、削減されたタグセットでトレーニングされながらも、ドメイン外ゼロショットNERにおいて最先端のアプローチと同等の性能を発揮します。
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を所望の振る舞いに整合させるための一般的な戦略である。報酬モデリングはRLHFにおける重要なステップである。しかし、報酬モデルの訓練用にペアの選好データを収集することは、特に専門家の注釈を必要とするドメイン固有の選好において、コストと時間がかかる場合が多い。この課題に対処するため、我々はドメイン知識を統合した報酬モデル(DogeRM)を提案する。これは、モデルマージングによってドメイン固有の知識を汎用報酬モデルに統合する新しいフレームワークである。実験の結果、DogeRMが様々なベンチマークで性能を向上させることが示され、モデルマージングの効果を詳細に分析することで、モデル整合を促進する大きな可能性が示された。
大規模言語モデル(LLM)は、テキストを単語に対応するトークンのシーケンスとして処理しますが、頻度の低い単語は複数のトークンで表現されます。しかし、個々のトークンは、それらが構成する単語や概念の意味としばしば意味的に関連していません。例えば、Llama-2-7bのトークナイザーは「northeastern」という単語を['_n', 'ort', 'he', 'astern']というトークンに分割しますが、これらのトークンは「north」や「east」のような意味的に意味のある単位に対応していません。同様に、「Neil Young」のような固有名詞や「break a leg」のような複数語表現の全体的な意味は、それらの構成トークンから直接推測することはできません。メカニズム的には、LLMはどのようにしてこのような任意のトークンのグループを有用な高レベル表現に変換するのでしょうか?本研究では、固有名詞や複数トークン単語の最後のトークン表現が、初期層において前後のトークンに関する情報が急速に「消去」される顕著な効果を示すことを発見しました。この観察を利用して、自己回帰型LLMの暗黙的な語彙を層間のトークン表現の差異を調べることで「読み取る」方法を提案し、Llama-2-7bとLlama-3-8Bに対するこの方法の結果を示します。私たちの知る限り、これはLLMの暗黙的な語彙を探る初めての試みです。
リガンド-タンパク質相互作用(LPI)の親和性、すなわち薬物標的相互作用(DTI)の正確な予測について、指示ファインチューニングされた事前学習済み生成型小規模言語モデル(SLMs)を用いて説明する。我々は、ゼロショット設定において、サンプル外データに対するリガンド-タンパク質相互作用に関連する幅広い親和性値の正確な予測を達成した。モデル入力として使用されたのは、リガンドのSMILES文字列とタンパク質のアミノ酸配列のみであった。我々の結果は、機械学習(ML)や自由エネルギー摂動(FEP+)ベースの手法を上回り、リガンド-タンパク質相互作用の親和性を正確に予測する能力を示しており、これは困難な治療標的に対する創薬キャンペーンのさらなる加速に活用できる。
正確な忘却(Exact unlearning)は、ユーザーが要求に応じて機械学習モデルから自身のデータを撤回できるプライバシー機構として最初に導入されました。その後まもなく、正確な忘却に関連する非現実的なコストを軽減するために、不正確なスキームが提案されました。最近では、忘却は、モデルが持つべきでない知識(例えば、無許可の著作権物、不正確な情報、または悪意のある情報)を除去するアプローチとしてしばしば議論されています。その約束は、モデルが特定の悪意のある能力を持たない場合、それに関連する悪意のある目的に使用できないというものです。本論文では、大規模言語モデル(LLM)において忘却が使用されるパラダイムを再検討し、文脈内学習(in-context learning)から生じる根本的な矛盾を指摘します。忘却は訓練段階における効果的な制御機構となり得ますが、推論段階でモデルが許容されない行動を実行することを防ぐことはできません。我々は「忘却の解除(ununlearning)」という概念を導入します。これは、忘却された知識が文脈内で再導入され、モデルがその知識を知っているかのように振る舞うことができるようになる現象です。その結果、許容されない知識に対するコンテンツフィルタリングが必要であり、正確な忘却スキームでさえ効果的なコンテンツ規制には不十分であると主張します。我々は、現代のLLMにおける忘却の解除の実現可能性を議論し、より広範な影響を検討します。
フロンティアAIシステム、特に大規模言語モデル(LLMs)は、人間のユーザーの認識論にますます大きな影響を及ぼしています。このような影響は、支配的な社会的価値観を強化し、誤った道徳的信念の固定化に寄与する可能性があり、その結果、広範な問題のある道徳的慣行の永続化を招く恐れがあります。私たちは、この差し迫ったリスクを軽減するための技術的解決策として、進歩アライメントを提案します。進歩アライメントアルゴリズムは、人間の道徳的進歩のメカニズムを模倣することを学び、既存のアライメント手法が現代の道徳的盲点に陥りやすい問題に対処します。進歩アライメントの研究を促進するために、歴史から道徳的進歩のメカニズムを学び、現実世界の道徳的決定における将来の進歩を促進する実験的フレームワークであるProgressGymを紹介します。9世紀にわたる歴史的テキストと18の歴史的LLMsを活用し、ProgressGymは現実世界の進歩アライメントの課題を具体的なベンチマークにコード化することを可能にします。具体的には、進化する価値観を追跡する(PG-Follow)、道徳的進歩を事前に予測する(PG-Predict)、人間とAIの価値観の変化の間のフィードバックループを調整する(PG-Coevolve)という3つの核心的な課題を紹介します。時間的次元を持たないアライメント手法はこれらのタスクには適用できません。これに対応して、生涯学習と外挿的アルゴリズムを進歩アライメントのベースライン手法として提示し、新しいアルゴリズムと課題を募集するオープンリーダーボードを構築します。フレームワークとリーダーボードはそれぞれhttps://github.com/PKU-Alignment/ProgressGymとhttps://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoardで利用可能です。
複数の指示に従う能力は、大規模言語モデル(LLM)にとって重要なスキルである。この能力を評価する際には、以下のような大きな課題が存在する:(i) 複数の指示間の一貫性が限定的であること、(ii) 指示の順序がモデルの性能に影響を与える位置バイアス、(iii) 客観的に検証可能なタスクの欠如。これらの課題に対処するため、我々は逐次指示追従(SIFo)タスクを通じて、モデルが複数の指示に従う能力を評価するためのベンチマークを導入した。SIFoでは、複数の指示の成功した実行は、最終的な指示のみを検証することで確認できる。我々のベンチマークは、テキスト修正、質問応答、数学、セキュリティルールの遵守という4つのタスクを用いて、逐次指示追従の異なる側面を評価する。クローズドソースおよびオープンソースの主要なLLMを評価した結果、より新しく大規模なモデルが、SIFoタスクにおいて古く小規模なモデルを大幅に上回ることが示され、ベンチマークの有効性が確認された。すべてのモデルが一連の指示に従うことに苦戦しており、現在の言語モデルには重要な堅牢性の欠如が示唆されている。