翻訳付きの日次キュレーションされたAI研究論文
自己回帰モデル(ARMs)は、大規模言語モデル(LLMs)の基盤として広く認識されています。本論文ではこの概念に挑戦し、事前学習と教師ありファインチューニング(SFT)のパラダイムの下でゼロから訓練された拡散モデルであるLLaDAを提案します。LLaDAは、前方データマスキングプロセスと逆プロセスを通じて分布をモデル化し、マスクされたトークンを予測するために標準的なTransformerをパラメータ化します。尤度境界を最適化することで、確率的推論のための原理的な生成アプローチを提供します。広範なベンチマークにおいて、LLaDAは強力なスケーラビリティを示し、我々が独自に構築したARMベースラインを上回りました。特に、LLaDA 8Bは、LLaMA3 8Bのような強力なLLMsと文脈内学習において競争力があり、SFT後は、多ターン対話などのケーススタディで印象的な指示追従能力を示します。さらに、LLaDAは逆転の呪いに対処し、逆転詩の完成タスクにおいてGPT-4oを凌駕しました。我々の知見は、拡散モデルがARMsの有効かつ有望な代替手段であることを確立し、上記で議論された主要なLLM能力が本質的にARMsに結びついているという仮定に挑戦します。
大規模推論モデル(LRMs)は、AI問題解決能力における画期的な進歩を表していますが、対話環境における効果は限定されることがあります。本論文では、LRMsにおける過剰思考(overthinking)を紹介し分析します。これは、モデルが環境との相互作用よりも内部推論の連鎖を好む現象です。SWE Bench Verifiedを使用したソフトウェアエンジニアリングタスクの実験により、3つの再発パターン:分析麻痺、ローグアクション、早すぎる離脱を観察します。これらの振る舞いを研究するためのフレームワークを提案し、人間の専門家の評価と相関することを示し、4018の軌道を分析します。過剰思考スコアが高いほど、パフォーマンスが低下すること、推論モデルが非推論モデルよりも過剰思考の傾向が強いことが観察されます。過剰思考を緩和するための簡単な取り組み(例:過剰思考スコアが低い解を選択する)は、モデルのパフォーマンスを約30%向上させると同時に、計算コストを43%削減できることが示されます。これらの結果から、過剰思考を緩和することは実用的な意義があると考えられます。ネイティブな関数呼び出し機能と選択的強化学習を活用することで、過剰思考の傾向を緩和できる可能性があります。また、評価フレームワークとデータセットをオープンソース化し、この方向の研究を促進するために、https://github.com/AlexCuadron/Overthinking で公開しています。
Step-Video-T2Vを紹介します。これは300億パラメータを有する最先端のテキスト・トゥ・ビデオ事前学習モデルで、最大204フレームの動画生成が可能です。動画生成タスクのために設計された深層圧縮型変分オートエンコーダ(Video-VAE)は、16x16の空間圧縮率と8xの時間圧縮率を実現しつつ、優れた動画再構成品質を維持します。ユーザープロンプトは、英語と中国語の両方を処理するために2つのバイリンガルテキストエンコーダを使用してエンコードされます。3Dフルアテンションを備えたDiT(Diffusion Transformer)はFlow Matchingを用いて訓練され、入力ノイズを潜在フレームにデノイズするために使用されます。動画ベースのDPO(Direct Preference Optimization)アプローチであるVideo-DPOを適用し、生成動画の視覚品質を向上させ、アーティファクトを低減します。また、トレーニング戦略の詳細を説明し、重要な観察結果と洞察を共有します。Step-Video-T2Vの性能は、新たに開発された動画生成ベンチマーク「Step-Video-T2V-Eval」で評価され、オープンソースおよび商用エンジンと比較しても最先端のテキスト・トゥ・ビデオ品質を実証しています。さらに、現在の拡散モデルベースのパラダイムの限界について議論し、ビデオ基盤モデルの今後の方向性を概説します。Step-Video-T2VとStep-Video-T2V-Evalは、https://github.com/stepfun-ai/Step-Video-T2V で公開しています。オンライン版は https://yuewen.cn/videos からもアクセス可能です。私たちの目標は、ビデオ基盤モデルのイノベーションを加速し、ビデオコンテンツクリエーターを支援することです。
拡散モデル(DMs)は、多様な領域における生成タスクの主要な選択肢となっています。しかし、複数の順次的なフォワードパスに依存するため、リアルタイム性能が大幅に制限されています。これまでの高速化手法は、主にサンプリングステップ数の削減や中間結果の再利用に焦点を当てており、畳み込みU-Net構造の制約により、画像内の空間領域間の変動を活用することができませんでした。拡散トランスフォーマー(DiTs)のトークン数を柔軟に扱う能力を活用し、我々はRASという新しい、トレーニング不要のサンプリング戦略を提案します。RASは、DiTモデルの焦点に基づいて、画像内の領域に異なるサンプリング比率を動的に割り当てます。我々の重要な観察は、各サンプリングステップにおいて、モデルが意味的に重要な領域に集中し、これらの焦点領域が連続するステップ間で強い連続性を示すことです。この洞察を活用し、RASは現在焦点が当たっている領域のみを更新し、他の領域は前のステップのキャッシュされたノイズを使用して更新します。モデルの焦点は、観察された時間的一貫性を利用して、前のステップの出力に基づいて決定されます。我々はRASをStable Diffusion 3とLumina-Next-T2Iで評価し、それぞれ最大2.36倍と2.51倍の高速化を達成し、生成品質の低下を最小限に抑えました。さらに、ユーザー調査により、RASが人間の評価において同等の品質を提供しつつ、1.6倍の高速化を実現することが明らかになりました。我々のアプローチは、より効率的な拡散トランスフォーマーに向けた重要な一歩であり、リアルタイムアプリケーションへの可能性を高めます。
大規模マルチモーダルモデル(LMMs)は、画像の解釈において重大な欠陥を示し、一部の指標では幼児や動物よりも空間認知能力が劣っています。それにもかかわらず、これらのモデルは多くの人気のある視覚ベンチマークで高いスコアを達成しており、モデルの進歩によってその余裕が急速に失われつつあります。この問題に対処するため、長期間にわたって関連性を保つ難しいベンチマークが緊急に必要とされています。私たちはこの考えを極限まで推し進め、現代の最先端LMMsにとって完全に不可能な軽量な視覚推論ベンチマーク「ZeroBench」を導入します。このベンチマークは、手作業で厳選された100の質問と、それより難易度の低い334のサブ質問で構成されています。私たちは20のLMMsをZeroBenchで評価し、すべてのモデルが0.0%のスコアを記録し、そのエラーを厳密に分析しました。視覚理解の進歩を促進するため、ZeroBenchを公開します。
マルチモーダル大規模言語モデル(MLLMs)における顕著な進展にもかかわらず、最先端のモデルの多くは人間の嗜好との十分なアラインメントを経ていません。このギャップは、現在のアラインメント研究が特定の領域(例:幻覚の削減)で主に進展を遂げている一方で、モデルを人間の嗜好に合わせることがMLLMの能力を体系的に向上させられるかというより広範な問いがほとんど未探求のままであることに起因しています。この目的のために、我々は12万の細粒度で人間が注釈を付けた嗜好比較ペアを含むデータセット、MM-RLHFを紹介します。このデータセットは、既存のリソースを大幅に上回る規模、多様性、注釈の粒度、および品質を提供します。このデータセットを活用し、報酬モデルの品質とアラインメントアルゴリズムの効率の両方を向上させるためのいくつかの重要な革新を提案します。特に、モデルの出力をスコア付けする前に批判を生成する「批判ベースの報酬モデル」を導入し、従来のスカラー報酬メカニズムと比較して解釈可能性と情報量の多いフィードバックを提供します。さらに、各サンプルの損失重みを報酬信号に応じて調整する「動的報酬スケーリング」を提案し、高品質な比較ペアの利用を最適化します。我々のアプローチは、10の異なる次元と27のベンチマークで厳密に評価され、モデルの性能に有意かつ一貫した改善が示されています。具体的には、LLaVA-ov-7BをMM-RLHFと我々のアラインメントアルゴリズムでファインチューニングすることで、会話能力が19.5%向上し、安全性が60%改善しました。 我々は、嗜好データセット、報酬モデル、トレーニングおよび評価コード、ならびに報酬モデリングと安全性のベンチマークをオープンソースとして公開しています。詳細については、プロジェクトページ(https://mm-rlhf.github.io)をご覧ください。
拡散モデルは高品質で多様な視覚コンテンツの合成を可能にします。しかし、稀な概念や未見の概念の生成には苦戦しています。この課題に対処するため、我々は画像生成モデルにおける検索拡張生成(Retrieval-Augmented Generation, RAG)の活用を探求します。我々はImageRAGを提案します。これは、与えられたテキストプロンプトに基づいて関連する画像を動的に検索し、それらを生成プロセスのガイドとして使用する手法です。検索された画像を用いて生成を改善する従来のアプローチでは、検索ベースの生成に特化したモデルを訓練していました。これに対して、ImageRAGは既存の画像条件付けモデルの能力を活用し、RAG固有の訓練を必要としません。我々のアプローチは高い適応性を持ち、異なるモデルタイプに適用可能であり、異なるベースモデルを使用して稀で細かい概念の生成において大幅な改善を示します。 プロジェクトページはこちらです: https://rotem-shalev.github.io/ImageRAG
OpenAIのo1、o3やDeepSeekのR1といった推論型LLMは、数学やコーディングにおいて大きな進歩を遂げていますが、国際数学オリンピック(IMO)の組み合わせ問題、Abstraction and Reasoning Corpus(ARC)パズル、Humanity's Last Exam(HLE)問題といった高度な課題には依然として苦戦しています。我々は、テスト時に複数のモデルと手法を組み合わせた多様な推論アプローチを採用しています。数学やコード問題の検証、および他の問題に対するリジェクションサンプリングがシンプルかつ効果的であることを確認しました。IMO問題の正しさはLeanによって、ARCパズルはコードによって自動的に検証し、HLE問題に対してはbest-of-Nが有効であることを見出しました。我々のアプローチにより、IMO組み合わせ問題の正答率は33.3%から77.8%に、HLE問題の正答率は8%から37%に向上し、948人の人間が解けなかったARCパズルの80%、o3高計算リソースでも解けなかったARCパズルの26.5%を解決しました。テスト時のシミュレーション、強化学習、および推論フィードバックを用いたメタ学習により、エージェントのグラフ表現を適応させ、プロンプト、コード、データセットを変化させることで汎化性能を向上させています。我々のアプローチは信頼性、堅牢性、拡張性を備えており、再現可能な研究の精神に則り、公開時に一般公開する予定です。
大規模言語モデル(LLM)は、さまざまなNLPタスクにおいて大きな成功を収めています。しかし、その膨大な計算コストが、特にリアルタイムアプリケーションでの広範な利用を制限しています。構造化プルーニングは、ハードウェア環境に関係なくモデルを圧縮し、エンドツーエンドの速度向上を直接提供する効果的な解決策を提供します。一方で、モデルの異なるコンポーネントはプルーニングに対して異なる感度を示すため、非均一なモデル圧縮が求められます。しかし、プルーニング手法は、有能なサブ構造を特定するだけでなく、圧縮後のトレーニングも考慮する必要があります。この目的のために、我々はトレーニングを考慮した構造化プルーニング手法である\sysnameを提案します。\sysnameは、進化的探索プロセスに基づいており、各世代で突然変異を通じて複数の子孫モデルを生成し、最も適したものを選択します。トレーニング後の効果を評価するために、子孫集団内で軽量な多段階トレーニングプロセスを組み込み、トークンの数を段階的に増やし、各選択段階で性能の低いモデルを排除します。我々は、Llama-2-7B、Llama-3.1-8B、およびQwen-2.5-14B-Instructを用いた広範な実験を通じてこの手法を検証し、構造化プルーニングにおいて最先端の性能を達成しました。例えば、\sysnameはShearedLlamaを上回りながら、圧縮後のトレーニングにおいて5倍少ないトレーニングデータを必要とします。
大規模言語モデル(LLM)は通常、数値を複数のトークンで表現するため、モデルはこれらのトークンを集約して数値を解釈する必要があります。この断片化は、学習と推論の両方を非効率にし、数値関連のタスクにおけるモデルの性能に悪影響を及ぼします。事前学習済みのLLMが数値トークンに対してフーリエ的な特徴を内部で学習しているという観察に着想を得て、我々はフーリエ数値埋め込み(FoNE)を提案します。FoNEは、数値をそのフーリエ特徴とともに埋め込み空間に直接マッピングする新しい手法です。FoNEは各数値を1つのトークンとして、1桁あたりわずか2次元の埋め込みでエンコードし、断片化なしに数値を効果的に捉えます。このコンパクトな表現は、学習と推論の両方を加速します。従来のサブワードや桁ごとの埋め込みと比較して、FoNEは計算オーバーヘッドを削減するだけでなく、加算、減算、乗算などのさまざまな数値タスクにおいてより高い精度を達成します。6桁の10進数加算において、FoNEは99%の精度を達成するために必要なデータ量がサブワードや桁ごとの埋め込みの64分の1であり、数値あたりのトークン数もそれぞれ3分の1、6分の1です。さらに、FoNEは加算、減算、乗算の10万以上のテスト例で100%の精度を達成する唯一の手法です。コードと可視化はhttps://fouriernumber.github.io/で公開されています。
新しい拡散モデルは、高品質なテキストを統合したフォトリアルな画像を合成することができます。驚くべきことに、アテンション活性化パッチングを通じて、拡散モデルのパラメータの1%未満、しかもすべてアテンションレイヤーに含まれる部分のみが、画像内のテキストコンテンツの生成に影響を与えていることを実証しました。この観察に基づき、拡散モデルのクロスアテンションおよびジョイントアテンションレイヤーをターゲットとすることで、テキスト生成の効率と性能を向上させました。テキストコンテンツ生成を担うレイヤーを特定することに基づくいくつかの応用例を紹介します。まず、特定されたレイヤーのみをLoRAベースでファインチューニングすることで、大規模拡散モデルの一般的なテキスト生成能力をさらに向上させつつ、生成される画像の品質と多様性を維持できることを示します。次に、生成された画像内のテキストコンテンツを編集するために、特定されたレイヤーをどのように利用できるかを実証します。最後に、このアイデアを拡張し、コストをかけずに有害なテキストの生成を防ぐという実用的なユースケースに適用します。従来の研究とは対照的に、私たちのローカライゼーションアプローチは、U-Net(例:LDMやSDXL)やトランスフォーマーベース(例:DeepFloyd IFやStable Diffusion 3)など、さまざまな拡散モデルアーキテクチャに広く適用可能であり、CLIPからT5のような大規模言語モデルまで、多様なテキストエンコーダを利用しています。プロジェクトページはhttps://t2i-text-loc.github.io/で公開されています。
本ポジションペーパーでは、AIを理解するためには、既存の人間の語彙に依存することはできないと主張する。代わりに、私たちは新語(ネオロジズム)の開発に努めるべきである。新語とは、機械に教えたい人間の概念や、私たちが学ぶ必要のある機械の概念を正確に表す新しい言葉である。私たちは、人間と機械が異なる概念を持っているという前提から出発する。これは、解釈可能性をコミュニケーションの問題として捉えることができることを意味する。つまり、人間は機械の概念を参照し制御できる必要があり、人間の概念を機械に伝える必要がある。新語の開発を通じて人間と機械の共有言語を作り出すことで、このコミュニケーション問題を解決できると私たちは考えている。成功した新語は、有用な抽象化を達成する。つまり、詳細すぎず、多くの文脈で再利用可能であり、かつ高レベルすぎず、正確な情報を伝えるものである。概念実証として、「長さ新語」がLLMの応答長を制御することを可能にし、「多様性新語」がより多様な応答のサンプリングを可能にすることを示す。全体として、私たちは、既存の語彙ではAIを理解することはできず、新語を通じて語彙を拡張することが、機械をより良く制御し理解する機会を創出すると主張する。
事前学習済み基盤モデル(FMs)は、単変量時系列予測タスクにおいて卓越した性能を示しています。しかし、特徴間の複雑な依存関係の管理や予測の不確実性の定量化など、いくつかの実践的な課題が依然として存在します。本研究では、これらの重要な制約に対処するため、アダプターを導入します。アダプターは、事前学習済みの単変量時系列FMsを多変量タスクに効果的に活用するための特徴空間変換を可能にします。アダプターは、多変量入力を適切な潜在空間に射影し、各次元に独立してFMを適用することで動作します。表現学習と部分的に確率的なベイジアンニューラルネットワークに関する文献に着想を得て、我々はさまざまなアダプターと最適化/推論戦略を提案します。合成データセットと実世界のデータセットで実施した実験により、アダプターの有効性が確認され、ベースライン手法と比較して予測精度と不確実性の定量化が大幅に向上することが示されました。我々のフレームワークであるAdaPTSは、アダプターをモジュール化された、スケーラブルで効果的なソリューションとして位置づけ、多変量コンテキストでの時系列FMsの活用を促進し、実世界のアプリケーションでの広範な採用を推進します。コードはhttps://github.com/abenechehab/AdaPTSで公開しています。
低リソース言語(LRLs)は、データが限られているため、自然言語処理(NLP)において大きな課題に直面しています。現在の最先端の大規模言語モデル(LLMs)はLRLsに対して依然として苦戦していますが、mBERTやXLM-Rのような小規模な多言語モデル(mLMs)は、その容量が低いトレーニングデータサイズに適しているため、より有望です。本研究では、mLMsをLRLsに適応させるためのパラメータ効率の良いアダプタベースの手法を体系的に調査し、Sequential Bottleneck、Invertible Bottleneck、およびLow-Rank Adaptationという3つのアーキテクチャを評価します。GlotCCからの非構造化テキストとConceptNetからの構造化知識を使用して、小規模な適応データセット(例えば、最大1GBのフリーテキストまたは数MBの知識グラフデータ)が、内在的タスク(マスク言語モデリング)および外在的タスク(トピック分類、感情分析、固有表現認識)において改善をもたらすことを示します。Sequential Bottleneckアダプタは言語モデリングにおいて優れており、Invertible Bottleneckアダプタは、より良い埋め込みの整合性とより多くのパラメータ数により、下流タスクで他の手法をわずかに上回ります。アダプタベースの手法は、はるかに少ないパラメータを使用しながら、完全なファインチューニングと同等またはそれ以上の性能を発揮し、LLaMA-3、GPT-4、DeepSeek-R1ベースの蒸留モデルなどの大規模LLMsよりも、LRLsに対してより効果的であることが証明されました。適応は性能を向上させますが、特に広範な事前学習カバレッジを持つ言語では、事前学習データのサイズが依然として支配的な要因です。
特定のデータセットで大規模言語モデル(LLMs)を微調整することは、ターゲットタスクの性能を向上させるための一般的な手法です。ただし、この性能向上はしばしば過学習につながり、モデルがタスクまたはトレーニングデータの特性のいずれかに過度に特化し、一般化が失われることがあります。本論文では、標準の教師あり微調整(SFT)よりも優れた性能を達成しつつ一般化を向上させる微調整手法であるSelective Self-to-Supervised Fine-Tuning(S3FT)を紹介します。S3FTは、クエリに対して複数の有効な応答が存在することを活用します。モデルの正しい応答を利用することで、S3FTは微調整段階でモデルの特化を軽減します。S3FTは、適切な判定者を展開してトレーニングセットから正しいモデル応答を特定し、その後、残りのサンプルに対して正しいモデル応答と正解応答(またはその言い換え)を使用してモデルを微調整します。S3FTの効果は、数学的推論、Pythonプログラミング、読解タスクの実験を通じて示されます。結果は、MMLUやTruthfulQAなどの複数のベンチマークで、標準のSFTが平均4.4の性能低下をもたらす可能性があることを示しています。これに対し、S3FTはこの低下を半分の2.5に軽減し、微調整タスクで有意に優れた性能を発揮しつつ、SFTよりも優れた一般化能力を示しています。
本論文では、3D視覚的接地のための効率的なマルチレベル畳み込みアーキテクチャを提案する。従来の手法は、2段階またはポイントベースのアーキテクチャのため、リアルタイム推論の要件を満たすことが困難であった。3D物体検出におけるマルチレベル完全疎畳み込みアーキテクチャの成功に触発され、我々はこの技術路線に従って新しい3D視覚的接地フレームワークを構築することを目指す。しかし、3D視覚的接地タスクでは、3Dシーン表現がテキスト特徴量と深く相互作用する必要があるため、疎畳み込みベースのアーキテクチャは大量のボクセル特徴量のためにこの相互作用に非効率である。このため、我々はテキスト誘導プルーニング(TGP)と補完ベース追加(CBA)を提案し、段階的な領域プルーニングとターゲット補完によって3Dシーン表現とテキスト特徴量を効率的に深く融合させる。具体的には、TGPは3Dシーン表現を反復的に疎化し、クロスアテンションによってボクセル特徴量とテキスト特徴量を効率的に相互作用させる。プルーニングが繊細な幾何学情報に与える影響を緩和するために、CBAは計算オーバーヘッドを無視できる程度にボクセル補完によって過剰にプルーニングされた領域を適応的に修正する。従来のシングルステージ手法と比較して、我々の手法は最高の推論速度を達成し、従来の最速手法を100% FPSで上回る。また、2段階手法と比較しても最先端の精度を達成し、ScanReferでは[email protected]で+1.13、NR3DとSR3Dではそれぞれ+2.6と+3.2のリードを実現した。コードはhttps://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}で公開されている。
身体化知能の重要な目標は、エージェントが動的環境下で長期的なタスクを遂行しつつ、堅牢な意思決定と適応性を維持できるようにすることです。この目標を達成するため、我々は時空間メモリを統合することでタスク計画と実行を強化する新しいフレームワーク「時空間メモリエージェント(STMA)」を提案します。STMAは以下の3つの重要なコンポーネントに基づいて構築されています:(1) 歴史的および環境的な変化をリアルタイムで捕捉する時空間メモリモジュール、(2) 適応的な空間推論を促進する動的知識グラフ、(3) タスク戦略を反復的に洗練するプランナー・クリティックメカニズムです。我々はSTMAをTextWorld環境で評価し、複雑さの異なる32のタスクにおいて多段階の計画と探索を行いました。実験結果は、STMAが最先端のモデルと比較して成功率で31.25%、平均スコアで24.7%の向上を達成したことを示しています。これらの結果は、時空間メモリが身体化エージェントのメモリ能力を向上させる上で有効であることを強調しています。
Masked Image Modeling (MIM)は、自己教師あり表現学習において有望なアプローチを提供しますが、既存のMIMモデルは依然として最先端の性能に遅れを取っています。本論文では、ターゲット表現、損失関数、およびアーキテクチャを体系的に分析し、潜在クラスタリングの予測に依存する新しい純粋MIMフレームワークであるCAPIを提案します。私たちのアプローチは、学習が安定しており、スケーリング特性が有望なクラスタリングベースの損失を活用しています。私たちのViT-LバックボーンであるCAPIは、シンプルな線形プローブを用いてImageNetで83.8%の精度、ADE20Kで32.1%のmIoUを達成し、従来のMIM手法を大幅に上回り、現在の最先端であるDINOv2の性能に迫る結果を示しています。私たちはすべてのコードとモデルを公開します。
拡散モデルの応用において、制御可能な生成は実用的な意義を持つ一方で、挑戦的な課題でもあります。現在の制御可能な生成手法は主に拡散モデルのスコア関数を修正することに焦点を当てていますが、Mean Reverting (MR) Diffusionは確率微分方程式(SDE)の構造を直接修正し、画像条件の組み込みをよりシンプルかつ自然に行うことができます。しかし、現在のトレーニング不要の高速サンプラーはMR Diffusionに直接適用できません。そのため、MR Diffusionは高品質なサンプルを得るために数百回の関数評価(NFEs)を必要とします。本論文では、MR DiffusionのサンプリングNFEsを削減するために、MRS(MR Sampler)という新しいアルゴリズムを提案します。MR Diffusionに関連する逆時間SDEと確率流常微分方程式(PF-ODE)を解き、半解析的な解を導出します。この解は、解析関数とニューラルネットワークによってパラメータ化された積分から構成されます。この解に基づいて、より少ないステップで高品質なサンプルを生成することができます。我々のアプローチはトレーニングを必要とせず、ノイズ予測、データ予測、速度予測を含むすべての主流のパラメータ化をサポートします。大規模な実験により、MR Samplerが10から20倍の高速化を維持しながら、10種類の異なる画像復元タスクにおいて高いサンプリング品質を維持することが示されました。我々のアルゴリズムはMR Diffusionのサンプリング手順を加速し、制御可能な生成においてより実用的なものとします。
CLaMP 3は、音楽情報検索におけるクロスモーダルおよびクロス言語の一般化の課題に対処するために開発された統合フレームワークです。コントラスティブ学習を使用して、楽譜、演奏信号、オーディオ録音などの主要な音楽モダリティをすべて、多言語テキストと共有表現空間に整列させ、テキストを橋として非整列のモダリティ間で検索を可能にします。未知の言語に適応可能な多言語テキストエンコーダを特徴とし、強力なクロス言語の一般化を示します。検索増強生成を活用して、2.31百万の音楽テキストペアからなるWebスケールのデータセットであるM4-RAGをキュレーションしました。このデータセットは、幅広い世界の音楽伝統を表す詳細なメタデータで充実しています。将来の研究を推進するために、シートミュージック、オーディオ、多様なテキスト記述からなる1,000の三つ組を含むベンチマークであるWikiMT-Xをリリースします。実験結果は、CLaMP 3が複数のMIRタスクで最先端の性能を達成し、以前の強力なベースラインを大幅に上回り、多モーダルおよび多言語の音楽コンテキストで優れた一般化を示すことを示しています。
現在の自動運転車両は、周囲のシーンを理解し将来の軌道を計画するために主に個々のセンサーに依存していますが、センサーが故障したり遮蔽されたりすると信頼性が低下する可能性があります。この問題に対処するため、車両間通信(V2V)を利用した協調知覚手法が提案されていますが、これまでの研究は主に検出と追跡に焦点を当ててきました。これらのアプローチが全体的な協調計画性能にどのように寄与するかは、まだ十分に検討されていません。大規模言語モデル(LLM)を用いた自動運転システムの最近の進展に触発され、我々はLLMを協調自動運転に統合する新しい問題設定を提案します。これには、提案するVehicle-to-Vehicle Question-Answering(V2V-QA)データセットとベンチマークが含まれます。また、我々はVehicle-to-Vehicle Large Language Model(V2V-LLM)というベースライン手法を提案します。この手法は、複数の接続された自動運転車両(CAV)からの知覚情報を融合し、運転関連の質問(グラウンディング、注目すべき物体の識別、計画)に答えるためにLLMを使用します。実験結果は、提案するV2V-LLMが協調自動運転における様々なタスクを実行するための有望な統一モデルアーキテクチャであり、異なる融合アプローチを使用する他のベースライン手法を上回ることを示しています。我々の研究は、将来の自動運転システムの安全性を向上させる新しい研究方向性を創出します。プロジェクトウェブサイト: https://eddyhkchiu.github.io/v2vllm.github.io/
大規模言語モデル(LLM)に対する拒否訓練は有害な出力を防ぐが、この防御策は自動化されたものも人間が作成したものも含め、ジャイルブレイクに対して脆弱なままである。本研究では、人間が拒否訓練されたLLMをジャイルブレイクし、それ自体や他のLLMをジャイルブレイクする意欲を持たせるという、新たなLLM-as-red-teamerアプローチを提案する。ジャイルブレイクされたLLMをJ_2アタッカーと呼び、これが様々なレッドチーミング戦略を用いてターゲットモデルを体系的に評価し、過去の失敗からインコンテキスト学習を通じて性能を向上させることができる。実験では、Sonnet 3.5とGemini 1.5 proが他のLLMを上回るJ_2としての性能を示し、HarmbenchにおいてGPT-4oに対してそれぞれ93.0%と91.0%の攻撃成功率(ASR)を達成した(他の有力なLLMでも同様の結果が得られた)。本研究は、人間のレッドチーマーからインスピレーションを得た戦略的レッドチーミングのスケーラブルなアプローチを紹介するだけでなく、セーフガードの見過ごされていた失敗モードとしての「ジャイルブレイクによるジャイルブレイク」を浮き彫りにしている。具体的には、LLMは、自身のセーフガードを迂回するために、さらなるジャイルブレイクを支援する意欲を持つジャイルブレイク版の自身を利用することができる。J_2の直接的な悪用を防ぎつつ、AI安全性研究を進めるために、我々は特定のプロンプト詳細を非公開にしつつ、方法論を公開する。
タンパク質は、酵素触媒、シグナル伝達、構造適応といった生物学的機能がその運動と本質的に結びついた動的な分子マシンである。しかし、配列、構造、分子運動の間の複雑で縮退した関係のため、特定の動的特性を持つタンパク質を設計することは依然として課題となっている。本論文では、正規モード振動に基づいてエンドツーエンドのデノボタンパク質設計を可能にする生成AIフレームワーク「VibeGen」を紹介する。VibeGenは、指定された振動モードに基づいて配列候補を生成するタンパク質設計者と、その動的精度を評価するタンパク質予測者からなるエージェント型デュアルモデルアーキテクチャを採用している。このアプローチにより、設計プロセスにおいて多様性、精度、新規性が相乗的に実現される。全原子分子シミュレーションによる直接検証を通じて、設計されたタンパク質が主鎖全体にわたって指定された正規モード振幅を正確に再現し、様々な安定した機能的に関連する構造を採用することを実証した。特に、生成された配列はデノボであり、天然タンパク質との有意な類似性を示さないため、進化的制約を超えたタンパク質空間へのアクセスが拡大される。本研究は、タンパク質ダイナミクスを生成型タンパク質設計に統合し、配列と振動挙動の間の直接的な双方向リンクを確立することで、特定の動的・機能的特性を持つ生体分子を設計する新たな道を開くものである。このフレームワークは、柔軟な酵素、動的スキャフォールド、バイオマテリアルの合理的設計に広範な影響を与え、ダイナミクスを考慮したAI駆動型タンパク質工学への道を切り開くものである。