翻訳付きの日次キュレーションされたAI研究論文
生成人工知能(GenAI)システムは、産業や研究のあらゆる分野でますます導入が進んでいる。開発者やエンドユーザーは、プロンプティングまたはプロンプトエンジニアリングを通じてこれらのシステムと対話する。プロンプティングは広く普及し、高度に研究されている概念であるが、この分野がまだ発展途上であるため、プロンプトの構成要素に関する用語の不整合や、オントロジー的理解の不足が存在する。本論文では、プロンプトの体系的な理解を確立するために、プロンプティング技術の分類を構築し、その使用を分析する。33の用語からなる包括的な語彙、58のテキストのみのプロンプティング技術の分類、および他のモダリティに対する40の技術を提示する。さらに、自然言語プレフィックスプロンプティングに関する全文献のメタ分析を提示する。
近年の生成モデルの進展により、高解像度画像の効率的な合成における画像トークン化の重要性が強調されています。トークン化は、画像を潜在表現に変換することで、ピクセルを直接処理する場合と比較して計算負荷を軽減し、生成プロセスの効果性と効率性を向上させます。従来の手法、例えばVQGANでは、固定のダウンサンプリング係数を持つ2次元潜在グリッドを利用することが一般的です。しかし、これらの2次元トークン化は、画像に内在する冗長性を管理する上で課題に直面しています。隣接する領域が頻繁に類似性を示すためです。この問題を克服するため、我々はTransformerベースの1次元トークナイザ(TiTok)を提案します。TiTokは、画像を1次元潜在シーケンスにトークン化する革新的なアプローチであり、従来の手法よりも大幅に効率的で効果的な表現を提供します。例えば、256 x 256 x 3の画像は、従来の手法で得られる256または1024トークンから、わずか32の離散トークンに削減されます。TiTokはそのコンパクトさにもかかわらず、最先端の手法と競争力のある性能を達成します。具体的には、同じジェネレータフレームワークを使用して、TiTokは1.97 gFIDを達成し、ImageNet 256 x 256ベンチマークにおいてMaskGITベースラインを4.21ポイント上回ります。TiTokの利点は、より高解像度の場合にさらに顕著になります。ImageNet 512 x 512ベンチマークでは、TiTokは最先端の拡散モデルDiT-XL/2(gFID 2.74 vs. 3.04)を上回るだけでなく、画像トークンを64倍削減し、生成プロセスを410倍高速化します。我々の最高性能のバリアントは、DiT-XL/2(gFID 2.13 vs. 3.04)を大幅に上回りながら、高品質なサンプルを74倍高速に生成することができます。
コード大規模言語モデル(LLM)は、コードの理解、補完、生成タスクにおいて顕著な進歩を示しています。プログラミングベンチマークは、コードチャレンジと対応するテストケースの選択から構成され、さまざまなLLMの能力を評価するための標準として機能します。しかし、既存のベンチマークのほとんどはPythonに焦点を当てており、他の言語はPythonのサンプルから翻訳されているため(例:MultiPL-E)、データの多様性が低下しています。コードLLMの研究をさらに促進するため、40のプログラミング言語をカバーする大規模多言語コードベンチマーク(McEval)を提案します。このベンチマークは16Kのテストサンプルを含み、多言語シナリオにおけるコードLLMの限界を大幅に押し上げます。ベンチマークには、コード補完、理解、生成の評価タスクが含まれており、細心の注意を払ってキュレーションされた大規模多言語指示コーパスMcEval-Instructが使用されています。さらに、McEval-Instructでトレーニングされた効果的な多言語コーダーmCoderを導入し、多言語プログラミング言語生成をサポートします。McEvalでの広範な実験結果は、オープンソースモデルとクローズドソースLLM(例:GPTシリーズモデル)の間には、多くの言語においてまだ困難な道のりがあることを示しています。指示コーパス、評価ベンチマーク、およびリーダーボードはhttps://mceval.github.io/で利用可能です。
画像編集は、ユーザーからの多様な要求を考慮すると実用的でありながらも挑戦的なタスクであり、その中でも最も難しい部分の一つは、編集後の画像がどのように見えるべきかを正確に記述することです。本研究では、ユーザーがより便利に創造性を発揮できるよう支援するため、模倣編集(imitative editing)と呼ばれる新しい形式の編集を提案します。具体的には、関心のある画像領域を編集する際、ユーザーは野外の参照画像(例えば、オンラインで見つけた関連する画像)から直接インスピレーションを得ることができ、参照とソースの適合性を気にする必要がありません。この設計では、システムが参照から何を期待して編集を実行するかを自動的に把握する必要があります。この目的のために、MimicBrushと呼ばれる生成的訓練フレームワークを提案します。このフレームワークは、ビデオクリップからランダムに2つのフレームを選択し、一方のフレームの一部の領域をマスクし、もう一方のフレームの情報を使用してマスクされた領域を復元することを学習します。これにより、拡散事前分布から開発された我々のモデルは、自己教師ありの方法で別々の画像間の意味的対応を捉えることができます。我々は、様々なテストケースにおいて本手法の有効性を示し、既存の代替手法に対する優位性を実験的に示します。また、さらなる研究を促進するためのベンチマークを構築します。
AIはパラダイムシフトを経験しており、複数の大規模言語モデル(LLMs)やその他の複雑なコンポーネントを統合するシステムによってブレークスルーが達成されています。その結果、複合AIシステムのための原理的かつ自動化された最適化手法の開発が、最も重要な新たな課題の一つとなっています。ニューラルネットワークもその初期段階で同様の課題に直面していましたが、バックプロパゲーションと自動微分が最適化を容易にすることでこの分野を変革しました。これにインスパイアされ、我々はテキストによる自動「微分」を実行する強力なフレームワークであるTextGradを紹介します。TextGradは、LLMsによって提供されるテキストフィードバックをバックプロパゲートし、複合AIシステムの個々のコンポーネントを改善します。このフレームワークでは、LLMsが計算グラフ内の変数を最適化するための豊かで汎用的な自然言語の提案を提供し、コードスニペットから分子構造まで幅広い範囲をカバーします。TextGradはPyTorchの構文と抽象化に従い、柔軟で使いやすい設計となっています。このフレームワークは、ユーザーが目的関数を提供するだけで、コンポーネントやプロンプトの調整を必要とせず、様々なタスクで即座に利用可能です。我々は、質問応答や分子最適化、放射線治療計画など、多岐にわたるアプリケーションにおいてTextGradの有効性と汎用性を実証します。フレームワークを変更することなく、TextGradはGPT-4oのGoogle-Proof質問応答におけるゼロショット精度を51%から55%に向上させ、LeetCode-Hardコーディング問題の解決において20%の相対的性能向上をもたらし、推論のためのプロンプトを改善し、望ましいin silico結合特性を持つ新規の薬物様小分子を設計し、高い特異性を持つ放射線腫瘍治療計画を設計します。TextGradは、次世代AIシステムの開発を加速するための基盤を築きます。
複雑な多段階推論タスク、例えば数学的問題の解決やコード生成は、最も先進的な大規模言語モデル(LLM)にとっても依然として大きな障壁となっています。Outcome Reward Model(ORM)を用いてLLMの出力を検証することは、推論時の標準的な技術であり、LLMの推論性能を向上させることを目的としています。しかし、長い推論チェーンや多段階推論を要するタスクにおいては、中間結果が適切に報酬やペナルティを与えられないため、この手法は依然として不十分です。プロセス監視は、推論プロセス中に中間報酬を割り当てることでこの制限を解決します。これまで、プロセス監視データを収集する方法は、人間による注釈またはステップごとのモンテカルロ推定に依存しており、いずれも拡張するには非常に高コストであるため、この技術の広範な応用を妨げていました。この課題に対応するため、我々は高品質なプロセス監視データを効率的に収集するための新しい分割統治型モンテカルロ木探索(MCTS)アルゴリズム「OmegaPRM」を提案します。このアルゴリズムは、二分探索を用いてChain of Thought(CoT)における最初のエラーを迅速に特定し、正例と負例のバランスを取ることで、効率と品質の両方を確保します。その結果、我々は150万以上のプロセス監視注釈を収集し、Process Reward Model(PRM)を訓練することができました。この完全自動化されたプロセス監視と加重自己整合性アルゴリズムを活用することで、命令調整済みGemini Proモデルの数学的推論性能を向上させ、MATHベンチマークにおいて69.4%の成功率を達成し、ベースモデルの51%から36%の相対的改善を実現しました。さらに、このプロセス全体は人間の介入なしで動作するため、既存の方法と比較して財務的および計算コストの面で効率的です。
本論文では、複雑な数学的推論タスクにおける性能向上を目的として、大規模言語モデル(LLMs)とモンテカルロ木探索(MCTS)を統合した革新的なアルゴリズム、MCT Self-Refine(MCTSr)を紹介する。特に戦略的および数学的推論におけるLLMsの精度と信頼性の課題に対処するため、MCTSrは体系的な探索とヒューリスティックな自己改善メカニズムを活用し、LLMs内の意思決定フレームワークを強化する。本アルゴリズムは、選択、自己改善、自己評価、およびバックプロパゲーションの反復プロセスを通じてモンテカルロ探索木を構築し、改良されたUpper Confidence Bound(UCB)式を用いて探索と活用のバランスを最適化する。広範な実験により、MCTSrがオリンピアドレベルの数学問題を解決する際の有効性が実証され、GSM8K、GSM Hard、MATH、およびMath Odyssey、AIME、OlympiadBenchなどのオリンピアドレベルのベンチマークを含む複数のデータセットにおいて、成功率が大幅に向上した。本研究は、複雑な推論タスクにおけるLLMsの応用を進展させ、LLM駆動アプリケーションにおける意思決定の精度と信頼性を高めるための基盤を築くものである。
本技術レポートでは、1460億パラメータと16のエキスパートを有する高性能なMixture-of-Experts(MoE)大規模言語モデル(LLM)であるSkywork-MoEの開発において実装されたトレーニング手法を紹介します。本モデルは、既存のSkywork-13Bモデルの密なチェックポイントから初期化されています。我々は、スクラッチからの初期化と比較した場合のアップサイクリングの有効性を検証し、これらのアプローチの選択は、既存の密なチェックポイントの性能とMoEトレーニングの予算の両方を考慮すべきであることを示唆する結果を得ました。また、エキスパートの多様化を改善するゲーティングロジット正規化と、レイヤーごとに補助損失係数を調整可能にする適応型補助損失係数という2つの革新的な技術を紹介します。実験結果は、これらの手法の有効性を裏付けています。これらの技術と知見を活用し、SkyPileコーパスの凝縮されたサブセットを用いてアップサイクルされたSkywork-MoEをトレーニングしました。評価結果は、本モデルが幅広いベンチマークにおいて優れた性能を発揮することを示しています。
没入型コンテンツの体験において、視覚と聴覚を組み合わせた感覚体験を生成することは極めて重要です。近年のニューラル生成モデルの進歩により、画像、テキスト、音声、動画といった複数のモダリティにわたる高解像度コンテンツの作成が可能になりました。しかしながら、生成された視覚コンテンツを補完する高品質な空間オーディオの生成には、依然として大きなギャップが存在します。さらに、現在のオーディオ生成モデルは、自然な音声や音楽の生成において優れているものの、没入体験に必要な空間オーディオの手がかりを統合する点では不十分です。本研究では、SEE-2-SOUNDというゼロショットアプローチを提案します。このアプローチでは、タスクを(1)視覚的な関心領域の特定、(2)3D空間内でのこれらの要素の位置特定、(3)各要素に対するモノラルオーディオの生成、(4)それらを空間オーディオに統合する、という4つのステップに分解します。本フレームワークを用いることで、インターネット上の高品質な動画、画像、動的画像、および学習ベースのアプローチで生成されたメディアに対する空間オーディオの生成において、説得力のある結果を示します。
既存の動的シーン生成手法の多くは、事前学習済みの3D生成モデルから知識を蒸留することに依存しており、これらは通常、合成オブジェクトデータセットでファインチューニングされています。その結果、生成されるシーンはオブジェクト中心になりがちで、フォトリアリズムに欠ける傾向があります。これらの制約を解決するため、私たちはフォトリアリスティックなテキストから4Dシーンを生成するための新しいパイプラインを提案します。このパイプラインは、マルチビュー生成モデルへの依存を排除し、代わりに多様な実世界データセットで学習されたビデオ生成モデルを完全に活用します。私たちの手法では、まずビデオ生成モデルを使用して参照ビデオを生成します。次に、参照ビデオから慎重に生成されたフリーズタイムビデオを使用して、ビデオの正規3D表現を学習します。フリーズタイムビデオの不整合を処理するために、これらの不完全さをモデル化するためのフレームごとの変形を同時に学習します。その後、正規表現に基づいて時間的変形を学習し、参照ビデオ内の動的相互作用を捉えます。このパイプラインにより、複数の視点から見ることができる、フォトリアリズムと構造的整合性が強化された動的シーンの生成が可能となり、4Dシーン生成において新たな基準を確立します。
拡散モデルは、様々なアプリケーションにおける優れた生成能力から、コミュニティから大きな関心を集めています。しかし、その典型的な多段階の逐次的ノイズ除去特性は、累積的な遅延を引き起こし、並列計算の可能性を妨げています。この問題に対処するため、我々はAsyncDiffを提案します。これは、複数のデバイス間でモデル並列処理を可能にする汎用的でプラグアンドプレイ型の高速化手法です。我々のアプローチでは、煩雑なノイズ予測モデルを複数のコンポーネントに分割し、それぞれを異なるデバイスに割り当てます。これらのコンポーネント間の依存関係を断ち切るために、連続する拡散ステップ間の隠れ状態の高い類似性を利用して、従来の逐次的ノイズ除去を非同期プロセスに変換します。その結果、各コンポーネントは別々のデバイスで並列に計算を行うことが可能になります。提案手法は、生成品質に最小限の影響を与えながら、推論遅延を大幅に削減します。具体的には、Stable Diffusion v2.1において、AsyncDiffは4つのNVIDIA A5000 GPU上で、劣化を無視できる2.7倍の高速化と、CLIPスコアのわずか0.38の低下で4.0倍の高速化を達成しました。我々の実験では、AsyncDiffがビデオ拡散モデルにも容易に適用可能であり、有望な性能を示すことも実証されています。コードはhttps://github.com/czg1225/AsyncDiffで公開されています。
拡散モデルは高品質な画像生成において優れた性能を発揮する一方で、従来の研究では言語モデリングにおいて拡散モデルと自己回帰(AR)手法の間に大きな性能差があると報告されています。本研究では、単純なマスク付き離散拡散が従来考えられていた以上に高性能であることを示します。我々は、マスク付き拡散モデルの性能を向上させる効果的なトレーニング手法を適用し、さらに改善をもたらす簡略化されたRao-Blackwell化目的関数を導出しました。我々の目的関数は単純な形式をしており、古典的なマスク付き言語モデリング損失の混合であり、効率的なサンプラーを許容するエンコーダのみの言語モデルをトレーニングするために使用できます。これには、従来の言語モデルのように半自己回帰的に任意の長さのテキストを生成できるモデルも含まれます。言語モデリングのベンチマークにおいて、現代のエンジニアリング手法でトレーニングされた一連のマスク付き拡散モデルは、拡散モデルの中で新たな最先端を達成し、ARのパープレキシティに近づいています。我々はコードを以下で公開しています:https://github.com/kuleshov-group/mdlm
大規模言語モデル(LLM)は、医療質問応答ベンチマークにおいて印象的な性能を達成しています。しかし、高いベンチマーク精度は、その性能が現実世界の臨床環境に一般化することを意味するわけではありません。医療質問応答ベンチマークは、LLMの性能を定量化するために一貫した仮定に依存していますが、これらの仮定は臨床のオープンワールドでは成り立たない可能性があります。それでも、LLMは広範な知識を学習しており、称賛されるベンチマークにおける非現実的な仮定に関わらず、実践的な条件に一般化するのに役立つことができます。我々は、ベンチマークの仮定が破られた場合に、LLMの医療質問応答ベンチマーク性能がどれだけ一般化するかを定量化することを目指しています。具体的には、我々はMedFuzz(医療ファジング)と呼ぶ敵対的手法を提案します。MedFuzzは、LLMを混乱させることを目的としてベンチマーク質問を修正しようと試みます。我々は、MedQAベンチマークで提示された患者特性に関する強い仮定をターゲットにすることで、このアプローチを実証します。成功した「攻撃」は、医療専門家を騙すことはないが、それでもLLMを正しい答えから誤った答えに変更させるような方法でベンチマーク項目を修正します。さらに、成功した攻撃が統計的に有意であることを保証する順列検定手法を提示します。我々は、「MedFuzzされた」ベンチマークでの性能、および個々の成功した攻撃をどのように使用するかを示します。これらの手法は、LLMがより現実的な設定で堅牢に動作する能力に関する洞察を提供する可能性を示しています。
本論文では、DenseAVという新しいデュアルエンコーダグラウンディングアーキテクチャを提案します。DenseAVは、ビデオを視聴するだけで、高解像度で意味的に有意義かつ音声と視覚が整列した特徴を学習します。DenseAVが、明示的な位置特定の教師信号なしに、単語の「意味」や音の「位置」を発見できることを示します。さらに、これら2種類の関連性を教師なしで自動的に発見し、区別します。DenseAVの位置特定能力は、密な画像と音声表現を直接比較してコントラスティブ学習を行う新しいマルチヘッド特徴集約演算子から生じることを示します。一方で、「グローバル」な音声とビデオ表現を学習する他の多くのシステムは、単語や音を位置特定できません。最後に、音声と音に基づくセマンティックセグメンテーションを通じてAV表現の評価を改善するための2つの新しいデータセットを提供します。これらのデータセットおよび他のデータセットにおいて、DenseAVが音声と音に基づくセマンティックセグメンテーションにおいて従来の技術を大幅に上回ることを示します。DenseAVは、パラメータ数を半分以下に抑えながら、クロスモーダル検索において以前の最先端技術であるImageBindを上回ります。プロジェクトページ: https://aka.ms/denseav{https://aka.ms/denseav}
単一画像の再照明は、幾何学、材質、照明の間の複雑な相互作用を推論する必要がある困難なタスクです。従来の多くの手法は、ポートレートなどの特定のカテゴリの画像のみをサポートするか、フラッシュライトの使用のような特別な撮影条件を必要とします。あるいは、一部の手法では、法線やBRDF(双方向反射率分布関数)などの固有成分にシーンを明示的に分解しますが、これらは不正確であったり表現力が不足していたりすることがあります。本研究では、任意の物体の単一画像を入力として、新しい環境照明条件下で正確で高品質な再照明画像を合成できる、Neural Gafferと呼ばれる新しいエンドツーエンドの2D再照明拡散モデルを提案します。このモデルは、明示的なシーン分解を行わずに、画像生成器をターゲットの環境マップに条件付けるだけで実現されます。私たちの手法は、事前に訓練された拡散モデルを基盤とし、合成再照明データセットで微調整を行うことで、拡散モデルに内在する照明の理解を明らかにし活用します。私たちは、合成画像と実世界のインターネット画像の両方でモデルを評価し、汎用性と正確性の点でその優位性を実証します。さらに、他の生成手法と組み合わせることで、テキストベースの再照明やオブジェクトの挿入などの多くの下流2Dタスクを可能にします。また、このモデルは、放射輝度フィールドの再照明などの3Dタスクにおいても強力な再照明事前分布として機能します。
大規模言語モデル(LLM)の敵対的操作(例:ジェイルブレイク攻撃)に対する頑健性は、依然として重要な課題である。本研究では、LLMの自己批判能力を強化し、さらに浄化された合成データを用いて微調整を行うアプローチを提案する。これには、外部の批評モデルを追加し、それを元のモデルと統合することで、自己批判能力を強化し、LLMの敵対的プロンプトに対する応答の頑健性を向上させる。我々の結果は、統合と自己批判を組み合わせることで、攻撃者の成功率を大幅に低減できることを示しており、ジェイルブレイク攻撃に対する有望な防御メカニズムを提供するものである。コード、データ、およびモデルはhttps://github.com/vicgalle/merging-self-critique-jailbreaksで公開されている。