翻訳付きの日次キュレーションされたAI研究論文
38億パラメータの言語モデルであるphi-3-miniを紹介します。このモデルは3.3兆トークンでトレーニングされており、学術ベンチマークと内部テストの両方で測定された全体的な性能は、Mixtral 8x7BやGPT-3.5などのモデルに匹敵します(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38を達成)。にもかかわらず、携帯電話にデプロイできるほど小型です。この革新は完全にトレーニング用データセットにあり、phi-2で使用されたものをスケールアップしたもので、厳選されたウェブデータと合成データで構成されています。また、モデルは堅牢性、安全性、チャット形式にさらに適合されています。さらに、4.8兆トークンでトレーニングされた7Bと14Bのモデルであるphi-3-smallとphi-3-mediumの初期パラメータスケーリング結果も提供します。これらはphi-3-miniよりも大幅に高性能です(例えば、それぞれMMLUで75%と78%、MT-benchで8.7と8.9を達成)。
MetaのLLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)シリーズの一つとなっています。特に、最近リリースされたLLaMA3モデルは、15T以上のトークンデータを用いた超大規模な事前学習により、さまざまなタスクで印象的な性能を達成しています。リソースが限られたシナリオでのLLMの低ビット量子化の広範な応用を考慮し、我々はLLaMA3を低ビット幅に量子化した場合の能力を探求します。この探求は、LLaMA3や今後登場する他のLLMの低ビット量子化における新たな洞察と課題を明らかにする可能性を秘めており、特にLLM圧縮における性能低下問題の解決に役立つと考えられます。具体的には、1~8ビットの範囲で10種類の既存の学習後量子化およびLoRAファインチューニング手法をLLaMA3に適用し、多様なデータセットでその低ビット量子化性能を包括的に評価します。実験結果から、LLaMA3は特に超低ビット幅において無視できない性能低下を引き起こすことが明らかになりました。これは、低ビット幅における重要な性能ギャップが今後の開発で埋められる必要があることを示しています。我々は、この実証研究が将来のモデルの進化に貢献し、LLMをより低ビット幅で高精度に実用化するための推進力となることを期待しています。本プロジェクトはhttps://github.com/Macaronlin/LLaMA3-Quantizationで公開されており、量子化されたLLaMA3モデルはhttps://huggingface.co/LLMQでリリースされています。
今日の大規模言語モデル(LLM)は、プロンプトインジェクション、ジェイルブレイク、その他の攻撃に対して脆弱であり、攻撃者がモデルの元の指示を悪意のあるプロンプトで上書きすることを可能にしています。本研究では、これらの攻撃の根底にある主な脆弱性の一つとして、LLMがシステムプロンプト(例えば、アプリケーション開発者からのテキスト)を信頼できないユーザーや第三者からのテキストと同じ優先度で扱うことが挙げられると主張します。この問題に対処するため、異なる優先度の指示が衝突した際にモデルがどのように振る舞うべきかを明示的に定義する指示階層を提案します。さらに、この階層的な指示追従行動を示すためのデータ生成手法を提案し、LLMに低優先度の指示を選択的に無視することを教えます。この手法をGPT-3.5に適用し、トレーニング中に見られなかった攻撃タイプに対しても堅牢性が大幅に向上し、標準的な能力への影響を最小限に抑えることを示します。
急速に進化するロボティック・プロセス・オートメーション(RPA)の分野は、反復的なプロセスの自動化において大きな進展を遂げてきたが、ユーザーが要求する自発的または予測不可能なタスクを必要とするシナリオではその効果が低下する。本論文では、この制限を克服し、自動ワークフロー生成システムを構築するために、Generative Pretrained Transformer(GPT)などの大規模言語モデル(LLM)の能力を活用した新しいアプローチであるFlowMindを紹介する。FlowMindでは、LLMの推論を信頼性のあるアプリケーション・プログラミング・インターフェース(API)に基づかせるための汎用的なプロンプトレシピを提案する。これにより、FlowMindはLLMにおける一般的な問題である「幻覚」を軽減するだけでなく、LLMと機密データやコードとの直接的な相互作用を排除し、金融サービスにおける情報の完全性と機密性を確保する。さらに、FlowMindは自動生成されたワークフローの高レベルな説明を提示することでユーザーインタラクションを簡素化し、ユーザーが効果的に検査しフィードバックを提供できるようにする。また、ファンドに関するN-CENレポートからの質問応答タスクをベンチマークするための新しい金融データセットであるNCEN-QAを紹介する。NCEN-QAを使用して、FlowMindによって生成されたワークフローのパフォーマンスをベースラインおよびFlowMindのアブレーションバリアントと比較評価した。FlowMindの成功、提案されたプロンプトレシピの各コンポーネントの重要性、およびFlowMindにおけるユーザーインタラクションとフィードバックの有効性を実証する。
最近、拡散モデル(DMs)の多段階推論プロセスに伴う計算オーバーヘッドを軽減するために、一連の拡散対応蒸留アルゴリズムが登場しています。現在の蒸留技術は、しばしば二つの異なる側面に二分されます:i) ODE軌道保存;およびii) ODE軌道再定式化。しかし、これらのアプローチは深刻な性能低下やドメインシフトに悩まされています。これらの制限に対処するため、我々はHyper-SDを提案します。これは、ODE軌道保存と再定式化の利点を相乗的に統合し、ステップ圧縮中にほぼ無損失の性能を維持する新しいフレームワークです。まず、事前に定義された時間ステップセグメント内で一貫した蒸留を段階的に実行する「軌道分割一貫性蒸留」を導入し、高次元の視点から元のODE軌道を保存することを容易にします。次に、人間のフィードバック学習を組み込むことで、低ステップ領域でのモデルの性能を向上させ、蒸留プロセスによる性能損失を軽減します。さらに、スコア蒸留を統合してモデルの低ステップ生成能力をさらに向上させ、すべてのステップで推論プロセスをサポートする統一されたLoRAを活用する初の試みを提供します。広範な実験とユーザー調査により、Hyper-SDがSDXLとSD1.5の両方で1から8推論ステップにおいてSOTA性能を達成することが示されています。例えば、Hyper-SDXLは1ステップ推論において、SDXL-LightningをCLIPスコアで+0.68、Aesスコアで+0.51上回ります。
本論文では、マルチモーダル自動解釈エージェントであるMAIAについて説明する。MAIAは、ニューラルモデルを用いて、特徴解釈や故障モード発見といったニューラルモデル理解タスクを自動化するシステムである。MAIAは、事前学習済みの視覚-言語モデルに、他のモデルのサブコンポーネントの動作を説明するための反復実験を支援する一連のツールを装備している。これらのツールには、人間の解釈研究者が一般的に使用するものが含まれる:入力の合成と編集、実世界のデータセットから最大活性化例を計算、実験結果の要約と記述などである。MAIAが提案する解釈実験は、これらのツールを組み合わせてシステムの動作を記述し、説明する。我々は、MAIAをコンピュータビジョンモデルに適用した評価を行う。まず、MAIAが学習済み画像表現の(ニューロンレベルの)特徴を記述する能力を特徴付ける。いくつかの学習済みモデルと、ペアになった正解記述を持つ合成視覚ニューロンの新規データセットにおいて、MAIAは専門家の人間実験者が生成する記述に匹敵する記述を生成する。次に、MAIAが2つの追加の解釈タスクを支援できることを示す:偽の特徴に対する感度を低減すること、および誤分類されそうな入力を自動的に特定することである。
マルチモーダル基盤モデルの急速な進化は、視覚と言語の理解と生成において大きな進展を示してきました。例えば、私たちの以前の研究であるSEED-LLaMAがその一例です。しかし、その能力と実世界での適用性の間には依然としてギャップが存在します。これは主に、モデルが様々なユーザー指示に効果的に応答し、多様な視覚データと相互作用する能力が限られているためです。本研究では、このギャップを埋めるために、以下の2つの強化された機能を統合することに焦点を当てます:(1)任意のサイズと比率の画像を理解する能力、(2)マルチグラニュラリティ(多粒度)の画像生成を可能にする能力。私たちは、理解と生成タスクのためのマルチグラニュラリティ視覚意味論をモデル化できる統一された汎用基盤モデル、SEED-Xを提案します。公開ベンチマークでの競争力のある結果に加えて、SEED-Xは指示チューニング後に様々な分野での実世界アプリケーションを扱う有効性を示しています。私たちの研究が、汎用マルチモーダル基盤モデルが実世界アプリケーションで達成できることについての将来の研究を刺激することを願っています。モデル、コード、およびデータセットはhttps://github.com/AILab-CVC/SEED-Xで公開されます。
一貫性モデルは、効率的な画像/動画生成を促進する際に顕著な能力を示し、最小限のサンプリングステップで合成を可能にすることが実証されています。これは、拡散モデルに関連する計算負荷を軽減する上で有利であることが証明されています。しかしながら、音楽生成における一貫性モデルの応用はほとんど未開拓のままです。このギャップを埋めるため、我々はMusic Consistency Models (MusicCM)を提案します。これは、一貫性モデルの概念を活用して、音楽クリップのメルスペクトログラムを効率的に合成し、高品質を維持しながらサンプリングステップ数を最小限に抑えます。既存のテキストから音楽への拡散モデルを基に、MusicCMモデルは一貫性蒸留と敵対的識別器トレーニングを組み込んでいます。さらに、共有制約を持つ複数の拡散プロセスを組み込むことで、長く一貫性のある音楽を生成することが有益であることがわかりました。実験結果は、計算効率、忠実度、自然さの観点から我々のモデルの有効性を明らかにしています。特に、MusicCMはわずか4つのサンプリングステップでシームレスな音楽合成を実現し、例えば音楽クリップの1分あたりわずか1秒で、リアルタイム応用の可能性を示しています。
本論文では、テキストからの画像生成におけるマルチコンセプトカスタマイズのための新規かつ効率的な技術であるMultiBoothを紹介する。特に拡散モデルの成功により、カスタマイズ生成手法は大きく進歩しているが、既存の手法はコンセプトの忠実度が低く、推論コストが高いため、マルチコンセプトのシナリオに苦戦することが多い。MultiBoothは、マルチコンセプト生成プロセスを2つのフェーズに分割することでこれらの課題に対処する:シングルコンセプト学習フェーズとマルチコンセプト統合フェーズである。シングルコンセプト学習フェーズでは、マルチモーダル画像エンコーダと効率的なコンセプトエンコーディング技術を用いて、各コンセプトの簡潔で識別可能な表現を学習する。マルチコンセプト統合フェーズでは、クロスアテンションマップ内で各コンセプトの生成領域を定義するためにバウンディングボックスを使用する。この方法により、指定された領域内で個々のコンセプトを生成し、マルチコンセプト画像の形成を容易にする。この戦略は、コンセプトの忠実度を向上させるだけでなく、追加の推論コストも削減する。MultiBoothは、定性的および定量的な評価においてさまざまなベースラインを上回り、その優れた性能と計算効率を示している。プロジェクトページ: https://multibooth.github.io/
急峻な環境における安定した移動は四足歩行ロボットにとって必須の能力であり、様々な外部擾乱に抵抗する能力が求められる。しかし、最近の学習ベースのポリシーは、学習されたポリシーの堅牢性を向上させるために基本的なドメインランダム化のみを使用しており、ロボットが十分な擾乱抵抗能力を持つことを保証できない。本論文では、学習プロセスをアクターと新たに導入したディスターバー間の敵対的相互作用としてモデル化し、H_{infty}制約を用いてそれらの最適化を保証することを提案する。割引総報酬を最大化するアクターとは対照的に、ディスターバーは効果的な外力を生成する役割を担い、タスク報酬とそのオラクル(すなわち「コスト」)の誤差を最大化することで最適化される。アクターとディスターバーの共同最適化を安定させるために、我々のH_{infty}制約は、コストと外力の強度の比の上限を規定する。トレーニングフェーズ全体を通じた相互相互作用により、アクターはますます複雑な物理的擾乱をナビゲートする能力を獲得できる。我々は、Unitree Aliengoロボットを用いた四足歩行タスク、およびUnitree A1ロボットを用いたより挑戦的なタスク(四足ロボットが二足ロボットのように後脚のみで移動することを期待される)において、本手法の堅牢性を検証した。シミュレーションによる定量的結果はベースラインに対する改善を示し、本手法と各設計選択の有効性を実証している。一方、実機実験では、階段、高台、斜面、滑りやすい地形など様々な地形上で様々な擾乱が加えられた際に、ポリシーがいかに堅牢であるかを定性的に示している。すべてのコード、チェックポイント、および実世界での展開ガイドが公開される予定である。
シーンを描写する一連の画像からカメラパラメータを推定するタスクに取り組む。一般的な特徴ベースのStructure-from-Motion(SfM)ツールは、このタスクを増分的な再構成によって解決する。つまり、疎な3D点の三角測量と、疎な点群への追加カメラビューの登録を繰り返す。我々は、この増分的なStructure-from-Motionを、視覚的再位置推定器(すなわち、新しいビューを現在の再構成状態に登録する手法)の反復的な適用と改良として再解釈する。この視点により、局所特徴マッチングに基づかない代替的な視覚的再位置推定器を探究することが可能となる。我々は、学習ベースの再位置推定手法であるシーン座標回帰を用いることで、未配置の画像から暗黙的なニューラルシーン表現を構築できることを示す。他の学習ベースの再構成手法とは異なり、姿勢の事前情報や連続的な入力を必要とせず、数千枚の画像に対して効率的に最適化を行う。我々の手法であるACE0(ACE Zero)は、新規視点合成によって実証されるように、特徴ベースのSfMに匹敵する精度でカメラ姿勢を推定する。プロジェクトページ: https://nianticlabs.github.io/acezero/