翻訳付きの日次キュレーションされたAI研究論文
本論文では、コンテンツ作成に特化した初の大規模言語モデル(LLM)ファミリー「Weaver」を紹介する。Weaverは、大規模言語モデルの文章作成能力を向上させるために厳選されたコーパスで事前学習されており、その後、創造的および専門的な文章作成目的でファインチューニングされ、プロの作家の好みに合わせて調整されている。これにより、より人間らしいテキストを生成し、コンテンツ作成のための多様な指示に従うことができる。Weaverファミリーは、Weaver Mini(1.8B)、Weaver Base(6B)、Weaver Pro(14B)、Weaver Ultra(34B)のサイズで構成され、異なるアプリケーションに適しており、クエリの複雑さに応じてルーティングエージェントによって動的にディスパッチされ、応答品質と計算コストのバランスを取ることができる。LLMの文章作成能力を評価するために厳選されたベンチマークでの評価では、Weaverのすべてのサイズのモデルが、それよりも数倍大きい汎用LLMを上回る結果を示した。特に、最も能力の高いWeaver Ultraモデルは、最先端の汎用LLMであるGPT-4をさまざまな文章作成シナリオで凌駕し、文章作成に特化したLLMを訓練することの利点を実証した。さらに、Weaverは、検索拡張生成(RAG)と関数呼び出し(ツール使用)をネイティブでサポートしている。これらの能力を活用して、外部の知識ベース、ツール、またはAPIの統合、および個別化された文章作成支援を提供するなど、AI支援型文章作成システムを改善するためのさまざまなユースケースを提示する。さらに、ドメイン特化型LLMの事前学習とファインチューニングのためのガイドラインとベストプラクティスについて議論し、まとめる。
YOLO(You Only Look Once)シリーズの検出器は、効率的で実用的なツールとして確立されています。しかし、これらの検出器は事前に定義され訓練された物体カテゴリに依存しているため、オープンなシナリオでの適用性が制限されています。この制限に対処するため、我々はYOLO-Worldを提案します。これは、視覚と言語のモデリングと大規模データセットでの事前学習を通じて、YOLOにオープンな語彙検出能力を強化する革新的なアプローチです。具体的には、視覚と言語情報の相互作用を促進するために、新しい再パラメータ化可能な視覚言語パス集約ネットワーク(RepVL-PAN)と領域テキストコントラスト損失を提案します。我々の手法は、ゼロショット方式で幅広い物体を効率的に検出することに優れています。難しいとされるLVISデータセットにおいて、YOLO-WorldはV100上で35.4 APと52.0 FPSを達成し、精度と速度の両面で多くの最先端手法を上回ります。さらに、微調整されたYOLO-Worldは、物体検出やオープン語彙インスタンスセグメンテーションを含むいくつかの下流タスクで顕著な性能を発揮します。
BlockFusionを紹介する。これは、3Dシーンをユニットブロックとして生成し、新しいブロックをシームレスに組み込んでシーンを拡張する拡散モデルである。BlockFusionは、完全な3Dシーンメッシュからランダムに切り取られた3Dブロックのデータセットを使用して訓練される。ブロックごとのフィッティングを通じて、すべての訓練ブロックはハイブリッドニューラルフィールドに変換される。これは、ジオメトリ特徴を含むトライプレーンと、それに続く符号付き距離値をデコードするための多層パーセプトロン(MLP)で構成される。変分オートエンコーダを使用して、トライプレーンを潜在トライプレーン空間に圧縮し、その上でノイズ除去拡散プロセスが実行される。潜在表現に拡散を適用することで、高品質で多様な3Dシーン生成が可能となる。生成中にシーンを拡張するには、現在のシーンと重なるように空のブロックを追加し、既存の潜在トライプレーンを外挿して新しいブロックを埋めるだけでよい。外挿は、ノイズ除去イテレーション中に重なるトライプレーンからの特徴サンプルを使用して生成プロセスを条件付けることで行われる。潜在トライプレーンの外挿は、既存のシーンと調和する意味的および幾何学的に意味のある遷移を生成する。2Dレイアウト条件付けメカニズムを使用して、シーン要素の配置と配置を制御する。実験結果は、BlockFusionが、屋内および屋外のシナリオで、多様で幾何学的に一貫性があり、かつ無限に広がる大規模な3Dシーンを、前例のない高品質の形状で生成できることを示している。
大規模言語モデル(LLM)を視覚合成に活用するため、従来の手法では専門的な視覚モジュールを通じてラスター画像情報を離散的なグリッドトークンに変換していましたが、これによりモデルが視覚シーンの真の意味表現を捉える能力が阻害されていました。本論文では、画像の代替表現であるベクターグラフィックスが、より自然で意味的に一貫した画像情報の分割を可能にすることで、この制限を効果的に克服できると提唱します。そこで我々は、ベクターグラフィックス上でより優れた視覚表現「ストロークトークン」を探求する先駆的な研究であるStrokeNUWAを紹介します。このストロークトークンは、本質的に視覚的意味が豊富で、LLMと自然に互換性があり、高度に圧縮されています。ストロークトークンを備えたStrokeNUWAは、ベクターグラフィック生成タスクにおいて、従来のLLMベースおよび最適化ベースの手法を様々な指標で大幅に上回ることができます。さらに、StrokeNUWAは推論速度において従来手法に比べて最大94倍の高速化を実現し、6.9%という卓越したSVGコード圧縮率を達成しています。
急速に進化する音声生成モデルの分野において、音声クローニングのリスクに対する音声の真正性を確保することが喫緊の課題となっています。本論文では、AI生成音声の局所的な検出に特化した初の音声透かし技術であるAudioSealを提案します。AudioSealは、サンプルレベルまでの局所的な透かし検出を可能にするために、ローカライゼーション損失と共に共同で学習されたジェネレータ/ディテクタアーキテクチャを採用し、さらに聴覚マスキングに着想を得た新しい知覚損失を用いることで、より優れた不可聴性を実現しています。AudioSealは、自動および人間による評価指標に基づいて、実生活での音声操作に対する頑健性と不可聴性の両面で最先端の性能を達成しています。さらに、AudioSealは高速なシングルパスディテクタを備えており、検出速度において既存モデルを大幅に上回り、最大で2桁の高速化を実現しています。これにより、大規模かつリアルタイムのアプリケーションに最適な技術となっています。
私たちはH2O-Danube-1.8Bを発表します。これは、LLama 2とMistralのコア原則に従って1兆トークンでトレーニングされた18億パラメータの言語モデルです。大規模言語モデルの事前学習において、さまざまな技術を活用し、改良を加えました。参照モデルと比較して総トークン数が大幅に少ないにもかかわらず、当モデルは多数のベンチマークで非常に競争力のある指標を示しています。さらに、教師ありファインチューニングと直接選好最適化を経てトレーニングされたチャットモデルもリリースします。H2O-Danube-1.8BはApache 2.0ライセンスの下で公開され、より広範な層に対して経済的にLLMを民主化することを目指しています。
本報告書では、大規模言語モデル(LLM)の学習と展開において、テキスト拡散モデルが自己回帰(AR)デコードを置き換える可能性について探求します。特に、事前学習済みのARモデルを、我々が「AR2Diff」と呼ぶ軽量な適応手順を通じてテキスト拡散モデルに変換できるかどうかに注目します。まず、テキスト拡散モデルの学習のための強力なベースライン設定を確立します。複数のアーキテクチャと事前学習目的を比較し、プレフィックスLM目的でデコーダのみのモデルを学習することが、いくつかのタスクで最良またはそれに近い結果をもたらすことを発見しました。この知見を基に、テキスト拡散モデルのための様々な転移学習の設定をテストします。機械翻訳では、テキスト拡散モデルは標準的なARアプローチに劣る結果を示しました。しかし、コード合成と抽出型QAでは、スクラッチから学習した拡散モデルが多くの場合でARモデルを上回りました。また、ARモデルを拡散デコードを使用するように適応させるAR2Diffから品質の向上も観察されました。これらの結果は、テキスト拡散が比較的未開拓であり、長文生成においてARデコードよりも大幅に高速化できることを考えると、非常に有望です。
大規模言語モデル(LLM)のアラインメントには多大な努力が注がれてきたが、レッドチーミングレポートによると、これらの慎重にアラインメントされたLLMでも、敵対的なプロンプト、チューニング、またはデコードを通じてジャイルブレイクされる可能性がある。アラインメントされたLLMのジャイルブレイク脆弱性を調査すると、ジャイルブレイクされたモデルとアラインメントされたモデルのデコード分布は、初期の生成段階でのみ異なることが観察される。この観察結果から、我々は「弱から強へのジャイルブレイク攻撃」を提案する。この攻撃では、敵対者がより小さな安全でない/アラインメントされたLLM(例:7B)を利用して、大幅に大きなアラインメントされたLLM(例:70B)に対するジャイルブレイクを誘導することができる。ジャイルブレイクするためには、2つの小さなLLMを一度だけ追加でデコードするだけでよく、大きなLLMをデコードする場合と比べて計算量と遅延が最小限に抑えられる。この攻撃の有効性は、3つの異なる組織の5つのモデルで実施された実験を通じて実証された。本研究は、これまで気づかれていなかったが効率的なジャイルブレイク方法を明らかにし、LLMをアラインメントする際に考慮すべき緊急の安全性問題を暴露した。初期の試みとして、我々はこのような攻撃から保護するための防御戦略を提案するが、より高度な防御策の作成は依然として課題である。この手法を再現するためのコードはhttps://github.com/XuandongZhao/weak-to-strongで公開されている。
現在の画像操作は主に、画像内の特定領域の置換や全体的なスタイルの変更といった静的な操作が中心となっている。本論文では、革新的な動的操作タスクである被写体再配置を提案する。このタスクは、ユーザーが指定した被写体を所望の位置に移動させながら、画像の忠実性を維持することを目的としている。本研究では、被写体再配置の基本的なサブタスク(再配置された被写体が残した空白部分の埋め込み、被写体の隠れた部分の再構築、周囲の領域と調和するように被写体をブレンドすること)が、統一されたプロンプトガイド付きインペインティングタスクとして効果的に再定式化できることを明らかにした。その結果、提案するタスク反転技術を通じて学習された様々なタスクプロンプトを用いて、これらのサブタスクを単一の拡散生成モデルで処理することが可能となった。さらに、被写体再配置の品質をさらに向上させるために、前処理および後処理技術を統合した。これらの要素を組み合わせることで、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを構築した。SEELEの被写体再配置における有効性を評価するため、ReSと呼ばれる実世界の被写体再配置データセットを構築した。ReSでの結果は、再配置された画像生成の品質を実証している。
最近の研究では、透明性とオープンサイエンスを促進するために、完全にオープンな基盤モデルを提唱しています。最初のステップとして、Open Whisper-style Speech Model (OWSM)は、公開されているデータとオープンソースのツールキットを使用してOpenAIのWhisperを再現しました。Whisperの再現を目指して、以前のOWSM v1からv3までのモデルは依然としてTransformerに基づいていましたが、これは他の最先端の音声エンコーダと比較して性能が劣る可能性があります。本研究では、追加のトレーニングデータなしでOWSMの性能と効率を向上させることを目指しています。私たちは、100Mと1Bの2つのスケールでE-BranchformerベースのOWSM v3.1モデルを提案します。1Bモデルは、公開されている中で最大のE-Branchformerベースの音声モデルです。これは、以前のOWSM v3を大多数の評価ベンチマークで上回り、最大25%高速な推論速度を示しています。私たちは、データ準備スクリプト、事前学習済みモデル、およびトレーニングログを公開しています。
画像復元は、劣化した観測データから高品質なクリーンな画像を復元する基本的な問題です。All-In-One画像復元モデルは、劣化の種類やレベルに応じた情報をプロンプトとして利用し、様々な劣化状態から効果的に画像を復元することができます。本研究では、人間が記述した指示を用いて画像復元モデルをガイドする初めてのアプローチを提案します。自然言語のプロンプトを与えることで、我々のモデルは複数の劣化タイプを考慮しつつ、劣化した画像から高品質な画像を復元することができます。我々の手法であるInstructIRは、画像ノイズ除去、雨除去、ぼかし除去、かすみ除去、および(低照度)画像強調を含むいくつかの復元タスクにおいて、最先端の結果を達成しました。InstructIRは、従来のAll-In-One復元手法よりも+1dBの改善を実現しています。さらに、我々のデータセットと結果は、テキストガイドによる画像復元と強調に関する新しい研究のためのベンチマークを提供します。我々のコード、データセット、およびモデルは以下で公開されています: https://github.com/mv-lab/InstructIR
大規模言語モデル(LLM)はプログラム合成にますます使用されるようになっているが、有用な抽象化を開発するために必要なグローバルな視点を欠いている。一般的に、LLMは一度に一つのプログラムを予測し、同じ機能を繰り返すことが多い。ゼロから冗長なコードを生成することは非効率的でエラーが発生しやすい。この問題に対処するため、我々はコードリファクタリング(実行結果を変えずにコードを再構築すること)を介して再利用可能な関数のライブラリを学習する勾配不要の手法であるRefactoring for Generalizable Abstraction Learning(ReGAL)を提案する。ReGALは既存のプログラムの小さなセットから学習し、実行を通じてその抽象化を反復的に検証・洗練する。ReGALによって発見された共有関数ライブラリは、多様なドメインにわたってプログラムを予測しやすくすることがわかった。LOGOグラフィックス生成、日付推論、およびMinecraftベースのテキストゲームであるTextCraftの3つのデータセットにおいて、オープンソースおよびプロプライエタリのLLMは、ReGAL関数を使用したプログラムを予測する際に精度が向上した。CodeLlama-13Bでは、ReGALによりグラフィックスで11.5%、日付理解で26.1%、TextCraftで8.1%の絶対精度向上が見られ、3つのドメインのうち2つでGPT-3.5を上回った。我々の分析によると、ReGALの抽象化は頻繁に使用されるサブルーチンと環境のダイナミクスをカプセル化している。
現在の大規模視覚言語モデル(VLM)は、単一の視覚コンポーネントの能力不足や過度に長い視覚トークンといった課題に直面することが多い。これらの問題は、複雑な視覚情報や過度に長い文脈情報を正確に解釈するモデルの効果を制限する可能性がある。これらの課題に対処することは、VLMの性能と適用性を向上させるために重要である。本論文では、アンサンブルエキスパート技術を提案し、画像テキストマッチング、OCR、画像セグメンテーションなどに熟練した個々の視覚エンコーダの能力を統合する。この技術は、異なる視覚エキスパートからの出力を統一的に処理するための融合ネットワークを導入し、画像エンコーダと事前学習済みLLMの間のギャップを埋める。さらに、長い画像特徴シーケンスによって引き起こされる位置エンコーディングの浪費を軽減するために、異なる位置エンコーディングスキームを探求し、位置オーバーフローと長さ制限の問題を効果的に解決する。例えば、我々の実装では、この技術により、SAMのようなモデルにおける位置占有を、大幅に4096からより効率的で管理しやすい64、さらには1にまで削減することができる。実験結果は、複数のエキスパートを備えたVLMが、孤立した視覚エンコーダを一貫して上回り、より多くのエキスパートが統合されるにつれて性能が大幅に向上することを示している。本報告で使用したトレーニングコードをオープンソースとして公開している。これらのリソースはすべて、プロジェクトのウェブサイトで見つけることができる。
大規模言語モデルは、その訓練と推論において分散技術にますます依存するようになっています。これらの技術はデバイス間の通信を必要とし、デバイス数が増えるにつれてスケーリング効率が低下する可能性があります。一部の分散技術では、この通信を独立した計算と重ね合わせることで隠すことができますが、Tensor Parallelism(TP)のような技術では、通信とモデルの実行が本質的に直列化されます。この直列化された通信を隠す一つのアプローチは、通信をデータの生成操作と細粒度で交互に行うことです。しかし、ソフトウェアで通信と計算を細粒度で交互に行うことは困難です。さらに、並列実行の場合と同様に、計算と通信の間で計算リソースとメモリリソースを共有する必要があり、リソース競合が発生して重ね合わせの効果が低下します。 これらの課題を克服するために、我々はT3を提案します。T3はハードウェアとソフトウェアの協調設計を適用し、直列化された通信を透過的に重ね合わせるとともに、計算とのリソース競合を最小化します。T3は、生成操作の出力アドレス空間を簡単に設定することで、生成操作とその後の通信を透過的に融合し、ソフトウェアの変更を最小限に抑えます。ハードウェアレベルでは、T3は軽量なトラックおよびトリガーメカニズムを追加して生成操作の計算と通信を調整します。さらに、通信に付随する計算のために計算機能を強化したメモリを使用します。その結果、T3はリソース競合を減らし、直列化された通信と計算を効率的に重ね合わせます。T-NLGのような重要なTransformerモデルでは、T3は通信が集中するサブレイヤーの速度を幾何平均で30%(最大47%)向上させ、データ移動を幾何平均で22%(最大36%)削減します。さらに、T3の利点はモデルがスケールする際にも持続します:sim5000億パラメータモデル、PALM、MT-NLGのサブレイヤーで幾何平均29%の改善が見られます。