翻訳付きの日次キュレーションされたAI研究論文
特定のID(アイデンティティ)に基づくコンテンツ生成は、生成モデルの分野で大きな関心を集めています。テキストから画像を生成する(T2I)分野では、画像内のIDを制御可能な被写体駆動型コンテンツ生成が大きな進展を遂げています。しかし、これをビデオ生成に拡張する試みは十分に探究されていません。本研究では、シンプルでありながら効果的な被写体ID制御可能なビデオ生成フレームワークを提案し、Video Custom Diffusion(VCD)と名付けました。VCDは、少数の画像で定義された特定の被写体IDを基に、ID情報の抽出を強化し、初期化段階でフレーム間の相関を注入することで、IDを大幅に保持した安定したビデオ出力を実現します。これを実現するために、高品質なID保持に不可欠な3つの新規コンポーネントを提案します:1) プロンプトからセグメンテーションによって切り出されたIDを用いて訓練されたIDモジュール。これにより、ID情報と背景ノイズを分離し、より正確なIDトークンの学習を可能にします。2) 3Dガウシアンノイズプライアを用いたテキストからビデオ(T2V)VCDモジュール。これにより、フレーム間の一貫性を向上させます。3) ビデオからビデオ(V2V)Face VCDおよびTiled VCDモジュール。これにより、顔のぼやけを除去し、ビデオを高解像度にアップスケールします。 シンプルな構造にもかかわらず、VCDが選択された強力なベースラインを上回る安定した高品質なビデオを生成できることを検証するために、広範な実験を行いました。さらに、IDモジュールの転移性により、VCDは公開されているファインチューニング済みのテキストから画像モデルとも良好に連携し、その有用性をさらに高めています。コードはhttps://github.com/Zhen-Dong/Magic-Meで公開されています。
大規模言語モデル(LLM)は、さまざまな領域で驚くべき推論性能を達成してきました。しかし、推論タスクの領域において、我々はある脆弱性を発見しました。前提の順序が変わってもタスクの本質は変わらないにもかかわらず、LLMはその順序に対して驚くほど脆いのです。特に、前提の順序が中間推論ステップで必要な文脈と一致する場合に、LLMは最高の性能を発揮することが観察されます。例えば、演繹的推論タスクでは、プロンプト内で前提をランダムな順序ではなく、正解の証明と同じ順序で提示すると、モデルの精度が劇的に向上します。我々はまず、さまざまなLLMにおいて、前提の順序が演繹的推論に及ぼす影響を調査し、前提の順序を入れ替えることで性能が30%以上低下することを確認しました。さらに、数学的問題解決における順序効果を調べるために、GSM8Kを基にしたベンチマークR-GSMを公開し、元のGSM8Kベンチマークと比較して精度が大幅に低下することを再確認しました。
DALL-E 3やStable Diffusion-XLなどの拡散ベースの画像生成モデルは、現実的で独創的な構図の画像を生成する際に顕著な能力を示します。しかし、これらのモデルは、特に「5本足の椅子」のような非慣習的で、したがって分布外の記述を指示された場合に、物体の物理的・空間的配置を正確に推論する点で堅牢ではありません。本論文では、3D思考連鎖(Chain-of-3D-Thoughts)を備えた言語エージェント(L3GO)を提案します。これは、現在のデータ駆動型拡散モデルが苦手とする非慣習的な物体のパーツベースの3Dメッシュ生成を推論するための推論時アプローチです。具体的には、大規模言語モデルをエージェントとして使用し、3Dシミュレーション環境内で試行錯誤を経て目的の物体を構成します。本研究を促進するために、新たなベンチマーク「Unconventionally Feasible Objects(UFO)」と、Blender上に構築されたラッパー環境「SimpleBlenv」を開発しました。SimpleBlenvでは、言語エージェントがAPI呼び出しを介して原子構築ブロックを構築・構成できます。人間および自動GPT-4V評価により、我々のアプローチがShapeNetにおける3Dメッシュ生成において標準のGPT-4や他の言語エージェント(例:ReActやReflexion)を凌駕することが示されました。さらに、UFOベンチマークでテストした場合、我々のアプローチは人間評価に基づいて他の最先端のテキストから2D画像およびテキストから3Dモデルを生成するモデルを上回りました。
長さの一般化、つまりより短い訓練シーケンスからより長いテストシーケンスへ外挿する能力は、言語モデルにとって重要な課題です。この問題は、比較的単純なタスクを扱う大規模なTransformerにおいても依然として存在します。本論文では、2つの整数の加算というタスクを用いて、Transformerの長さ一般化能力を検証します。長さの一般化の成功は、データ形式と位置エンコーディングの種類に密接に関連していることを示します。適切なデータ形式と位置エンコーディングの組み合わせを用いることで、標準的なTransformerが入力長の2.5倍のシーケンス長に外挿できることを初めて実証します。しかしながら、分布内の一般化とは異なり、長さの一般化は脆弱であり、ランダムな重み初期化や訓練データの順序などの要因に大きく影響され、異なるランダムシード間で大きなばらつきが生じます。
多数のノードにわたる計算のスケーリングの必要性は、特にMessage Passing Interface(MPI)統合の領域において、効率的な並列計算の重要性を強調しています。MPIベースの並列プログラムを生成するという挑戦的な並列プログラミングタスクは、これまで未開拓のままでした。本研究では、まず最先端の言語モデルがMPIベースの並列プログラムを生成する際の性能を調査します。その結果、GPT-3.5やPolyCoder(多言語コードモデルに特化したモデル)などの広く使用されているモデルは、汎用プログラムと比較してMPIベースのプログラムを生成する際に顕著な性能低下を示すことが明らかになりました。一方、CおよびC++のMPI関連プログラミング言語で事前学習されたMonoCoderなどのドメイン特化モデルは、より大規模なモデルを上回る性能を示します。その後、HPCorpusMPIでMonoCoderをファインチューニングすることにより、MPIベースのプログラム生成に特化した下流タスクを導入します。この結果得られたモデルをMPIrigenと呼びます。我々は、コード全体を観察した後にのみ完了するための革新的な前処理を提案し、より広いコンテキストでより良い完了を可能にします。新しいHPC指向の評価方法を使用したGPT-3.5のゼロショット性能との比較分析により、MPIrigenが正確なMPI関数を生成する能力が、位置と関数の予測において最大0.8の精度、引数の予測において0.9以上の精度で優れていることが示されました。この特化したソリューションの成功は、並列計算コード生成のための言語モデルを最適化する際のドメイン特化ファインチューニングの重要性を強調し、新世代の自動並列化ツールへの道を開きます。この研究のソースは、GitHubのMPIrigenリポジトリで公開されています:https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
計算能力、または「コンピュート」は、人工知能(AI)の能力の開発と展開において極めて重要です。その結果、政府や企業はAIを統治する手段としてコンピュートを活用し始めています。例えば、政府は国内のコンピュート能力に投資し、競合国へのコンピュートの流れを制御し、特定のセクターへのコンピュートアクセスを補助しています。しかし、これらの取り組みは、コンピュートがAIの開発と展開を統治するためにどのように使用できるかについての表面をなぞったに過ぎません。AIの他の主要な入力(データとアルゴリズム)と比較して、AI関連のコンピュートは特に効果的な介入ポイントです。それは検出可能で、排除可能で、定量化可能であり、極めて集中したサプライチェーンを通じて生産されます。これらの特性と、最先端のAIモデルにとってのコンピュートの重要性を考えると、コンピュートを統治することが、AIの安全性と有益な使用を確保するといった共通の政策目標の達成に貢献できることが示唆されます。より具体的には、政策立案者はコンピュートを使用して、AIの規制上の可視性を促進し、有益な結果を促進するためにリソースを割り当て、無責任または悪意のあるAIの開発と使用に対する制限を実施することができます。しかし、コンピュートベースの政策と技術はこれらの分野で支援する可能性がある一方で、その実装準備には大きなばらつきがあります。いくつかのアイデアは現在パイロット段階にありますが、他のものは基礎研究の必要性によって妨げられています。さらに、コンピュート統治に対する単純または不適切なアプローチは、プライバシー、経済的影響、権力の集中などの分野で重大なリスクを伴います。最後に、コンピュート統治からこれらのリスクを最小限に抑えるためのガードレールを提案します。
報酬ファインチューニングは、基盤モデルを下流タスクの目的に適合させる有望なアプローチとして注目を集めています。人間の嗜好を反映した報酬を最大化するために強化学習(RL)を用いることで、言語領域では顕著な成功を収めてきました。しかし、視覚領域では、既存のRLベースの報酬ファインチューニング手法は、大規模な訓練における不安定性に制約されており、複雑で未見のプロンプトに汎化することができません。本論文では、Proximal Reward Difference Prediction(PRDP)を提案し、10万以上のプロンプトを含む大規模なデータセットにおいて、初めて拡散モデルのブラックボックス報酬ファインチューニングを安定化させます。我々の重要な革新は、RL目的と同一の最適解を持ちながら、より良い訓練安定性を享受するReward Difference Prediction(RDP)目的関数です。具体的には、RDP目的関数は、生成された画像ペアの報酬差をそのノイズ除去軌跡から予測するように拡散モデルに課す教師あり回帰目的関数です。理論的に、完全な報酬差予測を達成する拡散モデルは、まさにRL目的関数の最大化者であることを証明します。さらに、RDP目的関数を安定して最適化するための近接更新を用いたオンラインアルゴリズムを開発します。実験では、PRDPが小規模な訓練において、確立されたRLベースの手法と同等の報酬最大化能力を発揮することを示します。さらに、Human Preference Dataset v2とPick-a-Pic v1データセットのテキストプロンプトを用いた大規模な訓練を通じて、PRDPは多様な複雑な未見のプロンプトにおいて優れた生成品質を達成する一方で、RLベースの手法は完全に失敗することを示します。
大規模言語モデル(LLM)はますます普及し、さまざまな形の文章作成支援に広く活用されています。しかし、LLMを活用した文章作成システムは、パーソナライゼーションや制御の限界からユーザーを苛立たせることがあり、特にプロンプトエンジニアリングの経験が不足しているユーザーにおいてその問題が顕著になります。私たちは、これらの課題に対処する手段としてデザインに着目し、ユーザーがより高い主体性とパーソナライゼーションを発揮できるAI強化型文章作成デザインプローブ「GhostWriter」を提案します。GhostWriterは、ユーザーが文章を書く過程でその意図する文章スタイルを暗黙的に学習するためにLLMを活用しつつ、手動でのスタイル編集や注釈を通じて明示的な指導の機会を提供します。18名の参加者が2つの異なる文章作成タスクでGhostWriterを使用した結果、ユーザーがパーソナライズされたテキスト生成を実現し、システムの文章スタイルを制御するための複数の方法を提供することでユーザーの力を引き出すことが観察されました。この研究を通じて、AI支援型文章作成に対する人々の関係性に関する洞察を提示し、今後の研究に向けたデザインの提言を行います。
生成AIモデルの複雑化に伴い、ポストトレーニング量子化(PTQ)は、モバイルデバイスやテレビなどのエッジデバイスに大規模モデルを展開するための有望なソリューションとして注目されています。しかし、既存のPTQスキームは、多くの時間とリソースを消費するため、頻繁なモデル更新や複数のハイパーパラメータチューニングが必要な実際の状況ではボトルネックとなる可能性があります。コスト効率の高い代替案として、ワンショットPTQスキームが提案されていますが、Transformerの重要な特徴であるアテンションモジュール内の層間依存性を考慮できないため、性能がやや限られています。本論文では、精度と効率のバランスを取る新しいPTQアルゴリズムを提案します。提案アルゴリズム「aespa」の鍵となるアイデアは、効率のために層ごとに量子化を行いながら、アテンションスコアを保持するために層間依存性を考慮することです。さまざまな言語モデルでの広範な実験と複雑性分析を通じて、aespaがTransformerモデルの量子化において正確かつ効率的であることを実証します。