翻訳付きの日次キュレーションされたAI研究論文
パーソナライズされたテキストから画像への生成は、強力で需要の高いツールとして登場し、ユーザーが特定のコンセプトやプロンプトに基づいてカスタマイズされた画像を作成できるようにしました。しかし、既存のパーソナライゼーション手法は、長いチューニング時間、大容量のストレージ要件、アイデンティティごとに複数の入力画像が必要であること、アイデンティティの保持と編集可能性の制限など、複数の課題に直面しています。これらの障害に対処するため、我々はPhotoVerseを提案します。これは、テキストと画像の両方のドメインでデュアルブランチの条件付けメカニズムを組み込んだ革新的な方法論であり、画像生成プロセスを効果的に制御します。さらに、トレーニング中にアイデンティティを保持するための新しいコンポーネントとして、顔のアイデンティティ損失を導入します。注目すべきは、提案するPhotoVerseがテスト時のチューニングを不要とし、ターゲットアイデンティティの単一の顔写真のみに依存することで、画像生成に関連するリソースコストを大幅に削減することです。単一のトレーニングフェーズの後、我々のアプローチはわずか数秒で高品質な画像を生成できるようにします。さらに、我々の手法は、さまざまなシーンやスタイルを含む多様な画像を生成することができます。広範な評価により、アイデンティティの保持と編集可能性の促進という二つの目的を達成する我々のアプローチの優れた性能が実証されています。プロジェクトページ: https://photoverse2d.github.io/
拡散モデルは、その卓越した品質と創造性によりテキストから画像を生成する技術に革命をもたらしました。しかし、その多段階のサンプリングプロセスは遅いことが知られており、満足のいく結果を得るためには数十回の推論ステップを必要とすることがしばしばあります。これまで、蒸留を通じてサンプリング速度を向上させ、計算コストを削減しようとする試みは、機能的なワンステップモデルの実現に成功していませんでした。本論文では、これまで小規模なデータセットにのみ適用されてきたRectified Flowという最近の手法を探求します。Rectified Flowの核心は、確率流の軌跡を直線化し、ノイズと画像間の結合を洗練させ、学生モデルによる蒸留プロセスを促進するリフロー手順にあります。我々は、Stable Diffusion(SD)を超高速ワンステップモデルに変換するための新しいテキスト条件付きパイプラインを提案し、その中でリフローがノイズと画像間の割り当てを改善する上で重要な役割を果たすことを発見しました。この新しいパイプラインを活用し、我々の知る限り、SDレベルの画像品質を持つ最初のワンステップ拡散ベースのテキストから画像生成器を作成し、MS COCO 2017-5kでFID(Frechet Inception Distance)23.3を達成し、従来の最先端技術であるプログレッシブ蒸留を大幅に上回りました(FID 37.2 → 23.3)。1.7Bパラメータを持つ拡張ネットワークを利用することで、FIDをさらに22.4に改善しました。我々はこのワンステップモデルをInstaFlowと呼びます。MS COCO 2014-30kでは、InstaFlowはわずか0.09秒でFID 13.1を達成し、≤ 0.1秒の領域で最高の結果を示し、最近のStyleGAN-T(0.1秒で13.9)を上回りました。特に、InstaFlowのトレーニングにはわずか199 A100 GPU日しかかかりません。プロジェクトページ: https://github.com/gnobitab/InstaFlow。
大規模言語モデル(LLM)の高スループットな提供には、十分な数のリクエストを一度にバッチ処理する必要があります。しかし、既存のシステムでは、各リクエストのキー・バリューキャッシュ(KVキャッシュ)メモリが巨大で、動的に増減するため、困難が生じています。このメモリが非効率的に管理されると、フラグメンテーションや冗長な重複によって大幅に無駄が生じ、バッチサイズが制限されます。この問題を解決するため、我々はオペレーティングシステムにおける古典的な仮想メモリとページング技術に着想を得たアテンションアルゴリズム「PagedAttention」を提案します。その上に、vLLMというLLM提供システムを構築し、(1) KVキャッシュメモリの無駄をほぼゼロにし、(2) リクエスト内およびリクエスト間でのKVキャッシュの柔軟な共有を実現して、メモリ使用量をさらに削減します。評価結果によると、vLLMは、FasterTransformerやOrcaなどの最先端システムと比較して、同じレベルのレイテンシで、人気のあるLLMのスループットを2~4倍向上させます。この改善は、より長いシーケンス、より大きなモデル、より複雑なデコードアルゴリズムにおいてより顕著です。vLLMのソースコードは、https://github.com/vllm-project/vllm で公開されています。
大規模言語モデルは多くの人間の言語タスクで優れた性能を発揮しますが、学術的な天文学のような高度に専門化された領域ではしばしば不十分です。このギャップを埋めるため、arXivから収集した30万以上の天文学アブストラクトを用いてLLaMA-2からファインチューニングした70億パラメータのモデル、AstroLLaMAを紹介します。従来の因果的言語モデリングに最適化されたAstroLLaMAは、LLaMA-2と比べて30%低いパープレキシティを達成し、顕著なドメイン適応を示しています。本モデルは、パラメータ数が大幅に少ないにもかかわらず、最先端の基盤モデルよりも洞察に富み科学的に関連性の高いテキスト補完と埋め込み抽出を生成します。AstroLLaMAは、広範なファインチューニングの可能性を秘めた堅牢なドメイン特化型モデルとして機能します。その公開は、自動論文要約や会話エージェント開発を含む天文学に焦点を当てた研究の促進を目的としています。
器用なマニピュレーションは、ロボティクスにおける長年の課題となってきました。機械学習技術は一定の成果を示してきたものの、その結果は主にシミュレーションに限定されています。これは主に適切なハードウェアの不足に起因しています。本論文では、機械学習研究のための低コストで器用的かつ人間型のハンド「LEAP Hand」を紹介します。従来のハンドとは異なり、LEAP Handは指の姿勢に関わらず最大の器用さを実現する新しいキネマティック構造を備えています。LEAP Handは低コストであり、容易に入手可能な部品を用いて4時間で組み立てることができ、そのコストは2000ドルです。また、長時間にわたって大きなトルクを一貫して発揮することが可能です。LEAP Handが現実世界での複数のマニピュレーションタスク(視覚的テレオペレーションから受動的なビデオデータを用いた学習、そしてシミュレーションから実世界への転移学習)に使用できることを示します。LEAP Handは、最も近い競合であるAllegro Handをすべての実験において大幅に上回りながら、そのコストは1/8です。詳細な組み立て手順、Sim2Realパイプライン、および有用なAPIを備えた開発プラットフォームを、当ウェブサイト(https://leap-hand.github.io/)で公開しています。
アニメーション可能でフォトリアルな人間のアバターを学習するために、多大な努力が払われてきました。この目的に向けて、人間全体(例えば、身体、衣服、顔、髪)の包括的なモデリングとキャプチャのために、明示的および暗黙的な3D表現の両方が精力的に研究されています。しかし、人間のアバターの異なる部分には異なるモデリング要件があるため、どちらの表現も表現効率の点で最適な選択肢ではありません。例えば、メッシュは一般的に衣服や髪のモデリングには適していません。これに動機づけられて、我々はハイブリッドな明示的-暗黙的3D表現で人間をモデル化するDisentangled Avatars(DELTA)を提案します。DELTAは単眼RGBビデオを入力として受け取り、身体と衣服/髪の層を分離した人間のアバターを生成します。具体的には、DELTAの2つの重要な応用例を示します。1つ目は、人間の身体と衣服の分離を考慮し、2つ目は、顔と髪の分離を行います。そのために、DELTAは身体や顔を明示的なメッシュベースのパラメトリック3Dモデルで表現し、衣服や髪を暗黙的なニューラルラジアンスフィールドで表現します。これを可能にするために、我々はメッシュをボリュームレンダリングに統合するエンドツーエンドの微分可能なレンダラを設計し、DELTAが3Dの監督なしに単眼ビデオから直接学習できるようにします。最後に、これらの2つの応用を簡単に組み合わせて全身アバターをモデル化し、髪、顔、身体、衣服を完全に分離しながらも共同でレンダリングできることを示します。このような分離により、任意の身体形状への髪や衣服の転移が可能になります。我々は、分離された再構成、仮想衣服の試着、ヘアスタイル転移におけるDELTAの有望な性能を示すことで、その分離の有効性を実証的に検証します。将来の研究を促進するために、ハイブリッド人間アバターモデリングの研究のためのオープンソースパイプラインも公開します。