翻訳付きの日次キュレーションされたAI研究論文
我々は、Magicoderという完全オープンソース(コード、重み、データ)のコード用大規模言語モデル(LLM)シリーズを紹介します。Magicoderは、7Bパラメータ以下でありながら、トップクラスのコードモデルとのギャップを大幅に縮めます。Magicoderモデルは、OSS-Instructという新しいアプローチを用いて、75Kの合成指示データでトレーニングされます。OSS-Instructは、オープンソースのコードスニペットを活用して、高品質なコード用指示データを生成する手法です。我々の主な動機は、LLMによって生成される合成データに内在するバイアスを軽減し、より多様で現実的かつ制御可能なデータを生成するために、豊富なオープンソースリファレンスを活用することです。OSS-InstructとEvol-Instructなどの他のデータ生成手法の直交性により、強化版のMagicoderSを構築することが可能です。MagicoderとMagicoderSは、Pythonのテキストからコード生成、多言語コーディング、データサイエンスプログラムの完成など、幅広いコーディングベンチマークにおいて、類似またはそれ以上のサイズの最先端のコードモデルを大幅に上回ります。特に、CodeLlamaに基づくMagicoderS-CL-7Bは、HumanEval+において著名なChatGPTを凌駕します(pass@1で66.5 vs. 65.9)。全体として、OSS-Instructは、豊富なオープンソースリファレンスを用いた低バイアスで高品質な指示チューニングの新たな方向性を開きます。
テキストからビデオを生成する拡散モデルは、ビデオ生成を大幅に進化させました。しかし、これらのモデルをカスタマイズして特定の動きを持つビデオを生成することは、依然として大きな課題です。具体的には、(a) ターゲットビデオから正確に動きを再現すること、および (b) 多様な視覚的バリエーションを創出することに困難を抱えています。例えば、静止画のカスタマイズ手法をそのままビデオに拡張すると、外観と動きのデータが複雑に絡み合うことがしばしばあります。この問題に対処するため、本論文では「Video Motion Customization (VMC)」フレームワークを提案します。これは、ビデオ拡散モデル内の時間的注意層を適応させるために設計された、新しいワンショットチューニングアプローチです。私たちの手法では、連続するフレーム間の残差ベクトルを動きの参照として使用する新しい動き蒸留目的関数を導入します。これにより、拡散プロセスは低周波数の動き軌跡を保持しつつ、画像空間における高周波数の動きに関連しないノイズを軽減します。私たちは、多様な実世界の動きと文脈において、最先端のビデオ生成モデルと比較して本手法を検証しました。コード、データ、およびプロジェクトのデモは https://video-motion-customization.github.io で公開しています。
本研究は、被写体のアイデンティティを維持しつつ個性的なスタイルを加えるという、画像生成における興味深い課題であるアイデンティティ保存型画像合成を探求する。従来の手法であるTextual InversionやDreamBoothはカスタム画像作成において進展を遂げてきたが、微調整に多大なリソースと時間を要することや、複数の参照画像が必要であるといった重大な欠点を抱えている。これらの課題を克服するため、本研究では特に人物画像に焦点を当てた新しいアイデンティティ保存型合成手法を提案する。私たちのモデルは直接フィードフォワード機構を活用し、集中的な微調整を必要とせず、迅速かつ効率的な画像生成を可能にする。私たちの革新の核心は、スタイル化された画像、顔画像、テキストプロンプトを組み合わせたハイブリッドガイダンスフレームワークであり、これが画像生成プロセスを導く。この独自の組み合わせにより、私たちのモデルは芸術的なポートレートやアイデンティティを融合した画像など、多様なアプリケーションを生成することができる。定性的および定量的な評価を含む実験結果は、私たちの手法が既存のベースラインモデルや先行研究を凌駕し、特にその驚異的な効率性と被写体のアイデンティティを高忠実度で維持する能力において優れていることを示している。
大規模言語モデル(LLM)のアライメントチューニングプロセスは、通常、教師ありファインチューニング(SFT)による指示学習と、人間のフィードバックからの強化学習(RLHF)による選好チューニングを含みます。最近の研究であるLIMA(Zhou et al. 2023)では、わずか1,000例のSFTでさえも、重要なアライメント性能を達成できることが示されており、アライメントチューニングの効果が「表面的」である可能性を示唆しています。これは、アライメントチューニングがどのようにベースLLMを変換するのかについての疑問を提起します。 我々は、ベースLLMとそのアライメントチューニング版の間のトークン分布シフトを分析することで、アライメントチューニングの効果を検証しました。その結果、ベースLLMとそのアライメントチューニング版は、ほとんどのトークン位置においてデコーディングにおいてほぼ同一の性能を示すことが明らかになりました。分布シフトの大部分は、スタイルに関連するトークンで発生しています。これらの直接的な証拠は、LIMAが示唆した「表面的アライメント仮説」を強く支持しています。 これらの発見に基づき、我々はSFTやRLHFなしでベースLLMをどの程度効果的にアライメントできるかという研究課題を再考します。これに対処するため、シンプルでチューニング不要のアライメント手法であるURIALを提案します。URIALは、ベースLLMを用いた文脈内学習(ICL)のみを通じて効果的なアライメントを達成し、わずか3つの定型的なスタイル例とシステムプロンプトを必要とします。多様な例セットであるJUST-EVAL-INSTRUCTを用いて、細かく解釈可能な評価を実施しました。その結果、URIALを適用したベースLLMは、SFTやSFT+RLHFでアライメントされたLLMの性能に匹敵し、場合によってはそれを上回ることが示されました。戦略的なプロンプティングとICLを通じて、チューニング不要のアライメント手法とチューニングベースの手法とのギャップを大幅に縮小できることを示しました。アライメントチューニングの表面的な性質に関する我々の発見とURIALの結果は、アライメントの深い分析と理論的理解が将来のLLM研究において重要であることを示唆しています。
拡散モデルは、その驚異的な生成能力により、最近画像合成の分野で空前の注目を集めています。しかしながら、これらのモデルはしばしば多大な計算コストを伴い、主に逐次的なノイズ除去プロセスと大規模なモデルサイズに起因しています。従来の拡散モデルの圧縮手法は、通常、大規模な再トレーニングを必要とし、コストと実現可能性の課題を抱えています。本論文では、モデルアーキテクチャの観点から拡散モデルを高速化する、新たなトレーニング不要のパラダイムであるDeepCacheを紹介します。DeepCacheは、拡散モデルの逐次的なノイズ除去ステップで観察される時間的な冗長性を活用し、隣接するノイズ除去ステージ間で特徴をキャッシュして取得することで、冗長な計算を削減します。U-Netの特性を利用し、高レベルの特徴を再利用しながら、低レベルの特徴を非常に低コストで更新します。この革新的な戦略により、Stable Diffusion v1.5ではCLIPスコアのわずか0.05の低下で2.3倍の高速化を実現し、LDM-4-GではImageNetでのFIDが0.22わずかに低下するものの4.1倍の高速化を達成しました。我々の実験では、DeepCacheが再トレーニングを必要とする既存のプルーニングや蒸留手法を上回り、現在のサンプリング技術との互換性も確認されています。さらに、同じスループットの下で、DeepCacheはDDIMやPLMSと同等またはわずかに改善された結果を効果的に達成することがわかりました。コードはhttps://github.com/horseee/DeepCacheで公開されています。
現在の拡散モデルに基づく動画編集は、主に時間的な一貫性とモーションの整合性を保証するために、様々な密な対応関係を利用した構造保存型編集に焦点を当てています。しかし、これらのアプローチは、編集対象が形状変化を伴う場合にはしばしば効果的ではありません。形状変化を伴う動画編集に取り組むため、本論文ではカスタマイズされた動画被写体交換を探求します。ここでは、ソース動画の主要被写体を、異なるアイデンティティと潜在的に異なる形状を持つターゲット被写体に置き換えることを目指します。密な対応関係に依存する従来の手法とは対照的に、我々はVideoSwapフレームワークを提案します。このフレームワークは、被写体のモーショントラジェクトリを整列させ、その形状を変更するためには少数の意味的ポイントだけで十分であるという観察に基づいて、意味的ポイント対応関係を活用します。また、様々な意味的ポイント対応関係に対処するために、ユーザーポイントインタラクション(例えば、ポイントの削除やドラッグ)を導入します。広範な実験により、様々な実世界の動画において最先端の動画被写体交換結果が実証されています。
我々は、Segment Anything Model (SAM)に領域キャプション生成能力を効率的に付与する手法を提案する。SAMは、あらゆるものをセグメント化する強力な汎用性を有する一方で、意味理解の面では限界がある。軽量なクエリベースの特徴量ミキサーを導入することで、領域固有の特徴量と言語モデルの埋め込み空間を整合させ、後続のキャプション生成を可能にする。学習可能なパラメータ数が少ない(通常は数千万のオーダー)ため、計算量、メモリ使用量、通信帯域幅のいずれも低く抑えられ、高速かつスケーラブルな学習が実現される。領域キャプションデータの不足という課題に対処するため、まず物体検出とセグメンテーションタスクでモデルを事前学習することを提案する。このステップを弱教師付き事前学習と呼ぶ。事前学習データにはカテゴリ名のみが含まれ、完全な文の記述は含まれないためである。弱教師付き事前学習により、多くの公開されている物体検出およびセグメンテーションデータセットを活用できる。我々は広範な実験を行い、本手法の優位性を実証し、各設計選択を検証する。本研究は、領域キャプションデータのスケールアップに向けた礎となるものであり、SAMに領域意味を付与する効率的な方法を探る上での指針を示す。プロジェクトページと関連コードは、以下のURLからアクセス可能である: https://xk-huang.github.io/segment-caption-anything/
テキストからビデオ生成における最近の進展にもかかわらず、既存の研究では、合成されたビデオにおいて空間的な内容はテキストによって制御されるものの、時間的な動きは制御されないという問題が通常見過ごされている。この課題に対処するため、本論文では、ユーザーが関心のある画像をテキスト記述でアニメーション化できる実用的なシステム「LivePhoto」を提案する。まず、十分に学習されたテキストから画像生成器(例えばStable Diffusion)が画像を追加の入力として受け取ることを可能にする強力なベースラインを確立する。次に、改良された生成器に時間的モデリングのためのモーションモジュールを装備し、テキストと動きをより良く結びつけるために注意深く設計されたトレーニングパイプラインを提案する。特に、(1) テキストは動きを大まかにしか記述できない(例えば、移動速度に関係なく)こと、(2) テキストには内容と動きの記述の両方が含まれる可能性があることを考慮し、テキストから動きへのマッピングの曖昧さを軽減するために、モーション強度推定モジュールとテキスト再重み付けモジュールを導入する。実験結果は、本手法が動作、カメラの動き、さらには無から新しい内容を生み出す(例えば、空のグラスに水を注ぐ)といった動きに関連するテキスト指示をビデオにうまくデコードできることを示唆している。興味深いことに、提案された強度学習メカニズムのおかげで、本システムはユーザーにテキストに加えてビデオカスタマイズのための追加の制御信号(つまり、モーション強度)を提供する。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせるための主要なパラダイムとして登場しました。通常、RLHFは、事前学習済みのLLMによって生成されたテキストペア間の選好として表現される人間のフィードバックから報酬モデルを学習する初期ステップを含みます。その後、強化学習アルゴリズムを通じて報酬モデルを最大化するようにLLMのポリシーを微調整します。しかし、現在の報酬モデルの固有の制限は、人間の好みの豊かさを完全に表現できないことと、サンプリング分布への依存性にあります。 本研究では、ペアワイズ人間フィードバックを使用したLLMの微調整のための代替パイプラインを紹介します。私たちのアプローチは、プロンプトが与えられた2つの入力に基づいて条件付けられる選好モデルの初期学習を含み、その後、競合するポリシーによって生成された応答よりも常に好まれる応答を生成するポリシーを追求します。これにより、この選好モデルのナッシュ均衡を定義します。私たちはこのアプローチを人間のフィードバックからのナッシュ学習(NLHF)と呼びます。 表形式のポリシー表現の文脈では、ミラー降下の原理に基づいた新しいアルゴリズムソリューション、Nash-MDを提示します。このアルゴリズムは、最後のイテレーションが正則化されたナッシュ均衡に収束する一連のポリシーを生成します。さらに、ポリシーのパラメトリック表現を探求し、深層学習アーキテクチャのための勾配降下アルゴリズムを紹介します。私たちのアプローチの有効性を示すために、テキスト要約タスクのためのLLMの微調整を含む実験結果を提示します。私たちは、NLHFが選好学習とポリシー最適化のための魅力的な道を提供し、LLMを人間の好みに合わせる分野を前進させる可能性があると信じています。
2つの画像セットはどのように異なるのか?セットレベルの差異を識別することは、モデルの挙動を理解し、データセットを分析する上で極めて重要である。しかし、数千枚の画像を手作業で精査するのは現実的ではない。この発見プロセスを支援するため、我々は2つの画像セット間の差異を自動的に記述するタスクを探求し、これを「セット差分キャプショニング(Set Difference Captioning)」と呼ぶ。このタスクは、画像セットD_AとD_Bを入力として受け取り、D_Aでより頻繁に当てはまる記述を出力する。我々は、まず画像セットから候補となる差分記述を提案し、その後、それらの候補が2つのセットをどれだけうまく区別できるかをチェックして再ランク付けするという2段階のアプローチを概説する。我々はVisDiffを導入し、まず画像にキャプションを付け、言語モデルに候補記述を提案させ、その後CLIPを使用してこれらの記述を再ランク付けする。VisDiffを評価するために、187組の画像セットと正解の差分記述を含むVisDiffBenchデータセットを収集した。VisDiffを様々な領域に適用し、データセットの比較(例:ImageNet vs. ImageNetV2)、分類モデルの比較(例:ゼロショットCLIP vs. 教師ありResNet)、モデルの失敗モードの要約(教師ありResNet)、生成モデル間の差異の特徴付け(例:StableDiffusionV1とV2)、記憶に残る画像の特徴の発見などを行った。VisDiffを使用することで、データセットやモデルにおける興味深くかつこれまで知られていなかった差異を発見することができ、微妙な洞察を明らかにする上での有用性を実証した。
拡散モデルはその強力な表現力と高品質なサンプル生成能力により、様々な分野で多くの新しいアプリケーションやユースケースを可能にしてきました。サンプル生成において、これらのモデルは反復的なノイズ除去を行うニューラルネットワークに依存しています。しかし、ノイズ除去ネットワークのアーキテクチャの役割は十分に研究されておらず、ほとんどの研究は畳み込み残差U-Netに依存しています。本論文では、拡散ベースの生成学習におけるビジョントランスフォーマーの有効性を研究します。具体的には、U字型のエンコーダーとデコーダーを備えたハイブリッド階層アーキテクチャからなる新しいモデル、Diffusion Vision Transformers(DiffiT)を提案します。また、ノイズ除去プロセスの異なる段階で注意層が効率的に動作を適応させるための新しい時間依存型セルフアテンションモジュールを導入します。さらに、高解像度画像生成のための提案されたセルフアテンションレイヤーを備えたトランスフォーマーモデルからなる潜在DiffiTも紹介します。我々の結果は、DiffiTが驚くほど高忠実度の画像生成に効果的であり、様々なクラス条件付きおよび無条件の合成タスクにおいて最先端(SOTA)のベンチマークを達成することを示しています。潜在空間では、DiffiTはImageNet-256データセットにおいて1.73の新しいSOTA FIDスコアを達成します。リポジトリ: https://github.com/NVlabs/DiffiT
大規模言語モデル(LLM)に基づくリストワイズ・リランカーは、ゼロショットの最先端技術である。しかし、この方向性における現在の研究はすべてGPTモデルに依存しており、科学的再現性における単一障害点となっている。さらに、現在の研究結果がGPTモデルにのみ当てはまり、一般的なLLMには当てはまらない可能性があるという懸念も生じている。本研究では、この前提条件を取り除き、初めてGPTに依存しない効果的なリストワイズ・リランカーを構築した。我々のパッセージ検索実験では、最良のリストワイズ・リランカーがGPT-3.5ベースのリストワイズ・リランカーを13%上回り、GPT-4ベースのリランカーの97%の効果を達成した。また、既存のトレーニングデータセットがポイントワイズ・ランキングのために明示的に構築されたものであり、このようなリストワイズ・リランカーを構築するには不十分であることも示された。代わりに、高品質なリストワイズ・ランキングデータが必要かつ重要であり、人間によるアノテーションが施されたリストワイズ・データリソースの構築に向けたさらなる研究が求められている。
大規模マルチモーダルモデル(LMMs)の最近の著しい進展に伴い、ビジュアルチャットにおけるそれらのグラウンディング能力の重要性がますます認識されています。LMMsがグラウンディングをサポートできるようにするための最近の取り組みにもかかわらず、それらのグラウンディング能力とチャット能力は通常分離されており、グラウンディングを求められるとチャットのパフォーマンスが大幅に低下します。この問題の原因は、グラウンディングされたビジュアルチャット(GVC)のためのデータセットの不足です。既存のグラウンディングデータセットには短いキャプションしか含まれていません。この問題に対処するため、私たちはグラウンディング能力とチャット能力を組み合わせることができるGVCデータを作成しました。GVC能力をより適切に評価するために、Grounding-Benchというベンチマークを導入しました。さらに、セグメンテーションモデルと言語モデルを接続することで、GVCとさまざまなタイプのビジュアルプロンプトをサポートできるモデル設計を提案しました。実験結果は、私たちのモデルがGrounding-Benchにおいて他のLMMsを上回ることを示しています。さらに、私たちのモデルはRefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンディングベンチマークにおいても競争力のあるパフォーマンスを達成しています。私たちのコードはhttps://github.com/UX-Decoder/LLaVA-Groundingで公開されます。
本論文では、GPS-Gaussianと呼ばれる新しいアプローチを提案し、キャラクターの新規視点合成をリアルタイムで実現します。提案手法は、スパースビューカメラ設定下において2K解像度のレンダリングを可能にします。従来のGaussian Splattingやニューラル暗黙的レンダリング手法とは異なり、被写体ごとの最適化を必要とせず、ソースビュー上で定義されたGaussianパラメータマップを導入し、Gaussian Splattingの特性を直接回帰することで、微調整や最適化なしに即座に新規視点合成を行います。この目的のために、大量の人間スキャンデータを用いてGaussianパラメータ回帰モジュールを訓練し、深度推定モジュールと連携して2Dパラメータマップを3D空間にリフトします。提案フレームワークは完全に微分可能であり、複数のデータセットでの実験により、本手法が最先端の手法を上回り、卓越したレンダリング速度を達成することを示します。
物体認識を次トークン予測として定式化するアプローチを提案する。このアイデアは、画像埋め込みからテキストトークンを自己回帰的に予測してラベルを形成する言語デコーダを適用するものである。この予測プロセスを自己回帰に基づかせるため、デコーダ用に非因果的アテンションマスクをカスタマイズし、2つの主要な特徴を組み込む:異なるラベルのトークンを独立としてモデル化すること、および画像トークンをプレフィックスとして扱うことである。このマスキングメカニズムは、推論時に複数ラベルのトークンを並列にサンプリングし、生成されたラベルをその確率に基づいてランク付けする効率的な方法——ワンショットサンプリング——を可能にする。さらに効率性を向上させるため、事前学習済み言語モデルの中間ブロックを単に削除することでコンパクトなデコーダを構築するシンプルな戦略を提案する。このアプローチにより、完全なモデルと同等の性能を維持しながら、著しく効率的なデコーダが得られる。コードはhttps://github.com/kaiyuyue/nxtpで公開されている。
テキストから動画を生成する技術は有望な結果を示しています。しかし、自然言語のみを入力として使用する場合、ユーザーはモデルの出力を精密に制御するための詳細な情報を提供するのに困難を感じることがよくあります。本研究では、詳細な制御を実現するために、細粒度制御可能な動画生成(FACTOR)を提案します。具体的には、FACTORはテキストプロンプトと連携して、オブジェクトの外観やコンテキスト(位置やカテゴリなど)を制御することを目指しています。詳細な制御を実現するために、既存のテキストから動画を生成するモデルに制御信号を統合的に注入する統一フレームワークを提案します。我々のモデルは、共同エンコーダと適応的クロスアテンションレイヤーで構成されています。エンコーダと挿入されたレイヤーを最適化することで、テキストプロンプトと細粒度制御の両方に整合した動画を生成するようにモデルを適応させます。エッジマップのような高密度な制御信号に依存する既存の手法と比較して、我々の方法はより直感的でユーザーフレンドリーなインターフェースを提供し、オブジェクトレベルの細粒度制御を可能にします。我々の手法は、オブジェクトの外観の制御性をファインチューニングなしで実現し、ユーザーが個別の対象ごとに最適化を行う手間を削減します。標準的なベンチマークデータセットとユーザー提供の入力に対する広範な実験により、我々のモデルが競合するベースラインと比較して制御性の指標で70%の改善を達成することが検証されました。
有限語彙の離散トークンではなく、実数値エントリを持つベクトル列を生成する生成型無限語彙トランスフォーマー(GIVT)を提案する。これにより、デコーダのみのトランスフォーマーに対して2つの驚くほど単純な修正を加える:1)入力において、有限語彙のルックアップテーブルを入力ベクトルの線形射影に置き換える;2)出力において、カテゴリカル分布に通常マッピングされるロジット予測を多変量ガウス混合モデルのパラメータに置き換える。VQ-GANやMaskGITの画像生成パラダイムにインスパイアされ、トランスフォーマーがVQ-VAEの離散潜在列をモデル化するのに対し、GIVTはVAEの非量子化された実数値潜在列をモデル化するために使用する。クラス条件付き画像生成に反復的マスクモデリングを適用する場合、GIVTはMaskGITと競合する結果を示し、因果モデリングに使用する場合にはVQ-GANとMaskGITの両方を上回る性能を発揮する。最後に、UViMフレームワークのVAEベースのバリアントを用いてパノプティックセグメンテーションと深度推定に適用する場合、画像生成以外の領域でも競争力のある結果を得る。
実世界のビデオからの新視点合成は、シーンのダイナミクスや視差の欠如といった課題により困難です。既存の手法は、暗黙的なニューラルラジアンスフィールドを用いて有望な結果を示していますが、学習とレンダリングに時間がかかります。本論文では、単眼ビデオから高品質な新視点を効率的に合成するために、明示的なビデオ表現を再検討します。静的および動的なビデオコンテンツを別々に扱います。具体的には、拡張された平面ベースのシーン表現を用いてグローバルな静的シーンモデルを構築し、時間的に一貫した新ビデオを合成します。平面ベースのシーン表現は、球面調和関数とディスプレイスメントマップを追加することで、視点依存効果を捉え、非平面の複雑な表面形状をモデル化します。動的コンテンツは効率性を考慮して、フレームごとの点群として表現します。このような表現は一貫性に欠ける傾向がありますが、動きにより微小な時間的な不整合は知覚的にマスクされます。我々は、このハイブリッドビデオ表現を迅速に推定し、リアルタイムで新視点をレンダリングする方法を開発しました。実験結果から、我々の手法は実世界のビデオから高品質な新視点をレンダリングでき、最先端の手法と同等の品質を維持しながら、学習速度が100倍速く、リアルタイムレンダリングを可能にすることが示されました。
大規模なテキストから画像への変換(T2I)モデルは、創造的な分野で急速に注目を集め、テキストプロンプトから視覚的に魅力的な出力を生成しています。しかし、これらのモデルを制御して一貫したスタイルを保証することは依然として課題であり、既存の方法ではコンテンツとスタイルを分離するためにファインチューニングや手動介入が必要です。本論文では、生成された一連の画像間でスタイルの整合性を確立するための新しい技術であるStyleAlignedを紹介します。拡散プロセス中に最小限の「アテンション共有」を採用することで、本手法はT2Iモデル内の画像間でスタイルの一貫性を維持します。このアプローチにより、参照スタイルを使用してスタイルが一貫した画像を簡単な反転操作で作成することが可能です。多様なスタイルとテキストプロンプトに対する本手法の評価は、高品質な合成と忠実度を示し、様々な入力に対して一貫したスタイルを達成するその有効性を強調しています。
従来の3Dコンテンツ作成ツールは、シーンのジオメトリ、外観、動き、カメラパスを直接制御することで、ユーザーが自身の想像力を具現化することを可能にします。しかし、コンピュータ生成の動画を作成するのは手間のかかる手動プロセスであり、これは新興のテキストからビデオへの拡散モデルによって自動化することができます。大きな可能性を秘めているにもかかわらず、ビデオ拡散モデルは制御が難しく、ユーザーが自身の創造性を発揮するのではなく、それを阻害してしまうことがあります。この課題に対処するため、我々は動的3Dメッシュの制御性と新興の拡散モデルの表現力および編集性を組み合わせた新しいアプローチを提案します。この目的のために、我々のアプローチでは、アニメーション化された低忠実度レンダリングメッシュを入力として受け取り、動的メッシュから得られたグラウンドトゥルース対応情報を、事前学習済みのテキストから画像生成モデルの各段階に注入して、高品質で時間的に一貫したフレームを出力します。我々は、リグ付きアセットをアニメーション化したり、カメラパスを変更することで動きを得ることができる様々な例でこのアプローチを実証します。
テキストから3D生成の領域において、スコア蒸留サンプリング(SDS)を通じて2D拡散モデルを利用することは、本質的にノイズの多いSDS損失の性質により、ぼやけた外観や多面体ジオメトリなどの問題を頻繁に引き起こします。私たちの分析では、これらの課題の核心が、2D拡散プロセスにおけるノイズレベル、拡散ネットワークのアーキテクチャ、および3Dモデル表現の相互作用にあることを特定しました。これらの制限を克服するために、私たちはStableDreamerという方法論を提案します。この方法論は、3つの進歩を組み込んでいます。まず、InstructNeRF2NeRFに着想を得て、SDS生成事前分布と単純な教師ありL2再構成損失の等価性を形式化します。この発見は、SDSをデバッグするための新しいツールを提供し、時間的にアニーリングするノイズレベルが多面体ジオメトリを減少させる影響を示すために使用します。次に、私たちの分析は、画像空間拡散が幾何学的精度に寄与する一方で、潜在空間拡散が鮮やかな色再現に不可欠であることを示しています。この観察に基づき、StableDreamerは、これらの側面を効果的に組み合わせた2段階のトレーニング戦略を導入し、高忠実度の3Dモデルを実現します。第三に、私たちは、Neural Radiance Fields(NeRFs)を置き換えるために異方性3Dガウシアン表現を採用し、全体的な品質を向上させ、トレーニング中のメモリ使用量を削減し、レンダリング速度を加速し、半透明オブジェクトをより良く捕捉します。StableDreamerは、多面体ジオメトリを減少させ、細部を生成し、安定して収束します。
放射場におけるインタラクティブな3Dセグメンテーションは、3Dシーンの理解と操作における重要性から、非常に魅力的なタスクです。しかし、既存の手法は、細粒度かつ多粒度のセグメンテーションを実現するか、あるいは大幅な計算オーバーヘッドに対処するかのいずれかに課題を抱えており、リアルタイムでのインタラクションを妨げています。本論文では、Segment Any 3D GAussians(SAGA)を紹介します。これは、2Dセグメンテーションの基盤モデルと、放射場の最近のブレークスルーである3D Gaussian Splatting(3DGS)をシームレスに統合した新しい3Dインタラクティブセグメンテーション手法です。SAGAは、セグメンテーション基盤モデルによって生成された多粒度の2Dセグメンテーション結果を、設計されたコントラスティブトレーニングを通じて3Dガウシアンポイント特徴に効率的に埋め込みます。既存のベンチマークでの評価により、SAGAが最先端の手法と競争力のある性能を発揮できることが示されています。さらに、SAGAは多粒度のセグメンテーションを実現し、ポイント、スクリブル、2Dマスクなど様々なプロンプトに対応します。特に、SAGAはミリ秒単位で3Dセグメンテーションを完了し、以前のSOTAと比較して約1000倍の高速化を達成しています。プロジェクトページはhttps://jumpat.github.io/SAGAにあります。
大規模言語モデル(LLM)は、「連鎖的思考」(Chain-of-Thought, CoT)プロンプトを使用して段階的に答えを導くよう指示されると、問題をより正確かつ解釈可能に解決します。また、特定のタスクにおけるLLMの性能を向上させるために、教師ありファインチューニングを行うことができます。これは、ラベル付きトレーニングセットから正解の対数尤度の平均を最大化するために、調整可能なパラメータに対して勾配上昇法を使用するものです。CoTと教師ありチューニングを単純に組み合わせる場合、正解だけでなく、その答えに至る詳細な論理(rationale)の教師データも必要となりますが、これらの論理を手作業で作成するのはコストがかかります。代わりに、我々は、CoTプロンプトを使用して正解を生成する際の周辺対数尤度を最大化するファインチューニング戦略を提案します。これは、すべての可能な論理を近似的に平均化するものです。核心的な課題は、正解を条件とした論理の事後分布からのサンプリングです。これを解決するために、自己学習推論器(STaR)、メモ化されたウェイクスリープ、マルコフスコア上昇法、および持続的コントラスティブダイバージェンスに着想を得た、シンプルなマルコフ連鎖モンテカルロ(MCMC)期待値最大化(EM)アルゴリズムを使用します。このアルゴリズムは、モデルが改善されるにつれて勾配推定の分散をゼロに近づける新しい制御変数技術も導入します。GSM8KおよびBIG-Bench Hardのタスクにこの技術を適用した結果、このMCMC-EMファインチューニング技術は、CoTの有無にかかわらず、STaRやプロンプトチューニングよりも、検証データに対するモデルの精度を向上させることが一般的に確認されました。
マルチモーダル大規模言語モデル(MLLMs)は、2D画像とテキストの理解および画像生成において優れた性能を発揮しているが、3D世界の理解は著しく不足しており、3D言語理解と生成の進展を制限している。この問題を解決するため、我々はGPT4Pointを導入する。これは、MLLMフレームワーク内で統一された3Dオブジェクト理解と生成のために特別に設計された革新的なポイント言語マルチモーダルモデルである。GPT4Pointは、強力な3D MLLMとして、ポイントクラウドのキャプション生成やQ&Aなどの多様なポイントテキスト参照タスクをシームレスに実行できる。さらに、GPT4Pointは制御可能な3D生成の高度な能力を備えており、低品質のポイントテキスト特徴を維持しながら幾何学的形状と色を保持した高品質な結果を得ることができる。3Dオブジェクトとテキストのペアの広範なニーズをサポートするため、我々はPyramid-XLを開発した。これは、ポイント言語データセットアノテーションエンジンであり、Objaverse-XLデータセットから1M以上の多様なテキスト粒度レベルを持つ大規模なデータベースを構築し、GPT4Pointのトレーニングに不可欠である。3Dポイント言語理解能力を評価するための包括的なベンチマークが提案されており、広範な評価において、GPT4Pointは理解と生成において優れた性能を示している。
GPT-4のような大規模言語モデル(LLM)の驚異的な能力は、人間のフィードバックからの強化学習(RLHF)といったポストトレーニングプロセスに部分的に由来しており、報酬モデルにエンコードされた人間の選好が関与しています。しかし、これらの報酬モデル(RM)は、選好アノテーションがなぜ、またはどのような原則に基づいて行われたのかについての直接的な知識をしばしば欠いています。本研究では、人間の選好により良く整合するようRMを導く原則を特定し、それらを維持するための多様な選好信号を生成する公理的フレームワークを開発します。これらの公理的な信号を用いて、長文質問に対する回答をスコアリングするモデルを訓練します。私たちのアプローチにより、約220Mパラメータの選好モデルが得られ、これはGPT-4よりも頻繁に人間がアノテーションした選好ラベルと一致します。本研究の貢献は以下の通りです:人間とLLMが生成した回答を同じ尺度でスコアリングできる独立した選好モデルの訓練、特定の原則に合わせて訓練データペアを生成する公理的フレームワークの開発、そして少量の公理的な信号が小さなモデルをGPT-4よりも選好スコアリングで優れさせることを示すことです。私たちはこのモデルをhuggingfaceで公開しています: https://huggingface.co/corbyrosset/axiomatic_preference_model
複数の入力モダリティを用いたトレーニングは、言語モデルの能力を拡張することができる。ここでは、そのようなトレーニング体制が、これらのシステムの品質と効率を向上させることができるかどうかを検討する。我々はテキストと音声に焦点を当て、FLAVA(singh_flava_2022)のテキストと画像のアプローチにインスパイアされたWhisbertを紹介する。Babylm(warstadt2023papers)のガイドラインに従い、Whisbertを、People's Speechデータセット(galvez_peoples_2021)の単語アライメント版から得られた1億語のテキストとそれに対応する音声のみを含むデータセットで事前学習する。マルチモダリティの影響を評価するために、テキストのみでトレーニングされたモデルと、音声とテキストを同時にトレーニングされたモデルのバージョンを比較する。その結果、Whisbertはマルチモーダルなマスクモデリングで良好な性能を発揮し、ほとんどのベンチマークタスクでBabylmのベースラインを上回るものの、複雑な目的関数を最適化し、テキストのみのWhisbertベースラインを上回ることは困難であることがわかった。
ニューラルラジアンスフィールド(NeRF)は、静的なシーンのフォトリアルなレンダリングに優れています。しかし、ユビキタスデバイス上での動的で長時間にわたるラジアンスフィールドのレンダリングは、データストレージと計算上の制約により、依然として課題となっています。本論文では、モバイルプラットフォーム上で動的ラジアンスフィールドのリアルタイムストリーミングとレンダリングを可能にする初のアプローチであるVideoRFを紹介します。その核心は、4Dラジアンスフィールドを全て含むシリアライズされた2D特徴画像ストリームです。この2D領域に直接適用するための特化したトレーニングスキームを導入し、特徴画像ストリームの時間的および空間的な冗長性を課します。この冗長性を活用することで、特徴画像ストリームが2Dビデオコーデックによって効率的に圧縮可能であることを示し、ビデオハードウェアアクセラレータを利用してリアルタイムデコードを実現します。一方、特徴画像ストリームに基づいて、VideoRFのための新しいレンダリングパイプラインを提案します。このパイプラインは、ラジアンス特性を効率的にクエリするための特殊な空間マッピングを備えています。ディファードシェーディングモデルと組み合わせることで、VideoRFはその効率性により、モバイルデバイス上でのリアルタイムレンダリングが可能です。私たちは、動的シーンのオンラインストリーミングとレンダリングを可能にするリアルタイムインタラクティブプレーヤーを開発し、デスクトップからスマートフォンまでの幅広いデバイスでシームレスで没入感のある自由視点体験を提供します。
本論文では、テキストから画像を生成するモデルを用いて、複数の画像スケールにわたって一貫性のあるコンテンツを生成する手法を提案します。これにより、広角の森林景観から、木の枝に止まる昆虫のマクロショットまで、極端な意味論的ズームを可能にします。この実現のために、異なるスケール間の一貫性を促進しつつ、個々のサンプリングプロセスの整合性を保つ、共同マルチスケール拡散サンプリングアプローチを採用しています。各生成スケールは異なるテキストプロンプトによってガイドされるため、従来の超解像手法では困難であった、大きく異なるスケールでの新たな文脈構造の生成を可能にします。本手法を、画像超解像やアウトペインティングの代替技術と定性的に比較し、一貫したマルチスケールコンテンツの生成において最も効果的であることを示します。
最近、Segment Anything Model(SAM)はゼロショットセグメンテーションの驚異的な能力を示し、NeRF(Neural Radiance Fields)は新規視点合成を超えた様々な3D問題に対する手法として人気を集めています。これら2つの手法を3Dセグメンテーションに統合する初期の試みは存在するものの、複雑なシナリオでのオブジェクトの正確かつ一貫したセグメンテーションという課題に直面しています。本論文では、与えられたシーン内の任意のオブジェクトの高品質な3Dセグメンテーションを実現するため、Segment Anything for NeRF in High Quality(SANeRF-HQ)を提案します。SANeRF-HQは、ユーザーが提供するプロンプトに基づいてオープンワールドのオブジェクトセグメンテーションを行うためにSAMを活用し、異なる視点からの情報を集約するためにNeRFを利用します。前述の課題を克服するため、密度場とRGB類似性を活用して集約中のセグメンテーション境界の精度を向上させます。セグメンテーション精度を重視し、高品質なグラウンドトゥルースが利用可能または手動でアノテーションされた複数のNeRFデータセットにおいて、本手法を定量的に評価します。SANeRF-HQは、NeRFオブジェクトセグメンテーションにおける従来の最先端手法と比較して大幅な品質向上を示し、オブジェクトのローカライズに対する柔軟性を高め、複数の視点にわたるより一貫したオブジェクトセグメンテーションを可能にします。追加情報はhttps://lyclyc52.github.io/SANeRF-HQ/でご覧いただけます。
本論文は、視覚表現学習のために次のピクセルを予測する自己回帰型事前学習を導入した先駆的な研究であるimage-GPT(iGPT)を強化するものである。2つのシンプルだが重要な変更を加えた。第一に、予測対象を生のピクセルから意味トークンにシフトし、視覚コンテンツのより高レベルの理解を可能にした。第二に、モデルに次のトークンだけでなく可視トークンも予測するよう指示することで、自己回帰モデリングを補完した。このパイプラインは、CLIPなどの識別的に訓練されたモデルによって意味トークンがエンコードされる場合に特に有効である。この新しいアプローチをD-iGPTとして紹介する。大規模な実験により、D-iGPTが視覚表現の強力な学習者として優れていることが示されている:D-iGPTの顕著な成果の一つは、ImageNet-1Kデータセットでの説得力のあるパフォーマンスである——公開されているデータセットで訓練することで、D-iGPTは標準的なViT-Largeモデルで89.5%のトップ1精度を達成した。このモデルは、下流タスクでの強い一般化能力と、分布外サンプルに対するロバスト性も示している。コードはhttps://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}で公開されている。
本論文では、適応的ソース駆動型3Dシーン編集タスクを対象とし、テキスト記述または参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。しかし、編集プロンプトに適合した望ましい編集結果を得ることは容易ではなく、前景領域の正確な編集と単一視点の参照画像に基づく多視点一貫性という2つの重要な課題が存在する。最初の課題に対処するため、前景領域の編集と全体画像の編集を交互に行うLocal-Global Iterative Editing(LGIE)トレーニングスキームを提案し、背景を保持しながら前景のみを操作することを目指す。2つ目の課題に対しては、生成モデル内のクラス事前情報を活用して、画像駆動編集における異なる視点間の不整合問題を緩和するクラス誘導正則化を設計する。大規模な実験により、CustomNeRFがテキスト駆動および画像駆動の両設定において、様々な実世界シーンで正確な編集結果を生成することが示された。
重度の運動障害を持つ個人のためのテキスト入力の高速化方法を探ることは、長年にわたる研究分野です。視線追跡キーボードのような補助・代替コミュニケーション(AAC)デバイスの速度ギャップを埋めることは、こうした個人の生活の質を向上させるために重要です。自然言語処理におけるニューラルネットワークの最近の進展は、AACユーザーのためのテキスト入力戦略とユーザーインターフェースを再考する新たな機会を提供しています。本論文では、大規模言語モデル(LLM)と共同設計されたユーザーインターフェースからなるSpeakFasterを紹介します。これは高度に省略された形式でのテキスト入力を可能にし、オフラインシミュレーションにおいて従来の予測型キーボードよりも57%多くのモーターアクションを節約します。19人の非AAC参加者によるモバイルデバイスでの手打ち入力のパイロット研究では、オフラインシミュレーションと一致するモーター節約の効果が示され、全体のタイピング速度には比較的小さな影響しか導入されませんでした。筋萎縮性側索硬化症(ALS)を持つ2人の視線入力ユーザーによる実験室およびフィールドテストでは、文脈を考慮したLLMによるフレーズおよび単語予測を通じて高コストなキーストロークが大幅に節約され、従来のベースラインよりも29-60%速いテキスト入力速度が実証されました。これらの発見は、運動障害を持つユーザーのための大幅に高速化されたテキストコミュニケーションのさらなる探求の強固な基盤を提供し、テキストベースのユーザーインターフェースにLLMを適用する方向性を示しています。
大規模言語モデル(LLM)は、そのますます正確な応答と一貫した推論能力から、実用アプリケーションにおいて大きな関心を集めています。入力に対して複雑な推論プロセスを行うブラックボックスとしての性質上、LLMが生成するコンテンツに対するスケーラブルで忠実な説明の需要が今後も増え続けることは避けられません。過去10年間で、ニューラルネットワークモデルの説明可能性に関する大きな進展がありました。その中でも、事後説明手法、特にShapley値は、深層学習モデルを解釈する上で有効であることが証明されています。しかし、LLMに対してShapley値をスケールアップする際には、数千のトークンを含む長い入力コンテキストや自己回帰的に生成される出力シーケンスを扱う場合に大きな課題があります。さらに、生成された説明を効果的に活用してLLMの性能を向上させる方法がしばしば不明確です。本論文では、LM固有の技術を組み込んだ効率的な事後説明手法であるTextGenSHAPを紹介します。これにより、従来のShapley値計算と比較して速度が大幅に向上し、トークンレベルの説明では処理時間が数時間から数分に、ドキュメントレベルの説明ではわずか数秒に短縮されることを示します。さらに、リアルタイムのShapley値を2つの重要なシナリオで活用する方法を示します。長文の質問応答において重要な単語や文を特定することで理解を深めること、および既存の文書検索システムを改善し、選択されたパッセージの精度を高め、最終的な応答を向上させることです。