翻訳付きの日次キュレーションされたAI研究論文
私たちはMVDreamを提案します。これは、与えられたテキストプロンプトから幾何学的に一貫したマルチビュー画像を生成できるマルチビューディフュージョンモデルです。大規模なウェブデータセットで事前学習された画像ディフュージョンモデルと、3Dアセットからレンダリングされたマルチビューデータセットを活用することで、このマルチビューディフュージョンモデルは、2Dディフュージョンの汎用性と3Dデータの一貫性の両方を実現できます。このようなモデルは、スコア蒸留サンプリングを介した3D生成のためのマルチビュープライアとして適用でき、3D一貫性の問題を解決することで、既存の2Dリフティング手法の安定性を大幅に向上させます。最後に、このマルチビューディフュージョンモデルが、少数ショット設定でファインチューニング可能であり、パーソナライズされた3D生成(すなわちDreamBooth3Dアプリケーション)に適用できることを示します。この場合、被写体のアイデンティティを学習した後も一貫性を維持できます。
視覚タスク向けのTransformerモデルは、セグメンテーションや検出などの多様な下流アプリケーションにおいて最近効果的であることが証明されています。これまでの研究では、DINOのような自己教師あり手法で訓練された視覚Transformer(ViT)にセグメンテーション特性が現れることが示されていますが、教師あり分類タスクで訓練されたものには現れません。本研究では、Transformerベースのモデルにおけるセグメンテーション特性の出現が、複雑な自己教師あり学習メカニズムの結果としてのみ生じるのか、あるいはモデルアーキテクチャの適切な設計を通じてより広範な条件下でも同じ特性が達成可能かどうかを探ります。広範な実験結果を通じて、データ分布の低次元構造を明示的にモデル化し追求するホワイトボックスTransformerアーキテクチャであるCRATEを採用した場合、最小限の教師あり訓練レシピでも全体レベルおよび部分レベルのセグメンテーション特性が既に現れることを実証します。層ごとの詳細な分析により、出現する特性がホワイトボックスネットワークの設計された数学的関数と強く一致することが明らかになりました。これらの結果は、高い性能と数学的に完全に解釈可能なホワイトボックス基盤モデルを設計するための道筋を示唆しています。コードはhttps://github.com/Ma-Lab-Berkeley/CRATEにあります。
テキストから画像を生成するための生成モデルであるStable Diffusionは、さまざまなサイズの画像を生成する際に、解像度に起因する構図の問題に頻繁に直面します。この問題は主に、単一スケールの画像とそれに対応するテキスト記述のペアでモデルが訓練されていることに起因しています。さらに、無制限のサイズの画像を直接訓練することは非現実的であり、膨大な数のテキストと画像のペアが必要となり、多大な計算コストを伴います。これらの課題を克服するために、我々はAny-Size-Diffusion(ASD)という2段階のパイプラインを提案します。このパイプラインは、任意のサイズの構図の整った画像を効率的に生成しつつ、高メモリGPUリソースの必要性を最小限に抑えるように設計されています。具体的には、最初の段階であるAny Ratio Adaptability Diffusion(ARAD)では、制限された範囲のアスペクト比を持つ画像セットを活用して、テキスト条件付き拡散モデルを最適化し、多様な画像サイズに対応するための構図調整能力を向上させます。さらに、任意のサイズの画像を作成するために、次の段階でFast Seamless Tiled Diffusion(FSTD)という技術を導入します。この手法により、ASDの出力を高速に任意の高解像度サイズに拡大することが可能となり、シームのアーティファクトやメモリの過負荷を回避します。LAION-COCOおよびMM-CelebA-HQベンチマークでの実験結果は、ASDが任意のサイズの構図の整った画像を生成できることを示しており、従来のタイルアルゴリズムと比較して推論時間を2倍短縮することが確認されました。
ChatGPTのような事前学習済み言語モデルは、コード生成の能力を大幅に向上させています。これらのモデルがスケールアップするにつれ、より複雑なタスクを処理できる出力が求められるようになっています。さらに、バイオインフォマティクスにおいては、機能的なプログラムを生成する際に、膨大なドメイン知識、複雑なデータ操作の必要性、そして操作間の入り組んだ機能依存関係といった追加の重要な課題が存在します。ここでは、バイオインフォマティクスコードの生成において既存の事前学習済みモデルを評価するために開発されたベンチマーク、BioCoderを紹介します。関数コード生成に関して、BioCoderは潜在的なパッケージ依存関係、クラス宣言、グローバル変数をカバーしています。GitHubから取得したPythonとJavaの1026の関数と1243のメソッド、およびRosalind Projectから取得した253の例を組み込んでいます。BioCoderは評価のためのファジーテストフレームワークを組み込んでおり、InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+、そしてChatGPTを含む多くのモデルを評価するために適用しました。これらのモデルに対する詳細な分析を通じて、ドメイン知識、実用的なコード生成、そして文脈理解の重要性を強調しています。我々のデータセット、ベンチマーク、Dockerイメージ、およびテストに必要なスクリプトはすべてhttps://github.com/gersteinlab/biocoderで公開されています。
人間のプログラマーが1つのプログラミング言語を習得すると、新しいプログラミング言語を学ぶのが容易になります。本報告書では、コード大規模言語モデルの指示ファインチューニング段階において、プログラミング言語が互いに強化し合うかどうかを探ることに焦点を当てています。私たちは、StarCoder上で8つの主要なプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)について広範な実験を行いました。その結果、プログラミング言語が互いに大幅に改善し合うことが実証されました。例えば、PythonでトレーニングされたCodeM-Python 15Bは、HumanEval-XにおいてJavaのpass@1を絶対値で17.95%向上させることができました。さらに驚くべきことに、HTMLコーパスでトレーニングされたCodeM-HTML 7Bは、Javaのpass@1を絶対値で15.24%向上させることができました。私たちのトレーニングデータはhttps://github.com/NL2Code/CodeMで公開されています。
継続的に学習されるニューラルシーン表現を用いたアクティブマッピング、すなわちアクティブニューラルマッピングの問題に取り組む。その鍵は、効率的なエージェントの移動によって探索すべきターゲット空間を能動的に見つけ出し、未踏環境内でのマップの不確実性をその場で最小化することにある。本論文では、継続的に学習されるニューラルフィールドの重み空間を調査し、ランダムな重み摂動に対する予測ロバスト性であるニューラル変動性が、ニューラルマップの瞬間的な不確実性を直接測定するために利用できることを実証的に示す。ニューラルマップに継承された連続的な幾何学的情報と共に、エージェントは環境の知識を徐々に獲得するための走行可能な経路を見つけるように導かれる。本論文では、オンラインシーン再構築のための座標ベースの暗黙的ニューラル表現を用いたアクティブマッピングシステムを初めて提示する。視覚的にリアルなGibsonおよびMatterport3D環境での実験により、提案手法の有効性が実証された。
ロボット工学において、非構造化された実世界環境における視覚観察から多様な操作タスクを実行可能なエージェントを開発することは、長年の課題です。この目標を達成するためには、ロボットがシーンの3D構造と意味論を包括的に理解する必要があります。本研究では、Generalizable Neural Feature Fieldsを用いたマルチタスクロボット操作のための視覚的行動クローニングエージェントであるGNFactorを提案します。GNFactorは、再構成モジュールとして一般化可能なニューラルフィールド(GNF)と、意思決定モジュールとしてPerceiver Transformerを共同で最適化し、共有された深層3Dボクセル表現を活用します。3Dに意味論を組み込むために、再構成モジュールは視覚言語基盤モデル(例:Stable Diffusion)を利用して、豊富な意味情報を深層3Dボクセルに蒸留します。GNFactorを3つの実ロボットタスクで評価し、限られたデモンストレーションを用いて10のRLBenchタスクで詳細なアブレーションを行いました。その結果、GNFactorは既存の最先端手法を大幅に上回り、見たことのあるタスクと見たことのないタスクの両方で強い汎化能力を示しました。プロジェクトのウェブサイトはhttps://yanjieze.com/GNFactor/です。
私たちは、122の言語バリアントにわたる多肢選択式機械読解(MRC)データセットであるBelebeleを紹介します。このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを大幅に拡大し、高リソース、中リソース、低リソース言語におけるテキストモデルの評価を可能にします。各質問は、Flores-200データセットからの短いパッセージに基づいており、4つの多肢選択式の回答を持っています。質問は、異なるレベルの一般的な言語理解能力を持つモデルを区別するために慎重に選ばれました。英語のデータセットだけでも、最先端の言語モデルにとって十分に難しいことが証明されています。完全に並列であるこのデータセットは、すべての言語にわたるモデルの性能を直接比較することを可能にします。私たちは、このデータセットを使用して、多言語マスク言語モデル(MLM)と大規模言語モデル(LLM)の能力を評価します。広範な結果を提示し、英語中心のLLMにおける重要な言語間転移にもかかわらず、バランスの取れた多言語データで事前学習されたはるかに小規模なMLMが、依然としてはるかに多くの言語を理解していることを発見しました。また、より大きな語彙サイズと意識的な語彙構築が、低リソース言語でのより良い性能と相関していることも観察しました。全体として、Belebeleは、NLPシステムの多言語能力を評価および分析するための新しい道を開きます。
人間中心のビデオフレーム補間は、人々のエンターテイメント体験を向上させ、スポーツ分析業界での商業的応用、例えばスローモーションビデオの合成において大きな可能性を秘めています。コミュニティには複数のベンチマークデータセットが存在しますが、人間中心のシナリオに特化したものはありません。このギャップを埋めるため、YouTubeからクロールした高解像度(720p以上)のスローモーションスポーツビデオからなる13万以上のビデオクリップと100万のビデオフレームを含むベンチマーク、SportsSloMoを紹介します。私たちは、このベンチマークでいくつかの最先端の手法を再学習し、その結果、他のデータセットと比較して精度が低下することを示しました。これは、私たちのベンチマークの難しさを強調し、人間の身体が非常に変形しやすく、スポーツビデオではオクルージョンが頻繁に発生するため、最高のパフォーマンスを発揮する手法にとっても大きな課題であることを示唆しています。精度を向上させるために、人間を意識した事前知識を考慮した2つの損失項を導入しました。ここでは、パノプティックセグメンテーションと人間のキーポイント検出にそれぞれ補助的な監視を追加します。これらの損失項はモデルに依存せず、どのビデオフレーム補間手法にも簡単に組み込むことができます。実験結果は、提案した損失項の有効性を検証し、5つの既存モデルに対して一貫した性能向上をもたらし、私たちのベンチマークにおいて強力なベースラインモデルを確立しました。データセットとコードは以下で見つけることができます:https://neu-vi.github.io/SportsSlomo/。