翻訳付きの日次キュレーションされたAI研究論文
本論文は、Vision Transformers(ViTs)が直面する重要な課題、すなわち異なる画像解像度間でのスケーラビリティの制約に取り組む。通常、ViTsはトレーニング時に見られた解像度とは異なる解像度を処理する際に性能の低下を経験する。我々の研究では、この問題に対処するために2つの主要な革新を導入する。まず、単一のTransformerブロックで設計された動的解像度調整のための新規モジュールを提案し、高度に効率的なインクリメンタルトークン統合を実現する。次に、Vision Transformerにファジィ位置エンコーディングを導入し、複数の解像度にわたって一貫した位置認識を提供することで、単一のトレーニング解像度への過剰適合を防ぐ。結果として得られたモデル、ViTAR(Vision Transformer with Any Resolution)は、1120x1120解像度で83.3%のトップ1精度、4032x4032解像度で80.4%の精度を達成し、計算コストを削減しながら印象的な適応性を示す。ViTARはまた、インスタンスセグメンテーションやセマンティックセグメンテーションなどの下流タスクにおいても強力な性能を示し、Masked AutoEncoderのような自己教師あり学習技術と容易に組み合わせることができる。我々の研究は、ViTsの解像度スケーラビリティを向上させるためのコスト効率の良いソリューションを提供し、より汎用的で効率的な高解像度画像処理への道を開く。
本研究では、マルチモーダルなVision Language Models(VLM)を強化するシンプルで効果的なフレームワークであるMini-Geminiを紹介します。VLMの進歩により基本的な視覚的対話と推論が可能になりましたが、GPT-4やGeminiのような先進モデルとの性能差は依然として存在します。我々は、高解像度の視覚トークン、高品質なデータ、VLMによる生成という3つの側面からVLMの潜在能力を引き出し、このギャップを縮めることを試みます。視覚トークンを強化するために、視覚トークンの数を増やさずに高解像度のリファインメントを行う追加の視覚エンコーダを利用することを提案します。さらに、正確な画像理解と推論に基づく生成を促進する高品質なデータセットを構築し、現在のVLMの運用範囲を拡大します。一般的に、Mini-GeminiはVLMの潜在能力をさらに掘り下げ、現在のフレームワークに画像理解、推論、生成を同時に可能にします。Mini-Geminiは、2Bから34Bまでの一連の密なモデルとMoE Large Language Models(LLM)をサポートします。いくつかのゼロショットベンチマークでリーディングな性能を達成し、開発されたプライベートモデルを凌駕することも実証されています。コードとモデルはhttps://github.com/dvlab-research/MiniGeminiで公開されています。
拡散モデルは画像編集に革命をもたらしましたが、生成される画像は物理法則に反することが多く、特に物体がシーンに及ぼす影響(例:遮蔽、影、反射)に問題が見られます。自己教師ありアプローチの限界を分析し、私たちは反事実的データセットを中心とした実用的な解決策を提案します。この方法では、単一の物体を除去する前後のシーンを撮影し、他の変化を最小限に抑えます。このデータセットで拡散モデルをファインチューニングすることで、物体だけでなく、シーンへの影響も除去できるようになります。しかし、フォトリアルな物体挿入にこのアプローチを適用するには、現実的でないほど大規模なデータセットが必要であることがわかりました。この課題に対処するため、ブートストラップ監視を提案します。小規模な反事実的データセットで学習した物体除去モデルを活用し、このデータセットを大幅に合成拡張します。私たちのアプローチは、特に物体がシーンに及ぼす影響のモデリングにおいて、従来の手法を大幅に上回るフォトリアルな物体除去と挿入を実現します。
大規模言語モデル(LLM)は、オープンエンドのトピックに関する事実を求めるプロンプトに対して、しばしば事実誤りを含むコンテンツを生成します。オープンドメインにおけるモデルの長文形式の事実性をベンチマークするために、まずGPT-4を使用して、38のトピックにわたる数千の質問を含むプロンプトセット「LongFact」を生成します。次に、LLMエージェントを長文形式の事実性の自動評価者として使用する方法を提案します。この方法は「Search-Augmented Factuality Evaluator(SAFE)」と呼ばれます。SAFEは、LLMを使用して長文形式の応答を個々の事実に分解し、Google検索にクエリを送信し、検索結果によって各事実が支持されているかどうかを判断する多段階の推論プロセスを通じて、各事実の正確性を評価します。さらに、長文形式の事実性の集計指標としてF1スコアを拡張することを提案します。これを行うために、応答内の支持された事実の割合(精度)と、ユーザーの希望する応答長を表すハイパーパラメータに対する提供された事実の割合(再現率)をバランスさせます。 実証的に、LLMエージェントが超人的な評価性能を達成できることを示します。約16,000の個々の事実のセットにおいて、SAFEはクラウドソーシングされた人間のアノテーターと72%の一致率を示し、100の不一致ケースのランダムサブセットでは、SAFEが76%のケースで優れています。同時に、SAFEは人間のアノテーターよりも20倍以上コストが低いです。また、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)にわたる13の言語モデルをLongFactでベンチマークし、より大規模な言語モデルが一般的に長文形式の事実性において優れていることを発見しました。LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで利用可能です。
本論文では、単一の入力画像をガイダンスとして、ベースメッシュから3D衣類アセットを合成する新しい手法「Garment3DGen」を紹介します。提案手法により、ユーザーは実写画像やテキストプロンプトから生成された合成画像に基づいて、テクスチャ付きの3D衣類を生成することができます。生成されたアセットは、人体に直接ドレープしてシミュレーションすることが可能です。まず、最近の画像から3Dを生成する拡散法の進展を活用して、3D衣類のジオメトリを生成します。しかし、これらのジオメトリは下流タスクに直接利用できないため、疑似グラウンドトゥルースとして使用し、ベーステンプレートメッシュを変形させて生成された3Dターゲットに一致させるメッシュ変形最適化手順を設定します。次に、入力ベースメッシュが目的のターゲットに向かって自由に変形できる一方で、メッシュの品質とトポロジーを維持し、シミュレーション可能な状態を保つよう慎重に設計された損失関数を導入します。最後に、テクスチャ推定モジュールにより、グローバルおよびローカルに一貫性があり、入力ガイダンスを忠実に反映した高精細なテクスチャマップを生成し、生成された3Dアセットをレンダリングします。Garment3DGenを使用することで、ユーザーはアーティストの介入を必要とせずに、選択したテクスチャ付き3D衣類を生成できます。希望する衣類を記述したテキストプロンプトを提供することで、シミュレーション対応の3Dアセットを生成することが可能です。本論文では、実写および生成された様々なアセットに対する定量的および定性的な比較を多数提示し、シミュレーション対応の3D衣類を生成する方法のユースケースを提供します。
GPT-4やMed-PaLM 2などのモデルは、多様な生物医学的NLPタスクにおいて印象的な性能を発揮しています。しかし、これらのモデルは数千億のパラメータを持ち、実行に多大な計算コストを要し、ユーザーは入力データをインターネット経由で送信する必要があり、未知のデータソースで訓練されています。より小型で特定の目的に特化したモデルは、これらと競合できるのでしょうか?この疑問に答えるため、我々はPubMedの抄録と全文記事のみで訓練された、27億パラメータのGPTスタイルの自己回帰モデルであるBioMedLMを構築し、公開しました。ファインチューニングを行うことで、BioMedLMはMedMCQA(開発セット)で57.3%、MMLU Medical Genetics試験で69.0%という、より大規模なモデルに匹敵する強力な多肢選択式生物医学的質問応答結果を生成できます。また、BioMedLMは医療トピックに関する患者の質問に対して有用な回答を生成するようファインチューニングすることも可能です。これは、より小型のモデルが、生物医学などの特定のNLPアプリケーションにおいて、透明性が高く、プライバシーを保護し、経済的で環境に優しい基盤として機能し得ることを示しています。本モデルはHugging Face Hubで公開されています:https://huggingface.co/stanford-crfm/BioMedLM。
自動化された3Dコンテンツ作成パイプラインの需要が高まる中、単一画像からの効率的な3Dアセット再構築の課題に取り組みます。従来の手法は主にScore Distillation Sampling(SDS)とNeural Radiance Fields(NeRF)に依存していました。これらの手法は大きな成功を収めていますが、長時間の最適化と膨大なメモリ使用量により、実用的な制限に直面しています。本報告では、単一視点画像からのエンドツーエンドの償却型3D再構築モデルであるGambaを紹介し、以下の2つの主要な洞察を強調します:(1)3D表現:効率的な3Dガウシアンスプラッティングプロセスのために多数の3Dガウシアンを活用すること;(2)バックボーン設計:コンテキスト依存の推論とシーケンス(トークン)長に対する線形スケーラビリティを可能にするMambaベースのシーケンシャルネットワークを導入し、多数のガウシアンを収容すること。Gambaは、データ前処理、正則化設計、およびトレーニング方法論において重要な進歩を取り入れています。実世界でスキャンされたOmniObject3Dデータセットを使用して、Gambaを既存の最適化ベースおよびフィードフォワード型の3D生成アプローチと比較評価しました。その結果、Gambaは質的および量的に競争力のある生成能力を示し、単一のNVIDIA A100 GPU上で約0.6秒という驚異的な速度を達成しました。
本論文では、エゴセントリックセンサーからキャプチャされたシーンを個々の3Dオブジェクトの完全な分解に自動的に分割する新規システム「EgoLifter」を紹介します。このシステムは、自然な(非スキャン)動きからキャプチャされた数百のオブジェクトを含むエゴセントリックデータに特化して設計されています。EgoLifterは、3Dシーンとオブジェクトの基礎表現として3Dガウシアンを採用し、Segment Anything Model(SAM)からのセグメンテーションマスクを弱い教師信号として使用して、特定のオブジェクト分類に依存しない柔軟でプロンプト可能なオブジェクトインスタンスの定義を学習します。エゴセントリックビデオにおける動的オブジェクトの課題に対処するため、3D再構成から動的オブジェクトをフィルタリングするための一時的予測モジュールを設計しました。その結果、シーン全体を構成する3Dガウシアンの集合として3Dオブジェクトインスタンスを再構築する完全自動パイプラインが実現されました。Aria Digital Twinデータセットに基づく新しいベンチマークを作成し、自然なエゴセントリック入力からのオープンワールド3Dセグメンテーションにおける最先端の性能を定量的に実証しました。様々なエゴセントリック活動データセットでEgoLifterを実行し、大規模な3Dエゴセントリック知覚における本手法の可能性を示しました。
本研究は、物体中心の編集問題における従来手法の限界、例えば形状の不一致による非現実的な結果や物体の置換・挿入における制御の不足といった課題に対処します。この目的のために、FlexEditという柔軟で制御可能な物体編集フレームワークを提案します。FlexEditでは、各ノイズ除去ステップにおいてFlexEditブロックを使用して潜在変数を反復的に調整します。最初に、テスト時に指定された物体制約に合わせて潜在変数を最適化します。次に、ノイズ除去中に自動的に抽出される適応マスクを活用して背景を保護しつつ、新しいコンテンツをターゲット画像にシームレスに融合させます。FlexEditの汎用性を様々な物体編集タスクで実証し、実写画像と合成画像の両方からなる評価テストスイートを構築しました。さらに、物体中心の編集に特化した新しい評価指標を設計しました。異なる編集シナリオにおける広範な実験を行い、最近のテキストガイド型画像編集手法と比較して本フレームワークの優位性を示しました。プロジェクトページはhttps://flex-edit.github.io/で公開されています。
バーチャルアシスタント(VA)向けのニューラルネットワーク言語モデル(NNLM)は、一般的に言語、地域、場合によってはデバイスに依存しており、これらを拡張・維持するための労力が増大します。これらのカテゴリの一つまたは複数を組み合わせることは、スケーラビリティを向上させる一つの方法です。本研究では、地域ごとの英語のバリエーションを組み合わせて、オンデバイスVA向けの「ワールドイングリッシュ」NNLMを構築します。特に、既存の製品版NNLMにおいて、アダプターボトルネックを適用して方言固有の特性をモデル化し、多方言ベースラインを強化する方法を調査します。アダプターモジュールは、サブネットワーク全体を専門化するよりも方言をモデル化するのに効果的であることがわかりました。この知見を基に、製品版モデルの設計を活用して、単一方言モデルの精度、レイテンシ、メモリ制約を満たす新しいワールドイングリッシュNNLMアーキテクチャを導入します。