翻訳付きの日次キュレーションされたAI研究論文
本研究は、ロバストな単眼深度推定のための非常に実用的なソリューションであるDepth Anythingを提案する。新規の技術モジュールを追求するのではなく、あらゆる状況下でのあらゆる画像に対応するシンプルでありながら強力な基盤モデルの構築を目指す。この目的のために、データエンジンを設計して大規模な未ラベルデータ(約62M)を収集し自動的にアノテーションを行うことでデータセットをスケールアップし、データのカバレッジを大幅に拡大することで汎化誤差を低減できるようにした。データのスケールアップを可能にする2つのシンプルでありながら効果的な戦略を検討した。第一に、データ拡張ツールを活用してより挑戦的な最適化目標を作成し、モデルが積極的に追加の視覚的知識を探求し、ロバストな表現を獲得することを促す。第二に、事前学習済みエンコーダーから豊富な意味的プライアを継承するようにモデルを強化する補助的な監視を開発した。そのゼロショット能力を、6つの公開データセットとランダムに撮影された写真を含めて広範囲に評価し、印象的な汎化能力を示した。さらに、NYUv2とKITTIからのメトリック深度情報を用いてファインチューニングを行うことで、新たなSOTAを達成した。より優れた深度モデルは、深度条件付きControlNetの性能向上にも寄与する。我々のモデルはhttps://github.com/LiheYoung/Depth-Anythingで公開されている。
パイプライン並列処理は大規模分散トレーニングにおける重要な要素の一つであるが、その効率は避けられないとされていたパイプラインバブルによって低下する。本研究では、我々の知る限り、同期トレーニングセマンティクスの下で初めてパイプラインバブルをゼロにすることに成功したスケジューリング戦略を提案する。この改善の鍵となるアイデアは、逆伝播計算を入力に対する勾配を計算する部分とパラメータに対する勾配を計算する部分に分割することである。このアイデアに基づき、我々はベースライン手法を大幅に上回る新しいパイプラインスケジュールを手作業で設計した。さらに、特定のモデル構成とメモリ制限に基づいて最適なスケジュールを自動的に見つけるアルゴリズムを開発した。加えて、真にバブルをゼロにするために、オプティマイザステップ中の同期をバイパスする新しい技術を導入した。実験的評価により、我々の手法は類似のメモリ制限下で1F1Bスケジュールを最大23%スループットで上回ることが示された。この数値は、メモリ制約が緩和された場合、さらに31%まで向上する。我々は、これらの結果がパイプライン並列処理の真の可能性を引き出すための大きな前進を示すものと信じている。我々は、人気のあるMegatron-LMリポジトリに基づく実装をhttps://github.com/sail-sg/zero-bubble-pipeline-parallelismでオープンソースとして公開した。
前景被写体の動きに合わせたビデオ背景の生成は、映画産業や視覚効果コミュニティにとって重要な課題です。このタスクでは、前景被写体の動きや外観に調和し、かつアーティストの創造的意図に沿った背景を合成する必要があります。本論文では、従来は煩雑な手作業を必要としていたこのプロセスを自動化する生成モデル「ActAnywhere」を紹介します。私たちのモデルは、大規模なビデオ拡散モデルの力を活用し、このタスクに特化して設計されています。ActAnywhereは、前景被写体のセグメンテーションシーケンスを入力とし、希望するシーンを記述した画像を条件として受け取り、条件フレームに従いながら現実的な前景と背景の相互作用を持つ一貫性のあるビデオを生成します。私たちは、人間とシーンの相互作用を記録した大規模なビデオデータセットでモデルを訓練しました。広範な評価により、私たちのモデルがベースラインを大幅に上回る優れた性能を発揮することが実証されています。さらに、ActAnywhereが非人間の被写体を含む多様な分布外サンプルにも一般化することを示します。プロジェクトの詳細は、https://actanywhere.github.io をご覧ください。
本論文では、単一画像から与えられた3Dモーションシーケンスに基づいて人物をアニメーション化するための拡散モデルベースのフレームワークを提案します。我々のアプローチは、以下の2つのコアコンポーネントから構成されます:a) 人体や衣服の見えない部分に関する事前知識を学習すること、b) 適切な衣服とテクスチャを伴った新しい身体ポーズをレンダリングすること。最初の部分では、単一画像から人物の見えない部分を推定するためのインフィリング拡散モデルを学習します。このモデルはテクスチャマップ空間で学習されるため、ポーズや視点に依存しない特性を持ち、サンプル効率が向上します。次に、3D人体ポーズによって制御される拡散ベースのレンダリングパイプラインを開発します。これにより、衣服や髪を含む人物の新しいポーズのリアルなレンダリングと、見えない領域の妥当なインフィリングが可能になります。この分離されたアプローチにより、我々の手法は3Dポーズにおけるターゲットモーションに忠実であり、視覚的類似性において入力画像に忠実な一連の画像を生成することができます。さらに、3D制御により、さまざまな合成カメラ軌道で人物をレンダリングすることが可能です。実験結果から、我々の手法は従来の手法と比較して、長時間のモーションや多様で困難な複雑なポーズの生成において優れた堅牢性を示しています。詳細については、以下のウェブサイトをご覧ください:https://boyiliee.github.io/3DHM.github.io/。
ディクテーションはモバイルデバイスでの効率的なテキスト入力を可能にします。しかし、音声による文章作成は、不自然で冗長、かつ一貫性のないテキストを生成しがちで、そのため多大な後処理が必要となります。本論文では、LLM(大規模言語モデル)を活用したグラフィカルユーザーインターフェース「Rambler」を紹介します。Ramblerは、ディクテーションテキストの要旨レベルの操作を支援する2つの主要な機能セットを提供します:要旨抽出とマクロリビジョンです。要旨抽出は、音声テキストのレビューとインタラクションを支援するためのキーワードや要約を生成します。LLMを活用したマクロリビジョンでは、ユーザーは正確な編集位置を指定することなく、ディクテーションテキストを再録音、分割、結合、変換することができます。これらの機能は、自発的な発話と構造化された文章とのギャップを埋めるためのインタラクティブなディクテーションとリビジョンを実現します。12名の参加者による口頭作文タスクの比較研究では、Ramblerは音声テキストエディタ+ChatGPTのベースラインを上回り、コンテンツに対するユーザーの制御を強化しつつ、驚くほど多様なユーザー戦略をサポートすることで、反復的なリビジョンをより効果的に促進しました。
本論文では、ビデオ向けトランスフォーマー表現の概念ベース解釈可能性の問題を研究する。具体的には、自動的に発見された高次元の時空間概念に基づいて、ビデオトランスフォーマーの意思決定プロセスを説明することを目指す。これまでの概念ベース解釈可能性に関する研究は、画像レベルのタスクにのみ焦点を当ててきた。一方、ビデオモデルは時間次元が追加されるため、複雑さが増し、時間経過に伴う動的な概念を特定する上で課題が生じる。本研究では、初のビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入し、これらの課題に体系的に取り組む。この目的のために、ビデオトランスフォーマー表現の単位(概念)を教師なしで効率的に特定し、モデルの出力に対するそれらの重要性をランク付けするアプローチを提案する。その結果得られる概念は非常に解釈可能であり、非構造化ビデオモデルにおける時空間推論メカニズムやオブジェクト中心表現を明らかにする。多様な教師ありおよび自己教師あり表現セットに対してこの分析を共同で行うことで、これらのメカニズムの一部がビデオトランスフォーマーにおいて普遍的であることを発見する。最後に、VTCDが細粒度タスクにおけるモデル性能の向上に利用できることを実証する。