翻訳付きの日次キュレーションされたAI研究論文
世界で人間と相互作用するためには、エージェントが人々が使用する多様な種類の言語を理解し、それを視覚的な世界に関連付け、それに基づいて行動する必要があります。現在のエージェントはタスクの報酬から単純な言語指示を実行することを学びますが、私たちは一般的な知識を伝える、世界の状態を記述する、インタラクティブなフィードバックを提供するなど、多様な言語を活用するエージェントを構築することを目指しています。私たちの重要なアイデアは、言語がエージェントに未来を予測するのに役立つということです:何が観察されるか、世界がどのように振る舞うか、どの状況が報酬を得るか。この視点は、言語理解と未来予測を強力な自己教師あり学習の目的として統一します。私たちは、Dynalangというエージェントを紹介します。これは、将来のテキストと画像の表現を予測し、想像されたモデルのロールアウトから行動を学ぶマルチモーダルな世界モデルを学習するエージェントです。従来のエージェントが言語を行動の予測にのみ使用するのとは異なり、Dynalangは過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊かな言語理解を獲得します。環境内でのオンライン相互作用から学習するだけでなく、Dynalangは行動や報酬なしでテキスト、ビデオ、またはその両方のデータセットで事前学習することができます。グリッドワールドでの言語のヒントの使用から、家庭のフォトリアリスティックなスキャンをナビゲートするまで、Dynalangは環境の記述、ゲームのルール、指示など、多様な種類の言語を活用してタスクのパフォーマンスを向上させます。
OpenFlamingoを紹介します。これは、3Bから9Bパラメータまでの自己回帰型視覚言語モデルのファミリーです。OpenFlamingoは、DeepMindのFlamingoモデルのオープンソース再現を目指す継続的な取り組みです。7つの視覚言語データセットにおいて、OpenFlamingoモデルは対応するFlamingoの性能の80~89%の平均を達成しています。本技術レポートでは、モデル、トレーニングデータ、ハイパーパラメータ、および評価スイートについて説明します。モデルとコードはhttps://github.com/mlfoundations/open_flamingoで公開しています。
大規模言語モデル(LLM)にとって、数学的推論は困難なタスクであり、そのスケーリング特性とLLMの能力との関係は十分に探究されていない。本論文では、事前学習損失、教師ありデータ量、および拡張データ量が、教師ありLLMの推論性能にどのように影響するかを調査する。事前学習損失は、モデルのパラメータ数よりも性能の優れた指標であることを見出した。異なる量の教師ありデータを用いて教師ありファインチューニング(SFT)を適用し、データ量とモデル性能の間に対数線形関係が存在することを実証的に確認し、より優れたモデルは拡張された教師ありデータセットでの改善が少ないことを発見した。人間の労力をかけずにモデル性能を向上させるためにより多くのデータサンプルを拡張するために、Rejection Sampling Fine-Tuning(RFT)を提案する。RFTは、教師ありモデルを使用して正しい推論パスを生成し、拡張ファインチューニングデータセットとして収集する。より多様な推論パスを含む拡張サンプルを用いることで、RFTはLLMの数学的推論性能をさらに向上させることがわかった。また、RFTは性能の低いLLMに対してより大きな改善をもたらすことも発見した。さらに、複数のモデルからのリジェクトサンプルを組み合わせることで、LLaMA-7Bの精度を49.3%に押し上げ、教師ありファインチューニング(SFT)の精度35.9%を大幅に上回る結果を得た。
拡散モデルは、テキストから画像やテキストから音声の生成といったクロスモーダル生成タスクにおいて有望な結果を示してきました。しかし、音楽という特殊なタイプの音声を生成する際には、音楽データの限られた可用性や著作権・盗作に関わる敏感な問題から、独自の課題が存在します。本論文では、これらの課題に取り組むため、まずStable DiffusionとAudioLDMのアーキテクチャを音楽領域に適応させた最先端のテキストから音楽生成モデル、MusicLDMを構築します。これを実現するために、MusicLDMの構成要素であるコントラスティブ言語-音声事前学習モデル(CLAP)とHifi-GANボコーダを、音楽データサンプルのコレクションで再学習させます。次に、学習データの制限を克服し、盗作を回避するために、ビートトラッキングモデルを活用し、データ拡張のための2つの異なるミックスアップ戦略を提案します:ビート同期オーディオミックスアップとビート同期潜在空間ミックスアップです。これらは、それぞれ学習オーディオを直接、または潜在埋め込み空間を介して再結合します。このようなミックスアップ戦略は、モデルが音楽学習サンプル間を補間し、学習データの凸包内で新しい音楽を生成することを促し、生成される音楽をより多様にしながらも、対応するスタイルに忠実に保ちます。さらに、一般的な評価指標に加えて、CLAPスコアに基づいたいくつかの新しい評価指標を設計し、提案するMusicLDMとビート同期ミックスアップ戦略が、生成される音楽の品質と新規性、および入力テキストと生成音楽の対応関係の両方を改善することを示します。
言語モデルは、あるモダリティで学習した表現を他のモダリティの下流タスクに一般化する驚くべき能力を示します。この能力を個々のニューロンに遡ることができるでしょうか?本研究では、凍結されたテキストトランスフォーマーを自己教師あり視覚エンコーダと画像からテキストへのタスクで学習された単一の線形射影を用いて視覚的に拡張した場合を検討します。射影層の出力は、画像内容を説明する言語に即座にデコードされるわけではありません。代わりに、モダリティ間の変換はトランスフォーマーのより深い層で発生していることがわかります。我々は、視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を特定し、それらがモデルの残差ストリームに注入する概念をデコードする手順を導入します。一連の実験を通じて、マルチモーダルニューロンが特定の視覚概念に対して入力に依存せずに作用し、画像キャプショニングに系統的な因果的影響を及ぼすことを示します。
私たちは「All-Seeing(AS)」プロジェクトを紹介します。これは、オープンワールドにおけるあらゆるものを認識し理解するための大規模なデータとモデルです。人間のフィードバックと効率的なモデルをループに組み込んだスケーラブルなデータエンジンを使用して、10億以上の領域にセマンティックタグ、質問応答ペア、詳細なキャプションを付けた新しいデータセット(AS-1B)を作成しました。このデータセットは、現実世界の350万の一般的な概念から希少な概念まで幅広くカバーし、これらの概念とその属性を説明する1322億のトークンを含んでいます。 この新しいデータセットを活用して、パノプティックな視覚的認識と理解のための統一フレームワークである「All-Seeingモデル(ASM)」を開発しました。このモデルは、オープンエンドの言語プロンプトと位置情報で訓練されており、領域-テキスト検索、領域認識、キャプション生成、質問応答など、さまざまな視覚と言語タスクに優れたゼロショット性能で汎化することができます。このプロジェクトが、視覚-言語人工汎用知能研究の基盤となることを期待しています。モデルとデータセットはhttps://github.com/OpenGVLab/All-Seeingで公開され、デモはhttps://huggingface.co/spaces/OpenGVLab/all-seeingでご覧いただけます。
カテゴリレベルの物体姿勢推定とアフォーダンス予測のためのHANDALデータセットを提案します。従来のデータセットとは異なり、本データセットはロボットマニピュレータによる機能的な把持に適したサイズと形状を持つ、ロボティクス対応の操作可能な物体(ペンチ、調理器具、ドライバーなど)に焦点を当てています。アノテーションプロセスは合理化されており、市販の単一カメラと半自動処理のみを必要とし、クラウドソーシングなしで高品質な3Dアノテーションを生成できます。このデータセットは、17カテゴリーの212個の実世界の物体から撮影された2.2kのビデオから得られた308kのアノテーション付き画像フレームで構成されています。ハードウェアやキッチンツールの物体に焦点を当てることで、ロボットマニピュレータが単純な押し動作や無差別な把持を超えて環境と相互作用する必要がある実用的なシナリオの研究を促進します。6自由度のカテゴリレベル姿勢+スケール推定および関連タスクにおける本データセットの有用性を概説します。また、すべての物体の3D再構築メッシュを提供し、このようなデータセットの収集を一般化するために解決すべきボトルネックの一部を概説します。
本論文では、「プレーン」な性質を維持した改良型DETR検出器を提案する。具体的には、単一スケールの特徴マップと局所性制約のないグローバルなクロスアテンション計算を用いる。これは、デコーダにマルチスケールや局所性といったアーキテクチャ上の帰納的バイアスを再導入する従来の主要なDETRベース検出器とは対照的である。我々は、プレーンな設計において、マルチスケール特徴マップと局所性制約の欠如を補うために、2つのシンプルな技術が驚くほど有効であることを示す。1つ目は、クロスアテンションの定式化に追加されたボックスからピクセルへの相対位置バイアス(BoxRPB)項であり、各クエリが対応するオブジェクト領域に注意を向けるよう適切に導くと同時に、エンコーディングの柔軟性も提供する。2つ目は、マスク画像モデリング(MIM)ベースのバックボーンプリトレーニングであり、細粒度の位置特定能力を備えた表現の学習を助け、マルチスケール特徴マップへの依存を補う上で重要であることが証明された。これらの技術と、トレーニングおよび問題設定における最近の進歩を組み込むことで、改良された「プレーン」DETRは、元のDETR検出器を大幅に上回る性能を示した。Object365データセットを活用したプリトレーニングにより、Swin-Lバックボーンを使用して63.9 mAPの精度を達成し、マルチスケール特徴マップと領域ベースの特徴抽出に大きく依存する最先端の検出器と競合する性能を示した。コードはhttps://github.com/impiga/Plain-DETRで公開されている。
想像遊びは、ロボットが周囲の世界とより擬人化された方法で関わることを可能にする創造性の領域である。想像遊びは、現実の物体や場所を取り上げ、それらを仮想シナリオにおける想像上の物体や場所として使用することと見なすことができる。我々は、大規模言語モデル(LLMs)のストーリー生成能力を採用し、人間が作成したプロンプトを用いて想像遊びに使用するストーリーを取得した。生成されたストーリーは簡略化され、エージェントが想像遊びを進めるための行動シーケンスにマッピングされる。エージェントが想像遊びを成功裏に完了できるかどうかを評価するために、エージェントが相互作用する遊び場として家をシミュレートするテキストアドベンチャーゲームも設計した。
長時間露光写真は、シーン内の動く要素をモーションブラーで表現し、見事な映像を生み出します。一般的に、前景または背景のぼかし効果を生み出す2つのモードで使用されます。前景ぼかし画像は、三脚に固定したカメラで撮影され、シルクのような水や光の軌跡など、動く前景要素を完璧にシャープな背景の風景の上にぼかして表現します。背景ぼかし画像(パンニング写真とも呼ばれる)は、カメラが動く被写体を追跡しながら撮影され、相対的な動きによってぼかされた背景の上にシャープな被写体を写し出します。どちらのテクニックも非常に難易度が高く、追加の機材と高度なスキルを必要とします。本論文では、手持ちのスマートフォンカメラアプリで動作し、シャッターボタンを押すだけでこれらの効果を完全に自動で実現する計算バースト写真システムを紹介します。私たちのアプローチでは、まず注目すべき被写体を検出し、セグメント化します。複数のフレームにわたってシーンの動きを追跡し、画像を整列させて、望ましいシャープさを保ち、美しいモーションストリークを生成します。露出不足のバーストを撮影し、シーンやカメラの動きの速度に関係なく、制御された長さのブラートレイルを生成する入力フレームのサブセットを選択します。フレーム間の動きを予測し、モーションブラーを合成して入力フレーム間の時間的なギャップを埋めます。最後に、ぼかした画像とシャープな通常露出を合成し、ほとんど動いていない顔やシーンの領域のシャープさを保護し、高解像度で高ダイナミックレンジ(HDR)の最終写真を生成します。私たちのシステムは、これまでプロに限定されていた能力を一般化し、このクリエイティブなスタイルをほとんどのカジュアルフォトグラファーにアクセス可能にします。 詳細情報と補足資料は、プロジェクトのウェブページでご覧いただけます: https://motion-mode.github.io/
ダイナミックカラーメッシュ(DCM)は様々なアプリケーションで広く使用されているが、これらのメッシュは圧縮や伝送などの異なるプロセスを経ることで歪みが生じ、品質が低下する可能性がある。DCMの客観的評価指標の開発を促進し、典型的な歪みが知覚に与える影響を研究するため、我々はTencentダイナミックカラーメッシュデータベース(TDMD)を作成した。このデータベースには、8つの参照DCMオブジェクトと6つの典型的な歪みが含まれている。DCMから得られた処理済みビデオシーケンス(PVS)を用いて大規模な主観実験を実施し、303の歪みのあるDCMサンプルと平均意見スコアを収集した結果、TDMDは我々の知る限りで最大のDCMデータベースとなった。このデータベースにより、異なる種類の歪みが人間の知覚に与える影響を研究し、DCMの圧縮や関連タスクに関する提言を行うことが可能となった。さらに、TDMDにおいて、画像ベース、ポイントベース、ビデオベースの3種類の最先端の客観的評価指標を評価した。実験結果から各指標の長所と短所が明らかになり、実用的なDCMアプリケーションにおける指標の選択に関する提言を提供する。TDMDは以下のURLで公開される予定である:https://multimedia.tencent.com/resources/tdmd。