翻訳付きの日次キュレーションされたAI研究論文
近年の自己教師あり事前学習技術の登場により、フォーム文書理解におけるマルチモーダル学習の利用が急増しています。しかし、マスク言語モデリングを他のモダリティに拡張する既存のアプローチでは、慎重なマルチタスクチューニング、複雑な再構成ターゲット設計、または追加の事前学習データが必要です。FormNetV2では、すべてのモダリティの自己教師あり事前学習を一つの損失関数に統合するための集中型マルチモーダルグラフ対比学習戦略を導入します。グラフ対比目的関数は、マルチモーダル表現の一致を最大化し、特別なカスタマイズなしにすべてのモダリティの自然な相互作用を提供します。さらに、グラフエッジで接続されたトークンペアを結合するバウンディングボックス内の画像特徴を抽出し、複雑で別途事前学習された画像エンコーダをロードすることなく、よりターゲットを絞った視覚的キューを捕捉します。FormNetV2は、よりコンパクトなモデルサイズで、FUNSD、CORD、SROIE、およびPaymentベンチマークにおいて新たな最先端の性能を確立しました。
高品質でアニメーション可能かつカスタマイズ可能な3Dアバターの手軽な作成に対する需要が高まっています。3Dモーフィング可能モデルは、編集やアニメーションのための直感的な制御を提供し、単一視点からの顔再構成において堅牢性を発揮しますが、幾何学的および外観の詳細を容易に捉えることはできません。符号付き距離関数(SDF)やニューラルラジアンスフィールドなどのニューラル暗黙的表現に基づく手法は、フォトリアリズムに近づいていますが、アニメーションが難しく、未知のデータに対してうまく汎化しません。この問題に対処するため、我々は、汎用性があり編集が直感的な暗黙的3Dモーフィング可能な顔モデルを構築する新しい手法を提案します。高品質な3Dスキャンのコレクションから学習された我々の顔モデルは、学習されたSDFと明示的なUVテクスチャパラメータ化を用いて、幾何学、表情、テクスチャの潜在コードによってパラメータ化されます。一度学習されると、単一の実世界画像からアバターを再構成するために、学習された事前分布を活用して画像をモデルの潜在空間に投影することができます。我々の暗黙的モーフィング可能な顔モデルは、新しい視点からアバターをレンダリングしたり、表情コードを変更して顔の表情をアニメーション化したり、学習されたUVテクスチャマップに直接ペイントしてテクスチャを編集したりするために使用できます。定量的および定性的に、我々の手法がフォトリアリズム、幾何学、表情の精度において最先端の手法を上回ることを示します。
本論文では、一般的な形状編集タスクに対してニューラルラジアンスフィールド(NeRF)をネイティブに編集可能にするNeuralEditorを提案する。NeRFは新規視点合成において印象的な結果を達成しているものの、シーンの形状を編集することは依然として根本的な課題である。我々の重要な洞察は、NeRFのレンダリングを関連する3D点群を2D画像平面に投影または「プロット」するプロセスとして直感的に解釈することに着想を得て、NeRFを構築するための基盤構造として明示的な点群表現を活用することである。この目的のために、NeuralEditorはK-Dツリーに基づく密度適応ボクセル内での決定論的積分に基づく新しいレンダリングスキームを導入し、最適化を通じて高品質なレンダリング結果と精密な点群の両方を生成する。NeuralEditorはその後、点群間の関連点をマッピングすることで形状編集を実行する。広範な評価により、NeuralEditorが形状変形とシーンモーフィングの両タスクにおいて最先端の性能を達成することが示された。特に、NeuralEditorはゼロショット推論と編集されたシーンに対するさらなるファインチューニングの両方をサポートする。我々のコード、ベンチマーク、デモ動画はhttps://immortalco.github.io/NeuralEditorで公開されている。
多言語機械翻訳は、非英語言語間の翻訳品質向上を約束するものである。これにはいくつかの利点がある。具体的には、レイテンシの低減(二度翻訳する必要がない)や、エラーの連鎖の抑制(例えば、英語を介して翻訳する際の性別や丁寧さの情報の喪失を回避できる)などが挙げられる。一方で、言語を追加すると言語ごとのモデル容量が減少するという欠点がある。これは通常、モデル全体のサイズを増やすことで対処されるが、その結果、学習が難しくなり、推論も遅くなる。本研究では、フォワードパスで使用される計算量とパラメータ数を一定に保ちつつ、モデル容量を増加させることを可能にする言語固有Transformer層(LSLs)を導入する。鍵となるアイデアは、エンコーダの一部の層をソース言語またはターゲット言語固有にし、残りの層を共有するというものである。ニューラルアーキテクチャサーチに着想を得たアプローチを用いて、これらの層を配置する最適な方法を検討し、別々のデコーダアーキテクチャではLSLsを使用しない場合と比較して1.3 chrF(1.5 spBLEU)ポイント、共有デコーダアーキテクチャでは1.9 chrF(2.2 spBLEU)ポイントの改善を達成した。
AIタスクは多様な領域や分野にわたります。特定のタスクやアプリケーション向けに設計された数多くのAIモデルが存在しますが、適切なモデルアーキテクチャ、最適化アルゴリズム、ハイパーパラメータを見つけるために多大な人的労力を要することがしばしばあります。ChatGPTのような大規模言語モデル(LLM)の最近の進展は、推論、理解、インタラクションの様々な側面で顕著な能力を示しています。これに基づき、我々はタスク指向のプロンプトを開発し、LLMを自動的に活用してトレーニングパイプラインを自動化することを提案します。このコンセプトを実装するため、GPTを多様なAIモデルへの架け橋として活用し、最適化されたハイパーパラメータでモデルを動的にトレーニングするAutoML-GPTを提示します。AutoML-GPTは、モデルカードとデータカードからユーザーの要求を動的に受け取り、対応するプロンプト段落を構成します。最終的に、このプロンプト段落を用いて、AutoML-GPTはデータ処理からモデルアーキテクチャ、ハイパーパラメータチューニング、予測されたトレーニングログまで自動的に実験を実施します。AutoML-GPTの強力な言語能力と利用可能なAIモデルを活用することで、様々なタスクやデータセットにわたる複雑なAIタスクに対処できます。このアプローチは、コンピュータビジョン、自然言語処理、その他の困難な領域で顕著な成果を達成します。広範な実験とアブレーションスタディにより、我々の手法が多くのAIタスクに対して汎用的で効果的かつ有益であることが実証されています。
大規模言語モデルの利用によるコード生成能力の最近の向上は、主に汎用プログラミング言語に恩恵をもたらしてきた。ITオートメーションに使用されるドメイン固有言語は、多くの活発な開発者が関わり、現代のクラウドプラットフォームの重要な構成要素であるにもかかわらず、これまでほとんど注目されてこなかった。本研究は、ITオートメーションで広く使用されるマークアップ言語であるAnsible-YAMLの生成に焦点を当てている。本論文では、ITオートメーションの生産性向上を目的とした、自然言語からAnsible-YAMLコードを生成するツール「Ansible Wisdom」を紹介する。Ansible Wisdomは、Transformerベースのモデルであり、Ansible-YAMLを含む新しいデータセットでトレーニングすることで拡張されている。また、このドメインの特性を捉えるために、YAMLおよびAnsible向けの2つの新しい性能評価指標を開発した。結果は、Ansible Wisdomが自然言語プロンプトから正確にAnsibleスクリプトを生成でき、既存の最先端のコード生成モデルと同等またはそれ以上の性能を発揮することを示している。
雑多で動的な環境における物体の持続的追跡は、コンピュータビジョンシステムにとって依然として困難な課題です。本論文では、重度の遮蔽や封じ込めを伴う視覚的追跡のための新しいベンチマークとモデルであるTCOWを紹介します。私たちは、ビデオシーケンスが与えられた際に、対象物体の投影範囲と、存在する場合にはそれを囲む容器や遮蔽物の両方をセグメント化することを目的としたタスクを設定しました。このタスクを研究するために、教師あり学習と、移動や入れ子状の封じ込めなどのさまざまなタスク変動下でのモデル性能の構造的評価をサポートするため、合成データと注釈付き実データを組み合わせたデータセットを作成しました。最近のトランスフォーマーベースのビデオモデル2つを評価した結果、特定のタスク変動設定下では驚くほど追跡能力を発揮するものの、物体の永続性を真に理解した追跡モデルと言えるまでにはまだ大きな性能ギャップが存在することがわかりました。
テクスチャは、視覚的に魅力的でリアルな3Dモデルを作成する上で重要な要素です。本論文では、3Dアセットの形状が与えられた際に高精細なテクスチャを生成する問題について研究します。この問題は、一般的な3D形状モデリングと比較して、これまであまり探索されてきませんでした。我々の目標は、特定のカテゴリに属する入力形状に依存せず、1つのテクスチャコードが特定の外観スタイルに対応するような、制御可能なテクスチャ生成プロセスを実現することです。我々は、3D形状上で直接テクスチャを生成するのではなく、学習可能なUV球面空間でテクスチャを生成するTexture UV Radiance Fields (TUVF)を提案します。これにより、テクスチャは基盤となる形状から切り離され、同じUV空間を共有する他の形状(つまり、同じカテゴリに属する形状)に転送可能になります。我々は、UV球面空間をラジアンスフィールドと統合し、従来のテクスチャマップよりも効率的で正確なテクスチャ表現を実現します。実世界のオブジェクトデータセットを用いて実験を行い、リアルな合成だけでなく、テクスチャの制御と編集において最新技術を大幅に上回る改善を達成しました。プロジェクトページ: https://www.anjiecheng.me/TUVF
私たちは、人間の頭部の高精細な放射輝度場の再構築、時間経過に伴うそのアニメーションの捕捉、そして任意の時間ステップにおける新規視点からの再レンダリングの合成に焦点を当てています。この目的のために、16台の校正済みマシンビジョンカメラで構成される新しいマルチビューキャプチャセットアップを提案します。このセットアップは、7.1メガピクセルの解像度と73フレーム/秒で時間同期された画像を記録します。このセットアップを用いて、220以上の人間の頭部からなる4700以上の高解像度・高フレームレートシーケンスの新しいデータセットを収集し、新たな人間の頭部再構築ベンチマークを導入します。記録されたシーケンスは、頭の動き、自然な表情、感情、そして話し言葉を含む幅広い顔のダイナミクスをカバーしています。 高精細な人間の頭部を再構築するために、ハッシュアンサンブルを用いた動的ニューラル放射輝度場(NeRSemble)を提案します。シーンのダイナミクスを、変形場と3D多解像度ハッシュエンコーディングのアンサンブルを組み合わせて表現します。変形場は単純なシーン動きの正確なモデリングを可能にし、ハッシュエンコーディングのアンサンブルは複雑なダイナミクスの表現を助けます。その結果、時間経過に伴う動きを捉え、任意の新規視点からの再レンダリングを容易にする人間の頭部の放射輝度場表現を得ます。一連の実験を通じて、私たちの手法の設計選択を探り、私たちのアプローチが最先端の動的放射輝度場アプローチを大幅に上回ることを実証します。
我々は、逐次的意思決定のための汎用的な抽象化としてMasked Trajectory Models(MTM)を提案する。MTMは、状態-行動系列のような軌跡を入力とし、同じ軌跡のランダムな部分集合を条件として軌跡を再構築することを目指す。高度にランダム化されたマスキングパターンで訓練することで、MTMは推論時に適切なマスクを選択するだけで、異なる役割や能力を担える汎用性の高いネットワークを学習する。例えば、同じMTMネットワークを、順力学モデル、逆力学モデル、さらにはオフライン強化学習(RL)エージェントとして使用できる。いくつかの連続制御タスクにおける広範な実験を通じて、我々は同じMTMネットワーク(すなわち同じ重み)が、前述の能力のために訓練された専門的なネットワークに匹敵するか、それを上回る性能を発揮することを示す。さらに、MTMによって学習された状態表現が、従来のRLアルゴリズムの学習速度を大幅に加速できることを発見した。最後に、オフラインRLベンチマークにおいて、MTMが明示的なRLコンポーネントを持たない汎用的な自己教師あり学習手法であるにもかかわらず、専門的なオフラインRLアルゴリズムと競合することを確認した。コードはhttps://github.com/facebookresearch/mtmで公開されている。
近年、DeepNormはTransformerを極めて深い層(例えば1000層)にスケールアップし、深層スケーリングの有望な可能性を明らかにしました。深層モデルの学習を安定化させるため、DeepNorm(Wang et al., 2022)はモデルの更新を一定値に制約することを試みています。このような制約を適用することは、モデル学習の初期段階では有益であるものの、学習プロセス全体を通じてモデルが十分に学習されない可能性があります。本論文では、学習期間に応じてTransformerの非残差ブランチを動的に再スケーリングするBranchNormを提案します。BranchNormは、理論的に初期段階で滑らかな勾配ノルムによる学習の安定化を実現するだけでなく、その後の学習段階でより良い収束を促進します。複数の翻訳タスクにおける実験結果は、BranchNormが学習の安定性と収束性能の間でより良いトレードオフを達成することを示しています。
複雑な見た目のシーンをリアルタイムでレンダリングするための完全なシステムを提案します。これまでオフライン用途に限定されていた表現を、アルゴリズムとシステムレベルの革新を組み合わせることで実現しています。 私たちの外観モデルは、学習された階層的テクスチャをニューラルデコーダで解釈し、反射率値と重要度サンプリング方向を生成します。デコーダのモデリング能力を最大限に活用するため、2つのグラフィックス事前情報を組み込みました。1つ目の事前情報は、方向を学習されたシェーディングフレームに変換することで、メゾスケール効果の正確な再構成を可能にします。2つ目の事前情報は、マイクロファセットサンプリング分布を用いることで、ニューラルデコーダが効率的に重要度サンプリングを行えるようにします。結果として得られる外観モデルは、異方性サンプリングと詳細レベルレンダリングをサポートし、深層のマテリアルグラフをコンパクトな統一ニューラル表現に焼き付けることが可能です。 ハードウェアアクセラレーションされたテンソル演算をレイトレーシングシェーダーに公開することで、ニューラルデコーダをリアルタイムパストレーサー内で効率的にインライン実行できることを示します。ニューラルマテリアルの数が増加した場合のスケーラビリティを分析し、コヒーレントおよびディバージェントな実行に最適化されたコードを使用してパフォーマンスを向上させることを提案します。私たちのニューラルマテリアルシェーダーは、非ニューラルなレイヤードマテリアルよりも1桁以上高速になる可能性があります。これにより、ゲームやライブプレビューなどのリアルタイムアプリケーションで映画品質のビジュアルを使用する道が開かれます。
大規模言語モデル(LLM)は、自然言語処理における多くの最先端システムを支えています。しかし、これらのモデルは推論時であっても非常に計算コストが高く、自然と次の疑問が浮かびます:より大きなモデルを導入する追加コストは、予想される能力向上に見合うのか?このトレードオフを根本的に理解するためには、(i) 異なるプロバイダーのモデル間で容易に比較可能であり、(ii) 隔離された性能環境でクエリを実行する真のコストを代表する、推論効率の指標が有益です。残念ながら、現在のLLMへのアクセスは主にブラックボックスのテキスト生成APIに限定されており、このインターフェースを通じて測定された生の実行時間はこれらの要件を満たしません:モデルプロバイダーはモデルとは直交する様々なソフトウェアおよびハードウェア最適化を適用でき、共有インフラストラクチャ上で提供されるモデルは性能競合の影響を受けやすいためです。これらの問題を回避するため、我々はモデル間の推論効率を比較するための新しい指標を提案します。この指標は、モデルが(i) 統一されたハードウェアとソフトウェア上で提供され、(ii) 性能競合がないかのように、公平な立場に置きます。我々はこの指標を「理想化された実行時間」と呼び、自己回帰型Transformerモデルに対してこの指標を効率的に推定する方法論を提案します。また、モデルを提供するために必要なアクセラレータの数を組み込んだコストを考慮したバリエーションも提案します。これらの指標を用いて、我々は10の最先端LLMを比較し、推論効率と能力のトレードオフに関する初の分析を提供します。この分析から得られたいくつかの観察結果には、特定のAPIの優れた推論実行時間性能が、しばしば基盤となるモデルではなくAPI内の最適化の副産物であるという事実が含まれます。我々の方法論は、異なるソフトウェアおよびハードウェアスタックの効率的な比較も容易にします。
事前学習済みの大規模言語モデル(LLM)は、世界に関する手続き的知識を獲得しています。最近の研究では、LLMが抽象的なプランを生成する能力を活用して、アクションのスコアリングやアクションモデリング(ファインチューニング)を通じて、難しい制御タスクを簡素化することが試みられています。しかし、トランスフォーマーアーキテクチャには、LLMが直接エージェントとして機能することを困難にするいくつかの制約が存在します。例えば、入力長の制限、ファインチューニングの非効率性、事前学習からのバイアス、非テキスト環境との非互換性などです。低レベルの学習可能なアクターとの互換性を維持するために、我々は、制御問題を解決するのではなく、LLMの知識を活用して制御問題を簡素化することを提案します。我々は、Plan(計画)、Eliminate(排除)、Track(追跡)のPETフレームワークを提案します。Planモジュールは、タスクの説明を高レベルのサブタスクのリストに変換します。Eliminateモジュールは、現在のサブタスクに関連しないオブジェクトや受け皿を観測からマスクします。最後に、Trackモジュールは、エージェントが各サブタスクを達成したかどうかを判断します。AlfWorldの指示追従ベンチマークにおいて、PETフレームワークは、人間の目標仕様への一般化において、SOTAを15%大幅に上回る改善をもたらしました。