翻訳付きの日次キュレーションされたAI研究論文
大規模なテキストから画像への拡散モデルは、高品質な画像生成において印象的な能力を発揮しています。しかし、これらのモデルをビデオ領域に適用する際、ビデオフレーム間の時間的整合性を確保することは依然として大きな課題です。本論文では、画像モデルをビデオに適応させるための新しいゼロショットテキストガイド付きビデオツービデオ翻訳フレームワークを提案します。このフレームワークは、キーフレーム翻訳とフルビデオ翻訳の2つの部分で構成されています。最初の部分では、適応された拡散モデルを使用してキーフレームを生成し、形状、テクスチャ、色の一貫性を確保するために階層的なクロスフレーム制約を適用します。2番目の部分では、時間的認識を伴うパッチマッチングとフレームブレンディングを使用して、キーフレームを他のフレームに伝播させます。私たちのフレームワークは、再トレーニングや最適化を必要とせずに、グローバルなスタイルとローカルなテクスチャの時間的整合性を低コストで実現します。この適応は既存の画像拡散技術と互換性があり、LoRAを使用して特定の主題をカスタマイズしたり、ControlNetを使用して追加の空間的ガイダンスを導入したりするなど、これらの技術を活用することができます。広範な実験結果は、提案されたフレームワークが既存の方法よりも高品質で時間的に一貫したビデオをレンダリングする上で有効であることを示しています。
我々は、汎用的なパラメータ効率の良いファインチューニングタスクのための先進的なアプローチであるGeneralized LoRA(GLoRA)を提案します。GLoRAは、Low-Rank Adaptation(LoRA)を拡張し、事前学習済みモデルの重みを最適化し、中間活性化を調整するための汎用プロンプトモジュールを採用することで、多様なタスクやデータセットにおいてより柔軟性と能力を提供します。さらに、GLoRAは、各層の個別のアダプタを学習するスケーラブルでモジュール型の層ごとの構造探索を採用することで、効率的なパラメータ適応を促進します。統一された数学的定式化に基づくGLoRAは、重みと活性化に追加の次元を介して新しいタスクに適応するため、強力な転移学習、少数ショット学習、およびドメイン一般化能力を示します。包括的な実験により、GLoRAが自然、専門、および構造化されたベンチマークにおいて、従来のすべての手法を上回り、さまざまなデータセットでより少ないパラメータと計算量で優れた精度を達成することが実証されています。さらに、我々の構造的再パラメータ化設計により、GLoRAは追加の推論コストを発生させず、リソースが限られたアプリケーションにとって実用的なソリューションとなります。コードは以下で利用可能です:https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA。
本論文では、人工知能(AI)を用いてユーザーがアニメ風ポートレートを作成する際の支援、すなわち、スケッチの過程でラフな下絵をアニメ風ポートレートに変換する方法に焦点を当てます。入力は、徐々にストロークごとに洗練されていく不完全なフリーハンドスケッチのシーケンスであり、出力は、入力スケッチに対応する高品質なアニメ風ポートレートのシーケンスです。最近のGANは高品質な画像を生成できますが、完成度の低いスケッチから高品質な画像を生成するのは、条件付き画像生成における不適切問題のため、依然として難しい課題です。最新のスケッチから画像への変換(S2I)技術を用いても、アニメ風ポートレートの場合、アニメスタイルがリアルスタイルよりも抽象的であるため、不完全なラフスケッチから高品質な画像を作成することは困難です。この問題に対処するため、我々はStyleGANの潜在空間探索を二段階の学習戦略で採用しました。フリーハンドスケッチの入力ストロークは、StyleGANの潜在構造コードにおけるエッジ情報に関連する属性に対応すると考え、ストロークとこれらの属性のマッチングを「ストロークレベルの分離」と呼びます。第一段階では、事前学習済みのStyleGANモデルを教師エンコーダとして使用し、画像エンコーダを学習させました。第二段階では、追加のデータ(ラベル)なしで生成画像の描画プロセスをシミュレートし、不完全な進行中のスケッチ用のスケッチエンコーダを学習させ、教師エンコーダの分離表現と特徴整合性を持つ高品質なポートレート画像を生成しました。提案する進行型S2Iシステムを定性的および定量的に評価し、不完全な進行中のスケッチから高品質なアニメ風ポートレートを生成することに成功しました。ユーザー調査により、アニメスタイルのアート創作支援における有効性が証明されました。
本論文では、General Language Model (GLM) に基づくウェブ拡張型質問応答システム「WebGLM」を提案します。その目的は、事前学習済みの大規模言語モデル (LLM) にウェブ検索と情報取得機能を追加しつつ、実世界での展開に適した効率性を実現することです。これを達成するため、WebGLM では LLM 拡張型検索器、ブートストラップ型生成器、および人間の選好を考慮したスコアラーを戦略的に開発しました。具体的には、WebGPT (OpenAI) の限界を特定し、それを克服することで、WebGLM は精度、効率性、コスト効率の面で優位性を持つことが可能となりました。さらに、ウェブ拡張型 QA システムを評価するための体系的な基準を提案します。多次元にわたる人間による評価と定量的なアブレーションスタディを行い、提案された WebGLM の設計が既存システムを上回ることを示しました。100億パラメータの GLM (10B) を搭載した WebGLM は、同規模の WebGPT (13B) を上回り、人間による評価では WebGPT (175B) にも匹敵する性能を示しています。コード、デモ、データは https://github.com/THUDM/WebGLM で公開されています。
ウェブ上の画像-テキストペアを用いたコントラスティブ事前学習は、特に大規模マルチモーダルモデルの文脈において、視覚バックボーン向けの最も一般的な大規模事前学習戦略の一つです。一方で、この種のデータを用いた画像キャプショニングは、一般的に劣った事前学習戦略と見なされています。本論文では、これらの2つの事前学習戦略を公平に比較し、トレーニングデータ、計算リソース、モデル容量を慎重に揃えました。標準的なエンコーダ-デコーダトランスフォーマーを使用した結果、キャプショニング単体が驚くほど効果的であることがわかりました:分類タスクにおいて、キャプショニングはコントラスティブ事前学習されたエンコーダと同等の視覚エンコーダを生成し、視覚と言語タスクではそれを上回りました。さらに、モデルアーキテクチャとスケール、および事前学習データが表現品質に与える影響を分析し、キャプショニングがこれらの軸に沿って同等またはより良いスケーリング挙動を示すことを発見しました。全体として、我々の結果は、単純な画像キャプショニングがこれまで考えられていたよりも強力な事前学習戦略であることを示しています。
大規模言語モデル(LLM)は、コンテキスト内学習能力を示し、特定のタスクごとのトレーニングなしに複数のタスクを実行できる。一方、従来の適応手法(例えばファインチューニング)は、各タスクごとに基盤となるモデルを変更する。しかし、コンテキスト内学習は、同じ例が提示された場合でも、タスク固有のチューニング手法に一貫して劣る。既存のアプローチ(例:プロンプトエンジニアリング)の多くは、この性能差を埋めるためにLLMの学習済み表現に焦点を当てているが、我々の分析では、LLMの表現には良好な予測を行うための十分な情報が含まれていることが明らかになった。そのため、我々はLLMの推論能力に注目し、この性能差が単純な確率的推論タスクを実行できないことに起因することを示す。これにより、興味深い疑問が生じる:LLMは実際にタスクに依存しない方法で推論を学習できるのか?我々はこれを肯定し、TARTを提案する。TARTは、合成的にトレーニングされたTransformerベースの推論モジュールを使用して、LLMの推論能力を汎用的に向上させる。TARTは、この推論モジュールを合成ロジスティック回帰タスクのみを使用してタスクに依存しない方法でトレーニングし、任意の実世界の事前トレーニング済みモデルと追加のトレーニングなしに組み合わせる。単一の推論モジュールで、TARTは異なるモデルファミリー(GPT-Neo、Pythia、BLOOM)、モデルサイズ(100M~6B)、タスク(14のNLP二値分類タスク)、さらには異なるモダリティ(音声と視覚)にわたって性能を向上させる。さらに、RAFTベンチマークでは、TARTはGPT-Neo(125M)の性能を向上させ、BLOOM(176B)を上回り、GPT-3(175B)の4%以内に収まる。我々のコードとモデルはhttps://github.com/HazyResearch/TARTで公開されている。
テキストから3Dモデリングは、生成的なテキストから画像モデルとNeural Radiance Fieldsなどの画像から3Dへの手法を組み合わせることで、目覚ましい進展を遂げています。DreamFusionは最近、高品質な結果を達成しましたが、3Dオブジェクトを作成するためにプロンプトごとに長い最適化プロセスを必要とします。この問題に対処するため、我々はプロンプトごとに個別に最適化するのではなく、統一されたモデルを用いて多数のプロンプトを同時に学習することで、最適化を平準化します。これにより、プロンプトセット全体で計算を共有し、プロンプトごとの最適化よりも短い時間で学習を行います。我々のフレームワーク「Amortized text-to-3D (ATT3D)」は、プロンプト間での知識共有を可能にし、未見の設定への一般化や、テキスト間の滑らかな補間を通じて新しいアセットやシンプルなアニメーションを生成します。
大規模言語モデル(LLMs)は、高度な計画を実行する可能性を示しています。しかし、関節角度の目標値やモータートルクなどの低レベルのコマンドを理解することは、LLMsにとって依然として課題です。本論文では、自然言語での人間のコマンドと、これらの低レベルコマンドを出力する移動制御器を橋渡しするインターフェースとして、足の接触パターンを使用するアプローチを提案します。これにより、ユーザーが多様な移動動作を柔軟に設計できる四足ロボットのインタラクティブシステムが実現します。我々は、LLMプロンプト設計、報酬関数、および制御器を実行可能な接触パターンの分布に曝露する方法を提供します。その結果、実ロボットハードウェアに転送可能な多様な移動パターンを達成できる制御器が得られます。他の設計選択と比較して、提案手法は正しい接触パターンを予測する成功率が50%以上高く、合計30のタスクのうち10以上のタスクを解決できます。プロジェクトサイトは以下です: https://saytap.github.io。
本研究では、大規模なランドマークのインターネット写真から、視点、照明、時間を独立して制御可能なフォトリアルなレンダリングを生成できる時変3Dモデルの再構築を目指します。核心的な課題は二つあります。第一に、照明やシーン自体の変化(例えばグラフィティアートの入れ替えなど)といった異なる種類の時間的変化が、画像内で複雑に絡み合っている点です。第二に、シーンレベルの時間的変化は連続的ではなく、離散的で散発的であることが多い点です。これらの問題に対処するため、我々は新しいシーン表現を提案します。これは、離散的なシーンレベルの内容変化を時間に対して区分的に一定な関数としてモデル化できる、新たな時間的ステップ関数エンコーディング手法を備えています。具体的には、シーンを時空間放射輝度フィールドとして表現し、各画像ごとの照明埋め込みを用います。ここで、時間的に変化するシーンの変化は、学習されたステップ関数のセットを用いてエンコードされます。インターネット画像からの年代順再構築タスクを容易にするため、我々は時間とともに様々な変化を示す4つのシーンからなる新しいデータセットも収集しました。本手法が、このデータセットにおいて最先端の視点合成結果を示しつつ、視点、時間、照明の独立した制御を実現することを実証します。
科学文書における数値データの正確な転記がなければ、科学者は正確な結論を導き出すことができません。しかし、ある論文から別の論文へ数値データを転記する過程は、人的ミスが起こりやすいものです。本論文では、この課題に対処するため、引用元を参照して表内の数値データの正確性を検証することを目的とした自動表検証(AutoTV)という新たなタスクを提案します。このタスクを支援するため、arXivのオープンアクセス学術論文から抽出した表形式データを含む新しいベンチマーク「arXiVeri」を提案します。また、表検証器の性能を評価するための指標を導入し、以下の2つの主要な領域に焦点を当てます:(i) 引用文書内の対象表に対応する元表を特定することを目的とした「表マッチング」、および (ii) 対象表と元表の間で共有されるセルを特定し、その行と列のインデックスを正確に特定することを目的とした「セルマッチング」です。現代の大規模言語モデル(LLM)の柔軟な能力を活用し、表検証のためのシンプルなベースラインを提案します。我々の調査結果は、OpenAIのGPT-4のような最先端のLLMであっても、このタスクの複雑さを浮き彫りにしています。コードとベンチマークは公開される予定です。
大規模言語モデル(LLM)は音声領域にも応用されてきたが、音声と言語表現の間の不整合により性能低下がしばしば生じている。このギャップを埋めるため、本論文ではSpeech2Textアダプタを用いた音声と言語の統合モデル(SLM)を提案する。このアダプタは、音声情報を損失することなくテキストトークンの埋め込み空間にマッピングする。さらに、CTCベースのブランクフィルタリングを用いることで、音声シーケンスの長さをテキストの長さにまで短縮できる。音声MultiWozデータセット(DSTC11チャレンジ)において、SLMは対話状態追跡(DST)の性能を大幅に向上させた(24.7%から28.4%の精度)。さらに、希少なエンティティに関するエラーに対処するため、音声から関連するエンティティを検索し、それを元のSLM入力のプレフィックスとして追加するSpeech2EntityリトリーバーをSLMに組み込んだ。この検索拡張型SLM(ReSLM)により、DSTの性能は34.6%の精度にまで向上した。また、ASRタスクに対話理解タスクを組み合わせることで、ASRの性能が9.4%から8.5%のWERに改善された。
我々は、規則的なグリッド上に原子密度として表現される3D分子を生成するための新しいスコアベースのアプローチを提案する。まず、ノイズの多い分子の滑らかな分布から実分子の分布へマッピングすることを学習するノイズ除去ニューラルネットワークを訓練する。次に、神経経験ベイズフレームワーク [Saremi and Hyvarinen, 2019] に従い、分子を2段階で生成する:(i) アンダーダンプド・ランジュバン・マルコフ連鎖モンテカルロ法を用いて滑らかな分布からノイズの多い密度グリッドをサンプリングし、(ii) ノイズの多いグリッドを単一ステップでノイズ除去して「クリーンな」分子を復元する。我々の手法であるVoxMolは、現在の最先端技術(すなわち、原子点群に適用された拡散モデル)とは根本的に異なる方法で分子を生成する。データ表現、ノイズモデル、ネットワークアーキテクチャ、および生成モデリングアルゴリズムの点で異なる。VoxMolは、無条件の3D分子生成において最先端技術と同等の結果を達成しつつ、訓練がより簡単で分子生成がより高速である。
私たちは、「類似性」には多くの概念が存在し、モデルも人間と同様に、これらに動的に適応できるべきだと主張します。これは、固定された埋め込み関数を学習し、したがって単一の類似性概念を暗黙的に仮定する、教師ありまたは自己教師ありの表現学習手法の多くとは対照的です。例えば、ImageNetで訓練されたモデルは物体カテゴリーに偏っていますが、ユーザーは色、質感、またはシーン内の特定の要素に焦点を当てることを望むかもしれません。本論文では、モデルがさまざまな類似性条件に適応する能力を測定するGeneCIS(「genesis」)ベンチマークを提案します。先行研究を拡張し、このベンチマークはゼロショット評価のみを対象として設計されており、したがってオープンセットの類似性条件を考慮します。強力なCLIPモデルのベースラインはGeneCISで苦戦し、ベンチマークでの性能はImageNetの精度と弱い相関しか示さないことから、既存の手法を単純にスケールアップすることは有益でないことが示唆されます。さらに、既存の画像キャプションデータセットから自動的に情報をマイニングする、シンプルでスケーラブルなソリューションを提案します。私たちの手法は、GeneCISにおいてベースラインを大幅に上回り、関連する画像検索ベンチマークでのゼロショット性能もさらに向上させることがわかりました。実際、ゼロショットで評価されたにもかかわらず、私たちのモデルはMIT-Statesにおいて教師ありの最先端モデルを凌駕しています。プロジェクトページはhttps://sgvaze.github.io/genecis/にあります。
本論文では、屋内環境におけるロボットの移動操作のための大規模シミュレーションおよび強化学習(RL)フレームワークであるGalacticを紹介します。具体的には、Fetchロボット(移動ベース、7自由度アーム、RGBDカメラ、自己運動、およびオンボードセンシングを装備)を家庭環境に配置し、物体を再配置するタスク(物体まで移動し、それを拾い上げ、目標位置まで移動し、物体を目標位置に置く)を実行させます。 Galacticは高速です。シミュレーション速度(レンダリング+物理演算)に関して、Galacticは8GPUノードで421,000ステップ/秒(SPS)を達成し、Habitat 2.0(7,699 SPS)の54倍の速度です。さらに重要なことに、Galacticはレンダリング、物理演算、RLの相互作用全体を最適化するように設計されており、相互作用におけるボトルネックがトレーニングを遅くすることを防ぎます。シミュレーション+RL速度(レンダリング+物理演算+推論+学習)に関して、Galacticは108,000 SPSを達成し、Habitat 2.0(1,243 SPS)の88倍の速度です。 これらの大幅な高速化により、既存の実験の実時間トレーニング時間が大幅に短縮されるだけでなく、前例のない規模の新しい実験が可能になります。まず、Galacticは移動ピックスキルを16分未満で80%以上の精度でトレーニングでき、Habitat 2.0で同じスキルをトレーニングするのに24時間以上かかるのと比べて100倍の高速化を実現します。次に、Galacticを使用して、46時間で50億ステップの経験を用いた再配置の最大規模の実験を実施し、これは20年間のロボット経験に相当します。このスケーリングにより、タスクに依存しないコンポーネントで構成された単一のニューラルネットワークがGeometricGoal再配置で85%の成功率を達成し、Habitat 2.0で報告された同じアプローチの0%の成功率と比較して大幅な改善を示しました。コードはgithub.com/facebookresearch/galacticで公開されています。
既存の手法では、密な意味的対応を持つ3D頭部データセットを取得するプロセスが遅く、一般的にこの問題を2つの別々のステップで解決しています。まず、マルチビューステレオ(MVS)再構成を行い、その後、非剛体登録を実施します。このプロセスを簡素化するため、我々はTEMPEH(Towards Estimation of 3D Meshes from Performances of Expressive Heads)を導入し、キャリブレーションされたマルチビュー画像から直接、密な対応を持つ3D頭部を推論します。3Dスキャンのデータセットを登録する際には、通常、スキャン表面を正確にフィットさせることと、スキャンノイズや外れ値に対して頑健であることのバランスを見つけるために手動でのパラメータ調整が必要です。代わりに、我々はTEMPEHを訓練しながら3D頭部データセットを共同で登録することを提案します。具体的には、訓練中に表面登録に一般的に使用される幾何学的損失を最小化し、TEMPEHを正則化器として効果的に活用します。我々のマルチビュー頭部推論は、カメラキャリブレーション情報を使用して各ビューから特徴をサンプリングし、融合するボリュメトリック特徴表現に基づいています。部分的な遮蔽や頭部の動きを可能にする大きなキャプチャボリュームに対応するため、ビューおよび表面を意識した特徴融合と、空間トランスフォーマーベースの頭部位置特定モジュールをそれぞれ使用します。訓練中は生のMVSスキャンを教師データとして使用しますが、一度訓練されると、TEMPEHはスキャンを必要とせずに直接、密な対応を持つ3D頭部を予測します。1つの頭部を予測するのに約0.3秒かかり、再構成誤差の中央値は0.26 mmで、現在の最先端技術よりも64%低くなります。これにより、複数の人物と多様な顔の動きを含む大規模なデータセットを効率的に取得することが可能になります。コード、モデル、データはhttps://tempeh.is.tue.mpg.deで公開されています。
電話通話の文字起こしは、営業、カスタマーサービス、医療、法執行など、多様な分野において重要な価値を持っています。しかし、これらの録音された会話の分析は、特に長時間または複雑な対話を扱う場合、骨の折れる時間のかかるプロセスとなり得ます。本研究では、効率的かつ正確な通話セグメンテーションとトピック抽出のための新しい手法、GPT蒸留型通話セグメンテーション・タギング(GPT-Calls)を提案します。GPT-Callsは、オフラインフェーズとオンラインフェーズで構成されています。オフラインフェーズは、与えられたトピックリストに対して一度適用され、GPTモデルを使用して各トピックの合成文の分布を生成し、アンカーベクトルを抽出します。オンラインフェーズは、各通話に個別に適用され、文字起こしされた会話とオフラインフェーズで見つかったトピックアンカーとの類似性をスコアリングします。その後、類似性スコアに時間領域分析を適用して発話をセグメントにグループ化し、トピックでタグ付けします。提案されたパラダイムは、ラベル付きデータを必要としない、正確で効率的な通話セグメンテーションとトピック抽出の方法を提供し、さまざまなドメインに適用可能な汎用的なアプローチとなっています。私たちのアルゴリズムは、Dynamics 365 Sales Conversation Intelligenceの下で本番環境で動作しており、研究は、さまざまなDynamics 365 Salesテナントから収集された実際の営業会話に基づいています。
今日、オンラインとオフラインの両方で利用可能な膨大な量のデータに直面し、ユーザーの興味に合わせたアイテムを見つけるためのレコメンダーシステムの必要性が高まっています。ソーシャルネットワーク情報が存在する場合、この情報を活用してより良いレコメンデーションを行う方法がありますが、これらの方法はしばしば複雑なアーキテクチャとトレーニング手順を伴い、扱いにくいものです。さらに、既存の多くの方法は、訓練が非常に難しいことで知られるグラフニューラルネットワークを利用しています。この問題に対処するため、我々はSocially-aware Temporally caUsal Decoder recommender sYstems(STUDY)を提案します。STUDYは、修正されたトランスフォーマーデコーダーネットワークの単一のフォワードパスを使用して、ソーシャルネットワークグラフ内で隣接するユーザーグループに対して共同推論を行います。我々は、学校ベースの教育コンテンツ設定でこの方法をテストし、教室の構造をソーシャルネットワークの定義に使用しました。我々の方法は、ソーシャルおよびシーケンシャルな方法を上回りながら、データ内のすべての相互作用をモデル化する単一の均質なネットワークの設計の簡潔さを維持しています。また、性能向上の要因を理解するためにアブレーション研究を行い、我々のモデルがユーザー行動の類似性を効果的にモデル化するソーシャルネットワーク構造の活用に依存していることを明らかにしました。