翻訳付きの日次キュレーションされたAI研究論文
画像とテキストが交互に配置された自然文書で訓練された大規模マルチモーダルモデルは、画像とテキストのペアで訓練されたモデルを様々なマルチモーダルベンチマークで上回っています。しかし、これらのモデルの訓練に使用されたデータセットは公開されておらず、収集プロセスも完全には明示されていません。本研究では、OBELICSデータセットを紹介します。これは、Common Crawlから抽出された1億4100万のウェブページ、3億5300万の関連画像、1150億のテキストトークンからなる、オープンなウェブスケールのフィルタリングされた交互配置画像テキスト文書のデータセットです。データセットの作成プロセスを説明し、包括的なフィルタリングルールを提示し、データセットの内容分析を提供します。OBELICSの有効性を示すために、9億および800億パラメータの視覚と言語モデルであるIDEFICSを訓練し、異なるマルチモーダルベンチマークで競争力のある性能を達成しました。私たちは、データセット、モデル、およびコードを公開します。
単一画像からの3D再構成は、自然界に関する広範な知識を必要とする重要な課題でありながら、非常に困難なタスクです。既存の多くの手法は、2D拡散モデルのガイダンスの下でニューラルラジアンスフィールドを最適化することでこの問題を解決していますが、最適化時間が長い、3Dの一貫性が低い、ジオメトリが貧弱といった課題を抱えています。本研究では、任意の物体の単一画像を入力として受け取り、単一のフォワードパスで360度の3Dテクスチャ付きメッシュを生成する新しい手法を提案します。単一画像が与えられると、まずビュー条件付き2D拡散モデルであるZero123を使用して入力ビューに対するマルチビュー画像を生成し、その後それらを3D空間に持ち上げることを目指します。従来の再構成手法は一貫性のないマルチビュー予測に苦戦するため、我々はSDFベースの汎用可能なニューラルサーフェス再構成手法を基盤とした3D再構成モジュールを構築し、360度メッシュの再構成を可能にするためのいくつかの重要なトレーニング戦略を提案します。コストのかかる最適化を必要とせず、我々の手法は既存の手法よりも大幅に短い時間で3D形状を再構成します。さらに、我々の手法はより優れたジオメトリを実現し、より3D一貫性の高い結果を生成し、入力画像により忠実に従います。我々は合成データと実世界の画像の両方でこのアプローチを評価し、メッシュ品質と実行時間の両面でその優位性を実証します。加えて、我々のアプローチは、既存のテキストから画像への拡散モデルと統合することで、テキストから3Dへのタスクをシームレスにサポートすることができます。
本論文では、思考をテキストに変換する必要なく、脳波(EEG)信号から直接高品質な画像を生成する新しい手法であるDreamDiffusionを紹介する。DreamDiffusionは、事前学習済みのテキストから画像への生成モデルを活用し、時間的マスク信号モデリングを用いてEEGエンコーダを事前学習することで、効果的かつロバストなEEG表現を実現する。さらに、この手法はCLIP画像エンコーダを活用して追加の監督を提供し、限られたEEG-画像ペアにおいてEEG、テキスト、および画像の埋め込みをより良く整合させる。全体として、提案手法は、ノイズ、情報の制限、個人差といったEEG信号を画像生成に使用する際の課題を克服し、有望な結果を達成している。定量的および定性的な結果は、提案手法の有効性を示しており、携帯可能で低コストな「思考から画像へ」の実現に向けた重要な一歩として、神経科学やコンピュータビジョンにおける潜在的な応用が期待される。
テキストから画像への拡散モデルは、その多様な分野への広範な適用可能性から大きな注目を集めています。しかし、パーソナライズされたオブジェクト生成のための制御可能なモデルの作成には依然として課題が残っています。本論文では、まず既存のパーソナライズド生成モデルにおけるエンタングルメント問題を特定し、次に拡散モデルがオブジェクトの同一性のみに焦点を当てるよう導く、シンプルで効率的なデータ拡張トレーニング戦略を提案します。事前学習済みの制御可能な拡散モデルからプラグアンドプレイのアダプタ層を挿入することで、生成される各パーソナライズドオブジェクトの位置とサイズを制御する能力を獲得します。推論時には、生成画像の品質と忠実度を維持するための地域ガイドサンプリング技術を提案します。本手法は、パーソナライズドオブジェクトに対して同等または優れた忠実度を達成し、現実的でパーソナライズされた画像を生成可能な、堅牢で汎用的かつ制御可能なテキストから画像への拡散モデルを実現します。本アプローチは、芸術、エンターテイメント、広告デザインなど、さまざまな応用分野において大きな可能性を示しています。
本研究では、2D画像やテキストに基づいて一般的な3D形状を生成するという困難な課題に取り組むため、新たなアライメント・ビフォア・ジェネレーション(alignment-before-generation)アプローチを提案します。画像やテキストから直接3D形状を生成する条件付き生成モデルを学習すると、3D形状が持つ追加の次元の分布が2D画像やテキストと大きく異なるため、条件と一致しない結果が生じやすくなります。この3つのモダリティ間のドメインギャップを埋め、マルチモーダル条件付き3D形状生成を促進するため、我々は3D形状を形状-画像-テキストアライメント空間で表現する方法を探求します。提案するフレームワークは、Shape-Image-Text-Aligned Variational Auto-Encoder(SITA-VAE)と条件付きAligned Shape Latent Diffusion Model(ASLDM)の2つのモデルで構成されます。前者のモデルは、3D形状を画像とテキストにアライメントされた形状潜在空間にエンコードし、トランスフォーマーベースのデコーダを介して与えられた形状埋め込みに対応する詳細な3Dニューラルフィールドを再構築します。後者のモデルは、画像またはテキスト空間から潜在形状空間への確率的マッピング関数を学習します。我々の広範な実験により、提案手法がより高品質で多様な3D形状を生成し、視覚的またはテキスト的な条件入力に意味的に適合することを実証し、クロスモダリティ3D形状生成における形状-画像-テキストアライメント空間の有効性を検証しました。
事前学習済み大規模言語モデル(PLM)は、自然言語処理における最新の進展の大部分を支えています。これらは、特定のアプリケーションに特化したモデルパイプラインから、幅広いタスクに適応可能な単一のモデルへと分野を転換させました。GPT-3やPaLMのような自己回帰型PLMは、さらに、数ショット学習などの技術とともに、出力モダリティを分類や回帰ではなく生成へとシフトさせました。しかし、これらのモデルが導入される際に、その生成品質が評価されることはほとんどありません。また、既存の生成タスクは、システムを高レベルで比較するために使用できるものの、人々が実際に採用している現実世界のユースケースとどのように関連しているかは不明確です。本研究では、既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について議論し、スケール、アーキテクチャ、入力および出力言語などの次元に沿って、PLMの自然言語生成タスクにおける限界と能力について詳細な実証研究を提供します。結果は、PLMが異なるデータレジームへの適用性や複数言語への一般化において異なることを示し、特定の生成タスク設定にどのPLMを使用すべきかを明らかにします。また、今後のPLM開発において生成能力をベンチマークする際に考慮すべきベストプラクティスを共有します。
我々は、合成データのみで訓練されたニューラルネットワークが、実画像からの3D人体姿勢・形状(HPS)推定という課題において、初めて最先端の精度を達成することを示します。従来の合成データセットは、規模が小さかったり、非現実的であったり、現実的な衣服が欠けていました。十分なリアリズムを達成することは容易ではなく、我々は動く全身に対してこれをどのように実現するかを示します。具体的には、我々のBEDLAMデータセットには、SMPL-X形式のグラウンドトゥルース3Dボディを含む単眼RGBビデオが含まれています。これには、多様な体型、動き、肌の色、髪型、衣服が含まれています。衣服は、商用の衣服物理シミュレーションを使用して、動く身体にリアルにシミュレートされています。我々は、リアルなシーンで様々な照明やカメラの動きを用いて、異なる人数をレンダリングします。その後、BEDLAMを使用して様々なHPS回帰モデルを訓練し、合成データで訓練したにもかかわらず、実画像ベンチマークで最先端の精度を達成します。我々はBEDLAMを使用して、精度にとって重要なモデル設計の選択肢について洞察を得ます。良い合成訓練データを用いることで、HMRのような基本的な手法が、現在のSOTA手法(CLIFF)の精度に近づくことがわかります。BEDLAMは様々なタスクに有用であり、すべての画像、グラウンドトゥルースボディ、3D衣服、サポートコードなどが研究目的で利用可能です。さらに、我々は合成データ生成パイプラインに関する詳細な情報を提供し、他の研究者が独自のデータセットを生成できるようにします。プロジェクトページを参照してください: https://bedlam.is.tue.mpg.de/。
視覚観察から学習したダイナミクスモデルは、様々なロボット操作タスクにおいて有効であることが示されています。このようなダイナミクスモデルを学習する上で重要な課題の一つは、どのようなシーン表現を使用するかです。従来の研究では、固定次元または固定解像度の表現を前提とすることが一般的でしたが、これは単純なタスクでは非効率的であり、より複雑なタスクでは効果的でない場合があります。本研究では、効率性と有効性の最適なトレードオフを実現するために、異なる抽象化レベルで動的かつ適応的な表現を学習する方法を探ります。具体的には、環境の動的解像度粒子表現を構築し、抽象化レベルを連続的に選択可能なグラフニューラルネットワーク(GNN)を使用して統一されたダイナミクスモデルを学習します。テスト時には、エージェントが各モデル予測制御(MPC)ステップで最適な解像度を適応的に決定できます。本手法を、調理、農業、製造、医薬品アプリケーションなどでよく遭遇する物体の山操作タスクで評価します。シミュレーションと実世界の両方での包括的な評価を通じて、コーヒー豆、アーモンド、トウモロコシなどの様々なインスタンスで作られた粒状物体の山の収集、分類、再分配において、本手法が最先端の固定解像度ベースラインよりも大幅に優れた性能を達成することを示します。
ディープニューラルネットワーク(DNN)は機械学習において広く普及していますが、そのエネルギー消費は依然として重要な課題です。供給電圧を下げることは、エネルギー消費を削減するための効果的な戦略です。しかし、供給電圧を過度に下げると、モデルパラメータが格納されている静的ランダムアクセスメモリ(SRAM)におけるランダムなビット反転が原因で精度が低下する可能性があります。この課題に対処するため、我々はNeuralFuseを導入します。これは、低電圧環境における精度とエネルギーのトレードオフを解決するための新しいアドオンモジュールで、エラー耐性のあるデータ表現を生成するための入力変換を学習します。NeuralFuseは、通常電圧および低電圧の両方のシナリオにおいてDNNの精度を保護します。さらに、NeuralFuseは実装が容易で、設定不可能なハードウェアやクラウドベースのAPIへのリモートアクセスなど、制限されたアクセス環境にあるDNNにも容易に適用できます。実験結果によると、1%のビットエラーレートにおいて、NeuralFuseはSRAMメモリアクセスエネルギーを最大24%削減し、精度を最大57%向上させることが示されています。我々の知る限り、これは低電圧誘発ビットエラーに対処するための最初のモデル非依存アプローチ(すなわち、モデルの再トレーニングを必要としない)です。ソースコードはhttps://github.com/IBM/NeuralFuseで公開されています。
我々は、16×16の垂直スライド式ピラーと触覚センサーを統合した分散操作システム「ArrayBot」を提案する。このシステムは、テーブル上の物体を同時に支持、知覚、操作することができる。汎用的な分散操作を目指して、我々は強化学習(RL)アルゴリズムを活用し、制御ポリシーの自動発見を行う。膨大な冗長性を持つ行動空間に対処するため、空間的に局所的な行動パッチと周波数領域における低周波行動を考慮して行動空間を再構築する。この再構築された行動空間を用いて、触覚観測のみを通じて多様な物体を再配置するRLエージェントを訓練する。驚くべきことに、発見されたポリシーはシミュレータ内で未見の物体形状に一般化できるだけでなく、ドメインランダム化なしで物理ロボットに転移することも確認された。展開されたポリシーを活用し、我々は豊富な実世界の操作タスクを提示し、ArrayBotにおけるRLの分散操作における広大な可能性を明らかにする。
近年、Transformerベースの言語モデルは自然言語処理タスクにおける標準的なアプローチとなっています。しかし、産業アプリケーションにおける厳格なスループットとレイテンシの要件が、その採用を制限しています。このギャップを緩和するため、構造化プルーニングなどのモデル圧縮技術が推論効率の向上に使用されています。しかし、既存のニューラルネットワーク推論ランタイムの多くは、構造化スパース性に対する十分なサポートを欠いています。本論文では、重みが一定のブロックサイズでプルーニングされたTransformerベースの言語モデル向けの効率的なスパースディープラーニング推論ソフトウェアスタックを提案します。私たちのスパースソフトウェアアクセラレータは、Intel Deep Learning Boostを活用して、CPU上でのスパース行列-密行列乗算(一般的にSpMMと略される)の性能を最大化します。私たちのSpMMカーネルは、5つの代表的なスパース率(70%、75%、80%、85%、90%)において、広範なGEMM形状に対して既存のスパースライブラリ(oneMKL、TVM、LIBXSMM)を1桁上回る性能を示します。さらに、私たちのSpMMカーネルは、業界で広く使用されている最適化された密ライブラリであるoneDNNの密GEMMカーネルに対して最大5倍の高速化を示します。私たちは、Bert-Mini、DistilBERT、Bert-Base、BERT-Largeなどの広く使用されているTransformerベースの言語モデルに私たちのスパースアクセラレータを適用します。私たちのスパース推論ソフトウェアは、Amazon Web Services上のXeonにおいて、プロキシ生産レイテンシ制約下で、Neural MagicのDeepsparseと同等の設定で最大1.5倍の高速化を示します。また、私たちのソリューションを、ONNX RuntimeとPyTorchという2つのフレームワークベースの推論ソリューションと比較し、Xeon上でのレイテンシ制約下で、ONNX Runtimeに対して最大37倍、PyTorchに対して最大345倍の高速化を実証します。すべてのソースコードはGithubで公開されています: https://github.com/intel/intel-extension-for-transformers。