翻訳付きの日次キュレーションされたAI研究論文
オンラインショッピングが拡大する中、購入者が自分の環境で製品を仮想的に視覚化する能力(我々が「バーチャルトライオール」と定義する現象)が重要になってきている。最近の拡散モデルは本質的に世界モデルを含んでおり、インペインティングの文脈でこのタスクに適している。しかし、従来の画像条件付き拡散モデルは、製品の細部を捉えることができないことが多い。一方、DreamPaintのようなパーソナライゼーション主導のモデルは、アイテムの細部を保持するのに優れているが、リアルタイムアプリケーション向けに最適化されていない。我々は「Diffuse to Choose」を提案する。これは、高速な推論と参照アイテムの高忠実度な細部の保持を効率的にバランスさせつつ、与えられたシーン内容における正確な意味的変換を保証する、新しい拡散ベースの画像条件付きインペインティングモデルである。我々のアプローチは、参照画像の細粒度な特徴をメインの拡散モデルの潜在特徴マップに直接組み込み、参照アイテムの細部をさらに保持するための知覚的損失を併用することに基づいている。社内および公開されているデータセットで広範なテストを行い、Diffuse to Chooseが既存のゼロショット拡散インペインティング手法やDreamPaintのような少数ショット拡散パーソナライゼーションアルゴリズムよりも優れていることを示す。
大規模言語モデルの急速な発展は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらしました。しかし、クローズドソースモデルの優位性が広範な研究開発を制限してきました。この問題に対処するため、我々はDeepSeek-Coderシリーズを紹介します。これは1.3Bから33Bまでのサイズのオープンソースコードモデル群で、2兆トークンからスクラッチでトレーニングされています。これらのモデルは、高品質なプロジェクトレベルのコードコーパスで事前学習され、16Kウィンドウを用いた穴埋めタスクを採用することで、コード生成と埋め込みを強化しています。我々の広範な評価により、DeepSeek-Coderが複数のベンチマークにおいてオープンソースコードモデルの中で最先端の性能を達成するだけでなく、CodexやGPT-3.5などの既存のクローズドソースモデルを凌駕することが実証されました。さらに、DeepSeek-Coderモデルは、研究と無制限の商用利用を可能にする寛容なライセンスの下で提供されています。
本研究では、マスク付きオートエンコーダ(MAE)のデコード機構におけるパッチ間依存関係を再検証します。MAEにおけるマスクパッチ再構成のデコード機構を、セルフアテンションとクロスアテンションに分解しました。調査の結果、マスクパッチ間のセルフアテンションは、優れた表現を学習するために必須ではないことが示唆されました。これに基づき、新しい事前学習フレームワークであるCross-Attention Masked Autoencoders(CrossMAE)を提案します。CrossMAEのデコーダは、マスクトークンと可視トークン間のクロスアテンションのみを活用し、下流タスクの性能を低下させることなく、効率を向上させます。この設計により、マスクトークンの一部のみをデコードすることが可能になり、効率性が向上します。さらに、各デコーダブロックが異なるエンコーダ特徴を活用できるようになり、表現学習が改善されます。CrossMAEは、MAEと同等の性能を達成しながら、デコード計算量を2.5~3.7倍削減します。また、同じ計算量条件下で、ImageNet分類とCOCOインスタンスセグメンテーションにおいてMAEを上回ります。コードとモデルはhttps://crossmae.github.ioで公開されています。
生成型NLPのダイナミックな領域において、従来のテキスト処理パイプラインは、特定のデータセット、タスク、およびモデルの組み合わせに特化しているため、研究の柔軟性と再現性を制限しています。システムプロンプト、モデル固有のフォーマット、指示などが絡む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を求めています。このニーズに対応するため、生成型言語モデルに特化したカスタマイズ可能なテキストデータの準備と評価のための革新的なライブラリ、Unitxtを紹介します。Unitxtは、HuggingFaceやLM-eval-harnessなどの一般的なライブラリとネイティブに統合し、処理フローをモジュール化されたコンポーネントに分解することで、実践者間での容易なカスタマイズと共有を可能にします。これらのコンポーネントには、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義が含まれます。Unitxt-Catalogはこれらのコンポーネントを一元管理し、現代のテキストデータワークフローにおける協力と探求を促進します。Unitxtは単なるツールではなく、コミュニティ主導のプラットフォームであり、ユーザーがパイプラインを共同で構築、共有、進化させることを可能にします。Unitxtコミュニティに参加するには、https://github.com/IBM/unitxt をご覧ください!
6ビット量子化(FP6)は、大規模言語モデル(LLM)のサイズを効果的に削減し、さまざまなアプリケーションにおいてモデルの品質を一貫して維持することができます。しかし、既存のシステムはFP6量子化に対するTensor Coreサポートを提供しておらず、LLM推論時の実用的な性能向上を達成するのに苦労しています。FP6量子化をGPUでサポートすることは、以下の理由から困難です:(1)不規則なビット幅を持つモデル重みのメモリアクセスが非効率的であること、(2)重みの逆量子化における高いランタイムオーバーヘッド。これらの問題を解決するために、我々はTC-FPxを提案します。これは、さまざまな量子化ビット幅の浮動小数点重みに対する統一されたTensor Coreサポートを備えた初めてのフルスタックGPUカーネル設計スキームです。TC-FPxカーネルを既存の推論システムに統合し、量子化されたLLM推論のための新しいエンドツーエンドサポート(FP6-LLMと呼ぶ)を提供します。これにより、推論コストとモデル品質の間のより良いトレードオフが実現されます。実験結果から、FP6-LLMは単一のGPUを使用してLLaMA-70bの推論を可能にし、FP16ベースラインと比較して1.69倍から2.65倍の正規化推論スループットを達成することが示されました。ソースコードは近日中に公開される予定です。
本研究では、元々画像生成を目的として開発されたDenoising Diffusion Models(DDM)の表現学習能力を検証します。私たちのアプローチは、DDMを段階的に分解し、古典的なDenoising Autoencoder(DAE)へと変換していくものです。この分解プロセスを通じて、現代のDDMの各構成要素が自己教師あり表現学習にどのように影響するかを探ります。その結果、優れた表現を学習する上で重要な要素はごく少数であり、その他の多くの要素は非本質的であることが観察されました。最終的に、本研究は古典的なDAEに非常に近い、大幅に簡素化された手法に到達しました。私たちは、この研究が現代の自己教師あり学習の領域において、古典的手法に対する関心を再び呼び起こすことを期待しています。
特定のモダリティのトランスフォーマーを、他のモダリティの無関係なデータで改善することを提案します。例えば、ImageNetモデルを音声やポイントクラウドのデータセットで改善することを考えます。ここで注目すべきは、ターゲットモダリティのデータサンプルが他のモダリティと無関係である点であり、これが我々の手法を、ペアデータ(例:CLIP)や異なるモダリティのインターリーブデータを利用する他の研究と区別します。我々は「Multimodal Pathway」という方法論を提案します。具体的には、ターゲットモダリティとそれ用に設計されたトランスフォーマーが与えられた場合、別のモダリティのデータで訓練された補助トランスフォーマーを使用し、2つのモデルのコンポーネントを接続するパスウェイを構築します。これにより、ターゲットモダリティのデータを両方のモデルで処理できるようにします。この方法で、2つのモダリティから得られたトランスフォーマーの普遍的なシーケンス間モデリング能力を活用します。具体的な実装として、通常通りモダリティ固有のトークナイザーとタスク固有のヘッドを使用しますが、提案する「Cross-Modal Re-parameterization」という方法を通じて補助モデルのトランスフォーマーブロックを利用します。この方法は、推論コストを一切増やすことなく補助モデルの重みを活用します。画像、ポイントクラウド、ビデオ、音声認識タスクにおいて、他のモダリティの無関係なデータを使用することで、顕著かつ一貫した性能向上が観察されました。コードとモデルはhttps://github.com/AILab-CVC/M2PTで公開されています。
家庭のような開放的な非構造化環境におけるロボットの展開は、長年にわたる研究課題となってきました。しかし、ロボットはしばしば閉鎖的な実験室環境でのみ研究され、従来の移動操作研究は「ピック・ムーブ・プレース」に限定されており、これはこの分野の氷山の一角に過ぎないと言えます。本論文では、現実的な関節のある物体の操作(例えば、実際のドア、キャビネット、引き出し、冷蔵庫など)を開放的な非構造化環境で扱うためのフルスタックアプローチである「Open-World Mobile Manipulation System」を紹介します。このロボットは、適応学習フレームワークを利用して、最初に少量のデータから行動クローニングを通じて学習し、その後、訓練分布外の新しい物体に対するオンライン実践から学習します。また、約20,000ドルのコストで、非構造化環境において安全かつ自律的にオンライン適応が可能な低コストの移動操作ハードウェアプラットフォームを開発しました。実験では、CMUキャンパス内の4つの建物にわたる20の関節物体を利用しました。各物体に対して1時間未満のオンライン学習を行うことで、システムは行動クローニングの事前訓練時の50%の成功率から、オンライン適応を用いて95%まで成功率を向上させることができました。ビデオ結果はhttps://open-world-mobilemanip.github.io/でご覧いただけます。
我々は、ゼロショットアモーダルセグメンテーションのためのフレームワークであるpix2gestaltを提案する。このフレームワークは、遮蔽物の背後に部分的にしか見えない物体全体の形状と外観を推定することを学習する。大規模な拡散モデルを活用し、その表現をこのタスクに転移させることで、自然や物理的な事前知識を破る例(例えば芸術作品)を含む、挑戦的なゼロショットケースにおいて物体全体を再構築するための条件付き拡散モデルを学習する。訓練データとして、遮蔽された物体とその全体像をペアにした合成データセットを使用する。実験結果は、我々のアプローチが確立されたベンチマークにおいて教師ありベースラインを上回ることを示している。さらに、我々のモデルは、遮蔽が存在する状況下での既存の物体認識および3D再構築手法の性能を大幅に向上させるために使用できる。
コンテンツに基づく生成タスクにおける高品質なデータの不足は、これらのタスクの進展を阻む主要な障害として認識されてきました。このギャップを埋めるため、我々は高品質なコンテンツ基盤データを自動生成する新規手法「Genie」を提案します。この手法は以下の3段階で構成されます:(a) コンテンツの準備、(b) 生成:コンテンツからタスク固有の例(例:質問-回答ペアや要約)を作成、(c) 生成データの品質と忠実性を保証するためのフィルタリング機構。我々はこの方法論を、長文質問応答(LFQA)、要約、情報抽出のための3つの大規模な合成データを生成することで実証します。人間による評価では、生成されたデータが自然で高品質であることが確認されました。さらに、我々のデータで訓練されたモデルと、人間が作成したデータ(LFQAのためのELI5とASQA、要約のためのCNN-DailyMail)で訓練されたモデルを比較します。我々のモデルは、人間が生成したデータで訓練されたモデルと同等かそれ以上の性能を示し、特に忠実性において一貫して優れていることを示します。最後に、我々はこの手法を医療分野におけるLFQAデータの作成に適用し、そのデータで訓練されたモデルを他の分野で訓練されたモデルと比較しました。