翻訳付きの日次キュレーションされたAI研究論文
我々はphi-1を紹介する。これはコード用の新しい大規模言語モデルであり、競合モデルと比べて大幅に小さいサイズを特徴とする。phi-1は1.3BパラメータのTransformerベースのモデルで、8台のA100を使用して4日間トレーニングされ、ウェブから選別された「教科書品質」のデータ(6Bトークン)とGPT-3.5で生成された合成教科書および演習問題(1Bトークン)を使用している。この小規模にもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%のpass@1精度を達成する。また、phi-1は、コーディング演習データセットでのファインチューニング前のモデルであるphi-1-baseや、phi-1と同じパイプラインでトレーニングされた350Mパラメータのより小さいモデルであるphi-1-small(HumanEvalで45%を達成)と比較して、驚くべき創発的特性を示す。
与えられた動作記述から現実的な人間の動きを生成することは、デジタルヒューマンの需要の高まりにより、大きな進展を遂げてきた。最近の研究では、テキストによる動作記述から直接動きを生成することにおいて印象的な成果を上げているが、これらの手法はしばしば単一の制御信号モダリティしかサポートしておらず、実際のデジタルヒューマン産業における応用が制限されている。本論文では、マルチモーダルな制御信号(例えば、テキストや単一フレームのポーズ)を大規模言語モデル(LLM)の特殊な入力トークンとして扱い、連続的な人間の動きを生成するMotion General-Purpose generaTor(MotionGPT)を提案する。具体的には、まずマルチモーダルな制御信号を離散コードに量子化し、それを統一されたプロンプト指示として定式化し、LLMに動きの回答を生成させる。我々のMotionGPTは、LLMのパラメータのわずか0.4%をチューニングすることで、マルチモーダルな制御信号を用いた統一的な人間の動き生成モデルを実現する。我々の知る限り、MotionGPTはマルチモーダルな制御信号を用いて人間の動きを生成する初めての手法であり、この新しい方向性に光を当てることを期待している。コードは受理後に公開される予定である。
HomeRobot(名詞):家庭内を移動し、日常的なタスクを完了するために幅広い物体を操作する、手頃な価格のコンプライアントロボット。Open-Vocabulary Mobile Manipulation(OVMM)は、未知の環境内の任意の物体を拾い上げ、指定された場所に配置する問題である。これは、人間の環境においてロボットが有用なアシスタントとなるための基礎的な課題であり、ロボティクス全体にわたるサブ問題に取り組むことを含む:知覚、言語理解、ナビゲーション、操作はすべてOVMMに不可欠である。さらに、これらのサブ問題に対する解決策の統合も、それ自体が大きな課題を提起する。この分野の研究を推進するために、我々はHomeRobot OVMMベンチマークを導入する。ここでは、エージェントが家庭環境を移動し、新しい物体をつかんで目標の受け皿に配置する。HomeRobotは2つのコンポーネントからなる:シミュレーションコンポーネントは、新しく高品質な複数部屋の家庭環境において、大規模で多様なキュレーションされた物体セットを使用する;現実世界コンポーネントは、低コストのHello Robot Stretchのためのソフトウェアスタックを提供し、ラボ間での現実世界実験の再現を促進する。我々は強化学習とヒューリスティック(モデルベース)のベースラインを実装し、シミュレーションから現実への転移の証拠を示す。我々のベースラインは現実世界で20%の成功率を達成し、実験を通じて将来の研究が性能を向上させる方法を特定する。詳細はウェブサイトの動画を参照:https://ovmm.github.io/。
大規模言語モデル(LLMs)がGitHub Copilotのようなコーディングアシスタントで大きな成功を収めているにもかかわらず、これらのモデルはリポジトリ内のコンテキスト(例えば、インポート、親クラス、類似した名前のファイルなど)を理解するのに苦労し、その結果、不正確なコード補完を生成してしまいます。この効果は、モデルがトレーニング中に見たことのないリポジトリ(例えば、プロプライエタリなソフトウェアや進行中のコードプロジェクト)でこれらのアシスタントを使用する際に特に顕著です。最近の研究では、推論中にリポジトリからのコンテキストを使用することの可能性が示されています。本研究では、このアイデアを拡張し、関連するリポジトリコンテキストを組み込むようにモデルをトレーニングするためのフレームワークであるRepoFusionを提案します。単一行のコード補完に関する実験では、リポジトリコンテキストを使用してトレーニングされたモデルが、CodeGen-16B-multi(約73倍大きい)のようなはるかに大きなコードモデルを大幅に上回り、Fill-in-the-Middle目的でトレーニングされた約70倍大きいStarCoderBaseモデルの性能に匹敵することが示されました。これらの結果は、リポジトリコンテキストを使用したトレーニングがもたらす利点の新規かつ説得力のある実証であると考えます。我々は、コンテキストの種類、コンテキストの数、コンテキストの長さ、初期化などの設計選択が及ぼす影響を調査するために、広範なアブレーションスタディを実施しました。最後に、パーミッシブライセンスを持つ200のJavaリポジトリと、3種類のリポジトリコンテキストで拡張されたほぼ重複除去されたファイルを含むデータセットであるStack-Repoを公開します。さらに、我々の研究のコードとトレーニング済みチェックポイントも公開しています。公開されたリソースはhttps://huggingface.co/RepoFusionで見つけることができます。
現実世界のアプリケーションで収集されたポイントクラウドデータは、しばしば不完全です。データが欠落する主な理由は、物体が部分的な視点から観察されるため、特定の視点や角度しか捉えられないことです。さらに、オクルージョンや低解像度サンプリングによってもデータが不完全になることがあります。既存の補完手法は、事前に定義された物体のデータセットに依存して、ノイズの多い不完全なポイントクラウドを補完します。しかし、これらの手法は、訓練データセットに十分に含まれていない分布外(Out-Of-Distribution, OOD)の物体に対しては性能が低いことが分かっています。本研究では、テキストガイドによる画像生成の最近の進展を活用し、テキストガイドによる形状生成における大きなブレークスルーを実現しました。我々は、SDS-Completeと呼ばれる手法を提案します。この手法は、事前学習済みのテキストから画像への拡散モデルを使用し、与えられた不完全なポイントクラウドのテキスト意味情報を活用して、完全な表面表現を取得します。SDS-Completeは、3D情報の高価な収集を必要とせずに、テスト時の最適化を使用して多様な物体を補完することができます。我々は、実世界の深度センサーやLiDARスキャナーによってキャプチャされた不完全なスキャン物体に対してSDS-Completeを評価しました。その結果、一般的なデータセットに含まれていない物体を効果的に再構築し、現在の手法と比較して平均で50%のChamfer損失を削減することがわかりました。プロジェクトページ: https://sds-complete.github.io/
ノイズ除去拡散モデルは、実世界の信号の複雑な分布を捉えるために使用される強力な生成モデルの一種です。しかし、その適用性は訓練サンプルが容易に利用可能なシナリオに限定されており、これは実世界のアプリケーションでは必ずしも当てはまりません。例えば、逆グラフィックスにおいては、与えられた画像と整合する3Dシーンの分布からサンプルを生成することが目標ですが、真の3Dシーンは利用不可能で、2D画像のみがアクセス可能です。この制限に対処するため、我々は直接観測されることのない信号の分布からサンプリングすることを学習する新しいクラスのノイズ除去拡散確率モデルを提案します。これらの信号は、既知の微分可能な順モデルを通じて間接的に測定され、未知の信号の部分的な観測を生成します。我々のアプローチは、順モデルをノイズ除去プロセスに直接統合することを含みます。この統合により、観測の生成モデリングと基礎となる信号の生成モデリングが効果的に結びつき、信号に対する条件付き生成モデルのエンドツーエンド訓練が可能になります。推論時には、我々のアプローチにより、与えられた部分的な観測と整合する基礎信号の分布からのサンプリングが可能になります。我々は、3つの挑戦的なコンピュータビジョンタスクにおいて、この手法の有効性を実証します。例えば、逆グラフィックスの文脈において、我々のモデルは、単一の2D入力画像と整合する3Dシーンの分布から直接サンプリングすることを可能にします。
異なるロボットやタスクから得られた多様なロボット経験を活用し、新しいスキルや身体構造を迅速に習得する能力は、ロボット学習に革命をもたらす可能性を秘めています。視覚と言語における基盤モデルの最近の進展に触発され、我々はロボット操作のための基盤エージェントを提案します。このエージェントは「RoboCat」と名付けられ、視覚目標条件付きの意思決定トランスフォーマーであり、多様な身体構造を持つロボットアームからの動作ラベル付き視覚経験を処理することができます。このデータは、シミュレーションおよび実機のロボットアームから得られた多様なモーター制御スキルを網羅し、観測と動作のセットが異なる環境に及びます。RoboCatを用いることで、新しいタスクやロボットへのゼロショットでの汎化能力、およびターゲットタスクに対してわずか100〜1000例の適応のみで学習する能力を実証します。また、訓練済みモデル自体が後続の訓練イテレーションのためのデータ生成に使用できることを示し、自律的な改善ループの基本的な構成要素を提供します。シミュレーションおよび3種類の実機ロボットを用いた大規模な評価を通じて、エージェントの能力を調査しました。その結果、訓練データを拡大し多様化させることで、RoboCatはタスク間での転移を示すだけでなく、新しいタスクへの適応効率も向上することが明らかになりました。
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を発揮しています。基盤となるLLMから指示追従型LLMへと進化する中で、指示チューニングはLLMを人間の好みに合わせる上で重要な役割を果たします。しかし、既存のLLMは通常英語に焦点を当てており、非英語言語での性能が劣る傾向にあります。非英語言語の性能を向上させるためには、基盤LLM向けの言語固有のトレーニングデータを収集し、指示チューニング用の言語固有の指示を構築する必要がありますが、これらは多大な負荷を伴います。人間の作業負荷を最小限に抑えるため、我々はインタラクティブ翻訳タスクを通じて、英語から他の言語への言語生成能力と指示追従能力を転移することを提案します。我々はLLaMAを基盤LLMとして利用し、インタラクティブ翻訳指示を自動構築することで、指示追従型LLMであるBayLingを開発しました。広範な評価により、BayLingはGPT-3.5-turboと同等の性能を達成しつつ、わずか130億パラメータという大幅に小さいサイズで実現されていることが示されました。翻訳タスクにおける実験結果では、BayLingは自動評価においてGPT-4の単一ターン翻訳能力の95%、人間評価においてGPT-3.5-turboのインタラクティブ翻訳能力の96%を達成しています。一般的なタスクでの性能を推定するため、我々はBayLing-80というマルチターン指示テストセットを作成しました。BayLing-80での実験結果は、BayLingがGPT-3.5-turboの性能の89%を達成していることを示しています。また、BayLingは中国の高考と英語のSATの知識評価においても優れた性能を示し、多数の指示追従型LLMの中でGPT-3.5-turboに次ぐ結果を出しています。BayLingのデモ、ホームページ、コード、およびモデルは公開されています。
コード言語モデル(LMs)は、生成対象の周辺コードが十分なコンテキストを提供する場合に良好に機能します。しかし、他のモジュールやライブラリで定義された型や機能、特にトレーニング中に見られなかったものを使用する必要がある場合には、これは当てはまりません。LMsは、そのようなグローバルコンテキストに対する認識が限られており、結果として誤った型を使用するなど、幻覚を起こすことがあります。最近の研究では、グローバル情報を取得してローカルコンテキストを補強することでこの問題を克服しようとしています。しかし、これによりプロンプトが肥大化したり、アーキテクチャの変更や追加のトレーニングが必要になったりします。 統合開発環境(IDEs)は、静的解析を使用して開発者の手元にグローバルコンテキストをもたらすことで、開発者を支援します。私たちは、この支援をLMsにも拡張します。私たちは、バックグラウンドで静的解析を使用してデコードをガイドするモニターの概念を提案します。事前取得とは異なり、静的解析はデコードプロセス全体を通じて反復的に呼び出され、必要に応じて最も関連性の高い提案を提供します。私たちは、LMがオブジェクトの参照解除を行うコードを生成する際に、識別子の型一貫性を監視することで、この提案の有用性を実証します。 私たちのアプローチを評価するために、開発環境を含むオープンソースプロジェクトのデータセットであるPragmaticCodeをキュレーションしました。さまざまなパラメータスケールのモデルにおいて、モニターガイド付きデコードが、LMがグラウンドトゥルースに一致する識別子を生成する能力だけでなく、コンパイル率やグラウンドトゥルースとの一致率も向上させることを示します。私たちは、パラメータが少ないLMsが、私たちのモニターのガイドを受けることで、より大きなLMsを上回ることができることを発見しました。モニターガイド付きデコードにより、SantaCoder-1.1Bは、はるかに大きなtext-davinci-003モデルよりも優れたコンパイル率と次の識別子の一致率を達成します。データセットとコードはhttps://aka.ms/monitors4codegenで公開されます。
メモリ拡張は、外部情報を言語モデルに効率的に組み込むための強力なアプローチですが、テキスト検索と比較して性能が低下するという課題があります。最近の研究では、LUMENというメモリ検索ハイブリッド手法が提案され、メモリを部分的に事前計算し、より小型のライブエンコーダーを用いてメモリ表現をリアルタイムで更新する方法が示されました。 本研究では、GLIMMERを提案します。この手法は以下の2つの点でLUMENを改良しています。1) 強力なメモリ表現への自由なアクセスを活用し、メモリ上に浅いリランカーを適用することで、低コストで検索品質を大幅に向上させること、2) マルチタスク学習を組み込むことで、より汎用的で高品質なメモリとライブエンコーダーを学習することです。GLIMMERは、知識集約型タスクのベンチマークであるKILTにおいて、LUMENやFiDと比較して、より高速で大幅な性能向上を達成しています。
大規模な視覚言語モデル(VLM)は、言語ガイド付き検索アプリケーションにおいて印象的な結果を示しています。これらのモデルはカテゴリレベルのクエリを可能にしますが、現在のところ、「私の犬ビスケット」のような特定のオブジェクトインスタンスが登場するビデオの瞬間をパーソナライズして検索するには課題があります。この問題に対処するため、以下の3つの貢献を提示します。まず、事前学習済みのVLMをメタパーソナライズする方法、つまり、テスト時にVLMをパーソナライズしてビデオ内を検索する方法を学習する手法を説明します。この手法では、各インスタンスに固有の新しい単語埋め込みを学習することで、VLMのトークン語彙を拡張します。インスタンス固有の特徴のみを捉えるため、各インスタンス埋め込みを共有されたグローバルカテゴリ特徴と学習された特徴の組み合わせとして表現します。次に、明示的な人間の監督なしでこのようなパーソナライズを学習することを提案します。このアプローチでは、VLMの埋め込み空間におけるトランスクリプトと視覚言語の類似性を使用して、ビデオ内の名前付き視覚インスタンスの瞬間を自動的に特定します。最後に、パーソナルビデオインスタンス検索ベンチマークであるThis-Is-Myを紹介します。This-Is-MyとDeepFashion2でこのアプローチを評価し、後者のデータセットにおいて最新技術に対して15%の相対的改善を達成することを示します。
マルチトラック音楽トランスクリプションは、音楽オーディオ入力を複数の楽器の音符に同時に変換することを目的としています。これは非常に困難なタスクであり、満足のいく結果を得るためには通常、より複雑なモデルが必要となります。さらに、従来の研究は主に通常の楽器のトランスクリプションに焦点を当てており、ボーカルを無視する傾向がありますが、ボーカルは音楽作品において最も重要な信号源であることが多いです。本論文では、マルチトラックトランスクリプションのためにオーディオ入力の時間-周波数表現をモデル化する新しい深層ニューラルネットワークアーキテクチャ、Perceiver TFを提案します。Perceiver TFは、Perceiverアーキテクチャを拡張し、時間的整合性をモデル化するための追加のTransformer層を導入することで階層的拡張を行います。これにより、提案モデルはPerceiverの利点を継承し、スケーラビリティが向上し、単一のモデルで多くの楽器のトランスクリプションをうまく処理できるようになります。実験では、Perceiver TFを12の楽器クラスおよびボーカルをマルチタスク学習方式でモデル化するように訓練しました。その結果、提案システムが様々な公開データセットにおいて、最新の手法(例:MT3やSpecTNT)を上回る性能を示すことが確認されました。