翻訳付きの日次キュレーションされたAI研究論文
テキストガイドによる画像編集は、個人利用からPhotoshopのような専門的なアプリケーションまで、日常生活において広く必要とされています。しかし、既存の手法はゼロショットか、自動的に合成されたデータセットで学習されており、そのデータセットには大量のノイズが含まれています。そのため、実際に望ましい結果を得るためには、多くの手動調整が必要です。この問題を解決するため、私たちはMagicBrush(https://osu-nlp-group.github.io/MagicBrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーといった多様なシナリオをカバーする、初の大規模な手動アノテーションによる指示ガイド付き実画像編集データセットです。MagicBrushは、10,000以上の手動アノテーションされたトリプル(ソース画像、指示、ターゲット画像)で構成されており、大規模なテキストガイド付き画像編集モデルの学習をサポートします。私たちはInstructPix2PixをMagicBrushでファインチューニングし、新しいモデルが人間評価においてはるかに優れた画像を生成できることを示します。さらに、定量的、定性的、人間評価を含む多角的な観点から、現在の画像編集ベースラインを評価するための広範な実験を行います。その結果、私たちのデータセットの挑戦的な性質と、現在のベースラインと現実世界の編集ニーズとのギャップが明らかになります。
大規模言語モデル(LLMs)は自然言語処理(NLP)に革命をもたらしましたが、その訓練には膨大なGPUリソースが必要です。LLMsの訓練のハードルを下げることは、研究者のより広範な参加を促し、学界と社会の両方に利益をもたらすでしょう。既存のアプローチは、少数のパラメータを調整または追加するパラメータ効率的なファインチューニングに焦点を当ててきましたが、限られたリソースでLLMsの全パラメータを調整する課題に取り組んだものはほとんどありません。本研究では、メモリ使用量を削減するために、勾配計算とパラメータ更新を1ステップに融合した新しいオプティマイザ、LOw-Memory Optimization(LOMO)を提案します。LOMOを既存のメモリ節約技術と統合することで、標準的なアプローチ(DeepSpeedソリューション)と比較してメモリ使用量を10.8%に削減しました。その結果、8台のRTX 3090(各24GBメモリ)を搭載した単一マシンで65Bモデルの全パラメータファインチューニングが可能になりました。
大規模言語モデル(LLM)はコード生成において顕著な能力を示しているが、難しいプログラミングタスクでは依然として苦戦している。自己修復(self-repair)——モデルが自身のコードの誤りをデバッグし修正するプロセス——は、最近、こうした状況でのパフォーマンス向上のための人気のある手法となっている。しかし、自己修復がどのように、そしてどのような場合に効果的に機能するかについての研究は文献上非常に限られており、モデルが自身で生成したコードについて、なぜそのコードが間違っているのか正確なフィードバックを提供できるのか、どの程度まで可能なのか疑問が残る。本論文では、GPT-3.5とGPT-4の自己修復能力を、多様なコーディング課題からなる難易度の高いデータセットAPPSにおいて分析する。そのために、まず、モデルからサンプリングされたトークン総数に対するタスクの合格率を測定する新しい評価戦略「pass@t」を確立し、純粋なサンプリングベースのアプローチとの公平な比較を可能にする。この評価戦略を用いて、自己修復の有効性はGPT-4でのみ見られることを明らかにした。また、自己修復はフィードバック段階でボトルネックになっていることが観察された。GPT-3.5が生成したプログラムに対してGPT-4を使用してフィードバックを与え、GPT-4が生成したプログラムに対して専門の人間プログラマーがフィードバックを与えることで、大幅なパフォーマンス向上が実現された。
AvatarBoothを紹介します。これは、テキストプロンプトや特定の画像を用いて高品質な3Dアバターを生成する新しい手法です。従来の手法が単純なテキスト記述に基づいてアバターを合成するのみであったのに対し、本手法では、カジュアルに撮影された顔や身体の画像からパーソナライズされたアバターを作成することが可能であり、同時にテキストベースのモデル生成と編集もサポートします。本手法の主な貢献は、人間の顔と身体に対して別々にファインチューニングされたデュアル拡散モデルを使用することで、アバター生成を精密に制御できる点です。これにより、顔の外観、衣服、アクセサリーなどの細部を捉え、非常にリアルなアバター生成を実現します。さらに、拡散モデルから合成された頭部画像のマルチビュー一貫性を向上させるために、最適化プロセスにポーズ一貫性制約を導入し、制御不能な人間のポーズによる干渉を排除します。加えて、3Dアバター生成の粗から細への監督を容易にするマルチ解像度レンダリング戦略を提示し、提案システムの性能を向上させます。生成されたアバターモデルは、追加のテキスト記述を用いて編集したり、モーションシーケンスによって駆動したりすることが可能です。実験結果から、AvatarBoothはテキストプロンプトや特定の画像からのレンダリングおよび幾何学的品質において、従来のテキストから3Dへの手法を凌駕することが示されています。プロジェクトの詳細はウェブサイト(https://zeng-yifei.github.io/avatarbooth_page/)をご覧ください。
本論文では、ロボティクスにおける自己教師ありの感覚運動事前学習手法を提案する。我々のモデル「RPT」は、感覚運動トークンのシーケンス上で動作するTransformerである。カメラ画像、ロボットのプロプリオセプティブ状態、および過去の行動のシーケンスが与えられた場合、これらを交互に並べたシーケンスをトークンにエンコードし、ランダムなサブセットをマスクした上で、マスクされた内容を予測するようにモデルを訓練する。ロボットが欠落した内容を予測できる場合、物理世界の良好なモデルを獲得し、行動を可能にすると仮定する。RPTは潜在的な視覚表現上で動作するように設計されており、予測を扱いやすくし、10倍大きなモデルへのスケーリングと、実機上での10Hzの推論を可能にする。本手法を評価するため、モーションプランニングとモデルベースの把持アルゴリズムを組み合わせて、9ヶ月間にわたって20,000の実世界の軌跡データセットを収集した。このデータを用いた事前学習は、スクラッチからの学習を一貫して上回り、ブロック積み上げタスクにおいて2倍の改善をもたらし、良好なスケーリング特性を示すことがわかった。
オープン語彙物体検出は、事前学習された視覚言語モデルから大きな恩恵を受けているが、利用可能な検出トレーニングデータの量によって依然として制限されている。検出トレーニングデータは、Web上の画像-テキストペアを弱い教師として使用することで拡張できるが、これは画像レベルの事前学習と同等の規模では行われていない。本研究では、既存の検出器を使用して画像-テキストペアに疑似ボックスアノテーションを生成する自己学習によって検出データをスケールアップする。自己学習をスケールアップする際の主要な課題は、ラベル空間の選択、疑似アノテーションフィルタリング、およびトレーニング効率である。これらの課題に対処するために、OWLv2モデルとOWL-ST自己学習レシピを提案する。OWLv2は、同等のトレーニング規模(約1000万例)において、以前の最先端のオープン語彙検出器の性能をすでに上回っている。しかし、OWL-STを使用することで、10億例以上にスケールアップすることが可能であり、さらなる大幅な改善が得られる:L/14アーキテクチャを使用した場合、OWL-STは、人間のボックスアノテーションが一切ないLVISの希少クラスにおけるAPを31.2%から44.6%に改善する(43%の相対的改善)。OWL-STは、画像分類や言語モデリングで見られたような、オープンワールドローカライゼーションのためのWebスケールのトレーニングを可能にする。
状態空間モデル(SSM)は、長距離依存性のモデリングを必要とするタスクにおいて、その準二次的な実行時間複雑性により、長いシーケンスに効率的にスケールするという印象的な結果を示してきた。元々は連続信号向けに設計されたSSMは、視覚や音声を含む多様なタスクで優れた性能を発揮しているが、言語モデリングタスクにおいては依然としてTransformerの性能に及ばない。本研究では、長距離の文脈化のためにSSMサブレイヤーを、シーケンスの短期的な表現のためにブロックTransformerサブレイヤーを内部に組み合わせた、Block-State Transformer(BST)というハイブリッド層を提案する。我々は、SSMとブロック単位の注意機構を統合した3つの異なる、かつ完全に並列化可能なバリエーションを検討する。我々のモデルが、言語モデリングのパープレキシティにおいて類似のTransformerベースのアーキテクチャを上回り、より長いシーケンスに一般化することを示す。さらに、Block-State Transformerは、モデルの並列化が適用された場合、Block-Recurrent Transformerと比較してレイヤーレベルで10倍以上の速度向上を実現する。
スケーリング則に関する研究では、大規模言語モデル(LMs)が、スケール(モデルサイズ、トレーニングデータ、計算資源)の増加に伴い、全体の損失が予測可能な形で改善されることが示されてきた。本論文では、LMsがスケールの増加に伴い逆スケーリング、すなわちタスク性能が悪化する可能性があるという主張を裏付ける証拠を提示する。これは、トレーニング目的やデータの欠陥などが原因となり得る。我々は、公開コンテスト「Inverse Scaling Prize」を開催し、その結果として収集された11のデータセットにおいて逆スケーリングの実証的証拠を示す。このコンテストは、高額の賞金プールを設けて実施された。データセットの分析を通じて、また文献から見つかった他の例と併せて、逆スケーリングの4つの潜在的な原因を特定した:(i) 文脈内の指示に従うよりも、記憶されたシーケンスを繰り返す傾向、(ii) トレーニングデータ内の望ましくないパターンの模倣、(iii) LMsがより難しい本来のタスクではなく、簡単なディストラクタータスクに集中してしまうタスク、(iv) タスクの正しいが誤解を招く少数ショットデモンストレーション。我々は、逆スケーリングのさらなる調査を可能にするため、優勝データセットをhttps://inversescaling.com/dataで公開した。我々のタスクは、U字型および逆U字型のスケーリングトレンドの発見を促進し、初期のトレンドが逆転することを示唆している。これは、スケーリングトレンドが、従来理解されていたよりも大規模モデルの挙動を予測する上で信頼性が低いことを示している。全体として、我々の結果は、モデルスケールの増加だけでは進歩につながらないタスクが存在し、言語モデルのトレーニングにおけるデータと目的についてより慎重な検討が必要であることを示唆している。
近年の研究では、大量のテキスト-音声ペアデータを用いたテキストから音声への合成が検討されてきた。しかし、高品質なテキスト注釈を伴う音声記録を取得することは困難である。本研究では、ラベルなしの動画と事前学習済みの言語-視覚モデルを用いて、テキストから音声への合成にアプローチする。視覚モダリティを橋渡しとして利用することで、目的とするテキスト-音声の対応関係を学習することを提案する。事前学習済みの対照的言語-画像事前学習(CLIP)モデルによってエンコードされた動画フレームを条件として、条件付き拡散モデルを訓練し、動画の音声トラックを生成する。テスト時には、まずゼロショットのモダリティ転移を実行し、CLIPでエンコードされたテキストクエリを条件として拡散モデルを適用する。しかし、画像クエリと比較して性能の低下が観察される。このギャップを埋めるために、事前学習済みの拡散事前モデルを採用し、CLIPテキスト埋め込みからCLIP画像埋め込みを生成する。提案手法の有効性を示し、事前学習済みの拡散事前モデルがモダリティ転移のギャップを縮小できることを示す。テキストから音声への合成に焦点を当てているが、提案モデルは画像クエリからも音声を生成でき、主観的な聴取テストにおいて最先端の画像から音声への合成モデルと競合する性能を示す。本研究は、動画に自然に存在する音声-視覚の対応関係と事前学習済みの言語-視覚モデルの力を活用した、テキストから音声への合成への新たな方向性を提供する。
大規模言語モデル(LLM)を展開する際には、有害な出力、例えば毒性のある発言や虚偽の発言などが危険をもたらす可能性があります。これまでの研究では、これらのリスクを特定し軽減するために、有害な出力を引き出すツールが導入されてきました。これは言語モデルの安全性を確保するための重要なステップではありますが、これらのアプローチは通常、望ましくない出力を識別するための既存の分類器に依存しています。これにより、その手法は、有害な行動の種類が事前に正確に把握されている状況に限定されてしまいます。しかし、これはレッドチーミングの中心的な課題、つまりモデルが示す可能性のある行動を文脈的に理解することを見落としています。さらに、そのような分類器が既に存在する場合、レッドチーミングの限界的な価値は低くなります。なぜなら、その分類器を単にトレーニングデータやモデルの出力をフィルタリングするために使用できるからです。本研究では、敵対者が望ましくない行動の高レベルで抽象的な仕様から作業しているという仮定の下でレッドチーミングを検討します。レッドチームは、この仕様を洗練・拡張し、モデルからその行動を引き出す方法を特定することが期待されます。私たちのレッドチーミングフレームワークは、以下の3つのステップで構成されています:1)望ましい文脈におけるモデルの行動を探索する、2)望ましくない行動の測定基準を確立する(例えば、人間の評価を反映するように訓練された分類器)、3)この測定基準と確立されたレッドチーミング手法を使用してモデルの欠陥を利用する。このアプローチをGPT-2およびGPT-3モデルに適用し、毒性や虚偽の発言を引き出すプロンプトのクラスを体系的に発見します。これにより、20,000のステートメントからなるCommonClaimデータセットも構築し、公開しました。これらのステートメントは、人間の被験者によって「常識的に真」「常識的に偽」「どちらでもない」とラベル付けされています。コードはhttps://github.com/thestephencasper/explore_establish_exploit_llmsで、CommonClaimはhttps://github.com/thestephencasper/common_claimで利用可能です。
人間は、シーンを構成要素的に理解する認知能力を持っています。AIシステムに同様の能力を与えるため、オブジェクト中心表現学習は、視覚シーンから個々のオブジェクトの表現を教師なしで獲得することを目指しています。最近のオブジェクト中心表現学習の進展は、複雑な合成データセットにおいて目覚ましい進歩を遂げましたが、複雑な実世界シーンへの応用には大きな課題が残されています。その主な理由の一つは、オブジェクト中心表現学習手法に特化した実世界データセットの不足です。この問題を解決するため、我々はOCTScenesと呼ばれる、テーブル上のシーンを対象とした汎用的な実世界データセットを提案します。このデータセットは、オブジェクト中心表現学習手法の比較、評価、分析のためのベンチマークとして綿密に設計されています。OCTScenesは、15種類の日常的なオブジェクトを含む5000のテーブル上シーンで構成されており、各シーンは360度の視点をカバーする60フレームで撮影されています。その結果、OCTScenesは、静的シーン、動的シーン、マルチビューシーンのタスクにわたるオブジェクト中心表現学習手法の評価を同時に満たす汎用的なベンチマークデータセットとなっています。OCTScenes上で、静的、動的、マルチビューシーンに対するオブジェクト中心表現学習手法の広範な実験が行われました。その結果、最先端の手法が複雑な合成データセットでは印象的な性能を示す一方で、実世界データから意味のある表現を学習する上での欠点が明らかになりました。さらに、OCTScenesは、既存の最先端手法を進化させる触媒として機能し、それらが実世界シーンに適応することを促すことができます。データセットとコードはhttps://huggingface.co/datasets/Yinxuan/OCTScenesで公開されています。
本論文では、CAJunという新しい階層型学習・制御フレームワークを提案します。このフレームワークは、脚式ロボットが適応的な跳躍距離で連続的にジャンプすることを可能にします。CAJunは、高レベルの重心制御ポリシーと低レベルの脚制御器で構成されています。特に、強化学習(RL)を用いて重心制御ポリシーを訓練し、このポリシーは脚制御器に対して歩容タイミング、ベース速度、およびスイング脚の位置を指定します。脚制御器は、歩容タイミングに従ってスイング脚とスタンス脚のモーターコマンドを最適化し、最適制御を用いてスイング脚の目標位置とベース速度コマンドを追跡します。さらに、脚制御器内のスタンス脚最適化器を再定式化することで、ポリシー訓練を1桁高速化しました。本システムは、学習の汎用性と最適制御の堅牢性を組み合わせています。RLと最適制御手法を組み合わせることで、学習の汎用性を維持しつつ制御手法の堅牢性を享受し、実機への容易な転移を実現します。単一のGPUで20分間の訓練後、CAJunはGo1ロボット上でシミュレーションと実機のギャップが小さい状態で、適応的な距離での連続的な長距離ジャンプを達成できることを示します。さらに、ロボットは最大70cmの幅の溝を飛び越えることができ、これは既存の手法よりも40%以上広い幅です。