翻訳付きの日次キュレーションされたAI研究論文
会話型生成AIは、生物医学分野の実践者を支援する上で大きな可能性を示していますが、現在の研究は単一モダリティのテキストに焦点を当てています。マルチモーダル会話型AIは、一般ウェブから収集された数十億の画像-テキストペアを活用することで急速な進歩を遂げていますが、そのような汎用ドメインの視覚-言語モデルは、生物医学画像の理解と会話においてまだ洗練されていません。本論文では、生物医学画像に関するオープンエンドの研究質問に答えることができる視覚-言語会話アシスタントを、コスト効率よくトレーニングするアプローチを提案します。鍵となるアイデアは、PubMed Centralから抽出された大規模で広範な生物医学図表-キャプションデータセットを活用し、GPT-4を使用してキャプションからオープンエンドの指示追従データを自己生成し、新しいカリキュラム学習法を用いて大規模な汎用視覚-言語モデルを微調整することです。具体的には、モデルはまず図表-キャプションペアを使用して生物医学用語を整列させ、次にGPT-4が生成した指示追従データを使用してオープンエンドの会話的意味を習得します。これは、一般の人々が徐々に生物医学知識を習得するプロセスを模倣しています。これにより、8台のA100を使用して15時間未満で生物医学向け大規模言語・視覚アシスタント(LLaVA-Med)をトレーニングすることが可能です。LLaVA-Medは優れたマルチモーダル会話能力を示し、生物医学画像に関する問い合わせを支援するためにオープンエンドの指示に従うことができます。3つの標準的な生物医学視覚質問応答データセットにおいて、LLaVA-Medは特定の指標で従来の教師ありの最先端モデルを上回りました。生物医学マルチモーダル研究を促進するため、指示追従データとLLaVA-Medモデルを公開します。
事前学習済みの大規模テキスト画像生成モデルは、適切なテキストプロンプトを使用することで印象的な画像を合成します。しかし、自然言語に内在する曖昧さや分布外効果のため、特定のデザインパターン、テクスチャ、または素材を活用した画像スタイルを合成することは困難です。本論文では、テキスト画像生成モデルを用いて特定のスタイルを忠実に再現した画像を合成する手法、StyleDropを紹介します。提案手法は非常に汎用性が高く、ユーザーが提供したスタイルのニュアンスや詳細(カラースキーム、シェーディング、デザインパターン、局所的および全体的な効果など)を的確に捉えます。また、非常に少ない学習可能なパラメータ(モデル全体のパラメータの1%未満)を微調整し、人間または自動化されたフィードバックを用いた反復学習を通じて品質を向上させることで、効率的に新しいスタイルを学習します。さらに、StyleDropはユーザーが目的のスタイルを指定する単一の画像のみを提供する場合でも、印象的な結果を提供することが可能です。広範な研究により、テキスト画像生成モデルのスタイルチューニングタスクにおいて、Muse上で実装されたStyleDropが、ImagenやStable Diffusion上のDreamBoothやテキスト反転などの他の手法を明らかに上回ることが示されています。詳細な結果はプロジェクトウェブサイト(https://styledrop.github.io)でご覧いただけます。
我々は、Atari 100Kベンチマークにおいて人間を超える性能を達成する価値ベースのRLエージェント「BBF」を紹介する。BBFは、価値推定に使用するニューラルネットワークのスケーリングに依存しており、さらにこのスケーリングをサンプル効率的に実現するためのいくつかの設計選択を行っている。我々はこれらの設計選択について詳細な分析を行い、今後の研究に向けた洞察を提供する。最後に、ALEにおけるサンプル効率的なRL研究の目標を更新することについて議論する。我々のコードとデータは、https://github.com/google-research/google-research/tree/master/bigger_better_faster で公開されている。
Stable Diffusionのような拡散モデルによって生成された画像がますます広まっています。最近の研究や訴訟から、これらのモデルがユーザーに知られることなく訓練データを複製しやすいことが明らかになっています。本論文では、まずテキストから画像への拡散モデルにおけるこの記憶化問題を分析します。訓練セット内の重複画像が推論時のコンテンツ複製の原因であると広く信じられていますが、モデルのテキスト条件付けも同様に重要な役割を果たしていることが観察されます。実際、私たちの実験では、無条件モデルではデータ複製が起こらないことが多いのに対し、テキスト条件付きの場合ではそれが一般的であることが分かります。この発見に基づき、訓練セット内の画像キャプションをランダム化および拡張することで、訓練時と推論時の両方でデータ複製を減らすためのいくつかの技術を提案します。
Transformerは、最先端の自然言語処理モデルの基盤として登場し、幅広いAIアプリケーションで卓越した性能を発揮しています。しかし、Transformerの自己注意機構と大規模なフィードフォワードネットワークがもたらすメモリ要求は、長いシーケンスを処理する能力を制限し、複数の長いシーケンスや長期的な依存関係を伴うタスクにおいて課題を生み出しています。本論文では、ブロック単位の自己注意計算とフィードフォワードネットワークの融合を活用してメモリコストを最小化する、Blockwise Parallel Transformer(BPT)という独自のアプローチを提案します。BPTは、メモリ効率を維持しながらより長い入力シーケンスを処理することで、従来のTransformerと比べて最大32倍、既存のメモリ効率化手法と比べて2~4倍長いシーケンスの学習を可能にします。言語モデリングと強化学習タスクにおける広範な実験を通じて、BPTがメモリ要件を削減し、性能を向上させる効果を実証しています。
大規模言語モデル(LLM)の急速な台頭を踏まえ、我々は以下の問いを研究する:大規模言語モデルは、科学論文や研究提案の査読においてどのように役立つのか?まず、いくつかのパイロット研究を実施し、(i) GPT-4が他のLLM(Bard、Vicuna、Koala、Alpaca、LLaMa、Dolly、OpenAssistant、StableLM)を上回ること、および(ii) 特定の質問(例えば、誤りを特定するよう促す)を提示することが、単にレビューを書くよう促すよりも優れていることを明らかにした。これらの知見をもとに、LLM(特にGPT-4)の使用を以下の3つのタスクで検討した: 1. **誤りの特定**:13の短い計算機科学論文を作成し、それぞれに意図的に誤りを挿入した。LLMにこれらの論文の正しさを確認させたところ、数学的および概念的な誤りを含む7つの論文で誤りを発見した。 2. **チェックリストの検証**:15のNeurIPS 2022論文の各セクションにおいて、16の閉じた質問からなるチェックリストをLLMに検証させた。119の{チェックリスト質問、論文}ペアにおいて、LLMは86.6%の精度を示した。 3. **「より優れた」論文の選択**:10組のアブストラクトを生成し、各組において一方が明らかに他方よりも優れているように設計した。しかし、LLMはこれらの比較的単純な区別を正確に見分けることに苦戦し、10組中6組で評価誤りを犯した。 これらの実験に基づき、LLMは特定の査読タスクにおいて有望なアシスタントとして活用できるが、論文や提案の完全な評価には(まだ)適していないと考えられる。
コントラスティブ・ランゲージ・イメージ事前学習(CLIP)は、ペアになった画像とテキストデータを使用して転移可能な視覚モデルを訓練するための最も効果的でスケーラブルな手法の一つとして知られています。CLIPモデルはコントラスティブ損失を用いて訓練されますが、これは通常、過学習やショートカットを防ぐためにデータ拡張に依存しています。しかし、CLIPの訓練パラダイムでは、データ拡張は画像入力にのみ適用され、言語入力は訓練プロセス全体を通じて変更されないため、同じ画像に対して多様なテキストが提示される機会が限られています。本論文では、言語の書き換えを通じてCLIP訓練を強化する、シンプルでありながら非常に効果的なアプローチであるLanguage augmented CLIP(LaCLIP)を紹介します。大規模言語モデルのインコンテキスト学習能力を活用して、各画像に関連付けられたテキスト記述を書き換えます。これらの書き換えられたテキストは、文構造や語彙の多様性を示しながらも、元のキーコンセプトと意味を保持しています。訓練中、LaCLIPは各画像に対して元のテキストまたは書き換えられたバージョンのいずれかをランダムに選択してテキスト拡張として使用します。CC3M、CC12M、RedCaps、LAION-400Mデータセットでの大規模な実験により、言語の書き換えを伴うCLIP事前学習が、訓練中の計算量やメモリオーバーヘッドを増やすことなく、転移性能を大幅に向上させることが示されました。特にImageNetのゼロショット精度において、LaCLIPはCC12Mで8.2%、LAION-400Mで2.4%の改善を達成しました。コードはhttps://github.com/LijieFan/LaCLIPで公開されています。
近年、テキスト指示による画像編集において大きな進展が見られています。しかし、これらの編集ツールを動的なシーン編集に適用する場合、2Dエディタのフレームごとの性質により、新しいスタイルのシーンは時間的な一貫性を欠く傾向があります。この問題を解決するため、我々は高忠実度かつ時間的に一貫した4Dポートレート編集を実現する新しいアプローチであるControl4Dを提案します。Control4Dは、効率的な4D表現と2D拡散ベースのエディタを基盤としています。エディタからの直接的な教師信号を使用する代わりに、我々の手法はそこから4D GANを学習し、一貫性のない教師信号を回避します。具体的には、編集された画像に基づいて生成分布を学習するディスクリミネータを採用し、その識別信号を用いてジェネレータを更新します。より安定した学習のため、編集された画像からマルチレベル情報を抽出し、ジェネレータの学習を促進します。実験結果は、Control4Dが従来のアプローチを凌駕し、よりフォトリアルで一貫性のある4D編集性能を達成することを示しています。プロジェクトウェブサイトへのリンクはhttps://control4darxiv.github.ioです。
オフライン強化学習(RL)は、オフラインデータセットから最適なポリシーを学習することを目的としており、ポリシーのパラメータ化が重要であるものの、しばしば見過ごされています。最近、Diffusion-QLは、ポリシーを拡散モデルで表現することで、オフラインRLの性能を大幅に向上させました。その成功は、数百ステップのパラメータ化されたマルコフ連鎖を用いたサンプリングに依存しています。しかし、Diffusion-QLには2つの重大な制限があります。1) 訓練中にマルコフ連鎖全体を順方向および逆方向に通過するのは計算効率が悪い。2) 拡散モデルの尤度が計算不可能であるため、最尤法に基づくRLアルゴリズム(例:ポリシー勾配法)と互換性がない。そこで、我々はこれらの2つの課題を克服するために、効率的な拡散ポリシー(EDP)を提案します。EDPは、訓練中にサンプリング連鎖を実行せずに、破損したアクションから近似してアクションを構築します。D4RLベンチマークで広範な実験を行いました。その結果、EDPはgym-locomotionタスクにおいて、拡散ポリシーの訓練時間を5日間から5時間に短縮できることが示されました。さらに、EDPは様々なオフラインRLアルゴリズム(TD3、CRR、IQL)と互換性があり、D4RLにおいて従来の手法を大幅に上回る新たな最先端の性能を達成することが示されました。我々のコードはhttps://github.com/sail-sg/edpで公開されています。
我々は、人間の再構築と時間経過に伴う追跡を行うアプローチを提案する。本アプローチの中核として、人間のメッシュ復元のためのネットワークを完全に「トランスフォーマー化」したバージョンを提示する。このネットワーク、HMR 2.0は、最先端の技術を進化させ、単一画像から過去に再構築が困難であった異常なポーズを分析する能力を示す。ビデオを分析するために、HMR 2.0からの3D再構築を3Dで動作する追跡システムへの入力として使用する。これにより、複数の人物を扱い、オクルージョンイベントを通じて同一性を維持することが可能となる。我々の完全なアプローチ、4DHumansは、単眼ビデオからの人物追跡において最先端の結果を達成する。さらに、HMR 2.0の有効性を、行動認識という下流タスクにおいて実証し、従来のポーズベースの行動認識アプローチを大幅に改善する。我々のコードとモデルは、プロジェクトウェブサイト(https://shubham-goel.github.io/4dhumans/)で公開されている。
私たちは「Human or Not?」という、チューリングテストに着想を得たオンラインゲームを発表しました。このゲームは、AIチャットボットが人間のように会話する能力と、人間がボットと他の人間を見分ける能力を測定するものです。1ヶ月にわたって、150万人以上のユーザーがこのゲームをプレイし、匿名の2分間チャットセッションに参加しました。セッションの相手は、別の人間か、人間のように振る舞うよう指示されたAI言語モデルのいずれかでした。プレイヤーの課題は、自分が話している相手が人間かAIかを正しく推測することでした。これまでで最大規模のチューリングスタイルのテストは、いくつかの興味深い事実を明らかにしました。例えば、全体としてユーザーはパートナーの正体を68%のゲームでしか正しく推測できませんでした。ユーザーがAIボットと対戦したゲームのサブセットでは、正答率はさらに低く60%(つまり、偶然と大差ないレベル)でした。このホワイトペーパーでは、このユニークな実験の開発、展開、および結果について詳述しています。この実験には多くの拡張と改良が必要ですが、これらの発見はすでに、人間とAIが混在する避けられない近未来に光を当て始めています。
大規模言語モデル(LLM)は、幅広い自然言語生成タスクにおいて顕著な成功を収めており、適切なプロンプト設計が大きな影響を与えることが知られています。既存のプロンプト手法は通常、正しい情報を提供することに限定されていますが、本論文では、モデルに熟考を促す新しい「熟考してから生成する(Deliberate then Generate: DTG)」プロンプトフレームワークを提案します。このフレームワークは、エラー検出の指示とエラーを含む可能性のある候補から構成されています。DTGは、最小限の修正でさまざまなテキスト生成タスクに適用できるシンプルでありながら効果的な技術です。要約、翻訳、対話など7つのテキスト生成タスクにわたる20以上のデータセットで広範な実験を行い、DTGが既存のプロンプト手法を一貫して上回り、複数のテキスト生成タスクで最先端の性能を達成することを示します。さらに、DTGの背後にあるメカニズムを詳細に分析し、LLMのためのプロンプト設計に関する今後の研究にインスピレーションを与える可能性を探ります。
手続き的計画立案とは、高レベルの目標を時間的に順序付けられた一連のステップに分解することを含む重要なタスクであり、機械にとっては複雑な課題です。これには、常識的知識を統合して、しばしば反事実的な複雑な文脈状況を推論することが含まれます。例えば、「電話なしで医者の予約を入れる」といった状況です。現在のアプローチでは、大規模言語モデル(LLM)を使用して有望な結果を示していますが、高額なAPIコストや再現性の問題といった欠点があります。本論文では、より小規模な言語モデルを使用した計画立案を提唱します。私たちはPlaSmaを紹介します。これは、小規模言語モデルに手続き的知識と(反事実的)計画立案能力を付与するための新しい二段階アプローチです。具体的には、小規模言語モデルの暗黙的知識を強化するための記号的手続き的知識蒸留と、より構造化された正確な推論を促進するための推論時アルゴリズムを開発しました。さらに、反事実的状況に対応するために計画を修正することを要求する新しいタスク、反事実的計画立案を導入します。元の設定と反事実的設定の両方において、桁違いに小さいモデル(770M-11Bパラメータ)が、より大きな教師モデルの能力に匹敵し、しばしばそれを上回ることを示します。