翻訳付きの日次キュレーションされたAI研究論文
テキストから画像への生成は、現代のコンピュータビジョンにおける重要な領域であり、生成アーキテクチャの進化を通じて大幅な改善が達成されてきました。その中でも、拡散ベースのモデルは本質的な品質向上を示しています。これらのモデルは一般に、ピクセルレベルと潜在レベルのアプローチの2つのカテゴリに分類されます。本論文では、Kandinsky1という新しい潜在拡散アーキテクチャの探求を紹介します。これは、画像事前モデルの原理と潜在拡散技術を組み合わせたものです。画像事前モデルは、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために別途訓練されます。提案モデルのもう一つの特徴は、画像オートエンコーダコンポーネントとして機能する改良版MoVQの実装です。全体として、設計されたモデルは33億のパラメータを含みます。また、テキストから画像生成、画像融合、テキストと画像の融合、画像バリエーション生成、テキストガイドによるインペインティング/アウトペインティングなど、多様な生成モードをサポートするユーザーフレンドリーなデモシステムを展開しました。さらに、Kandinskyモデルのソースコードとチェックポイントを公開しました。実験的評価では、COCO-30KデータセットにおいてFIDスコア8.03を達成し、測定可能な画像生成品質の点でトップのオープンソースパフォーマーとして位置づけられました。
大規模マルチモーダルモデル(LMM)は最近、視覚的指示チューニングにおいて有望な進展を示しています。本稿では、LLaVAにおける完全接続型の視覚-言語クロスモーダルコネクタが驚くほど強力でデータ効率が高いことを示します。LLaVAに簡単な修正を加えることで、具体的には、MLP投影を伴うCLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを単純な応答フォーマットプロンプトと共に追加することで、11のベンチマークにおいて最先端の性能を達成するより強力なベースラインを確立しました。最終的な13Bチェックポイントは、わずか120万の公開データを使用し、単一の8-A100ノードで約1日で完全なトレーニングを完了します。これにより、最先端のLMM研究がよりアクセスしやすくなることを期待しています。コードとモデルは公開される予定です。
最近リリースされたGPT-4 Code Interpreterは、自然言語での推論、コード生成、コード実行、そして実行結果に基づいた継続的な推論をシームレスに行う能力により、難解な数学問題を解決する際に顕著な能力を発揮しています。本論文では、オープンソースの言語モデルを微調整し、数学方程式のモデリングと導出にコードを使用できるようにすることで、数学的推論能力を向上させる手法を提案します。我々は、数学問題とそのコードベースの解決策を含む新規で高品質なデータセットを生成する方法を考案し、これをMathCodeInstructと名付けました。各解決策は、自然言語、コード、実行結果を交互に織り交ぜた形式を取ります。また、カスタマイズされた教師あり微調整と推論手法を導入しました。この手法により、難解な数学問題を解決するためのコードベースの解決策を生成できるMathCoderモデル群が得られました。驚くべきことに、MathCoderモデルは、MATH(45.2%)とGSM8K(83.9%)データセットにおいて、オープンソースのLLMの中で最先端のスコアを達成し、他のオープンソースの代替モデルを大幅に上回りました。特に、MathCoderモデルは、GSM8KとMATHにおいてChatGPT-3.5とPaLM-2を凌駕するだけでなく、競技レベルのMATHデータセットにおいてGPT-4をも上回る性能を示しました。データセットとモデルは、https://github.com/mathllm/MathCoder で公開されます。
テキストから画像を生成する拡散モデルは、大規模な教師なしまたは弱教師ありのテキスト-画像トレーニングデータセットを活用し、最近画像生成の最前線に立っています。教師なしトレーニングの性質上、人間が知覚する画像品質の最大化、画像とテキストの整合性、倫理的な画像生成といった下流タスクにおける振る舞いを制御することは困難です。最近の研究では、拡散モデルを下流の報酬関数にファインチューニングするために、勾配推定器の高分散で知られる単純な強化学習が用いられています。本論文では、ノイズ除去プロセスを通じて報酬勾配をエンドツーエンドで逆伝播させることで、拡散モデルを下流の報酬関数に整合させるAlignPropという手法を提案します。このような逆伝播を素朴に実装すると、現代のテキスト-画像モデルの偏微分を保存するために膨大なメモリリソースが必要となりますが、AlignPropは低ランクアダプタ重みモジュールをファインチューニングし、勾配チェックポイントを使用することで、メモリ使用量を実用的な範囲に収めます。AlignPropを、画像とテキストの意味的整合性、美的感覚、圧縮性、存在するオブジェクト数の制御可能性、およびそれらの組み合わせといった様々な目的に対して拡散モデルをファインチューニングする際にテストしました。その結果、AlignPropは代替手法よりも少ないトレーニングステップでより高い報酬を達成し、概念的にも単純であるため、微分可能な関心のある報酬関数に対して拡散モデルを最適化するための直截な選択肢となることを示しました。コードと可視化結果はhttps://align-prop.github.io/で公開されています。
言語モデル(LM)は、様々な生成タスクを処理する能力を実証してきた。本論文では、従来のタスク特化型アプローチとは異なり、LM技術を活用して与えられた入力条件に基づいて複数種類のオーディオ(音声、音響、音楽、歌唱を含む)を生成するUniAudioシステムを提案する。UniAudioは、1) まず、ターゲットオーディオの全ての種類を他の条件モダリティと共にトークン化し、2) ソースとターゲットのペアを単一のシーケンスとして連結し、3) LMを使用して次のトークンを予測する。また、トークン化における残差ベクトル量子化ベースのニューラルコーデックによって引き起こされる過度に長いシーケンスを処理するために、マルチスケールTransformerモデルを提案する。UniAudioのトレーニングは、全ての生成タスクに基づいて165K時間のオーディオと1Bパラメータにスケールアップされ、オーディオの内在的特性だけでなく、オーディオと他のモダリティ間の相互関係についても十分な事前知識を得ることを目指している。そのため、トレーニングされたUniAudioモデルは、ユニバーサルオーディオ生成の基盤モデルとなる可能性を秘めている:全てのトレーニングされたタスクにおいて強力な能力を示し、簡単なファインチューニング後に新しいオーディオ生成タスクをシームレスにサポートできる。実験結果は、UniAudioが11のタスクのほとんどにおいて最先端または少なくとも競争力のある結果を達成することを示している。デモとコードはhttps://github.com/yangdongchao/UniAudioで公開されている。
大規模言語モデル(LLM)の多くは、一度訓練された後は更新されることがないため、刻一刻と変化する世界に動的に対応する能力を欠いています。本研究では、現在の世界知識を試す質問に対する回答という文脈において、LLMが生成するテキストの事実性について詳細な調査を行います。具体的には、急速に変化する世界知識を必要とする質問や、誤った前提を否定する必要がある質問など、多様な質問と回答タイプを網羅した新しい動的QAベンチマーク「FreshQA」を導入します。閉鎖型およびオープンソースの多様なLLMを、正しさと幻覚(hallucination)の両方を測定できる二段階評価手順でベンチマークします。5万件以上の人間による評価を通じて、これらのモデルの限界を明らかにし、改善の余地が大きいことを示します。例えば、すべてのモデル(モデルサイズに関わらず)は、急速に変化する知識や誤った前提を含む質問に苦戦します。これらの結果に基づき、検索エンジンから取得した関連性の高い最新情報をプロンプトに組み込むことで、LLMのFreshQAにおけるパフォーマンスを大幅に向上させるシンプルなFew-shotプロンプト手法「FreshPrompt」を提案します。実験結果から、FreshPromptは、Self-Ask(Press et al., 2022)のような競合する検索エンジン補完型プロンプト手法や、Perplexity.AIのような商用システムを上回ることが示されました。FreshPromptのさらなる分析から、取得した証拠の数とその順序が、LLMが生成する回答の正しさに重要な役割を果たすことが明らかになりました。また、LLMに簡潔で直接的な回答を生成するよう指示することは、より冗長な回答を促す場合と比べて、幻覚を減らすのに役立ちます。今後の研究を促進するため、FreshQAをgithub.com/freshllms/freshqaで公開し、定期的に更新することを約束します。
現在の視覚-言語生成モデルは、最適な性能と汎化能力を達成するために、大規模な画像-テキストペアデータセットに依存しています。しかし、自動的にそのようなデータを収集する(例えば、大規模なウェブスクレイピングを通じて)と、品質が低く、画像とテキストの相関が弱いという問題が生じます。一方、人間によるアノテーションはより正確ですが、多大な手作業と費用を必要とします。本論文では、ITIT(InTegrating Image Text)を紹介します。これは、サイクル一貫性の概念に基づいた革新的なトレーニングパラダイムであり、ペアになっていない画像とテキストデータを用いて視覚-言語トレーニングを可能にします。ITITは、結合された画像-テキストエンコーダと分離された画像およびテキストデコーダで構成され、単一のフレームワーク内で双方向の画像からテキスト、およびテキストから画像の生成を実現します。トレーニング中、ITITは少量のペア画像-テキストデータを活用して、出力が入力と両方向で合理的に一致することを保証します。同時に、モデルは画像のみまたはテキストのみを含むはるかに大規模なデータセットでもトレーニングされます。これは、元のペアになっていないサンプルとサイクル生成された対応物との間にサイクル一貫性を強制することで実現されます。例えば、入力画像に対してキャプションを生成し、そのキャプションを使用して出力画像を作成し、入力画像と出力画像の類似性を強制します。実験結果は、ペアになっていないデータセットを用いたITITが、高品質なペアデータを使用した場合と同様のスケーリング挙動を示すことを示しています。また、ITITは、ペア画像-テキストデータが桁違いに少ない(わずか300万)場合でも、最先端のテキストから画像および画像からテキストモデルと同等の画像生成およびキャプショニング性能を実現します。
人間のフィードバックによる強化学習(RLHF)を用いて大規模言語モデルを調整することに大きな成功が報告されています。オープンソースの選好データセットと報酬モデルにより、一般的なチャット設定を超えた幅広い実験が可能となり、特にウェブ質問応答、要約、多ターン対話などのタスクにおいてシステムをより「役立つ」ものにする取り組みが進められています。役立ちを最適化する際、RLHFがモデルに長い出力を生成させる傾向が一貫して観察されています。本論文では、応答の長さを最適化することが、これらの設定で報告されているRLHFの改善の重要な要因であることを示します。まず、役立ちに関する3つのオープンソース選好データセットで訓練された報酬モデルにおける報酬と長さの関係を調査します。ここでは、長さが報酬と強く相関し、報酬スコアの改善は主に出力長の分布のシフトによってもたらされることがわかります。次に、RLと報酬モデルの学習中に介入を行い、長さを増やさずにRLHFと同様の下流改善を達成できるかどうかを探ります。介入により長さの増加は緩和されますが、すべての設定で一様に効果的ではありません。さらに、長さのみに基づく報酬でRLHFを実行しても、初期のポリシーモデルに対する下流改善の大部分を再現できることがわかり、これらの設定における報酬モデルにはまだ改善の余地が大きいことが示されました。
ウェブ上でタスクを実行することは、大規模言語モデル(LLM)にとって根本的な課題を提示します。これには、組み合わせ的に膨大なオープンワールドタスクや、ウェブインターフェース間の多様性が含まれます。すべての可能な動作と状態を処理するために単に大きなプロンプトを指定することは非常に複雑であり、無関係な動作間での動作漏れを引き起こします。異なるポリシーへの分解はこの課題に対処できますが、ポリシー間の制御を慎重に引き継ぐ必要があります。私たちは、ウェブアクションのためのスタック型LLMポリシー(SteP)を提案します。これは、多様なウェブタスクを解決するためにポリシーを動的に構成するアプローチです。StePは、制御状態(つまり、ポリシー呼び出しの連鎖)を表すポリシーのスタックを状態とするマルコフ決定過程を定義します。従来の方法が静的な階層に制限されるのに対し、StePはタスクの複雑さに適応する動的制御を可能にします。私たちは、StePを複数のベースラインおよびウェブ環境(WebArena、MiniWoB++、CRMを含む)に対して評価しました。WebArenaでは、StePはGPT-4ポリシーを使用するSOTAに対して14.9%から33.5%の改善を示し、MiniWoB++では、大幅に少ないデータを使用しながらも、従来の研究と競争力のある結果を示しました。私たちのコードとデータはhttps://asappresearch.github.io/webagents-stepで公開されています。
我々はDragViewを紹介する。これは未見のシーンにおける新規視点を生成するための革新的でインタラクティブなフレームワークである。DragViewは単一のソース画像から新規視点を初期化し、レンダリングはポーズ情報のないマルチビュー画像の疎集合によってサポートされ、これら全てが単一のフォワードパスでシームレスに実行される。我々のアプローチは、ユーザーがローカル相対座標系を通じてソースビューをドラッグすることから始まる。サンプリングされた3D点をターゲット光線に沿ってソースビューに投影することで、ピクセル位置合わせされた特徴量を取得する。次に、投影中のオクルージョンを効果的に処理するために、視点依存の変調層を組み込む。さらに、エピポーラ注意機構を全てのソースピクセルに拡張し、他のポーズ情報のないビューから初期化された座標位置合わせ点特徴量の集約を容易にする。最後に、別のトランスフォーマーを使用して光線特徴量を最終的なピクセル強度にデコードする。重要な点として、我々のフレームワークは2D事前モデルやカメラポーズの明示的な推定に依存しない。テスト時には、DragViewはトレーニング中に見られなかった新規シーンへの一般化能力を示し、またポーズ情報のないサポート画像のみを利用することで、柔軟なカメラ軌跡を特徴とするフォトリアルな新規視点の生成を可能にする。実験では、ポーズフリー条件下で動作する最近のシーン表現ネットワークや、ノイズの多いテストカメラポーズに晒された一般化可能なNeRFと比較し、DragViewの性能を包括的に評価する。DragViewは一貫して視点合成の品質において優れた性能を示し、同時によりユーザーフレンドリーであることを実証している。プロジェクトページ: https://zhiwenfan.github.io/DragView/