翻訳付きの日次キュレーションされたAI研究論文
テキストから画像生成の分野では、最近目覚ましい成果が報告されています。本論文では、高度に芸術的な画像を生成するテキスト条件付き画像拡散モデル「RAPHAEL」を提案します。このモデルは、複数の名詞、形容詞、動詞を含むテキストプロンプトを正確に描写します。これは、数十層のMixture-of-Experts(MoE)層、すなわち空間MoE層と時間MoE層を積み重ねることで実現されており、ネットワークの入力から出力まで数十億の拡散経路(ルート)を可能にします。各経路は、拡散タイムステップにおいて特定のテキスト概念を指定された画像領域に描画する「画家」として直感的に機能します。包括的な実験により、RAPHAELは、Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2などの最新の最先端モデルを、画像品質と美的魅力の両面で凌駕することが明らかになりました。まず、RAPHAELは、日本の漫画、リアリズム、サイバーパンク、インクイラストなど、多様なスタイル間での画像切り替えにおいて優れた性能を発揮します。次に、1,000台のA100 GPUで2ヶ月間トレーニングされた30億パラメータの単一モデルは、COCOデータセットにおいて6.61の最先端のゼロショットFIDスコアを達成しました。さらに、RAPHAELは、ViLG-300ベンチマークにおける人間評価においても、他のモデルを大幅に上回りました。我々は、RAPHAELが、学界と産業界の両方において画像生成研究のフロンティアを押し進め、この急速に進化する分野における将来のブレークスルーへの道を開く可能性を秘めていると考えています。詳細はプロジェクトのウェブページ(https://raphael-painter.github.io/)をご覧ください。
我々は、凍結されたテキスト専用の大規模言語モデル(LLM)と事前学習済みの画像エンコーダおよびデコーダモデルを、それらの埋め込み空間間のマッピングによって融合する手法を提案する。本モデルは、画像検索、新規画像生成、マルチモーダル対話など、幅広いマルチモーダル能力を実証する。我々のアプローチは、任意にインターリーブされた画像とテキスト入力を条件として、一貫性のある画像(およびテキスト)出力を生成する初めての手法である。画像生成において強力な性能を達成するために、LLMを既存のテキストから画像生成モデルに接続する効率的なマッピングネットワークを提案する。このマッピングネットワークは、テキストの隠れ表現を視覚モデルの埋め込み空間に変換し、LLMの強力なテキスト表現を視覚出力に活用することを可能にする。我々のアプローチは、より長く複雑な言語タスクにおいて、ベースライン生成モデルを上回る性能を示す。新規画像生成に加えて、本モデルは事前に指定されたデータセットからの画像検索も可能であり、推論時に検索するか生成するかを決定する。これは、LLMの隠れ表現を条件とする学習済みの決定モジュールによって行われる。本モデルは、従来のマルチモーダル言語モデルと比較して、より広範な能力を有する。画像とテキスト入力を処理し、検索された画像、生成された画像、および生成されたテキストを出力することができ、文脈依存性を測定するいくつかのテキストから画像タスクにおいて、非LLMベースの生成モデルを上回る性能を示す。
Stable Diffusionのような大規模なテキストから画像への拡散モデルは、コミュニティから大きな注目を集めています。これらのモデルは、低ランク適応(LoRA)を用いて新しい概念に容易にカスタマイズすることができます。しかし、複数の概念LoRAを活用して複数のカスタマイズされた概念を共同でサポートすることは、課題となっています。我々はこのシナリオを分散型マルチコンセプトカスタマイズと呼び、シングルクライアントの概念チューニングとセンターノードの概念融合を含みます。本論文では、Mix-of-Showという新しいフレームワークを提案し、既存のシングルクライアントLoRAチューニングに起因する概念の衝突やモデル融合中のアイデンティティの喪失といった、分散型マルチコンセプトカスタマイズの課題に取り組みます。Mix-of-Showは、シングルクライアントチューニングのために埋め込み分解型LoRA(ED-LoRA)を採用し、センターノードでは勾配融合を行うことで、単一概念のドメイン内の本質を保持し、理論上無制限の概念融合をサポートします。さらに、マルチコンセプトサンプリングにおける属性のバインドや欠落したオブジェクトの問題に対処するために、空間的に制御可能なサンプリング(例:ControlNetやT2I-Adaptor)を拡張した地域的に制御可能なサンプリングを導入します。広範な実験により、Mix-of-Showがキャラクター、オブジェクト、シーンを含む複数のカスタマイズされた概念を高忠実度で構成できることが実証されています。
Stable Diffusionは記述的なテキストからの画像生成に革命をもたらしました。GPT-2、GPT-3(.5)、そしてGPT-4は、さまざまな言語タスクで驚異的な性能を発揮しました。ChatGPTは、そのような言語モデルを一般大衆に紹介しました。現在、大規模言語モデル(LLM)が定着し、オンライン上のテキストと画像のエコシステム全体に劇的な変化をもたらすことは明らかです。本論文では、未来がどのようなものになるかを考察します。LLMがオンライン上の言語の大部分を担うようになったとき、GPT-{n}に何が起こるでしょうか?私たちは、モデル生成コンテンツをトレーニングに使用することが、結果として得られるモデルに不可逆的な欠陥を引き起こすことを発見しました。この欠陥は、元のコンテンツ分布の裾が消失するというものです。私たちはこの効果を「モデル認知症」と呼び、それが変分オートエンコーダー(VAE)、ガウス混合モデル(GMM)、そしてLLMで発生することを示します。この現象の背後にある理論的な直感を構築し、すべての学習済み生成モデルに普遍的に存在することを描き出します。私たちは、ウェブからスクレイピングされた大規模データからのトレーニングの利点を維持するためには、この現象を真剣に受け止める必要があることを示します。実際、LLMによって生成されたコンテンツがインターネットからクロールされたデータに存在する中で、システムとの真の人間の相互作用に関するデータの価値はますます高まるでしょう。
本論文は、大規模言語モデル(LLMs)がマルチモーダルツールを効率的に利用できるようにすることを目的としています。ChatGPTやGPT-4のような先進的なプロプライエタリLLMsは、高度なプロンプトエンジニアリングを通じてツール利用の大きな可能性を示しています。しかし、これらのモデルは通常、膨大な計算コストと公開されていないデータに依存しています。これらの課題に対処するため、我々は自己指導(self-instruct)に基づくGPT4Toolsを提案し、LLaMAやOPTのようなオープンソースLLMsがツールを利用できるようにします。これは、高度な教師モデルに様々なマルチモーダルコンテキストをプロンプトすることで、指示追従データセットを生成します。Low-Rank Adaptation(LoRA)最適化を使用することで、我々のアプローチはオープンソースLLMsが視覚理解や画像生成を含む様々な視覚問題を解決することを可能にします。さらに、LLMsがツールを利用する能力を評価するためのベンチマークを提供し、これはゼロショットとファインチューニングの両方の方法で行われます。広範な実験により、我々の手法が様々な言語モデルにおいて有効であることが示され、既知のツールを呼び出す精度を大幅に向上させるだけでなく、未知のツールに対するゼロショット能力も可能にします。コードとデモはhttps://github.com/StevenGrove/GPT4Toolsで利用可能です。
私たちは、脳活動から視覚画像を検索・再構築するための新しいfMRI-to-imageアプローチであるMindEyeを提案します。本モデルは、検索(コントラスティブ学習を使用)と再構築(拡散事前分布を使用)に特化した2つの並列サブモジュールで構成されています。MindEyeは、fMRIの脳活動をCLIP画像空間のような高次元マルチモーダル潜在空間にマッピングすることができ、この潜在空間からの埋め込みを受け入れる生成モデルを使用した画像再構築を可能にします。私たちは、定性的な並列比較と定量的な評価の両方を用いて、本アプローチを他の既存手法と包括的に比較し、MindEyeが再構築と検索の両タスクにおいて最先端の性能を達成することを示します。特に、MindEyeは非常に類似した候補の中からも正確に元の画像を検索することができ、その脳埋め込みが細かい粒度の画像固有の情報を保持していることを示しています。これにより、LAION-5Bのような大規模データベースからも正確に画像を検索することが可能です。私たちは、アブレーション実験を通じて、MindEyeの性能向上が、検索と再構築のための特化したサブモジュール、改良された学習技術、そして桁違いに多くのパラメータを持つモデルの学習に起因することを示します。さらに、別個のオートエンコーダからの出力を用いてimg2imgを使用することで、MindEyeが再構築において低レベルな画像特徴をより良く保持できることを示します。すべてのコードはGitHubで公開されています。
正確なストーリー可視化には、フレーム間の同一性の一貫性、平文と視覚的コンテンツの整合性、画像内のオブジェクトの合理的なレイアウトなど、いくつかの必要な要素があります。これまでの研究の多くは、同じスタイルとキャラクターを持つ一連のビデオ(例えば、FlintstonesSVデータセット)にテキストから画像(T2I)モデルを適合させることで、これらの要件を満たそうとしてきました。しかし、学習されたT2Iモデルは、新しいキャラクター、シーン、スタイルに適応するのが難しく、合成された画像のレイアウトを修正する柔軟性に欠けることが多いです。本論文では、複数の新しいキャラクターを扱い、レイアウトや局所的な構造の編集をサポートする、汎用的なインタラクティブなストーリー可視化システムを提案します。このシステムは、大規模なコーパスで訓練された大規模言語モデルとT2Iモデルの事前知識を活用して開発されています。システムは、ストーリーからプロンプト生成(S2P)、テキストからレイアウト生成(T2L)、制御可能なテキストから画像生成(C-T2I)、画像からビデオアニメーション(I2V)という4つの相互接続されたコンポーネントで構成されています。まず、S2Pモジュールは簡潔なストーリー情報を、後続の段階で必要な詳細なプロンプトに変換します。次に、T2Lはプロンプトに基づいて多様で合理的なレイアウトを生成し、ユーザーがレイアウトを調整および洗練する能力を提供します。中核となるC-T2Iコンポーネントは、レイアウト、スケッチ、およびアクター固有の識別子に導かれた画像の作成を可能にし、可視化全体で一貫性と詳細を維持します。最後に、I2Vは生成された画像をアニメーション化することで、可視化プロセスを豊かにします。提案システムの有効性とインタラクティブ編集の柔軟性を検証するために、広範な実験とユーザー調査が行われました。
大規模言語モデル(LLM)は、さまざまな自然言語間での翻訳性能において有望な結果を示しています。しかし、多くのLLM、特にBLOOMやLLaMAなどのオープンソースモデルは、英語を中心としており、数十の自然言語しかサポートしていないため、LLMの言語翻訳における可能性が十分に探求されていません。本研究では、20言語しかカバーしていないLLaMAを適応させ、100以上の言語に対応する多言語翻訳能力を強化したBigTransを提案します。BigTransはLLaMA-13Bを基盤として構築され、3つのステップで最適化されています。まず、大規模な中国語単一言語データを用いてLLaMAを継続学習します。次に、102の自然言語をカバーする大規模な並列データセットを用いてモデルを継続学習します。最後に、多言語翻訳指示を用いて基盤モデルを指示チューニングし、BigTransモデルを完成させます。多言語翻訳に関する予備実験では、BigTransは多くの言語においてChatGPTやGoogle翻訳と同等の性能を示し、8つの言語ペアではChatGPTを上回る結果を得ました。私たちはBigTransモデルを公開し、研究の進展に貢献することを期待しています。
自然言語処理タスクにおいて優れた能力を持つ大規模言語モデル(LLMs)が登場し、科学、金融、ソフトウェア工学など様々な分野で急速に応用されています。しかし、LLMsが化学分野を進展させる能力についてはまだ明らかではありません。本論文では、1)名称予測、2)特性予測、3)収率予測、4)反応予測、5)逆合成(生成物から反応物を予測)、6)テキストベースの分子設計、7)分子キャプショニング、8)試薬選択を含む8つの実践的な化学タスクからなる包括的なベンチマークを確立しました。我々の分析は、BBBP、Tox21、PubChem、USPTO、ChEBIなどの広く認知されたデータセットを活用し、実践的な化学の文脈におけるLLMsの能力を広範に探求します。3つのGPTモデル(GPT-4、GPT-3.5、Davinci-003)を、ゼロショットおよび少数ショットのインコンテキスト学習設定で各化学タスクに対して評価し、慎重に選ばれたデモンストレーション例と特別に設計されたプロンプトを使用しました。我々の調査の主な結果は以下の通りです:1)GPT-4は評価された3つのモデルの中で他の2つを上回る性能を示した、2)GPTモデルは、反応予測や逆合成など、分子のSMILES表現を正確に理解する必要があるタスクでは競争力のある性能を示さない、3)GPTモデルは、分子キャプショニングなどのテキスト関連の説明タスクにおいて強い能力を示す、4)GPTモデルは、特性予測や収率予測など、分類またはランキングタスクに変換可能な化学問題において、古典的な機械学習モデルと同等またはそれ以上の性能を示す。
現在のテキストから画像を生成するモデルは、特に空間的推論を必要とするテキスト指示に従うことが困難な場合が多い。一方、GPT-4のような大規模言語モデル(LLMs)は、テキスト入力をグラフィカルにスケッチするためのコードスニペットを生成する際に、驚くべき精度を示している(例:TikZを使用)。本研究では、Control-GPTを導入し、GPT-4によって生成されたプログラム的なスケッチを用いて、拡散ベースのテキストから画像へのパイプラインをガイドし、指示に従う能力を強化する。Control-GPTは、GPT-4にTikZコードを生成させることで動作し、生成されたスケッチはテキスト指示と共に拡散モデル(例:ControlNet)の参照として使用され、写真のようなリアルな画像を生成する。このパイプラインを訓練する上での主要な課題は、テキスト、画像、スケッチが整列したデータセットの欠如である。この問題を解決するため、既存のデータセットのインスタンスマスクをポリゴンに変換し、テスト時に使用されるスケッチを模倣する。その結果、Control-GPTは画像生成の制御性を大幅に向上させ、空間配置やオブジェクトの位置決め生成において新たな最先端を確立し、ユーザーのオブジェクトの位置やサイズなどの制御を強化し、従来のモデルの精度をほぼ倍増させた。本研究は、LLMsをコンピュータビジョンタスクの性能向上に活用する可能性を示す最初の試みである。
画像やビジュアルコンテンツがデジタル環境を支配する時代において、これらの画像を操作しパーソナライズする能力は必要不可欠となっています。例えば、写真の中で日差しの差し込む窓辺でくつろぐトラ猫を、あなたの遊び好きな子犬にシームレスに置き換えながら、元の画像の魅力や構図を保つことを想像してみてください。私たちは、既存の画像におけるパーソナライズされた被写体の入れ替えを通じて、この没入型の画像編集体験を可能にする新しいアプローチ「Photoswap」を提案します。Photoswapはまず、参照画像から被写体の視覚的概念を学習し、その後、事前学習済みの拡散モデルを用いて、トレーニング不要な方法でターゲット画像に被写体を入れ替えます。私たちは、適切なセルフアテンションとクロスアテンションの操作により、入れ替えられた被写体のポーズや画像全体の一貫性を保ちながら、よく概念化された視覚的被写体を任意の画像にシームレスに転送できることを実証しました。包括的な実験により、Photoswapのパーソナライズされた被写体入れ替えにおける有効性と制御性が強調されています。さらに、Photoswapは被写体の入れ替え、背景の保存、全体的な品質においてベースライン手法を大幅に上回る人間評価を獲得し、エンターテイメントからプロフェッショナル編集まで、その広範な応用可能性を明らかにしています。
大規模な画像-テキストデータセットと拡散モデルの進歩を活用することで、テキスト駆動型生成モデルは画像生成と編集の分野で目覚ましい進歩を遂げてきました。本研究では、このテキスト駆動能力を、複数のテキスト条件付き長尺動画の生成と編集に拡張する可能性を探ります。現在の動画生成と編集の手法は革新的ではあるものの、極めて短い動画(通常24フレーム未満)に限定されており、単一のテキスト条件に制限されています。これらの制約は、現実世界の動画が通常複数のセグメントで構成され、それぞれが異なる意味情報を持つことを考えると、その応用範囲を大幅に制限しています。この課題に対処するため、追加のトレーニングを必要とせずに、多様な意味セグメントを含む数百フレームの動画を生成・編集可能な、Gen-L-Videoと呼ばれる新しいパラダイムを提案します。私たちは、3つの主流なテキスト駆動型動画生成・編集手法を実装し、提案したパラダイムを用いて、多様な意味セグメントを持つ長尺動画に対応するように拡張しました。実験結果から、私たちのアプローチが動画拡散モデルの生成・編集能力を大幅に拡大し、今後の研究と応用に新たな可能性を提供することが明らかになりました。コードはhttps://github.com/G-U-N/Gen-L-Videoで公開されています。
私たちは、人間の認知における二重過程理論に着想を得た新しいエージェントフレームワーク「SwiftSage」を紹介します。このフレームワークは、複雑なインタラクティブ推論タスクにおけるアクションプランニングに優れるように設計されています。SwiftSageは、行動クローニングと大規模言語モデル(LLM)のプロンプティングの強みを統合し、タスク完了性能を向上させます。このフレームワークは、2つの主要なモジュールで構成されています。1つは、迅速で直感的な思考を表す「Swiftモジュール」、もう1つは、熟慮的な思考プロセスを模倣する「Sageモジュール」です。Swiftモジュールは、オラクルエージェントのアクショントラジェクトリに基づいてファインチューニングされた小型のエンコーダー・デコーダーLMであり、Sageモジュールは、GPT-4などのLLMをサブゴールプランニングとグラウンディングに使用します。私たちは、2つのモジュールを調和的に統合するためのヒューリスティックな方法を開発し、より効率的で堅牢な問題解決プロセスを実現しました。ScienceWorldベンチマークの30のタスクにおいて、SwiftSageはSayCan、ReAct、Reflexionなどの他の手法を大幅に上回り、複雑な現実世界のタスクを解決する際の有効性を実証しました。
言語モデル(LM)のファインチューニングは、多様な下流タスクで成功を収めてきた。しかし、LMのサイズが大きくなるにつれ、バックプロパゲーションには膨大なメモリが必要となり、実用的でなくなる。ゼロ次(ZO)法は、原理的には2回のフォワードパスのみで勾配を推定できるが、大規模モデルの最適化には極めて遅いと理論的に考えられてきた。本研究では、メモリ効率の良いゼロ次最適化手法(MeZO)を提案し、古典的なZO-SGD法をインプレースで動作するように適応させることで、推論時と同等のメモリフットプリントでLMをファインチューニングする。例えば、単一のA100 80GB GPUを使用した場合、MeZOは300億パラメータのモデルを訓練できるが、バックプロパゲーションによるファインチューニングでは同じ予算で2.7BのLMしか訓練できない。我々は、モデルタイプ(マスク型および自己回帰型LM)、モデルスケール(最大66B)、下流タスク(分類、多肢選択、生成)にわたる包括的な実験を実施した。その結果、(1) MeZOはインコンテキスト学習や線形プローブを大幅に上回る、(2) MeZOは複数のタスクにおいてバックプロパゲーションによるファインチューニングと同等の性能を達成しつつ、最大12倍のメモリ削減を実現する、(3) MeZOは全パラメータチューニングとLoRAやプレフィックスチューニングなどのパラメータ効率的なチューニング手法の両方と互換性がある、(4) MeZOは微分不可能な目的関数(例えば、精度やF1の最大化)を効果的に最適化できる、ことが示された。我々は、古典的なZO分析が示唆するものとは異なり、適切な事前学習とタスクプロンプトがMeZOによる巨大モデルのファインチューニングを可能にすることを理論的洞察を通じて支持する。
近年、一貫性があり整った視覚的テキストを生成可能な拡散モデルベースのテキスト画像生成モデルの開発に対する関心が高まっています。本論文では、この課題に取り組むための新規かつ効率的なアプローチであるGlyphControlを提案します。ByT5のような文字認識型テキストエンコーダに依存し、テキスト画像モデルの再学習を必要とする既存手法とは異なり、本アプローチでは追加のグリフ条件情報を活用することで、既存のStable-Diffusionモデルの視覚的テキスト生成性能を向上させます。グリフ指示を組み込むことで、ユーザーは生成テキストの内容、位置、サイズを特定の要件に応じてカスタマイズできます。視覚的テキスト生成のさらなる研究を促進するため、LAION-Glyphというトレーニングベンチマークデータセットを構築しました。生成された視覚的テキストのOCRベースの指標とCLIPスコアを測定することで、本アプローチの有効性を評価します。実証評価の結果、GlyphControlは最近のDeepFloyd IFアプローチをOCR精度とCLIPスコアの両面で上回り、本手法の有効性が示されました。
大規模言語モデル(LLM)が継続的に開発される中、その評価はますます重要でありながらも困難な課題となっています。本研究では、大規模言語モデルの多段階推論能力を評価するためのオープンソース評価スイート「Chain-of-Thought Hub」を提案します。この設定に注目する理由は2つあります。(1) GPTやPaLMモデルファミリーの挙動から、複雑な推論能力が弱いLLMと強いLLMを区別する重要な要素であることが観察されるため、(2) 大規模言語モデルが次世代の計算プラットフォームとなり、LLMベースの新しいアプリケーションのエコシステムを促進すると予想されるためです。これには、言語的および論理的操作の組み合わせを含む複雑なタスクを実行できる基盤モデルが自然に必要となります。我々のアプローチは、LLMの進歩を追跡するために、挑戦的な推論ベンチマークのスイートを構築することです。現在の結果は以下のことを示しています。(1) モデルの規模は明らかに推論能力と相関している、(2) 2023年5月時点で、Claude-v1.3とPaLM-2はGPT-4と比較可能な唯一のモデルであり、オープンソースモデルはまだ遅れをとっている、(3) LLaMA-65Bはcode-davinci-002に近い性能を示しており、人間のフィードバックからの強化学習(RLHF)などのさらなる開発が成功すれば、GPT-3.5-Turboに近づく可能性が大きい。また、オープンソースの取り組みが追いつくためには、コミュニティがより優れた基盤モデルの構築とRLHFの探求に焦点を当てるべきであることも示唆されています。
魅力的なMinecraftの世界は近年、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊かなプラットフォームとして、多大な研究関心を集めています。しかし、現在の研究動向は「ObtainDiamond」タスクのような特定の目的に焦点を当てており、より広範なタスクへの効果的な汎化はまだ示されていません。さらに、「ObtainDiamond」タスクにおける現在の最高成功率は約20%であり、既存の手法で使用されている強化学習(RL)ベースのコントローラの限界が浮き彫りになっています。これらの課題に取り組むため、我々は「Ghost in the Minecraft(GITM)」という新しいフレームワークを導入します。このフレームワークは、大規模言語モデル(LLM)をテキストベースの知識とメモリと統合し、Minecraft内で汎用的に能力を発揮するエージェント(GCA)の創出を目指しています。これらのエージェントは、LLMの論理と常識能力を備えており、テキストベースのインタラクションを通じて複雑で報酬が希薄な環境を巧みにナビゲートできます。我々は構造化されたアクションセットを開発し、LLMを活用してエージェントが実行するアクションプランを生成します。その結果、LLMベースのエージェントは従来の手法を大幅に上回り、「ObtainDiamond」タスクにおいて+47.5%という顕著な成功率の向上を達成し、従来のRLベースのコントローラと比較して優れた堅牢性を示しました。特に、我々のエージェントはMinecraftのオーバーワールド技術ツリー内のすべてのアイテムを入手した初めてのエージェントであり、その広範な能力を実証しました。GITMはトレーニングにGPUを必要とせず、32CPUコアを備えた単一のCPUノードで十分です。この研究は、長期的で複雑なタスクを処理し、オープンワールド環境における不確実性に適応する能力を持つエージェントを開発する上で、LLMの可能性を示しています。プロジェクトのウェブサイトはhttps://github.com/OpenGVLab/GITMをご覧ください。
大規模言語モデル(LLM)は、機械生成テキストの流暢さと多様性を著しく向上させました。しかし、この進歩は同時に、与えられたテキストの起源を検出する上で大きな課題を提示しており、検出手法に関する現在の研究はLLMの急速な進化に遅れを取っています。従来のトレーニングベースの手法は、特に新しいドメインに適応する際の柔軟性に限界があり、説明能力も不足していることが多いです。このギャップを埋めるため、我々は新しいトレーニング不要の検出戦略「Divergent N-Gram Analysis(DNA-GPT)」を提案します。与えられたテキストに対して、まず中間で切り取り、その前の部分のみをLLMの入力として使用し、新しい残りの部分を再生成します。ブラックボックスではN-gram分析、ホワイトボックスでは確率発散を通じて、元の残りの部分と新しい残りの部分の違いを分析することで、機械生成テキストと人間が書いたテキストの間に明確な差異を示すことができます。我々は、OpenAIの最先端のLLM(text-davinci-003、GPT-3.5-turbo、GPT-4)およびオープンソースモデル(GPT-NeoX-20B、LLaMa-13B)を用いて広範な実験を行いました。結果は、我々のゼロショットアプローチが、4つの英語データセットと1つのドイツ語データセットにおいて、人間とGPT生成テキストを区別する上で最先端の性能を示し、数百万のテキストでトレーニングされたOpenAI自身の分類器を上回ることを示しています。さらに、我々の手法は、説明可能な検出の独自の特徴として、主張を支持する合理的な説明と証拠を提供します。我々の手法は、改訂テキスト攻撃に対して頑健であり、モデルソーシングも追加的に解決できます。コードはhttps://github.com/Xianjun-Yang/DNA-GPTで公開されています。
テキストから画像生成における拡散生成モデルの多大な成功にもかかわらず、画像圧縮の領域で同様の成功を再現することは困難であることが証明されてきました。本論文では、拡散モデルが所定のビットレートにおいて知覚品質を大幅に改善し、FIDスコアで測定された最新のアプローチであるPO-ELICおよびHiFiCを凌駕することを実証します。これは、MSEをターゲットとしたオートエンコーダと、さらにスコアベースのデコーダを組み合わせた、シンプルだが理論的に動機付けられた2段階アプローチを用いて達成されます。しかしながら、我々が示すように、実装の詳細は重要であり、最適な設計判断は典型的なテキストから画像モデルとは大きく異なる可能性があります。