翻訳付きの日次キュレーションされたAI研究論文
言語モデル(LMs)は自然言語処理における強力なツールであるが、モデルが小規模である場合、一貫性のある流暢なテキストを生成するのに苦労することが多い。GPT-Neo(小規模)やGPT-2(小規模)のような約1億2500万パラメータのモデルは、たとえ十分な訓練を経ても、数語を超える一貫性のある英語テキストを生成することはほとんどない。これは、一貫性のある英語テキストを生成する能力が、より大規模な(数億以上のパラメータを持つ)複雑なアーキテクチャ(多くの層を持つグローバルアテンションを備えたもの)でのみ現れるのかという疑問を提起する。 本研究では、GPT-3.5とGPT-4によって生成された、典型的な3〜4歳児が理解する単語のみを含む短編ストーリーの合成データセット「TinyStories」を紹介する。我々は、TinyStoriesが、最先端のモデルよりもはるかに小規模な(総パラメータ数が1000万未満の)またははるかに単純なアーキテクチャ(1つのトランスフォーマーブロックのみを持つ)のLMsを訓練および評価するために使用できることを示す。これらのモデルは、多様でほぼ完璧な文法を持つ数段落の流暢で一貫性のあるストーリーを生成し、推論能力を発揮する。 また、言語モデルの評価のための新しいパラダイムを紹介する。我々は、GPT-4を使用してこれらのモデルによって生成された内容を、学生が書いたストーリーを(人間の)教師が採点するかのように評価するフレームワークを提案する。この新しいパラダイムは、モデルの出力が非常に構造化されていることを要求する標準的なベンチマークの欠点を克服し、さらに、文法、創造性、一貫性などの異なる能力に対するスコアを提供する多次元スコアを提供する。 我々は、TinyStoriesが、特に低リソースまたは専門的なドメインにおけるLMsの開発、分析、研究を促進し、LMsにおける言語能力の出現に光を当てることを期待している。
SoundStormを紹介します。これは効率的で非自己回帰的な音声生成モデルです。SoundStormは、AudioLMの意味トークンを入力として受け取り、双方向アテンションと信頼度ベースの並列デコードを利用して、ニューラル音声コーデックのトークンを生成します。AudioLMの自己回帰的生成アプローチと比較して、当モデルは同じ品質の音声を生成しつつ、声や音響条件の一貫性が高く、生成速度は2桁高速です。SoundStormは、TPU-v4上で0.5秒で30秒の音声を生成します。また、話者交代を注釈したトランスクリプトと話者の声の短いプロンプトを与えることで、高品質で自然な対話セグメントを合成し、長いシーケンスへの音声生成のスケーリング能力を実証します。
最近の研究によると、ダークウェブで使用される言語はサーフェスウェブのものとは明確な違いがあることが示唆されています。ダークウェブに関する研究では通常、ドメインのテキスト分析が必要となるため、ダークウェブに特化した言語モデルは研究者にとって貴重な知見を提供する可能性があります。本研究では、ダークウェブのデータで事前学習された言語モデルであるDarkBERTを紹介します。ダークウェブの極端な語彙的・構造的多様性がドメインの適切な表現構築に悪影響を及ぼす可能性があるため、DarkBERTの訓練に使用するテキストデータをフィルタリングおよび収集するために取られた手順について説明します。DarkBERTとそのベースモデル、および他の広く使用されている言語モデルを評価し、ダークウェブドメインに特化したモデルがさまざまなユースケースで提供する利点を検証します。我々の評価結果は、DarkBERTが現在の言語モデルを上回り、今後のダークウェブ研究における貴重なリソースとして役立つ可能性があることを示しています。
近年の人工知能(AI)システムは、囲碁からタンパク質フォールディングに至るまでの「グランドチャレンジ」において重要なマイルストーンを達成してきた。医療知識を検索し、それを推論し、医師と同等のレベルで医療質問に答える能力は、長らくそのようなグランドチャレンジの一つと見なされてきた。 大規模言語モデル(LLMs)は、医療質問応答において著しい進展を促してきた。Med-PaLMは、MedQAデータセットにおいて米国医師免許試験(USMLE)形式の質問で「合格」スコアを超えた最初のモデルであり、67.2%のスコアを記録した。しかし、この結果や他の先行研究は、特にモデルの回答と臨床医の回答を比較した際に、改善の余地が大きいことを示唆していた。ここでは、ベースLLMの改良(PaLM 2)、医療ドメインのファインチューニング、および新たなアンサンブル改良アプローチを含むプロンプト戦略を組み合わせることで、これらのギャップを埋めるMed-PaLM 2を紹介する。 Med-PaLM 2は、MedQAデータセットで最大86.5%のスコアを記録し、Med-PaLMを19%以上上回り、新たな最先端を確立した。また、MedMCQA、PubMedQA、およびMMLU臨床トピックデータセットにおいても、最先端に迫るかそれを超える性能を観察した。 臨床応用に関連する複数の軸に沿って、長文質問に対する詳細な人間評価を実施した。1066件の消費者医療質問に対するペアワイズ比較ランキングでは、医師は臨床的有用性に関連する9つの軸のうち8つにおいて、Med-PaLM 2の回答を医師の回答よりも好んだ(p < 0.001)。また、新たに導入された240件の長文「敵対的」質問データセットにおいても、Med-PaLMと比較して全ての評価軸で有意な改善を観察した(p < 0.001)。 これらのモデルの実世界での有効性を検証するためにはさらなる研究が必要であるが、これらの結果は、医療質問応答における医師レベルの性能に向けた急速な進展を強調している。
大規模なソースコードで事前学習された大規模言語モデル(LLM)は、コード知能において顕著な進歩を遂げています。しかし、既存のコードLLMには、アーキテクチャと事前学習タスクの観点で2つの主要な制限があります。第一に、特定のアーキテクチャ(エンコーダのみまたはデコーダのみ)を採用するか、異なる下流タスクに対して統一されたエンコーダ-デコーダネットワークに依存しています。前者のパラダイムはアプリケーションにおける柔軟性の欠如に制限され、後者ではモデルがすべてのタスクに対して単一のシステムとして扱われるため、一部のタスクで最適ではないパフォーマンスが生じます。第二に、事前学習目標のセットが限定的であり、一部の下流タスクに関連しない可能性があり、その結果、パフォーマンスが大幅に低下することがあります。これらの制限を解決するために、我々は「CodeT5+」を提案します。これは、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流コードタスクに適応できるエンコーダ-デコーダLLMのファミリーです。この柔軟性は、事前学習とファインチューニングの不一致を緩和するために提案された複数の事前学習目標によって実現されます。これらの目標は、スパンデノイジング、対照学習、テキスト-コードマッチング、および因果LM事前学習タスクをカバーし、単一モーダルおよび二モーダルの多言語コードコーパスで行われます。さらに、CodeT5+をゼロからトレーニングせずに、凍結された既存のLLMで初期化し、モデルを効率的にスケールアップすることを提案し、自然言語指示に合わせるための指示チューニングを探求します。我々は、ゼロショット、ファインチューニング、指示チューニングを含むさまざまな設定で、20以上のコード関連ベンチマークでCodeT5+を広範に評価します。コード生成と補完、数学プログラミング、テキストからコードへの検索タスクなど、さまざまなコード関連タスクで最先端(SoTA)のモデルパフォーマンスを観察します。特に、指示チューニングされたCodeT5+ 16Bは、他のオープンコードLLMに対してHumanEvalコード生成タスクで新しいSoTA結果を達成しました。
GPT-3やGPT-4のような大規模言語モデル(LLMs)は強力ですが、その重みは一般に公開されておらず、巨大なサイズのため一般的なハードウェアでのチューニングが困難です。その結果、大規模な教師付きデータを用いてこれらのモデルを効果的にチューニングすることは容易ではありません。代替手段として、In-Context Learning(ICL)はコンテキスト長の制限により、少数の教師付き例しか使用できません。本論文では、ブラックボックス型のLLMsがローカルでファインチューニングされた小型モデルと連携できるSuper In-Context Learning(SuperICL)を提案し、教師付きタスクにおいて優れた性能を発揮します。実験結果から、SuperICLは最先端のファインチューニングモデルを超える性能向上を実現しつつ、In-Context Learningの不安定性問題に対処できることが示されています。さらに、SuperICLは多言語性や解釈可能性といった小型モデルの能力を強化することができます。
テキスト誘導型の人間動作生成は、アニメーションやロボティクスにわたる影響力のある応用分野から、大きな関心を集めています。最近では、拡散モデルを動作生成に適用することで、生成される動作の品質が向上しています。しかし、既存のアプローチは比較的小規模なモーションキャプチャデータに依存しているため、より多様な現実世界のプロンプトに対する性能が低いという課題があります。本論文では、大規模な画像-テキストデータセットから多様なポーズとプロンプトを学習することで、従来の研究を大幅に上回る性能を実現する、テキスト条件付き人間動作生成モデル「Make-An-Animation」を紹介します。Make-An-Animationは2段階で学習されます。まず、画像-テキストデータセットから抽出された(テキスト、静的疑似ポーズ)ペアの大規模データセットで学習を行います。次に、モーションキャプチャデータでファインチューニングを行い、時間次元をモデル化するための追加レイヤーを加えます。従来の動作生成用拡散モデルとは異なり、Make-An-Animationは最近のテキスト-to-ビデオ生成モデルに類似したU-Netアーキテクチャを採用しています。動作のリアリズムと入力テキストとの整合性に関する人間評価では、本モデルがテキスト-to-動作生成において最先端の性能を達成することが示されています。
拡散モデルは、その優れた性能により画像生成の分野で大きな注目を集めています。最近では、この成功がテキスト生成にも拡張され、シーケンス内の全てのトークンを同時に生成する手法が提案されています。しかし、自然言語は画像と比べてはるかに顕著な順序依存性を示し、既存の言語モデルの多くは左から右への自己回帰的なアプローチを用いて学習されています。自然言語の本質的な順序特性を考慮するため、我々は自己回帰型拡散モデル(AR-Diffusion)を提案します。AR-Diffusionでは、右側のトークンの生成が左側の生成済みトークンに依存することを保証します。これは、トークンの位置に基づいて動的に変化するノイズ除去ステップ数を採用することで実現されます。その結果、左側のトークンは右側のトークンよりも少ないノイズ除去ステップを経て、早期に生成され、右側のトークンの生成に影響を与えることが可能になります。テキスト要約、機械翻訳、常識生成など様々なテキスト生成タスクにおける一連の実験では、AR-Diffusionが既存の拡散言語モデルを明らかに凌駕し、同等の結果を達成する際に100倍から600倍高速であることが示されました。我々のコードは公開される予定です。
シンボルチューニングを提案します。これは、自然言語ラベル(例:「ポジティブ/ネガティブな感情」)を任意のシンボル(例:「foo/bar」)に置き換えた入力-ラベルのペアで言語モデルをファインチューニングする手法です。シンボルチューニングは、モデルがタスクを理解するために指示や自然言語ラベルを使用できない場合、代わりに入力-ラベルのマッピングを学習しなければならないという直観を活用します。 540BパラメータまでのFlan-PaLMモデルでシンボルチューニングを実験し、様々な設定で利点を観察しました。まず、シンボルチューニングは未見のインコンテキスト学習タスクでのパフォーマンスを向上させ、指示や自然言語ラベルがないような不十分なプロンプトに対して非常にロバストです。第二に、シンボルチューニングされたモデルはアルゴリズム推論タスクで非常に強力で、List Functionsベンチマークで最大18.2%、Simple Turing Conceptsベンチマークで最大15.3%のパフォーマンス向上が見られました。最後に、シンボルチューニングされたモデルは、インコンテキストで提示された反転ラベルを追従する能力が大幅に向上しており、インコンテキスト情報を使用して以前の意味知識を上書きする能力がより高いことを示しています。
会話型レコメンデーションシステム(CRS)は、ユーザーがリアルタイムのマルチターン対話を通じてシステムとやり取りできるようにすることで、透明性と制御性を向上させます。最近、大規模言語モデル(LLM)は、自然な会話能力と世界知識や常識的推論を言語理解に取り込む前例のない能力を示し、このパラダイムの可能性を解き放ちました。しかし、CRS内でLLMを効果的に活用するには、複雑な会話を適切に理解し制御することや、外部情報源からの検索といった新しい技術的課題が生じます。これらの問題は、大規模で進化するアイテムコーパスや、トレーニング用の会話データの不足によってさらに悪化します。本論文では、LLMを使用したエンドツーエンドの大規模CRSを構築するためのロードマップを提供します。特に、ユーザー嗜好の理解、柔軟な対話管理、説明可能なレコメンデーションを統合アーキテクチャの一部としてLLMで実装する新しい方法を提案します。パーソナライゼーションを向上させるために、LLMが解釈可能な自然言語ユーザープロファイルを消費し、セッションレベルのコンテキストを調整する方法について説明します。既存のプロダクションCRSがない状況での会話データの制限を克服するために、制御可能なLLMベースのユーザーシミュレータを構築し、合成会話を生成する技術を提案します。概念実証として、LaMDA上に構築されたYouTube動画向けの大規模CRSであるRecLLMを紹介し、いくつかの例示的な会話を通じてその流暢さと多様な機能を実証します。
文脈内学習(In-context learning)は、事前学習された言語モデルが文脈内のタスク例と指示からタスクを学習する手法として、NLPコミュニティで大きな注目を集めています。しかし、言語モデルは文脈内で学習するよう明示的に訓練されていないため、文脈内学習の能力は十分に活用されていません。この問題に対処するため、我々はPICL(Pre-training for In-Context Learning)を提案します。PICLは、一般的なプレーンテキストコーパス上の「内在的タスク」の大規模なコレクションを用いて、単純な言語モデリング目的でモデルを事前学習することで、言語モデルの文脈内学習能力を強化するフレームワークです。PICLは、事前学習モデルのタスク汎化性を維持しつつ、文脈に基づいてタスクを推論し実行するようモデルを促します。我々は、PICLで訓練されたモデルの文脈内学習性能を、7つの広く使われているテキスト分類データセットと、100以上のNLPタスクをテキスト生成として定式化したSuper-NaturalInstructionsベンチマークで評価しました。実験の結果、PICLは一連のベースラインよりも効果的でタスク汎化性が高く、パラメータ数が約4倍大きい言語モデルを上回る性能を示しました。コードはhttps://github.com/thu-coai/PIClで公開されています。
完全自動化されたオブジェクト再構築パイプラインは、デジタルコンテンツ作成において極めて重要です。3D再構築の分野では大きな進展が見られていますが、クリーンなオブジェクトモデルを得るための背景除去は、バウンディングボックスのラベリング、マスクアノテーション、メッシュ操作など、依然として様々な形での手作業に依存しています。本論文では、マルチビュー画像からのオブジェクトの自動発見と再構築を行うための新しいフレームワーク「AutoRecon」を提案します。自己教師あり2D Vision Transformerの特徴を活用することで、SfM点群から前景オブジェクトをロバストに位置特定し、セグメント化できることを実証します。その後、分解された点群によって提供される密な監督を用いて分解されたニューラルシーン表現を再構築し、正確なオブジェクト再構築とセグメンテーションを実現します。DTU、BlendedMVS、CO3D-V2データセットでの実験により、AutoReconの有効性とロバスト性が示されています。
大規模で汎用性の高い言語モデルから人間が理解可能な説明を得ることは、AI安全性における緊急の課題である。しかし、解釈可能性の手法がモデルの振る舞いを支える因果的ダイナミクスに忠実であり、未見の入力に対しても頑健に一般化できることが同様に重要である。分散アライメント探索(DAS)は、因果的抽象化の理論に基づいた強力な勾配降下法であり、特定のタスクに微調整された小規模な深層学習モデルと解釈可能なシンボリックアルゴリズムとの完璧なアライメントを発見した。本論文では、残りの力任せな探索ステップを学習可能なパラメータに置き換えることで、DASを大幅にスケールアップする。このアプローチをDASと呼び、大規模言語モデルが指示に従う際に、解釈可能な因果構造を効率的に探索することを可能にする。我々はDASをAlpacaモデル(70億パラメータ)に適用し、そのままでは単純な数値推論問題を解くことを確認した。DASを用いて、Alpacaが2つの解釈可能なブール変数を持つ因果モデルを実装していることを発見した。さらに、これらの変数とニューラル表現のアライメントが、入力や指示の変化に対して頑健であることを見出した。これらの発見は、我々が最大規模で最も広く展開されている言語モデルの内部動作を深く理解するための第一歩を示すものである。
自然言語インターフェースは、ユーザーの要求をプログラム、データベースクエリ、またはその他の構造化された意図表現に変換するために、しばしば教師付きデータを必要とします。データ収集の際に、ユーザーのニーズの全範囲を予測し形式化することは困難です。例えば、シンプルな要求(「明日の会議を見つけて」や「マネージャーとの会議を正午に移動して」など)を処理するように設計されたシステムにおいても、ユーザーはより複雑な要求(「月曜日と火曜日のすべての電話を入れ替えて」など)を表現する場合があります。本論文では、階層的な自然言語分解プロセスを通じて、シンプルな言語からコードへのモデルが複雑な発話を処理できるようにするアプローチを紹介します。このアプローチでは、事前学習済みの言語モデルを使用して複雑な発話をより小さな自然言語ステップのシーケンスに分解し、各ステップを言語からコードへのモデルで解釈します。このアプローチを検証するために、複雑な発話の分解(Decomposition of Complex Utterances: DeCU)を評価する新しいNL-to-programベンチマークを収集し公開します。実験結果は、提案されたアプローチが複雑な訓練データをほとんど必要とせずに複雑な発話を解釈できることを示し、標準的なfew-shotプロンプティングアプローチを上回る性能を発揮します。
コントラスティブ学習は、マルチモーダル表現を学習するための効率的なフレームワークとして登場しました。この分野の画期的な研究であるCLIPは、コントラスティブ損失を用いてペア画像-テキストデータを学習することで、印象的な結果を達成しました。最近の研究では、自己教師あり学習に着想を得た非コントラスティブ損失を追加することで、CLIPを上回る改善を主張しています。しかし、これらの追加損失の貢献を、データ拡張や正則化技術などの他の実装詳細から切り離すことは難しい場合があります。この問題を明らかにするため、本論文ではまず、コントラスティブ学習と自己教師あり学習の最近の進展を組み合わせた複数のベースラインを提案、実装、評価します。特に、視覚的自己教師あり学習で成功が証明された損失関数を使用して、画像とテキストのモダリティを整合させます。これらのベースラインは、基本的なCLIPの実装を上回ることがわかりました。しかし、より強力なトレーニングレシピを使用すると、その優位性は消えます。実際、他の分野で人気のあるよく知られたトレーニング技術を使用することで、単純なCLIPベースラインも大幅に改善できることがわかりました。下流のゼロショットタスクでは最大25%の相対的改善が見られました。さらに、先行研究が達成した改善の大部分を補うには、画像とテキストの拡張を適用するだけで十分であることがわかりました。CLIPの改良されたトレーニングレシピを使用することで、4つの標準データセットで最先端のパフォーマンスを達成し、先行研究を一貫して上回りました(最大のデータセットでは+4%)。その一方で、実装は大幅に簡素化されています。
近年のマルチモーダル事前学習手法の進展により、3Dモダリティ、その2D対応モダリティ、および対応する言語モダリティ間の特徴を整合させることで、3D表現学習において有望な効果が示されています。しかし、既存のマルチモーダル事前学習フレームワークが3Dアプリケーション向けにマルチモーダルデータを収集する方法は、拡張性と包括性に欠けており、マルチモーダル学習の全体的な可能性を制限している可能性があります。主なボトルネックは、言語モダリティの拡張性と包括性にあります。このボトルネックに対処するため、我々はULIP-2を導入します。これは、広範な知識に基づいて事前学習された最先端のマルチモーダル大規模言語モデル(LLM)を活用して、3Dオブジェクトの包括的な言語対応を自動生成するマルチモーダル事前学習フレームワークです。我々は、ObjaverseとShapeNet55という2つの大規模データセットで実験を行い、生成された3モダリティのトリプレットデータセット(3D点群 - 画像 - 言語)を「ULIP-Objaverse Triplets」および「ULIP-ShapeNet Triplets」として公開しました。ULIP-2は3Dデータのみを必要とし、手動のアノテーション作業を一切不要とすることで、その拡張性を実証しています。また、ULIP-2はModelNet40における下流のゼロショット分類で顕著な改善(74%のTop1精度)を達成しました。さらに、ULIP-2は実世界のScanObjectNNベンチマークで新記録(91.5%の全体精度)を樹立し、わずか140万パラメータ(現在のSOTAの約10分の1)を使用することで、人間のアノテーションなしでの拡張可能なマルチモーダル3D表現学習におけるブレークスルーを示しました。コードとデータセットはhttps://github.com/salesforce/ULIPで公開されています。
大規模言語モデル(LLMs)は自然言語処理において大きな進歩を遂げてきたが、特にドメイン固有のタスクにおいて、モデルサイズが大きくなるにつれて計算コストと非効率性という課題に直面している。一方、小規模言語モデル(SLMs)は、容量とトレーニングデータの制限により、これらのタスクで苦戦することが多い。本論文では、LLMsを用いた生成的データ拡張を通じてSLMsを改善する手法「Dr. LLaMA」を紹介し、医療質問応答タスクとPubMedQAデータセットに焦点を当てる。我々の研究結果は、LLMsが既存の質問応答ペアを洗練し多様化することで、ファインチューニング後のドメイン固有のQAデータセットにおいて、はるかに小規模なモデルの性能が向上することを示している。本研究は、ドメイン固有の質問応答におけるLLMsの使用に関する課題を浮き彫りにし、これらの制限に対処するための潜在的な研究方向性を示唆することで、専門的なアプリケーションのためのより効率的で能力の高いモデルの作成を目指している。また、興味のある研究者向けにコードを公開している。
Masked Language Models(MLM)は、自動音声認識(ASR)システムにおける第二段階のリスコアリングにおいて有効であることが証明されています。本研究では、音響表現をMLMの入力空間に組み込んだマルチモーダルなMasked Language ModelリスコアラーであるMasked Audio Text Encoder(MATE)を提案します。我々は、共有表現を学習することでモダリティを効果的に整合させるために、コントラスティブ学習を採用しています。ターゲットドメインのデータが利用できない場合、マルチモーダルなリスコアラーを使用することがASRシステムのドメイン一般化に有益であることを示します。MATEは、テキストのみのベースラインと比較して、ドメイン内データセットでは4%-16%、ドメイン外データセットでは3%-7%の単語誤り率(WER)を削減します。さらに、非常に限られた量のトレーニングデータ(0.8時間)を使用しても、MATEは第一段階のベースラインに対して8%-23%のWER削減を達成します。
最近の研究では、文レベルの翻訳ランキングタスクで学習されたデュアルエンコーダモデルが、言語間の文埋め込みにおいて有効な手法であることが示されています。しかし、私たちの研究によると、トークンレベルのアライメントも多言語シナリオにおいて重要であり、これまで十分に検討されていませんでした。私たちの知見に基づき、文レベルとトークンレベルの両方のアライメントを組み込んだ、言語間文埋め込みのためのデュアルアライメント事前学習(DAP)フレームワークを提案します。これを実現するために、モデルが一方の文脈化されたトークン表現を使用して、その翻訳対応部分を再構築することを学習する新しい表現翻訳学習(RTL)タスクを導入します。この再構築目的により、モデルは翻訳情報をトークン表現に埋め込むことが促されます。翻訳言語モデリングなどの他のトークンレベルのアライメント手法と比較して、RTLはデュアルエンコーダアーキテクチャに適しており、計算効率が高いです。3つの文レベルの言語間ベンチマークでの広範な実験により、私たちのアプローチが文埋め込みを大幅に改善できることが実証されています。私たちのコードはhttps://github.com/ChillingDream/DAPで公開されています。
前例のない成功を収めているにもかかわらず、最大規模の言語モデルでさえもミスを犯します。人間がフィードバックを用いて学習し改善するのと同様に、従来の研究では、言語モデルに自然言語のフィードバックを提供し、その出力を修正するよう導くことが提案されてきました。人間による批評は取得にコストがかかるため、研究者たちは人間の批評家に代わる学習済みの批評生成器を考案し、生成されたフィードバックを利用するよう下流モデルを訓練できると仮定しました。しかし、このアプローチはChatGPTのようなブラックボックスやアクセスが制限されたモデルには適用できません。なぜなら、それらはファインチューニングできないからです。さらに、大規模な汎用言語エージェントの時代において、ファインチューニングは計算的にも空間的にも効率的ではなく、ネットワークの複数のコピーを生じさせます。本研究では、RL4F(Reinforcement Learning for Feedback)を紹介します。これは、批評生成器がGPT-3(その200倍以上のサイズの固定モデル)の最終タスク性能を最大化するよう訓練されるマルチエージェント協調フレームワークです。RL4Fは、GPT-3がその出力を修正するのに役立つ批評を生成します。我々は、行動計画、要約、アルファベット順並べ替えの3つのデータセットを研究し、全てのタスクにおいて強力なベースラインを上回る複数のテキスト類似度指標で平均約5%の改善を示しました。
本論文では、言語モデルを用いてChatGPT生成テキストと人間執筆テキストを検出するための新規アプローチを提案する。まず、ChatGPTを用いて生成された言い換えコンテンツから構成される前処理済みデータセット「OpenGPTText」を収集・公開した。次に、テキスト分類のための2つの異なるモデルを設計・実装・学習させた。それぞれ、Robustly Optimized BERT Pretraining Approach(RoBERTa)とText-to-Text Transfer Transformer(T5)を使用している。我々のモデルは、様々な評価指標を通じてテストデータセットにおいて97%以上の精度を達成し、顕著な結果を示した。さらに、解釈可能性研究を実施し、人間執筆テキストとChatGPT生成テキストの間の主要な特徴を抽出・区別するモデルの能力を実証した。本研究の知見は、生成テキストを検出するための言語モデルの効果的な使用に関する重要な洞察を提供する。