AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

SDXL Turboの解説: スパースオートエンコーダを用いたテキストから画像へのモデルの解釈
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders

Oct 28

ByViacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre

疎なオートエンコーダ（SAE）は、大規模言語モデル（LLM）の逆工学において中心的な要素となっています。LLMにおいて、SAEは、通常直接解釈できない中間表現を疎な解釈可能な特徴の合計に分解し、より良い制御とその後の分析を容易にすることが示されています。しかし、テキストから画像へのモデルに対しては、類似した分析やアプローチが不足しています。私たちは、SDXL Turboなどの数段階のテキストから画像への拡散モデルに対して、SAEを使用して解釈可能な特徴を学習する可能性を調査しました。このために、SDXL Turboのdenoising U-net内で行われるトランスフォーマーブロックの更新にSAEをトレーニングしました。その結果、学習された特徴は解釈可能であり、生成プロセスに因果関係を持ち、ブロック間での専門化を明らかにします。特に、画像の構成に主に関わるブロック、主にローカルな詳細を追加する責任があるブロック、および色彩、照明、スタイルに関するブロックが見つかりました。したがって、私たちの研究は、SDXL Turboのような生成的テキストから画像へのモデルの内部をよりよく理解するための重要な第一歩であり、SAEによって学習された特徴の視覚領域での潜在能力を示しています。コードはhttps://github.com/surkovv/sdxl-unboxで入手可能です。

LLMが高速思考と遅速思考のために訓練された際の層内で何が起こったか：勾配の観点から
What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Oct 31

ByMing Li, Yanhong Li, Tianyi Zhou

LLMの事後トレーニングには何が違いをもたらすのか？私たちは、異なる応答や初期モデルでトレーニングする際の、大規模言語モデル（LLMs）の異なる層のトレーニングパターンを、勾配の観点から調査しています。最近、CoT（chain-of-thoughts）やプロセス報酬などの推論経路でLLMsをトレーニングすることが人気を集めていることから、特に速い思考と遅い思考が層ごとの勾配にどのような影響を与えるかに興味を持っています。私たちの研究では、CoTを使用しない速い思考は、遅い思考（詳細なCoT）よりも大きな勾配と層ごとの勾配の違いをもたらし、後者によってもたらされる学習の安定性を示しています。さらに、事前トレーニングされたLLMsは、指示に調整されたLLMsよりも速い思考の不安定性の影響を受けにくいことを明らかにしています。さらに、異なるLLMsを遅い思考と速い思考の経路でトレーニングする際、勾配パターンが応答の正確性を反映できるかどうかを調査しています。結果は、遅い思考の勾配が正しい推論経路と無関係な経路を区別できることを示しています。比較として、非推論的な知識学習タスクにおいて同様の勾配解析を行っていますが、応答の長さを単純に増やすだけでは遅い思考の同様の振る舞いをもたらしません。私たちの研究は、LLMのトレーニングに関する基本的な理解を強化し、その効率性と安定性に関する新しい洞察を提供し、一般化可能なSystem-2エージェントの構築への道を開いています。私たちのコード、データ、および勾配統計については、以下から入手できます：https://github.com/MingLiiii/Layer_Gradient.

複数ラベル・複数クラスの意図の共同抽出と検出のためのポインターネットワークベースのアプローチ
A Pointer Network-based Approach for Joint Extraction and Detection of Multi-Label Multi-Class Intents

Oct 29

ByAnkan Mullick, Sombit Bose, Abhilash Nandy, Gajula Sai Chaitanya, Pawan Goyal

タスク指向型対話システムにおいて、意図検出はユーザーのクエリを解釈し適切な応答を提供するために重要です。既存の研究は主に単一の意図を持つ単純なクエリに焦点を当てており、複数の意図を持つ複雑なクエリを処理し、異なる意図スパンを抽出する効果的なシステムが不足しています。さらに、多言語、多意図のデータセットが著しく不足しています。本研究では、クエリから複数の意図スパンを抽出し、複数の意図を検出し、多言語多ラベルの意図データセットを開発する3つの重要なタスクに取り組んでいます。既存のベンチマークデータセットから収集された新しい多ラベル多クラスの意図検出データセット（MLMCIDデータセット）を紹介しています。また、ポインターネットワークベースのアーキテクチャ（MLMCID）を提案し、セクスタプル形式の粗視化および細分化されたラベルで複数の意図を抽出し検出します。包括的な分析により、当社のポインターネットワークベースのシステムが、様々なデータセットにおいて精度とF1スコアの面でベースライン手法に優越性を示すことが示されています。

SelfCodeAlign: コード生成のための自己アラインメント
SelfCodeAlign: Self-Alignment for Code Generation

Oct 31

ByYuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang

インストラクションチューニングは、大規模言語モデル（LLMs）が人間の指示に従う能力を大幅に向上させる教師ありファインチューニング手法です。私たちは、SelfCodeAlignを提案します。これは、従来の人間アノテーションや蒸留が必要なく、完全に透明で許容性のあるパイプラインであり、コードLLMsを自己整列させるものです。SelfCodeAlignは、データ生成プロセス全体で同じベースモデルを推論に使用します。まず、高品質なシードスニペットから多様なコーディングコンセプトを抽出して新しいタスクを生成します。次に、各タスクに複数の応答をサンプリングし、それぞれをテストケースとペアにしてサンドボックス環境で検証します。最後に、合格した例がインストラクションチューニングのために選択されます。主要な実験では、CodeQwen1.5-7Bを使用してSelfCodeAlignを使用し、74kのインストラクション-応答ペアのデータセットを生成します。このデータセットでのファインチューニングにより、HumanEval+で67.1 pass@1を達成するモデルが得られ、CodeLlama-70B-Instructを10倍小さくしても上回ります。すべてのベンチマークで、このファインチューニングされたモデルは、以前の最先端手法であるOctoPackで訓練された元のバージョンよりも優れたパフォーマンスを維持します。さらに、SelfCodeAlignが、3Bから33BまでのさまざまなサイズのLLMsに効果的であり、ベースモデルが自身のデータ分布との整合性からより多くの利益を得られることを示します。また、SelfCodeAlignの各コンポーネントの効果を検証し、GPT-4oからの直接蒸留やOSS-Instruct、Evol-Instructなどの主要なGPT-3.5ベースの蒸留手法を上回ることを示します。SelfCodeAlignは、最先端のコーディングパフォーマンスを達成する完全透明で許容性のある自己整列コードLLMであるStarCoder2-Instructの作成にもつながりました。

BitStack: 可変メモリ環境における圧縮された大規模言語モデルの細かいサイズ制御
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments

Oct 31

ByXinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu

大規模言語モデル（LLMs）は多くのアプリケーションを革新しましたが、ローカルデバイスのメモリ制約によって展開が依然として難しい状況です。スケーリング則がLLMの機能を向上させましたが、主要なボトルネックは能力から利用可能性に移行し、効率的なメモリ管理の必要性が強調されています。従来の圧縮手法（例：量子化）は、通常、事前に定義された圧縮比と各設定ごとに別々の圧縮プロセスが必要とされるため、可変メモリ環境での展開が複雑化されます。本論文では、メガバイトレベルのメモリ使用量とモデルのパフォーマンスとのトレードオフを実現する、新しいトレーニング不要の重み圧縮手法であるBitStackを紹介します。重み分解を活用することで、BitStackは実行中のメモリとストレージデバイス間の最小限の転送でモデルサイズを動的に調整することができます。当手法は、各パラメータの重要性を考慮しながら、重み行列を反復的に分解し、各分解イテレーションでおおよそ1ビットあたりのパラメータ残差ブロックを生成します。これらのブロックは、基本的な転送単位としてストレージにソートされ、積み重ねられ、現在のメモリの利用可能性に基づいて異なる量がロードされます。幅広いタスクにわたる実験により、BitStackは、細かいサイズ制御を提供しながら、特に極端な圧縮比において、強力な量子化のベースラインに一致するかそれを上回ることが一貫して示されました。私たちの知る限り、これは、量子化などの実用的な圧縮技術へのギャップを効果的に埋める、分解ベースの手法として初めてのものです。コードはhttps://github.com/xinghaow99/BitStack で入手可能です。

言語モデルは、長いテキストを生成するために自己延長することができます。
Language Models can Self-Lengthen to Generate Long Texts

Oct 31

ByShanghaoran Quan, Tianyi Tang, Bowen Yu, An Yang, Dayiheng Liu, Bofei Gao, Jianhong Tu, Yichang Zhang, Jingren Zhou, Junyang Lin

最近の大規模言語モデル（LLMs）の進歩により、長い文脈を処理する能力が大幅に向上しましたが、長い整合した出力を生成する際にはまだ著しいギャップが存在しています。この制限は、事前トレーニングが長文生成に効果的な指示を欠いており、事後トレーニングデータが主に短いクエリ-レスポンスペアで構成されているというトレーニングギャップに由来しています。指示逆変換や振る舞い模倣などの現在のアプローチは、データ品質、著作権問題、専用モデルの使用制約などの課題に直面しています。本論文では、補助データや専用モデルの必要がなく、LLMsの固有の知識とスキルのみを活用する革新的な反復トレーニングフレームワークであるSelf-Lengthenを紹介します。このフレームワークは、GeneratorとExtenderの2つの役割で構成されています。Generatorは初期応答を生成し、それをExtenderが分割して拡張します。このプロセスにより、新しい、より長い応答が生成され、これを用いてGeneratorとExtenderの両方を反復的にトレーニングします。このプロセスにより、モデルは徐々により長い応答を処理するようにトレーニングされます。ベンチマークと人間の評価実験によると、Self-Lengthenは、Qwen2やLLaMA3などのトップオープンソースのLLMsに適用した場合に、長文生成において既存の手法を上回ることが示されました。当該コードは、https://github.com/QwenLM/Self-Lengthen で公開されています。

制約付き逆変換は、大規模言語モデルの複雑な命令に従う能力を向上させる
Constraint Back-translation Improves Complex Instruction Following of Large Language Models

Oct 31

ByYunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li

大規模言語モデル（LLMs）は、フォーマット、長さなどの複雑な制約を持つ指示に従うのに苦労しています。従来の指示チューニング手法に従い、以前の研究では、高度なLLMsに複雑な指示を与えて生成された複雑な指示-応答ペアに対して事後トレーニングを行ってきました。しかし、さらに高度なLLMsでも複雑な指示にうまく従うことができないため、生成されるデータの品質が制限されています。本研究では、既存のデータセットには暗黙の複雑な制約が含まれていることを発見し、制約逆変換という新しいデータ生成手法を提案します。具体的には、既存のデータセット内の高品質な指示-応答ペアを取り上げ、既に応答が指示に満たしている複雑な制約を高度なLLMsのみ採用して追加することで、コストとデータノイズを自然に削減します。実験では、Llama3-70B-Instructを採用して制約を逆変換し、CRABという高品質な複雑な指示-応答データセットを作成します。CRABへの事後トレーニングにより、複数のバックボーンLLMsの複雑な指示に従う能力が向上し、幅広い指示に従うベンチマークで評価されます。さらに、制約逆変換は、事後トレーニングにおける有用な補助的トレーニング目的としても機能することがわかりました。今後の研究を促進するために、当該コード、データ、およびモデルを公開します。

NeuZip: ニューラルネットワークのダイナミックな圧縮によるメモリ効率の高いトレーニングと推論
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Oct 28

ByYongchang Hao, Yanshuai Cao, Lili Mou

ニューラルネットワークの性能は、より多くのパラメータを使用することで向上します。ただし、モデルサイズは、トレーニングおよび推論中に利用可能なデバイス上のメモリによって制約されます。量子化などの技術を適用することで制約を緩和できますが、性能の低下が問題となります。本研究では、ニューラルネットワーク内の浮動小数点数のエントロピーに基づく新しい重み圧縮スキームであるNeuZipを紹介します。 NeuZipを使用することで、性能を犠牲にすることなく、メモリ効率の良いトレーニングと推論を実現できます。特筆すべきは、Llama-3 8Bモデルのトレーニングのメモリフットプリントを31GBから16GB未満に大幅に削減し、トレーニングダイナミクスを完全に変更せずに維持できる点です。推論では、我々の手法は、ほぼロスのない性能を維持しながら、メモリ使用量を半分以上削減できます。当該コードは公開されています。

AAAR-1.0: 研究支援のためのAIの潜在能力の評価
AAAR-1.0: Assessing AI's Potential to Assist Research

Oct 29

ByRenze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin

AIシステムの能力を評価する多くの研究が行われており、特に大規模言語モデル（LLMs）が日常的なタスク、例えばメールの作成、質問への回答、創造的なコンテンツ生成などを支援する能力が評価されています。しかしながら、研究者は、研究アイデアのブレスト、実験の設計、論文の執筆やレビューなど、自身の作業にLLMsを活用する際に固有の課題と機会に直面しています。本研究では、AAAR-1.0というベンチマークデータセットを紹介し、LLMのパフォーマンスを評価するために設計されたもので、3つの基本的で専門的な研究タスクにおけるLLMの性能を評価します：(i) 方程式推論、論文提出物の文脈情報に基づいて方程式の正確性を評価するタスク、(ii) 実験設計、研究アイデアと解決策を検証するための実験の設計、(iii) 論文の弱点、論文提出物の弱点を特定するタスク、および(iv) レビュー批評、人間のレビューにおける各セグメントが欠陥があるかどうかを特定するタスク。AAAR-1.0は従来のベンチマークと異なり、2つの重要な点で異なります：第一に、明示的に研究指向であり、深いドメイン専門知識が必要なタスクを含んでいます。第二に、研究者指向であり、研究者が日常的に行う主要な活動を反映しています。オープンソースおよびプロプライエタリなLLMsの評価により、洗練された研究タスクを実行する際の潜在能力と限界が明らかになります。AAAR-1.0は新しいバージョンに継続的に改良していく予定です。

自然なビデオ映像なしでのビデオ表現の学習
Learning Video Representations without Natural Videos

Oct 31

ByXueyang Yu, Xinlei Chen, Yossi Gandelsman

本論文では、自然なビデオをトレーニングに取り入れることなく、合成ビデオと自然画像から有用なビデオ表現を学習できることを示します。私たちは、単純な生成プロセスによって合成されたビデオデータセットの進化を提案し、成長する自然ビデオの特性（例：動き、加速、形状変換など）をモデル化します。これらの生成されたデータセットで事前にトレーニングされたビデオモデルの下流パフォーマンスは、データセットの進化に従って徐々に向上します。当社の合成ビデオで事前にトレーニングされたVideoMAEモデルは、UCF101アクション分類におけるゼロからのトレーニングと自己教師あり事前トレーニングとのパフォーマンス差の97.2%を埋め、HMDB51で事前トレーニングされたモデルを上回ります。静止画像のクロップを事前トレーニング段階に導入すると、UCF101の事前トレーニングと同等のパフォーマンスが得られ、UCF101で事前トレーニングされたモデルをUCF101-Pの14の分布外データセットのうち11つで上回ります。データセットの低レベル特性を分析することで、フレームの多様性、自然データとのフレームの類似性、および下流パフォーマンスとの相関関係を特定します。当社のアプローチは、事前トレーニングのためのビデオデータのキュレーションプロセスに対するより制御可能で透明な代替手段を提供します。

未知の領域をナビゲートする：個人用探索タスクのためのチャットベースの共同インタフェース
Navigating the Unknown: A Chat-Based Collaborative Interface for Personalized Exploratory Tasks

Oct 31

ByYingzhe Peng, Xiaoting Qin, Zhiyang Zhang, Jue Zhang, Qingwei Lin, Xu Yang, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

大規模言語モデル（LLM）の台頭は、知識ベースシステムとのユーザーインタラクションを革新し、チャットボットが膨大な情報を統合し、複雑な探索的タスクを支援することを可能にしました。ただし、LLMベースのチャットボットは、特にユーザーが曖昧なクエリで始めたり、十分な文脈情報が欠如している場合に、個別のサポートを提供するのに苦労することがよくあります。本論文では、個別化を強化することを目的としたシステムである「個別化探索のための共同アシスタント（CARE）」を紹介します。このシステムは、マルチエージェントLLMフレームワークと構造化されたユーザーインターフェースを組み合わせることで、探索的タスクにおける個別化を向上させます。CAREのインターフェースには、チャットパネル、ソリューションパネル、ニーズパネルがあり、反復的なクエリの洗練と動的な解決策の生成を可能にします。マルチエージェントフレームワークは、明示的および暗黙の両方のユーザーニーズを特定し、適切で実行可能なソリューションを提供します。22人の参加者を対象とした被験者内研究では、CAREが基準となるLLMチャットボットよりも一貫して好まれ、ユーザーは認知負荷の軽減、創造性の刺激、より適したソリューションの提供を称賛しました。我々の調査結果は、CAREがLLMベースのシステムを受動的な情報検索者から個別化された問題解決と探索の積極的なパートナーに変革する可能性を示しています。

BenchX: 胸部X線を用いた医療ビジョン言語事前学習のための統一ベンチマークフレームワーク
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

Oct 29

ByYang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh

医療ビジョン言語事前学習（MedVLP）は、対になった医療画像とレポートから汎化可能で移転可能な視覚表現を学習する可能性を示しています。MedVLPは、下流タスクに有用な特徴を提供し、少ない例を使用してタスク固有のモデルを新しいセットアップに適応させるのを容易にします。ただし、既存のMedVLP方法は、データセット、前処理、およびファインチューニングの実装方法についてしばしば異なります。これは、統一された、標準化された、包括的なベンチマークの欠如により、MedVLP方法が臨床的に関連するさまざまなタスクにどのように一般化するかを評価する際に大きな課題を提起します。このギャップを埋めるために、我々はBenchXを提案します。これは、公開されている胸部X線データセットを使用して、MedVLP方法間の対照的な比較と体系的な分析を可能にする統一されたベンチマークフレームワークです。具体的には、BenchXは次の3つのコンポーネントで構成されています：1）9つのデータセットと4つの医療タスクをカバーする包括的なデータセット、2）データ前処理、トレインテスト分割、およびパラメータ選択を標準化するベンチマークスイート、3）分類、セグメンテーション、およびレポート生成において一貫したタスク適応のための異種MedVLP方法を収容する統一されたファインチューニングプロトコル。BenchXを活用して、私たちは9つの最先端MedVLP方法のベースラインを確立し、一部の初期MedVLP方法のパフォーマンスを向上させ、より新しいものを上回ることができることがわかりました。これにより、MedVLPに関する過去の研究からの進展と結論を再検討するきっかけとなりました。私たちのコードはhttps://github.com/yangzhou12/BenchX で入手可能です。

DELTA: どんなビデオにも適した密な効率的な長距離3Dトラッキング
DELTA: Dense Efficient Long-range 3D Tracking for any video

Oct 31

ByTuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang

モノクルビデオからの密な3Dモーションの追跡は、特に長いシーケンスでピクセルレベルの精度を目指す場合には依然として難しい課題です。私たちは、全ビデオ全体で正確なモーション推定を可能にする3D空間のすべてのピクセルを効率的に追跡する新しい手法である\アプローチを紹介します。当手法は、低解像度の追跡のための共同グローバル・ローカルアテンションメカニズムを活用し、高解像度の予測を実現するためにトランスフォーマーベースのアップサンプラーを使用しています。計算効率の低さやスパースな追跡に制限される既存の手法とは異なり、\アプローチは、8倍速く前の手法よりも高い精度を達成しながら、スケールで密な3D追跡を提供します。さらに、深度表現が追跡性能に与える影響を探究し、最適な選択肢として対数深度を特定しています。幅広い実験により、\アプローチの優位性が複数のベンチマークで示され、2Dおよび3Dの密な追跡タスクの両方で新たな最先端の結果が達成されました。当手法は、3D空間での微細で長期的なモーショントラッキングが必要なアプリケーションに対する堅牢なソリューションを提供します。

具体的な強化学習エージェントの教育：情報量と言語使用の多様性
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use

Oct 31

ByJiajun Xi, Yinong He, Jianing Yang, Yinpei Dai, Joyce Chai

現実世界のシナリオにおいて、具体的な学習タスクのために明示的または暗黙の知識を得るために人間の言語を活用する能力を持つことは望ましいです。最近の進歩にもかかわらず、以前のアプローチのほとんどは、自然な人間のコミュニケーションを反映しない可能性がある単純な低レベルの指示を言語入力として採用しています。豊かな言語使用をどのように取り入れてタスク学習を促進するかは明確ではありません。この問題に対処するために、本論文では、強化学習（RL）を行う具体的なエージェントにおいて、異なる種類の言語入力を研究しています。より具体的には、過去の行動に対するフィードバックや将来のガイダンスなど、言語情報の異なるレベル（つまり、過去の行動に対するフィードバックや将来のガイダンス）や多様性（つまり、言語表現の変化）がエージェントの学習と推論にどのように影響するかを調査しています。4つのRLベンチマークに基づく実証結果によると、多様で情報量の豊富な言語フィードバックで訓練されたエージェントは、新しいタスクへの高度な一般化と迅速な適応を達成できることが示されました。これらの知見は、言語使用がオープンワールドにおいて具体的なエージェントに新しいタスクを教える際に果たす重要な役割を強調しています。プロジェクトのウェブサイト: https://github.com/sled-group/Teachable_RL

ボトルネックを持つ最小エントロピー結合
Minimum Entropy Coupling with Bottleneck

Oct 29

ByM. Reza Ebrahimi, Jun Chen, Ashish Khisti

本論文は、対数損失を用いる新しい損失圧縮フレームワークについて調査しました。このフレームワークは、再構成分布がソース分布から逸脱する状況を扱うよう設計されており、特に圧縮と取得を同時に行うアプリケーションや処理による分布シフトが関与するシナリオに適しています。提案された定式化が、ボトルネックを統合することで古典的な最小エントロピー結合フレームワークを拡張し、結合における制御された確率性の程度を可能にすることを示します。最小エントロピー結合ボトルネック（MEC-B）の分解を、エンコーダ向けのエントロピー制約情報最大化（EBIM）とデコーダ向けの最小エントロピー結合（MEC）の2つの異なる最適化問題に探求します。詳細な分析を通じて、保証された性能を持つEBIMのための貪欲アルゴリズムを提供し、機能的なマッピング近傍における最適解を特徴づけることで、この問題の構造的複雑さに関する重要な理論的洞察を提供します。さらに、MEC-Bの実用的な応用をマルコフ符号化ゲーム（MCGs）における実験を通じて示します。これらのゲームは、マルコフ決定過程内での通信シナリオをシミュレートし、エージェントが送信者から受信者に圧縮されたメッセージを行動を通じて送信する必要がある状況を模倣します。実験では、異なる圧縮率にわたりMDP報酬と受信者の精度とのトレードオフを強調し、従来の圧縮ベースラインに比べて当社の手法の有効性を示しています。

GlotCC：少数言語向けのオープンな広範囲CommonCrawlコーパスとパイプライン
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

Oct 31

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

事前学習済み言語モデルの登場と、特にこれらのモデルに対するスケーリング則の発見により、大規模なテキストコーパスの必要性が高まっています。ほとんどの利用可能なコーパスは、大きな主要コミュニティを持つ言語にのみ十分なデータを有しています。しかし、(i) 多様な少数言語をカバーする、(ii) オープンソースの再現可能なパイプラインによって生成される、および (iii) ノイズから厳密にクリーニングされ信頼性のあるコーパスは存在しません。私たちは、CommonCrawlから派生した、1000以上の言語をカバーする、クリーンで文書レベルの2TBの一般ドメインコーパスであるGlotCCを提供します。GlotCCおよびそれを生成するために使用されたシステム - パイプライン、言語識別モデル、およびフィルターを、研究コミュニティに提供します。コーパス v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1、パイプライン v. 3.0 https://github.com/cisnlp/GlotCC。