翻訳付きの日次キュレーションされたAI研究論文
ギリシャ語向け初のオープンな大規模言語モデルであるMeltemi 7Bの開発と機能について説明する。Meltemi 7Bは70億のパラメータを持ち、400億トークンのギリシャ語コーパスで学習されている。Meltemi 7Bの開発にあたっては、Mistralを基盤とし、ギリシャ語コーパスを用いた継続的な事前学習を実施した。Meltemi 7Bは2023年9月までの最新情報を含んでいる。さらに、ギリシャ語の指示コーパスを翻訳・整備し、これを活用してチャットモデル「Meltemi 7B Instruct」の指示チューニングを行った。Meltemi 7B Instructでは、アライメントと有害コンテンツの除去に特に注意を払っている。開発されたモデルは、収集された多様な評価コーパスで評価され、プロンプトと応答の例が提示されている。Meltemi 7BとMeltemi 7B Instructは、Apache 2.0ライセンスの下、https://huggingface.co/ilsp で公開されている。
大規模言語モデル(LLMs)は、モデルサイズとシーケンス長の増大を活用することで、自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成してきました。しかし、それに伴う計算コストとメモリコストの増大は、特にトランスフォーマーのアテンションメカニズムの二次複雑性による長いシーケンスの管理において、重大な課題を提起しています。本論文は、長文脈シナリオに焦点を当て、推論時のKVキャッシュメモリ消費の非効率性に対処します。既存のアプローチがシーケンス長に基づいてメモリを最適化するのとは異なり、我々はKVキャッシュのチャネル次元に大きな冗長性があることを明らかにしました。これは、アテンション重みの不均衡な大きさ分布と低ランク構造によって特徴づけられます。これらの観察に基づき、我々はThinKという新しいクエリ依存型KVキャッシュプルーニング手法を提案します。この手法は、アテンション重みの損失を最小化しつつ、最も重要でないチャネルを選択的にプルーニングするように設計されています。我々のアプローチは、モデルの精度を維持または向上させるだけでなく、従来のKVキャッシュ削除方法と比較してメモリコストを20%以上削減します。LLaMA3とMistralモデルを用いた様々な長文データセットでの広範な評価により、ThinKの有効性が確認され、性能を損なうことなく効率的なLLM展開の新たな先例を確立しました。また、我々の手法をバリューキャッシュプルーニングに拡張する可能性についても概説し、ThinKがメモリと計算オーバーヘッドの両方を削減するための汎用性と幅広い適用性を実証しました。
大規模な事前学習手法を用いた化学言語モデルは、ケモインフォマティクスにおける画期的な進展を表しています。これらの手法は、大規模な未ラベルコーパスに対する自己教師あり学習を通じて入力トークンの文脈化された表現を学習することで、物性予測や分子生成などのタスクにおいて優れた性能を発揮します。一般的に、これは未ラベルデータでの事前学習と特定タスクに対するファインチューニングを組み合わせることで、注釈付きデータセットへの依存を軽減し、化学言語表現の理解を広げます。本論文では、PubChemから収集された9100万のSMILESサンプル(40億の分子トークンに相当)を用いて事前学習された大規模なエンコーダ-デコーダ型化学基盤モデルを紹介します。提案された基盤モデルは、量子物性予測を含むさまざまな複雑なタスクをサポートし、2つの主要なバリエーション(289Mおよび8×289M)を提供することで柔軟性を実現しています。複数のベンチマークデータセットでの実験を通じて、提案モデルがさまざまなタスクにおいて最先端の結果を提供する能力を検証しました。また、推論タスクの前提条件として、埋め込み空間の構成可能性に関する予備的な評価を行いました。提案モデルが生成する潜在空間は、少ないサンプルでの学習能力を備えた最先端のモデルと比較して分離可能であることを実証しました。
大規模言語モデル(LLMs)が運用ワークフロー(LLM-Ops)にますます統合されるにつれ、安全で整合性のあるインタラクションを確保するための効果的なガードレールの必要性が高まっています。これには、複数言語にわたる潜在的に安全でない、または不適切なコンテンツを検出する能力も含まれます。しかし、既存の安全なコンテンツ分類器は主に英語テキストに焦点を当てています。このギャップを埋めるため、マレーシア語コンテンツに特化した新しい安全なテキスト分類器を提案します。複数のコンテンツカテゴリにわたるマレーシア語テキストの初めてのデータセットをキュレーションし、注釈を付けることで、最先端の自然言語処理技術を用いて潜在的に安全でない素材を識別できる分類モデルを訓練しました。この研究は、LLMsの責任ある展開を確保し、潜在的なリスクを軽減するためのより安全なインタラクションとコンテンツフィルタリングを可能にする重要な一歩です。マレーシアの文脈におけるLLM-Opsの整合性を強化するためのさらなる研究を促進し、アクセシビリティを最大化するため、このモデルはhttps://huggingface.co/malaysia-ai/malaysian-sfw-classifierで公開されています。
本論文では、拡散モデルを活用した新たなフレームワーク「Diffusion Augmented Agents (DAAG)」を提案する。DAAGは、大規模言語モデル、視覚言語モデル、および拡散モデルを統合し、具現化エージェントの強化学習におけるサンプル効率と転移学習を向上させる。DAAGは、過去のエージェントの経験を「Hindsight Experience Augmentation」と呼ばれる技術を用いて再ラベル付けする。この技術では、拡散モデルを使用してビデオを時間的および幾何学的に一貫した方法で変換し、目標指示に合わせる。大規模言語モデルがこの自律的なプロセスを調整し、人間の監督を必要としないため、生涯学習シナリオに適している。本フレームワークは、1) 報酬検出器として機能する視覚言語モデルのファインチューニング、および2) 新しいタスクに対するRLエージェントのトレーニングに必要な報酬ラベル付きデータの量を削減する。我々は、操作とナビゲーションを含むシミュレーションロボティクス環境において、DAAGのサンプル効率の向上を実証する。結果は、DAAGが報酬検出器の学習、過去の経験の転移、および新しいタスクの獲得を改善することを示しており、効率的な生涯学習エージェントの開発に不可欠な能力である。補足資料とビジュアライゼーションは、ウェブサイトhttps://sites.google.com/view/diffusion-augmented-agents/で公開されている。
我々は、イスラエル議会の議事録から構成されるKnesset Corpusを用いてファインチューニングされた大規模ヘブライ語モデル「Knesset-DictaBERT」を提案する。本モデルはDictaBERTアーキテクチャを基盤としており、MLMタスクにおいて議会言語の理解において顕著な改善を示している。モデルの性能を詳細に評価し、ベースラインのDictaBERTモデルと比較してパープレキシティと精度の向上を確認した。
本論文は、画像マット生成における革新的なアプローチを紹介する。従来の回帰ベースのタスクを生成モデリングの課題として再定義し、潜在拡散モデルの能力を活用して、事前学習された豊富な知識をマット生成プロセスに正則化として組み込む。我々は、高解像度かつ詳細なマットを生成するための新たなアーキテクチャ上の革新を提示する。提案手法は汎用性が高く、ガイダンスなしのマット生成と、様々な追加手がかりを活用したガイダンスベースのマット生成の両方を可能にする。3つのベンチマークデータセットを用いた包括的な評価により、定量的・定性的に優れた性能を実証した。結果は、本手法の堅牢な有効性を示すだけでなく、写真写実的な品質に迫る視覚的に魅力的なマットを生成する能力を強調している。本論文のプロジェクトページはhttps://lightchaserx.github.io/matting-by-generation/で公開されている。
既存の音楽キャプションニング手法は、短い音楽クリップに対する簡潔な全体記述の生成に限定されており、細粒度の音楽的特徴や時間軸を考慮した音楽的変化を捉えることができていない。これらの制約を解決するため、我々はFUTGAを提案する。FUTGAは、時間的構成を伴う生成的拡張から学習することで、細粒度の音楽理解能力を備えたモデルである。既存の音楽キャプションデータセットと大規模言語モデル(LLMs)を活用し、構造的記述と時間境界を備えた細粒度の音楽キャプションをフルレングスの楽曲に対して合成する。提案する合成データセットによる拡張により、FUTGAは主要な転換点における音楽的変化とその音楽的機能を識別し、各音楽セグメントに対する詳細な記述を生成することが可能となる。さらに、MusicCapsとSong Describerデータセットの拡張として、FUTGAによって生成されたフルレングス音楽キャプションデータセットを導入する。自動生成されたキャプションを、音楽生成や検索を含む複数の下流タスクで評価する。実験結果は、生成されたキャプションの品質と、提案する音楽キャプションニング手法が様々な下流タスクで達成するより優れた性能を示している。我々のコードとデータセットはhttps://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}で公開されている。
ニューラル情報検索は高リソース言語において急速に進展してきたが、日本語のような低リソース言語では、データ不足などの課題により進展が妨げられてきた。その結果、計算効率の低さや言語的ニュアンスの捕捉能力の欠如にもかかわらず、多言語モデルが日本語検索を支配してきた。最近のJaColBERTのような多ベクトル単言語モデルはこのギャップを縮めてきたが、大規模評価では依然として多言語手法に遅れを取っている。本研究は、低リソース環境、特に日本語における多ベクトル検索モデルの最適でない訓練方法に取り組む。JaColBERT、そしてより広く多ベクトルモデルの推論および訓練設定の重要な側面を体系的に評価し、改善する。さらに、新しいチェックポイント統合ステップを通じて性能を向上させ、ファインチューニングの利点と元のチェックポイントの汎化能力を組み合わせる効果的な方法であることを示す。我々の分析に基づいて、新しい訓練レシピを導入し、JaColBERTv2.5モデルを開発した。JaColBERTv2.5は、1億1000万パラメータのみで、4つのA100 GPUで15時間未満の訓練を行い、すべての一般的なベンチマークで既存のすべての手法を大幅に上回り、平均スコア0.754を達成し、以前の最高記録0.720を大きく上回った。今後の研究を支援するため、最終モデル、中間チェックポイント、および使用したすべてのデータを公開している。
HAL(Hyper Articles en Ligne)は、フランスの国立出版物リポジトリであり、ほとんどの高等教育機関や研究組織がオープンサイエンス政策の一環として利用しています。デジタルライブラリとして、HALは学術文書の豊富なリポジトリですが、その高度な研究への潜在能力は十分に活用されていません。本論文では、HALに提出された論文の引用ネットワークと全文の間のギャップを埋める独自のデータセットであるHALvestを紹介します。私たちはHALから学術出版物をフィルタリングしてデータセットを作成し、約70万件の文書、13の特定された分野にわたる34言語、言語モデルトレーニングに適した約165億トークン(うち80億がフランス語、70億が英語で最も多くを占める)を収集しました。各論文のメタデータを引用ネットワークに変換し、有向異種グラフを生成します。このグラフには、HAL上で一意に識別された著者、すべての公開された提出論文、およびそれらの引用が含まれます。私たちは、このデータセットを使用した著者帰属のベースラインを提供し、リンク予測のためのグラフ表現学習における最新のモデルを実装し、生成された知識グラフ構造の有用性について議論します。