翻訳付きの日次キュレーションされたAI研究論文
科学文献の理解は、特定の情報を抽出し洞察を得るために極めて重要であり、科学的発見を大幅に推進します。大規模言語モデル(LLM)の顕著な成功にもかかわらず、科学文献の理解においては、主に科学的知識の不足と専門的な科学的タスクへの不慣れさによる課題があります。 科学文献の理解に特化したLLMを開発するために、私たちは継続的事前学習(CPT)と監督されたファインチューニング(SFT)を統合するハイブリッド戦略を提案します。これにより、科学的ドメイン知識を同時に注入し、特定のドメインタスクの指示に従う能力を向上させます。このプロセスでは、2つの主要な課題を特定しています。1つは高品質なCPTコーパスの構築、もう1つは多様なSFT指示の生成です。これらの課題に対処するために、PDFテキストの抽出、コンテンツエラーの解析、品質フィルタリング、合成指示の作成などを含む入念なパイプラインを構築しています。この戦略を適用し、科学文献の理解に特化したSciLitLLMという一連のLLMを提案しています。これらのモデルは、科学文献の理解のベンチマークで有望なパフォーマンスを示しています。 私たちの貢献は3つあります。1つ目は、LLMを科学文献の理解に適応させるためにCPTとSFTを統合する効果的なフレームワークを提示し、他のドメインにも簡単に適応できることです。2つ目は、多様で高品質な科学的指示を生成するためのLLMベースの合成方法を提案し、未代表的な科学的ドメイン向けの監督されたファインチューニング用の新しい指示セットであるSciLitInsを生み出します。3つ目は、SciLitLLMが科学文献の理解のベンチマークで有望なパフォーマンス向上を達成していることです。
最近のテキストから画像へのパーソナライゼーションの進歩により、ユーザーが提供した概念に対する高品質かつ制御可能な画像合成が実現されています。しかし、既存の手法は依然として、アイデンティティの保存とテキストの整合性のバランスを取るのに苦労しています。当社のアプローチは、プロンプトに整合した画像を生成するためには、プロンプトの正確な意味理解が必要であり、これにはCLIPテキストエンコーダ内の新しい概念とその周囲のコンテキストトークンとの相互作用を正確に処理することが含まれるという点に基づいています。この課題に対処するため、新しい概念をテキストエンコーダの入力埋め込み空間に適切に埋め込むことで、既存のトークンとのシームレスな統合を可能にします。私たちは、新しい概念のテキスト埋め込みの学習を強化するために、プロンプト内のそのコンテキストトークンを正則化するContext Regularization(CoRe)を導入しています。これは、新しい概念のテキスト埋め込みが正しく学習されている場合にのみ、コンテキストトークンのためのテキストエンコーダの適切な出力ベクトルが達成できるという洞察に基づいています。CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用でき、学習されたテキスト埋め込みの汎化性能を向上させます。さらに、CoReは、特定のプロンプトに対する生成をさらに向上させるためのテスト時最適化手法として機能します。包括的な実験により、当社の手法がアイデンティティの保存とテキストの整合性の両方でいくつかのベースライン手法を上回ることが示されています。コードは公開されます。
最近の大規模多文化モデル(LMMs)の評価は、さまざまな分野での能力を探求しており、都市環境に特化したベンチマークはほとんど存在しませんでした。さらに、既存の都市ベンチマークは、単一の視点で基本的な地域レベルの都市タスクを評価するにとどまり、都市環境におけるLMMsの能力の不完全な評価につながっていました。これらの問題に対処するために、複雑な多視点都市シナリオでLMMsを評価するために設計された包括的なベンチマークであるUrBenchを提案します。UrBenchには、地域レベルと役割レベルの両方でカバーする、地理位置情報、シーン推論、シーン理解、およびオブジェクト理解の4つのタスク次元を含む、合計14のタスクタイプをカバーする、11.6Kの細心の質問が含まれています。UrBenchの構築にあたり、既存のデータセットからデータを利用し、さらに11の都市からデータを収集し、クロスビュー検出マッチング方法を使用して新しい注釈を作成しました。これらの画像と注釈を使用して、LMMベース、ルールベース、および人間ベースの方法を統合して大規模な高品質の質問を構築しました。21のLMMsに対する評価では、現在のLMMsが都市環境でいくつかの側面で苦戦していることが示されました。最も性能の良いGPT-4oでさえ、ほとんどのタスクで人間を下回り、単純な数え上げから方向、位置特定、オブジェクト属性認識などの複雑なタスクまで、平均的な性能差が17.4%であることがわかりました。また、当社のベンチマークは、LMMsが異なる都市ビューに対して特にクロスビューリレーションの理解に関して一貫性のない振る舞いを示すことを明らかにしました。UrBenchのデータセットとベンチマーク結果は、https://opendatalab.github.io/UrBench/ で公開されます。
衛星から街路景観への合成は、対応する衛星景観画像から現実的な街路景観画像を生成することを目指しています。安定した拡散モデルは、さまざまな画像生成アプリケーションで顕著なパフォーマンスを発揮してきましたが、生成された構造やテクスチャを制御するために類似した視点の入力に依存しているため、難しいクロスビュー合成タスクには適用できません。本研究では、衛星から街路景観への合成のためのクロスビュー拡散モデルであるCrossViewDiffを提案します。異なる視点間の大きな不一致に対処するために、衛星シーン構造の推定とクロスビューテクスチャマッピングモジュールを設計し、街路景観画像合成のための構造的およびテクスチャルな制御を構築します。さらに、上記の制御を強化したクロスビューアテンションモジュールを介して取り込むクロスビューコントロール誘導ノイズリダクションプロセスを設計します。合成結果のより包括的な評価を達成するために、標準的な評価メトリクスの補足としてGPTベースのスコアリング方法を設計します。また、このタスクにおける異なるデータソース(例:テキスト、地図、建物の高さ、および多時点衛星画像)の影響を探究します。公開されている3つのクロスビューデータセットでの結果は、CrossViewDiffが標準的およびGPTベースの評価メトリクスの両方で現行の最先端技術を上回り、高品質な街路景観パノラマを生成し、田舎、郊外、都市のシーン全体にわたってより現実的な構造とテクスチャを提供していることを示しています。この研究のコードとモデルは、https://opendatalab.github.io/CrossViewDiff/ で公開されます。
高リソースの言語モデルは、アフリカの状況ではしばしば不十分であり、効率的でアクセス可能であり、地域に適したモデルが必要とされています。この論文では、パラメータ数が0.4億の小規模な言語モデルであるInkubaLMを紹介し、機械翻訳、質問応答、AfriMMLU、およびAfriXnliタスクなどのタスクにおいて、大幅にパラメータ数が多く、より広範なトレーニングデータを持つモデルと同等の性能を達成しています。特筆すべきは、InkubaLMが感情分析で多くの大規模モデルを凌駕し、複数の言語にわたって顕著な一貫性を示していることです。この研究は、効果的な言語モデルは多大なリソースに依存する必要があるという従来のパラダイムに挑戦する画期的な進歩を表しています。当該モデルとデータセットは、低リソース言語に関する研究と開発を促進するために一般に公開されています\url{https://huggingface.co/lelapa}。
拡散トランスフォーマーモデル(DiTs)は、従来のUNetからトランスフォーマーへのネットワークアーキテクチャの移行を実現し、画像生成において優れた能力を示しています。DiTsは、高精細ビデオ生成タスクに広く適用されてきましたが、その大きなパラメータサイズがエッジデバイスでの推論を妨げています。ベクトル量子化(VQ)は、モデルの重みをコードブックと割り当てに分解することで、極端な重み量子化を可能にし、メモリ使用量を大幅に削減します。本論文では、DiTs向けの高速事後トレーニングベクトル量子化手法であるVQ4DiTを提案します。従来のVQ手法は、コードブックのみを補正して割り当てを補正していないことがわかりました。これにより、重みサブベクトルが誤って同じ割り当てに割り当てられ、コードブックに一貫性のない勾配が提供され、最適な結果が得られません。この課題に対処するために、VQ4DiTは、各重みサブベクトルに対してユークリッド距離に基づいて候補割り当てセットを計算し、重み付き平均に基づいてサブベクトルを再構築します。その後、ゼロデータとブロック単位の補正方法を使用して、セットから最適な割り当てを効率的に選択しながらコードブックを補正します。VQ4DiTは、異なる量子化設定に応じて、単一のNVIDIA A100 GPU上で20分から5時間でDiT XL/2モデルを量子化します。実験結果は、VQ4DiTがモデルサイズとパフォーマンスのトレードオフにおいて新たな最先端を確立し、2ビット精度で重みを量子化しながら受け入れ可能な画像生成品質を維持していることを示しています。
VoxCelebスピーカー認識チャレンジ(VoxSRC)は、2019年から2023年まで毎年開催された一連のチャレンジとワークショップでした。これらのチャレンジは、主にスピーカー認識とダイアリゼーションのタスクを評価し、閉じたトレーニングデータやオープンなトレーニングデータなど、さまざまな設定で行われました。また、ドメイン適応のための監督学習、自己監督学習、半教師付き学習なども含まれています。これらのチャレンジは、各タスクと設定に対して公開されたトレーニングおよび評価データセットを提供し、毎年新しいテストセットがリリースされました。本論文では、これらのチャレンジについてのレビューを提供し、探究した内容、チャレンジ参加者によって開発された方法とその進化、スピーカー検証とダイアリゼーションの分野の現状についても述べます。我々は、共通の評価データセット上でのチャレンジの5回の進捗状況を示し、各年の特別な焦点が参加者のパフォーマンスにどのように影響したかについて詳細な分析を提供します。この論文は、スピーカー認識とダイアリゼーション分野の概要を知りたい研究者と、VoxSRCチャレンジの成功を活用し、失敗を避けたいチャレンジ主催者の両方を対象としています。最後に、現在の分野の強みとオープンな課題について議論します。プロジェクトページ:https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
ColBERTなどのマルチベクトル密モデルは、情報検索において非常に効果的であることが証明されています。ColBERTの後段インタラクションスコアリングは、バイエンコーダーアーキテクチャと最近のインデックス付けや検索の最適化により、クロスエンコーダーで見られる共同クエリ-ドキュメントアテンションを近似しつつ、従来の密検索モデルに近い推論効率を維持しています。本論文では、ColBERTモデルアーキテクチャとトレーニングパイプラインにいくつかの改良を導入し、特に異種多言語データに適した、より確立されたシングルベクトル埋め込みモデルパラダイムで成功している技術を活用しています。当社の新しいモデル、Jina-ColBERT-v2は、英語および多言語の検索タスク全般で強力なパフォーマンスを示し、以前のモデルと比較して最大50%のストレージ要件を削減しています。
文書要約は、テキストを簡潔で情報量豊かな要約に短縮するタスクです。本論文では、複数の科学論文を調査のセクションに要約するために設計された新しいデータセットを紹介します。当社の貢献は以下の通りです:(1) ドメイン固有の要約ツールにおけるギャップに対処する新しいデータセットであるSurveySum;(2) 科学論文を調査のセクションに要約するための2つの具体的なパイプライン;および(3) これらのパイプラインを評価するために複数のメトリクスを使用して、そのパフォーマンスを比較します。我々の結果は、高品質な検索段階の重要性と、生成された要約の品質に対する異なる構成の影響を強調しています。
画像は、生物多様性を文書化するための通貨として、特に大規模なビジョン言語モデル(VLMs)の登場により、生物学の分野で科学的な発見を加速させる新しい機会を提供しています。本研究では、事前学習されたVLMsが、追加の微調整なしで科学者がさまざまな生物学的に関連する質問に回答するのに役立つかどうかを検討します。本論文では、3つの生物群(魚類、鳥類、蝶々)からなる30,000枚の画像を含む新しいデータセットVLM4Bioを用いて、生物学の分野での12の最先端(SOTA)VLMsの効果を評価し、5つの生物学的に関連するタスクをカバーする469,000の質問-回答ペアを使用します。また、プロンプト技術の適用効果や推論幻覚のテストによるVLMsのパフォーマンスについても探求し、画像を使用して生物学的に関連する質問に回答するための現在のSOTA VLMsの能力に新たな光を当てます。本論文で報告されているすべての分析を実行するためのコードとデータセットは、以下のリンクから入手できます:https://github.com/sammarfy/VLM4Bio。
気候変動による気温上昇の検出と帰属は、地球温暖化を理解し、適応戦略を導く上で重要です。人為的な気候信号と自然変動を区別する複雑さは、従来の検出と帰属(D&A)手法に挑戦を与えてきました。これらの手法は、気候応答変数に特定の「指紋」を識別しようとします。ディープラーニングは、広範囲の空間データセット内のこれらの複雑なパターンを識別する可能性を提供します。ただし、標準プロトコルの欠如が、研究間での一貫した比較を妨げてきました。私たちは、モデルの精度向上を図るために設計された、816k以上の日次気候スナップショットからなる標準化されたデータセットであるClimDetectを紹介します。ClimDetectは、過去の研究で使用されたさまざまな入力変数と目標変数を統合し、比較可能性と一貫性を確保しています。また、この文脈での新しい手法であるビジョン・トランスフォーマー(ViT)を気候データに適用することも検討しています。私たちのオープンアクセスのデータとコードは、モデル評価の改善を通じて気候科学の進歩を促進するための基準として機能します。ClimDetectは、Huggingfaceデータセットリポジトリを介して一般にアクセス可能であり、以下から入手できます:https://huggingface.co/datasets/ClimDetect/ClimDetect。
本論文では、大規模言語モデル(LLMs)の微調整において、CUR行列分解を活用する新しい手法であるCURLoRAを紹介します。Low-Rank Adaptation(LoRA)の文脈で、当手法はLLM微調整における2つの重要な課題、つまり継続的学習中の壊滅的忘却の緩和と訓練可能パラメータ数の削減に取り組んでいます。我々は、CUR分解プロセスに独自の変更を提案し、列と行の選択に逆確率を利用して暗黙の正則化として機能させ、U行列をゼロ行列として初期化し、微調整のみを行います。複数のデータセットでの実験を通じて、CURLoRAが壊滅的忘却の緩和において標準のLoRAを上回ることを示します。CURLoRAは、訓練可能パラメータ数を大幅に削減しながら、タスク間でモデルの安定性と性能を維持します。我々の結果は、CURLoRAが、特にデータが限られているシナリオにおいて、LoRAに比べて継続的微調整においてベースモデルの困惑度スコアを一定に保ちつつ、非常に良好で安定したタスク精度を達成していることを示しています。
人工知能の分野が進展するにつれ、補助技術はあらゆる産業で広く使用されるようになっています。医療業界も例外ではなく、医療従事者向けの補助ツールを開発するための多くの研究が行われています。自動診断システムは、患者情報の収集、検査結果の分析、患者の診断など、さまざまなタスクを支援する有益なツールの1つです。ただし、異なる診断を提供できるシステムを開発するというアイデアは、これらの研究のほとんどでほとんど見落とされてきました。本研究では、患者の年齢、性別、医療歴、症状に基づいて異なる診断を提供するためのトランスフォーマーベースのアプローチを提案します。我々はDDXPlusデータセットを使用し、49種類の疾患に基づいて患者の異なる診断情報を提供します。まず、データセットからの表形式の患者データを処理し、それらを研究に適した患者レポートにエンジニアリングする方法を提案します。さらに、トレーニングデータを多様化し、モデルの堅牢性を向上させるために2つのデータ修正モジュールを導入します。我々はこのタスクをマルチラベル分類問題として取り組み、4つのトランスフォーマーモデルを使用して包括的な実験を行います。すべてのモデルは、ヘルドアウトテストセットで97%以上のF1スコアを達成することで有望な結果を示しました。さらに、モデルのより広範な理解を得るために追加の行動テストを設計します。特に、1つのテストケースでは、医師の協力を得て100サンプルのカスタムテストセットを準備しました。カスタムセットの結果から、提案されたデータ修正モジュールがモデルの汎化能力を向上させたことが示されました。今回の研究結果が、将来の研究者に有益な示唆を提供し、信頼性のある自動異なる診断システムの開発を促すことを願っています。
Transformerアーキテクチャはバイオインフォマティクスを革新し、生体分子の性質の理解と予測の進歩を推進してきました。大規模なバイオシーケンスのTransformerに関するほとんどの研究は、通常、ヌクレオチドやペプチドなどの1つのドメイン(シングルオミック)に焦点を当てています。これらのモデルは、それぞれのドメインでの下流タスクにおいて驚異的な成功を収め、特にペプチドの配列や構造モデリングにおいて顕著な突破を達成しています。しかし、これらのシングルオミックモデルは、生物学的に最も重要なヌクレオチド-ペプチド相互作用をモデル化する能力を持っていません。 私たちは、初めてのマルチオミックヌクレオチド-ペプチド基礎モデルのトレーニングに取り組んでいます。これらのマルチオミックモデル(MOMs)は、未ラベルのバイオシーケンスで訓練されたにも関わらず、分子生物学の中心法則と一貫性のあるさまざまなシングルオミック分布間の共同表現を学習できることを示しています。さらに、MOMsを微調整して、ペプチド-ヌクレオチド相互作用タスクにおいて最先端の結果を達成できることを示しています。具体的には、与えられたオリゴヌクレオチドとペプチドの結合相互作用のギブス自由エネルギー変化(ΔG)を予測すること、およびオリゴヌクレオチド配列の変異によるこの結合相互作用への影響(ΔΔG)を予測することが含まれます。 驚くべきことに、私たちは、マルチオミックバイオシーケンスTransformerが、事前の構造トレーニングなしで有用な構造情報を学習し、ペプチド-ヌクレオチド結合相互作用に最も関与するペプチド残基を予測できることを示しています。最後に、シングルオミック分布でトレーニングされた基礎モデルと同等以上であることを証明し、これらのモデルを構築するためのより一般的または基礎的なアプローチを示唆しています。
パラメータ効率の高いファインチューニング(PEFT)手法は人気を博し、大規模言語モデル(LLM)の使用を民主化しています。最近の研究では、わずかなウェイトのサブセットが性能に大きな影響を与えることが示されています。この観察に基づき、私たちは新しいPEFT手法である顕著なウェイトのガウスノイズ注入ファインチューニング(GIFT-SW)を紹介します。当該手法は、顕著な列のみを更新し、非顕著な列にはガウスノイズを注入します。これらの列を特定するために、以前の研究からのメトリクスを拡張し統一する汎用感度メトリクスを開発しました。LLaMAモデルを用いた実験では、GIFT-SWが同じ計算予算の下で完全なファインチューニングや現代のPEFT手法を上回ることが示されました。さらに、GIFT-SWは、顕著なウェイトを完全精度で保持しながら、混合精度量子化の影響を受けたモデルの性能を回復するという実用的な利点を提供します。
多様なナラティブを圧縮することで、LLMは単なる記憶だけでなく、一般化可能な因果関係を捉えることによって知能を実現しています。しかしながら、十分なトレーニングデータの多様性が欠如することにより、局所的な「表現ギャップ」に苦しんでおり、特に厳密な規則への整合性が求められるタスクにおいては、実世界での有用性が制限されています。重い人間の注釈に依存する従来の整合性手法は非効率でスケーラビリティに欠けます。最近の自己整合技術も不十分であり、しばしば自己選択に基づくプロンプティングや記憶に基づく学習に依存しています。これらの問題に対処するために、アノテーション不要のルールベースの整合アルゴリズムであるIterative Graph Alignment (IGA)を導入します。教師モデル(VLM)は、Iterative Graph Prompting (IGP)を用いて論理グラフと参照回答を作成します。生徒モデル(LLM)は、これらの参照と自身の回答を整合させようと試みることで、局所的な知識ギャップを特定し、ヘルパーモデルと協力して多様な回答を生成します。これらの整合した回答は、反復教師付き微調整(SFT)に使用されます。5つのルールベースのシナリオを対象とした評価により、IGPの有効性が示され、Claude Sonnet 3.5では73.12\%の整合性向上が実現され、Llama3-8B-Instructでは86.20\%の改善が達成され、ルールベースの整合性においてClaude Sonnet 3.5を上回りました。