翻訳付きの日次キュレーションされたAI研究論文
Seed-Musicは、高品質の音楽を微細なスタイル制御で生成することができる音楽生成システムのスイートを紹介します。当社の統合フレームワークは、自己回帰言語モデリングと拡散アプローチの両方を活用し、制御された音楽生成とポストプロダクション編集という2つの主要な音楽制作ワークフローをサポートしています。制御された音楽生成では、当社のシステムは、スタイルの説明、オーディオリファレンス、楽譜、音声プロンプトなど、マルチモーダル入力からのパフォーマンス制御を備えたボーカル音楽生成を可能にします。ポストプロダクション編集では、生成されたオーディオ内で歌詞やボーカルメロディを直接編集するためのインタラクティブツールを提供しています。 デモオーディオ例は、以下のリンクで聴くことを読者にお勧めします:https://team.doubao.com/seed-music
トランスフォーマーは、現代の深層学習の基礎となっています。従来、これらのモデルは、チャンネル間の情報を混合するために、多層パーセプトロン(MLP)層に依存していました。本論文では、MLP層をコルモゴロフ・アーノルド・ネットワーク(KAN)層で置き換え、モデルの表現力と性能を向上させる革新的なアーキテクチャであるコルモゴロフ・アーノルド・トランスフォーマー(KAT)を紹介します。ただし、トランスフォーマーにKANを統合することは容易ではなく、特にスケーリングアップする場合にはさらなる困難が伴います。具体的には、3つの主要な課題を特定しています:(C1)基本関数。KANで使用される標準のBスプライン関数は、現代のハードウェアでの並列計算に最適化されておらず、推論速度が遅くなる結果となります。(C2)パラメータおよび計算の非効率性。KANは、各入出力ペアごとに固有の関数を必要とし、計算量が非常に大きくなります。(C3)重みの初期化。KANの重みの初期化は特に困難であり、深層ニューラルネットワークで収束を達成するために重要な学習可能な活性化関数が含まれています。上記の課題を克服するために、3つの主要な解決策を提案します:(S1)有理基底。Bスプライン関数を有理関数に置き換え、現代のGPUとの互換性を向上させます。これをCUDAで実装することで、より高速な計算が可能となります。(S2)グループKAN。一群のニューロンを介して活性化重みを共有し、性能を犠牲にすることなく計算負荷を軽減します。(S3)分散保存初期化。活性化重みを注意深く初期化し、層を横断して活性化の分散が維持されるようにします。これらの設計により、KATは効果的にスケーリングされ、従来のMLPベースのトランスフォーマーを容易に凌駕します。
Transformerベースの大規模言語モデル(LLM)は、さまざまな領域でますます重要になっています。ただし、アテンション操作の二次時間複雑度は、非常に高い推論遅延とGPUメモリ消費を引き起こし、キャッシュのためのキー値(KV)ベクトルを長いコンテキストにスケーリングする際に重要な課題となります。本論文では、トレーニング不要のアプローチであるRetrievalAttentionを提案し、アテンション計算を加速します。アテンションの動的な疎性を活用するために、RetrievalAttentionはCPUメモリ上のKVベクトルに近似最近傍探索(ANNS)インデックスを構築し、生成中にベクトル検索を行い、最も関連性の高いものを取得します。クエリベクトルとキーベクトルの間の分布外(OOD)により、既製のANNSインデックスは、正確な検索のためにO(N)(通常はすべてのキーの30%)のデータをスキャンする必要があり、高い疎性を活用できません。RetrievalAttentionは、まずANNSベースのアテンションのOOD課題を特定し、クエリに適応し、データの1〜3%のみにアクセスすることができるアテンションに注意したベクトル検索アルゴリズムによってこれを解決し、したがって亜線形の時間複雑度を達成します。RetrievalAttentionは、モデルの精度を維持しながら、長いコンテキストのLLMの推論コストを大幅に削減します。特に、RetrievalAttentionは、8Bのパラメータを持つLLMの128Kトークンを処理するために16GBのGPUメモリのみを必要とし、NVIDIA RTX4090(24GB)の単一で1トークンを0.188秒で生成することができます。
jina-embeddings-v3という新しいテキスト埋め込みモデルを紹介します。このモデルは5億7000万のパラメータを持ち、多言語データや長いコンテキスト検索タスクで最先端の性能を達成し、最大8192トークンのコンテキスト長をサポートしています。このモデルには、クエリ-ドキュメント検索、クラスタリング、分類、およびテキストマッチングのための高品質な埋め込みを生成するためのタスク固有のLow-Rank Adaptation(LoRA)アダプタのセットが含まれています。さらに、Matryoshka Representation Learningがトレーニングプロセスに統合されており、埋め込み次元を柔軟に切り捨てることなくパフォーマンスを損なうことなく可能にしています。MTEBベンチマークでの評価では、jina-embeddings-v3が英語タスクで最新のOpenAIやCohereのプロプライエタリな埋め込みを上回り、すべての多言語タスクでmultilingual-e5-large-instructよりも優れたパフォーマンスを達成していることが示されています。
ビジョン言語モデルは、最近、文書理解、視覚的質問応答、およびゼロショット設定でしばしば高いパフォーマンスを発揮するなど、さまざまなタスクに対応できる多目的システムに進化してきました。コミック理解は、複雑で多面的な分野であり、これらの進歩から大きな恩恵を受ける可能性があります。コミックは、豊かな視覚的およびテキストの物語を組み合わせたメディアであり、画像分類、物体検出、インスタンスセグメンテーション、および連続パネルを通じたより深い物語理解にわたるタスクでAIモデルに挑戦します。ただし、コミックの独自の構造は、スタイル、読み取り順序、および非線形の物語の創造的な変化を特徴とし、他の視覚言語領域とは異なる一連の課題を提示しています。この調査では、データセットとタスクの両面からコミック理解について包括的なレビューを行います。私たちの貢献は以下の5つです:(1)コミックメディアの構造を分析し、その独特の構成要素を詳細に説明します;(2)コミック研究で広く使用されているデータセットとタスクを調査し、その分野の進歩における役割を強調します;(3)Comics Understanding(LoCU)フレームワークを紹介し、コミック内のビジョン言語タスクを再定義し、将来の作業の基盤を築きます;(4)既存の方法をLoCUフレームワークに従って詳細にレビューおよび分類します;(5)最後に、現在の研究課題を強調し、特にコミックに適用されたビジョン言語モデルの文脈で、将来の探究方向を提案します。この調査は、コミック知能のためのタスク指向フレームワークを提案した最初のものであり、データの入手可能性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目指しています。この調査に関連するプロジェクトは、https://github.com/emanuelevivoli/awesome-comics-understanding で利用可能です。
大規模言語モデル(LLMs)は、多くの実世界アプリケーションで不可欠となっています。残念ながら、データプライバシーと通信効率が重要な分散環境でのスケールでのこれらのモデルの微調整は、著しい課題を提起します。既存の手法は、通信オーバーヘッドを軽減するためにパラメータ効率の微調整(PEFT)に頼ることがよくありますが、これは通常、モデルの精度を犠牲にすることになります。これらの制限に対処するために、我々はLLMsのスケーラブルな全パラメータ調整のための共有乱数を備えた最初の一次方法であるFerretを提案します。Ferretは、分散データソース全体でのLLMsのスケーラブルな全パラメータ調整を可能にするために、競争力のあるモデルの精度を維持しながら、3つの側面を通じてこれを達成します。1つ目は、効率的なローカル更新のために広く適用されている一次法を採用しています。2つ目は、これらの更新を低次元空間に射影して通信オーバーヘッドを大幅に削減します。3つ目は、この低次元空間からのローカル更新を共有乱数を用いて再構築し、迅速な収束と競争力のある最終パフォーマンスを確保するための効果的な全パラメータグローバル集約を促進します。厳密な理論的分析と洞察と、幅広い実験により、Ferretが既存の分散全パラメータ調整手法のスケーラビリティを著しく向上させ、高い計算効率、低い通信オーバーヘッド、迅速な収束を達成し、競争力のあるモデルの精度を維持していることが示されました。弊社の実装はhttps://github.com/allen4747/Ferretで入手可能です。
私たちは、思考のダイアグラム(DoT)というフレームワークを導入します。このフレームワークは、大規模言語モデル(LLM)における反復推論を、単一モデル内での有向非巡回グラフ(DAG)の構築としてモデル化します。推論を線形の連鎖や木として表現する従来のアプローチとは異なり、DoTは命題、批評、改良、検証を一貫したDAG構造に整理し、モデルが複雑な推論経路を探索しながら論理的整合性を維持できるようにします。図中の各ノードは、提案された、批評された、改良された、または検証された命題に対応し、LLMが自然言語フィードバックを通じて推論を反復的に改善できるようにします。DoTは、役割固有のトークンを用いた自己回帰的な次トークン予測を活用することで、アイデアの提案と批判的評価の間でシームレスな移行を容易にし、バイナリ信号よりも豊かなフィードバックを提供します。さらに、我々はTopos理論を用いてDoTフレームワークを形式化し、推論プロセスにおける論理的整合性と正当性を保証する数学的基盤を提供します。このアプローチは、単一のLLM内でのトレーニングと推論プロセスの両方を向上させ、複数のモデルや外部制御メカニズムの必要性を排除します。DoTは、次世代の推論専門モデルを設計するための概念的枠組みを提供し、トレーニング効率、堅牢な推論能力、および理論的基盤を重視します。コードはhttps://github.com/diagram-of-thought/diagram-of-thoughtで入手可能です。
オープンボキャブラリーのオーディオ言語モデルであるCLAPは、自然言語プロンプトで指定された任意のカテゴリの分類を可能にすることで、ゼロショットオーディオ分類(ZSAC)に有望なアプローチを提供します。本論文では、CLAPを用いたZSACの改善のためのシンプルかつ効果的な手法を提案します。具体的には、抽象的なカテゴリラベル(例:オルガンの音)を用いる従来の手法から、多様なコンテキストで音をその固有の記述的特徴を用いて記述するプロンプトに移行します(例:オルガンの深く響きのある音色が大聖堂に満ちた)。これを実現するために、まず、野生の音を理解するために改良されたオーディオキャプションで訓練されたCLAPモデルであるReCLAPを提案します。これらの改良されたキャプションは、各音のイベントをその固有の識別特性を用いて元のキャプションで記述します。ReCLAPは、マルチモーダルオーディオテキスト検索とZSACの両方ですべてのベースラインを上回ります。次に、ReCLAPを用いたゼロショットオーディオ分類を改善するために、プロンプトの拡張を提案します。データセット内の各ユニークなラベルに対してカスタムプロンプトを生成し、従来の手書きのテンプレートプロンプトを用いる伝統的な手法とは対照的に、これらのカスタムプロンプトはまずラベル内の音のイベントを記述し、それを様々なシーンで活用します。提案された手法により、ZSACでのReCLAPのパフォーマンスが1%〜18%向上し、すべてのベースラインを1%〜55%上回ります。
ビジュアル質問応答(VQA)は、ユーザーエクスペリエンスを支援するためのいくつかのアプリケーションで主要なユースケースとなり、特にビジョン言語モデル(VLMs)がゼロショット推論で良い結果を達成した後にその重要性が高まっています。しかし、実践的な環境でアプリケーション要件に応じて異なるVLMsを評価することは依然として困難です。本論文では、実践的な環境でVQAタスクに特化したVLMsの評価フレームワークを紹介します。確立されたVQAベンチマークから派生した新しいデータセットを、タスクタイプ、アプリケーションドメイン、知識タイプのアノテーションとともに提示します。これらは、タスクが異なる可能性のある3つの主要な実践的側面です。また、GPT-4oを使用して開発された多モーダル評価尺度であるGoEvalを紹介し、人間の判断との相関係数が56.71%に達成されました。最新の10つのVLMsに関する実験では、普遍的に優れた単一のモデルはなく、適切な選択が重要な設計上の決定であることが示されました。Gemini-1.5-ProやGPT-4o-miniなどの独自のモデルは一般的に他を凌駕していますが、InternVL-2-8BやCogVLM-2-Llama-3-19Bなどのオープンソースモデルは特定の文脈で競争力のある強みを示し、追加の利点を提供しています。この研究は、特定のタスク要件やリソース制約に基づいてVLMsを選択するためのガイドとなり、他のビジョン言語タスクにも拡張可能です。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLMs)が指示に従い役立つ無害な応答を提供するのを支援する主要な技術の1つです。直接方策最適化手法が存在する一方で、最先端のLLMsは、RLHFでポリシーを訓練して報酬データから学習した報酬モデルに導かれた良い応答を生成するようにするためにRLベースの手法(通常はPPO)を採用しています。これらの手法の主な課題は、特に長く複雑な推論が必要なコード生成タスクにおいて、中間報酬モデルの不正確さです。私たちは、報酬モデルの信頼性が異なる報酬で割り当てられた応答間で変動することを発見しました。これは、ポリシー学習中の信号対ノイズ比を改善するために報酬が信頼できない可能性のあるサンプルをフィルタリングする動機となり、Proximal Policy Optimization(PF-PPO)のためのポリシーフィルトレーションを実現しました。与えられた報酬モデルに適切なポリシーフィルトレーション戦略を選択するために、フィルタリングされたサンプルにおける報酬と実際のスコアとの決定係数(R^2)が良い指標となり、いくつかの有望な戦略を見つけるのに役立ちます。私たちは、コード生成タスクにおけるPF-PPOの効果を検証するための包括的な実験を提供し、いくつかのPF-PPOのバリアントが非常に効果的であり、HumanEval、MBPP、および新しくより難しいLeetCode Contestベンチマークで7十億パラメータモデル全体で新たな最先端のパフォーマンスを達成することが分かりました。
当研究は、GoogleのreCAPTCHAv2システムからのCAPTCHAを解決するために高度な機械学習手法を利用する効果を検討しています。画像セグメンテーションと分類のために高度なYOLOモデルを使用して、自動システムのCAPTCHA解決の効果を評価します。主な結果は、以前の研究が68-71%しか解決できなかったのに対し、我々は100%のCAPTCHAを解決できることです。さらに、我々の調査結果から、reCAPTCHAv2でCAPTCHAを通過するために人間とボットが解決しなければならないチャレンジの数には有意な違いがないことが示唆されます。これは、現在のAI技術が高度な画像ベースのCAPTCHAを利用できることを意味します。また、reCAPTCHAv2の仕組みを詳しく調査し、ユーザーが人間かどうかを評価する際に、cookieやブラウザ履歴データに大きく依存していることがわかりました。コードは本論文とともに提供されます。
最近の研究では、テキストのみで事前学習された言語モデルが、日常の物体の色などの基本的な視覚知識を欠いていることが特定されています。この観察に触発され、同様の欠点が聴覚知識にも存在するかどうかを問いたいと考えています。この問いに答えるために、AuditoryBenchという新しいデータセットを構築しました。このデータセットには、聴覚知識を評価するための2つの新しいタスクが含まれています。ベンチマークを使用した分析に基づき、言語モデルも重大な聴覚知識の不足に苦しんでいることがわかりました。この制限に対処するために、私たちはAudioBERTという新しい手法を提案しています。これは、再現ベースのアプローチを用いてBERTの聴覚知識を拡充するものです。まず、プロンプト内の聴覚知識スパンを検出し、効率的にクエリするためのリトリーバルモデルを適用します。次に、BERTに音声知識を注入し、音声知識が必要な場合に効果的な適応を行うために低ランク適応を切り替えます。実験では、AudioBERTが非常に効果的であり、AuditoryBenchで優れたパフォーマンスを達成していることが示されています。データセットとコードは、https://github.com/HJ-Ok/AudioBERT で入手可能です。
胸部X線画像(CXR)は、病院で使用される重要な診断ツールであり、患者の状態を評価し、時間の経過とともに変化を監視するために用いられます。生成モデル、特に拡散ベースのモデルは、リアルな合成X線画像を生成することで有望性を示しています。ただし、これらのモデルは主に、特定の時間に撮影されたCXRsとそれに対応するレポートを使用した条件付き生成に焦点を当てており、時間の経過を捉えるためには臨床的に有用でない制約があります。この制約に対処するために、私たちは新しいフレームワークであるEHRXDiffを提案します。このフレームワークは、以前のCXRsとその後の医療イベント(処方、検査値など)を統合して未来のCXR画像を予測します。私たちのフレームワークは、以前のCXR画像と医療イベントの履歴に基づいて病気の進行を動的に追跡し予測する潜在的な拡散モデルに依存しています。私たちのフレームワークの性能を、臨床的な整合性、人口統計的整合性、視覚的リアリズムという3つの主要な側面で包括的に評価します。私たちは、私たちのフレームワークが潜在的な時間的変化を捉えた高品質でリアルな未来の画像を生成し、臨床シミュレーションツールとしてのさらなる開発の可能性を示唆しています。これは、医療分野における患者モニタリングと治療計画に貴重な洞察を提供する可能性があります。
レコメンダーシステムは、従来の協調フィルタリング手法が使用できないコールドスタートやゼロショットの推薦シナリオにおいて、予測を改善するためにしばしばテキスト側の情報を利用します。過去数年にわたり、レコメンダーシステム向けのテキストマイニング手法が多数提案されてきましたが、その中でも最も注目されているのが文のトランスフォーマーです。しかしながら、これらのモデルは、レコメンダーシステム固有の隠れたパターンとの相互作用データを活用せずに意味の類似性を予測するように訓練されています。本論文では、beeFormerという、相互作用データを用いて文のトランスフォーマーモデルを訓練するためのフレームワークを提案します。beeFormerで訓練されたモデルは、異なるデータセット間で知識を転送し、意味の類似性文のトランスフォーマーや従来の協調フィルタリング手法を上回る性能を示すことを示します。また、異なるドメインの複数のデータセットで訓練することで、1つのモデルに知識を蓄積することが可能となり、レコメンダーシステム向けのテキスト表現を探索するための汎用的でドメインに依存しない文のトランスフォーマーモデルを訓練する可能性を開くことができます。私たちは、実験の再現を可能にするソースコード、訓練済みモデル、および追加の詳細を公開しています。
グラフェムから音素への変換(G2P)は、特に音声合成などのアプリケーションにおいて、音声処理において重要です。G2Pシステムは、多義語や文脈依存の音素を持つ言語に対する言語理解と文脈理解を必要とします。大規模言語モデル(LLMs)は、最近、さまざまな言語タスクで重要な潜在能力を示しており、その音声知識がG2Pに活用できる可能性が示唆されています。本論文では、LLMsのG2P変換における性能を評価し、追加のトレーニングやラベル付きデータなしでLLMsの出力を向上させるプロンプティングおよびポスト処理手法を紹介します。また、ペルシャ語の文レベルの音声的課題におけるG2Pの性能を評価するために設計されたベンチマークデータセットを提供します。提案された手法を適用することで、LLMsが従来のG2Pツールを上回ることが示され、ペルシャ語のような未代表言語でも、LLM支援のG2Pシステムの開発の可能性が示されています。