翻訳付きの日次キュレーションされたAI研究論文
Llama 3.1 8BおよびMistral NeMo 12Bモデルをそれぞれ4Bおよび8Bのパラメータに圧縮するための剪定と蒸留を用いた包括的なレポートを提供します。我々は2つの異なる剪定戦略、すなわち(1)深さ剪定と(2)共通のベンチマークデータで結果を評価する隠れ層/注意機構/MLP(幅)剪定を探求します。その後、NeMo Alignerでモデルを整列させ、instruct-tunedバージョンでテストします。このアプローチにより、Llama 3.1 8Bから魅力的な4Bモデルが生成され、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8B(MN-Minitron-8Bと略す)モデルが生成されます。我々は、元のデータにアクセスできない場合、蒸留データセットで教師モデルをわずかに微調整することが有益であることを見出しました。我々は、Hugging Faceでベースモデルの重みをオープンソース化し、許諾されたライセンスで提供します。
この論文では、公正かつ堅牢な方法でビデオの基盤モデルを評価することについて議論します。言語や画像の基盤モデルとは異なり、多くのビデオの基盤モデルは異なるパラメータ(サンプリングレート、フレーム数、事前トレーニングステップなど)で評価されるため、公正かつ堅牢な比較が困難です。そのため、ビデオの理解の2つの中核的な能力、外観理解と動き理解を測定するための注意深く設計された評価フレームワークを提案します。我々の調査結果によると、既存のビデオの基盤モデル、UMTやInternVideo2のようなテキスト監督型、V-JEPAのような自己監督型を含むモデルは、少なくともこれらの能力のいずれかにおいて制限があることが明らかになりました。その代替案として、動きベースと外観ベースのビデオのために堅牢な視覚表現を構築する新しいビデオの基盤モデルであるTWLV-Iを紹介します。公開されているデータセットのみで事前トレーニングされた、5つのアクション認識ベンチマークでの線形プロービングの平均トップ1精度に基づくと、当社のモデルはV-JEPA(ViT-L)と比較して4.6%pの改善、UMT(ViT-L)と比較して7.7%pの改善を示しました。さらに、はるかに大きなモデルと比較しても、当社のモデルはDFN(ViT-H)と比較して7.2%p、V-JEPA(ViT-H)と比較して2.7%p、InternVideo2(ViT-g)と比較して2.8%pの改善を示しました。また、一般的に使用されるいくつかのビデオベンチマークのビデオからTWLV-Iによって取得された埋め込みベクトルを提供し、これらの埋め込みを直接利用できる評価ソースコードも提供します。コードは"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"で入手可能です。
LLM(Large Language Model)が長いコンテキストから有用な情報を利用できるようにすることは、多くの下流アプリケーションにとって重要です。ただし、従来のトランスフォーマーアーキテクチャを使用して長いコンテキスト長を実現するには、かなりのトレーニングおよび推論リソースが必要です。本論文では、どのようなデコーダ専用LLMにもコンテキスト長を拡張し、モデルが非常に長いシーケンスから関連情報に焦点を当てることができるようにするために設計されたFocusLLMフレームワークを提案します。FocusLLMは、モデルの元のコンテキスト長に基づいてテキスト入力をチャンクに分割し、注意の散漫化の問題を緩和するために長いローカルコンテキストを各チャンクに追加し、各チャンクから重要な情報を抽出するプロンプトとして使用する革新的な並列デコーディングメカニズムに基づいています。そして、最終的に抽出された情報をローカルコンテキストに統合します。FocusLLMは、トレーニング効率と汎用性に優れており、以前の手法よりもはるかに少ないトレーニングコストで8Kの入力長でトレーニングされ、下流の長いコンテキストタスク全体で優れたパフォーマンスを発揮し、400Kトークンに達するまでの広範な長いテキストを処理する際に強力な言語モデリング能力を維持します。コードはhttps://github.com/leezythu/FocusLLM で入手可能です。
近年、拡散に基づく制御可能なビデオ生成技術は大きな進歩を遂げています。しかし、微細なオブジェクト部分、洗練された動きの軌跡、一貫した背景の動きを含む複雑なシナリオでの正確な制御を実現することは依然として課題です。本論文では、自由形状のマスクと矢印を活用した条件付きビデオ生成の新手法であるTrackGoを紹介します。この手法は、ユーザーに柔軟で正確なビデオコンテンツの操作メカニズムを提供します。また、制御実装のためのTrackAdapterを提案し、事前学習されたビデオ生成モデルの時間的自己注意層にシームレスに統合できる効率的で軽量なアダプターです。この設計は、これらの層の注意マップがビデオ内の動きに対応する領域を正確に活性化できるという我々の観察を活用しています。実験結果は、TrackAdapterによって強化された新手法が、FVD、FID、ObjMCスコアなどの主要指標で最先端の性能を達成していることを示しています。TrackGoのプロジェクトページは以下からアクセスできます: https://zhtjtcz.github.io/TrackGo-Page/
大規模多モーダルモデル(LMMs)は多くの視覚タスクで優れた能力を示しています。モデルの性能を評価するための多数のよく知られたベンチマークが存在しますが、これらはますます十分な余裕がなくなっています。そのため、次世代のLMMsに十分な挑戦を与える新しい世代のベンチマークが必要とされています。LMMsが潜在的な可能性を示す1つの分野は、グラフ解析であり、特に、図表を解釈する際にアナリストが通常行うタスク、つまり関数やデータ系列の平均値、切片、相関を推定することです。本研究では、現在および将来の最先端LMMsに適したグラフ解析ベンチマークであるGRABを紹介します。当社のベンチマークは完全に合成されており、高品質でノイズのない問題を提供します。GRABには、4つのタスクと23のグラフ特性をカバーする2170の問題が含まれています。GRABで20のLMMsを評価し、最も性能の高いモデルがわずか21.7%のスコアを達成するなど、これは厳しいベンチマークであることがわかりました。最後に、モデルの成功と課題がある場所を調査するためにさまざまな削除実験を実施します。私たちは、この重要で成長している領域での進歩を促進するためにGRABを公開します。
テキストから画像(T2I)拡散モデルは、テキストプロンプトを与えられた際に高品質な画像を生成する能力を印象的に示しています。しかしながら、プロンプトと画像の整合性を確保することは依然として大きな課題であり、つまり、プロンプトの意味に忠実に整合する画像を生成することです。最近の研究では、潜在コードを最適化することで忠実性を向上させようと試みていますが、これにより潜在コードが分布外に逸脱して非現実的な画像が生成される可能性があります。本論文では、生成された画像のプロンプトとの整合性と信憑性を向上させるために、適応的にプロンプトの各トークンの重みを調整する単純で効果的なアプローチであるFRAPを提案します。オブジェクトの存在を促進し、オブジェクト修飾子のペアの結合を奨励する統一された目的関数を最小化することにより、各トークンの重み係数を適応的に更新するオンラインアルゴリズムを設計します。包括的な評価を通じて、FRAPが複雑なデータセットからのプロンプトに対するプロンプト画像の整合性が著しく向上させ、最近の潜在コード最適化手法と比較して平均待ち時間が短く、例えば、COCO-SubjectデータセットにおいてD&Bより4秒速いことを示します。さらに、視覚的比較とCLIP-IQA-Realメトリックの評価を通じて、FRAPがプロンプト画像の整合性を向上させるだけでなく、現実的な外観を持つより信頼性の高い画像を生成することを示します。また、FRAPをプロンプト再構築LLMと組み合わせて劣化したプロンプト画像の整合性を回復することを探究し、プロンプト画像の整合性と画像品質の両方で改善が見られることを観察します。
現代の機械学習システムは、広範な一般化を達成するために大規模なデータセットに依存しており、これはしばしばロボット学習において課題となります。各ロボットプラットフォームやタスクにはごく少数のデータセットしかない場合があります。1つのポリシーを多様な種類のロボット全体でトレーニングすることにより、ロボット学習手法ははるかに広範で多様なデータセットを活用し、それによってより良い一般化と堅牢性をもたらすことができます。ただし、複数のロボットデータに1つのポリシーをトレーニングすることは難しいです。なぜなら、ロボットにはセンサーやアクチュエータ、制御周波数が大きく異なることがあるからです。私たちはCrossFormerを提案します。これは、どんな具現形態からもデータを受け取ることができるスケーラブルで柔軟なトランスフォーマーベースのポリシーです。私たちは、20種類の異なるロボット具現形態で合計900Kの軌跡を持つ、これまでで最大かつ最も多様なデータセットでCrossFormerをトレーニングします。私たちは、同じネットワーク重みが単腕および複数腕の操作システム、車輪付きロボット、クアッドコプター、四足歩行ロボットなど、大きく異なるロボットを制御できることを示します。従来の手法とは異なり、私たちのモデルは観測空間や行動空間の手動整列を必要としません。実世界での包括的な実験では、私たちの手法が各具現形態に合わせた専門家ポリシーと同等のパフォーマンスを発揮し、さらに具現形態間学習の先行技術を大幅に上回ることを示しています。
テキストから画像へのモデルにおける持続的な課題に取り組みます:特定の数のオブジェクトを正確に生成すること。画像テキストのペアから学習する現在のモデルは、訓練データが任意のオブジェクトに対してあり得るあらゆる数のオブジェクトを描写できないため、数えることに苦労しています。この課題を解決するために、オブジェクトのポテンシャルを集約する数えモデルから導かれる数え損失に基づいて生成された画像を最適化することを提案します。アウトオブザボックスの数えモデルを利用することは、2つの理由から困難です:第一に、モデルはオブジェクトの視点によって異なるポテンシャル集約のためのスケーリングハイパーパラメータが必要であり、第二に、分類器ガイダンス技術は、ノイズの多い中間拡散ステップで動作する修正されたモデルを必要とします。これらの課題に対処するために、テキスト条件付け埋め込みを変更し、動的にハイパーパラメータを調整することで、推論された画像の精度を向上させる反復オンライントレーニングモードを提案します。当社の手法は3つの主要な利点を提供します:(i) 検出モデルに基づく導出不可能な数え技術を考慮できること、(ii) カウンティング技術や画像生成方法を迅速に変更できるゼロショットのプラグアンドプレイソリューションであること、および(iii) 最適化された数えトークンを再利用して追加の最適化なしに正確な画像を生成できること。さまざまなオブジェクトの生成を評価し、精度の大幅な改善を示します。プロジェクトページはhttps://ozzafar.github.io/count_tokenで利用可能です。
機械学習アプリケーションにおいて、外部分布(OOD)データの検出は、モデルの過信を軽減し、展開されたシステムの信頼性と安全性を向上させるために重要です。既存の大部分のOOD検出手法は、主に画像やテキストなどの単一モーダル入力に対処しています。マルチモーダルドキュメントの文脈では、コンピュータビジョンタスクに焦点を当てて開発されたこれらの手法の性能に関する包括的な研究が著しく不足しています。私たちは、文書分類システムにおけるマルチモーダルOODタスク向けの新しい手法であるAttention Head Masking(AHM)を提案します。私たちの実験結果は、提案されたAHM手法がすべての最先端手法を上回り、既存のソリューションと比較して偽陽性率(FPR)を7.5%まで大幅に低下させることを示しています。この手法は、視覚的およびテキスト情報が同じTransformerアーキテクチャの下でモデル化される文書などのマルチモーダルデータにもうまく一般化します。高品質な公開文書データセットの不足に対処し、文書のOOD検出に関するさらなる研究を促進するために、新しい文書AIデータセットであるFinanceDocsを紹介します。私たちのコードとデータセットは公開されています。
ビジュアル検索システムは、古い表現と新しい表現の不一致により、モデルを改善する際に重要な課題に直面しています。コストとリソースを消費するバックフィリングプロセスには、新しいモデルが導入されるたびにギャラリーセット内の画像の特徴ベクトルを再計算する必要があります。この課題に対処するため、これまでの研究では、バックワード互換性のあるトレーニング手法が探求されてきました。これにより、バックフィリングなしで新しい表現と古い表現を直接比較できるようになりました。これらの進歩にもかかわらず、バックワード互換性と独立してトレーニングされたモデルのパフォーマンスのバランスを実現することは未解決の課題です。本論文では、追加の次元で表現空間を拡張し、古いモデルとの互換性を実現し、同時に新しい情報を統合するための直交変換を学習することで、この課題に取り組みます。この変換により、元の特徴空間の幾何学が保持され、モデルが以前のバージョンと整合し、同時に新しいデータを学習します。当社のOrthogonal Compatible Aligned(OCA)アプローチは、モデルの更新時に再インデックス化する必要をなくし、追加のマッピング関数なしで異なるモデルの更新間で特徴を直接比較できることを保証します。CIFAR-100およびImageNet-1kでの実験結果は、当社の手法が以前のモデルとの互換性を維持するだけでなく、最先端の精度を達成し、いくつかの既存手法を凌駕していることを示しています。
大規模言語モデル(LLMs)は、トレーニングデータに埋め込まれた社会的偏見を受け継ぎ、増幅する傾向があり、性別、職業、その他の敏感なカテゴリに関連する有害なステレオタイプを強化する可能性があります。この問題は、バイアスのあるLLMsが不公平な実践をもたらし、採用、オンラインコンテンツのモデレーション、さらには刑事司法制度など、さまざまな分野で社会的不平等を悪化させる可能性があるため、特に問題となります。これまでの研究は、内在的なバイアスを強調するよう設計された特殊なデータセットを使用して、LLMsのバイアスを検出することに焦点を当ててきましたが、米国労働統計局(NBLS)などの権威あるデータセットとこれらの調査結果の相関関係についての調査が著しく不足していました。このギャップを埋めるために、私たちは「バイアスを排除した状態」でLLMsを評価し、生成された出力がNBLSデータで見つかる分布とどのように比較されるかを分析する実証的研究を行います。さらに、NBLSのインスタンスを直接組み込む簡単で効果的なバイアス軽減メカニズムを提案します。私たちの研究は、指示可能、ベース、エキスパートモデルの混合など、7つの異なるLLMsに及び、既存のバイアス検出技術によってしばしば見過ごされる重要なレベルのバイアスを明らかにします。重要なのは、外部データセットに依存しない私たちのバイアス軽減方法が、バイアススコアを大幅に低下させ、より公平で信頼性の高いLLMsを作成するための私たちのアプローチの有効性を示していることです。
Open Language Data Initiativeの共有タスクの一環として、FLORES+評価セットを拡張し、モザンビークで広く話されている低リソース言語であるEmakhuwaを含めました。我々は、ポルトガル語からEmakhuwaへのdevおよびdevtestセットの翻訳を行い、翻訳プロセスと品質保証措置を詳細に説明します。我々の方法論には、投稿編集や適合性評価を含むさまざまな品質チェックが含まれています。結果として得られたデータセットには、各ソースに複数の参照文が含まれています。我々は、ニューラル機械翻訳システムのトレーニングと既存の多言語翻訳モデルのファインチューニングからのベースライン結果を提示します。我々の調査結果から、Emakhuwaにおけるつづりの不一致が課題であることが示唆されます。さらに、ベースラインモデルはこの評価セットで性能が低かったことから、Emakhuwaの機械翻訳品質を向上させるためのさらなる研究の必要性が強調されます。データはhttps://huggingface.co/datasets/LIACC/Emakhuwa-FLORESで公開されています。