メモリバリアの突破:対比損失のためのほぼ無限のバッチサイズスケーリングBreaking the Memory Barrier: Near Infinite Batch Size Scaling for
Contrastive Loss
コントラスティブ損失は、表現学習における強力なアプローチであり、より大きなバッチサイズは、類似および非類似のデータをよりよく区別するためにより多くの負例を提供することでパフォーマンスを向上させます。ただし、バッチサイズのスケーリングは、GPUメモリ消費量の二次的な増加によって制約されます。これは、主に類似行列の完全なインスタンス化に起因します。この問題に対処するために、我々は、コントラスティブ損失の計算を任意の小さなブロックに分割するタイルベースの計算戦略を提案します。これにより、類似行列の完全なマテリアリゼーションを回避します。さらに、分散システムの階層構造を活用するためのマルチレベルのタイリング戦略を導入し、GPUレベルでのリングベースの通信を利用して同期を最適化し、CUDAコアレベルでの統合カーネルを使用してI/Oオーバーヘッドを削減します。実験結果は、提案された手法が前例のないレベルまでバッチサイズをスケーリングすることを示しています。例えば、8個または32個のA800 80GBを使用して、バッチサイズが4Mまたは12MのCLIP-ViT-L/14モデルのコントラスティブトレーニングを可能にしますが、精度を犠牲にすることなく。SOTAのメモリ効率の高いソリューションと比較して、同等の速度を維持しながらメモリの削減率が2桁向上しています。コードは公開されます。