Migliori Embedding con Adam Accoppiato
Better Embeddings with Coupled Adam
February 12, 2025
Autori: Felix Stollenwerk, Tobias Stollenwerk
cs.AI
Abstract
Nonostante le loro straordinarie capacità, i modelli linguistici di grandi dimensioni (LLM) apprendono rappresentazioni di parole che presentano la caratteristica indesiderata e ancora poco compresa dell'anisotropia. In questo articolo, sosteniamo che il secondo momento in Adam sia una causa delle rappresentazioni anisotropiche e proponiamo un ottimizzatore modificato, chiamato Coupled Adam, per mitigare il problema. I nostri esperimenti dimostrano che Coupled Adam migliora significativamente la qualità delle rappresentazioni, portando anche a migliori prestazioni sia a monte che a valle su dataset sufficientemente grandi.
English
Despite their remarkable capabilities, LLMs learn word representations that
exhibit the undesirable yet poorly understood feature of anisotropy. In this
paper, we argue that the second moment in Adam is a cause of anisotropic
embeddings, and suggest a modified optimizer called Coupled Adam to mitigate
the problem. Our experiments demonstrate that Coupled Adam significantly
improves the quality of embeddings, while also leading to better upstream and
downstream performance on large enough datasets.Summary
AI-Generated Summary