Des meilleures embeddings avec Adam couplé
Better Embeddings with Coupled Adam
February 12, 2025
Auteurs: Felix Stollenwerk, Tobias Stollenwerk
cs.AI
Résumé
Malgré leurs capacités remarquables, les LLM apprennent des représentations de mots qui présentent la caractéristique indésirable mais mal comprise de l'anisotropie. Dans cet article, nous soutenons que le deuxième moment dans Adam est une cause des plongements anisotropes, et suggérons un optimiseur modifié appelé Adam Couplé pour atténuer le problème. Nos expériences démontrent que Adam Couplé améliore significativement la qualité des plongements, tout en conduisant à de meilleures performances en amont et en aval sur des ensembles de données suffisamment grands.
English
Despite their remarkable capabilities, LLMs learn word representations that
exhibit the undesirable yet poorly understood feature of anisotropy. In this
paper, we argue that the second moment in Adam is a cause of anisotropic
embeddings, and suggest a modified optimizer called Coupled Adam to mitigate
the problem. Our experiments demonstrate that Coupled Adam significantly
improves the quality of embeddings, while also leading to better upstream and
downstream performance on large enough datasets.Summary
AI-Generated Summary