Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Rotary Position Embedding (RoPE) in Transformer-modellen kent inherente beperkingen die de lengte-extrapolatie verzwakken. We herinterpreteren de aandachtmatrix met positionele codering als een ruisachtige kenmerkmatrix en stellen Denoising Positional Encoding (DoPE) voor, een trainingsvrije methode gebaseerd op getrunceerde matrixentropie om uitbijterfrequentiebanden in de kenmerkmatrix te detecteren. Door gebruik te maken van de ruiskarakteristieken van de kenmerkmatrix, herparameteriseren we deze verder met een parameterloze Gaussische verdeling om robuuste extrapolatie te bereiken. Onze methode onthult theoretisch de onderliggende oorzaak van het aandachtssink-fenomeen en de connectie ervan met getrunceerde matrixentropie. Experimenten met naald-in-een-hooiberg- en veelvoudige in-context-leertaken tonen aan dat DoPE de retrievalsnauwkeurigheid en redeneerstabiliteit aanzienlijk verbetert over uitgebreide contexten (tot 64K tokens). De resultaten laten zien dat de ruisonderdrukkingsstrategie voor positionele embeddings aandachtssinks effectief vermindert en gebalanceerde aandachtspatronen herstelt, wat een eenvoudige maar krachtige oplossing biedt voor het verbeteren van lengtegeneralizatie. Onze projectpagina is Project: https://The-physical-picture-of-LLMs.github.io.