Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel onthult een nieuw lineair kenmerk dat exclusief is voor transformerdecoders, waaronder modellen zoals GPT, LLaMA, OPT, BLOOM en andere. We analyseren de embeddingtransformaties tussen opeenvolgende lagen en ontdekken een bijna perfecte lineaire relatie (Procrustes-gelijkvormigheidsscore van 0,99). De lineariteit neemt echter af wanneer de residuele component wordt verwijderd vanwege een consistent lage uitgangsnorm van de transformatorlaag. Onze experimenten tonen aan dat het verwijderen of lineair benaderen van enkele van de meest lineaire blokken van transformatoren de verliesfunctie of modelprestaties niet significant beïnvloedt. Bovendien introduceren we in onze pretrainingexperimenten op kleinere modellen een op cosinus-gelijkenis gebaseerde regularisatie, gericht op het verminderen van de lineariteit van de lagen. Deze regularisatie verbetert de prestatiemetingen op benchmarks zoals Tiny Stories en SuperGLUE en vermindert ook succesvol de lineariteit van de modellen. Deze studie daagt het bestaande begrip van transformatorarchitecturen uit en suggereert dat hun werking mogelijk lineairer is dan eerder werd aangenomen.
Key-value (KV) caching speelt een essentiële rol bij het versnellen van het decoderen voor transformer-gebaseerde autoregressieve grote taalmodellen (LLMs). Echter, de hoeveelheid geheugen die nodig is om de KV-cache op te slaan, kan onhoudbaar worden bij lange sequentielengtes en grote batchgroottes. Sinds de uitvinding van de transformer zijn Multi-Query Attention (MQA) en de generalisatie daarvan, Grouped-Query Attention (GQA), twee van de meest effectieve interventies ontdekt om de grootte van de KV-cache te verminderen. MQA en GQA passen beide het ontwerp van het attention-blok aan zodat meerdere query-heads een enkele key/value-head kunnen delen, waardoor het aantal afzonderlijke key/value-heads aanzienlijk wordt verminderd terwijl de nauwkeurigheid slechts minimaal afneemt. In dit artikel laten we zien dat het mogelijk is om Multi-Query Attention een stap verder te brengen door ook key- en value-heads tussen aangrenzende lagen te delen, wat resulteert in een nieuw attention-ontwerp dat we Cross-Layer Attention (CLA) noemen. Met CLA ontdekken we dat het mogelijk is om de grootte van de KV-cache nog eens te halveren terwijl de nauwkeurigheid bijna hetzelfde blijft als bij ongewijzigde MQA. In experimenten waarbij we 1B- en 3B-parameter modellen vanaf nul trainen, demonstreren we dat CLA een Pareto-verbetering biedt ten opzichte van de geheugen/nauwkeurigheid-afwegingen die mogelijk zijn met traditionele MQA, waardoor inferentie met langere sequentielengtes en grotere batchgroottes mogelijk wordt dan anders het geval zou zijn.
Wereldmodellen vormen een veelbelovende aanpak voor het trainen van reinforcement learning-agenten op een veilige en sample-efficiënte manier. Recente wereldmodellen werken voornamelijk met sequenties van discrete latente variabelen om omgevingsdynamiek te modelleren. Deze compressie naar een compacte discrete representatie kan echter visuele details negeren die belangrijk zijn voor reinforcement learning. Tegelijkertijd zijn diffusiemodellen een dominante aanpak geworden voor beeldgeneratie, wat een uitdaging vormt voor gevestigde methoden die discrete latente variabelen modelleren. Gemotiveerd door deze paradigmaverschuiving introduceren we DIAMOND (DIffusion As a Model Of eNvironment Dreams), een reinforcement learning-agent die getraind is in een diffusie-wereldmodel. We analyseren de belangrijkste ontwerpkeuzes die nodig zijn om diffusie geschikt te maken voor wereldmodellering, en demonstreren hoe verbeterde visuele details kunnen leiden tot betere agentprestaties. DIAMOND behaalt een gemiddelde menselijk genormaliseerde score van 1,46 op de competitieve Atari 100k-benchmark; een nieuw record voor agenten die volledig binnen een wereldmodel zijn getraind. Om toekomstig onderzoek naar diffusie voor wereldmodellering te bevorderen, maken we onze code, agenten en speelbare wereldmodellen beschikbaar op https://github.com/eloialonso/diamond.
Huidige methoden voor gezichtsheruitvoering en -verwisseling zijn voornamelijk gebaseerd op GAN-frameworks, maar recentelijk is de aandacht verschoven naar vooraf getrainde diffusiemodellen vanwege hun superieure generatiecapaciteiten. Het trainen van deze modellen is echter resource-intensief, en de resultaten hebben nog geen bevredigende prestatieniveaus bereikt. Om dit probleem aan te pakken, introduceren we Face-Adapter, een efficiënte en effectieve adapter ontworpen voor hoogwaardige en hoogfideliteitsbewerkingen van gezichten in vooraf getrainde diffusiemodellen. We observeren dat zowel gezichtsheruitvoering- als verwisselingstaken in essentie combinaties zijn van doelstructuur, ID en attributen. Ons doel is om de controle over deze factoren voldoende te ontkoppelen om beide taken in één model te realiseren. Specifiek bevat onze methode: 1) Een Spatial Condition Generator die precieze landmarks en achtergrond levert; 2) Een Plug-and-play Identity Encoder die gezichtsembeddingen naar de tekstruimte overbrengt via een transformatordecoder. 3) Een Attribute Controller die ruimtelijke condities en gedetailleerde attributen integreert. Face-Adapter bereikt vergelijkbare of zelfs superieure prestaties op het gebied van bewegingscontroleprecisie, ID-retentievermogen en generatiekwaliteit in vergelijking met volledig gefinetunde modellen voor gezichtsheruitvoering/verwisseling. Daarnaast integreert Face-Adapter naadloos met verschillende StableDiffusion-modellen.
Het vakgebied van beeldmatching heeft een voortdurende opkomst gezien van nieuwe leerbare technieken voor feature matching, met steeds betere prestaties op conventionele benchmarks. Uit ons onderzoek blijkt echter dat, ondanks deze vooruitgang, hun potentieel voor real-world toepassingen beperkt wordt door hun beperkte generalisatievermogen naar nieuwe beelddomeinen. In dit artikel introduceren we OmniGlue, de eerste leerbare beeldmatcher die is ontworpen met generalisatie als een kernprincipe. OmniGlue maakt gebruik van brede kennis uit een vision foundation model om het feature matching-proces te begeleiden, wat de generalisatie naar domeinen die niet tijdens de training zijn gezien, verbetert. Daarnaast stellen we een nieuw aandachtmechanisme voor dat wordt geleid door keypoint-posities, waardoor ruimtelijke en uiterlijke informatie worden ontward, wat leidt tot verbeterde matching descriptors. We voeren uitgebreide experimenten uit op een reeks van 7 datasets met verschillende beelddomeinen, waaronder scene-level, objectgerichte en luchtfoto's. De nieuwe componenten van OmniGlue leiden tot relatieve verbeteringen van 20,9% op onbekende domeinen ten opzichte van een direct vergelijkbaar referentiemodel, terwijl het ook de recente LightGlue-methode relatief met 9,5% overtreft. Code en model zijn te vinden op https://hwjiang1510.github.io/OmniGlue.
We presenteren gepersonaliseerde residuen en gelokaliseerde aandacht-gestuurde sampling voor efficiënte concept-gestuurde generatie met behulp van tekst-naar-beeld diffusiemodellen. Onze methode representeert eerst concepten door de gewichten van een voorgetraind tekst-geconditioneerd diffusiemodel te bevriezen en laag-rang residuen te leren voor een kleine subset van de lagen van het model. De residu-gebaseerde aanpak maakt vervolgens direct de toepassing mogelijk van onze voorgestelde samplingtechniek, die de geleerde residuen alleen toepast in gebieden waar het concept is gelokaliseerd via kruis-attentie en de originele diffusiegewichten toepast in alle andere regio's. Gelokaliseerde sampling combineert daarom de geleerde identiteit van het concept met het bestaande generatieve prior van het onderliggende diffusiemodel. We tonen aan dat gepersonaliseerde residuen effectief de identiteit van een concept vastleggen in ~3 minuten op een enkele GPU zonder het gebruik van regularisatiebeelden en met minder parameters dan eerdere modellen, en gelokaliseerde sampling maakt het mogelijk om het originele model te gebruiken als een sterk prior voor grote delen van het beeld.