Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Transformer-gebaseerde taalmodellen verdelen FLOPs uniform over invoerreeksen. In dit werk tonen we aan dat transformers in plaats daarvan kunnen leren om FLOPs (of rekenkracht) dynamisch toe te wijzen aan specifieke posities in een reeks, waarbij de toewijzing langs de reeks wordt geoptimaliseerd voor verschillende lagen over de diepte van het model. Onze methode handhaaft een totaal rekenbudget door het aantal tokens (k) dat kan deelnemen aan de self-attention en MLP-berekeningen in een bepaalde laag te beperken. De te verwerken tokens worden door het netwerk bepaald met behulp van een top-k routeringsmechanisme. Omdat k vooraf is gedefinieerd, gebruikt deze eenvoudige procedure een statische rekenstructuur met bekende tensorformaten, in tegenstelling tot andere conditionele rekentechnieken. Desalniettemin, omdat de identiteiten van de k tokens fluïde zijn, kan deze methode FLOPs niet-uniform verdelen over de tijd- en modeldieptedimensies. Zo is de rekenuitgaven volledig voorspelbaar in totaal, maar dynamisch en contextgevoelig op tokenniveau. Modellen die op deze manier zijn getraind, leren niet alleen om rekenkracht dynamisch toe te wijzen, maar doen dit ook efficiënt. Deze modellen evenaren de basisprestaties voor equivalente FLOPs en wall-clock tijden om te trainen, maar vereisen een fractie van de FLOPs per forward pass, en kunnen tijdens het post-trainingsampling tot wel 50% sneller zijn per stap.
We presenteren Visual AutoRegressive modeling (VAR), een nieuwe generatieparadigma dat het autoregressieve leren op afbeeldingen herdefinieert als een grof-naar-fijn "volgende-schaal voorspelling" of "volgende-resolutie voorspelling", wat afwijkt van de standaard raster-scan "volgende-token voorspelling". Deze eenvoudige, intuïtieve methodologie stelt autoregressieve (AR) transformers in staat om visuele distributies snel te leren en goed te generaliseren: VAR maakt het voor het eerst mogelijk dat AR-modellen diffusion transformers overtreffen in beeldgeneratie. Op de ImageNet 256x256 benchmark verbetert VAR de AR-basislijn aanzienlijk door de Frechet inception distance (FID) te verbeteren van 18.65 naar 1.80, en de inception score (IS) van 80.4 naar 356.4, met een ongeveer 20x snellere inferentiesnelheid. Het is ook empirisch geverifieerd dat VAR de Diffusion Transformer (DiT) overtreft op meerdere dimensies, waaronder beeldkwaliteit, inferentiesnelheid, data-efficiëntie en schaalbaarheid. Het opschalen van VAR-modellen vertoont duidelijke power-law schaalwetten, vergelijkbaar met die waargenomen in LLMs, met lineaire correlatiecoëfficiënten van bijna -0.998 als solide bewijs. VAR toont verder een zero-shot generalisatievermogen in downstream taken, waaronder beeldinpainting, outpaint en bewerken. Deze resultaten suggereren dat VAR aanvankelijk de twee belangrijke eigenschappen van LLMs heeft nagebootst: Schaalwetten en zero-shot taakgeneralisatie. We hebben alle modellen en codes vrijgegeven om de verkenning van AR/VAR-modellen voor visuele generatie en geünificeerd leren te bevorderen.
Algoritmisch redeneren verwijst naar het vermogen om de complexe patronen achter een probleem te begrijpen en deze te ontbinden in een reeks redeneerstappen naar de oplossing. Deze eigenschap van algoritmisch redeneren maakt het een uitdaging voor grote taalmmodellen (LLMs), ook al hebben ze veelbelovende prestaties getoond in andere redeneertaken. In deze context gebruiken sommige recente studies programmeertalen (bijv. Python) om de benodigde logica uit te drukken voor het oplossen van een gegeven instantie/vraag (bijv., Program-of-Thought), geïnspireerd door hun strikte en precieze syntax. Het is echter niet triviaal om uitvoerbare code te schrijven die de correcte logica uitdrukt in één enkele inferentie-aanroep. Bovendien kan de code die specifiek voor een instantie is gegenereerd, niet worden hergebruikt voor andere instanties, zelfs niet als ze van dezelfde taak zijn en mogelijk identieke logica vereisen om op te lossen. Dit artikel presenteert Think-and-Execute, een nieuw raamwerk dat het redeneerproces van taalmmodellen ontbindt in twee stappen. (1) In Think ontdekken we een taakniveau-logica die gedeeld wordt over alle instanties voor het oplossen van een gegeven taak en drukken we deze logica uit met pseudocode; (2) In Execute passen we de gegenereerde pseudocode verder aan aan elke instantie en simuleren we de uitvoering van de code. Met uitgebreide experimenten op zeven algoritmische redeneertaken demonstreren we de effectiviteit van Think-and-Execute. Onze aanpak verbetert het redeneren van LLMs beter in vergelijking met verschillende sterke baselines die instantie-specifiek redeneren uitvoeren (bijv., CoT en PoT), wat de nuttigheid aantoont van het ontdekken van taakniveau-logica. Ook laten we zien dat pseudocode, in vergelijking met natuurlijke taal, het redeneren van LLMs beter kan begeleiden, zelfs als ze getraind zijn om instructies in natuurlijke taal te volgen.
Grote taalmodellen (LLM's) hebben een uitstekende beheersing van de menselijke taal getoond, maar worstelen nog steeds met real-world toepassingen die wiskundig probleemoplossend vermogen vereisen. Hoewel veel strategieën en datasets zijn ontwikkeld om de wiskundige vaardigheden van LLM's te verbeteren, blijft het een uitdaging om zowel de taal- als de wiskundige capaciteiten in geïmplementeerde LLM-systemen gelijktijdig te behouden en te verbeteren. In dit werk passen we de Self-Critique-pijplijn aan, die de uitdaging aanpakt in de feedbackleerfase van LLM-afstemming. We trainen eerst een algemeen Math-Critique-model vanuit de LLM zelf om feedbacksignalen te leveren. Vervolgens passen we sequentieel rejective fine-tuning en directe voorkeursoptimalisatie toe op de eigen generaties van de LLM voor gegevensverzameling. Op basis van ChatGLM3-32B voeren we een reeks experimenten uit op zowel academische als onze nieuw gecreëerde uitdagende dataset, MathUserEval. De resultaten tonen aan dat onze pijplijn het wiskundige probleemoplossend vermogen van de LLM aanzienlijk verbetert, terwijl de taalvaardigheid nog steeds wordt verbeterd, en presteert beter dan LLM's die twee keer zo groot kunnen zijn. Gerelateerde technieken zijn geïmplementeerd in ChatGLM\url{https://chatglm.cn}, een online dienstverlenende LLM. Gerelateerde evaluatiedataset en scripts zijn vrijgegeven op https://github.com/THUDM/ChatGLM-Math.
Afstemmingsvrije, op diffusie gebaseerde modellen hebben aanzienlijk potentieel getoond op het gebied van beeldpersonalisatie en -aanpassing. Ondanks deze opmerkelijke vooruitgang, worstelen huidige modellen echter nog steeds met verschillende complexe uitdagingen bij het genereren van stijlconsistente beelden. Ten eerste is het concept van stijl inherent onderbepaald, waarbij het een veelvoud aan elementen omvat, zoals kleur, materiaal, sfeer, ontwerp en structuur, onder andere. Ten tweede zijn op inversie gebaseerde methoden gevoelig voor stijlafbraak, wat vaak resulteert in het verlies van fijnmazige details. Tot slot vereisen op adapters gebaseerde benaderingen vaak nauwgezette gewichtsafstemming voor elk referentiebeeld om een balans te bereiken tussen stijlintensiteit en tekstuele bestuurbaarheid. In dit artikel beginnen we met het onderzoeken van enkele overtuigende maar vaak over het hoofd geziene observaties. Vervolgens introduceren we InstantStyle, een raamwerk ontworpen om deze problemen aan te pakken door de implementatie van twee belangrijke strategieën: 1) Een eenvoudig mechanisme dat stijl en inhoud van referentiebeelden ontkoppelt binnen de kenmerkruimte, gebaseerd op de aanname dat kenmerken binnen dezelfde ruimte kunnen worden opgeteld of afgetrokken van elkaar. 2) De injectie van referentiebeeldkenmerken uitsluitend in stijlspecifieke blokken, waardoor stijllekken worden voorkomen en de noodzaak voor omslachtige gewichtsafstemming wordt vermeden, wat vaak kenmerkend is voor meer parameterintensieve ontwerpen. Ons werk toont superieure visuele stilisatieresultaten, waarbij een optimale balans wordt gevonden tussen de intensiteit van de stijl en de bestuurbaarheid van tekstuele elementen. Onze code zal beschikbaar zijn op https://github.com/InstantStyle/InstantStyle.
Het opschalen van model- en datagrootte is zeer succesvol gebleken voor de evolutie van LLM's. De schaalwetten voor op diffusie gebaseerde tekst-naar-beeld (T2I) modellen zijn echter nog niet volledig onderzocht. Het is ook onduidelijk hoe het model efficiënt kan worden opgeschaald voor betere prestaties tegen lagere kosten. De verschillende trainingsinstellingen en de hoge trainingskosten maken een eerlijke modelvergelijking buitengewoon moeilijk. In dit werk bestuderen we empirisch de schaaleigenschappen van op diffusie gebaseerde T2I-modellen door uitgebreide en rigoureuze ablatie-onderzoeken uit te voeren op het opschalen van zowel denoiser-backbones als trainingssets, inclusief het trainen van geschaalde UNet- en Transformer-varianten met parameters variërend van 0,4B tot 4B op datasets van maximaal 600M afbeeldingen. Voor het opschalen van modellen vinden we dat de locatie en hoeveelheid cross-attention de prestaties van bestaande UNet-ontwerpen onderscheiden. En het vergroten van het aantal transformer-blokken is parameter-efficiënter voor het verbeteren van tekst-beeld-uitlijning dan het vergroten van het aantal kanalen. Vervolgens identificeren we een efficiënte UNet-variant, die 45% kleiner en 28% sneller is dan de UNet van SDXL. Wat betreft het opschalen van data, laten we zien dat de kwaliteit en diversiteit van de trainingsset belangrijker zijn dan simpelweg de grootte van de dataset. Het verhogen van de dichtheid en diversiteit van bijschriften verbetert de tekst-beeld-uitlijningsprestaties en de leer efficiëntie. Tot slot bieden we schaalfuncties om de tekst-beeld-uitlijningsprestaties te voorspellen als functies van de schaal van modelgrootte, rekenkracht en datasetgrootte.
Dit onderzoek verkent de rol van cross-attentie tijdens inferentie in tekst-conditionele diffusiemodellen. We ontdekken dat de uitvoer van cross-attentie convergeert naar een vast punt na enkele inferentiestappen. Dienovereenkomstig verdeelt het tijdstip van convergentie het gehele inferentieproces natuurlijk in twee fasen: een initiële semantiekplanningsfase, waarin het model vertrouwt op cross-attentie om tekstgerichte visuele semantiek te plannen, en een daaropvolgende kwaliteitsverbeteringsfase, waarin het model probeert afbeeldingen te genereren uit eerder geplande semantiek. Verrassend genoeg vermindert het negeren van tekstcondities in de kwaliteitsverbeteringsfase niet alleen de rekencomplexiteit, maar behoudt het ook de modelprestaties. Dit resulteert in een eenvoudige en trainingsvrije methode genaamd TGATE voor efficiënte generatie, die de cross-attentie-uitvoer in de cache opslaat zodra deze convergeert en deze vastzet tijdens de resterende inferentiestappen. Onze empirische studie op de MS-COCO validatieset bevestigt de effectiviteit ervan. De broncode van TGATE is beschikbaar op https://github.com/HaozheLiu-ST/T-GATE.
Dit artikel maakt hoogwaardige, overdraagbare NeRF-bewerking mogelijk door frequentieontleding. Recente NeRF-bewerkingspijplijnen tillen 2D-styliseringsresultaten op naar 3D-scènes, maar lijden onder wazige resultaten en slagen er niet in gedetailleerde structuren vast te leggen vanwege de inconsistentie tussen 2D-bewerkingen. Onze cruciale inzicht is dat de lagefrequentiecomponenten van afbeeldingen na bewerking meer multiview-consistent zijn in vergelijking met hun hogefrequentieonderdelen. Bovendien wordt het uiterlijkstijl voornamelijk getoond op de lagefrequentiecomponenten, terwijl de inhoudelijke details vooral in de hogefrequentieonderdelen zitten. Dit motiveert ons om bewerkingen uit te voeren op lagefrequentiecomponenten, wat resulteert in hoogwaardige bewerkte scènes. Daarnaast wordt de bewerking uitgevoerd in de lagefrequentiekenmerkruimte, wat stabiele intensiteitscontrole en overdracht van nieuwe scènes mogelijk maakt. Uitgebreide experimenten uitgevoerd op fotorealistische datasets tonen de superieure prestaties aan van hoogwaardige en overdraagbare NeRF-bewerking. De projectpagina is te vinden op https://aigc3d.github.io/freditor.