Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We onderzoeken empirisch een eenvoudige strategie voor het snoeien van lagen in populaire families van open-gewicht, vooraf getrainde grote taalmodellen (LLMs), waarbij we minimale prestatievermindering waarnemen op verschillende vraag-antwoordbenchmarks totdat een groot deel (tot de helft) van de lagen is verwijderd. Om deze modellen te snoeien, identificeren we het optimale blok lagen om te verwijderen door de gelijkenis tussen lagen te analyseren; vervolgens voeren we een kleine hoeveelheid finetuning uit om de schade te "herstellen". In het bijzonder gebruiken we parameter-efficiënte finetuningmethoden (PEFT), specifiek kwantisatie en Low Rank Adapters (QLoRA), zodat elk van onze experimenten kan worden uitgevoerd op een enkele A100 GPU. Vanuit een praktisch perspectief suggereren deze resultaten dat methoden voor het snoeien van lagen andere PEFT-strategieën kunnen aanvullen om de benodigde rekenbronnen voor finetuning verder te verminderen, en tegelijkertijd het geheugen en de latentie van inferentie kunnen verbeteren. Vanuit een wetenschappelijk perspectief impliceert de robuustheid van deze LLMs tegen het verwijderen van lagen dat de huidige voorafgaande trainingsmethoden de parameters in de diepere lagen van het netwerk niet optimaal benutten, of dat de ondiepe lagen een cruciale rol spelen in het opslaan van kennis.
De evolutie van Large Language Models (LLM's) zoals ChatGPT en GPT-4 heeft discussies op gang gebracht over de opkomst van Artificial General Intelligence (AGI). Het repliceren van dergelijke vooruitgang in open-source modellen is echter een uitdaging gebleken. Dit artikel introduceert InternLM2, een open-source LLM dat zijn voorgangers overtreft in uitgebreide evaluaties over 6 dimensies en 30 benchmarks, langetermijncontextmodellering en open-einde subjectieve evaluaties dankzij innovatieve pre-training en optimalisatietechnieken. Het pre-trainingsproces van InternLM2 wordt gedetailleerd beschreven, waarbij de voorbereiding van diverse gegevenstypen, waaronder tekst, code en langetermijncontextgegevens, wordt belicht. InternLM2 vangt efficiënt langetermijnafhankelijkheden op, aanvankelijk getraind op 4k tokens voordat het wordt doorontwikkeld naar 32k tokens in de pre-training en fine-tuning fasen, en vertoont opmerkelijke prestaties op de 200k "Needle-in-a-Haystack" test. InternLM2 wordt verder afgestemd met behulp van Supervised Fine-Tuning (SFT) en een nieuwe Conditional Online Reinforcement Learning from Human Feedback (COOL RLHF) strategie die tegenstrijdige menselijke voorkeuren en reward hacking aanpakt. Door InternLM2-modellen in verschillende trainingsfasen en modelgroottes vrij te geven, bieden we de gemeenschap inzicht in de evolutie van het model.
3D Gaussian Splatting (3DGS) heeft recentelijk een revolutie teweeggebracht in de reconstructie van stralingsvelden, waarbij het hoogwaardige synthese van nieuwe gezichtspunten en snelle renderingsnelheden bereikt zonder het gebruik van baking. Echter slaagt 3DGS er niet in om oppervlakken nauwkeurig weer te geven vanwege de multi-view inconsistente aard van 3D Gaussians. Wij presenteren 2D Gaussian Splatting (2DGS), een nieuwe benadering om geometrisch nauwkeurige stralingsvelden te modelleren en te reconstrueren vanuit multi-view beelden. Onze kernidee is om het 3D volume te reduceren tot een set van 2D georiënteerde planaire Gaussische schijven. In tegenstelling tot 3D Gaussians bieden 2D Gaussians een consistent geometrisch beeld terwijl ze oppervlakken intrinsiek modelleren. Om dunne oppervlakken nauwkeurig te herstellen en een stabiele optimalisatie te bereiken, introduceren we een perspectief-nauwkeurig 2D splatting proces dat gebruik maakt van ray-splat intersectie en rasterisatie. Daarnaast integreren we diepte-vervorming en normal consistency termen om de kwaliteit van de reconstructies verder te verbeteren. We demonstreren dat onze differentieerbare renderer een ruisvrije en gedetailleerde geometrische reconstructie mogelijk maakt, terwijl het competitieve beeldkwaliteit, snelle trainingssnelheid en real-time rendering behoudt. Onze code zal publiekelijk beschikbaar worden gemaakt.
Indrukwekkende vooruitgang in tekst-naar-beeld (T2I) generatieve modellen heeft geleid tot een overvloed aan hoogpresterende modellen die in staat zijn om esthetisch aantrekkelijke, fotorealistische afbeeldingen te genereren. Ondanks deze vooruitgang hebben deze modellen nog steeds moeite om afbeeldingen te produceren die consistent zijn met de invoerprompt, waarbij ze vaak falen in het correct vastleggen van objectaantallen, relaties en attributen. Bestaande oplossingen om de prompt-beeldconsistentie te verbeteren, kampen met de volgende uitdagingen: (1) ze vereisen vaak modelafstemming, (2) ze richten zich alleen op nabije promptvoorbeelden, en (3) ze worden beïnvloed door ongunstige afwegingen tussen beeldkwaliteit, representatiediversiteit en prompt-beeldconsistentie. In dit artikel gaan we in op deze uitdagingen en introduceren we een T2I optimalisatie-door-prompting framework, OPT2I, dat gebruikmaakt van een groot taalmodel (LLM) om de prompt-beeldconsistentie in T2I-modellen te verbeteren. Ons framework begint bij een gebruikersprompt en genereert iteratief herziene prompts met als doel een consistentiescore te maximaliseren. Onze uitgebreide validatie op twee datasets, MSCOCO en PartiPrompts, toont aan dat OPT2I de initiële consistentiescore met maximaal 24,9% kan verhogen in termen van DSG-score, terwijl de FID behouden blijft en de recall tussen gegenereerde en echte data wordt verhoogd. Ons werk baant de weg naar het bouwen van betrouwbaardere en robuustere T2I-systemen door de kracht van LLMs te benutten.
Recente technieken voor tekst-naar-4D-generatie synthetiseren dynamische 3D-scènes met behulp van supervisie van vooraf getrainde tekst-naar-video-modellen. Bestaande representaties voor beweging, zoals vervormingsmodellen of tijdsafhankelijke neurale representaties, zijn echter beperkt in de hoeveelheid beweging die ze kunnen genereren—ze kunnen geen beweging synthetiseren die ver buiten het begrenzingsvlak voor volumeweergave reikt. Het ontbreken van een flexibeler bewegingsmodel draagt bij aan het verschil in realisme tussen 4D-generatiemethoden en recente, bijna-fotorealistische videogeneratiemodellen. Hier stellen we TC4D voor: traject-geconditioneerde tekst-naar-4D-generatie, waarbij beweging wordt opgesplitst in globale en lokale componenten. We representeren de globale beweging van het begrenzingsvlak van een scène met behulp van rigide transformatie langs een traject dat wordt geparametriseerd door een spline. We leren lokale vervormingen die overeenkomen met het globale traject met supervisie van een tekst-naar-video-model. Onze aanpak maakt het mogelijk om scènes te synthetiseren die geanimeerd zijn langs willekeurige trajecten, compositorische scènegeneratie, en aanzienlijke verbeteringen in het realisme en de hoeveelheid gegenereerde beweging, wat we kwalitatief evalueren en via een gebruikersstudie. Videoresultaten zijn te bekijken op onze website: https://sherwinbahmani.github.io/tc4d.
De recente 3D Gaussian splatting (3D-GS) heeft opmerkelijke weergavekwaliteit en efficiëntie getoond in vergelijking met NeRF-gebaseerde neurale scène-representaties. Hoewel het de potentie voor real-time rendering aantoont, loopt 3D-GS tegen weergavebeperkingen aan in grote scènes met complexe details vanwege een overmatig aantal Gaussische primitieven binnen het zichtfrustum. Deze beperking is vooral merkbaar bij uitgezoomde weergaven en kan leiden tot inconsistente rendersnelheden in scènes met variërende details. Bovendien heeft het vaak moeite om het corresponderende detailniveau op verschillende schalen vast te leggen met zijn heuristische dichtheidscontrole-operatie. Geïnspireerd door Level-of-Detail (LOD)-technieken introduceren we Octree-GS, dat een LOD-gestructureerde 3D Gaussische aanpak biedt die ondersteuning biedt voor niveau-van-detail-decompositie voor scène-representatie die bijdraagt aan de uiteindelijke weergaveresultaten. Ons model selecteert dynamisch het juiste niveau uit de set van multi-resolutie ankerpunten, waardoor consistente renderprestaties worden gegarandeerd met adaptieve LOD-aanpassingen terwijl hoogwaardige weergaveresultaten behouden blijven.
In dit onderzoek stellen we AniPortrait voor, een nieuw raamwerk voor het genereren van hoogwaardige animatie die wordt aangedreven door audio en een referentieportretafbeelding. Onze methodologie is verdeeld in twee fasen. Eerst extraheren we 3D-intermediaire representaties uit audio en projecteren deze naar een reeks van 2D-gezichtslandmarken. Vervolgens gebruiken we een robuust diffusiemodel, in combinatie met een bewegingsmodule, om de landmarkenreeks om te zetten in fotorealistische en temporeel consistente portretanimatie. Experimentele resultaten tonen de superioriteit van AniPortrait aan op het gebied van gezichtsnaturaliteit, posediversiteit en visuele kwaliteit, waardoor een verbeterde perceptuele ervaring wordt geboden. Bovendien toont onze methodologie aanzienlijk potentieel op het gebied van flexibiliteit en beheersbaarheid, wat effectief kan worden toegepast in gebieden zoals gezichtsbewegingsbewerking of gezichtsheruitvoering. We geven code en modelgewichten vrij op https://github.com/scutzzj/AniPortrait.
We presenteren DreamPolisher, een nieuwe op Gaussian Splatting gebaseerde methode met geometrische begeleiding, speciaal ontworpen om consistentie tussen verschillende aanzichten en gedetailleerde informatie te leren uit tekstuele beschrijvingen. Hoewel recente vooruitgang in tekst-naar-3D-generatiemethoden veelbelovend is, slagen bestaande methoden er vaak niet in om consistentie tussen aanzichten en textuurrijkdom te garanderen. Dit probleem wordt vooral opvallend bij methoden die uitsluitend werken met tekstuele invoer. Om dit aan te pakken, stellen we een tweestapsbenadering op basis van Gaussian Splatting voor die geometrische consistentie tussen aanzichten afdwingt. In eerste instantie ondergaat een ruwe 3D-generatie verfijning via geometrische optimalisatie. Vervolgens gebruiken we een ControlNet-gestuurde verfijner, gekoppeld aan de geometrische consistentieterm, om zowel de textuurgetrouwheid als de algehele consistentie van het gegenereerde 3D-model te verbeteren. Empirische evaluaties met diverse tekstuele prompts die verschillende objectcategorieën omvatten, tonen de effectiviteit van DreamPolisher aan in het genereren van consistente en realistische 3D-objecten die nauw aansluiten bij de semantiek van de tekstuele instructies.
Dit artikel presenteert een SYCL-implementatie van Multi-Layer Perceptrons (MLP's), die is gericht op en geoptimaliseerd is voor de Intel Data Center GPU Max 1550. Om de prestaties te verbeteren, minimaliseert onze implementatie de trage toegang tot het globale geheugen door het hergebruik van gegevens binnen het algemene registerbestand en het gedeelde lokale geheugen te maximaliseren, door de bewerkingen in elke laag van de MLP te fuseren. We tonen met een eenvoudig roofline-model aan dat dit resulteert in een significante toename van de rekenintensiteit, wat leidt tot verbeterde prestaties, vooral voor inferentie. We vergelijken onze aanpak met een vergelijkbare CUDA-implementatie voor MLP's en laten zien dat onze implementatie op de Intel Data Center GPU de CUDA-implementatie op Nvidia's H100 GPU overtreft met een factor tot 2,84 bij inferentie en 1,75 bij training. Het artikel toont ook de efficiëntie van onze SYCL-implementatie in drie belangrijke gebieden: beeldcompressie, Neural Radiance Fields en Physics-Informed Machine Learning. In alle gevallen overtreft onze implementatie de standaard Intel Extension for PyTorch (IPEX)-implementatie op dezelfde Intel GPU met een factor tot 30 en de CUDA PyTorch-versie op Nvidia's H100 GPU met een factor tot 19. De code is te vinden op https://github.com/intel/tiny-dpcpp-nn.