Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmmodellen (LLMs) staan centraal in moderne natuurlijke taalverwerking en leveren uitzonderlijke prestaties bij diverse taken. Hun intensieve reken- en geheugeneisen vormen echter uitdagingen, vooral voor apparaten met beperkte DRAM-capaciteit. Dit artikel gaat de uitdaging aan om LLMs efficiënt te draaien die de beschikbare DRAM-capaciteit overschrijden, door de modelparameters op flashgeheugen op te slaan maar ze op aanvraag naar DRAM te brengen. Onze methode omvat het opstellen van een inferentiekostenmodel dat afgestemd is op het gedrag van flashgeheugen, wat ons leidt naar optimalisatie in twee cruciale gebieden: het verminderen van de hoeveelheid data die van flash wordt overgedragen en het lezen van data in grotere, meer aaneengesloten brokken. Binnen dit op flashgeheugen gebaseerde raamwerk introduceren we twee hoofdtechnieken. Ten eerste vermindert "windowing" strategisch de dataoverdracht door eerder geactiveerde neuronen te hergebruiken, en ten tweede vergroot "row-column bundling", afgestemd op de sequentiële data-toegangssterktes van flashgeheugen, de grootte van de databrokken die van flashgeheugen worden gelezen. Deze methoden maken gezamenlijk het draaien van modellen mogelijk die tot twee keer zo groot zijn als de beschikbare DRAM, met een 4-5x en 20-25x toename in inferentiesnelheid vergeleken met naïeve laadbenaderingen op CPU en GPU, respectievelijk. Onze integratie van spaarzaamheidsbewustzijn, contextadaptief laden en een hardwaregericht ontwerp baant de weg voor effectieve inferentie van LLMs op apparaten met beperkt geheugen.
Schaalbare Vectorafbeeldingen (SVG's) zijn essentieel geworden in moderne beeldweergavetoepassingen vanwege hun oneindige schaalbaarheid in resolutie, veelzijdige bruikbaarheid en bewerkingsmogelijkheden. SVG's zijn vooral populair op het gebied van webontwikkeling en grafisch ontwerp. Bestaande benaderingen voor SVG-modellering met behulp van deep learning hebben vaak moeite met het genereren van complexe SVG's en zijn beperkt tot eenvoudigere varianten die uitgebreide verwerking en vereenvoudiging vereisen. Dit artikel introduceert StarVector, een multimodaal SVG-generatiemodel dat effectief Code Generation Large Language Models (CodeLLM's) en vision-modellen integreert. Onze aanpak maakt gebruik van een CLIP-beeldencoder om visuele representaties uit pixelgebaseerde afbeeldingen te extraheren, die vervolgens worden omgezet in visuele tokens via een adaptermodule. Deze visuele tokens worden voorafgevoegd aan de SVG-token-embeddings, en de reeks wordt gemodelleerd door het StarCoder-model met behulp van next-token-prediction, waardoor het model effectief leert om de visuele en code-tokens uit te lijnen. Hierdoor kan StarVector onbeperkte SVG's genereren die pixelafbeeldingen nauwkeurig weergeven. Om de prestaties van StarVector te evalueren, presenteren we SVG-Bench, een uitgebreide benchmark voor het evalueren van SVG-methoden over meerdere datasets en relevante metrieken. Binnen deze benchmark introduceren we nieuwe datasets, waaronder SVG-Stack, een grootschalige dataset van real-world SVG-voorbeelden, en gebruiken we deze om StarVector voor te trainen als een groot foundation-model voor SVG's. Onze resultaten tonen aanzienlijke verbeteringen in visuele kwaliteit en complexiteitsbehandeling ten opzichte van huidige methoden, wat een opmerkelijke vooruitgang markeert in SVG-generatietechnologie. Code en modellen: https://github.com/joanrod/star-vector
Het afleiden van 3D-structuur en camera uit 2D-landmarken vormt de hoeksteen van het hele vakgebied van computervisie. Traditionele methoden waren beperkt tot specifieke rigide objecten, zoals die in Perspective-n-Point (PnP)-problemen, maar deep learning heeft onze mogelijkheden uitgebreid om een breed scala aan objectklassen te reconstrueren (bijv. C3PDO en PAUL) met weerbaarheid tegen ruis, occlusies en perspectiefvervormingen. Al deze technieken zijn echter beperkt door de fundamentele noodzaak om correspondenties vast te stellen in de 3D-trainingsdata – wat hun bruikbaarheid aanzienlijk beperkt tot toepassingen waar men overvloedig "in-correspondentie" 3D-data heeft. Onze aanpak benut de inherente permutatie-equivariantie van transformers om te kunnen omgaan met een variërend aantal punten per 3D-data-instantie, bestand te zijn tegen occlusies en te generaliseren naar onbekende categorieën. We demonstreren state-of-the-art prestaties op benchmarks voor 2D-3D-liftingtaken. Omdat onze aanpak getraind kan worden over zo'n brede klasse van structuren, noemen we het simpelweg een 3D Lifting Foundation Model (3D-LFM) – de eerste in zijn soort.
Het vermogen van grote taalmmodellen (LLMs) om visuele invoer te verwerken heeft geleid tot algemene visiesystemen, die verschillende visie-taal (VL) taken verenigen door instructieafstemming. Echter, vanwege de enorme diversiteit in invoer-uitvoerformaten in het visiedomein, slagen bestaande algemene modellen er niet in segmentatie en multi-image invoer te integreren met taken op grof niveau in een enkel raamwerk. In dit werk introduceren we VistaLLM, een krachtig visueel systeem dat zowel grove als fijnmazige VL taken over enkele en meerdere invoerafbeeldingen aanpakt met behulp van een verenigd raamwerk. VistaLLM maakt gebruik van een instructiegestuurde beeldtokenizer die globale embeddings filtert met behulp van taakbeschrijvingen om gecomprimeerde en verfijnde kenmerken uit talrijke afbeeldingen te extraheren. Bovendien past VistaLLM een gradiëntbewuste adaptieve bemonsteringstechniek toe om binaire segmentatiemaskers als sequenties weer te geven, wat een aanzienlijke verbetering is ten opzichte van eerder gebruikte uniforme bemonstering. Om de gewenste capaciteit van VistaLLM te versterken, hebben we CoinIt samengesteld, een uitgebreide dataset voor instructieafstemming van grof naar fijn met 6,8 miljoen samples. We pakken ook het gebrek aan multi-image grondingsdatasets aan door een nieuwe taak te introduceren, AttCoSeg (Attribute-level Co-Segmentation), die het redeneer- en grondingsvermogen van het model over meerdere invoerafbeeldingen versterkt. Uitgebreide experimenten op een breed scala aan V- en VL taken tonen de effectiviteit van VistaLLM aan door consistente state-of-the-art prestaties te behalen ten opzichte van sterke basislijnen over alle downstream taken. Onze projectpagina is te vinden op https://shramanpramanick.github.io/VistaLLM/.
We presenteren HAAR, een nieuw streng-gebaseerd generatief model voor 3D menselijke kapsels. Specifiek produceert HAAR, gebaseerd op tekstuele invoer, 3D kapsels die kunnen worden gebruikt als productie-assets in moderne computer graphics engines. Huidige AI-gebaseerde generatieve modellen maken gebruik van krachtige 2D-priors om 3D-inhoud te reconstrueren in de vorm van puntenwolken, meshes of volumetrische functies. Door echter gebruik te maken van de 2D-priors, zijn ze intrinsiek beperkt tot het alleen reconstrueren van de visuele delen. Sterk verborgen haarstructuren kunnen niet worden gereconstrueerd met deze methoden, en ze modelleren alleen de 'buitenste schil', wat niet klaar is voor gebruik in physics-based rendering of simulatiepijplijnen. In tegenstelling stellen wij een eerste tekst-gestuurde generatieve methode voor die 3D haarstrengen gebruikt als onderliggende representatie. Door gebruik te maken van 2D visuele vraag-antwoord (VQA) systemen, annoteren we automatisch synthetische haarmodellen die zijn gegenereerd uit een kleine set door kunstenaars gemaakte kapsels. Dit stelt ons in staat om een latent diffusiemodel te trainen dat opereert in een gemeenschappelijke kapsel UV-ruimte. In kwalitatieve en kwantitatieve studies demonstreren we de mogelijkheden van het voorgestelde model en vergelijken we het met bestaande benaderingen voor kapselgeneratie.
Amodale perceptie, het vermogen om complete objectstructuren te begrijpen vanuit gedeeltelijke zichtbaarheid, is een fundamentele vaardigheid, zelfs voor baby's. Het belang ervan strekt zich uit tot toepassingen zoals autonoom rijden, waar een duidelijk begrip van sterk afgeschermde objecten essentieel is. Moderne detectie- en trackingalgoritmen negeren echter vaak deze cruciale capaciteit, mogelijk vanwege de prevalentie van modale annotaties in de meeste datasets. Om het gebrek aan amodale data aan te pakken, introduceren we de TAO-Amodal benchmark, met 880 diverse categorieën in duizenden videosequenties. Onze dataset bevat amodale en modale begrenzingsvakken voor zichtbare en afgeschermde objecten, inclusief objecten die gedeeltelijk buiten beeld zijn. Om amodale tracking met objectpermanentie te verbeteren, maken we gebruik van een lichtgewicht plug-in module, de amodale expander, om standaard modale trackers om te zetten in amodale trackers door fine-tuning op enkele honderden videosequenties met data-augmentatie. We behalen een verbetering van 3,3% en 1,6% in de detectie en tracking van afgeschermde objecten op TAO-Amodal. Bij evaluatie op mensen produceert onze methode dramatische verbeteringen van 2x in vergelijking met state-of-the-art modale basislijnen.
Neural Radiance Field (NeRF) is naar voren gekomen als een toonaangevende techniek voor de synthese van nieuwe aanzichten, dankzij zijn indrukwekkende fotorealistische reconstructie- en weergavecapaciteiten. Het bereiken van real-time NeRF-rendering in grootschalige scènes blijft echter een uitdaging, wat vaak leidt tot het gebruik van complexe gebakken mesh-representaties met een aanzienlijk aantal driehoeken of resource-intensieve ray marching in gebakken representaties. Wij dagen deze conventies uit en merken op dat hoogwaardige geometrie, vertegenwoordigd door meshes met veel driehoeken, niet noodzakelijk is voor het bereiken van fotorealistische weergavekwaliteit. Daarom stellen we MixRT voor, een nieuwe NeRF-representatie die een mesh van lage kwaliteit, een aanzichtsafhankelijke verplaatsingskaart en een gecomprimeerd NeRF-model omvat. Dit ontwerp benut effectief de mogelijkheden van bestaande grafische hardware, waardoor real-time NeRF-rendering op edge-apparaten mogelijk wordt. Door gebruik te maken van een sterk geoptimaliseerd WebGL-gebaseerd renderingframework bereikt onze voorgestelde MixRT real-time renderingsnelheden op edge-apparaten (meer dan 30 FPS bij een resolutie van 1280 x 720 op een MacBook M1 Pro laptop), betere weergavekwaliteit (0,2 PSNR hoger in binnenomgevingen van de Unbounded-360 datasets) en een kleinere opslaggrootte (minder dan 80% vergeleken met state-of-the-art methoden).
Super-resolutie (SR) technieken zijn recentelijk voorgesteld om de uitvoer van neurale stralingsvelden (NeRF) op te schalen en hoogwaardige afbeeldingen te genereren met verbeterde inferentiesnelheden. Bestaande NeRF+SR-methoden verhogen echter de trainingsoverhead door gebruik te maken van extra invoerkenmerken, verliesfuncties en/of dure trainingsprocedures zoals kennisdistillatie. In dit artikel streven we ernaar SR te benutten voor efficiëntiewinsten zonder kostbare training of architectuurwijzigingen. Specifiek bouwen we een eenvoudige NeRF+SR-pijplijn die bestaande modules direct combineert, en we stellen een lichtgewicht augmentatietechniek voor, willekeurige patch sampling, voor de training. In vergelijking met bestaande NeRF+SR-methoden vermindert onze pijplijn de SR-rekenoverhead en kan deze tot 23x sneller worden getraind, waardoor het haalbaar wordt om uit te voeren op consumentenapparaten zoals de Apple MacBook. Experimenten tonen aan dat onze pijplijn NeRF-uitvoer met 2-4x kan opschalen terwijl de hoge kwaliteit behouden blijft, wat de inferentiesnelheden tot 18x verhoogt op een NVIDIA V100 GPU en 12.8x op een M1 Pro-chip. We concluderen dat SR een eenvoudige maar effectieve techniek kan zijn om de efficiëntie van NeRF-modellen voor consumentenapparaten te verbeteren.
In dit artikel presenteren we een nieuwe tweestapsbenadering die volledig gebruikmaakt van de informatie die door de referentieafbeelding wordt geboden om een aangepaste kennisprior te creëren voor beeld-naar-3D-generatie. Terwijl eerdere benaderingen voornamelijk vertrouwen op een algemene diffusieprior, die moeite heeft om consistente resultaten met de referentieafbeelding te leveren, stellen we een onderwerp-specifiek en multimodaal diffusiemodel voor. Dit model ondersteunt niet alleen NeRF-optimalisatie door de schaduwmodus te overwegen voor verbeterde geometrie, maar versterkt ook de textuur vanuit de ruwe resultaten om superieure verfijning te bereiken. Beide aspecten dragen bij aan het nauwkeurig uitlijnen van de 3D-inhoud met het onderwerp. Uitgebreide experimenten tonen de superioriteit van onze methode, Customize-It-3D, aan, die eerdere werken met een aanzienlijke marge overtreft. Het produceert nauwkeurige 360-gradenreconstructies met indrukwekkende visuele kwaliteit, waardoor het geschikt is voor diverse toepassingen, waaronder tekst-naar-3D-creatie.
Dit artikel introduceert een nieuwe benadering voor topic modeling die gebruik maakt van latente codeboeken van een Vector-Quantized Variational Auto-Encoder (VQ-VAE), waarbij de rijke informatie van vooraf getrainde embeddings, zoals die van een vooraf getraind taalmodel, discreet wordt vastgelegd. Door de latente codeboeken en embeddings op een nieuwe manier te interpreteren als conceptuele bag-of-words, stellen we een nieuw generatief topic model voor genaamd Topic-VQ-VAE (TVQ-VAE), dat de originele documenten die gerelateerd zijn aan het respectievelijke latente codeboek omgekeerd genereert. De TVQ-VAE kan de topics visualiseren met verschillende generatieve distributies, waaronder de traditionele BoW-distributie en autoregressieve beeldgeneratie. Onze experimentele resultaten op het gebied van documentanalyse en beeldgeneratie tonen aan dat TVQ-VAE effectief de topiccontext vastlegt, wat de onderliggende structuren van de dataset onthult en flexibele vormen van documentgeneratie ondersteunt. De officiële implementatie van de voorgestelde TVQ-VAE is beschikbaar op https://github.com/clovaai/TVQ-VAE.
Tekstgestuurde diffusiemodellen zijn steeds populairder geworden voor diverse beeldbewerkingstaken, zoals inpainting, stilisering en objectvervanging. Het blijft echter een open onderzoeksprobleem om dit taal-visieparadigma toe te passen op meer gedetailleerde beeldverwerkingstaken, zoals ruisreductie, superresolutie, deblurring en het verwijderen van compressieartefacten. In dit paper ontwikkelen we TIP, een tekstgestuurd beeldverwerkingsframework dat natuurlijke taal gebruikt als gebruiksvriendelijke interface om het beeldherstelproces te sturen. We beschouwen de capaciteit van tekstinformatie in twee dimensies. Ten eerste gebruiken we inhoudsgerichte prompts om de semantische uitlijning te verbeteren, waardoor identiteitsambiguïteit in de herstelresultaten effectief wordt verminderd. Ten tweede is onze aanpak het eerste framework dat fijnmazige instructies ondersteunt via taalgebaseerde kwantitatieve specificatie van de herstelsterkte, zonder expliciete taakspecifieke ontwerpen. Daarnaast introduceren we een nieuw fusiemechanisme dat de bestaande ControlNet-architectuur versterkt door te leren hoe de generatieve prior opnieuw geschaald moet worden, waardoor een betere herstelfideliteit wordt bereikt. Onze uitgebreide experimenten tonen de superieure herstelprestaties van TIP aan in vergelijking met de state-of-the-art, naast de flexibiliteit van tekstgebaseerde controle over de hersteleffecten.
Video's vormen een zeer redundante databron en vaak is het voldoende om een paar belangrijke momenten te identificeren om een bepaalde taak op te lossen. In dit artikel presenteren we een tekst-geconditioneerde video-resampler (TCR) module die gebruikmaakt van een vooraf getrainde en bevroren visuele encoder en een groot taalmodel (LLM) om lange videosequenties voor een taak te verwerken. TCR lokaliseert relevante visuele kenmerken uit de video op basis van een tekstconditie en biedt deze aan een LLM aan om een tekstreactie te genereren. Dankzij het lichtgewicht ontwerp en het gebruik van cross-attention kan TCR meer dan 100 frames tegelijk verwerken, waardoor het model veel langere videofragmenten kan gebruiken dan eerdere werken. We leveren de volgende bijdragen: (i) we ontwerpen een transformer-gebaseerde samplingarchitectuur die lange video's kan verwerken op basis van een taak, samen met een trainingsmethode die het mogelijk maakt om vooraf getrainde visuele en taalmodellen te verbinden; (ii) we valideren empirisch de effectiviteit ervan op een breed scala aan evaluatietaken en stellen een nieuwe state-of-the-art in op NextQA, EgoSchema en de EGO4D-LTA challenge; en (iii) we bepalen taken die langere videocontexten vereisen en die dus effectief kunnen worden gebruikt voor verdere evaluatie van langeafstandsvideomodellen.