Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve AI heeft de afgelopen jaren snelle vooruitgang geboekt en ongekende mogelijkheden bereikt op het gebied van multimodale begrip en codegeneratie. Dit kan een nieuw paradigma voor front-end ontwikkeling mogelijk maken, waarbij multimodale LLM's visuele ontwerpen direct kunnen omzetten in code-implementaties. In dit werk formaliseren we dit als een Design2Code-taak en voeren we uitgebreide benchmarking uit. Specifiek stellen we handmatig een benchmark samen van 484 diverse webpagina's uit de praktijk als testcases en ontwikkelen we een set van automatische evaluatiemetrics om te beoordelen hoe goed huidige multimodale LLM's de code-implementaties kunnen genereren die direct renderen in de gegeven referentiewebpagina's, waarbij screenshots als invoer worden gebruikt. We vullen de automatische metrics aan met uitgebreide humanevaluaties. We ontwikkelen een reeks multimodale promptingmethoden en tonen hun effectiviteit aan op GPT-4V en Gemini Pro Vision. We finetunen verder een open-source Design2Code-18B-model dat met succes de prestaties van Gemini Pro Vision evenaart. Zowel humanevaluatie als automatische metrics laten zien dat GPT-4V de beste prestaties levert op deze taak in vergelijking met andere modellen. Bovendien vinden annotators dat de door GPT-4V gegenereerde webpagina's in 49% van de gevallen de originele referentiewebpagina's kunnen vervangen wat betreft visuele verschijning en inhoud; en misschien verrassend, in 64% van de gevallen worden de door GPT-4V gegenereerde webpagina's als beter beschouwd dan de originele referentiewebpagina's. Onze fijnmazige uitsplitsing van metrics geeft aan dat open-source modellen vooral achterblijven in het herinneren van visuele elementen van de invoerwebpagina's en in het genereren van correcte lay-outontwerpen, terwijl aspecten zoals tekstinhoud en kleuring aanzienlijk kunnen worden verbeterd met de juiste finetuning.
Diffusiemodellen creëren data uit ruis door de voorwaartse paden van data naar ruis om te keren en zijn naar voren gekomen als een krachtige techniek voor generatieve modellering van hoogdimensionale, perceptuele data zoals afbeeldingen en video's. Rectified flow is een recente formulering van een generatief model dat data en ruis verbindt in een rechte lijn. Ondanks de betere theoretische eigenschappen en conceptuele eenvoud, is het nog niet beslissend gevestigd als standaardpraktijk. In dit werk verbeteren we bestaande technieken voor het bemonsteren van ruis voor het trainen van rectified flow-modellen door ze te richten op perceptueel relevante schalen. Door middel van een grootschalige studie demonstreren we de superieure prestaties van deze aanpak in vergelijking met gevestigde diffusieformuleringen voor hoogwaardige tekst-naar-beeldsynthese. Daarnaast presenteren we een nieuwe transformer-gebaseerde architectuur voor tekst-naar-beeldgeneratie die afzonderlijke gewichten gebruikt voor de twee modaliteiten en een bidirectionele stroom van informatie mogelijk maakt tussen beeld- en teksttokens, wat het tekstbegrip, de typografie en de beoordelingen van menselijke voorkeur verbetert. We demonstreren dat deze architectuur voorspelbare schaalbaarheidstrends volgt en een lagere validatiefout correleert aan verbeterde tekst-naar-beeldsynthese, zoals gemeten door verschillende metrieken en menselijke evaluaties. Onze grootste modellen overtreffen state-of-the-art modellen, en we zullen onze experimentele data, code en modelgewichten publiekelijk beschikbaar maken.
Op afbeeldingen gebaseerd virtueel passen (VTON), dat als doel heeft een aangeklede afbeelding te genereren van een doelpersoon die een winkelkledingstuk draagt, is een uitdagende taak in beeld-synthese die niet alleen een hoge geloofwaardigheid van de aangeklede persoon vereist, maar ook het volledige behoud van kledingdetails. Om dit probleem aan te pakken, stellen we Outfitting over Try-on Diffusion (OOTDiffusion) voor, waarbij we gebruikmaken van de kracht van vooraf getrainde latente diffusiemodellen en een nieuwe netwerkarchitectuur ontwerpen voor realistische en controleerbare virtuele pasvorm. Zonder een expliciet vervormingsproces stellen we een outfitting UNet voor om de detailkenmerken van het kledingstuk te leren, en deze te combineren met het doelmenselijk lichaam via onze voorgestelde outfitting-fusie in het ruisverwijderingsproces van diffusiemodellen. Om de controleerbaarheid van ons outfitting UNet verder te verbeteren, introduceren we outfitting dropout in het trainingsproces, waardoor we de sterkte van de kledingkenmerken kunnen aanpassen via classifier-free guidance. Onze uitgebreide experimenten op de VITON-HD en Dress Code datasets tonen aan dat OOTDiffusion efficiënt hoogwaardige aangeklede afbeeldingen genereert voor willekeurige menselijke en kledingafbeeldingen, wat andere VTON-methoden overtreft in zowel geloofwaardigheid als controleerbaarheid, wat wijst op een indrukwekkende doorbraak in virtueel passen. Onze broncode is beschikbaar op https://github.com/levihsu/OOTDiffusion.
De ontwikkeling van multimodale modellen heeft een belangrijke stap voorwaarts betekend in hoe machines video's begrijpen. Deze modellen hebben belofte getoond bij het analyseren van korte videoclips. Wanneer het echter gaat om langere formaten zoals films, schieten ze vaak tekort. De belangrijkste obstakels zijn het gebrek aan hoogwaardige, diverse videogegevens en de intensieve arbeid die nodig is om dergelijke gegevens te verzamelen of te annoteren. In het licht van deze uitdagingen stellen we MovieLLM voor, een nieuw raamwerk ontworpen om synthetische, hoogwaardige gegevens voor lange video's te creëren. Dit raamwerk benut de kracht van GPT-4 en tekst-naar-beeldmodellen om gedetailleerde scripts en bijbehorende visuals te genereren. Onze aanpak onderscheidt zich door zijn flexibiliteit en schaalbaarheid, waardoor het een superieur alternatief is voor traditionele methoden van gegevensverzameling. Onze uitgebreide experimenten valideren dat de gegevens die door MovieLLM worden geproduceerd, de prestaties van multimodale modellen bij het begrijpen van complexe videoverhalen aanzienlijk verbeteren, waardoor de beperkingen van bestaande datasets met betrekking tot schaarste en bias worden overwonnen.
Onlangs heeft videogeneratie een aanzienlijke snelle ontwikkeling doorgemaakt, gebaseerd op superieure tekst-naar-beeld generatietechnieken. In dit werk stellen we een framework voor hoge kwaliteit voor beeld-naar-video generatie voor, genaamd AtomoVideo. Op basis van multi-granulariteit beeldinjectie bereiken we een hogere gelijkenis van de gegenereerde video met het gegeven beeld. Daarnaast, dankzij hoogwaardige datasets en trainingsstrategieën, bereiken we een grotere bewegingsintensiteit terwijl we superieure temporele consistentie en stabiliteit behouden. Onze architectuur is flexibel uitbreidbaar naar de taak van videoframevoorspelling, waardoor lange sequentievoorspelling mogelijk is door middel van iteratieve generatie. Bovendien kan onze aanpak, dankzij het ontwerp van adaptertraining, goed worden gecombineerd met bestaande gepersonaliseerde modellen en controleerbare modules. Door kwantitatieve en kwalitatieve evaluatie behaalt AtomoVideo superieure resultaten in vergelijking met populaire methoden, meer voorbeelden zijn te vinden op onze projectwebsite: https://atomo-video.github.io/.
Grote taalmodellen (LLM's) worden geconfronteerd met een enorme uitdaging vanwege de buitensporige reken- en geheugeneisen van het veelgebruikte Transformer-architectuur. Hoewel het state space model (SSM) een nieuw type fundamentele netwerkarchitectuur is dat een lagere rekencomplexiteit biedt, moet de prestaties nog volledig kunnen concurreren met die van Transformers. Dit artikel introduceert DenseSSM, een nieuwe benadering om de doorstroming van verborgen informatie tussen lagen in SSM's te verbeteren. Door selectief verborgen toestanden van ondiepe lagen te integreren in diepere lagen, behoudt DenseSSM fijnmazige informatie die cruciaal is voor de uiteindelijke output. Dichte verbindingen versterken DenseSSM, terwijl het nog steeds de paralleliseerbaarheid van training en de efficiëntie van inferentie behoudt. De voorgestelde methode kan breed toepasbaar zijn op verschillende SSM-types zoals RetNet en Mamba. Met een vergelijkbare modelgrootte behaalt DenseSSM aanzienlijke verbeteringen, geïllustreerd door DenseRetNet dat het originele RetNet overtreft met een nauwkeurigheidsverbetering van tot wel 5% op openbare benchmarks.
Multimodale Large Language Models (MLLMs) hebben recentelijk aanzienlijke vooruitgang geboekt. Desalniettemin blijven er uitdagingen bestaan op het gebied van de nauwkeurige herkenning en interpretatie van complexe details in hoogresolutiebeelden. Hoewel dit essentieel is voor de ontwikkeling van robuuste MLLMs, blijft dit gebied onderbelicht. Om deze uitdaging aan te pakken, introduceert ons werk InfiMM-HD, een nieuwe architectuur die specifiek is ontworpen voor het verwerken van afbeeldingen met verschillende resoluties met een lage rekenkundige overhead. Deze innovatie maakt het mogelijk om MLLMs uit te breiden naar hogere-resolutiecapaciteiten. InfiMM-HD integreert een cross-attention module en visuele vensters om de rekenkosten te verlagen. Door deze architectuur te combineren met een vierfasen trainingspijplijn, bereikt ons model efficiënt en kosteneffectief een verbeterde visuele perceptie. Empirisch onderzoek onderstreept de robuustheid en effectiviteit van InfiMM-HD, wat nieuwe onderzoeksmogelijkheden opent in verwante gebieden. Codes en modellen zijn beschikbaar op https://huggingface.co/Infi-MM/infimm-hd.
Recente vooruitgang in tekst-naar-beeldmodellen (bijv. Stable Diffusion) en bijbehorende gepersonaliseerde technologieën (bijv. DreamBooth en LoRA) stelt individuen in staat om hoogwaardige en fantasierijke afbeeldingen te genereren. Deze modellen hebben echter vaak beperkingen bij het genereren van afbeeldingen met resoluties buiten hun getrainde domein. Om deze beperking te overwinnen, presenteren we de Resolution Adapter (ResAdapter), een domeinconsistente adapter ontworpen voor diffusiemodellen om afbeeldingen te genereren met onbeperkte resoluties en aspectverhoudingen. In tegenstelling tot andere multi-resolutie generatiemethoden die afbeeldingen van statische resolutie verwerken met complexe nabewerkingsoperaties, genereert ResAdapter direct afbeeldingen met dynamische resolutie. Met name na het leren van een diep begrip van pure resolutiepriors, genereert ResAdapter, getraind op een algemene dataset, resolutievrije afbeeldingen met gepersonaliseerde diffusiemodellen terwijl het oorspronkelijke stijldomein behouden blijft. Uitgebreide experimenten tonen aan dat ResAdapter met slechts 0,5M afbeeldingen met flexibele resoluties kan verwerken voor willekeurige diffusiemodellen. Verdere experimenten laten zien dat ResAdapter compatibel is met andere modules (bijv. ControlNet, IP-Adapter en LCM-LoRA) voor beeldgeneratie over een breed scala aan resoluties, en kan worden geïntegreerd in andere multi-resolutiemodellen (bijv. ElasticDiffusion) voor het efficiënt genereren van afbeeldingen met hogere resolutie. Het project is te vinden op https://res-adapter.github.io.
Dit technisch rapport introduceert TripoSR, een 3D-reconstructiemodel dat gebruikmaakt van transformer-architectuur voor snelle feed-forward 3D-generatie, waarbij een 3D-mesh uit een enkele afbeelding wordt gegenereerd in minder dan 0,5 seconden. Gebaseerd op de LRM-netwerkarchitectuur, integreert TripoSR aanzienlijke verbeteringen in gegevensverwerking, modelontwerp en trainingsmethoden. Evaluaties op openbare datasets tonen aan dat TripoSR superieure prestaties vertoont, zowel kwantitatief als kwalitatief, in vergelijking met andere open-source alternatieven. Uitgebracht onder de MIT-licentie, is TripoSR bedoeld om onderzoekers, ontwikkelaars en creatieven te voorzien van de nieuwste ontwikkelingen in generatieve 3D-AI.
3D-assetgeneratie krijgt momenteel enorm veel aandacht, geïnspireerd door het recente succes van tekstgestuurde 2D-contentcreatie. Bestaande tekst-naar-3D-methoden gebruiken vooraf getrainde tekst-naar-beeld-diffusiemodellen in een optimalisatieprobleem of fine-tunen ze op synthetische data, wat vaak resulteert in niet-fotorealistische 3D-objecten zonder achtergronden. In dit artikel presenteren we een methode die vooraf getrainde tekst-naar-beeldmodellen gebruikt als een prior, en leert om multi-view-beelden te genereren in een enkel denoisingsproces op basis van real-world data. Concreet stellen we voor om 3D-volume-rendering en cross-frame-attention-lagen te integreren in elk blok van het bestaande U-Net-netwerk van het tekst-naar-beeldmodel. Bovendien ontwerpen we een autoregressieve generatie die meer 3D-consistente beelden weergeeft vanuit elk gezichtspunt. We trainen ons model op real-world datasets van objecten en demonstreren de mogelijkheden om instanties te genereren met een verscheidenheid aan hoogwaardige vormen en texturen in authentieke omgevingen. Vergeleken met bestaande methoden zijn de resultaten gegenereerd door onze methode consistent en hebben ze een gunstige visuele kwaliteit (-30% FID, -37% KID).
Image-to-video (I2V) generatietaken hebben altijd moeite met het behouden van hoge trouw in open domeinen. Traditionele beeldanimatietechnieken richten zich voornamelijk op specifieke domeinen zoals gezichten of menselijke houdingen, waardoor ze moeilijk te generaliseren zijn naar open domeinen. Verschillende recente I2V-frameworks gebaseerd op diffusiemodellen kunnen dynamische inhoud genereren voor afbeeldingen in open domeinen, maar slagen er niet in om de trouw te behouden. We ontdekten dat twee hoofdfactoren van lage trouw het verlies van beelddetails en de voorspellingsfouten van ruis tijdens het ontruisingsproces zijn. Daarom stellen we een effectieve methode voor die kan worden toegepast op mainstream videodiffusiemodellen. Deze methode bereikt hoge trouw door het aanvullen van nauwkeurigere beeldinformatie en ruiscorrectie. Specifiek, gegeven een bepaalde afbeelding, voegt onze methode eerst ruis toe aan de latente invoerafbeelding om meer details te behouden, waarna de ruisachtige latente waarde wordt ontruist met de juiste correctie om de voorspellingsfouten van ruis te verminderen. Onze methode is afstelmingsvrij en plug-and-play. De experimentele resultaten tonen de effectiviteit van onze aanpak aan bij het verbeteren van de trouw van gegenereerde video's. Voor meer image-to-video gegenereerde resultaten, verwijzen we naar de projectwebsite: https://noise-rectification.github.io.
Taal biedt een manier om complexe concepten op te delen in behapbare stukken. Recente werken in robotimitatieleren gebruiken taalgeconditioneerde beleidsregels die acties voorspellen op basis van visuele waarnemingen en de hoogwaardige taak die in taal is gespecificeerd. Deze methoden benutten de structuur van natuurlijke taal om gegevens te delen tussen semantisch vergelijkbare taken (bijvoorbeeld "pak een colablikje" en "pak een appel") in multitask-datasets. Naarmate taken echter semantisch diverser worden (bijvoorbeeld "pak een colablikje" en "schenk een kopje in"), wordt het delen van gegevens tussen taken moeilijker, waardoor het leren om hoogwaardige taken naar acties te mappen veel meer demonstratiegegevens vereist. Om taken en acties te verbinden, is ons inzicht om de robot de taal van acties aan te leren, waarbij laagwaardige bewegingen worden beschreven met meer gedetailleerde zinnen zoals "beweeg arm naar voren". Het voorspellen van deze taalbewegingen als een tussenstap tussen taken en acties dwingt het beleid om de gedeelde structuur van laagwaardige bewegingen te leren over schijnbaar verschillende taken. Bovendien kan een beleid dat is geconditioneerd op taalbewegingen eenvoudig worden gecorrigeerd tijdens de uitvoering door middel van door mensen gespecificeerde taalbewegingen. Dit maakt een nieuw paradigma mogelijk voor flexibele beleidsregels die kunnen leren van menselijke interventie in taal. Onze methode RT-H bouwt een actiehiërarchie op met behulp van taalbewegingen: het leert eerst taalbewegingen te voorspellen, en geconditioneerd op dit en de hoogwaardige taak, voorspelt het acties, waarbij in alle fasen visuele context wordt gebruikt. We laten zien dat RT-H deze taal-actiehiërarchie benut om beleidsregels te leren die robuuster en flexibeler zijn door effectief gebruik te maken van multitask-datasets. We laten zien dat deze beleidsregels niet alleen reageren op taalinterventies, maar ook kunnen leren van dergelijke interventies en methoden overtreffen die leren van teleoperatieve interventies. Onze website en video's zijn te vinden op https://rt-hierarchy.github.io.
Het manipuleren van objecten met twee multi-vingerige handen is een langdurige uitdaging geweest in de robotica, wat wordt toegeschreven aan het contactrijke karakter van veel manipulatietaken en de complexiteit die inherent is aan het coördineren van een hoogdimensionaal bimanueel systeem. In dit werk beschouwen we het probleem van het draaien van deksels van verschillende flesachtige objecten met twee handen, en tonen we aan dat beleidsregels die in simulatie zijn getraind met behulp van diepgaande reinforcement learning effectief kunnen worden overgedragen naar de echte wereld. Met nieuwe technische inzichten in fysieke modellering, real-time perceptie en beloningsontwerp toont het beleid generalisatievermogen over een diverse set van onbekende objecten, waarbij dynamisch en behendig gedrag wordt getoond. Onze bevindingen dienen als overtuigend bewijs dat diepgaande reinforcement learning gecombineerd met sim-to-real transfer een veelbelovende aanpak blijft voor het aanpakken van manipulatietaken van ongekende complexiteit.
Het construeren van foto-realistische Free-Viewpoint Videos (FVVs) van dynamische scènes uit multi-view video's blijft een uitdagende onderneming. Ondanks de opmerkelijke vooruitgang die is geboekt door huidige neurale renderingtechnieken, vereisen deze methoden over het algemeen complete videosequenties voor offline training en zijn ze niet in staat tot real-time rendering. Om deze beperkingen aan te pakken, introduceren we 3DGStream, een methode ontworpen voor efficiënte FVV-streaming van dynamische scènes uit de echte wereld. Onze methode bereikt snelle on-the-fly per-frame reconstructie binnen 12 seconden en real-time rendering met 200 FPS. Specifiek maken we gebruik van 3D Gaussians (3DGs) om de scène weer te geven. In plaats van de naïeve aanpak van het direct optimaliseren van 3DGs per frame, gebruiken we een compacte Neural Transformation Cache (NTC) om de translaties en rotaties van 3DGs te modelleren, wat de benodigde trainingstijd en opslag voor elk FVV-frame aanzienlijk vermindert. Bovendien stellen we een adaptieve 3DG-toevoegingsstrategie voor om opkomende objecten in dynamische scènes te verwerken. Experimenten tonen aan dat 3DGStream competitieve prestaties levert op het gebied van renderingsnelheid, beeldkwaliteit, trainingstijd en modelopslag in vergelijking met state-of-the-art methoden.