Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opmerkelijke vooruitgang van Multi-modale Grote Taalmodellen (MLLMs) heeft ongeëvenaarde aandacht getrokken vanwege hun superieure prestaties in visuele contexten. Hun mogelijkheden voor het oplossen van visuele wiskundige problemen zijn echter nog onvoldoende geëvalueerd en begrepen. Wij onderzoeken huidige benchmarks die overmatig visuele inhoud in tekstuele vragen incorporeren, wat MLLMs mogelijk helpt bij het afleiden van antwoorden zonder de invoerdiagrammen echt te interpreteren. Daarom introduceren wij MathVerse, een allesomvattende visuele wiskundebenchmark ontworpen voor een eerlijke en diepgaande evaluatie van MLLMs. Wij verzamelen zorgvuldig 2.612 hoogwaardige, multi-disciplinaire wiskundeproblemen met diagrammen uit openbaar beschikbare bronnen. Elk probleem wordt vervolgens door menselijke annotatoren omgezet in zes verschillende versies, elk met verschillende niveaus van informatie-inhoud in multi-modaliteit, wat resulteert in in totaal 15K testsamples. Deze aanpak stelt MathVerse in staat om uitgebreid te beoordelen of en in hoeverre MLLMs de visuele diagrammen daadwerkelijk begrijpen voor wiskundige redenering. Daarnaast stellen wij een Chain-of-Thought (CoT) evaluatiestrategie voor voor een fijnmazige beoordeling van de uitvoerantwoorden. In plaats van naïef waar of onwaar te beoordelen, gebruiken wij GPT-4(V) om cruciale redeneerstappen adaptief te extraheren en vervolgens elke stap te scoren met gedetailleerde foutenanalyse, wat de tussenliggende CoT-redeneerkwaliteit van MLLMs kan onthullen. Wij hopen dat de MathVerse-benchmark unieke inzichten kan bieden om de toekomstige ontwikkeling van MLLMs te begeleiden. Projectpagina: https://mathverse-cuhk.github.io
Het creëren van 3D-inhoud op basis van tekstprompts heeft recentelijk opmerkelijke successen geboekt. Huidige tekst-naar-3D-methoden genereren echter vaak 3D-resultaten die niet goed aansluiten bij menselijke voorkeuren. In dit artikel presenteren we een uitgebreid framework, genaamd DreamReward, om tekst-naar-3D-modellen te leren en te verbeteren op basis van feedback over menselijke voorkeuren. Om te beginnen verzamelen we 25k expertvergelijkingen op basis van een systematische annotatiepijplijn die beoordeling en rangschikking omvat. Vervolgens bouwen we Reward3D -- het eerste algemene tekst-naar-3D-model voor menselijke voorkeuren dat effectief menselijke voorkeuren kan coderen. Gebaseerd op het 3D- beloningsmodel, voeren we ten slotte een theoretische analyse uit en presenteren we Reward3D Feedback Learning (DreamFL), een direct afstimalgoritme om de multi-view diffusiemodellen te optimaliseren met een herziene scorer. Gestaafd door theoretisch bewijs en uitgebreide experimentele vergelijkingen, genereert onze DreamReward met succes hoogwaardige en 3D-consistente resultaten met een aanzienlijke verbetering in promptafstemming met menselijke intentie. Onze resultaten tonen het grote potentieel aan van leren op basis van menselijke feedback om tekst-naar-3D-modellen te verbeteren.
De afgelopen jaren heeft de toepassing van multimodale grote taalmodellen (MLLM) in verschillende velden opmerkelijke successen geboekt. Echter, als basismodel voor veel downstream taken bestaan huidige MLLM's uit het bekende Transformer-netwerk, dat een minder efficiënte kwadratische rekencomplexiteit heeft. Om de efficiëntie van dergelijke basismodellen te verbeteren, stellen we Cobra voor, een MLLM met lineaire rekencomplexiteit. Specifiek integreert Cobra het efficiënte Mamba-taalmodel in de visuele modaliteit. Bovendien onderzoeken en bestuderen we verschillende modale fusieschema's om een effectieve multimodale Mamba te creëren. Uitgebreide experimenten tonen aan dat (1) Cobra een uiterst competitieve prestaties behaalt in vergelijking met huidige rekenkundig efficiënte state-of-the-art methoden, zoals LLaVA-Phi, TinyLLaVA en MobileVLM v2, en een hogere snelheid heeft dankzij Cobra's lineaire sequentiële modellering. (2) Interessant genoeg laten de resultaten van uitdagende voorspellingsbenchmarks in gesloten sets zien dat Cobra goed presteert in het overwinnen van visuele illusies en het beoordelen van ruimtelijke relaties. (3) Opmerkelijk is dat Cobra zelfs vergelijkbare prestaties behaalt als LLaVA met ongeveer 43% van het aantal parameters. We zullen alle codes van Cobra openbaar maken en hopen dat de voorgestelde methode toekomstig onderzoek naar complexiteitsproblemen in MLLM kan vergemakkelijken. Onze projectpagina is beschikbaar op: https://sites.google.com/view/cobravlm.
Video-to-video editing houdt in dat een bronvideo wordt bewerkt samen met aanvullende controle (zoals tekstprompts, onderwerpen of stijlen) om een nieuwe video te genereren die aansluit bij de bronvideo en de verstrekte controle. Traditionele methoden waren beperkt tot bepaalde bewerkingstypes, wat hun vermogen om aan de brede waaier van gebruikersbehoeften te voldoen, beperkte. In dit artikel introduceren we AnyV2V, een nieuw trainingsvrij framework dat is ontworpen om videobewerking te vereenvoudigen tot twee primaire stappen: (1) het inzetten van een bestaand beeldbewerkingsmodel (bijv. InstructPix2Pix, InstantID, etc.) om het eerste frame te wijzigen, (2) het gebruik van een bestaand beeld-naar-video-generatiemodel (bijv. I2VGen-XL) voor DDIM-inversie en feature-injectie. In de eerste fase kan AnyV2V elk bestaand beeldbewerkingsgereedschap inpluggen om een breed scala aan videobewerkingstaken te ondersteunen. Naast de traditionele prompt-gebaseerde bewerkingsmethoden kan AnyV2V ook nieuwe videobewerkingstaken ondersteunen, waaronder referentie-gebaseerde stijloverdracht, onderwerp-gedreven bewerking en identiteitsmanipulatie, die voorheen onbereikbaar waren. In de tweede fase kan AnyV2V elk bestaand beeld-naar-videomodel inpluggen om DDIM-inversie en tussentijdse feature-injectie uit te voeren om de consistentie van uiterlijk en beweging met de bronvideo te behouden. Bij prompt-gebaseerde bewerking laten we zien dat AnyV2V de vorige beste aanpak met 35\% kan overtreffen op prompt-alignment en met 25\% op menselijke voorkeur. Op de drie nieuwe taken laten we zien dat AnyV2V ook een hoog slagingspercentage behaalt. Wij geloven dat AnyV2V zal blijven gedijen vanwege zijn vermogen om naadloos te integreren met de snel evoluerende beeldbewerkingsmethoden. Deze compatibiliteit kan AnyV2V helpen om zijn veelzijdigheid te vergroten en aan diverse gebruikersbehoeften te voldoen.
Recente vooruitgang in tekstgeleide diffusiemodellen heeft krachtige beeldmanipulatiemogelijkheden ontsloten. Het toepassen van deze methoden op echte afbeeldingen vereist echter de inversie van de afbeeldingen naar het domein van het vooraf getrainde diffusiemodel. Het bereiken van een nauwkeurige inversie blijft een uitdaging, vooral voor recentere modellen die zijn getraind om afbeeldingen te genereren met een klein aantal denoiseringsstappen. In dit werk introduceren we een inversiemethode met een hoge kwaliteit-tot-operatieverhouding, die de reconstructienauwkeurigheid verbetert zonder het aantal operaties te verhogen. Gebaseerd op het omkeren van het diffusie-bemonsteringsproces, maakt onze methode gebruik van een iteratief herruisingsmechanisme bij elke inversiebemonsteringsstap. Dit mechanisme verfijnt de benadering van een voorspeld punt langs de voorwaartse diffusietrajectorie, door iteratief het vooraf getrainde diffusiemodel toe te passen en deze voorspellingen te middelen. We evalueren de prestaties van onze ReNoise-techniek met behulp van verschillende bemonsteringsalgoritmen en modellen, waaronder recente versnelde diffusiemodellen. Door middel van uitgebreide evaluaties en vergelijkingen tonen we de effectiviteit aan in termen van zowel nauwkeurigheid als snelheid. Bovendien bevestigen we dat onze methode de bewerkbaarheid behoudt door tekstgestuurde beeldbewerking op echte afbeeldingen te demonstreren.
Videodiffusiemodellen hebben recentelijk grote vooruitgang geboekt in de generatiekwaliteit, maar worden nog steeds beperkt door de hoge geheugen- en rekenvereisten. Dit komt doordat huidige videodiffusiemodellen vaak proberen om hoogdimensionale video's direct te verwerken. Om dit probleem aan te pakken, stellen we het content-motion latent diffusion model (CMD) voor, een nieuwe efficiënte uitbreiding van voorgetrainde beelddiffusiemodellen voor videogeneratie. Specifiek stellen we een autoencoder voor die een video beknopt codeert als een combinatie van een contentframe (zoals een afbeelding) en een laagdimensionale latente bewegingrepresentatie. Het eerste vertegenwoordigt de gemeenschappelijke inhoud, en het tweede vertegenwoordigt de onderliggende beweging in de video. We genereren het contentframe door een voorgetraind beelddiffusiemodel te finetunen, en we genereren de latente bewegingrepresentatie door een nieuw lichtgewicht diffusiemodel te trainen. Een belangrijke innovatie hier is het ontwerp van een compacte latente ruimte die direct gebruik kan maken van een voorgetraind beelddiffusiemodel, wat nog niet eerder is gedaan in eerdere latente videodiffusiemodellen. Dit leidt tot aanzienlijk betere generatiekwaliteit en lagere rekenkosten. Zo kan CMD bijvoorbeeld een video 7,7 keer sneller bemonsteren dan eerdere benaderingen door een video van 512x1024 resolutie en lengte 16 te genereren in 3,1 seconden. Bovendien behaalt CMD een FVD-score van 212,7 op WebVid-10M, wat 27,3% beter is dan de vorige state-of-the-art van 292,4.
Recente grootschalige visueel-taalkundige modellen (VLMs) hebben opmerkelijke capaciteiten getoond in het begrijpen en genereren van tekstuele beschrijvingen voor visuele inhoud. Deze modellen missen echter een begrip van gebruikersspecifieke concepten. In dit werk zetten we een eerste stap richting de personalisatie van VLMs, waardoor ze gebruikersspecifieke concepten kunnen leren en erover kunnen redeneren. We onderzoeken bijvoorbeeld of deze modellen kunnen leren om jou in een afbeelding te herkennen en te communiceren wat je aan het doen bent, waarbij het model wordt afgestemd op jouw persoonlijke ervaringen en relaties. Om effectief een verscheidenheid aan gebruikersspecifieke concepten te herkennen, verrijken we het VLM met externe conceptkoppen die fungeren als schakelaars voor het model, waardoor het VLM de aanwezigheid van specifieke doelconcepten in een gegeven afbeelding kan identificeren. Nadat het concept is herkend, leren we een nieuw concept-embedding in de tussenliggende kenmerkruimte van het VLM. Deze embedding heeft als taak om het taalmodel te begeleiden bij het natuurlijk integreren van het doelconcept in zijn gegenereerde reactie. We passen onze techniek toe op BLIP-2 en LLaVA voor gepersonaliseerde beeldbeschrijving en tonen verder de toepasbaarheid ervan voor gepersonaliseerde visuele vraagbeantwoording. Onze experimenten demonstreren ons vermogen om te generaliseren naar ongeziene afbeeldingen van geleerde concepten, terwijl het modelgedrag op niet-gerelateerde invoer behouden blijft.
We introduceren GRM, een grootschalige reconstructor die in staat is om een 3D-asset te herstellen uit sparse-view afbeeldingen in ongeveer 0,1s. GRM is een feed-forward transformer-gebaseerd model dat efficiënt multi-view informatie integreert om de invoerpixels om te zetten in pixel-uitgelijnde Gaussians, die vervolgens worden geüprojecteerd om een set van dicht verdeelde 3D Gaussians te creëren die een scène representeren. Onze transformer-architectuur en het gebruik van 3D Gaussians maken samen een schaalbare en efficiënte reconstructie-framework mogelijk. Uitgebreide experimentele resultaten tonen de superioriteit van onze methode aan ten opzichte van alternatieven, zowel wat betreft reconstructiekwaliteit als efficiëntie. We demonstreren ook het potentieel van GRM in generatieve taken, zoals tekst-naar-3D en afbeelding-naar-3D, door het te integreren met bestaande multi-view diffusiemodellen. Onze projectwebsite is te vinden op: https://justimyhxu.github.io/projects/grm/.
We stellen Gaussian Frosting voor, een nieuwe mesh-gebaseerde representatie voor hoogwaardige rendering en bewerking van complexe 3D-effecten in realtime. Onze aanpak bouwt voort op het recente 3D Gaussian Splatting-framework, dat een set van 3D Gaussians optimaliseert om een radiance field uit afbeeldingen te benaderen. We stellen voor om eerst een basis-mesh uit Gaussians te extraheren tijdens de optimalisatie, en vervolgens een adaptieve laag van Gaussians met variabele dikte rond de mesh op te bouwen en te verfijnen om fijne details en volumetrische effecten nabij het oppervlak, zoals haar of gras, beter vast te leggen. We noemen deze laag Gaussian Frosting, omdat het lijkt op een laag glazuur op een taart. Hoe pluiziger het materiaal, hoe dikker de frosting. We introduceren ook een parameterisatie van de Gaussians om ervoor te zorgen dat ze binnen de frosting-laag blijven en hun parameters automatisch aanpassen bij het vervormen, herschalen, bewerken of animeren van de mesh. Onze representatie maakt efficiënte rendering mogelijk met behulp van Gaussian splatting, evenals bewerking en animatie door de basis-mesh aan te passen. We demonstreren de effectiviteit van onze methode op verschillende synthetische en echte scènes, en laten zien dat het beter presteert dan bestaande oppervlakte-gebaseerde benaderingen. We zullen onze code en een webgebaseerde viewer vrijgeven als aanvullende bijdragen. Onze projectpagina is de volgende: https://anttwo.github.io/frosting/
We introduceren begrensde generatie als een gegeneraliseerde taak om videogeneratie te beheersen voor het synthetiseren van willekeurige camerabewegingen en onderwerpbewegingen, uitsluitend gebaseerd op een gegeven start- en eindframe. Ons doel is om het inherente generalisatievermogen van een beeld-naar-video-model volledig te benutten zonder aanvullende training of fine-tuning van het oorspronkelijke model. Dit wordt bereikt door de voorgestelde nieuwe samplingstrategie, die we Time Reversal Fusion noemen, waarbij de temporeel voorwaartse en achterwaartse denoising-paden worden samengevoegd, geconditioneerd op respectievelijk het start- en eindframe. Het samengevoegde pad resulteert in een video die de twee frames soepel verbindt, waarbij tussenliggende bewegingen van het onderwerp worden gegenereerd, nieuwe aanzichten van statische scènes worden gecreëerd, en naadloze videolussen worden gegenereerd wanneer de twee begrenzende frames identiek zijn. We hebben een diverse evaluatiedataset van beeldparen samengesteld en vergeleken met de meest verwante bestaande methoden. We constateren dat Time Reversal Fusion de gerelateerde werkwijzen overtreft op alle subtaken, waarbij het vermogen wordt getoond om complexe bewegingen en 3D-consistente aanzichten te genereren, geleid door de begrensde frames. Zie het projectpagina op https://time-reversal.github.io.
We stellen een methode voor die automatisch cinemagraphs kan genereren uit een stilstaand landschapsbeeld met behulp van een vooraf getrainde StyleGAN. Geïnspireerd door het succes van recente onvoorwaardelijke videogeneratie, maken we gebruik van een krachtige vooraf getrainde beeldgenerator om hoogwaardige cinemagraphs te synthetiseren. In tegenstelling tot eerdere benaderingen die voornamelijk de latente ruimte van een vooraf getrainde StyleGAN benutten, maakt onze aanpak gebruik van de diepe kenmerkruimte voor zowel GAN-inversie als cinemagraph-generatie. Specifiek stellen we multi-scale deep feature warping (MSDFW) voor, waarbij de tussenliggende kenmerken van een vooraf getrainde StyleGAN op verschillende resoluties worden vervormd. Door MSDFW te gebruiken, zijn de gegenereerde cinemagraphs van hoge resolutie en vertonen ze een geloofwaardige looping-animatie. We tonen de superioriteit van onze methode aan door middel van gebruikersstudies en kwantitatieve vergelijkingen met state-of-the-art cinemagraph-generatiemethoden en een videogeneratiemethode die gebruikmaakt van een vooraf getrainde StyleGAN.
Onderzoekers en ontwikkelaars vertrouwen steeds meer op toxiciteitsscores om de uitvoer van generatieve taalmodelen te modereren, in situaties zoals klantenservice, informatiezoekopdrachten en contentgeneratie. Toxiciteitsscores kunnen echter relevante informatie ontoegankelijk maken, culturele normen verstarren of "waardevastzetten", en taalhervinningsprocessen belemmeren, vooral voor gemarginaliseerde groepen. In dit werk breiden we het concept van algoritmisch recours uit naar generatieve taalmodelen: we bieden gebruikers een nieuw mechanisme om hun gewenste voorspelling te bereiken door dynamisch drempelwaarden in te stellen voor toxiciteitsfiltering. Gebruikers krijgen hierdoor meer regie in vergelijking met interacties met het basissysteem. Een pilotstudie (n = 30) ondersteunt het potentieel van ons voorgestelde recoursmechanisme, waarbij verbeteringen in bruikbaarheid worden aangegeven in vergelijking met toxiciteitsfiltering met vaste drempelwaarden voor modeluitvoer. Toekomstig onderzoek zou het snijvlak moeten verkennen van toxiciteitsscores, modelbeheersbaarheid, gebruikersregie en taalhervinningsprocessen — met name met betrekking tot de vooroordelen die veel gemeenschappen ervaren bij interacties met generatieve taalmodelen.