Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grootschalige tekst-naar-beeldmodellen, waaronder Stable Diffusion, zijn in staat om hoogwaardige, fotorealistische portretafbeeldingen te genereren. Er is een actief onderzoeksgebied gewijd aan het personaliseren van deze modellen, met als doel specifieke onderwerpen of stijlen te synthetiseren met behulp van gegeven sets referentiebeelden. Ondanks de plausibele resultaten van deze personalisatiemethoden, produceren ze vaak beelden die tekortschieten in realisme en nog niet op een commercieel haalbaar niveau zijn. Dit is vooral merkbaar bij het genereren van portretafbeeldingen, waar elk onnatuurlijk artefact in menselijke gezichten gemakkelijk waarneembaar is vanwege onze inherente menselijke vooringenomenheid. Om dit aan te pakken, introduceren we MagiCapture, een personalisatiemethode voor het integreren van onderwerp- en stijlconcepten om hoogwaardige portretafbeeldingen te genereren met slechts een paar onderwerp- en stijlreferenties. Bijvoorbeeld, gegeven een handvol willekeurige selfies, kan ons fijn afgestemde model hoogwaardige portretafbeeldingen genereren in specifieke stijlen, zoals pasfoto's of profielfoto's. De grootste uitdaging bij deze taak is het ontbreken van een grondwaarheid voor de samengestelde concepten, wat leidt tot een vermindering van de kwaliteit van de uiteindelijke output en een verschuiving in de identiteit van het brononderwerp. Om deze problemen aan te pakken, presenteren we een nieuw Attention Refocusing-verlies in combinatie met aanvullende priors, die beide robuust leren mogelijk maken binnen deze zwak begeleide leeromgeving. Onze pijplijn omvat ook aanvullende nabewerkingsstappen om de creatie van zeer realistische outputs te garanderen. MagiCapture overtreft andere baselines in zowel kwantitatieve als kwalitatieve evaluaties en kan ook worden gegeneraliseerd naar andere niet-menselijke objecten.
We onderzoeken de nieuwe toepassing van Large Language Models voor code-optimalisatie. We presenteren een transformer-model met 7B parameters dat vanaf nul is getraind om LLVM-assembly te optimaliseren voor codegrootte. Het model neemt niet-geoptimaliseerde assembly als invoer en produceert een lijst van compileropties om het programma optimaal te optimaliseren. Cruciaal is dat we tijdens de training het model vragen om het aantal instructies voor en na optimalisatie te voorspellen, evenals de geoptimaliseerde code zelf. Deze aanvullende leertaken verbeteren de optimalisatieprestaties van het model aanzienlijk en vergroten de diepte van het begrip van het model. We evalueren het model op een grote reeks testprogramma's. Onze aanpak behaalt een verbetering van 3,0% in het verminderen van het aantal instructies ten opzichte van de compiler, wat beter is dan twee state-of-the-art baseline-methoden die duizenden compilaties vereisen. Bovendien toont het model verrassend sterke code-redeneervaardigheden, waarbij het in 91% van de gevallen compileerbare code genereert en in 70% van de gevallen de uitvoer van de compiler perfect nabootst.
Het lang bestaande probleem van het synthetiseren van nieuwe gezichtspunten heeft vele toepassingen, met name in sportuitzendingen. Fotorealistische synthese van nieuwe gezichtspunten van voetbalacties is van bijzonder groot belang voor de uitzendindustrie. Toch zijn er slechts enkele industriële oplossingen voorgesteld, en nog minder die een bijna-uitzendkwaliteit van de synthetische herhalingen bereiken. Behalve hun opstelling van meerdere statische camera's rond het speelveld, geven de beste propriëtaire systemen vrijwel geen informatie prijs over hun interne werking. Het gebruik van meerdere statische camera's voor een dergelijke taak vormt inderdaad een uitdaging die zelden in de literatuur wordt aangepakt, vanwege een gebrek aan openbare datasets: de reconstructie van een grootschalige, overwegend statische omgeving met kleine, snel bewegende elementen. Recentelijk heeft de opkomst van neurale stralingsvelden (NeRF) indrukwekkende vooruitgang geboekt in veel toepassingen voor het synthetiseren van nieuwe gezichtspunten, waarbij deep learning-principes worden gebruikt om fotorealistische resultaten te produceren in de meest uitdagende omstandigheden. In dit werk onderzoeken we de haalbaarheid van een oplossing voor deze taak op basis van dynamische NeRF's, d.w.z. neurale modellen die bedoeld zijn om algemene dynamische inhoud te reconstrueren. We creëren synthetische voetbalomgevingen en voeren meerdere experimenten uit, waarbij we belangrijke componenten identificeren die helpen bij het reconstrueren van voetbalscènes met dynamische NeRF's. We tonen aan dat, hoewel deze aanpak niet volledig voldoet aan de kwaliteitseisen voor de doeltoepassing, het veelbelovende wegen suggereert naar een kostenefficiënte, automatische oplossing. We stellen ook onze dataset en code openbaar beschikbaar, met als doel verdere inspanningen van de onderzoeksgemeenschap aan te moedigen op het gebied van het synthetiseren van nieuwe gezichtspunten voor dynamische voetbalscènes. Voor code, data en videoresultaten, zie https://soccernerfs.isach.be.
Het verbeteren van de afstemming van taalmodelen op menselijke voorkeuren blijft een actieve onderzoeksuitdaging. Eerdere benaderingen maakten voornamelijk gebruik van Reinforcement Learning from Human Feedback (RLHF) via online RL-methoden zoals Proximal Policy Optimization (PPO). Recentelijk zijn offline methoden zoals Sequence Likelihood Calibration (SLiC) en Direct Preference Optimization (DPO) naar voren gekomen als aantrekkelijke alternatieven, die verbeteringen bieden in stabiliteit en schaalbaarheid terwijl ze competitieve prestaties behouden. SLiC verfijnt zijn verliesfunctie met behulp van sequentieparen die zijn bemonsterd uit een supervised fine-tuned (SFT) beleid, terwijl DPO taalmodelen direct optimaliseert op basis van voorkeursdata, zonder de noodzaak van een apart beloningsmodel. Echter, vereist de maximum likelihood estimator (MLE) van het doeloptimale beleid gelabelde voorkeursparen die zijn bemonsterd uit dat beleid. Het ontbreken van een beloningsmodel bij DPO beperkt de mogelijkheid om voorkeursparen te bemonsteren uit het optimale beleid, en SLiC is beperkt tot het bemonsteren van voorkeursparen alleen uit het SFT-beleid. Om deze beperkingen aan te pakken, introduceren we een nieuwe benadering genaamd Statistical Rejection Sampling Optimization (RSO) die streeft naar het verkrijgen van voorkeursdata uit het doeloptimale beleid met behulp van rejection sampling, waardoor een nauwkeurigere schatting van het optimale beleid mogelijk wordt. We stellen ook een uniform raamwerk voor dat de verliesfuncties die worden gebruikt in zowel SLiC als DPO verbetert vanuit een voorkeursmodeleringsperspectief. Door uitgebreide experimenten over drie diverse taken, tonen we aan dat RSO consistent beter presteert dan zowel SLiC als DPO bij evaluaties door zowel Large Language Models (LLM) als menselijke beoordelaars.
Recente vooruitgang in grootschalige tekst-naar-beeldmodellen heeft opmerkelijke prestaties opgeleverd, met diverse toepassingen in het artistieke domein. Het uitdrukken van unieke kenmerken van een kunstwerk (bijvoorbeeld penseelvoering, kleurtoon of compositie) met alleen tekstprompts kan echter beperkingen ondervinden vanwege de inherente beperkingen van verbale beschrijving. Daarom introduceren we DreamStyler, een nieuw raamwerk ontworpen voor artistieke beeldgeneratie, dat bedreven is in zowel tekst-naar-beeldsynthese als stijloverdracht. DreamStyler optimaliseert een meerfasige tekstuele embedding met een contextbewuste tekstprompt, wat resulteert in een opvallende beeldkwaliteit. Daarnaast toont DreamStyler, met inhoudelijke en stijlbepalende richtlijnen, flexibiliteit om een reeks stijlreferenties te accommoderen. Experimentele resultaten demonstreren de superieure prestaties in meerdere scenario's, wat wijst op het veelbelovende potentieel in artistieke productcreatie.
We bestuderen het afleiden van een boomstructuurrepresentatie uit een enkele afbeelding voor objectbelichting. Eerdere werkzaamheden gebruiken typisch de parametrische of gemeten representatie om belichting te modelleren, wat noch interpreteerbaar noch gemakkelijk bewerkbaar is. Wij stellen het gebruik van de schaduwboomrepresentatie voor, die basisbelichtingsknooppunten en compositiemethoden combineert om de belichting van het objectoppervlak te factoriseren. De schaduwboomrepresentatie stelt beginnende gebruikers die niet bekend zijn met het fysieke belichtingsproces in staat om objectbelichting op een efficiënte en intuïtieve manier te bewerken. Een grote uitdaging bij het afleiden van de schaduwboom is dat het afleidingsprobleem zowel de discrete boomstructuur als de continue parameters van de boomknooppunten omvat. Wij stellen een hybride aanpak voor om dit probleem aan te pakken. We introduceren een autoregressief afleidingsmodel om een ruwe schatting van de boomstructuur en knooppuntparameters te genereren, en vervolgens verfijnen we de afgeleide schaduwboom via een optimalisatiealgoritme. We tonen experimenten op synthetische afbeeldingen, vastgelegde reflectie, echte afbeeldingen en niet-realistische vectortekeningen, wat downstreamtoepassingen mogelijk maakt zoals materiaalbewerking, gevectoriseerde belichting en herbelichting. Projectwebsite: https://chen-geng.com/inv-shade-trees
Ons doel is het creëren van een realistische 3D-gezichtsavatar met haar en accessoires, uitsluitend gebaseerd op een tekstbeschrijving. Hoewel deze uitdaging recentelijk veel aandacht heeft getrokken, missen bestaande methodes realisme, produceren ze onrealistische vormen of ondersteunen ze geen bewerkingen, zoals aanpassingen aan het kapsel. Wij stellen dat bestaande methodes beperkt zijn omdat ze een monolithische modelleerbenadering hanteren, waarbij een enkele representatie wordt gebruikt voor het hoofd, gezicht, haar en accessoires. Onze observatie is dat het haar en gezicht bijvoorbeeld zeer verschillende structurele eigenschappen hebben die baat hebben bij verschillende representaties. Gebaseerd op dit inzicht genereren we avatars met een compositioneel model, waarbij het hoofd, gezicht en bovenlichaam worden gerepresenteerd met traditionele 3D-meshes, en het haar, kleding en accessoires met neurale stralingsvelden (NeRF). De modelgebaseerde mesh-representatie biedt een sterke geometrische prior voor het gezichtsgebied, wat het realisme verbetert en tegelijkertijd bewerkingen van het uiterlijk mogelijk maakt. Door NeRFs te gebruiken voor de overige componenten, is onze methode in staat om delen met complexe geometrie en uiterlijk, zoals krullend haar en donzige sjaals, te modelleren en te synthetiseren. Ons nieuwe systeem synthetiseert deze hoogwaardige compositionele avatars vanuit tekstbeschrijvingen. De experimentele resultaten tonen aan dat onze methode, Text-guided generation and Editing of Compositional Avatars (TECA), avatars produceert die realistischer zijn dan die van recente methodes, terwijl ze bewerkbaar zijn vanwege hun compositionele aard. Zo maakt onze TECA het naadloos overbrengen van compositionele kenmerken zoals kapsels, sjaals en andere accessoires tussen avatars mogelijk. Deze mogelijkheid ondersteunt toepassingen zoals virtueel passen.