Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in multimodale grote taalmodellen (MLLMs) is opmerkelijk, maar deze algemene MLLMs schieten vaak tekort in hun vermogen om gebruikersinterface (UI)-schermen effectief te begrijpen en ermee te interacteren. In dit artikel presenteren we Ferret-UI, een nieuw MLLM dat is afgestemd op een verbeterd begrip van mobiele UI-schermen, uitgerust met verwijzings-, verankerings- en redeneercapaciteiten. Gezien het feit dat UI-schermen doorgaans een langwerpiger beeldverhouding hebben en kleinere objecten van belang bevatten (bijv. iconen, teksten) dan natuurlijke afbeeldingen, integreren we "elke resolutie" bovenop Ferret om details te vergroten en verbeterde visuele kenmerken te benutten. Specifiek wordt elk scherm verdeeld in 2 subafbeeldingen op basis van de originele beeldverhouding (d.w.z. horizontale verdeling voor portretschermen en verticale verdeling voor landschapsschermen). Beide subafbeeldingen worden afzonderlijk gecodeerd voordat ze naar LLMs worden gestuurd. We verzinnen zorgvuldig trainingsmonsters uit een uitgebreid scala aan elementaire UI-taken, zoals iconenherkenning, tekst vinden en widgetlijsten. Deze monsters zijn geformatteerd voor instructievolging met regioannotaties om precieze verwijzing en verankering te vergemakkelijken. Om het redeneervermogen van het model te vergroten, stellen we verder een dataset samen voor geavanceerde taken, waaronder gedetailleerde beschrijving, perceptie/interactiegesprekken en functie-inferentie. Na training op de samengestelde datasets toont Ferret-UI een uitstekend begrip van UI-schermen en de mogelijkheid om open instructies uit te voeren. Voor model evaluatie stellen we een uitgebreide benchmark op die alle bovengenoemde taken omvat. Ferret-UI presteert niet alleen beter dan de meeste open-source UI MLLMs, maar overtreft ook GPT-4V op alle elementaire UI-taken.
Recente vooruitgang in Text-to-Video-generatie (T2V) heeft opmerkelijke successen geboekt bij het synthetiseren van hoogwaardige algemene video's op basis van tekstuele beschrijvingen. Een grotendeels over het hoofd gezien probleem in T2V is dat bestaande modellen onvoldoende fysieke kennis van de echte wereld hebben gecodeerd, waardoor gegenereerde video's vaak beperkte beweging en weinig variatie vertonen. In dit artikel stellen we MagicTime voor, een metamorf time-lapse videogeneratiemodel, dat kennis van de echte wereld leert uit time-lapse video's en metamorfe generatie implementeert. Ten eerste ontwerpen we een MagicAdapter-schema om ruimtelijke en temporele training te ontkoppelen, meer fysieke kennis te coderen uit metamorfe video's, en voorgetrainde T2V-modellen om te zetten om metamorfe video's te genereren. Ten tweede introduceren we een Dynamic Frames Extraction-strategie om aan te passen aan metamorfe time-lapse video's, die een breder variatiebereik hebben en dramatische objectmetamorfoseprocessen omvatten, en dus meer fysieke kennis belichamen dan algemene video's. Tot slot introduceren we een Magic Text-Encoder om het begrip van metamorfe videoprompts te verbeteren. Bovendien creëren we een time-lapse video-tekstdataset genaamd ChronoMagic, speciaal samengesteld om de metamorfe videogeneratiecapaciteit te ontgrendelen. Uitgebreide experimenten tonen de superioriteit en effectiviteit van MagicTime aan voor het genereren van hoogwaardige en dynamische metamorfe video's, wat suggereert dat time-lapse videogeneratie een veelbelovende weg is naar het bouwen van metamorfe simulators van de fysieke wereld.
Recente vooruitgang in diffusiegebaseerde generatieve beeldbewerking heeft een diepgaande revolutie teweeggebracht, waardoor het landschap van beelduitbreiding en -inpaintings taken is hervormd. Ondanks deze vooruitgang worstelt het veld met inherente uitdagingen, waaronder: i) inferieure kwaliteit; ii) slechte consistentie; iii) onvoldoende instructievolging; iv) suboptimale generatie-efficiëntie. Om deze obstakels aan te pakken, presenteren we ByteEdit, een innovatief feedback-leerkader dat zorgvuldig is ontworpen om generatieve beeldbewerkingstaken te verbeteren, te laten voldoen en te versnellen. ByteEdit integreert naadloos beeldbeloningsmodellen die gericht zijn op het verbeteren van esthetiek en beeld-tekst-afstemming, terwijl het ook een dicht, pixel-niveau beloningsmodel introduceert dat is afgestemd op het bevorderen van samenhang in de output. Bovendien stellen we een baanbrekende adversariële en progressieve feedback-leerstrategie voor om de inferentiesnelheid van het model te versnellen. Door uitgebreide grootschalige gebruikersevaluaties tonen we aan dat ByteEdit toonaangevende generatieve beeldbewerkingproducten, waaronder Adobe, Canva en MeiTu, overtreft in zowel generatiekwaliteit als consistentie. ByteEdit-Outpainting vertoont een opmerkelijke verbetering van 388% en 135% in kwaliteit en consistentie, respectievelijk, in vergelijking met het basismodel. Experimenten hebben ook bevestigd dat onze versnellingsmodellen uitstekende prestatieresultaten behouden wat betreft kwaliteit en consistentie.
Effectief bewerken van persoonlijke content speelt een cruciale rol bij het mogelijk maken voor individuen om hun creativiteit te uiten, boeiende verhalen te weven binnen hun visuele verhalen, en de algehele kwaliteit en impact van hun visuele content te verhogen. Daarom introduceren we in dit werk SwapAnything, een nieuw framework dat elk object in een afbeelding kan verwisselen met gepersonaliseerde concepten die door een referentie worden gegeven, terwijl de context ongewijzigd blijft. In vergelijking met bestaande methoden voor gepersonaliseerde onderwerpverwisseling, heeft SwapAnything drie unieke voordelen: (1) precieze controle over willekeurige objecten en delen in plaats van het hoofdonderwerp, (2) een getrouwere bewaring van contextpixels, (3) een betere aanpassing van het gepersonaliseerde concept aan de afbeelding. Eerst stellen we gerichte variabele verwisseling voor om regiocontrole toe te passen op latente kenmerkkaarten en gemaskeerde variabelen te verwisselen voor getrouwe contextbewaring en initiële semantische conceptverwisseling. Vervolgens introduceren we uiterlijke aanpassing, om het semantische concept naadloos aan te passen aan de originele afbeelding wat betreft doelpositie, vorm, stijl en inhoud tijdens het beeldgeneratieproces. Uitgebreide resultaten van zowel menselijke als automatische evaluatie tonen significante verbeteringen van onze aanpak ten opzichte van baseline-methoden bij gepersonaliseerde verwisseling. Bovendien toont SwapAnything zijn precieze en getrouwe verwisselingsvaardigheden bij taken met één object, meerdere objecten, gedeeltelijke objecten en cross-domein verwisseling. SwapAnything presteert ook uitstekend bij tekstgebaseerde verwisseling en taken buiten verwisseling, zoals objectinvoeging.
Diffusiemodellen hebben een revolutie teweeggebracht op het gebied van beeldgeneratie, wat heeft geleid tot een toename van hoogwaardige modellen en diverse downstreamtoepassingen. Desondanks kampen de huidige competitieve oplossingen nog steeds met verschillende beperkingen, waaronder inferieure visuele kwaliteit, een gebrek aan esthetische aantrekkingskracht en inefficiënte inferentie, zonder dat er een alomvattende oplossing in zicht is. Om deze uitdagingen aan te pakken, presenteren we UniFL, een uniform raamwerk dat feedbackleren benut om diffusiemodellen op een alomvattende manier te verbeteren. UniFL onderscheidt zich als een universele, effectieve en generaliseerbare oplossing die toepasbaar is op verschillende diffusiemodellen, zoals SD1.5 en SDXL. UniFL omvat drie belangrijke componenten: perceptueel feedbackleren, dat de visuele kwaliteit verbetert; ontkoppeld feedbackleren, dat de esthetische aantrekkingskracht vergroot; en adversarieel feedbackleren, dat de inferentiesnelheid optimaliseert. Diepgaande experimenten en uitgebreide gebruikersstudies valideren de superieure prestaties van onze voorgestelde methode in het verbeteren van zowel de kwaliteit van gegenereerde modellen als hun versnelling. UniFL overtreft bijvoorbeeld ImageReward met 17% gebruikersvoorkeur wat betreft generatiekwaliteit en presteert beter dan LCM en SDXL Turbo met respectievelijk 57% en 20% in 4-staps inferentie. Bovendien hebben we de effectiviteit van onze aanpak geverifieerd in downstreamtaken, waaronder Lora, ControlNet en AnimateDiff.
Het herstellen van dichte en langetermijn pixelbeweging in video's is een uitdagend probleem. Een deel van de moeilijkheid ontstaat door het 3D-naar-2D projectieproces, wat leidt tot occlusies en discontinuïteiten in het 2D-bewegingsdomein. Hoewel 2D-beweging complex kan zijn, stellen we dat de onderliggende 3D-beweging vaak eenvoudig en laagdimensionaal kan zijn. In dit werk stellen we voor om puntbanen in 3D-ruimte te schatten om de problemen veroorzaakt door beeldprojectie te verminderen. Onze methode, genaamd SpatialTracker, verheft 2D-pixels naar 3D met behulp van monokulaire diepteschatters, representeert de 3D-inhoud van elk frame efficiënt met behulp van een triplane-representatie, en voert iteratieve updates uit met behulp van een transformer om 3D-banen te schatten. Het volgen in 3D stelt ons in staat om as-rigid-as-possible (ARAP) beperkingen te benutten terwijl we tegelijkertijd een rigiditeitsembedding leren die pixels clustert in verschillende rigide delen. Uitgebreide evaluatie toont aan dat onze aanpak state-of-the-art trackingprestaties bereikt, zowel kwalitatief als kwantitatief, met name in uitdagende scenario's zoals out-of-plane rotatie.
Met het succes van grote taalmodelen (LLMs) is de integratie van visuele modellen in LLMs om visie-taal fundamentele modellen te bouwen de laatste tijd veel meer in de belangstelling komen te staan. Bestaande op LLM gebaseerde grote multimodale modellen (bijv. Video-LLaMA, VideoChat) kunnen echter slechts een beperkt aantal frames verwerken voor kortetermijnvideo-begrip. In deze studie richten we ons voornamelijk op het ontwerpen van een efficiënt en effectief model voor langetermijnvideo-begrip. In plaats van te proberen meer frames tegelijkertijd te verwerken, zoals de meeste bestaande werken doen, stellen we voor om video's op een online manier te verwerken en informatie uit eerdere video's op te slaan in een geheugenbank. Hierdoor kan ons model historische video-inhoud raadplegen voor langetermijnanalyse zonder de contextlengtebeperkingen van LLMs of de GPU-geheugenlimieten te overschrijden. Onze geheugenbank kan naadloos worden geïntegreerd in huidige multimodale LLMs op een kant-en-klare manier. We voeren uitgebreide experimenten uit op verschillende video-begriptaken, zoals langetermijnvideo-begrip, video-vraagbeantwoording en video-ondertiteling, en ons model kan state-of-the-art prestaties behalen op meerdere datasets. Code is beschikbaar op https://boheumd.github.io/MA-LMM/.
Het genereren van hogere-resolutie mensgerichte scènes met details en controle blijft een uitdaging voor bestaande tekst-naar-beeld diffusiemodellen. Deze uitdaging komt voort uit de beperkte grootte van de trainingsafbeeldingen, de capaciteit van de tekstencoder (beperkte tokens), en de inherente moeilijkheid van het genereren van complexe scènes met meerdere mensen. Hoewel huidige methoden alleen de beperking van de trainingsgrootte hebben geprobeerd aan te pakken, resulteerden ze vaak in mensgerichte scènes met ernstige artefacten. Wij stellen BeyondScene voor, een nieuw raamwerk dat de eerdere beperkingen overwint en prachtige hogere-resolutie (meer dan 8K) mensgerichte scènes genereert met uitzonderlijke tekst-beeld correspondentie en natuurlijkheid, gebruikmakend van bestaande voorgetrainde diffusiemodellen. BeyondScene gebruikt een gefaseerde en hiërarchische aanpak om eerst een gedetailleerde basisafbeelding te genereren die zich richt op cruciale elementen in het creëren van instanties voor meerdere mensen en gedetailleerde beschrijvingen die verder gaan dan het tokenlimiet van het diffusiemodel, en vervolgens om de basisafbeelding naadloos om te zetten naar een hogere-resolutie uitvoer, die de grootte van de trainingsafbeelding overschrijdt en details incorporeert die rekening houden met tekst en instanties via ons nieuwe instantiebewuste hiërarchische vergrotingsproces dat bestaat uit onze voorgestelde hoogfrequente geïnjecteerde voorwaartse diffusie en adaptieve gezamenlijke diffusie. BeyondScene overtreft bestaande methoden wat betreft correspondentie met gedetailleerde tekstbeschrijvingen en natuurlijkheid, en baant zo de weg voor geavanceerde toepassingen in het creëren van hogere-resolutie mensgerichte scènes die verder gaan dan de capaciteit van voorgetrainde diffusiemodellen zonder kostbare hertraining. Projectpagina: https://janeyeon.github.io/beyond-scene.
In het snel voortschrijdende veld van generatieve modellen vertegenwoordigt de ontwikkeling van efficiënte en hoogwaardige tekst-naar-beeld diffusesystemen een belangrijke grens. Deze studie introduceert YaART, een nieuw productieklasse tekst-naar-beeld gecascadeerd diffusiemodel dat is afgestemd op menselijke voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF). Tijdens de ontwikkeling van YaART hebben we ons vooral gericht op de keuzes van de grootte van het model en de trainingsdataset, aspecten die voorheen niet systematisch zijn onderzocht voor tekst-naar-beeld gecascadeerde diffusiemodellen. In het bijzonder analyseren we uitgebreid hoe deze keuzes zowel de efficiëntie van het trainingsproces als de kwaliteit van de gegenereerde beelden beïnvloeden, wat in de praktijk van groot belang is. Bovendien tonen we aan dat modellen die zijn getraind op kleinere datasets van hogere kwaliteit beelden succesvol kunnen concurreren met modellen die zijn getraind op grotere datasets, wat een efficiënter scenario voor de training van diffusiemodellen vaststelt. Vanuit kwaliteitsoogpunt wordt YaART consistent door gebruikers verkozen boven veel bestaande state-of-the-art modellen.
Het modelleren en renderen van fotorealistische avatars is van cruciaal belang in veel toepassingen. Bestaande methoden die een 3D-avatar bouwen op basis van visuele waarnemingen, hebben echter moeite met het reconstrueren van geklede mensen. Wij introduceren PhysAvatar, een nieuw framework dat inverse rendering combineert met inverse fysica om automatisch de vorm en het uiterlijk van een mens te schatten op basis van multi-view videogegevens, samen met de fysieke parameters van het materiaal van hun kleding. Hiervoor gebruiken we een mesh-uitgelijnde 4D Gaussische techniek voor spatio-temporele mesh-tracking, evenals een fysiek gebaseerde inverse renderer om de intrinsieke materiaaleigenschappen te schatten. PhysAvatar integreert een fysica-simulator om de fysieke parameters van de kleding te schatten met behulp van gradient-gebaseerde optimalisatie op een principiële manier. Deze nieuwe mogelijkheden stellen PhysAvatar in staat om hoogwaardige nieuwe-weergave renderings te maken van avatars die loszittende kleding dragen, onder bewegingen en lichtomstandigheden die niet in de trainingsdata zijn gezien. Dit markeert een significante vooruitgang in het modelleren van fotorealistische digitale mensen met behulp van fysiek gebaseerde inverse rendering met fysica in de lus. Onze projectwebsite is te vinden op: https://qingqing-zhao.github.io/PhysAvatar
We presenteren Diffusion-KTO, een nieuwe benadering voor het uitlijnen van tekst-naar-beeld diffusiemodellen door het uitlijningsdoel te formuleren als de maximalisatie van verwachte menselijke nut. Omdat dit doel van toepassing is op elke generatie afzonderlijk, vereist Diffusion-KTO niet het verzamelen van kostbare gepaarde voorkeursdata noch het trainen van een complex beloningsmodel. In plaats daarvan vereist ons doel eenvoudige binaire feedbacksignalen per afbeelding, zoals likes of dislikes, die ruimschoots beschikbaar zijn. Na fine-tuning met Diffusion-KTO vertonen tekst-naar-beeld diffusiemodellen superieure prestaties in vergelijking met bestaande technieken, waaronder supervised fine-tuning en Diffusion-DPO, zowel in termen van menselijk oordeel als automatische evaluatiemetrics zoals PickScore en ImageReward. Over het algemeen ontsluit Diffusion-KTO het potentieel van het benutten van gemakkelijk beschikbare binaire signalen per afbeelding en verbreedt het de toepasbaarheid van het uitlijnen van tekst-naar-beeld diffusiemodellen met menselijke voorkeuren.
In dit artikel presenteren we MoMA: een open-vocabulaire, trainingsvrij gepersonaliseerd beeldmodel dat beschikt over flexibele zero-shot-mogelijkheden. Naarmate fundamentele tekst-naar-beeldmodellen zich snel ontwikkelen, groeit de vraag naar robuuste beeld-naar-beeldvertaling. Om aan deze behoefte tegemoet te komen, specialiseert MoMA zich in onderwerpgedreven gepersonaliseerde beeldgeneratie. Door gebruik te maken van een open-source, Multimodaal Taalmodel (MLLM), trainen we MoMA om een dubbele rol te vervullen als zowel een feature-extractor als een generator. Deze aanpak combineert effectief referentiebeeld- en tekstpromptinformatie om waardevolle beeldkenmerken te produceren, wat een beelddiffusiemodel faciliteert. Om de gegenereerde kenmerken beter te benutten, introduceren we verder een nieuwe zelf-attentie shortcut-methode die beeldkenmerken efficiënt overbrengt naar een beelddiffusiemodel, waardoor de gelijkenis van het doelobject in gegenereerde beelden wordt verbeterd. Opmerkelijk is dat ons model, als een tuning-vrij plug-and-play module, slechts één referentiebeeld nodig heeft en bestaande methoden overtreft in het genereren van beelden met hoge detailgetrouwheid, verbeterde identiteitsbehoud en promptgetrouwheid. Ons werk is open-source, waardoor deze vooruitgang universeel toegankelijk is.
Transformers hebben vooruitgang in de computer vision en natuurlijke taalverwerking (NLP) velden versneld. Echter, de aanzienlijke rekencomplexiteit stelt beperkingen aan hun toepassing in taken met lange context, zoals het genereren van hoge-resolutie afbeeldingen. Dit artikel introduceert een reeks architecturen die zijn aangepast van het RWKV-model dat in NLP wordt gebruikt, met de nodige aanpassingen specifiek voor diffusiemodellen die worden toegepast op afbeeldingsgeneratietaken, aangeduid als Diffusion-RWKV. Net als bij diffusie met Transformers, is ons model ontworpen om efficiënt om te gaan met gepatchte invoer in een reeks met extra condities, terwijl het ook effectief kan opschalen, zowel voor grote-schaal parameters als uitgebreide datasets. Het onderscheidende voordeel komt tot uiting in de verminderde complexiteit van ruimtelijke aggregatie, waardoor het bijzonder geschikt is voor het verwerken van hoge-resolutie afbeeldingen, waardoor de noodzaak voor windowing of groepscache-operaties wordt geëlimineerd. Experimentele resultaten voor zowel conditionele als niet-conditionele afbeeldingsgeneratietaken tonen aan dat Diffusion-RWKV prestaties levert die gelijk zijn aan of beter zijn dan bestaande CNN- of Transformer-gebaseerde diffusiemodellen in FID- en IS-metrics, terwijl het totale reken-FLOP-gebruik aanzienlijk wordt verminderd.
Recente vooruitgang in diffusiemodellen heeft opmerkelijke vaardigheden getoond in het bewerken van 2D-afbeeldingen op basis van tekstprompts. Het uitbreiden van deze technieken om scènes in Neural Radiance Fields (NeRF) te bewerken is echter complex, omdat het bewerken van individuele 2D-frames kan leiden tot inconsistenties tussen meerdere perspectieven. Onze cruciale inzicht is dat de geometrie van een NeRF-scène kan dienen als een brug om deze 2D-bewerkingen te integreren. Door gebruik te maken van deze geometrie, passen we een diepte-geconditioneerde ControlNet toe om de samenhang van elke 2D-afbeeldingswijziging te verbeteren. Bovendien introduceren we een inpaintingsbenadering die gebruikmaakt van de diepte-informatie van NeRF-scènes om 2D-bewerkingen over verschillende afbeeldingen te verdelen, wat robuustheid tegen fouten en hersamplinguitdagingen waarborgt. Onze resultaten tonen aan dat deze methodologie consistentere, levensechtere en gedetailleerdere bewerkingen bereikt dan bestaande toonaangevende methoden voor tekstgestuurde NeRF-scènebewerking.
Langdurige video-vraagbeantwoording is een uitdagende taak die het herkennen van kortetermijnactiviteiten en het redeneren over hun fijnmazige relaties omvat. State-of-the-art video Large Language Models (vLLMs) lijken een veelbelovende oplossing te bieden vanwege hun aangetoonde opkomende capaciteiten bij nieuwe taken. Ondanks dat ze getraind zijn op miljoenen korte, secondenlange video's, zijn vLLMs echter niet in staat om minutenlange video's te begrijpen en nauwkeurig vragen daarover te beantwoorden. Om deze beperking aan te pakken, stellen we een lichtgewicht en zelfgestuurde aanpak voor, genaamd Key frame-conditioned long video-LLM (Koala), die leerbare spatiotemporele queries introduceert om voorgetrainde vLLMs aan te passen voor generalisatie naar langere video's. Onze aanpak introduceert twee nieuwe tokenizers die zich baseren op visuele tokens berekend uit schaarse video-keyframes voor het begrijpen van korte en lange videomomenten. We trainen onze voorgestelde aanpak op HowTo100M en demonstreren de effectiviteit ervan op zero-shot langdurige video-begrip benchmarks, waar het state-of-the-art grote modellen overtreft met 3 - 6% in absolute nauwkeurigheid over alle taken. Verrassend genoeg tonen we ook empirisch aan dat onze aanpak niet alleen een voorgetrainde vLLM helpt om langere video's te begrijpen, maar ook de nauwkeurigheid ervan verbetert bij kortetermijnactieherkenning.