Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente ontwikkelingen op het gebied van grote multimodale modellen (LMMs), met name GPT-4V(ision) en Gemini, hebben de mogelijkheden van multimodale modellen snel uitgebreid voorbij traditionele taken zoals beeldbeschrijving en visuele vraagbeantwoording. In dit werk onderzoeken we het potentieel van LMMs zoals GPT-4V als een generalistische webagent die natuurlijke taal instructies kan volgen om taken op een gegeven website uit te voeren. We stellen SEEACT voor, een generalistische webagent die de kracht van LMMs benut voor geïntegreerd visueel begrip en handelen op het web. We evalueren op de recente MIND2WEB-benchmark. Naast de standaard offline-evaluatie op gecachte websites, maken we een nieuwe online-evaluatieomgeving mogelijk door een tool te ontwikkelen die het uitvoeren van webagenten op live websites mogelijk maakt. We tonen aan dat GPT-4V een groot potentieel heeft voor webagenten – het kan met succes 50% van de taken op live websites voltooien als we de tekstuele plannen handmatig vertalen naar acties op de websites. Dit overtreft aanzienlijk tekstuele LLMs zoals GPT-4 of kleinere modellen (FLAN-T5 en BLIP-2) die specifiek zijn afgestemd voor webagenten. Het vertalen van plannen naar acties blijft echter een grote uitdaging. Bestaande LMM-vertaalstrategieën zoals set-of-mark prompting blijken niet effectief te zijn voor webagenten, en de beste vertaalstrategie die we in dit artikel ontwikkelen, maakt gebruik van zowel de HTML-tekst als de visuele elementen. Toch blijft er een aanzienlijk verschil met orakelvertaling, wat ruimte laat voor verdere verbetering.
De meeste bestaande video-diffusiemodellen (VDMs) zijn beperkt tot alleen tekstcondities. Hierdoor ontbreekt het hen vaak aan controle over het visuele uiterlijk en de geometrische structuur van de gegenereerde video's. Dit werk presenteert Moonshot, een nieuw videogeneratiemodel dat gelijktijdig conditioneert op multimodale invoer van beeld en tekst. Het model is gebouwd rond een kernmodule, genaamd de multimodale videoblok (MVB), die bestaat uit conventionele ruimtelijk-temporele lagen voor het representeren van videokenmerken, en een ontkoppelde cross-attentielaag om beeld- en tekstinvoer aan te pakken voor uiterlijkconditionering. Daarnaast hebben we de modelarchitectuur zorgvuldig ontworpen zodat deze optioneel kan integreren met vooraf getrainde ControlNet-modules voor geometrische visuele condities, zonder de noodzaak van extra trainingsoverhead in tegenstelling tot eerdere methoden. Experimenten tonen aan dat Moonshot, dankzij de veelzijdige multimodale conditioneringsmechanismen, een aanzienlijke verbetering laat zien in visuele kwaliteit en temporele consistentie vergeleken met bestaande modellen. Bovendien kan het model eenvoudig worden hergebruikt voor een verscheidenheid aan generatieve toepassingen, zoals gepersonaliseerde videogeneratie, beeldanimatie en videobewerking, wat het potentieel onthult om te dienen als een fundamentele architectuur voor controleerbare videogeneratie. De modellen zullen openbaar worden gemaakt op https://github.com/salesforce/LAVIS.
We presenteren een differentieerbaar model dat expliciet grenzen modelleert -- inclusief contouren, hoeken en kruisingen -- met behulp van een nieuw mechanisme dat we boundary attention noemen. We laten zien dat ons model nauwkeurige resultaten biedt, zelfs wanneer het grenssignaal zeer zwak is of wordt overspoeld door ruis. In vergelijking met eerdere klassieke methoden voor het vinden van vage grenzen, heeft ons model de voordelen van differentieerbaarheid; schaalbaarheid naar grotere afbeeldingen; en het automatisch aanpassen aan een passend niveau van geometrisch detail in elk deel van een afbeelding. In vergelijking met eerdere deep learning-methoden voor het vinden van grenzen via end-to-end training, heeft het de voordelen van sub-pixelprecisie, meer weerbaarheid tegen ruis, en de mogelijkheid om elke afbeelding op zijn oorspronkelijke resolutie en beeldverhouding te verwerken.
We presenteren En3D, een verbeterd generatief schema voor het creëren van hoogwaardige 3D-menselijke avatars. In tegenstelling tot eerdere werken die afhankelijk zijn van schaarse 3D-datasets of beperkte 2D-collecties met ongelijke kijkhoeken en onnauwkeurige pose-priors, streeft onze aanpak ernaar een zero-shot 3D-generatief schema te ontwikkelen dat in staat is visueel realistische, geometrisch nauwkeurige en inhoudelijk diverse 3D-mensen te produceren zonder te vertrouwen op bestaande 3D- of 2D-assets. Om deze uitdaging aan te pakken, introduceren we een zorgvuldig ontworpen workflow die nauwkeurige fysieke modellering implementeert om het verbeterde 3D-generatieve model te leren van synthetische 2D-data. Tijdens de inferentie integreren we optimalisatiemodules om de kloof tussen realistische verschijningen en grove 3D-vormen te overbruggen. Specifiek bestaat En3D uit drie modules: een 3D-generator die generaliseerbare 3D-mensen nauwkeurig modelleert met een realistische verschijning vanuit gesynthetiseerde, gebalanceerde, diverse en gestructureerde menselijke afbeeldingen; een geometrie-beeldhouwer die de vormkwaliteit verbetert met behulp van multi-view normaalbeperkingen voor gedetailleerde menselijke anatomie; en een textuurmodule die expliciete textuurkaarten ontwart met trouw en bewerkbaarheid, gebruikmakend van semantische UV-partitionering en een differentieerbare rasterizer. Experimentele resultaten tonen aan dat onze aanzienlijk beter presteert dan eerdere werken op het gebied van beeldkwaliteit, geometrische nauwkeurigheid en inhoudelijke diversiteit. We demonstreren ook de toepasbaarheid van onze gegenereerde avatars voor animatie en bewerking, evenals de schaalbaarheid van onze aanpak voor inhoudsstijlvrije aanpassing.
Naarmate instructie-afgestemde grote taalmodellen (LLM's) wereldwijd worden geadopteerd, wordt hun vermogen om instructies in meerdere talen te volgen steeds belangrijker. Een veelbelovende aanpak is cross-linguale transfer, waarbij een model specifieke functionaliteit in een bepaalde taal verwerft door finetuning in een andere taal. In dit werk onderzoeken we hoe meertaligheid tijdens de instructie-afstemming van een meertalig LLM het volgen van instructies over verschillende talen beïnvloedt. We laten eerst zien dat veel talen enige instructie-volgende capaciteiten naar andere talen overdragen, zelfs vanuit monolinguale afstemming. Verder ontdekken we dat slechts 40 meertalige voorbeelden in een Engelse afstemmingsset het meertalige instructie-volgen aanzienlijk verbeteren, zowel in talen die tijdens de afstemming zijn gezien als in onbekende talen. Over het algemeen observeren we dat modellen die zijn afgestemd op meertalige mengsels vergelijkbare of superieure prestaties vertonen in verschillende talen vergeleken met monolingue afgestemde modellen, ondanks training op 10x minder voorbeelden in die talen. Tot slot vinden we dat het verhogen van het aantal talen in de instructie-afstemmingsset van 1 naar slechts 2, 3 of 4 de cross-linguale generalisatie vergroot. Onze resultaten suggereren dat het bouwen van massaal meertalige instructie-afgestemde modellen kan worden gedaan met slechts een zeer kleine set meertalige instructie-responsparen.
Wat leert het modelleren van relaties tussen strings grote taalmodelen (LLM's) over de visuele wereld? We evalueren systematisch de vaardigheden van LLM's om een reeks visuele concepten van toenemende complexiteit te genereren en te herkennen, en demonstreren vervolgens hoe een voorlopig systeem voor het leren van visuele representaties kan worden getraind met behulp van tekstmodellen. Omdat taalmodelen niet in staat zijn visuele informatie als pixels te verwerken of uit te voeren, gebruiken we code om afbeeldingen in onze studie te representeren. Hoewel door LLM's gegenereerde afbeeldingen niet lijken op natuurlijke afbeeldingen, tonen resultaten op het gebied van beeldgeneratie en het vermogen van modellen om deze gegenereerde afbeeldingen te corrigeren aan dat het nauwkeurig modelleren van strings taalmodelen veel aspecten van de visuele wereld kan leren. Bovendien benadrukken experimenten met zelfgestuurd leren van visuele representaties, waarbij gebruik wordt gemaakt van afbeeldingen gegenereerd met tekstmodellen, het potentieel om visiemodellen te trainen die semantische beoordelingen van natuurlijke afbeeldingen kunnen maken met alleen LLM's.
Ondanks de opmerkelijke prestaties van score-distillatie in tekst-naar-3D-generatie, staan dergelijke technieken erom bekend dat ze last hebben van inconsistentie tussen verschillende aanzichten, ook wel bekend als het "Janus"-artefact, waarbij de gegenereerde objecten elk aanzicht vervalsen met meerdere voorzijden. Hoewel empirisch effectieve methoden dit probleem hebben benaderd via score-debiasing of prompt-engineering, blijft een meer rigoureus perspectief om dit probleem te verklaren en aan te pakken ongrijpbaar. In dit artikel onthullen we dat de bestaande op score-distillatie gebaseerde tekst-naar-3D-generatieframeworks degenereren tot maximal likelihood-seeking voor elk aanzicht afzonderlijk en daardoor last hebben van het mode-collapse-probleem, wat zich in de praktijk manifesteert als het Janus-artefact. Om mode-collapse te beteugelen, verbeteren we score-distillatie door een entropieterm opnieuw in te voeren in het corresponderende variatie-objectief, dat wordt toegepast op de verdeling van gerenderde afbeeldingen. Het maximaliseren van de entropie stimuleert diversiteit tussen verschillende aanzichten in gegenereerde 3D-assets, waardoor het Janus-probleem wordt gemitigeerd. Op basis van dit nieuwe objectief leiden we een nieuwe update-regel af voor 3D-score-distillatie, genaamd Entropische Score Distillatie (ESD). We tonen theoretisch aan dat ESD kan worden vereenvoudigd en geïmplementeerd door simpelweg de classifier-free guidance-truc toe te passen op variatie-score-distillatie. Hoewel het beschamend eenvoudig is, demonstreren onze uitgebreide experimenten succesvol dat ESD een effectieve behandeling kan zijn voor Janus-artefacten in score-distillatie.
Dit artikel introduceert de WordArt Designer API, een nieuw framework voor gebruikersgestuurde artistieke typografie-synthese met behulp van Large Language Models (LLMs) op ModelScope. We pakken de uitdaging aan om artistieke typografie te vereenvoudigen voor niet-professionals door een dynamisch, adaptief en computationeel efficiënt alternatief te bieden voor traditionele rigide sjablonen. Onze aanpak benut de kracht van LLMs om gebruikersinvoer te begrijpen en te interpreteren, wat een intuïtiever ontwerpproces mogelijk maakt. We demonstreren aan de hand van verschillende casestudies hoe gebruikers hun esthetische voorkeuren en functionele vereisten kunnen uiten, waarna het systeem deze vertaalt in unieke en creatieve typografische ontwerpen. Onze evaluaties tonen aanzienlijke verbeteringen aan in gebruikers tevredenheid, ontwerpflexibiliteit en creatieve expressie ten opzichte van bestaande systemen. De WordArt Designer API democratiseert niet alleen de kunst van typografie, maar opent ook nieuwe mogelijkheden voor gepersonaliseerde digitale communicatie en ontwerp.