Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusiemodellen zijn de facto de aanpak voor het genereren van hoogwaardige afbeeldingen en video's, maar het leren van hoogdimensionale modellen blijft een formidabele taak vanwege computationele en optimalisatie-uitdagingen. Bestaande methoden nemen vaak hun toevlucht tot het trainen van gecascadeerde modellen in pixelruimte of het gebruik van een gedownsamplede latente ruimte van een apart getrainde auto-encoder. In dit artikel introduceren we Matryoshka Diffusiemodellen (MDM), een end-to-end framework voor synthese van hoge-resolutie afbeeldingen en video's. We stellen een diffusieproces voor dat invoer op meerdere resoluties gezamenlijk denoiseert en gebruiken een NestedUNet-architectuur waarbij kenmerken en parameters voor kleinschalige invoer genest zijn binnen die van grote schaal. Daarnaast maakt MDM een progressief trainingsschema mogelijk van lagere naar hogere resoluties, wat leidt tot aanzienlijke verbeteringen in optimalisatie voor hoge-resolutie generatie. We demonstreren de effectiviteit van onze aanpak op verschillende benchmarks, waaronder klasse-geconditioneerde afbeeldingsgeneratie, hoge-resolutie tekst-naar-afbeelding en tekst-naar-video toepassingen. Opmerkelijk is dat we een enkel pixelruimtemodel kunnen trainen bij resoluties tot 1024x1024 pixels, wat sterke zero-shot generalisatie demonstreert met behulp van de CC12M-dataset, die slechts 12 miljoen afbeeldingen bevat.
Grote taalmodellen (LLMs), na afstemming met visuele modellen en integratie in visueel-taalmodelen (VLMs), kunnen indrukwekkende verbeteringen brengen in beeldredeneertaken. Dit werd aangetoond door de recent uitgebrachte GPT-4V(ison), LLaVA-1.5, enzovoort. Echter, het sterke taalprior in deze state-of-the-art LVLMs kan een tweesnijdend zwaard zijn: ze kunnen de beeldcontext negeren en uitsluitend vertrouwen op het (zelfs tegenstrijdige) taalprior voor redenering. Daarentegen zijn de visuele modules in VLMs zwakker dan LLMs en kunnen ze leiden tot misleidende visuele representaties, die vervolgens door LLMs vertaald worden naar zelfverzekerde fouten. Om deze twee soorten VLM-fouten te bestuderen, namelijk taalhallucinatie en visuele illusie, hebben we HallusionBench samengesteld, een benchmark voor beeldcontextredenering die zelfs voor GPT-4V en LLaVA-1.5 nog uitdagend is. We bieden een gedetailleerde analyse van voorbeelden in HallusionBench, wat nieuwe inzichten biedt in de illusie of hallucinatie van VLMs en hoe deze in de toekomst verbeterd kunnen worden. De benchmark en codebase zullen worden vrijgegeven op https://github.com/tianyi-lab/HallusionBench.
We introduceren DEsignBench, een tekst-naar-beeld (T2I) generatiebenchmark die is afgestemd op visuele ontwerp scenario's. Recente T2I-modellen zoals DALL-E 3 en anderen hebben opmerkelijke capaciteiten getoond in het genereren van fotorealistische afbeeldingen die nauw aansluiten bij tekstuele invoer. Hoewel de aantrekkingskracht van het creëren van visueel boeiende afbeeldingen onmiskenbaar is, gaat onze nadruk verder dan alleen esthetisch plezier. Wij streven ernaar om het potentieel van het gebruik van deze krachtige modellen in authentieke ontwerpcontexten te onderzoeken. Om dit doel te bereiken, ontwikkelen we DEsignBench, dat testmonsters bevat die zijn ontworpen om T2I-modellen te beoordelen op zowel "ontwerp technische capaciteit" als "ontwerp toepassingsscenario." Elk van deze twee dimensies wordt ondersteund door een diverse set van specifieke ontwerpcategorieën. We onderzoeken DALL-E 3 samen met andere toonaangevende T2I-modellen op DEsignBench, wat resulteert in een uitgebreide visuele galerij voor zij-aan-zij vergelijkingen. Voor de DEsignBench-benchmarking voeren we menselijke evaluaties uit op gegenereerde afbeeldingen in de DEsignBench-galerij, tegen de criteria van beeld-tekst-alignment, visuele esthetiek en ontwerpcreativiteit. Onze evaluatie houdt ook rekening met andere gespecialiseerde ontwerpcapaciteiten, waaronder tekstweergave, lay-outcompositie, kleurharmonie, 3D-ontwerp en mediumstijl. Naast menselijke evaluaties introduceren we de eerste automatische beeldgeneratie-evaluator aangedreven door GPT-4V. Deze evaluator biedt beoordelingen die goed aansluiten bij menselijke oordelen, terwijl het gemakkelijk reproduceerbaar en kostenefficiënt is. Een hoge-resolutie versie is beschikbaar op https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Met de beschikbaarheid van grootschalige videodatasets en de vooruitgang van diffusiemodellen heeft tekstgestuurde videogeneratie aanzienlijke vooruitgang geboekt. Bestaande videogeneratiemodellen worden echter meestal getraind op een beperkt aantal frames, wat resulteert in het onvermogen om hoogwaardige lange video's te genereren tijdens inferentie. Bovendien ondersteunen deze modellen alleen enkele-tekstcondities, terwijl real-life scenario's vaak meerdere-tekstcondities vereisen naarmate de videocontent in de tijd verandert. Om deze uitdagingen aan te pakken, onderzoekt deze studie het potentieel om de tekstgestuurde mogelijkheid uit te breiden om langere video's te genereren die zijn geconditioneerd op meerdere teksten. 1) We analyseren eerst de impact van initiële ruis in videodiffusiemodellen. Vervolgens bouwen we voort op de observatie van ruis en stellen we FreeNoise voor, een afstemmingsvrij en tijdsefficiënt paradigma om de generatieve mogelijkheden van vooraf getrainde videodiffusiemodellen te verbeteren terwijl de inhoudsconsistentie behouden blijft. Specifiek, in plaats van ruis voor alle frames te initialiseren, herplannen we een reeks ruis voor langeafstandscorrelatie en voeren we temporele aandacht uit over deze ruis door middel van een op vensters gebaseerde functie. 2) Daarnaast ontwerpen we een nieuwe methode voor bewegingstoediening om de generatie van video's die zijn geconditioneerd op meerdere tekstprompts te ondersteunen. Uitgebreide experimenten valideren de superioriteit van ons paradigma in het uitbreiden van de generatieve mogelijkheden van videodiffusiemodellen. Het is opmerkelijk dat, in vergelijking met de vorige best presterende methode die een extra tijdslast van 255% met zich meebracht, onze methode slechts een verwaarloosbare tijdslast van ongeveer 17% met zich meebrengt. Geproduceerde videovoorbeelden zijn beschikbaar op onze website: http://haonanqiu.com/projects/FreeNoise.html.
Het recente succes van grote taalmodelen (LLMs) voor algemene domeinen heeft het paradigma van natuurlijke taalverwerking aanzienlijk veranderd in de richting van een uniform fundamenteel model voor verschillende domeinen en toepassingen. In dit artikel richten we ons op het beoordelen van de prestaties van GPT-4, het meest capabele LLM tot nu toe, voor tekstgebaseerde toepassingen voor radiologieverslagen, waarbij we het vergelijken met state-of-the-art (SOTA) radiologiespecifieke modellen. Door verschillende promptingstrategieën te verkennen, hebben we GPT-4 geëvalueerd op een breed scala aan veelvoorkomende radiologietaken, en we ontdekten dat GPT-4 ofwel beter presteert of op gelijk niveau staat met de huidige SOTA-radiologiemodellen. Met zero-shot prompting behaalt GPT-4 al aanzienlijke verbeteringen (ongeveer 10% absolute verbetering) ten opzichte van radiologiemodellen in classificatie van temporele zinsgelijkenis (nauwkeurigheid) en natuurlijke taal inferentie (F_1). Voor taken die het leren van dataset-specifieke stijl of schema vereisen (bijv. samenvatting van bevindingen), verbetert GPT-4 met voorbeeldgebaseerde prompting en evenaart het de supervised SOTA. Onze uitgebreide foutenanalyse met een gecertificeerde radioloog toont aan dat GPT-4 over voldoende radiologische kennis beschikt, met slechts af en toe fouten in complexe contexten die genuanceerde domeinkennis vereisen. Voor de samenvatting van bevindingen blijken de uitvoer van GPT-4 over het algemeen vergelijkbaar te zijn met bestaande handgeschreven impressies.
We presenteren Habitat 3.0: een simulatieplatform voor het bestuderen van collaboratieve mens-robot taken in thuissituaties. Habitat 3.0 biedt bijdragen op drie dimensies: (1) Nauwkeurige humanoïde simulatie: het aanpakken van uitdagingen in het modelleren van complexe vervormbare lichamen en diversiteit in uiterlijk en beweging, terwijl een hoge simulatietijd wordt gegarandeerd. (2) Human-in-the-loop infrastructuur: het mogelijk maken van echte menselijke interactie met gesimuleerde robots via muis/toetsenbord of een VR-interface, wat de evaluatie van robotbeleid met menselijke input vergemakkelijkt. (3) Collaboratieve taken: het bestuderen van twee collaboratieve taken, Sociale Navigatie en Sociale Herindeling. Sociale Navigatie onderzoekt het vermogen van een robot om humanoïde avatars te lokaliseren en te volgen in onbekende omgevingen, terwijl Sociale Herindeling de samenwerking tussen een humanoïde en een robot behandelt tijdens het herindelen van een scène. Deze bijdragen stellen ons in staat om end-to-end geleerde en heuristische basislijnen voor mens-robot samenwerking diepgaand te bestuderen, evenals deze te evalueren met mensen in de loop. Onze experimenten tonen aan dat geleerde robotbeleid leidt tot efficiënte taakvoltooiing bij samenwerking met onbekende humanoïde agenten en menselijke partners die gedrag kunnen vertonen dat de robot nog niet eerder heeft gezien. Daarnaast observeren we emergent gedrag tijdens de uitvoering van collaboratieve taken, zoals de robot die ruimte vrijgeeft wanneer deze een humanoïde agent belemmert, waardoor de effectieve voltooiing van de taak door de humanoïde agent mogelijk wordt. Bovendien tonen onze experimenten met het human-in-the-loop hulpmiddel aan dat onze geautomatiseerde evaluatie met humanoïden een indicatie kan geven van de relatieve ordening van verschillende beleidslijnen wanneer deze worden geëvalueerd met echte menselijke samenwerkers. Habitat 3.0 ontsluit interessante nieuwe functies in simulatoren voor Embodied AI, en we hopen dat het de weg vrijmaakt voor een nieuw tijdperk van belichaamde mens-AI interactiemogelijkheden.
Grote Taalmodellen (LLMs) worden vaak gebruikt voor veelzijdige taakgeneratie en evaluatietaken die het voldoen aan complexe gebruikersbeperkingen of het in overweging nemen van meerdere aspecten en criteria vereisen. Hun prestaties kunnen echter tekortschieten vanwege het gebrek aan samenhang van het model en het onvermogen om het probleem te plannen en op te delen. Wij stellen Branch-Solve-Merge (BSM) voor, een programma voor Grote Taalmodellen (Schlag et al., 2023) om dergelijke uitdagende natuurlijke-taaltaken aan te pakken. Het bestaat uit branch-, solve- en merge-modules die geparametriseerd zijn met specifieke prompts voor het basis-LLM. Deze drie modules plannen een opdeling van de taak in meerdere parallelle subtaken, lossen deze onafhankelijk op en voegen de oplossingen voor de subtaken samen. We passen onze methode toe op de taken van LLM-respons evaluatie en beperkte tekstgeneratie en evalueren de effectiviteit ervan met meerdere LLMs, waaronder Vicuna, LLaMA-2-chat en GPT-4. BSM verbetert de evaluatienauwkeurigheid en consistentie voor elk LLM door de overeenstemming tussen mens en LLM met tot 26% te verhogen, lengte- en paarsgewijze positiebias met tot 50% te verminderen, en LLaMA-2-chat in staat te stellen GPT-4 op de meeste domeinen te evenaren of te overtreffen. Bij de taak van beperkte verhaalgeneratie verbetert BSM de samenhang van de verhalen terwijl ook de beperkingsvoldoening met 12% wordt verbeterd.
Text-to-Image Diffusion Models zoals Stable-Diffusion en Imagen hebben een ongekende kwaliteit van fotorealisme bereikt met state-of-the-art FID-scores op MS-COCO en andere generatiebenchmarks. Bij het genereren van een afbeelding op basis van een beschrijving is gedetailleerde kennis vereist over attributen zoals objectstructuur, stijl en gezichtspunt, onder andere. Waar bevindt deze informatie zich in text-to-image generatieve modellen? In ons artikel gaan we deze vraag te lijf en onderzoeken we hoe kennis die correspondeert met verschillende visuele attributen is opgeslagen in grootschalige text-to-image diffusiemodellen. We passen Causal Mediation Analysis aan voor text-to-image modellen en traceren kennis over verschillende visuele attributen naar diverse (causale) componenten in (i) de UNet en (ii) de tekst-encoder van het diffusiemodel. In het bijzonder laten we zien dat, in tegenstelling tot generatieve large-language modellen, kennis over verschillende attributen niet gelokaliseerd is in geïsoleerde componenten, maar verspreid is over een reeks componenten in de conditionele UNet. Deze reeksen componenten zijn vaak verschillend voor verschillende visuele attributen. Opmerkelijk is dat we ontdekken dat de CLIP tekst-encoder in publieke text-to-image modellen zoals Stable-Diffusion slechts één causale toestand bevat voor verschillende visuele attributen, en dit is de eerste self-attention laag die correspondeert met het laatste onderwerpstoken van het attribuut in de beschrijving. Dit staat in schril contrast met de causale toestanden in andere taalmodellen, die vaak de mid-MLP lagen zijn. Op basis van deze observatie van slechts één causale toestand in de tekst-encoder, introduceren we een snelle, data-vrije modelbewerkingsmethode genaamd Diff-QuickFix, die effectief concepten in text-to-image modellen kan bewerken. DiffQuickFix kan concepten in minder dan een seconde bewerken (ablateren) met een gesloten-formulier update, wat een aanzienlijke 1000x versnelling biedt en vergelijkbare bewerkingsprestaties levert als bestaande fine-tuning gebaseerde bewerkingsmethoden.
We presenteren TexFusion (Texture Diffusion), een nieuwe methode om texturen te synthetiseren voor gegeven 3D-geometrieën, gebruikmakend van grootschalige tekstgeleide beelddiffusiemodellen. In tegenstelling tot recente werken die 2D tekst-naar-beeld diffusiemodellen inzetten om 3D-objecten te destilleren via een traag en kwetsbaar optimalisatieproces, introduceert TexFusion een nieuwe 3D-consistente generatietechniek die specifiek is ontworpen voor texturesynthese en die reguliere diffusiemodelsteekproeven toepast op verschillende 2D-weergaven van het object. Concreet maken we gebruik van latente diffusiemodellen, passen we de denoiser van het diffusiemodel toe op een reeks 2D-renders van het 3D-object, en aggregeren we de verschillende denoisingvoorspellingen op een gedeelde latente texturemap. De uiteindelijke RGB-textures worden geproduceerd door een tussenliggend neuraal kleurveld te optimaliseren op basis van de decoderingen van 2D-renders van de latente texture. We valideren TexFusion grondig en tonen aan dat we efficiënt diverse, hoogwaardige en globaal coherente texturen kunnen genereren. We behalen state-of-the-art prestaties in tekstgeleide texturesynthese met uitsluitend beelddiffusiemodellen, terwijl we de valkuilen van eerdere destillatiegebaseerde methoden vermijden. De tekstconditionering biedt gedetailleerde controle en we zijn ook niet afhankelijk van enige grondwaarheid 3D-textures voor training. Dit maakt onze methode veelzijdig en toepasbaar op een breed scala aan geometrieën en texturen. We hopen dat TexFusion AI-gebaseerde texturing van 3D-assets zal bevorderen voor toepassingen in virtual reality, gamedesign, simulatie en meer.
Door in-context learning (ICL) te gebruiken voor datageneratie, kunnen technieken zoals Self-Instruct (Wang et al., 2023) of de opvolger Alpaca (Taori et al., 2023) sterke conversatie-agents trainen met slechts een kleine hoeveelheid menselijke begeleiding. Een beperking van deze benaderingen is dat ze gebruikmaken van zeer grote taalmodel(len) (ongeveer 175B parameters) die ook propriëtair en niet-openbaar zijn. Hier onderzoeken we de toepassing van dergelijke technieken op taalmodel(len) die veel kleiner zijn (ongeveer 10B–40B parameters) en permissieve licenties hebben. We constateren dat de Self-Instruct-benadering minder effectief is bij deze groottes en stellen nieuwe ICL-methoden voor die voortbouwen op twee hoofdideeën: (a) Categorisering en vereenvoudiging van de ICL-sjablonen om promptlearning gemakkelijker te maken voor het taalmodel, en (b) Ensembling over meerdere taalmodel-uitvoer om te helpen bij het selecteren van hoogwaardige synthetische voorbeelden. Ons algoritme maakt gebruik van de 175 Self-Instruct-starttaken en hanteert aparte pijplijnen voor instructies die een invoer vereisen en instructies die dat niet doen. Empirisch onderzoek met verschillende taalmodel(len) toont aan dat: (1) Onze voorgestelde methode instructieafstemmingsdata van hogere kwaliteit oplevert dan Self-Instruct, (2) Het de prestaties van zowel standaard als instructie-afgestemde taalmodel(len) aanzienlijk verbetert, en (3) Kleinere instructie-afgestemde taalmodel(len) nuttigere uitvoer genereren dan hun grotere niet-afgestemde tegenhangers. Onze codebase is beschikbaar op https://github.com/IBM/ensemble-instruct.
Menselijke feedback kan openlijk schadelijke uitingen in conversatiemodellen voorkomen, maar kan subtiele problematische gedragingen, zoals een uitgesproken verlangen naar zelfbehoud of macht, niet automatisch mitigeren. Constitutionele AI biedt een alternatief door menselijke feedback te vervangen door feedback van AI-modellen die alleen zijn geconditioneerd op een lijst van geschreven principes. We ontdekken dat deze aanpak effectief voorkomt dat dergelijke gedragingen worden geuit. Het succes van eenvoudige principes motiveert ons om te vragen: kunnen modellen algemene ethische gedragingen leren van slechts één geschreven principe? Om dit te testen, voeren we experimenten uit met een principe dat ruwweg wordt geformuleerd als "doe wat het beste is voor de mensheid". We ontdekken dat de grootste dialoogmodellen kunnen generaliseren vanuit deze korte constitutie, wat resulteert in onschadelijke assistenten zonder uitgesproken interesse in specifieke motivaties zoals macht. Een algemeen principe kan zo gedeeltelijk de noodzaak vermijden van een lange lijst van constituties die gericht zijn op potentieel schadelijk gedrag. Meer gedetailleerde constituties verbeteren echter nog steeds de fijnmazige controle over specifieke soorten schade. Dit suggereert dat zowel algemene als specifieke principes waarde hebben voor het veilig sturen van AI.
Met de evolutie van Large Language Models (LLMs) kunnen we steeds complexere NLP-taken oplossen in verschillende domeinen, waaronder spreadsheets. Dit onderzoek gaat na of LLMs code kunnen genereren (Excel OfficeScripts, een TypeScript API voor het uitvoeren van veel taken in Excel) die Excel-specifieke taken oplossen die worden aangeleverd via natuurlijke taalgebruikersinstructies. Hiervoor introduceren we een nieuwe grootschalige benchmark, InstructExcel, die is gemaakt door gebruik te maken van de 'Automatiseer'-functie in Excel om automatisch OfficeScripts te genereren op basis van gebruikersacties. Onze benchmark bevat meer dan 10k voorbeelden die 170+ Excel-bewerkingen bestrijken over 2.000 openbaar beschikbare Excel-spreadsheets. Experimenten in verschillende zero-shot en few-shot instellingen laten zien dat InstructExcel een uitdagende benchmark is voor state-of-the-art modellen zoals GPT-4. We observeren dat (1) het gebruik van GPT-4 in plaats van GPT-3.5, (2) het verstrekken van meer in-context voorbeelden, en (3) dynamische prompting de prestaties op deze benchmark kunnen verbeteren.