Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve Kunstmatige Intelligentie (GenAI) systemen worden steeds vaker ingezet in alle delen van de industrie en onderzoeksomgevingen. Ontwikkelaars en eindgebruikers interacteren met deze systemen door middel van prompting of prompt engineering. Hoewel prompting een wijdverbreid en intensief onderzocht concept is, bestaat er tegenstrijdige terminologie en een gebrekkig ontologisch begrip van wat een prompt precies inhoudt, vanwege de prille ontwikkeling van dit gebied. Dit artikel biedt een gestructureerd begrip van prompts, door een taxonomie van promptingtechnieken samen te stellen en hun gebruik te analyseren. We presenteren een uitgebreide vocabulaire van 33 termen, een taxonomie van 58 tekstuele promptingtechnieken, en 40 technieken voor andere modaliteiten. Daarnaast presenteren we een meta-analyse van de volledige literatuur over natuurlijke taal prefix-prompting.
Recente vooruitgang in generatieve modellen heeft de cruciale rol van beeldtokenisatie bij de efficiënte synthese van hoogwaardige afbeeldingen benadrukt. Tokenisatie, waarbij afbeeldingen worden omgezet in latente representaties, vermindert de rekenkundige eisen in vergelijking met het direct verwerken van pixels en verbetert de effectiviteit en efficiëntie van het generatieproces. Eerdere methoden, zoals VQGAN, maken doorgaans gebruik van 2D latente roosters met vaste downsamplingfactoren. Deze 2D-tokenisaties hebben echter moeite met het beheren van de inherente redundanties in afbeeldingen, waarbij aangrenzende gebieden vaak overeenkomsten vertonen. Om dit probleem te overwinnen, introduceren we de Transformer-based 1-Dimensional Tokenizer (TiTok), een innovatieve aanpak die afbeeldingen tokeniseert in 1D latente sequenties. TiTok biedt een compactere latente representatie, wat resulteert in aanzienlijk efficiëntere en effectievere representaties dan conventionele technieken. Zo kan een afbeelding van 256 x 256 x 3 worden gereduceerd tot slechts 32 discrete tokens, een aanzienlijke vermindering ten opzichte van de 256 of 1024 tokens die door eerdere methoden worden verkregen. Ondanks zijn compacte aard behaalt TiTok een competitieve prestaties ten opzichte van state-of-the-art benaderingen. Specifiek behaalt TiTok, met hetzelfde generatorframework, een gFID van 1.97, wat een significante verbetering is ten opzichte van de MaskGIT-baseline met 4.21 bij de ImageNet 256 x 256 benchmark. De voordelen van TiTok worden nog duidelijker bij hogere resoluties. Bij de ImageNet 512 x 512 benchmark overtreft TiTok niet alleen de state-of-the-art diffusiemodel DiT-XL/2 (gFID 2.74 vs. 3.04), maar reduceert het ook het aantal beeldtokens met 64x, wat leidt tot een 410x sneller generatieproces. Onze best presterende variant overtreft DiT-XL/2 aanzienlijk (gFID 2.13 vs. 3.04) terwijl het nog steeds hoogwaardige samples 74x sneller genereert.
Code large language models (LLM's) hebben opmerkelijke vooruitgang geboekt in taken zoals codebegrip, -completering en -generatie. Programmeerbenchmarks, bestaande uit een selectie van code-uitdagingen en bijbehorende testgevallen, dienen als standaard om de capaciteit van verschillende LLM's in dergelijke taken te evalueren. De meeste bestaande benchmarks richten zich echter voornamelijk op Python en zijn nog steeds beperkt tot een beperkt aantal talen, waarbij andere talen worden vertaald vanuit de Python-voorbeelden (bijv. MultiPL-E), wat de diversiteit van de data vermindert. Om het onderzoek naar code-LLM's verder te faciliteren, stellen we een massaal meertalige codebenchmark voor die 40 programmeertalen omvat (McEval) met 16K testgevallen, wat de grenzen van code-LLM's in meertalige scenario's aanzienlijk verlegt. De benchmark bevat uitdagende evaluatietaken voor codecompletering, -begrip en -generatie, aangevuld met zorgvuldig samengestelde massaal meertalige instructiecorpora McEval-Instruct. Daarnaast introduceren we een effectieve meertalige coder, mCoder, getraind op McEval-Instruct, om meertalige programmeertaalgeneratie te ondersteunen. Uitgebreide experimentele resultaten op McEval tonen aan dat er nog een moeilijke weg te gaan is tussen open-source modellen en gesloten bron-LLM's (bijv. GPT-serie modellen) in tal van talen. De instructiecorpora, evaluatiebenchmark en leaderboard zijn beschikbaar op https://mceval.github.io/.
Afbeeldingen bewerken is een praktische maar uitdagende taak, gezien de uiteenlopende eisen van gebruikers, waarbij een van de moeilijkste aspecten is om precies te beschrijven hoe de bewerkte afbeelding eruit moet zien. In dit werk introduceren we een nieuwe vorm van bewerken, genaamd imitatief bewerken, om gebruikers te helpen hun creativiteit gemakkelijker te uiten. Concreet kunnen gebruikers, om een interessant gebied in een afbeelding te bewerken, direct inspiratie halen uit enkele referenties uit de praktijk (bijvoorbeeld enkele gerelateerde afbeeldingen die ze online tegenkomen), zonder zich zorgen te hoeven maken over de aansluiting tussen de referentie en de bron. Een dergelijk ontwerp vereist dat het systeem automatisch bepaalt wat er van de referentie verwacht kan worden om de bewerking uit te voeren. Hiervoor stellen we een generatief trainingsframework voor, genaamd MimicBrush, dat willekeurig twee frames uit een videoclip selecteert, enkele regio's van één frame maskeert, en leert om de gemaskeerde regio's te herstellen met behulp van informatie uit het andere frame. Op die manier is ons model, ontwikkeld vanuit een diffusieprior, in staat om de semantische correspondentie tussen afzonderlijke afbeeldingen op een zelfgestuurde manier vast te leggen. We tonen experimenteel de effectiviteit van onze methode aan onder verschillende testgevallen, evenals de superioriteit ten opzichte van bestaande alternatieven. We stellen ook een benchmark samen om verder onderzoek te vergemakkelijken.
AI ondergaat een paradigmaverschuiving, met doorbraken bereikt door systemen die meerdere grote taalmmodellen (LLMs) en andere complexe componenten orkestreren. Als gevolg hiervan is het ontwikkelen van principiële en geautomatiseerde optimalisatiemethoden voor samengestelde AI-systemen een van de belangrijkste nieuwe uitdagingen. Neurale netwerken stonden in hun beginjaren voor een vergelijkbare uitdaging, totdat backpropagation en automatische differentiatie het veld transformeerden door optimalisatie eenvoudig te maken. Geïnspireerd door dit introduceert TextGrad, een krachtig framework dat automatische "differentiatie" via tekst uitvoert. TextGrad propageert tekstuele feedback, geleverd door LLMs, terug om individuele componenten van een samengesteld AI-systeem te verbeteren. In ons framework bieden LLMs rijke, algemene, natuurlijke taal suggesties om variabelen in rekenkundige grafieken te optimaliseren, variërend van codefragmenten tot moleculaire structuren. TextGrad volgt de syntaxis en abstractie van PyTorch en is flexibel en gebruiksvriendelijk. Het werkt direct voor een verscheidenheid aan taken, waarbij gebruikers alleen de doel functie hoeven te specificeren zonder componenten of prompts van het framework af te stemmen. We demonstreren de effectiviteit en algemeenheid van TextGrad in een breed scala aan toepassingen, van vraagbeantwoording en molecuuloptimalisatie tot radiotherapiebehandelingsplanning. Zonder het framework aan te passen, verbetert TextGrad de zero-shot nauwkeurigheid van GPT-4 in Google-Proof Question Answering van 51% naar 55%, levert het een relatieve prestatieverbetering van 20% op bij het optimaliseren van oplossingen voor LeetCode-Hard codeproblemen, verbetert het prompts voor redenering, ontwerpt het nieuwe geneesmiddelachtige kleine moleculen met gewenste in silico binding, en ontwerpt het radiotherapiebehandelingsplannen met hoge specificiteit. TextGrad legt een basis om de ontwikkeling van de volgende generatie AI-systemen te versnellen.
Dit artikel introduceert het MCT Self-Refine (MCTSr) algoritme, een innovatieve integratie van Large Language Models (LLMs) met Monte Carlo Tree Search (MCTS), ontworpen om de prestaties te verbeteren bij complexe wiskundige redeneertaken. Door de uitdagingen van nauwkeurigheid en betrouwbaarheid in LLMs aan te pakken, met name bij strategisch en wiskundig redeneren, maakt MCTSr gebruik van systematische exploratie en heuristische zelfverfijningsmechanismen om besluitvormingskaders binnen LLMs te verbeteren. Het algoritme construeert een Monte Carlo zoekboom door iteratieve processen van Selectie, zelfverfijning, zelfevaluatie en Backpropagation, waarbij een verbeterde Upper Confidence Bound (UCB) formule wordt gebruikt om de balans tussen exploratie en exploitatie te optimaliseren. Uitgebreide experimenten tonen de effectiviteit van MCTSr aan bij het oplossen van Olympiad-niveau wiskundige problemen, met een significante verbetering van de slagingspercentages op meerdere datasets, waaronder GSM8K, GSM Hard, MATH en Olympiad-niveau benchmarks, zoals Math Odyssey, AIME en OlympiadBench. De studie bevordert de toepassing van LLMs in complexe redeneertaken en legt een basis voor toekomstige AI-integratie, waardoor de nauwkeurigheid en betrouwbaarheid van besluitvorming in LLM-gedreven applicaties wordt verbeterd.
Complexe meerstaps redeneertaken, zoals het oplossen van wiskundige problemen of het genereren van code, blijven een aanzienlijke uitdaging vormen, zelfs voor de meest geavanceerde grote taalmodellen (LLM's). Het verifiëren van LLM-uitvoer met een Outcome Reward Model (ORM) is een standaard techniek tijdens de inferentie die gericht is op het verbeteren van de redeneerprestaties van LLM's. Dit blijkt echter nog steeds onvoldoende voor redeneertaken met een lange of meerstaps redeneerketen, waarbij de tussenliggende resultaten niet goed worden beloond of bestraft. Procesbegeleiding lost deze beperking op door tussenliggende beloningen toe te kennen tijdens het redeneerproces. Tot op heden hebben de methoden die worden gebruikt om procesbegeleidingsgegevens te verzamelen, vertrouwd op menselijke annotatie of per-stap Monte Carlo-schatting, beide onbetaalbaar om op te schalen, wat de brede toepassing van deze techniek belemmert. Als antwoord op deze uitdaging stellen we een nieuw divide-and-conquer-stijl Monte Carlo Tree Search (MCTS) algoritme voor, genaamd OmegaPRM, voor de efficiënte verzameling van hoogwaardige procesbegeleidingsgegevens. Dit algoritme identificeert snel de eerste fout in de Chain of Thought (CoT) met behulp van binaire zoekopdrachten en balanceert de positieve en negatieve voorbeelden, waardoor zowel efficiëntie als kwaliteit worden gewaarborgd. Als resultaat zijn we in staat om meer dan 1,5 miljoen procesbegeleidingsannotaties te verzamelen om een Process Reward Model (PRM) te trainen. Door gebruik te maken van deze volledig geautomatiseerde procesbegeleiding in combinatie met het gewogen zelfconsistentie-algoritme, hebben we de wiskundige redeneerprestaties van het instructiegetunede Gemini Pro-model verbeterd, met een slagingspercentage van 69,4\% op de MATH-benchmark, een relatieve verbetering van 36\% ten opzichte van de basisprestatie van 51\%. Bovendien verloopt het hele proces zonder menselijke tussenkomst, waardoor onze methode zowel financieel als computationeel kosteneffectief is in vergelijking met bestaande methoden.
In dit technische rapport introduceren we de trainingsmethodologieën die zijn toegepast bij de ontwikkeling van Skywork-MoE, een hoogwaardig mixture-of-experts (MoE) groot taalmodel (LLM) met 146 miljard parameters en 16 experts. Het model is geïnitialiseerd vanuit de bestaande dense checkpoints van ons Skywork-13B-model. We onderzoeken de vergelijkende effectiviteit van upcycling versus trainen vanaf een initiële start. Onze bevindingen suggereren dat de keuze tussen deze twee benaderingen zowel de prestaties van de bestaande dense checkpoints als het MoE-trainingsbudget in overweging moet nemen. We belichten twee innovatieve technieken: gating logit-normalisatie, wat de diversificatie van experts verbetert, en adaptieve hulpverliescoëfficiënten, die laagspecifieke aanpassing van hulpverliescoëfficiënten mogelijk maken. Onze experimentele resultaten valideren de effectiviteit van deze methoden. Door gebruik te maken van deze technieken en inzichten hebben we ons geüpcyclede Skywork-MoE getraind op een gecondenseerde subset van ons SkyPile-corpus. De evaluatieresultaten tonen aan dat ons model sterke prestaties levert op een breed scala aan benchmarks.
Het genereren van gecombineerde visuele en auditieve zintuiglijke ervaringen is cruciaal voor het consumeren van immersieve content. Recente vooruitgang in neurale generatieve modellen heeft het mogelijk gemaakt om hoogwaardige content te creëren in meerdere modaliteiten, zoals afbeeldingen, tekst, spraak en video's. Ondanks deze successen bestaat er nog steeds een aanzienlijke kloof in het genereren van hoogwaardige ruimtelijke audio die gegenereerde visuele content aanvult. Bovendien excelleren huidige audiogeneratiemodellen in het genereren van natuurlijke audio, spraak of muziek, maar schieten ze tekort in het integreren van ruimtelijke audiocues die nodig zijn voor immersieve ervaringen. In dit werk introduceren we SEE-2-SOUND, een zero-shot benadering die de taak opsplitst in (1) het identificeren van visuele interessegebieden; (2) het lokaliseren van deze elementen in 3D-ruimte; (3) het genereren van mono-audio voor elk; en (4) het integreren ervan in ruimtelijke audio. Met ons framework demonstreren we overtuigende resultaten voor het genereren van ruimtelijke audio voor hoogwaardige video's, afbeeldingen en dynamische afbeeldingen van het internet, evenals media gegenereerd door geleerde benaderingen.
Bestaande methoden voor het genereren van dynamische scènes zijn voornamelijk gebaseerd op het destilleren van kennis uit vooraf getrainde 3D-generatieve modellen, die doorgaans worden afgestemd op synthetische objectdatasets. Hierdoor zijn de gegenereerde scènes vaak objectgericht en missen ze fotorealisme. Om deze beperkingen aan te pakken, introduceren we een nieuwe pijplijn die is ontworpen voor fotorealistische tekst-naar-4D-scènegeneratie, waarbij de afhankelijkheid van multi-view-generatieve modellen wordt losgelaten en in plaats daarvan volledig gebruik wordt gemaakt van videogeneratieve modellen die zijn getraind op diverse real-world datasets. Onze methode begint met het genereren van een referentievideo met behulp van het videogeneratiemodel. Vervolgens leren we de canonieke 3D-representatie van de video met behulp van een freeze-time video, die zorgvuldig wordt gegenereerd uit de referentievideo. Om inconsistenties in de freeze-time video te hanteren, leren we gezamenlijk een per-frame vervorming om deze imperfecties te modelleren. Daarna leren we de temporele vervorming op basis van de canonieke representatie om dynamische interacties in de referentievideo vast te leggen. De pijplijn maakt het mogelijk om dynamische scènes te genereren met verbeterd fotorealisme en structurele integriteit, die vanuit meerdere perspectieven bekeken kunnen worden, waardoor een nieuwe standaard wordt gezet in 4D-scènegeneratie.
Diffusiemodellen hebben aanzienlijke belangstelling van de gemeenschap gewekt vanwege hun uitstekende generatieve vermogen in diverse toepassingen. Hun typische, meerstaps sequentiële denoising-karakter leidt echter tot een hoge cumulatieve latentie, waardoor parallelle berekeningen niet mogelijk zijn. Om dit aan te pakken, introduceren we AsyncDiff, een universeel en plug-and-play versnellingsschema dat modelparallelisme over meerdere apparaten mogelijk maakt. Onze aanpak verdeelt het omvangrijke ruisvoorspellingsmodel in meerdere componenten, waarbij elke component aan een ander apparaat wordt toegewezen. Om de afhankelijkheidsketen tussen deze componenten te doorbreken, transformeert het de conventionele sequentiële denoising in een asynchroon proces door gebruik te maken van de hoge gelijkenis tussen verborgen toestanden in opeenvolgende diffusiestappen. Hierdoor kan elke component parallel worden berekend op afzonderlijke apparaten. De voorgestelde strategie vermindert de inferentielatentie aanzienlijk, terwijl de generatieve kwaliteit minimaal wordt beïnvloed. Specifiek behaalt AsyncDiff voor Stable Diffusion v2.1 een 2,7x versnelling met verwaarloosbare degradatie en een 4,0x versnelling met slechts een lichte reductie van 0,38 in CLIP Score, op vier NVIDIA A5000 GPU's. Onze experimenten tonen ook aan dat AsyncDiff eenvoudig kan worden toegepast op videodiffusiemodellen met bemoedigende prestaties. De code is beschikbaar op https://github.com/czg1225/AsyncDiff.
Hoewel diffusiemodellen uitblinken in het genereren van hoogwaardige afbeeldingen, meldt eerder onderzoek een aanzienlijk prestatieverschil tussen diffusie en autoregressieve (AR) methoden bij taalmodelering. In dit werk tonen we aan dat eenvoudige gemaskeerde discrete diffusie performanter is dan eerder werd gedacht. We passen een effectief trainingsrecept toe dat de prestaties van gemaskeerde diffusiemodellen verbetert en leiden een vereenvoudigd, Rao-Blackwellized doel af dat tot aanvullende verbeteringen leidt. Ons doel heeft een eenvoudige vorm – het is een mengsel van klassieke gemaskeerde taalmodelverliezen – en kan worden gebruikt om encoder-only taalmodellen te trainen die efficiënte samplers toelaten, inclusief modellen die willekeurige lengtes tekst semi-autoregressief kunnen genereren zoals een traditioneel taalmodel. Op taalmodeleringsbenchmarks bereikt een reeks gemaskeerde diffusiemodellen die zijn getraind met moderne engineeringpraktijken een nieuwe state-of-the-art onder diffusiemodellen en benadert het AR-perplexiteit. We geven onze code vrij op: https://github.com/kuleshov-group/mdlm
Grote taalmodellen (LLM's) hebben indrukwekkende prestaties geleverd op benchmarks voor medische vraag-antwoordtaken. Hoge nauwkeurigheid op benchmarks betekent echter niet dat deze prestaties gegeneraliseerd kunnen worden naar realistische klinische omgevingen. Benchmarks voor medische vraag-antwoordtaken zijn gebaseerd op aannames die consistent zijn met het kwantificeren van LLM-prestaties, maar die mogelijk niet standhouden in de open wereld van de kliniek. Toch leren LLM's brede kennis die kan helpen om te generaliseren naar praktische omstandigheden, ongeacht onrealistische aannames in gerenommeerde benchmarks. Wij streven ernaar te kwantificeren hoe goed de prestaties van LLM's op medische vraag-antwoordbenchmarks generaliseren wanneer benchmarkaannames worden geschonden. Specifiek presenteren we een adversariële methode die we MedFuzz noemen (voor medische fuzzing). MedFuzz probeert benchmarkvragen op manieren aan te passen die bedoeld zijn om de LLM te verwarren. We demonstreren deze aanpak door sterke aannames over patiëntkenmerken in de MedQA-benchmark aan te vallen. Succesvolle "aanvallen" wijzigen een benchmarkitem op manieren die een medisch expert waarschijnlijk niet zouden misleiden, maar desondanks de LLM "misleiden" om van een correct naar een incorrect antwoord te veranderen. Verder presenteren we een permutatietesttechniek die kan garanderen dat een succesvolle aanvaller statistisch significant is. We laten zien hoe prestaties op een "MedFuzz-gebaseerde" benchmark, evenals individuele succesvolle aanvallen, kunnen worden gebruikt. Deze methoden tonen potentie om inzicht te geven in het vermogen van een LLM om robuust te functioneren in realistischer omgevingen.
We presenteren DenseAV, een innovatieve dual encoder grounding-architectuur die hoogresolutie, semantisch betekenisvolle en audio-visueel uitgelijnde kenmerken leert door uitsluitend video's te bekijken. We tonen aan dat DenseAV de "betekenis" van woorden en de "locatie" van geluiden kan ontdekken zonder expliciete localisatiesupervisie. Bovendien ontdekt en onderscheidt het automatisch tussen deze twee soorten associaties zonder supervisie. We laten zien dat de localisatievaardigheden van DenseAV voortkomen uit een nieuwe multi-head kenmerkaggregatie-operator die dichte beeld- en audio-representaties direct vergelijkt voor contrastief leren. Daarentegen kunnen veel andere systemen die "globale" audio- en videorepresentaties leren, woorden en geluiden niet lokaliseren. Ten slotte dragen we twee nieuwe datasets bij om de evaluatie van AV-representaties te verbeteren door middel van spraak- en geluidsgeprompte semantische segmentatie. Op deze en andere datasets tonen we aan dat DenseAV de state-of-the-art aanzienlijk overtreft op het gebied van spraak- en geluidsgeprompte semantische segmentatie. DenseAV overtreft de vorige state-of-the-art, ImageBind, bij cross-modale retrieval met minder dan de helft van de parameters. Projectpagina: https://aka.ms/denseav{https://aka.ms/denseav}
Single-image relighting is een uitdagende taak die het begrip vereist van de complexe interactie tussen geometrie, materialen en belichting. Veel eerdere methoden ondersteunen alleen specifieke categorieën van afbeeldingen, zoals portretten, of vereisen speciale opnameomstandigheden, zoals het gebruik van een zaklamp. Alternatief ontbinden sommige methoden een scène expliciet in intrinsieke componenten, zoals normalen en BRDF's, wat onnauwkeurig of onderuitdrukkend kan zijn. In dit werk stellen we een nieuw end-to-end 2D relighting-diffusiemodel voor, genaamd Neural Gaffer, dat een enkele afbeelding van elk object neemt en een nauwkeurige, hoogwaardige herbelichte afbeelding kan synthetiseren onder elke nieuwe omgevingslichtconditie, simpelweg door een afbeeldingsgenerator te conditioneren op een doelomgevingskaart, zonder een expliciete scène-ontleding. Onze methode bouwt voort op een vooraf getraind diffusiemodel en fine-tunt dit op een synthetische relighting-dataset, waarbij het inherente begrip van belichting in het diffusiemodel wordt onthuld en benut. We evalueren ons model op zowel synthetische als in-the-wild internetbeelden en demonstreren de voordelen ervan op het gebied van generalisatie en nauwkeurigheid. Bovendien maakt ons model, in combinatie met andere generatieve methoden, veel downstream 2D-taken mogelijk, zoals tekstgebaseerde relighting en objectinvoeging. Ons model kan ook functioneren als een sterke relighting-prior voor 3D-taken, zoals het herbelichten van een stralingsveld.
De robuustheid van grote taalmodellen (LLM's) tegenover adversariële manipulaties, zoals jailbreak-aanvallen, blijft een aanzienlijke uitdaging. In dit werk stellen we een benadering voor die het zelfkritiekvermogen van het LLM versterkt en het verder verfijnt met behulp van gesaneerde synthetische data. Dit gebeurt door de toevoeging van een extern criticusmodel dat kan worden samengevoegd met het originele model, waardoor de zelfkritiekcapaciteiten worden versterkt en de robuustheid van de reacties van het LLM op adversariële prompts wordt verbeterd. Onze resultaten tonen aan dat de combinatie van samenvoegen en zelfkritiek het aanvalssuccespercentage van tegenstanders aanzienlijk kan verminderen, wat een veelbelovend verdedigingsmechanisme biedt tegen jailbreak-aanvallen. Code, data en modellen zijn vrijgegeven op https://github.com/vicgalle/merging-self-critique-jailbreaks.