Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Video-LLaMA, een multimodaal framework dat Large Language Models (LLMs) uitrust met de mogelijkheid om zowel visuele als auditieve inhoud in video's te begrijpen. Video-LLaMA start cross-modale training op basis van bevroren, vooraf getrainde visuele en audio-encoders en bevroren LLMs. In tegenstelling tot eerdere vision-LLMs die zich richten op het begrijpen van statische afbeeldingen, zoals MiniGPT-4~zhu2023minigpt en LLaVA~liu2023visualit, pakt Video-LLaMA twee uitdagingen aan in videobegrip: (1) het vastleggen van temporele veranderingen in visuele scènes, (2) het integreren van audio-visuele signalen. Voor de eerste uitdaging stellen we Video Q-former voor om de vooraf getrainde beeldencoder uit te breiden naar een video-encoder en introduceren we een video-naar-tekst generatietaak om video-taalcorrespondentie te leren. Voor de tweede uitdaging maken we gebruik van ImageBind~girdhar2023imagebind als de vooraf getrainde audio-encoder, die uitstekend presteert in het afstemmen van verschillende modaliteiten op een gemeenschappelijke embeddingruimte. Vervolgens introduceren we een Audio Q-former om auditieve query-tokens te leren. Om de uitvoer van zowel de visuele als audio-encoder af te stemmen op de embeddingruimte van de LLM, trainen we Video-LLaMA op een grootschalige visuele bijschriftdataset en een hoogwaardige visuele-instructie-afstemmingsdataset. We ontdekten dat Video-LLaMA het vermogen toont om video-inhoud waar te nemen en te begrijpen, en zinvolle reacties genereert die gebaseerd zijn op de visuele en auditieve informatie in de video's. Dit benadrukt het potentieel van Video-LLaMA als een veelbelovend prototype voor audio-visuele AI-assistenten. Onze code, vooraf getrainde model en demo zijn beschikbaar op https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot is een baanbrekend project dat gericht is op het verbeteren van de prestaties van meertalige taalmodellen voor niet-Engelse talen. Ondanks de beschikbaarheid van verschillende meertalige modellen zoals mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) en BLOOM (Scao et al., 2022), grijpen onderzoekers en ontwikkelaars vaak terug op het bouwen van eentalige modellen in hun respectievelijke talen vanwege de ontevredenheid over de huidige prestaties van meertalige modellen voor niet-Engelse talen. Om deze kloof te overbruggen, streven we ernaar om geavanceerde meertalige taalmodellen te ontwikkelen die betere prestaties bieden in niet-Engelse talen. In dit artikel introduceren we de Polyglot Koreaanse modellen, die een specifieke focus hebben in plaats van meertalig van aard te zijn. In samenwerking met TUNiB heeft ons team 1,2 TB aan Koreaanse data verzameld, die zorgvuldig zijn gecureerd voor ons onderzoeksproces. We hebben bewust gekozen om de ontwikkeling van Koreaanse modellen te prioriteren voordat we ons op meertalige modellen richtten. Deze keuze werd ingegeven door meerdere factoren: ten eerste maakten de Koreaanse modellen prestatievergelijkingen met bestaande meertalige modellen mogelijk; en ten slotte speelden ze in op de specifieke behoeften van Koreaanse bedrijven en onderzoekers. Dit artikel presenteert ons werk aan de ontwikkeling van de Polyglot Koreaanse modellen, die enkele stappen voorstellen om de prestatiekloof voor niet-Engelse talen in meertalige taalmodellen aan te pakken.
Grote Taalmodellen (LLMs) profiteren aanzienlijk van Chain-of-Thought (CoT) prompting bij het uitvoeren van diverse redeneertaken. Hoewel CoT modellen in staat stelt om meer uitgebreide redeneerprocessen te produceren, kan de nadruk op tussenliggende redeneerstappen onbedoeld hallucinaties en opgestapelde fouten introduceren, wat het vermogen van modellen om complexe redeneertaken op te lossen beperkt. Geïnspireerd door de manier waarop mensen zorgvuldige en nauwgezette deductieve logische redeneerprocessen toepassen om taken op te lossen, streven we ernaar om taalmodellen in staat te stellen expliciete en rigoureuze deductieve redeneringen uit te voeren, en tegelijkertijd de betrouwbaarheid van hun redeneerproces te waarborgen door middel van zelfverificatie. Het direct verifiëren van de geldigheid van een volledig deductief redeneerproces is echter uitdagend, zelfs met geavanceerde modellen zoals ChatGPT. Gezien dit, stellen we voor om een redeneerverificatieproces te ontbinden in een reeks stapsgewijze subprocessen, waarbij elk subproces alleen de benodigde context en premissen ontvangt. Om dit proces te vergemakkelijken, introduceren we Natural Program, een deductief redeneerformaat gebaseerd op natuurlijke taal. Onze aanpak stelt modellen in staat om precieze redeneerstappen te genereren waarbij volgende stappen rigoureuzer zijn gebaseerd op voorgaande stappen. Het stelt taalmodellen ook in staat om redeneerzelfverificatie stapsgewijs uit te voeren. Door dit verificatieproces te integreren in elke deductieve redeneerfase, verbeteren we aanzienlijk de strengheid en betrouwbaarheid van gegenereerde redeneerstappen. Tijdens dit proces verbeteren we ook de correctheid van antwoorden bij complexe redeneertaken. De code zal worden vrijgegeven op https://github.com/lz1oceani/verify_cot.
Het schalen van tekst-naar-spraak naar een grote en diverse dataset is bewezen zeer effectief te zijn in het bereiken van generalisatie van timbre en spraakstijl, met name in zero-shot TTS. Eerdere werken coderen echter meestal spraak in latente representaties met behulp van audiocodecs en gebruiken autoregressieve taalmodellen of diffusiemodellen om deze te genereren, wat de intrinsieke aard van spraak negeert en kan leiden tot inferieure of oncontroleerbare resultaten. Wij stellen dat spraak kan worden ontbonden in verschillende attributen (bijv. inhoud, timbre, prosodie en fase) en dat elk daarvan gemodelleerd zou moeten worden met een module met passende inductieve biases. Vanuit dit perspectief hebben we zorgvuldig een nieuw en groot zero-shot TTS-systeem ontworpen, genaamd Mega-TTS, dat getraind is met grootschalige, diverse data en verschillende attributen op verschillende manieren modelleert: 1) In plaats van latente representaties gecodeerd door een audiocodec te gebruiken als tussenliggende feature, kiezen we nog steeds voor spectrogrammen omdat deze fase en andere attributen goed scheiden. Fase kan op de juiste manier worden geconstrueerd door de GAN-gebaseerde vocoder en hoeft niet door het taalmodel te worden gemodelleerd. 2) We modelleren het timbre met behulp van globale vectoren, aangezien timbre een globaal attribuut is dat langzaam verandert in de tijd. 3) We gebruiken verder een VQGAN-gebaseerd akoestisch model om het spectrogram te genereren en een latent code taalmodel om de distributie van prosodie te benaderen, aangezien prosodie snel verandert in een zin en taalmodellen zowel lokale als langeafstandsafhankelijkheden kunnen vastleggen. We schalen Mega-TTS op naar multi-domein datasets met 20K uur aan spraak en evalueren de prestaties op onbekende sprekers. Experimentele resultaten tonen aan dat Mega-TTS state-of-the-art TTS-systemen overtreft op zero-shot TTS, spraakbewerking en cross-linguale TTS-taken, met superieure natuurlijkheid, robuustheid en sprekersgelijkenis dankzij de juiste inductieve bias van elke module. Audiovoorbeelden zijn beschikbaar op https://mega-tts.github.io/demo-page.
We presenteren MotionDiffuser, een op diffusie gebaseerde representatie voor de gezamenlijke verdeling van toekomstige trajecten over meerdere agents. Deze representatie heeft verschillende belangrijke voordelen: ten eerste leert ons model een sterk multimodale verdeling die diverse toekomstige uitkomsten vastlegt. Ten tweede vereist het eenvoudige ontwerp van de voorspeller slechts één L2-verlies trainingsdoel en is het niet afhankelijk van trajectankers. Ten derde is ons model in staat om de gezamenlijke verdeling voor de beweging van meerdere agents op een permutatie-invariante manier te leren. Bovendien maken we gebruik van een gecomprimeerde trajectrepresentatie via PCA, wat de modelprestaties verbetert en efficiënte berekening van de exacte log-kans van de steekproef mogelijk maakt. Vervolgens stellen we een algemeen kader voor beperkte steekproefname voor dat gecontroleerde trajectsteekproefname mogelijk maakt op basis van differentieerbare kostenfuncties. Deze strategie maakt een reeks toepassingen mogelijk, zoals het handhaven van regels en fysieke priors, of het creëren van op maat gemaakte simulatioscenario's. MotionDiffuser kan worden gecombineerd met bestaande backbone-architecturen om topprestaties te behalen in trajectvoorspelling. We behalen state-of-the-art resultaten voor multi-agent trajectvoorspelling op de Waymo Open Motion Dataset.
Onlangs hebben tekstgestuurde 3D-generatieve methoden opmerkelijke vooruitgang geboekt in het produceren van hoogwaardige texturen en geometrie, waarbij ze profiteren van de opkomst van grote visie-taal- en beelddiffusiemodellen. Bestaande methoden hebben echter nog steeds moeite om hoogwaardige 3D-hoofdavatars te creëren op twee vlakken: (1) Ze vertrouwen voornamelijk op een vooraf getraind tekst-naar-beeld diffusiemodel, terwijl ze het nodige 3D-bewustzijn en hoofdprioriteiten missen. Dit maakt ze gevoelig voor inconsistenties en geometrische vervormingen in de gegenereerde avatars. (2) Ze schieten tekort in fijnmazige bewerkingen. Dit komt voornamelijk door de inherente beperkingen van de vooraf getrainde 2D-beelddiffusiemodellen, die nog duidelijker worden bij 3D-hoofdavatars. In dit werk gaan we deze uitdagingen aan door een veelzijdige coarse-to-fine pipeline te introduceren, genaamd HeadSculpt, voor het maken (d.w.z. genereren en bewerken) van 3D-hoofdavatars vanuit tekstuele prompts. Specifiek rusten we eerst het diffusiemodel uit met 3D-bewustzijn door gebruik te maken van op oriëntatiepunten gebaseerde controle en een geleerde tekstuele embedding die het uiterlijk van de achterkant van hoofden vertegenwoordigt, waardoor 3D-consistente hoofdavatar-generaties mogelijk worden. We stellen verder een nieuwe identiteitsbewuste bewerkingsscore-distillatiestrategie voor om een getextureerd mesh te optimaliseren met een hoogwaardige differentieerbare renderingtechniek. Dit maakt identiteitsbehoud mogelijk terwijl de bewerkingsinstructie wordt gevolgd. We tonen de superieure kwaliteit en bewerkingsmogelijkheden van HeadSculpt aan door middel van uitgebreide experimenten en vergelijkingen met bestaande methoden.
Wij stellen PolyVoice voor, een op taalmodellen gebaseerd raamwerk voor een spraak-naar-spraak vertaalsysteem (S2ST). Ons raamwerk bestaat uit twee taalmodellen: een vertaaltaalmodel en een spraaksynthesetaalmodel. We gebruiken gediscretiseerde spraakeenheden, die op een volledig onbewaakte manier worden gegenereerd, waardoor ons raamwerk kan worden gebruikt voor ongeschreven talen. Voor het spraaksynthesegedeelte nemen we de bestaande VALL-E X-benadering over en bouwen we een op eenheden gebaseerd audiotaalmodel. Dit geeft ons raamwerk de mogelijkheid om de stemkenmerken en spreekstijl van de originele spraak te behouden. We testen ons systeem op Chinese → Engelse en Engelse → Spaanse taalparen. Experimentele resultaten tonen aan dat ons systeem spraak kan genereren met hoge vertaalkwaliteit en audiokwaliteit. Spraakvoorbeelden zijn beschikbaar op https://speechtranslation.github.io/polyvoice.
Ternaire en binaire neurale netwerken maken vermenigvuldigingsvrije berekeningen mogelijk en beloven een efficiëntiewinst van meerdere grootteordes ten opzichte van netwerken met volledige precisie, mits geïmplementeerd op gespecialiseerde hardware. Echter, aangezien zowel de parameter- als de uitvoerruimte sterk gediscretiseerd zijn, blijkt het zeer moeilijk om dergelijke netwerken te optimaliseren. De moeilijkheden worden versterkt voor de klasse van transformer-modellen voor tekstgeneratie vanwege de gevoeligheid van de aandachtoperatie voor kwantisatie en de ruisversterkende effecten van autoregressieve decodering in de uitvoerruimte met hoge kardinaliteit. We benaderen het probleem met een mix van statistiekgebaseerde kwantisatie voor de gewichten en elastische kwantisatie van de activaties, en demonstreren de eerste ternaire en binaire transformer-modellen voor de downstream taken van samenvatting en machinaal vertalen. Onze ternaire BART base behaalt een R1-score van 41 op de CNN/DailyMail benchmark, wat slechts 3,9 punten achterblijft bij het volledige model, terwijl het 16x efficiënter is. Ons binaire model, hoewel minder accuraat, behaalt een zeer niet-triviale score van 35,6. Voor machinaal vertalen behaalden we BLEU-scores van 21,7 en 17,6 op de WMT16 En-Ro benchmark, vergeleken met een score van 26,8 voor een mBART-model met volledige precisie. We vergelijken onze aanpak ook in de setting van 8-bit activaties, waar onze ternaire en zelfs binaire gewichtsmodellen de beste bestaande 8-bit gewichtsmodellen in de literatuur kunnen evenaren of overtreffen. Onze code en modellen zijn beschikbaar op: https://github.com/facebookresearch/Ternary_Binary_Transformer
Neurale oppervlakte-reconstructie is krachtig gebleken voor het herstellen van dichte 3D-oppervlakken via beeldgebaseerd neuraal renderen. Huidige methoden hebben echter moeite met het herstellen van gedetailleerde structuren in real-world scènes. Om dit probleem aan te pakken, presenteren we Neuralangelo, dat de representatiekracht van multi-resolutie 3D-hashgrids combineert met neuraal oppervlakte-renderen. Twee belangrijke componenten maken onze aanpak mogelijk: (1) numerieke gradienten voor het berekenen van hogere-orde afgeleiden als een gladmakende operatie en (2) coarse-to-fine optimalisatie op de hashgrids die verschillende niveaus van detail beheersen. Zelfs zonder aanvullende invoer zoals diepte, kan Neuralangelo effectief dichte 3D-oppervlaktestructuren herstellen uit multi-view beelden met een nauwkeurigheid die eerdere methoden significant overtreft, waardoor gedetailleerde grootschalige scène-reconstructie mogelijk wordt vanuit RGB-video-opnames.
Denoising diffusion probabilistische modellen hebben beeldgeneratie getransformeerd met hun indrukwekkende nauwkeurigheid en diversiteit. We tonen aan dat ze ook uitblinken in het schatten van optische flow en monoculaire diepte, verrassend genoeg zonder taakspecifieke architecturen en verliesfuncties die gebruikelijk zijn voor deze taken. In vergelijking met de puntschattingen van conventionele regressiegebaseerde methoden, maken diffusiemodellen ook Monte Carlo-inferentie mogelijk, bijvoorbeeld door onzekerheid en ambiguïteit in flow en diepte vast te leggen. Met zelfgesuperviseerde voorafgaande training, het gecombineerde gebruik van synthetische en echte data voor gesuperviseerde training, en technische innovaties (infilling en step-unrolled denoising diffusion training) om ruwige en onvolledige trainingsdata aan te pakken, en een eenvoudige vorm van coarse-to-fine verfijning, kan men state-of-the-art diffusiemodellen trainen voor diepte- en optische flow-schatting. Uitgebreide experimenten richten zich op kwantitatieve prestaties ten opzichte van benchmarks, ablations, en het vermogen van het model om onzekerheid en multimodaliteit vast te leggen, en ontbrekende waarden in te vullen. Ons model, DDVM (Denoising Diffusion Vision Model), behaalt een state-of-the-art relatieve dieptefout van 0.074 op de indoor NYU-benchmark en een Fl-all outlier rate van 3,26\% op de KITTI optische flow-benchmark, ongeveer 25\% beter dan de beste gepubliceerde methode. Voor een overzicht zie https://diffusion-vision.github.io.
Grote taalmodellen getraind op code hebben groot potentieel getoond om de productiviteit van softwareontwikkelaars te verhogen. Verschillende op uitvoering gebaseerde benchmarks zijn voorgesteld om de functionele correctheid van door modellen gegenereerde code te evalueren op eenvoudige programmeerproblemen. Desalniettemin is het kostbaar om dezelfde evaluatie uit te voeren op complexe real-world projecten, gezien de uitvoeringskosten. Aan de andere kant zijn statische analyse tools zoals linters, die fouten kunnen detecteren zonder het programma uit te voeren, nog niet goed onderzocht voor het evalueren van codegeneratiemodellen. In dit werk stellen we een statisch evaluatiekader voor om statische fouten in Python-codecompleties te kwantificeren, door gebruik te maken van Abstract Syntax Trees. Vergeleken met op uitvoering gebaseerde evaluatie is onze methode niet alleen efficiënter, maar ook toepasbaar op code in het wild. Voor experimenten verzamelen we codecontext uit open source repositories om één miljoen functielichamen te genereren met behulp van publieke modellen. Onze statische analyse onthult dat Undefined Name en Unused Variable de meest voorkomende fouten zijn onder andere fouten gemaakt door taalmodellen. Door uitgebreide studies tonen we ook de impact van samplingtemperatuur, modelgrootte en context op statische fouten in codecompleties.
Dit technische artikel introduceert een chatsysteem voor robots dat gebruikmaakt van recente ontwikkelingen in grootschalige taalmodelen (LLMs) zoals GPT-3 en ChatGPT. Het systeem is geïntegreerd met een co-speech gebarengeneratiesysteem, dat geschikte gebaren selecteert op basis van de conceptuele betekenis van spraak. Onze motivatie is om manieren te verkennen om de recente vooruitgang in LLMs te benutten voor praktische robottoepassingen, wat de ontwikkeling van zowel chatbots als LLMs ten goede komt. Specifiek maakt het de ontwikkeling van zeer responsieve chatbotsystemen mogelijk door gebruik te maken van LLMs en voegt het visuele effecten toe aan de gebruikersinterface van LLMs als extra waarde. De broncode voor het systeem is beschikbaar op GitHub voor onze interne robot (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) en op GitHub voor de Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
We presenteren Semantic Interpreter, een AI-systeem dat gebruiksvriendelijk is voor natuurlijke taal en is ontworpen voor productiviteitssoftware zoals Microsoft Office. Het systeem maakt gebruik van grote taalmodelen (LLM's) om gebruikersintenties uit te voeren via applicatiefuncties. Hoewel LLM's uitstekend zijn in het begrijpen van gebruikersintenties die in natuurlijke taal worden uitgedrukt, zijn ze niet voldoende om applicatiespecifieke gebruikersintenties te vervullen die meer vereisen dan tekst-naar-tekst transformaties. Daarom introduceren we de Office Domain Specific Language (ODSL), een beknopte, hoogwaardige taal die gespecialiseerd is voor het uitvoeren van acties en het interactie hebben met entiteiten in Office-applicaties. Semantic Interpreter maakt gebruik van een Analysis-Retrieval promptconstructiemethode met LLM's voor programma-synthese, waarbij natuurlijke taalgebruikersuitingen worden vertaald naar ODSL-programma's die kunnen worden omgezet naar applicatie-API's en vervolgens worden uitgevoerd. We richten onze discussie voornamelijk op een onderzoeksexploratie voor Microsoft PowerPoint.
Concept erasure heeft als doel om specifieke kenmerken uit een representatie te verwijderen. Het kan worden gebruikt om eerlijkheid te verbeteren (bijvoorbeeld door te voorkomen dat een classifier geslacht of ras gebruikt) en interpreteerbaarheid (bijvoorbeeld door een concept te verwijderen om veranderingen in modelgedrag te observeren). In dit artikel introduceren we LEAst-squares Concept Erasure (LEACE), een gesloten-vorm methode die bewezen voorkomt dat alle lineaire classifiers een concept detecteren, terwijl de minst mogelijke schade aan de representatie wordt toegebracht. We passen LEACE toe op grote taalmiddelen met een nieuwe procedure genaamd "concept scrubbing," die informatie over het doelconcept uit elke laag in het netwerk wist. We demonstreren de bruikbaarheid van onze methode op twee taken: het meten van de afhankelijkheid van taalmiddelen van woordsoortinformatie, en het verminderen van gendervooroordelen in BERT-embeddings. Code is beschikbaar op https://github.com/EleutherAI/concept-erasure.
Met de ontwikkeling van grote taalmodelen zijn veel opmerkelijke linguïstische systemen zoals ChatGPT tot bloei gekomen en hebben ze verbazingwekkend succes geboekt op veel taken, wat de ongelooflijke kracht van foundationmodellen aantoont. In de geest van het benutten van de mogelijkheden van foundationmodellen voor visuele taken, is het Segment Anything Model (SAM), een vision foundationmodel voor beeldsegmentatie, recentelijk voorgesteld en toont het sterke zero-shot-vaardigheden op veel downstream 2D-taken. Echter, of SAM kan worden aangepast aan 3D-visuele taken moet nog worden onderzocht, met name 3D-objectdetectie. Geïnspireerd door dit idee, onderzoeken we in dit artikel het aanpassen van de zero-shot-vaardigheid van SAM aan 3D-objectdetectie. We stellen een SAM-gestuurde BEV-verwerkingspijplijn voor om objecten te detecteren en behalen veelbelovende resultaten op de grootschalige Waymo open dataset. Als een vroege poging zet onze methode een stap in de richting van 3D-objectdetectie met vision foundationmodellen en biedt het de mogelijkheid om hun kracht te benutten voor 3D-visuele taken. De code is vrijgegeven op https://github.com/DYZhang09/SAM3D.
Grote taalmodellen voor code (Code-LLM's) hebben recentelijk enorme vooruitgang geboekt op het gebied van codecompletering, een fundamentele functie van programmeerassistentie en code-intelligentie. De meeste bestaande werken negeren echter de mogelijke aanwezigheid van bugs in de codecontext voor generatie, wat onvermijdelijk is in softwareontwikkeling. Daarom introduceren en bestuderen we het probleem van buggy-codecompletering, geïnspireerd door het realistische scenario van real-time codesuggesties waarbij de codecontext potentiële bugs bevat — anti-patronen die bugs kunnen worden in het voltooide programma. Om de taak systematisch te bestuderen, introduceren we twee datasets: één met synthetische bugs afgeleid van semantiek-veranderende operatorwijzigingen (buggy-HumanEval) en één met realistische bugs afgeleid van gebruikersinzendingen voor coderingsproblemen (buggy-FixEval). We constateren dat de aanwezigheid van potentiële bugs de generatieprestaties van de hoogpresterende Code-LLM's aanzienlijk verslechtert. Zo dalen de slaagpercentages van CodeGen-2B-mono op testgevallen van buggy-HumanEval met meer dan 50% bij een enkele potentiële bug in de context. Ten slotte onderzoeken we verschillende post-hoc methoden om het nadelige effect van potentiële bugs te mitigeren en concluderen we dat er een groot gat blijft in de prestaties na mitigatie.
Autoregressieve modellen voor tekst genereren soms repetitieve en kwalitatief zwakke uitvoer omdat fouten zich opstapelen tijdens de generatiestappen. Dit probleem wordt vaak toegeschreven aan exposure bias - het verschil tussen hoe een model wordt getraind en hoe het wordt gebruikt tijdens inferentie. Denoising diffusiemodellen bieden een alternatieve aanpak waarbij een model zijn uitvoer kan herzien en aanpassen. Ze kunnen echter rekenintensief zijn, en eerdere pogingen voor tekst hebben geleid tot modellen die minder vloeiende uitvoer produceren in vergelijking met autoregressieve modellen, vooral voor langere tekst en alinea's. In dit artikel stellen we PLANNER voor, een model dat latente semantische diffusie combineert met autoregressieve generatie, om vloeiende tekst te genereren terwijl het globale controle uitoefent over alinea's. Het model bereikt dit door een autoregressieve "decodering"-module te combineren met een "plannings"-module die latente diffusie gebruikt om semantische alinea-embeddingen op een grof-naar-fijne manier te genereren. De voorgestelde methode wordt geëvalueerd op verschillende conditionele generatietaken, en resultaten op het gebied van semantische generatie, tekstcompletering en samenvatting tonen de effectiviteit aan in het efficiënt genereren van hoogwaardige lange tekst.
Vision-language models (VLMs) die discriminerend zijn voorgetraind met contrastieve beeld-tekst matching verliesfuncties zoals P(match|tekst, beeld), zijn bekritiseerd vanwege een gebrek aan compositioneel begrip. Dit betekent dat ze vergelijkbare scores kunnen uitvoeren, zelfs als de originele bijschrift wordt herschikt tot een andere semantische uitspraak. Om dit aan te pakken, stellen we voor om de {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) van P(tekst|beeld) te gebruiken, een multimodale generatieve score die de waarschijnlijkheid van een tekstbijschrift, geconditioneerd op een beeld, vastlegt met behulp van een beeld-geconditioneerd taalmodel. In tegenstelling tot de opvatting dat VLMs slechts bag-of-words modellen zijn, laat onze kant-en-klare VisualGPTScore top prestaties zien op recent voorgestelde beeld-tekst retrieval benchmarks zoals ARO en Crepe die compositioneel redeneren beoordelen. Bovendien factoriseren we VisualGPTScore in een product van de marginale P(tekst) en de Pointwise Mutual Information (PMI). Dit helpt om (a) datasets met sterke taal bias te diagnosticeren, en (b) resultaten op andere benchmarks zoals Winoground te debiasen met behulp van een informatie-theoretisch raamwerk. VisualGPTScore biedt waardevolle inzichten en dient als een sterke baseline voor toekomstige evaluatie van visio-linguïstische compositionaliteit.
Grote tekst-naar-video-modellen die getraind zijn op internet-schaal data hebben uitzonderlijke mogelijkheden getoond in het genereren van hoogwaardige video's vanuit willekeurige tekstuele beschrijvingen. Het aanpassen van deze modellen aan taken met beperkte domeinspecifieke data, zoals animatie of robotica-video's, vormt echter een aanzienlijke computationele uitdaging, aangezien het finetunen van een voorgetraind groot model buitensporig duur kan zijn. Geïnspireerd door hoe een kleine aanpasbare component (bijvoorbeeld prompts, prefix-tuning) een groot taalmodel kan aanpassen om nieuwe taken uit te voeren zonder toegang tot de modelgewichten te vereisen, onderzoeken we hoe een groot voorgetraind tekst-naar-video-model kan worden aangepast aan een verscheidenheid aan downstream domeinen en taken zonder finetuning. Bij het beantwoorden van deze vraag stellen we Video Adapter voor, dat de scorefunctie van een groot voorgetraind video-diffusiemodel gebruikt als een probabilistische prior om de generatie van een taakspecifiek klein videomodel te begeleiden. Onze experimenten tonen aan dat Video Adapter in staat is om de brede kennis te integreren en de hoge kwaliteit van een groot voorgetraind videomodel te behouden in een taakspecifiek klein videomodel dat hoogwaardige maar gespecialiseerde video's kan genereren voor een verscheidenheid aan taken, zoals animatie, egocentrische modellering, en modellering van gesimuleerde en echte robotica-data. Meer video's zijn te vinden op de website https://video-adapter.github.io/.
Softwarekwetsbaarheden brengen bedrijven aanzienlijke kosten met zich mee. Ondanks uitgebreide inspanningen in onderzoek en ontwikkeling van methoden voor het detecteren van softwarekwetsbaarheden, blijven onopgemerkte kwetsbaarheden software-eigenaren en gebruikers in gevaar brengen. Veel huidige methoden voor het detecteren van kwetsbaarheden vereisen dat codefragmenten kunnen worden gecompileerd en gebouwd voordat detectie wordt geprobeerd. Dit introduceert helaas een lange latentie tussen het moment waarop een kwetsbaarheid wordt geïntroduceerd en het moment waarop deze wordt verwijderd, wat de kosten voor het oplossen van een kwetsbaarheid aanzienlijk kan verhogen. Wij erkennen dat de huidige vooruitgang in machine learning kan worden gebruikt om kwetsbare code-patronen te detecteren in syntactisch onvolledige codefragmenten terwijl de ontwikkelaar de code schrijft, op het moment van bewerken (EditTime). In dit artikel presenteren we een praktisch systeem dat gebruikmaakt van deep learning op een grootschalige dataset van kwetsbare code-patronen om complexe manifestaties van meer dan 250 kwetsbaarheidstypen te leren en kwetsbare code-patronen te detecteren tijdens het bewerken. We bespreken zero-shot, few-shot en fine-tuning benaderingen op state-of-the-art vooraf getrainde Large Language Models (LLMs). We laten zien dat onze aanpak in vergelijking met state-of-the-art kwetsbaarheidsdetectiemodellen de stand van de techniek met 10% verbetert. We evalueren ook onze aanpak om kwetsbaarheden te detecteren in automatisch gegenereerde code door code-LLMs. Evaluatie op een benchmark van hoogrisico codescenario's toont een reductie van kwetsbaarheden tot wel 90%.