Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Parameter-efficient fine-tuning (PEFT)-methoden streven ernaar grote modellen aan te passen door updates aan een klein aantal gewichten. Echter heeft veel eerder interpretatieonderzoek aangetoond dat representaties rijke semantische informatie coderen, wat suggereert dat het bewerken van representaties een krachtiger alternatief zou kunnen zijn. Hier onderzoeken we deze hypothese door een familie van Representation Finetuning (ReFT)-methoden te ontwikkelen. ReFT-methoden werken op een bevroren basismodel en leren taakspecifieke interventies op verborgen representaties. We definiëren een sterk voorbeeld van de ReFT-familie, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is een directe vervanging voor bestaande PEFT's en leert interventies die 10x-50x parameter-efficiënter zijn dan de state-of-the-art PEFT's. We demonstreren LoReFT op acht commonsense-redeneertaken, vier rekenkundige redeneertaken, Alpaca-Eval v1.0 en GLUE. In al deze evaluaties biedt LoReFT de beste balans tussen efficiëntie en prestaties, en presteert bijna altijd beter dan state-of-the-art PEFT's. We hebben een generieke ReFT-trainingsbibliotheek openbaar vrijgegeven op https://github.com/stanfordnlp/pyreft.
Diffusiemodellen hebben grote successen geboekt op het gebied van tekst-naar-beeldgeneratie. Het verminderen van de misalignering tussen tekstprompts en afbeeldingen blijft echter een uitdaging. De onderliggende reden voor deze misalignering is nog niet uitgebreid onderzocht. Wij observeren dat de misalignering wordt veroorzaakt door onvoldoende activatie van token-attentie. Wij schrijven dit fenomeen verder toe aan de onvoldoende benutting van condities door het diffusiemodel, wat wordt veroorzaakt door het trainingsparadigma. Om dit probleem aan te pakken, stellen wij CoMat voor, een end-to-end fine-tuningstrategie voor diffusiemodellen met een beeld-naar-tekst concept matching-mechanisme. Wij maken gebruik van een beeldbeschrijvingsmodel om de alignering tussen beeld en tekst te meten en het diffusiemodel te begeleiden om genegeerde tokens opnieuw te bekijken. Een nieuw attribuutconcentratiemodule wordt ook voorgesteld om het attribuutbindingsprobleem aan te pakken. Zonder enige afbeeldingen of gegevens over menselijke voorkeuren, gebruiken wij slechts 20K tekstprompts om SDXL te fine-tunen om CoMat-SDXL te verkrijgen. Uitgebreide experimenten tonen aan dat CoMat-SDXL de baseline-model SDXL aanzienlijk overtreft in twee tekst-naar-beeld aligneringsbenchmarks en state-of-the-art prestaties bereikt.
Grote taalmodellen (LLMs) hebben veel intelligente agenttaken aangewakkerd, zoals webnavigatie – maar de meeste bestaande agents presteren verre van bevredigend op echte webpagina's vanwege drie factoren: (1) de veelzijdigheid van acties op webpagina's, (2) HTML-tekst die de verwerkingscapaciteit van het model overschrijdt, en (3) de complexiteit van besluitvorming door het open-domein karakter van het web. Gezien deze uitdaging ontwikkelen we AutoWebGLM, een geautomatiseerde webnavigatieagent gebouwd op ChatGLM3-6B die GPT-4 overtreft. Geïnspireerd door menselijke browsepatronen ontwerpen we een HTML-vereenvoudigingsalgoritme om webpagina's weer te geven, waarbij essentiële informatie beknopt behouden blijft. We gebruiken een hybride mens-AI-methode om webbrowsingdata op te bouwen voor curriculumtraining. Vervolgens bootstrappen we het model door reinforcement learning en rejection sampling om het begrip van webpagina's, browseroperaties en efficiënte taakdecompositie verder te bevorderen. Voor het testen stellen we een tweetalige benchmark op – AutoWebBench – voor real-world webbrowsingtaken. We evalueren AutoWebGLM over diverse webnavigatiebenchmarks, wat de verbeteringen maar ook de onderliggende uitdagingen blootlegt om echte omgevingen aan te pakken. Gerelateerde code, model en data zullen worden vrijgegeven op https://github.com/THUDM/AutoWebGLM.
Dit artikel introduceert MiniGPT4-Video, een multimodaal Large Language Model (LLM) dat specifiek is ontworpen voor videobegrip. Het model is in staat om zowel temporele visuele als tekstuele gegevens te verwerken, waardoor het uitblinkt in het begrijpen van de complexiteit van video's. Voortbouwend op het succes van MiniGPT-v2, dat uitmuntte in het vertalen van visuele kenmerken naar de LLM-ruimte voor afzonderlijke afbeeldingen en indrukwekkende resultaten behaalde op verschillende beeld-tekst benchmarks, breidt dit artikel de mogelijkheden van het model uit om een reeks frames te verwerken, waardoor het video's kan begrijpen. MiniGPT4-video houdt niet alleen rekening met visuele inhoud, maar integreert ook tekstuele conversaties, waardoor het model effectief vragen kan beantwoorden die zowel visuele als tekstuele componenten omvatten. Het voorgestelde model overtreft bestaande state-of-the-art methoden, met winsten van 4,22%, 1,13%, 20,82% en 13,1% op respectievelijk de MSVD, MSRVTT, TGIF en TVQA benchmarks. Onze modellen en code zijn openbaar beschikbaar gemaakt op https://vision-cair.github.io/MiniGPT4-video/.
In het snel evoluerende landschap van kunstmatige intelligentie ontstaan multimodale grote taalmodellen als een belangrijk interessegebied. Deze modellen, die verschillende vormen van datainvoer combineren, worden steeds populairder. Het begrijpen van hun interne mechanismen blijft echter een complexe taak. Er zijn tal van vooruitgangen geboekt op het gebied van uitlegbare tools en mechanismen, maar er valt nog veel te ontdekken. In dit werk presenteren we een nieuwe interactieve applicatie die gericht is op het begrijpen van de interne mechanismen van grote visie-taalmodellen. Onze interface is ontworpen om de interpreteerbaarheid van beeldpatches te verbeteren, die essentieel zijn voor het genereren van een antwoord, en om de effectiviteit van het taalmodel te beoordelen bij het verankeren van zijn uitvoer in het beeld. Met onze applicatie kan een gebruiker het model systematisch onderzoeken en systeembeperkingen blootleggen, wat de weg vrijmaakt voor verbeteringen in de systeemcapaciteiten. Tot slot presenteren we een casestudy van hoe onze applicatie kan helpen bij het begrijpen van faalmechanismen in een populair groot multimodaal model: LLaVA.
In dit artikel onderzoeken we het idee om grote taalmodellen (LLMs) te trainen op sterk gecomprimeerde tekst. Terwijl standaard subwoord-tokenizers tekst slechts in beperkte mate comprimeren, kunnen neurale tekstcompressoren veel hogere compressiepercentages bereiken. Als het mogelijk zou zijn om LLMs direct op neurale gecomprimeerde tekst te trainen, zou dit voordelen bieden op het gebied van trainings- en serverefficiëntie, evenals een eenvoudigere verwerking van lange tekstsegmenten. Het belangrijkste obstakel voor dit doel is dat sterke compressie vaak ondoorzichtige uitvoer produceert die niet geschikt is voor leren. In het bijzonder constateren we dat tekst die naïef is gecomprimeerd via Arithmetic Coding niet gemakkelijk leerbaar is voor LLMs. Om dit te overwinnen, stellen we Equal-Info Windows voor, een nieuwe compressietechniek waarbij tekst wordt gesegmenteerd in blokken die elk tot dezelfde bitlengte worden gecomprimeerd. Met deze methode demonstreren we effectief leren op neurale gecomprimeerde tekst dat verbetert met schaal, en dat de byte-level benchmarks ruimschoots overtreft op het gebied van perplexiteit en inferentiesnelheid. Hoewel onze methode een slechtere perplexiteit oplevert dan subwoord-tokenizers voor modellen die met hetzelfde aantal parameters zijn getraind, heeft het het voordeel van kortere sequentielengtes. Kortere sequentielengtes vereisen minder autoregressieve generatiestappen en verminderen de latentie. Tot slot bieden we een uitgebreide analyse van de eigenschappen die bijdragen aan leerbaarheid, en doen we concrete suggesties voor hoe de prestaties van high-compression tokenizers verder kunnen worden verbeterd.
Large Language Models (LLMs) voor code evolueren snel, waarbij codebewerking een cruciale vaardigheid aan het worden is. Wij introduceren CodeEditorBench, een evaluatieraamwerk dat ontworpen is om de prestaties van LLMs in codebewerkingstaken rigoureus te beoordelen, inclusief debuggen, vertalen, polijsten en het wisselen van vereisten. In tegenstelling tot bestaande benchmarks die zich uitsluitend richten op codegeneratie, benadrukt CodeEditorBench realistische scenario's en praktische aspecten van softwareontwikkeling. Wij hebben diverse programmeeruitdagingen en scenario's samengesteld uit vijf bronnen, die verschillende programmeertalen, complexiteitsniveaus en bewerkingstaken omvatten. Evaluatie van 19 LLMs toont aan dat closed-source modellen (met name Gemini-Ultra en GPT-4) open-source modellen overtreffen in CodeEditorBench, wat verschillen in modelprestaties benadrukt op basis van probleemtypen en promptgevoeligheden. CodeEditorBench heeft als doel om vooruitgang in LLMs te stimuleren door een robuust platform te bieden voor het beoordelen van codebewerkingsvaardigheden. Wij zullen alle prompts en datasets vrijgeven om de gemeenschap in staat te stellen de dataset uit te breiden en opkomende LLMs te benchmarken. Door CodeEditorBench te introduceren, dragen wij bij aan de vooruitgang van LLMs in codebewerking en bieden wij een waardevolle bron voor onderzoekers en praktijkmensen.
We presenteren PointInfinity, een efficiënte familie van diffusiemodellen voor puntenwolken. Onze kernidee is het gebruik van een transformer-gebaseerde architectuur met een vaste grootte, resolutie-onafhankelijke latente representatie. Dit maakt efficiënte training mogelijk met puntenwolken van lage resolutie, terwijl het genereren van puntenwolken met hoge resolutie tijdens inferentie mogelijk blijft. Belangrijker is dat we aantonen dat het schalen van de testtijdresolutie voorbij de trainingsresolutie de kwaliteit van gegenereerde puntenwolken en oppervlakken verbetert. We analyseren dit fenomeen en leggen een verband met classifier-free guidance, dat vaak wordt gebruikt in diffusiemodellen, en tonen aan dat beide het mogelijk maken om een afweging te maken tussen kwaliteit en variabiliteit tijdens inferentie. Experimenten op CO3D laten zien dat PointInfinity efficiënt puntenwolken met hoge resolutie kan genereren (tot 131k punten, 31 keer meer dan Point-E) met state-of-the-art kwaliteit.
We presenteren RALL-E, een robuuste taalmodelleringsmethode voor tekst-naar-spraak (TTS) synthese. Hoewel eerder werk gebaseerd op grote taalmodellen (LLM's) indrukwekkende prestaties laat zien op zero-shot TTS, lijden dergelijke methoden vaak aan een gebrek aan robuustheid, zoals onstabiele prosodie (vreemde toonhoogte en ritme/duur) en een hoog woordfoutenpercentage (WER), vanwege de autoregressieve voorspellingsstijl van taalmodellen. De kernidee achter RALL-E is chain-of-thought (CoT) prompting, waarbij de taak wordt opgedeeld in eenvoudigere stappen om de robuustheid van LLM-gebaseerde TTS te verbeteren. Om dit idee te realiseren, voorspelt RALL-E eerst prosodiekenmerken (toonhoogte en duur) van de invoertekst en gebruikt deze als tussenliggende voorwaarden om spraaktokens in een CoT-stijl te voorspellen. Ten tweede maakt RALL-E gebruik van de voorspelde duurprompt om de berekening van self-attention-gewichten in de Transformer te sturen, zodat het model zich richt op de corresponderende fonemen en prosodiekenmerken bij het voorspellen van spraaktokens. De resultaten van uitgebreide objectieve en subjectieve evaluaties tonen aan dat, vergeleken met een krachtige baseline-methode VALL-E, RALL-E het WER van zero-shot TTS aanzienlijk verbetert van 6,3% (zonder herrangschikking) en 2,1% (met herrangschikking) naar respectievelijk 2,8% en 1,0%. Bovendien laten we zien dat RALL-E zinnen die moeilijk zijn voor VALL-E correct synthetiseert en het foutenpercentage verlaagt van 68% naar 4%.
Er zijn verschillende jailbreak-aanvallen voorgesteld om Large Language Models (LLMs) te testen en de kwetsbare beveiligingsmaatregelen van LLMs bloot te leggen. Bovendien zijn sommige methoden niet beperkt tot de tekstuele modaliteit en breiden ze de jailbreak-aanval uit naar Multimodal Large Language Models (MLLMs) door de visuele invoer te verstoren. Het ontbreken van een universele evaluatiebenchmark bemoeilijkt echter de reproductie van prestaties en een eerlijke vergelijking. Daarnaast ontbreekt een uitgebreide evaluatie van gesloten state-of-the-art (SOTA) modellen, met name MLLMs, zoals GPT-4V. Om deze problemen aan te pakken, bouwt dit werk eerst een uitgebreide jailbreak-evaluatiedataset met 1445 schadelijke vragen die 11 verschillende veiligheidsbeleidsregels bestrijken. Op basis van deze dataset worden uitgebreide red-teaming-experimenten uitgevoerd op 11 verschillende LLMs en MLLMs, waaronder zowel SOTA-propriëtaire modellen als open-source modellen. Vervolgens voeren we een diepgaande analyse uit van de geëvalueerde resultaten en concluderen dat (1) GPT4 en GPT-4V een betere robuustheid tegen jailbreak-aanvallen vertonen in vergelijking met open-source LLMs en MLLMs. (2) Llama2 en Qwen-VL-Chat robuuster zijn in vergelijking met andere open-source modellen. (3) De overdraagbaarheid van visuele jailbreak-methoden relatief beperkt is in vergelijking met tekstuele jailbreak-methoden. De dataset en code zijn hier te vinden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.