Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit werk introduceert Weaver, onze eerste familie van grote taalmodellen (LLMs) die speciaal zijn ontworpen voor contentcreatie. Weaver is vooraf getraind op een zorgvuldig geselecteerd corpus dat gericht is op het verbeteren van de schrijfvaardigheden van grote taalmodellen. Vervolgens finetunen we Weaver voor creatieve en professionele schrijfdoeleinden en aligneren we het met de voorkeuren van professionele schrijvers door gebruik te maken van een reeks nieuwe methoden voor instructiedatasynthese en LLM-alignment, waardoor het in staat is om meer mensachtige teksten te produceren en meer diverse instructies voor contentcreatie te volgen. De Weaver-familie bestaat uit modellen van de grootte Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) en Weaver Ultra (34B), die geschikt zijn voor verschillende toepassingen en dynamisch kunnen worden ingezet door een routeringsagent op basis van de complexiteit van de query om de reactiekwaliteit en rekenkosten in balans te brengen. Evaluatie op een zorgvuldig samengestelde benchmark voor het beoordelen van de schrijfvaardigheden van LLMs laat zien dat Weaver-modellen van alle groottes algemene LLMs die meerdere malen groter zijn, overtreffen. Opmerkelijk is dat ons meest capabele Weaver Ultra-model GPT-4, een state-of-the-art algemeen LLM, overtreft in verschillende schrijfscenario's, wat het voordeel aantoont van het trainen van gespecialiseerde LLMs voor schrijfdoeleinden. Bovendien ondersteunt Weaver van nature retrieval-augmented generation (RAG) en functie-aanroepen (toolgebruik). We presenteren diverse use cases van deze mogelijkheden voor het verbeteren van AI-ondersteunde schrijfsystemen, waaronder de integratie van externe kennisbanken, tools of API's, en het bieden van gepersonaliseerde schrijfondersteuning. Daarnaast bespreken en vatten we een richtlijn en best practices samen voor het vooraf trainen en finetunen van domeinspecifieke LLMs.
De You Only Look Once (YOLO)-serie van detectoren heeft zich gevestigd als efficiënte en praktische tools. Hun afhankelijkheid van vooraf gedefinieerde en getrainde objectcategorieën beperkt echter hun toepasbaarheid in open scenario's. Om deze beperking aan te pakken, introduceren we YOLO-World, een innovatieve aanpak die YOLO versterkt met open-vocabulaire detectiecapaciteiten door middel van visie-taalmodellering en pre-training op grootschalige datasets. Specifiek stellen we een nieuw Herparameteriseerbaar Visie-Taal Pad Aggregatie Netwerk (RepVL-PAN) en een regio-tekst contrastief verlies voor om de interactie tussen visuele en linguïstische informatie te vergemakkelijken. Onze methode blinkt uit in het detecteren van een breed scala aan objecten op een zero-shot-manier met hoge efficiëntie. Op de uitdagende LVIS-dataset behaalt YOLO-World 35.4 AP met 52.0 FPS op V100, wat veel state-of-the-art methoden overtreft in termen van zowel nauwkeurigheid als snelheid. Bovendien behaalt de fijn afgestemde YOLO-World opmerkelijke prestaties op verschillende downstream taken, waaronder objectdetectie en open-vocabulaire instantiesegmentatie.
We presenteren BlockFusion, een op diffusie gebaseerd model dat 3D-scènes genereert als eenheidblokken en naadloos nieuwe blokken integreert om de scène uit te breiden. BlockFusion wordt getraind met datasets van 3D-blokken die willekeurig worden uitgesneden uit complete 3D-scènemeshs. Door per-blokfitting worden alle trainingsblokken omgezet in hybride neurale velden: met een tri-plane die de geometrische kenmerken bevat, gevolgd door een Multi-layer Perceptron (MLP) voor het decoderen van de signed distance-waarden. Een variational auto-encoder wordt gebruikt om de tri-planes te comprimeren in de latente tri-plane-ruimte, waarop het denoiseringsdiffusieproces wordt uitgevoerd. Diffusie toegepast op de latente representaties maakt hoogwaardige en diverse 3D-scènegeneratie mogelijk. Om een scène tijdens de generatie uit te breiden, hoeft men alleen maar lege blokken toe te voegen die overlappen met de huidige scène en bestaande latente tri-planes te extrapoleren om nieuwe blokken te vullen. De extrapolatie wordt gedaan door het generatieproces te conditioneren met de kenmerksamples van de overlappende tri-planes tijdens de denoiseringsiteraties. Latente tri-plane-extrapolatie produceert semantisch en geometrisch betekenisvolle overgangen die harmonieus samensmelten met de bestaande scène. Een 2D-layoutconditioneringsmechanisme wordt gebruikt om de plaatsing en rangschikking van scène-elementen te controleren. Experimentele resultaten geven aan dat BlockFusion in staat is om diverse, geometrisch consistente en onbegrensde grote 3D-scènes te genereren met ongekend hoogwaardige vormen in zowel binnen- als buitenscenario's.
Om LLM's te benutten voor visuele synthese, zetten traditionele methoden rasterbeeldinformatie om in discrete grid-tokens via gespecialiseerde visuele modules, wat het vermogen van het model om de ware semantische representatie van visuele scènes vast te leggen verstoort. Dit artikel stelt dat een alternatieve representatie van afbeeldingen, vectorafbeeldingen, deze beperking effectief kan overwinnen door een meer natuurlijke en semantisch samenhangende segmentatie van de beeldinformatie mogelijk te maken. Daarom introduceren we StrokeNUWA, een baanbrekend werk dat een betere visuele representatie onderzoekt, namelijk 'stroke-tokens' op vectorafbeeldingen, die inherent rijk zijn aan visuele semantiek, natuurlijk compatibel zijn met LLM's en sterk gecomprimeerd. Uitgerust met stroke-tokens kan StrokeNUWA traditionele op LLM's gebaseerde en optimalisatie-gebaseerde methoden aanzienlijk overtreffen op verschillende metrieken in de taak van vectorafbeeldinggeneratie. Bovendien bereikt StrokeNUWA een versnelling in inferentie tot 94x ten opzichte van de snelheid van eerdere methoden, met een uitzonderlijke SVG-codecompressieratio van 6,9%.
In het snel evoluerende veld van spraakgeneratieve modellen is er een dringende behoefte om de authenticiteit van audio te waarborgen tegen de risico's van stemklonen. Wij presenteren AudioSeal, de eerste audio-watermarkingtechniek die specifiek is ontworpen voor gelokaliseerde detectie van AI-gegenereerde spraak. AudioSeal maakt gebruik van een generator/detector-architectuur die gezamenlijk wordt getraind met een localisatieverlies om gelokaliseerde watermerkdetectie tot op het sample-niveau mogelijk te maken, en een nieuw perceptueel verlies, geïnspireerd door auditieve maskering, waardoor AudioSeal een betere onopvallendheid kan bereiken. AudioSeal behaalt state-of-the-art prestaties wat betreft robuustheid tegen real-life audiomanipulaties en onopvallendheid, gebaseerd op automatische en menselijke evaluatiemetrics. Daarnaast is AudioSeal ontworpen met een snelle, single-pass detector, die bestaande modellen aanzienlijk overtreft in snelheid – met detectie tot twee ordes van grootte sneller, wat het ideaal maakt voor grootschalige en realtime toepassingen.
We presenteren H2O-Danube-1.8B, een taalmodel van 1,8 miljard parameters dat getraind is op 1 biljoen tokens, volgens de kernprincipes van LLama 2 en Mistral. We benutten en verfijnen diverse technieken voor het pre-trainen van grote taalmodellen. Hoewel ons model getraind is op aanzienlijk minder tokens in vergelijking met referentiemodellen van vergelijkbare grootte, vertoont het zeer competitieve prestaties op een breed scala aan benchmarks. Daarnaast brengen we een chatmodel uit dat getraind is met supervised fine-tuning, gevolgd door directe voorkeursoptimalisatie. We stellen H2O-Danube-1.8B openbaar beschikbaar onder de Apache 2.0-licentie, waardoor grote taalmodellen economisch toegankelijker worden voor een breder publiek.
In dit rapport onderzoeken we de mogelijkheid om tekstdiffusie te gebruiken als vervanging van autoregressief (AR) decoderen voor het trainen en inzetten van grote taalmodelen (LLMs). We zijn vooral geïnteresseerd in de vraag of voorgetrainde AR-modellen kunnen worden omgezet in tekstdiffusiemodellen via een lichtgewicht aanpassingsprocedure die we "AR2Diff" noemen. We beginnen met het opzetten van een sterke baseline-configuratie voor het trainen van tekstdiffusiemodellen. Door verschillende architecturen en vooraf ingestelde doelen te vergelijken, ontdekken we dat het trainen van een decoder-only model met een prefix LM-doelstelling het beste of bijna het beste presteert over meerdere taken. Op basis van deze bevinding testen we verschillende transfer learning-opstellingen voor tekstdiffusiemodellen. Bij machinaal vertalen zien we dat tekstdiffusie onderpresteert vergeleken met de standaard AR-aanpak. Echter, bij codesynthese en extractieve vraag-antwoordtaken presteren diffusiemodellen die vanaf nul zijn getraind in veel gevallen beter dan AR-modellen. We observeren ook kwaliteitswinst door AR2Diff — het aanpassen van AR-modellen om diffusiedecodering te gebruiken. Deze resultaten zijn veelbelovend, aangezien tekstdiffusie relatief onderbelicht is en aanzienlijk sneller kan zijn dan AR-decodering voor het genereren van lange teksten.
Hoewel er aanzienlijke inspanningen zijn geleverd om grote taalmodellen (LLMs) af te stemmen, suggereren red-teaming rapporten dat deze zorgvuldig afgestemde LLMs nog steeds kunnen worden omzeild via adversariële prompts, afstemming of decodering. Bij het onderzoeken van de kwetsbaarheid voor omzeiling van afgestemde LLMs, merken we op dat de decoderingdistributies van omzeilde en afgestemde modellen alleen verschillen in de initiële generaties. Deze observatie motiveert ons om de zwak-naar-sterk omzeilingsaanval voor te stellen, waarbij aanvallers kleinere onveilige/afgestemde LLMs (bijv. 7B) kunnen gebruiken om omzeiling te begeleiden tegen aanzienlijk grotere afgestemde LLMs (bijv. 70B). Om te omzeilen, hoeft men slechts twee kleinere LLMs één keer extra te decoderen, wat minimale rekenkracht en latentie vereist in vergelijking met het decoderen van de grotere LLMs. De effectiviteit van deze aanval wordt aangetoond door experimenten uitgevoerd op vijf modellen van drie verschillende organisaties. Onze studie onthult een voorheen onopgemerkte maar efficiënte manier van omzeilen, wat een urgent veiligheidsprobleem blootlegt dat overwogen moet worden bij het afstemmen van LLMs. Als een eerste poging stellen we een verdedigingsstrategie voor om dergelijke aanvallen te voorkomen, maar het ontwikkelen van meer geavanceerde verdedigingen blijft een uitdaging. De code voor het repliceren van de methode is beschikbaar op https://github.com/XuandongZhao/weak-to-strong.
Beeldrestauratie is een fundamenteel probleem dat het herstellen van een hoogwaardig, schoon beeld uit een gedegradeerde waarneming omvat. All-In-One beeldrestoratiemodellen kunnen effectief beelden herstellen van verschillende soorten en niveaus van degradatie door gebruik te maken van degradatie-specifieke informatie als prompts om het restauratiemodel te sturen. In dit werk presenteren we de eerste aanpak die door mensen geschreven instructies gebruikt om het beeldrestoratiemodel te begeleiden. Gegeven natuurlijke taalprompts kan ons model hoogwaardige beelden herstellen uit hun gedegradeerde tegenhangers, waarbij rekening wordt gehouden met meerdere soorten degradatie. Onze methode, InstructIR, behaalt state-of-the-art resultaten op verschillende restauratietaken, waaronder beelddenoising, deraining, deblurring, dehazing en (laaglicht) beeldverbetering. InstructIR verbetert met +1dB ten opzichte van eerdere all-in-one restauratiemethoden. Bovendien vormen onze dataset en resultaten een nieuwe benchmark voor nieuw onderzoek naar tekstgeleide beeldrestauratie en -verbetering. Onze code, datasets en modellen zijn beschikbaar op: https://github.com/mv-lab/InstructIR
Recente studies hebben gepleit voor volledig open foundation-modellen om transparantie en open wetenschap te bevorderen. Als eerste stap heeft het Open Whisper-style Speech Model (OWSM) OpenAI's Whisper gereproduceerd met behulp van publiek beschikbare gegevens en open-source toolkits. Met het doel om Whisper te reproduceren, waren de vorige OWSM v1 tot en met v3 modellen nog steeds gebaseerd op Transformer, wat mogelijk leidt tot inferieure prestaties in vergelijking met andere state-of-the-art spraakencoders. In dit werk streven we ernaar om de prestaties en efficiëntie van OWSM te verbeteren zonder extra trainingsgegevens. We presenteren E-Branchformer-gebaseerde OWSM v3.1 modellen op twee schalen, namelijk 100M en 1B. Het 1B-model is het grootste E-Branchformer-gebaseerde spraakmodel dat publiekelijk beschikbaar is gemaakt. Het overtreft het vorige OWSM v3 in de overgrote meerderheid van de evaluatiebenchmarks, terwijl het tot 25% snellere inferentiesnelheid laat zien. We maken de gegevensvoorbereidingsscripts, vooraf getrainde modellen en trainingslogboeken publiekelijk beschikbaar.
Huidige beeldmanipulatie richt zich voornamelijk op statische manipulatie, zoals het vervangen van specifieke regio's binnen een afbeelding of het aanpassen van de algehele stijl. In dit artikel introduceren we een innovatieve dynamische manipulatietaak: het herpositioneren van onderwerpen. Deze taak omvat het verplaatsen van een door de gebruiker gespecificeerd onderwerp naar een gewenste positie, terwijl de getrouwheid van de afbeelding behouden blijft. Ons onderzoek toont aan dat de fundamentele sub-taken van het herpositioneren van onderwerpen, waaronder het opvullen van de leegte die ontstaat door het verplaatste onderwerp, het reconstrueren van verborgen delen van het onderwerp en het naadloos integreren van het onderwerp met de omringende gebieden, effectief kunnen worden hervormd tot een uniforme, prompt-gestuurde inpainting-taak. Hierdoor kunnen we een enkel diffuus generatief model inzetten om deze sub-taken aan te pakken met behulp van diverse taakprompts die zijn geleerd via onze voorgestelde taakinversietechniek. Daarnaast integreren we pre-processing en post-processing technieken om de kwaliteit van het herpositioneren van onderwerpen verder te verbeteren. Deze elementen vormen samen ons SEgment-gEnerate-and-bLEnd (SEELE) framework. Om de effectiviteit van SEELE bij het herpositioneren van onderwerpen te evalueren, hebben we een real-world dataset voor het herpositioneren van onderwerpen samengesteld, genaamd ReS. Onze resultaten op ReS demonstreren de kwaliteit van de gegenereerde herpositioneerde afbeeldingen.
Hoewel grote taalmodellen (LLMs) steeds vaker worden gebruikt voor programma-synthese, ontbreekt het hen aan het globale overzicht dat nodig is om nuttige abstracties te ontwikkelen; ze voorspellen doorgaans programma's één voor één, waarbij vaak dezelfde functionaliteit wordt herhaald. Het genereren van redundante code vanaf nul is zowel inefficiënt als foutgevoelig. Om dit aan te pakken, stellen we Refactoring for Generalizable Abstraction Learning (ReGAL) voor, een gradient-vrije methode voor het leren van een bibliotheek met herbruikbare functies via code-refactoring, d.w.z. het herstructureren van code zonder de uitvoer ervan te veranderen. ReGAL leert van een kleine set bestaande programma's, waarbij het iteratief de abstracties verifieert en verfijnt via uitvoering. We ontdekken dat de gedeelde functiebibliotheken die door ReGAL worden ontdekt, programma's gemakkelijker maken om te voorspellen in diverse domeinen. Op drie datasets (LOGO-graphicsgeneratie, Datumredenering en TextCraft, een op Minecraft gebaseerd tekstspel), verbeteren zowel open-source als propriëtaire LLMs in nauwkeurigheid bij het voorspellen van programma's met ReGAL-functies. Voor CodeLlama-13B resulteert ReGAL in absolute nauwkeurigheidsstijgingen van 11,5% op graphics, 26,1% op datuminterpretatie en 8,1% op TextCraft, waarbij het GPT-3.5 overtreft in twee van de drie domeinen. Onze analyse toont aan dat de abstracties van ReGAL veelgebruikte subroutines evenals omgevingsdynamiek omvatten.
Huidige grote visueel-taalmodelen (VLMs) ondervinden vaak uitdagingen zoals onvoldoende capaciteiten van een enkele visuele component en excessief lange visuele tokens. Deze problemen kunnen de effectiviteit van het model beperken bij het nauwkeurig interpreteren van complexe visuele informatie en overlange contextuele informatie. Het aanpakken van deze uitdagingen is cruciaal voor het verbeteren van de prestaties en toepasbaarheid van VLMs. Dit artikel stelt het gebruik van de ensemble-experts techniek voor om de capaciteiten van individuele visuele encoders te combineren, waaronder die gespecialiseerd zijn in beeld-tekst matching, OCR, beeldsegmentatie, enz. Deze techniek introduceert een fusienetwerk om de verwerking van uitvoeren van verschillende visuele experts te unificeren, terwijl de kloof tussen beeldencoders en vooraf getrainde LLMs wordt overbrugd. Daarnaast onderzoeken we verschillende positionele coderingstechnieken om de verspilling van positionele codering veroorzaakt door lange beeldkenmerksequenties te verminderen, waardoor het probleem van positie-overloop en lengtebeperkingen effectief wordt aangepakt. In onze implementatie reduceert deze techniek bijvoorbeeld de positionele bezetting in modellen zoals SAM aanzienlijk, van een substantiële 4096 naar een efficiëntere en hanteerbare 64 of zelfs naar 1. Experimentele resultaten tonen aan dat VLMs met meerdere experts consistent superieure prestaties vertonen in vergelijking met geïsoleerde visuele encoders en een significante prestatieverbetering markeren naarmate meer experts worden geïntegreerd. We hebben de trainingscode die in dit rapport wordt gebruikt openbaar gemaakt. Al deze bronnen zijn te vinden op onze projectwebsite.
Grote Taalmodellen vertrouwen steeds meer op gedistribueerde technieken voor hun training en inferentie. Deze technieken vereisen communicatie tussen apparaten, wat de schaalbaarheidsefficiëntie kan verminderen naarmate het aantal apparaten toeneemt. Hoewel sommige gedistribueerde technieken elkaar kunnen overlappen en zo deze communicatie kunnen verbergen met onafhankelijke berekeningen, zijn technieken zoals Tensor Parallelisme (TP) inherent gebonden aan seriële communicatie met modeluitvoering. Een benadering om deze geserialiseerde communicatie te verbergen, is deze op een fijnmazige manier te verweven met de producentoperatie (van de gecommuniceerde gegevens). Deze fijnmazige verweving van communicatie en berekening in software kan echter moeilijk zijn. Bovendien vereist het, zoals bij elke gelijktijdige uitvoering, dat reken- en geheugenbronnen worden gedeeld tussen berekening en communicatie, wat resulteert in resourcecontentie die de effectiviteit van overlapping vermindert. Om deze uitdagingen te overwinnen, stellen we T3 voor, dat hardware-software co-design toepast om geserialiseerde communicatie transparant te overlappen terwijl resourcecontentie met berekening wordt geminimaliseerd. T3 voegt producentoperaties transparant samen met de daaropvolgende communicatie via een eenvoudige configuratie van de uitvoeradresruimte van de producent en vereist minimale softwarewijzigingen. Op hardwareniveau voegt T3 een lichtgewicht track- en triggermechanisme toe om de berekening en communicatie van de producent te coördineren. Het maakt verder gebruik van rekenverbeterde geheugens voor de bijbehorende berekening van communicatie. Hierdoor vermindert T3 resourcecontentie en overlapt het geserialiseerde communicatie efficiënt met berekening. Voor belangrijke Transformermodellen zoals T-NLG versnelt T3 communicatie-intensieve sublagen met 30% geometrisch gemiddelde (maximaal 47%) en vermindert het gegevensverplaatsing met 22% geometrisch gemiddelde (maximaal 36%). Bovendien blijven de voordelen van T3 bestaan naarmate modellen schalen: geometrisch gemiddeld 29% voor sublagen in sim500-miljard parameter modellen, PALM en MT-NLG.