Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben het landschap van kunstmatige intelligentie getransformeerd, maar hun enorme omvang brengt aanzienlijke uitdagingen met zich mee op het gebied van rekenkosten. Wij introduceren LoRAShear, een nieuwe efficiënte aanpak om LLMs structureel te snoeien en kennis te herstellen. Gegeven algemene LLMs, creëert LoRAShear eerst afhankelijkheidsgrafieken om minimaal te verwijderen structuren te ontdekken en de kennisverdeling te analyseren. Vervolgens voert het progressieve gestructureerde snoei uit op LoRA-adapters en maakt het inherente kennisoverdracht mogelijk om de informatie in de redundante structuren beter te behouden. Om de verloren kennis tijdens het snoeien te herstellen, bestudeert LoRAShear zorgvuldig en stelt het dynamische fine-tuning schema's voor met dynamische data-adapters om de prestatiekloof ten opzichte van de volledige modellen effectief te verkleinen. Numerieke resultaten tonen aan dat LoRAShear, door slechts één GPU te gebruiken binnen een paar GPU-dagen, de footprint van LLMs effectief met 20% heeft verminderd met slechts 1,0% prestatieverlies en significant beter presteert dan state-of-the-art methoden. De broncode zal beschikbaar zijn op https://github.com/microsoft/lorashear.
We presenteren MM-VID, een geïntegreerd systeem dat de mogelijkheden van GPT-4V benut, in combinatie met gespecialiseerde tools voor visie, audio en spraak, om geavanceerd videobegrip te faciliteren. MM-VID is ontworpen om de uitdagingen aan te pakken die worden gesteld door langdurige video's en complexe taken, zoals redeneren binnen inhoud van een uur en het begrijpen van verhaallijnen die meerdere afleveringen omspannen. MM-VID gebruikt een video-naar-scriptgeneratie met GPT-4V om multimodale elementen om te zetten in een lang tekstueel script. Het gegenereerde script beschrijft gedetailleerd karakterbewegingen, acties, uitdrukkingen en dialogen, wat de weg vrijmaakt voor grote taalmodellen (LLM's) om videobegrip te bereiken. Dit maakt geavanceerde mogelijkheden mogelijk, waaronder audiodescriptie, karakteridentificatie en multimodale hoogwaardige begripsvorming. Experimentele resultaten tonen de effectiviteit van MM-VID aan bij het verwerken van verschillende videogenres met uiteenlopende videolengtes. Daarnaast demonstreren we het potentieel ervan wanneer het wordt toegepast in interactieve omgevingen, zoals videogames en grafische gebruikersinterfaces.
Videogeneratie heeft steeds meer interesse gewekt in zowel de academische wereld als de industrie. Hoewel commerciële tools geloofwaardige video's kunnen genereren, is er een beperkt aantal open-source modellen beschikbaar voor onderzoekers en ingenieurs. In dit werk introduceren we twee diffusiemodellen voor hoogwaardige videogeneratie, namelijk tekst-naar-video (T2V) en beeld-naar-video (I2V) modellen. T2V-modellen synthetiseren een video op basis van een gegeven tekstinvoer, terwijl I2V-modellen een extra beeldinvoer incorporeren. Ons voorgestelde T2V-model kan realistische en cinematografisch hoogwaardige video's genereren met een resolutie van 1024 bij 576, wat andere open-source T2V-modellen overtreft in termen van kwaliteit. Het I2V-model is ontworpen om video's te produceren die strikt de inhoud van het verstrekte referentiebeeld volgen, waarbij de inhoud, structuur en stijl behouden blijven. Dit model is het eerste open-source I2V-basismodel dat in staat is een gegeven beeld om te zetten in een videoclip, terwijl de beperkingen voor inhoudsbehoud worden gehandhaafd. Wij geloven dat deze open-source videogeneratiemodellen een significante bijdrage zullen leveren aan de technologische vooruitgang binnen de gemeenschap.
De groeiende vraag naar Large Language Models (LLM's) in toepassingen zoals inhoudsgeneratie, intelligente chatbots en sentimentanalyse brengt aanzienlijke uitdagingen met zich mee voor LLM-serviceproviders. Om GPU-bronnen efficiënt te gebruiken en de doorvoer te verhogen, is het batchverwerken van meerdere verzoeken een populaire aanpak geworden; om het batchverwerken verder te versnellen, verminderen LLM-kwantiseringstechnieken het geheugengebruik en verhogen ze de rekenkracht. Echter, gangbare kwantisatieschema's (bijvoorbeeld 8-bit gewicht-activatie-kwantisering) kunnen de mogelijkheden van moderne GPU's, zoals 4-bit integer-operators, niet volledig benutten, wat resulteert in suboptimale prestaties. Om de doorvoer van LLM's te maximaliseren, introduceren we Atom, een laagbit-kwantisatiemethode die aanzienlijke doorvoerverbeteringen bereikt met verwaarloosbaar nauwkeurigheidsverlies. Atom verhoogt de doorvoer aanzienlijk door gebruik te maken van laagbit-operators en vermindert het geheugengebruik aanzienlijk via laagbit-kwantisering. Het behaalt hoge nauwkeurigheid door een nieuw gemengd-precisie en fijnmazig kwantisatieproces toe te passen. We evalueren Atom op 4-bit gewicht-activatie-kwantisatieopstellingen in de dienstverleningscontext. Atom verbetert de end-to-end doorvoer tot wel 7,73 keer vergeleken met FP16 en 2,53 keer vergeleken met INT8-kwantisatie, terwijl het dezelfde latentiedoelstelling handhaaft.
Het integreren van een aangepast object in beeldgeneratie biedt een aantrekkelijke functie in tekst-naar-beeldgeneratie. Bestaande optimalisatiegebaseerde en encodergebaseerde methoden worden echter gehinderd door nadelen zoals tijdrovende optimalisatie, onvoldoende identiteitsbehoud en een veelvoorkomend kopieer-plak-effect. Om deze beperkingen te overwinnen, introduceren we CustomNet, een nieuwe benadering voor objectaanpassing die expliciet 3D-nieuwe-weergave-synthesecapaciteiten integreert in het proces van objectaanpassing. Deze integratie vergemakkelijkt de aanpassing van ruimtelijke positierelaties en gezichtspunten, wat resulteert in diverse uitvoer terwijl het objectidentiteit effectief behoudt. Bovendien introduceren we verfijnde ontwerpen om locatiecontrole en flexibele achtergrondcontrole mogelijk te maken via tekstuele beschrijvingen of specifieke door de gebruiker gedefinieerde afbeeldingen, waardoor de beperkingen van bestaande 3D-nieuwe-weergave-synthese methoden worden overwonnen. We maken verder gebruik van een pijplijn voor datasetconstructie die beter om kan gaan met objecten uit de echte wereld en complexe achtergronden. Uitgerust met deze ontwerpen, vergemakkelijkt onze methode zero-shot objectaanpassing zonder optimalisatie tijdens de testfase, en biedt tegelijkertijd controle over de gezichtspunten, locatie en achtergrond. Als resultaat zorgt onze CustomNet voor verbeterd identiteitsbehoud en genereert het diverse, harmonieuze uitvoer.
Grote Taalmodellen (LLMs) vertonen indrukwekkende redeneer- en data-augmentatiecapaciteiten in diverse NLP-taken. Maar hoe zit het met kleine modellen? In dit werk stellen we TeacherLM-7.1B voor, dat in staat is om relevante basisprincipes, denkprocessen en veelvoorkomende fouten te annoteren voor de meeste NLP-voorbeelden, waardoor annotatie meer wordt dan alleen een antwoord. Hierdoor kunnen andere modellen leren "waarom" in plaats van alleen "wat". Het TeacherLM-7.1B-model behaalde een zero-shot score van 52.3 op MMLU, waarmee het de meeste modellen met meer dan 100B parameters overtreft. Nog opmerkelijker is zijn data-augmentatievermogen. Op basis van TeacherLM-7.1B hebben we 58 NLP-datasets uitgebreid en verschillende studentmodellen met uiteenlopende parameters uit de OPT- en BLOOM-series getraind in een multi-task omgeving. De experimentele resultaten tonen aan dat de data-augmentatie door TeacherLM aanzienlijke voordelen heeft opgeleverd. We zullen de TeacherLM-serie van modellen en uitgebreide datasets als open-source vrijgeven.
In dit artikel evalueren we kritisch de mogelijkheden van het state-of-the-art multimodale grote taalmodel, namelijk GPT-4 met Vision (GPT-4V), voor de taak van Visuele Vraagbeantwoording (VQA). Onze experimenten beoordelen grondig de vaardigheid van GPT-4V om vragen te beantwoorden die gepaard gaan met afbeeldingen, waarbij we gebruikmaken van zowel pathologie- als radiologie-datasets uit 11 modaliteiten (bijvoorbeeld Microscopie, Dermoscopie, X-ray, CT, etc.) en vijftien objecten van belang (hersenen, lever, longen, etc.). Onze datasets omvatten een breed scala aan medische vragen, waaronder zestien verschillende vraagtypen. Gedurende onze evaluaties hebben we tekstuele prompts ontworpen voor GPT-4V, om het te sturen bij het combineren van visuele en tekstuele informatie. De experimenten met nauwkeurigheidsscores concluderen dat de huidige versie van GPT-4V niet wordt aanbevolen voor real-world diagnostiek vanwege zijn onbetrouwbare en suboptimale nauwkeurigheid bij het beantwoorden van diagnostische medische vragen. Daarnaast beschrijven we zeven unieke aspecten van het gedrag van GPT-4V in medische VQA, waarbij we de beperkingen binnen dit complexe domein benadrukken. De volledige details van onze evaluatiegevallen zijn toegankelijk op https://github.com/ZhilingYan/GPT4V-Medical-Report.
Met de opkomst van krachtige closed-source LLM's (ChatGPT, GPT-4) is er een groeiende interesse in het destilleren van de capaciteiten van closed-source LLM's naar kleinere open-source LLM's. Eerdere destillatiemethoden lieten ChatGPT meestal een set instructies en antwoorden genereren, zodat het studentmodel hiervan kon leren. Een dergelijke standaarddestillatiebenadering negeert echter de verdiensten en condities van het studentmodel. Geïnspireerd door moderne onderwijsprincipes hebben we een gepersonaliseerd destillatieproces ontworpen, waarbij de student eerst probeert een taak op te lossen, waarna de leraar een adaptieve verfijning biedt om de student te verbeteren. In plaats van het studentmodel te voeden met de voorkennis van de leraar, maakt gepersonaliseerde destillatie gepersonaliseerd leren mogelijk voor het studentmodel, omdat het alleen leert van voorbeelden waar het fouten maakt en leert om zijn eigen oplossing te verbeteren. Bij codegeneratie presteert gepersonaliseerde destillatie consistent beter dan standaarddestillatie met slechts een derde van de data. Met slechts 2,5-3K gepersonaliseerde voorbeelden, die een datacollectiekosten van 4-6$ met zich meebrengen, verbeteren we CodeGen-mono-16B met 7% om 36,4% pass@1 te behalen en StarCoder met 12,2% om 45,8% pass@1 te behalen op HumanEval.
In dit technische rapport presenteren we Skywork-13B, een familie van grote taalmodelen (LLMs) getraind op een corpus van meer dan 3,2 biljoen tokens afkomstig uit zowel Engelse als Chinese teksten. Dit tweetalige basismodel is het meest uitgebreid getrainde en openbaar gepubliceerde LLM van vergelijkbare omvang tot op heden. We introduceren een tweefasige trainingsmethodologie met behulp van een gesegmenteerd corpus, gericht op algemene training en vervolgens domeinspecifieke verbeteringstraining. We tonen aan dat ons model niet alleen uitblinkt op populaire benchmarks, maar ook state-of-the-art prestaties behaalt in Chinese taalmodeling op diverse domeinen. Bovendien stellen we een nieuwe methode voor om lekken te detecteren, waarbij we aantonen dat testdataverontreiniging een urgent probleem is dat verder onderzoek door de LLM-gemeenschap vereist. Om toekomstig onderzoek te stimuleren, geven we Skywork-13B vrij, samen met checkpoints die zijn verkregen tijdens tussenliggende fasen van het trainingsproces. We geven ook een deel van ons SkyPile-corpus vrij, een verzameling van meer dan 150 miljard tokens webtekst, wat het grootste hoogwaardige open Chinese pre-trainingscorpus tot nu toe is. We hopen dat Skywork-13B en ons open corpus zullen dienen als een waardevolle open-source bron om toegang tot hoogwaardige LLMs te democratiseren.
Tekst-naar-3D-generatie heeft recentelijk opmerkelijke vooruitgang geboekt, met name met methoden gebaseerd op Score Distillation Sampling (SDS) die gebruikmaken van vooraf getrainde 2D-diffusiemodellen. Hoewel het gebruik van classifier-free guidance algemeen wordt erkend als cruciaal voor succesvolle optimalisatie, wordt het beschouwd als een hulptruc in plaats van het meest essentiële onderdeel. In dit artikel herzien we de rol van classifier-free guidance in score distillation en ontdekken we een verrassende bevinding: de guidance alleen is voldoende voor effectieve tekst-naar-3D-generatietaken. We noemen deze methode Classifier Score Distillation (CSD), wat kan worden geïnterpreteerd als het gebruik van een impliciet classificatiemodel voor generatie. Dit nieuwe perspectief onthult nieuwe inzichten voor het begrijpen van bestaande technieken. We valideren de effectiviteit van CSD over een verscheidenheid aan tekst-naar-3D-taken, waaronder vormgeneratie, texturesynthese en vormbewerking, en behalen resultaten die superieur zijn aan die van state-of-the-art methoden. Onze projectpagina is https://xinyu-andy.github.io/Classifier-Score-Distillation.