Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate de omvang van vooraf getrainde spraakherkenningsmodellen toeneemt, wordt het uitvoeren van deze grote modellen in omgevingen met lage latentie of beperkte middelen een uitdaging. In dit werk maken we gebruik van pseudo-labeling om een grootschalige open-source dataset samen te stellen, die we gebruiken om het Whisper-model te destilleren naar een kleinere variant, genaamd Distil-Whisper. Met behulp van een eenvoudige heuristiek voor de woordfoutratio (WER) selecteren we alleen de hoogste kwaliteit pseudo-labels voor training. Het gedestilleerde model is 5,8 keer sneller met 51% minder parameters, terwijl het presteert binnen 1% WER op out-of-distribution testdata in een zero-shot transfer setting. Distil-Whisper behoudt de robuustheid van het Whisper-model tegen moeilijke akoestische omstandigheden, terwijl het minder gevoelig is voor hallucinatiefouten bij lange audiofragmenten. Distil-Whisper is ontworpen om te worden gecombineerd met Whisper voor speculatieve decodering, wat een 2 keer snellere verwerking oplevert terwijl wiskundig wordt gegarandeerd dat de uitvoer hetzelfde is als die van het originele model. Om verder onderzoek in dit domein te faciliteren, maken we onze trainingscode, inferentiecode en modellen publiekelijk toegankelijk.
LLaVA-Interactive is een onderzoeksprototype voor multimodale mens-AI-interactie. Het systeem kan meerzijdige dialogen voeren met menselijke gebruikers door multimodale gebruikersinvoer te verwerken en multimodale reacties te genereren. Belangrijk is dat LLaVA-Interactive verder gaat dan taalprompts, waarbij visuele prompts worden ingeschakeld om menselijke intenties in de interactie af te stemmen. De ontwikkeling van LLaVA-Interactive is uiterst kostenefficiënt, omdat het systeem drie multimodale vaardigheden combineert van vooraf gebouwde AI-modellen zonder aanvullende modeltraining: visuele chat van LLaVA, beeldsegmentatie van SEEM, evenals beeldgeneratie en -bewerking van GLIGEN. Een diverse reeks toepassingsscenario's wordt gepresenteerd om de beloften van LLaVA-Interactive te demonstreren en toekomstig onderzoek naar multimodale interactieve systemen te inspireren.
We demonstreren hoe conditionele generatie met diffusiemodellen kan worden ingezet om een verscheidenheid aan realistische taken aan te pakken bij de productie van muziek in 44,1kHz stereo-audio met begeleiding tijdens het samplingproces. De scenario's die we beschouwen omvatten het voortzetten, inpainten en regenereren van muzikale audio, het creëren van vloeiende overgangen tussen twee verschillende muziektracks, en het overbrengen van gewenste stilistische kenmerken naar bestaande audioclips. We bereiken dit door begeleiding toe te passen tijdens het samplingproces in een eenvoudig framework dat zowel reconstructie- als classificatieverliezen ondersteunt, of elke combinatie daarvan. Deze aanpak zorgt ervoor dat gegenereerde audio kan aansluiten bij de omringende context, of kan voldoen aan een klasseverdeling of latente representatie die is gespecificeerd ten opzichte van een geschikt vooraf getraind classificatie- of embeddingmodel.
We demonstreren tekst als een krachtige cross-modale interface. In plaats van te vertrouwen op diepe embeddings om afbeeldingen en taal als interface-representatie te verbinden, representeert onze aanpak een afbeelding als tekst, waarvan we de inherente interpreteerbaarheid en flexibiliteit van natuurlijke taal benutten. We gebruiken een auto-encoder die een vooraf getraind tekst-naar-afbeelding diffusiemodel gebruikt voor decodering. De encoder wordt getraind om een invoerafbeelding om te zetten in tekst, die vervolgens wordt ingevoerd in de vaste tekst-naar-afbeelding diffusiedecoder om de oorspronkelijke invoer te reconstrueren – een proces dat we De-Diffusie noemen. Experimenten valideren zowel de precisie als de volledigheid van De-Diffusie-tekst die afbeeldingen representeert, zodat deze direct kan worden gebruikt door standaard tekst-naar-afbeelding tools en LLM's voor diverse multimodale taken. Zo kan een enkel De-Diffusie-model generaliseren om overdraagbare prompts te bieden voor verschillende tekst-naar-afbeelding tools, en behaalt het ook een nieuwe staat-van-de-kunst op open-einde visie-taal taken door eenvoudigweg grote taalmodellen te voorzien van few-shot voorbeelden.
De recente golf van generatieve AI heeft ongekende wereldwijde aandacht gewekt, met zowel enthousiasme als zorgen over mogelijk bovenmenselijke niveaus van kunstmatige intelligentie: modellen produceren nu in slechts seconden uitvoer die de capaciteiten van zelfs expert-mensen zouden uitdagen of overtreffen. Tegelijkertijd vertonen modellen nog steeds basale fouten in begrip die zelfs bij niet-expert-mensen niet verwacht zouden worden. Dit stelt ons voor een schijnbare paradox: hoe verzoenen we schijnbaar bovenmenselijke capaciteiten met het voortduren van fouten die weinig mensen zouden maken? In dit werk stellen we dat deze spanning een divergentie weerspiegelt in de configuratie van intelligentie in de huidige generatieve modellen ten opzichte van intelligentie bij mensen. Specifiek stellen en testen we de Generatieve AI Paradox-hypothese: generatieve modellen, die direct zijn getraind om expertachtige uitvoer te reproduceren, verwerven generatieve capaciteiten die niet afhankelijk zijn van — en daarom kunnen overtreffen — hun vermogen om diezelfde soorten uitvoer te begrijpen. Dit staat in contrast met mensen, voor wie basisbegrip bijna altijd voorafgaat aan het vermogen om expertniveau-uitvoer te genereren. We testen deze hypothese door middel van gecontroleerde experimenten die generatie versus begrip in generatieve modellen analyseren, zowel in taal- als beeldmodaliteiten. Onze resultaten tonen aan dat hoewel modellen mensen kunnen overtreffen in generatie, ze consistent tekortschieten in menselijke capaciteiten in metingen van begrip, evenals een zwakkere correlatie tussen generatie- en begripsprestaties, en meer kwetsbaarheid voor adversariële invoer. Onze bevindingen ondersteunen de hypothese dat de generatieve capaciteit van modellen mogelijk niet afhankelijk is van begripscapaciteit, en roepen op tot voorzichtigheid bij het interpreteren van kunstmatige intelligentie door analogie met menselijke intelligentie.
Grote taalmodellen hebben goede prestaties getoond in het genereren van code om aan menselijke vereisten te voldoen. Menselijke vereisten die in natuurlijke taal worden uitgedrukt, kunnen echter vaag, onvolledig en dubbelzinnig zijn, wat ertoe leidt dat grote taalmodellen menselijke vereisten verkeerd interpreteren en fouten maken. Ergerniswekkender is dat het voor een menselijke gebruiker moeilijk is om de vereisten te verfijnen. Om menselijke gebruikers te helpen hun vereisten te verfijnen en de prestaties van grote taalmodellen bij het genereren van code te verbeteren, stellen we ChatCoder voor: een methode om de vereisten te verfijnen door te chatten met grote taalmodellen. We ontwerpen een chatschema waarin de grote taalmodellen de menselijke gebruikers begeleiden om hun uitdrukking van vereisten nauwkeuriger, ondubbelzinniger en vollediger te maken dan voorheen. Experimenten tonen aan dat ChatCoder de prestaties van bestaande grote taalmodellen aanzienlijk heeft verbeterd. Bovendien heeft ChatCoder een voordeel ten opzichte van verfijningsgebaseerde methoden en taalmodellen die zijn afgestemd via menselijke reacties.
Pixelgebaseerde taalmodelen verwerken tekst die als afbeeldingen is weergegeven, waardoor ze elk schrift kunnen hanteren, wat hen een veelbelovende aanpak maakt voor open-vocabulair taalmodeling. Recente benaderingen gebruiken echter tekstweergavemethoden die een grote set bijna-equivalente invoerpatches produceren, wat suboptimaal kan blijken voor downstream taken vanwege redundantie in de invoerrepresentaties. In dit artikel onderzoeken we vier benaderingen voor het weergeven van tekst in het PIXEL-model (Rust et al., 2023), en we ontdekken dat een eenvoudige weergave van karakterbigrammen een verbeterde prestatie oplevert op taken op zinsniveau zonder in te boeten op prestaties op tokenniveau of meertalige taken. Deze nieuwe weergavestrategie maakt het ook mogelijk om een compacter model te trainen met slechts 22M parameters dat even goed presteert als het oorspronkelijke model met 86M parameters. Onze analyses tonen aan dat karakterbigramweergave leidt tot een consistent beter model, maar met een anisotrope patchembeddingruimte, gedreven door een patchfrequentiebias, wat de verbanden tussen beeldpatch- en tokenisatiegebaseerde taalmodelen benadrukt.
Vision-Language Models (VLMs) worden getraind op enorme hoeveelheden data die door mensen zijn vastgelegd en die ons begrip van de wereld nabootsen. Echter, zoals bekend als visuele illusies, is de menselijke perceptie van de realiteit niet altijd trouw aan de fysieke wereld. Dit roept een belangrijke vraag op: hebben VLMs vergelijkbare illusies als mensen, of leren ze de realiteit getrouw weer te geven? Om deze vraag te onderzoeken, hebben we een dataset samengesteld met vijf soorten visuele illusies en vier taken geformuleerd om visuele illusies in state-of-the-art VLMs te onderzoeken. Onze bevindingen hebben aangetoond dat, hoewel de algehele overeenkomst laag is, grotere modellen dichter bij de menselijke perceptie liggen en gevoeliger zijn voor visuele illusies. Onze dataset en eerste bevindingen zullen een beter begrip bevorderen van visuele illusies bij mensen en machines en bieden een opstap voor toekomstige computationele modellen die mens en machine beter op één lijn kunnen brengen in het waarnemen en communiceren over de gedeelde visuele wereld. De code en data zijn beschikbaar op https://github.com/vl-illusion/dataset.
Large Language Models (LLMs) hebben indrukwekkende prestaties laten zien bij diverse downstream taken. Bij het trainen van deze modellen is er een groeiende neiging om meer tokens te verwerken op grotere trainingsschalen, maar met relatief kleinere modelgroottes. De Zero Redundancy Optimizer (ZeRO), hoewel effectief in conventionele trainingsomgevingen, worstelt met schaalbaarheidsuitdagingen wanneer deze wordt geconfronteerd met dit opkomende paradigma. Daarom stellen we een nieuw LLM-trainingsframework voor, genaamd AMSP, dat een gedetailleerde partitionering van modelstatussen uitvoert, inclusief parameters (P), gradienten (G) en optimizerstatussen (OS). Specifiek doet AMSP het volgende: (1) het bouwt een uniforme partitioneringsruimte, waardoor onafhankelijke partitioneringsstrategieën voor P, G en OS mogelijk worden; (2) het integreert een schaalbewuste partitioneerder om autonoom te zoeken naar optimale partitioneringsstrategieën; (3) het ontwerpt een toegewijde communicatie-optimizer om ervoor te zorgen dat verschillen in dataplaatsing, ontstaan door diverse partitioneringsstrategieën, efficiënt worden beheerd. Onze evaluaties tonen aan dat AMSP een schaalbaarheidsefficiëntie van tot wel 90,3% bereikt over 1024 GPU's.