Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Autoregressieve modellen zijn naar voren gekomen als een krachtige benadering voor visuele generatie, maar kampen met een trage inferentiesnelheid vanwege hun sequentiële token-voor-token voorspellingsproces. In dit artikel stellen we een eenvoudige maar effectieve benadering voor voor geparelleliseerde autoregressieve visuele generatie die de generatie-efficiëntie verbetert terwijl de voordelen van autoregressieve modellering behouden blijven. Ons belangrijkste inzicht is dat parallelle generatie afhankelijk is van visuele tokenafhankelijkheden - tokens met zwakke afhankelijkheden kunnen parallel worden gegenereerd, terwijl sterk afhankelijke aangrenzende tokens moeilijk samen kunnen worden gegenereerd, omdat hun onafhankelijke bemonstering tot inconsistenties kan leiden. Op basis van deze observatie ontwikkelen we een parallelle generatiestrategie die verre tokens met zwakke afhankelijkheden parallel genereert, terwijl sequentiële generatie wordt behouden voor sterk afhankelijke lokale tokens. Onze benadering kan naadloos worden geïntegreerd in standaard autoregressieve modellen zonder de architectuur of tokenizer aan te passen. Experimenten op ImageNet en UCF-101 tonen aan dat onze methode een 3,6x versnelling met vergelijkbare kwaliteit behaalt en tot 9,5x versnelling met minimale kwaliteitsdegradatie bij zowel beeld- als videogeneratietaken. We hopen dat dit werk toekomstig onderzoek zal inspireren op het gebied van efficiënte visuele generatie en verenigde autoregressieve modellering. Projectpagina: https://epiphqny.github.io/PAR-project.
Het verbeteren van de multi-step redeneervaardigheid van grote taalmodellen (LLM's) met offline reinforcement learning (RL) is essentieel om ze snel aan te passen aan complexe taken. Hoewel Direct Preference Optimization (DPO) veelbelovend is gebleken in het afstemmen van LLM's op menselijke voorkeuren, is het minder geschikt voor multi-step redeneertaken omdat (1) DPO afhankelijk is van gepaarde voorkeursgegevens, die niet direct beschikbaar zijn voor multi-step redeneertaken, en (2) het behandelt alle tokens uniform, waardoor het ineffectief is voor credit assignment in multi-step redeneertaken, die vaak gepaard gaan met schaarse beloning. In dit werk stellen we OREO (Offline Reasoning Optimization) voor, een offline RL-methode voor het verbeteren van de multi-step redeneerbaarheid van LLM's. Voortbouwend op inzichten uit eerdere werken van maximum entropie reinforcement learning, leert het gezamenlijk een beleidsmodel en waardefunctie door optimalisatie van de zachte Bellman-vergelijking. We tonen in principe aan dat het de noodzaak om paardata te verzamelen vermindert en betere credit assignment mogelijk maakt. Empirisch overtreft OREO bestaande offline leermethoden op multi-step redeneerbenchmarks, waaronder wiskundige redeneertaken (GSM8K, MATH) en embodied agent control (ALFWorld). De aanpak kan worden uitgebreid naar een multi-iteratiekader wanneer er extra middelen beschikbaar zijn. Bovendien kan de geleerde waardefunctie worden benut om de boomzoekopdracht gratis te begeleiden, wat de prestaties tijdens testtijd verder kan verbeteren.
Diffusion Transformers (DiT) zijn een toonaangevende architectuur geworden in beeldgeneratie. Echter, de kwadratische complexiteit van aandachtsmechanismen, die verantwoordelijk zijn voor het modelleren van token-gerelateerde relaties, leidt tot aanzienlijke vertraging bij het genereren van afbeeldingen met een hoge resolutie. Om dit probleem aan te pakken, streven we in dit artikel naar een lineair aandachtsmechanisme dat de complexiteit van vooraf getrainde DiTs verlaagt naar lineair niveau. We beginnen onze verkenning met een uitgebreid overzicht van bestaande efficiënte aandachtsmechanismen en identificeren vier cruciale factoren die essentieel zijn voor een succesvolle linearisatie van vooraf getrainde DiTs: localiteit, formulering consistentie, hoge-rang aandachtskaarten en kenmerkintegriteit. Op basis van deze inzichten introduceren we een convolutie-achtige lokale aandachtsstrategie genaamd CLEAR, die de kenmerkinteracties beperkt tot een lokaal venster rond elk query-token en daardoor lineaire complexiteit bereikt. Onze experimenten tonen aan dat door de aandachtslaag te fine-tunen op slechts 10K zelf gegenereerde voorbeelden gedurende 10K iteraties, we effectief kennis kunnen overdragen van een vooraf getrainde DiT naar een studentmodel met lineaire complexiteit, resulterend in vergelijkbare resultaten als het docentmodel. Tegelijkertijd vermindert het de aandachtsberekeningen met 99.5% en versnelt het de generatie met 6.3 keer voor het genereren van 8K-resolutie afbeeldingen. Bovendien onderzoeken we gunstige eigenschappen in de gedistilleerde aandachtslagen, zoals zero-shot generalisatie over verschillende modellen en plug-ins, en verbeterde ondersteuning voor multi-GPU parallelle inferentie. Modellen en codes zijn beschikbaar op: https://github.com/Huage001/CLEAR.
De Key-Value (KV) cache is een knelpunt geworden voor LLM's voor het genereren van lange contexten. Ondanks de talrijke inspanningen op dit gebied, wordt optimalisatie voor de decoderingsfase over het algemeen genegeerd. Wij zijn echter van mening dat dergelijke optimalisatie cruciaal is, vooral voor taken waarbij lange uitvoer gegenereerd moet worden, gebaseerd op de volgende twee observaties: (i) Overmatige compressie tijdens de voorvul fase, die specifieke volledige context vereist, belemmert het begrip van de redeneertaak; (ii) Afwijking van zware invloeden doet zich voor bij redeneertaken met lange uitvoer. Daarom wordt SCOPE geïntroduceerd, een eenvoudig maar efficiënt raamwerk dat afzonderlijk KV cache optimalisatie uitvoert tijdens de voorvul en decoderingsfases. Specifiek wordt de KV cache tijdens de voorvul fase behouden om de essentiële informatie te behouden, terwijl een nieuwe strategie op basis van schuiven wordt voorgesteld om essentiële zware invloeden te selecteren voor de decoderingsfase. Geheugengebruik en geheugenoverdracht worden verder geoptimaliseerd met adaptieve en discontinue strategieën. Uitgebreide experimenten op LongGenBench tonen de effectiviteit en generalisatie van SCOPE en de compatibiliteit ervan als plug-in voor andere alleen-voorvul KV-compressiemethoden.
Wij stellen voor om hoogwaardige en gesynchroniseerde audio te synthetiseren, gegeven video- en optionele tekstcondities, met behulp van een nieuw multimodaal gezamenlijk trainingskader genaamd MMAudio. In tegenstelling tot training met één modaliteit die alleen geconditioneerd is op (beperkte) videogegevens, wordt MMAudio gezamenlijk getraind met grootschalige, direct beschikbare tekst-audiogegevens om te leren semantisch uitgelijnde hoogwaardige audiovoorbeelden te genereren. Daarnaast verbeteren we de audiovisuele synchronie met een voorwaardelijk synchronisatiemodule die videovoorwaarden afstemt met audiolaagten op frame-niveau. Getraind met een stroom-matching doelstelling, behaalt MMAudio een nieuwe state-of-the-art prestatie van video naar audio onder publieke modellen op het gebied van audiokwaliteit, semantische uitlijning en audiovisuele synchronisatie, terwijl het een lage inferentietijd heeft (1,23s om een clip van 8s te genereren) en slechts 157M parameters heeft. MMAudio behaalt ook verrassend competitieve prestaties in tekst-naar-audio generatie, wat aantoont dat gezamenlijke training de prestaties van enkelvoudige modaliteit niet belemmert. De code en demo zijn beschikbaar op: https://hkchengrex.github.io/MMAudio
Multimodale grote taalmodellen (MLLM's) excelleren in het genereren van zeer gedetailleerde bijschriften, maar produceren vaak hallucinaties. Onze analyse onthult dat bestaande methoden voor hallucinatiedetectie moeite hebben met gedetailleerde bijschriften. We schrijven dit toe aan het toenemende vertrouwen van MLLM's op hun gegenereerde tekst, in plaats van de invoerafbeelding, naarmate de sequentielengte toeneemt. Om dit probleem aan te pakken, stellen we een multi-agent aanpak voor die gebruikmaakt van LLM-MLLM samenwerking om gegeven bijschriften te corrigeren. Daarnaast introduceren we een evaluatiekader en een benchmark dataset om de systematische analyse van gedetailleerde bijschriften te vergemakkelijken. Onze experimenten tonen aan dat onze voorgestelde evaluatiemethode beter overeenkomt met menselijke oordelen over feitelijkheid dan bestaande metrieken, en dat bestaande benaderingen om de feitelijkheid van MLLM's te verbeteren tekort kunnen schieten bij hypergedetailleerde afbeeldingsbijschriften. Daarentegen verbetert onze voorgestelde methode aanzienlijk de feitelijke nauwkeurigheid van bijschriften, zelfs die gegenereerd door GPT-4V. Tot slot benadrukken we een beperking van VQA-gecentreerde benchmarking door aan te tonen dat de prestaties van een MLLM op VQA-benchmarks mogelijk niet correleren met zijn vermogen om gedetailleerde afbeeldingsbijschriften te genereren.
Quantisatie is een van de meest effectieve methodologieën geworden om LLM's te comprimeren tot een kleinere omvang. Echter, de bestaande oplossingen voor quantisatie tonen nog steeds beperkingen, zoals een aanzienlijke nauwkeurigheidsdaling of systeemon-efficiëntie. In dit artikel maken we een uitgebreide analyse van de algemene principes van quantisatie en hun effect op de driehoek van nauwkeurigheid, geheugenverbruik en systeemefficiëntie. We stellen MixLLM voor, dat het nieuwe optimalisatiegebied van gemengde precisie quantisatie tussen uitvoerkenmerken verkent op basis van het inzicht dat verschillende uitvoerkenmerken verschillend belangrijk zijn in het model. MixLLM identificeert de uitvoerkenmerken met een hoge relevantie in het globale beeld in plaats van binnen elke afzonderlijke laag, waarbij effectief een grotere bit-breedte wordt toegewezen aan uitvoerkenmerken die dit het meest nodig hebben om goede nauwkeurigheid te behalen met een laag geheugenverbruik. We presenteren de optimale quantisatieconfiguratie van algoritme-systeem co-ontwerp die leidt tot hoge nauwkeurigheid en systeemefficiëntie. Om het systeemuitdaging aan te pakken, ontwerpen we de tweestaps-dekwantisatie om gebruik te maken van de int8 Tensor Core voor gemakkelijke en snelle gegevenstypeconversie om de dekwantisatie-overhead aanzienlijk te verminderen, en presenteren we de software-pijplijn om de geheugentoegang, dekwantisatie en de MatMul optimaal te laten overlappen. Uitgebreide experimenten tonen aan dat met slechts 10% meer bits, de PPL-toename kan worden verminderd van ongeveer 0.5 in SOTA tot binnen 0.2 voor Llama 3.1 70B, terwijl de MMLU-Pro gemiddeld met 0.93 verbetert ten opzichte van de SOTA van drie populaire modellen. Naast zijn superieure nauwkeurigheid behaalt MixLLM ook een systeemefficiëntie van topklasse.
We introduceren een nieuw blok voor videomodellering. Het maakt gebruik van een tijd-ruimte-kanaalfactorisatie met toegewijde blokken voor elke dimensie: afsluitbare lineaire recurrente eenheden (LRU's) voeren informatie-mixing uit in de tijd, zelfaandachtlagen voeren mixing uit in de ruimte, en MLP's over kanalen. De resulterende architectuur TRecViT presteert goed op schaarse en dichte taken, getraind in begeleide of zelf-begeleide regimes. Opmerkelijk is dat ons model causaal is en beter presteert dan of vergelijkbaar is met een puur aandachtsmodel ViViT-L op grootschalige videodatasets (SSv2, Kinetics400), terwijl het 3 keer minder parameters heeft, 12 keer kleinere geheugenfootprint en 5 keer lager FLOPs-telling. De code en checkpoints zullen online beschikbaar worden gesteld op https://github.com/google-deepmind/trecvit.
3D-superresolutie heeft als doel om hoogwaardige 3D-modellen te reconstrueren vanuit lage-resolutie (LR) multi-view beelden. Vroege studies richtten zich voornamelijk op single-image superresolutie (SISR) modellen om LR beelden te vergroten naar hoge-resolutie beelden. Deze methoden missen echter vaak consistentie tussen de verschillende beelden omdat ze onafhankelijk op elk beeld opereren. Hoewel diverse post-processing technieken uitgebreid zijn onderzocht om deze inconsistenties te verminderen, zijn de problemen nog niet volledig opgelost. In dit artikel voeren we een uitgebreide studie uit naar 3D-superresolutie door gebruik te maken van video-superresolutie (VSR) modellen. Door VSR modellen te benutten, zorgen we voor een hogere mate van ruimtelijke consistentie en kunnen we verwijzen naar omliggende ruimtelijke informatie, wat leidt tot nauwkeurigere en gedetailleerdere reconstructies. Onze bevindingen tonen aan dat VSR modellen opmerkelijk goed kunnen presteren, zelfs op sequenties die geen precieze ruimtelijke uitlijning hebben. Op basis van deze observatie stellen we een eenvoudige maar praktische benadering voor om LR beelden uit te lijnen zonder fijnafstemming of het genereren van een 'vloeiende' traject vanuit de getrainde 3D-modellen over LR beelden. De experimentele resultaten tonen aan dat de verrassend eenvoudige algoritmes de state-of-the-art resultaten kunnen behalen voor 3D-superresolutie taken op standaard benchmark datasets, zoals de NeRF-synthetische en MipNeRF-360 datasets. Projectpagina: https://ko-lani.github.io/Sequence-Matters
In dit werk stellen we een Multi-LLM samenvattingskader voor en onderzoeken we twee verschillende multi-LLM strategieën, namelijk gecentraliseerd en gedecentraliseerd. Ons multi-LLM samenvattingskader heeft twee fundamenteel belangrijke stappen bij elke ronde van het gesprek: generatie en evaluatie. Deze stappen verschillen afhankelijk van het gebruik van onze multi-LLM gedecentraliseerde samenvatting of gecentraliseerde samenvatting. In zowel onze multi-LLM gedecentraliseerde als gecentraliseerde strategieën hebben we k verschillende LLMs die diverse samenvattingen van de tekst genereren. Echter, tijdens de evaluatie maakt onze multi-LLM gecentraliseerde samenvattingsbenadering gebruik van een enkele LLM om de samenvattingen te evalueren en de beste te selecteren, terwijl k LLMs worden gebruikt voor gedecentraliseerde multi-LLM samenvatting. Over het algemeen blijkt dat onze multi-LLM samenvattingsbenaderingen aanzienlijk beter presteren dan de baselines die slechts één LLM gebruiken, tot wel 3x. Deze resultaten duiden op de effectiviteit van multi-LLM benaderingen voor samenvattingen.
Het creëren van een hoogwaardige, animeerbare 3D full-body avatar uit een enkele afbeelding is een uitdagende taak vanwege de diverse verschijningen en poses van mensen en de beperkte beschikbaarheid van hoogwaardige trainingsgegevens. Om snelle en hoogwaardige menselijke reconstructie te bereiken, heroverweegt dit werk de taak vanuit de perspectieven van dataset, model en representatie. Allereerst introduceren we een grootschalige door mensen gecentreerde gegenereerde dataset, HuGe100K, bestaande uit 100K diverse, fotorealistische sets van menselijke afbeeldingen. Elke set bevat 24-weergave frames in specifieke menselijke poses, gegenereerd met behulp van een pose-bestuurbaar beeld-naar-multi-weergave model. Vervolgens, gebruikmakend van de diversiteit in weergaven, poses en verschijningen binnen HuGe100K, ontwikkelen we een schaalbaar feedforward transformer model om een 3D menselijke Gaussische representatie in een uniforme ruimte te voorspellen vanuit een gegeven menselijke afbeelding. Dit model is getraind om menselijke pose, lichaamsvorm, kledinggeometrie en textuur te ontwarren. De geschatte Gaussians kunnen geanimeerd worden zonder post-processing. We voeren uitgebreide experimenten uit om de effectiviteit van de voorgestelde dataset en methode te valideren. Ons model toont de mogelijkheid om efficiënt fotorealistische mensen te reconstrueren op 1K resolutie vanuit een enkele invoerafbeelding met behulp van een enkele GPU direct. Bovendien ondersteunt het naadloos diverse toepassingen, evenals vorm- en textuurbewerkingstaken.
Dit artikel introduceert Fietje, een familie van kleine taalmodellen (SLM's) die specifiek zijn ontworpen voor de Nederlandse taal. Het model is gebaseerd op Phi 2, een op het Engels gericht model met 2,7 miljard parameters. Fietje heeft bij de lancering competitieve resultaten laten zien ten opzichte van grotere taalmodellen. Een kernpunt van dit werk is transparantie en reproduceerbaarheid: Fietje is volledig open-source, waarbij modelgewichten, datasets, training en evaluatiecode allemaal openbaar toegankelijk zijn. Het artikel bespreekt de prestaties van Fietje en vele andere modellen op een uitgebreide reeks benchmarks op het gebied van redeneren, sentimentanalyse, wereldkennis, linguïstische acceptatie en woordbetekenisontwarring. De evaluatieresultaten illustreren de snelle vooruitgang in het veld van LLM's, waar recente kleine modellen oudere, grotere modellen die waren afgestemd op het Nederlands, overtreffen. Deze trend duidt op een spannende toekomst voor de verwerking van de Nederlandse taal, waarbij zelfs compacte LLM's steeds capabeler worden. Bovendien zijn lopende en toekomstige inspanningen om LLM's aan te passen aan het Nederlands klaar om deze modellen verder te verbeteren, waardoor hun toepasbaarheid en toegankelijkheid worden vergroot. Fietje is slechts een tussenstap in het verbeteren van de toegankelijkheid van taaltechnologie voor gebruikers van de Nederlandse taal.
Het bouwen van veilige Grote Taalmodellen (LLM's) in meerdere talen is essentieel om zowel veilige toegang als taalkundige diversiteit te waarborgen. Met dit doel introduceren we M-ALERT, een meertalige benchmark die de veiligheid van LLM's evalueert in vijf talen: Engels, Frans, Duits, Italiaans en Spaans. M-ALERT bevat 15k hoogwaardige prompts per taal, in totaal 75k, volgens de gedetailleerde ALERT taxonomie. Onze uitgebreide experimenten met 10 toonaangevende LLM's benadrukken het belang van taalspecifieke veiligheidsanalyse, waarbij blijkt dat modellen vaak aanzienlijke inconsistenties vertonen in veiligheid over talen en categorieën. Zo vertoont Llama3.2 bijvoorbeeld hoge onveiligheid in de categorie crime_tax voor Italiaans, maar blijft veilig in andere talen. Vergelijkbare verschillen zijn waarneembaar bij alle modellen. Daarentegen activeren bepaalde categorieën, zoals substance_cannabis en crime_propaganda, consequent onveilige reacties over modellen en talen heen. Deze bevindingen benadrukken de noodzaak van robuuste meertalige veiligheidspraktijken in LLM's om veilig en verantwoord gebruik te waarborgen binnen diverse gebruikersgemeenschappen.