Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De groeiende vraag naar hoogwaardige videogeneratie op basis van tekstuele beschrijvingen heeft aanzienlijk onderzoek op dit gebied gestimuleerd. In dit werk introduceren we MagicVideo-V2, dat het tekst-naar-beeldmodel, de videobewegingsgenerator, de referentiebeeldembeddingmodule en de frame-interpolatiemodule integreert in een end-to-end videogeneratiepijplijn. Dankzij deze architectuurontwerpen kan MagicVideo-V2 esthetisch aantrekkelijke, hoogwaardige video's genereren met opmerkelijke nauwkeurigheid en vloeiendheid. Het toont superieure prestaties ten opzichte van toonaangevende Tekst-naar-Video-systemen zoals Runway, Pika 1.0, Morph, Moon Valley en het Stable Video Diffusion-model via grootschalige gebruikersevaluaties.
We introduceren MAGNeT, een gemaskeerde generatieve sequentiemodelleringmethode die rechtstreeks werkt over meerdere stromen van audiotokens. In tegenstelling tot eerder werk bestaat MAGNeT uit een transformer met één fase die niet-autoregressief is. Tijdens de training voorspellen we reeksen gemaskeerde tokens die zijn verkregen uit een maskeringsschema, terwijl we tijdens de inferentie de uitvoervolgorde geleidelijk opbouwen met behulp van verschillende decodeerstappen. Om de kwaliteit van de gegenereerde audio verder te verbeteren, introduceren we een nieuwe herscoremethode waarbij we een extern voorgetraind model gebruiken om voorspellingen van MAGNeT te herscoren en te rangschikken, die vervolgens worden gebruikt voor latere decodeerstappen. Ten slotte onderzoeken we een hybride versie van MAGNeT, waarbij we een combinatie maken van autoregressieve en niet-autoregressieve modellen om de eerste paar seconden op een autoregressieve manier te genereren, terwijl de rest van de sequentie parallel wordt gedecodeerd. We demonstreren de efficiëntie van MAGNeT voor de taken tekst-naar-muziek en tekst-naar-audiogeneratie en voeren een uitgebreide empirische evaluatie uit, waarbij we zowel objectieve metrieken als menselijke studies in overweging nemen. De voorgestelde aanpak is vergelijkbaar met de geëvalueerde baselines, terwijl deze aanzienlijk sneller is (7x sneller dan de autoregressieve baseline). Door middel van ablatiestudies en analyse belichten we het belang van elk van de componenten waaruit MAGNeT bestaat, samen met het wijzen op de afwegingen tussen autoregressieve en niet-autoregressieve modellering, waarbij we rekening houden met latentie, doorvoer en generatiekwaliteit. Voorbeelden zijn beschikbaar op onze demopagina https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
Lineaire aandacht is een efficiënt aandachtmechanisme dat recentelijk naar voren is gekomen als een veelbelovend alternatief voor conventionele softmax-aandacht. Met zijn vermogen om tokens te verwerken in lineaire computationele complexiteiten, kan lineaire aandacht in theorie sequenties van onbeperkte lengte aan zonder snelheid in te leveren, d.w.z. een constante trainingssnelheid behouden voor verschillende sequentielengtes met een vast geheugengebruik. Echter, vanwege het probleem met cumulatieve sommatie (cumsum), kunnen huidige lineaire aandachtalgoritmen hun theoretische voordeel niet aantonen in een causale setting. In dit artikel presenteren we Lightning Attention-2, de eerste implementatie van lineaire aandacht die het mogelijk maakt om de theoretische computationele voordelen te realiseren. Om dit te bereiken, maken we gebruik van de gedachte van tiling, waarbij de intra-blok en inter-blok componenten in de lineaire aandachtberekening afzonderlijk worden behandeld. Specifiek gebruiken we het conventionele aandachtberekeningsmechanisme voor de intra-blokken en passen we lineaire aandachtkernel trucs toe voor de inter-blokken. Een tiling-techniek wordt toegepast in zowel de voorwaartse als de achterwaartse procedures om volledig gebruik te maken van de GPU-hardware. We implementeren ons algoritme in Triton om het IO-bewust en hardwarevriendelijk te maken. Diverse experimenten worden uitgevoerd op verschillende modelgroottes en sequentielengtes. Lightning Attention-2 behoudt een consistente trainings- en inferentiesnelheid ongeacht de invoersequentielengte en is aanzienlijk sneller dan andere aandachtmechanismen. De broncode is beschikbaar op https://github.com/OpenNLPLab/lightning-attention.
Tabelgebaseerd redeneren met grote taalmodellen (LLMs) is een veelbelovende richting om veel tabelbegriptaken aan te pakken, zoals tabelgebaseerde vraagbeantwoording en feitenverificatie. In vergelijking met generiek redeneren, vereist tabelgebaseerd redeneren de extractie van onderliggende semantiek uit zowel vrije-vorm vragen als semi-gestructureerde tabelgegevens. Chain-of-Thought en vergelijkbare benaderingen integreren de redeneerketen in de vorm van tekstuele context, maar het blijft een open vraag hoe tabelgegevens effectief kunnen worden benut in de redeneerketen. Wij stellen het Chain-of-Table raamwerk voor, waarbij tabelgegevens expliciet worden gebruikt in de redeneerketen als een proxy voor tussenliggende gedachten. Specifiek leiden we LLMs met in-context leren om iteratief bewerkingen te genereren en de tabel bij te werken om een tabelgebaseerde redeneerketen weer te geven. LLMs kunnen daarom dynamisch de volgende bewerking plannen op basis van de resultaten van de vorige. Deze continue evolutie van de tabel vormt een keten, die het redeneerproces voor een gegeven tabelprobleem toont. De keten draagt gestructureerde informatie van de tussenliggende resultaten met zich mee, wat nauwkeurigere en betrouwbaardere voorspellingen mogelijk maakt. Chain-of-Table behaalt nieuwe state-of-the-art prestaties op de WikiTQ, FeTaQA en TabFact benchmarks voor meerdere LLM-keuzes.
Een jump cut veroorzaakt een abrupte, soms ongewenste verandering in de kijkervaring. Wij presenteren een nieuw raamwerk voor het gladstrijken van deze jump cuts, specifiek in de context van talking head video's. We maken gebruik van het uiterlijk van het onderwerp uit de andere bronframes in de video, en combineren dit met een mid-level representatie die wordt gestuurd door DensePose keypoints en gezichtslandmarken. Om beweging te creëren, interpoleren we de keypoints en landmarken tussen de eindframes rond de cut. Vervolgens gebruiken we een beeldvertaalnetwerk om vanuit de keypoints en bronframes pixels te synthetiseren. Omdat keypoints fouten kunnen bevatten, stellen we een cross-modale attentieschema voor om de meest geschikte bron te selecteren uit meerdere opties voor elk keypoint. Door gebruik te maken van deze mid-level representatie, kan onze methode betere resultaten behalen dan een sterke baseline voor video-interpolatie. We demonstreren onze methode op verschillende jump cuts in talking head video's, zoals het verwijderen van stopwoorden, pauzes en zelfs willekeurige cuts. Onze experimenten tonen aan dat we naadloze overgangen kunnen bereiken, zelfs in uitdagende gevallen waarbij de talking head roteert of drastisch beweegt tijdens de jump cut.
Visuele en visueel-taalkundige toepassingen van neurale netwerken, zoals beeldclassificatie en beeldbeschrijving, zijn afhankelijk van grootschalige geannoteerde datasets die niet-triviale datacollectieprocessen vereisen. Deze tijdrovende onderneming belemmert het ontstaan van grootschalige datasets, waardoor onderzoekers en praktijkmensen beperkt blijven tot een klein aantal keuzes. Daarom zoeken we naar efficiëntere manieren om afbeeldingen te verzamelen en te annoteren. Eerdere initiatieven hebben bijschriften verzameld uit HTML alt-teksten en sociale media-berichten, maar deze databronnen lijden onder ruis, schaarste of subjectiviteit. Om deze reden richten we ons op commerciële winkelwebsites waarvan de data aan drie criteria voldoen: netheid, informatiefheid en vloeiendheid. We introduceren de Let's Go Shopping (LGS) dataset, een grootschalige openbare dataset met 15 miljoen afbeelding-bijschrift-paren van publiek beschikbare e-commerce websites. In vergelijking met bestaande algemene domeindatasets, focussen de LGS-afbeeldingen zich op het voorgrondobject en hebben ze minder complexe achtergronden. Onze experimenten op LGS tonen aan dat classificatoren die getraind zijn op bestaande benchmarkdatasets niet gemakkelijk generaliseren naar e-commerce data, terwijl specifieke zelf-supervisie visuele feature extractors beter kunnen generaliseren. Bovendien maken de hoogwaardige, op e-commerce gerichte afbeeldingen en bimodale aard van LGS het voordelig voor visueel-taalkundige bimodale taken: LGS stelt beeldbeschrijvingsmodellen in staat om rijkere bijschriften te genereren en helpt tekst-naar-beeld generatiemodellen om e-commerce stijloverdracht te bereiken.
Feitelijke vragen kunnen doorgaans correct worden beantwoord op verschillende niveaus van granulariteit. Zo zijn zowel ``4 augustus 1961'' als ``1961'' correcte antwoorden op de vraag ``Wanneer is Barack Obama geboren?''. Standaard evaluatieprotocollen voor vraagbeantwoording (QA) houden hier echter geen expliciet rekening mee en vergelijken een voorspeld antwoord met antwoorden van één granulariteitsniveau. In dit werk stellen we GRANOLA QA voor, een nieuwe evaluatie-instelling waarin een voorspeld antwoord wordt beoordeeld op nauwkeurigheid en informatiefheid tegenover een set van antwoorden met meerdere granulariteitsniveaus. We presenteren een eenvoudige methodologie om bestaande datasets te verrijken met antwoorden van meerdere granulariteitsniveaus, en creëren GRANOLA-EQ, een multi-granulariteitsversie van de EntityQuestions-dataset. We evalueren een reeks decodeermethoden op GRANOLA-EQ, waaronder een nieuw algoritme, genaamd Decoding with Response Aggregation (DRAG), dat gericht is op het afstemmen van de granulariteit van het antwoord op de onzekerheid van het model. Onze experimenten tonen aan dat grote taalmodellen met standaard decodeermethoden de neiging hebben om specifieke antwoorden te genereren, die vaak incorrect zijn. Daarentegen levert DRAG, wanneer geëvalueerd op antwoorden met meerdere granulariteitsniveaus, een gemiddelde stijging van bijna 20 punten in nauwkeurigheid op, wat verder toeneemt voor zeldzame entiteiten. Over het geheel genomen laat dit zien dat standaard evaluatie- en decodeerschema's de kennis die in taalmodellen is ingekapseld, mogelijk aanzienlijk onderschatten.
Ondanks het potentieel van diffusiemodellen in spraakverbetering, is hun inzet in Acoustic Echo Cancellation (AEC) beperkt gebleven. In dit artikel introduceren we DI-AEC, een baanbrekende op diffusie gebaseerde stochastische regeneratiebenadering specifiek voor AEC. Daarnaast stellen we FADI-AEC voor, een snel score-gebaseerd diffusie-AEC-framework om de rekenkundige eisen te verminderen, wat het geschikt maakt voor edge-apparaten. Het onderscheidt zich door het scoremodel slechts één keer per frame uit te voeren, wat een aanzienlijke toename in verwerkingsefficiëntie oplevert. Bovendien introduceren we een nieuwe techniek voor ruisgeneratie waarbij verre-endsignalen worden gebruikt, waarbij zowel verre-end als near-end signalen worden geïntegreerd om de nauwkeurigheid van het scoremodel te verfijnen. We testen onze voorgestelde methode op de ICASSP2023 Microsoft deep echo cancellation challenge evaluatiedataset, waar onze methode enkele end-to-end methoden en andere op diffusie gebaseerde echo-annuleringsmethoden overtreft.