Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Universele bronseparatie (USS) is een fundamentele onderzoeksopdracht voor computationele auditieve scene-analyse, die als doel heeft mono-opnames te scheiden in individuele bronsporen. Er zijn drie potentiële uitdagingen die een oplossing vereisen voor de taak van audiobronseparatie. Ten eerste richten eerdere audiobronseparatiesystemen zich voornamelijk op het scheiden van één of een beperkt aantal specifieke bronnen. Er is een gebrek aan onderzoek naar het bouwen van een uniform systeem dat willekeurige bronnen kan scheiden via een enkel model. Ten tweede vereisen de meeste eerdere systemen schone brondata om een separator te trainen, terwijl schone brondata schaars zijn. Ten derde ontbreekt het aan een USS-systeem dat actieve geluidsklassen automatisch kan detecteren en scheiden op een hiërarchisch niveau. Om grootschalige zwak gelabelde/ongelabelde audiogegevens te gebruiken voor audiobronseparatie, stellen we een universeel audiobronseparatieraamwerk voor dat bestaat uit: 1) een audiolabelmodel getraind op zwak gelabelde gegevens als een query-netwerk; en 2) een conditioneel bronseparatiemodel dat de uitvoer van het query-netwerk als voorwaarden gebruikt om willekeurige geluidsbronnen te scheiden. We onderzoeken verschillende query-netwerken, bronseparatiemodellen en trainingsstrategieën en stellen een hiërarchische USS-strategie voor om automatisch geluidsklassen te detecteren en te scheiden vanuit de AudioSet-ontologie. Door uitsluitend gebruik te maken van het zwak gelabelde AudioSet, is ons USS-systeem succesvol in het scheiden van een breed scala aan geluidsklassen, waaronder geluidsgebeurtenisseparatie, muziekbronseparatie en spraakverbetering. Het USS-systeem behaalt een gemiddelde signaal-vervormingsratioverbetering (SDRi) van 5,57 dB over 527 geluidsklassen van AudioSet; 10,57 dB op de DCASE 2018 Task 2-dataset; 8,12 dB op de MUSDB18-dataset; een SDRi van 7,28 dB op de Slakh2100-dataset; en een SSNR van 9,00 dB op de voicebank-demand-dataset. We hebben de broncode vrijgegeven op https://github.com/bytedance/uss.
Diffusiemodellen zijn naar voren gekomen als een krachtig paradigma voor generatie, waarbij ze sterke prestaties behalen in verschillende domeinen met continue waarden als invoer. Ondanks de beloften van volledig niet-autoregressieve tekstgeneratie, blijft het toepassen van diffusiemodellen op natuurlijke taal uitdagend vanwege het discrete karakter ervan. In dit werk stellen we Text-to-text Self-conditioned Simplex Diffusion (TESS) voor, een tekstdiffusiemodel dat volledig niet-autoregressief is, een nieuwe vorm van zelfconditionering gebruikt, en het diffusieproces toepast op de logit-simplexruimte in plaats van de gebruikelijke geleerde embeddingruimte. Door uitgebreide experimenten op taken voor natuurlijke taalbegrip en -generatie, waaronder samenvatting, tekstvereenvoudiging, parafrasegeneratie en vraaggeneratie, tonen we aan dat TESS state-of-the-art niet-autoregressieve modellen overtreft en concurrerend is met voorgetrainde autoregressieve sequence-to-sequence modellen.
In dit artikel bestuderen we een nieuw probleem in egocentrische actieherkenning, dat we "Multimodale Generalisatie" (MMG) noemen. MMG heeft als doel te onderzoeken hoe systemen kunnen generaliseren wanneer gegevens van bepaalde modaliteiten beperkt of zelfs volledig afwezig zijn. We onderzoeken MMG grondig in de context van standaard gesuperviseerde actieherkenning en de uitdagendere few-shot instelling voor het leren van nieuwe actiecategorieën. MMG bestaat uit twee nieuwe scenario's, ontworpen om veiligheids- en efficiëntieoverwegingen in real-world toepassingen te ondersteunen: (1) generalisatie bij ontbrekende modaliteiten, waarbij sommige modaliteiten die tijdens de training aanwezig waren, tijdens de inferentie ontbreken, en (2) cross-modale zero-shot generalisatie, waarbij de modaliteiten die tijdens de inferentie en de training aanwezig zijn, disjunct zijn. Om dit onderzoek mogelijk te maken, construeren we een nieuwe dataset MMG-Ego4D met datapunten met video-, audio- en traagheidsbewegingssensor (IMU)-modaliteiten. Onze dataset is afgeleid van de Ego4D-dataset, maar is verwerkt en grondig opnieuw geannoteerd door menselijke experts om onderzoek naar het MMG-probleem te faciliteren. We evalueren een diverse reeks modellen op MMG-Ego4D en stellen nieuwe methoden voor met een verbeterde generalisatiecapaciteit. In het bijzonder introduceren we een nieuwe fusiemodule met modaliteitsdropout-training, contrastieve aligneringstraining en een nieuwe cross-modale prototypische verliesfunctie voor betere few-shot prestaties. We hopen dat deze studie zal dienen als een benchmark en toekomstig onderzoek naar multimodale generalisatieproblemen zal begeleiden. De benchmark en code zullen beschikbaar zijn op https://github.com/facebookresearch/MMG_Ego4D.
De tekstgestuurde beeld- en videodiffusiemodellen hebben ongekend succes geboekt in het genereren van realistische en diverse content. Recentelijk hebben het bewerken en variëren van bestaande beelden en video's in diffusiegebaseerde generatieve modellen aanzienlijke aandacht gekregen. Eerdere werken zijn echter beperkt tot het bewerken van content met tekst of het bieden van grove personalisatie met behulp van een enkele visuele aanwijzing, waardoor ze ongeschikt zijn voor onbeschrijfbare content die fijnmazige en gedetailleerde controle vereist. In dit opzicht stellen we een generiek videobewerkingsframework voor, genaamd Make-A-Protagonist, dat tekstuele en visuele aanwijzingen gebruikt om video's te bewerken met als doel individuen in staat te stellen de hoofdrolspelers te worden. Specifiek maken we gebruik van meerdere experts om de bronvideo, doelvisuele en tekstuele aanwijzingen te analyseren, en stellen we een visueel-tekstueel gebaseerd videogeneratiemodel voor dat maskergeleide denoisingsampling gebruikt om de gewenste output te genereren. Uitgebreide resultaten demonstreren de veelzijdige en opmerkelijke bewerkingsmogelijkheden van Make-A-Protagonist.
Hoewel vooraf trainen op grootschalige beeld-tekstgegevens van het web snelle vooruitgang heeft mogelijk gemaakt op veel visie-en-taal (V&L) taken, heeft recent werk aangetoond dat vooraf getrainde modellen een gebrek hebben aan "fijnmazig" begrip, zoals het vermogen om relaties, werkwoorden en getallen in afbeeldingen te herkennen. Dit heeft geleid tot een groeiende interesse in de gemeenschap om nieuwe benchmarks of modellen voor dergelijke vaardigheden te ontwikkelen. Om de voortgang in deze richting beter te begrijpen en te kwantificeren, onderzoeken we vier concurrerende V&L-modellen op vier fijnmazige benchmarks. Uit onze analyse blijkt dat X-VLM (Zeng et al., 2022) consistent beter presteert dan andere baselines, en dat innovaties in modellering een grotere impact kunnen hebben op de prestaties dan het schalen van webgegevens, wat soms zelfs tot prestatieverlies leidt. Door een dieper onderzoek van X-VLM benadrukken we het belang van zowel nieuwe verliesfuncties als rijke databronnen voor het aanleren van fijnmazige vaardigheden. Ten slotte inspecteren we de trainingsdynamiek en ontdekken dat voor sommige taken de prestaties vroeg in de training pieken of aanzienlijk fluctueren, zonder ooit te convergeren.
Resource scheduling en allocatie zijn cruciale componenten van veel systemen met grote impact, variërend van congestiebeheer tot cloudcomputing. Het vinden van meer optimale oplossingen voor deze problemen heeft vaak een aanzienlijke invloed op het besparen van middelen en tijd, het verminderen van slijtage aan apparatuur, en zelfs het potentieel verbeteren van de CO2-uitstoot. In dit artikel richten we ons op een specifiek geval van een planningsprobleem, namelijk het geheugenmappingsprobleem dat optreedt tijdens de compilatie van machine learning-programma's: het toewijzen van tensors aan verschillende geheugenlagen om de uitvoeringstijd te optimaliseren. We introduceren een aanpak voor het oplossen van het geheugenmappingsprobleem met behulp van Reinforcement Learning (RL). RL is een oplossingsparadigma dat goed geschikt is voor sequentiële beslissingsproblemen die zich lenen voor planning, en combinatorische zoekruimtes met hoogdimensionale data-inputs. We formuleren het probleem als een single-player game, die we de mallocGame noemen, zodanig dat trajecten met een hoge beloning in het spel overeenkomen met efficiënte geheugenmappingen op de doelhardware. We introduceren ook een Reinforcement Learning-agent, mallocMuZero, en laten zien dat deze in staat is om dit spel te spelen om nieuwe en verbeterde geheugenmappingoplossingen te ontdekken die leiden tot snellere uitvoeringstijden bij echte ML-workloads op ML-accelerators. We vergelijken de prestaties van mallocMuZero met de standaard solver die wordt gebruikt door de Accelerated Linear Algebra (XLA)-compiler op een benchmark van realistische ML-workloads. Daarnaast tonen we aan dat mallocMuZero in staat is om de uitvoeringstijd van het recent gepubliceerde AlphaTensor matrixvermenigvuldigingsmodel te verbeteren.
Het waarborgen dat grote taalmodelen (LMs) eerlijk, robuust en nuttig zijn, vereist inzicht in hoe verschillende aanpassingen aan hun invoer het gedrag van het model beïnvloeden. In de context van open-tekstgeneratietaken is een dergelijke evaluatie echter niet triviaal. Bijvoorbeeld, wanneer een model wordt gepresenteerd met een invoertekst en een verstoorde, "contrastieve" versie daarvan, kunnen betekenisvolle verschillen in de volgende-tokenvoorspellingen niet altijd worden onthuld met standaard decodeerstrategieën. Met deze motivatie in gedachten stellen wij Contrastive Input Decoding (CID) voor: een decodeeralgoritme om tekst te genereren op basis van twee invoeren, waarbij de gegenereerde tekst waarschijnlijk is gegeven de ene invoer maar onwaarschijnlijk gegeven de andere. Op deze manier kunnen de contrastieve generaties potentieel subtiele verschillen in hoe de LM-uitvoer verschilt voor de twee invoeren op een eenvoudige en interpreteerbare manier benadrukken. Wij gebruiken CID om context-specifieke vooroordelen te belichten die moeilijk te detecteren zijn met standaard decodeerstrategieën en om het effect van verschillende invoerverstoringen te kwantificeren.
Samenvattingsmodellen genereren vaak tekst die slecht is afgestemd op kwaliteitsmetrieken omdat ze zijn getraind om de waarschijnlijkheid van een enkele referentie te maximaliseren (MLE). Om dit aan te pakken, heeft recent werk een kalibratiestap toegevoegd, waarbij een model wordt blootgesteld aan zijn eigen gerangschikte uitvoer om de relevantie te verbeteren, of, in een aparte onderzoekslijn, positieve en negatieve sets worden gecontrasteerd om de betrouwbaarheid te verbeteren. Hoewel effectief, heeft veel van dit werk zich gericht op het genereren en optimaliseren van deze sets. Er is minder bekend over waarom de ene opzet effectiever is dan de andere. In dit werk ontrafelen we de onderliggende kenmerken van effectieve sets. Voor elke trainingsinstantie vormen we een grote, diverse pool van kandidaten en variëren we systematisch de subsets die worden gebruikt voor kalibratiefinetuning. Elke selectiestrategie richt zich op verschillende aspecten van de sets, zoals lexicale diversiteit of de grootte van het verschil tussen positieve en negatieve voorbeelden. Op drie diverse wetenschappelijke langlopende samenvattingsdatasets (die biomedische, klinische en chemische domeinen bestrijken), vinden we onder andere dat kalibratie voor betrouwbaarheid optimaal is wanneer de negatieve sets extractief zijn en waarschijnlijker worden gegenereerd, terwijl voor kalibratie van relevantie de metrieke marge tussen kandidaten gemaximaliseerd moet worden en verrassing—de onenigheid tussen model- en metrieke kandidaatrangschikkingen—geminimaliseerd moet worden. Code om kalibratiesets te creëren, selecteren en optimaliseren is beschikbaar op https://github.com/griff4692/calibrating-summaries.
Het genereren van nauwkeurige visualisaties van menselijke gezichten vereist het vastleggen van zowel grove als fijnmazige details van de gezichtsgeometrie en het uiterlijk. Bestaande methoden zijn ofwel data-gedreven, wat een uitgebreid corpus aan gegevens vereist dat niet publiekelijk toegankelijk is voor de onderzoeksgemeenschap, of ze slagen er niet in om fijne details vast te leggen omdat ze vertrouwen op geometrische gezichtsmodellen die geen fijnmazige details in de textuur kunnen weergeven met een mesh-discretisatie en lineaire vervorming die alleen is ontworpen om een grove gezichtsgeometrie te modelleren. Wij introduceren een methode die deze kloof overbrugt door inspiratie te putten uit traditionele computer graphics-technieken. Ongeziene uitdrukkingen worden gemodelleerd door het mengen van het uiterlijk van een beperkte set extreme poses. Dit mengen wordt uitgevoerd door lokale volumetrische veranderingen in die uitdrukkingen te meten en hun uiterlijk lokaal te reproduceren wanneer een vergelijkbare uitdrukking wordt uitgevoerd tijdens de testfase. We tonen aan dat onze methode generaliseert naar ongeziene uitdrukkingen, waarbij fijnmazige effecten worden toegevoegd bovenop soepele volumetrische vervormingen van een gezicht, en demonstreren hoe het zich uitbreidt naar andere objecten dan gezichten.
Een aantal vooraanstaande AI-bedrijven, waaronder OpenAI, Google DeepMind en Anthropic, hebben als expliciet doel het ontwikkelen van kunstmatige algemene intelligentie (AGI) - AI-systemen die menselijke prestaties op een breed scala aan cognitieve taken evenaren of overtreffen. Bij het nastreven van dit doel kunnen zij AI-systemen ontwikkelen en inzetten die bijzonder grote risico's met zich meebrengen. Hoewel zij al enkele maatregelen hebben genomen om deze risico's te beperken, zijn er nog geen best practices ontstaan. Om de identificatie van best practices te ondersteunen, hebben we een enquête gestuurd naar 92 toonaangevende experts van AGI-labs, academische instellingen en maatschappelijke organisaties, waarop we 51 reacties ontvingen. Deelnemers werd gevraagd in hoeverre zij het eens waren met 50 stellingen over wat AGI-labs zouden moeten doen. Onze belangrijkste bevinding is dat de deelnemers gemiddeld genomen met alle stellingen akkoord gingen. Veel stellingen kregen extreem hoge niveaus van instemming. Zo was 98% van de respondenten het enigszins of sterk eens met de stelling dat AGI-labs risicobeoordelingen vóór inzet, evaluaties van gevaarlijke capaciteiten, audits van modellen door derden, veiligheidsbeperkingen op modelgebruik en red teaming zouden moeten uitvoeren. Uiteindelijk kan onze lijst met stellingen dienen als een nuttige basis voor inspanningen om best practices, standaarden en regelgeving voor AGI-labs te ontwikkelen.