Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We ontwerpen een nieuwe familie van hybride CNN-ViT neurale netwerken, genaamd FasterViT, met een focus op hoge beelddoorvoer voor computervisie (CV) toepassingen. FasterViT combineert de voordelen van snelle lokale representatieleer in CNN's en globale modelleringseigenschappen in ViT. Onze nieuw geïntroduceerde Hiërarchische Aandacht (HAT) aanpak deconstrueert globale zelf-aandacht met kwadratische complexiteit in een multi-level aandacht met verminderde rekenkosten. We profiteren van efficiënte venstergebaseerde zelf-aandacht. Elk venster heeft toegang tot toegewezen draagtokens die deelnemen aan lokale en globale representatieleer. Op een hoog niveau maken globale zelf-aandachten efficiënte communicatie tussen vensters mogelijk tegen lagere kosten. FasterViT bereikt een SOTA Pareto-front in termen van nauwkeurigheid versus beelddoorvoer. We hebben de effectiviteit uitgebreid gevalideerd op verschillende CV-taken, waaronder classificatie, objectdetectie en segmentatie. We laten ook zien dat HAT kan worden gebruikt als een plug-and-play module voor bestaande netwerken en deze kan verbeteren. We demonstreren verder aanzienlijk snellere en nauwkeurigere prestaties dan concurrerende tegenhangers voor afbeeldingen met hoge resolutie. Code is beschikbaar op https://github.com/NVlabs/FasterViT.
Grote tekst-naar-beeld diffusiemodellen beschikken over indrukwekkende mogelijkheden om fotorealistische afbeeldingen te genereren op basis van tekstprompts. Het effectief begeleiden of controleren van deze krachtige modellen om verschillende downstream taken uit te voeren, wordt een belangrijk open probleem. Om deze uitdaging aan te pakken, introduceren we een principiële finetuningmethode -- Orthogonale Finetuning (OFT), voor het aanpassen van tekst-naar-beeld diffusiemodellen aan downstream taken. In tegenstelling tot bestaande methoden kan OFT aantoonbaar hypersferische energie behouden, wat de paarsgewijze neuronrelatie op de eenheidshypersfeer karakteriseert. We ontdekken dat deze eigenschap cruciaal is voor het behouden van de semantische generatiecapaciteit van tekst-naar-beeld diffusiemodellen. Om de stabiliteit van het finetunen te verbeteren, stellen we verder Constrained Orthogonal Finetuning (COFT) voor, dat een extra straalbeperking oplegt aan de hypersfeer. Specifiek beschouwen we twee belangrijke finetuning tekst-naar-beeld taken: subjectgedreven generatie, waarbij het doel is om subjectspecifieke afbeeldingen te genereren op basis van een paar afbeeldingen van een subject en een tekstprompt, en controleerbare generatie, waarbij het doel is om het model in staat te stellen aanvullende controlesignalen te verwerken. We tonen empirisch aan dat ons OFT-raamwerk bestaande methoden overtreft in generatiekwaliteit en convergentiesnelheid.
Trainingsalgoritmen, in brede zin opgevat, vormen een essentieel onderdeel van elke deep learning-pipeline. Verbeteringen in trainingsalgoritmen die de training versnellen over een breed scala aan workloads (bijvoorbeeld betere update-regels, afstemmingsprotocollen, leercurveschema's of gegevensselectiemethoden) kunnen tijd besparen, rekenbronnen efficiënter benutten en leiden tot betere, nauwkeurigere modellen. Helaas zijn we als gemeenschap momenteel niet in staat om verbeteringen in trainingsalgoritmen betrouwbaar te identificeren, of zelfs maar de state-of-the-art trainingsalgoritmen te bepalen. In dit werk betogen we, aan de hand van concrete experimenten, dat echte vooruitgang in het versnellen van training nieuwe benchmarks vereist die drie fundamentele uitdagingen aanpakken bij empirische vergelijkingen van trainingsalgoritmen: (1) hoe te beslissen wanneer de training voltooid is en de trainingsduur precies te meten, (2) hoe om te gaan met de gevoeligheid van metingen voor specifieke workloaddetails, en (3) hoe algoritmen die hyperparameterafstemming vereisen eerlijk te vergelijken. Om deze uitdagingen aan te pakken, introduceren we een nieuwe, competitieve, tijd-tot-resultaat benchmark met meerdere workloads die op vaste hardware worden uitgevoerd, de AlgoPerf: Training Algorithms benchmark. Onze benchmark omvat een reeks workloadvarianten die het mogelijk maken om inzendingen te detecteren die robuuster zijn tegen workloadveranderingen dan de huidige veelgebruikte methoden. Tot slot evalueren we baseline-inzendingen die zijn opgebouwd met verschillende optimalisatiemethoden die de huidige praktijk vertegenwoordigen, evenals andere optimalisatiemethoden die recentelijk aandacht hebben gekregen in de literatuur. Deze basislijnresultaten tonen gezamenlijk de haalbaarheid van onze benchmark aan, laten zien dat er niet-triviale verschillen tussen methoden bestaan, en stellen een voorlopige state-of-the-art vast die toekomstige benchmarkinzendingen kunnen proberen te overtreffen.
Bestaande grote taalmodellen (LLMs) kunnen alleen vaste invoergroottes verwerken vanwege de invoerlengtebeperking, waardoor ze geen gebruik kunnen maken van rijke langetermijncontextinformatie uit eerdere invoeren. Om dit aan te pakken, stellen we een framework voor, Language Models Augmented with Long-Term Memory (LongMem), dat LLMs in staat stelt om lange geschiedenis te onthouden. We ontwerpen een nieuw ontkoppeld netwerkarchitectuur waarbij het oorspronkelijke backbone LLM bevroren blijft als een geheugencoder en een adaptief residu-zijnetwerk fungeert als een geheugenophaler en -lezer. Zo'n ontkoppeld geheugenontwerp kan eenvoudig langetermijncontexten uit het verleden cachen en bijwerken voor geheugenophaling zonder last te hebben van verouderd geheugen. Versterkt met geheugen-augmented aanpassingstraining kan LongMem dus lange contexten uit het verleden onthouden en langetermijngeheugen gebruiken voor taalmodellering. De voorgestelde geheugenophalingsmodule kan contexten van onbeperkte lengte in zijn geheugenbank verwerken, wat ten goede komt aan verschillende downstreamtaken. Typisch kan LongMem het langetermijngeheugen uitbreiden tot 65k tokens en zo veel-voorbeeld extra demonstratievoorbeelden cachen als langetermijngeheugen voor in-context leren. Experimenten tonen aan dat onze methode sterke lang-contextmodellen overtreft op ChapterBreak, een uitdagende lang-contextmodelleringsbenchmark, en opmerkelijke verbeteringen bereikt op geheugen-augmented in-context leren ten opzichte van LLMs. De resultaten tonen aan dat de voorgestelde methode effectief is in het helpen van taalmodellen om langetermijninhoud te onthouden en te gebruiken. Onze code is open-source beschikbaar op https://aka.ms/LongMem.
We presenteren Face0, een nieuwe methode om een tekst-naar-beeld generatiemodel direct te conditioneren op een gezicht, tijdens de sampletijd, zonder enige optimalisatieprocedures zoals fine-tuning of inversies. We verrijken een dataset van geannoteerde afbeeldingen met embeddings van de aanwezige gezichten en trainen een beeldgeneratiemodel op de verrijkte dataset. Eenmaal getraind, is ons systeem tijdens de inferentie praktisch identiek aan het onderliggende basismodel, en is het daarom in staat om afbeeldingen te genereren, gegeven een door de gebruiker aangeleverd gezichtsbeeld en een prompt, in slechts een paar seconden. Onze methode behaalt bevredigende resultaten, is opmerkelijk eenvoudig, extreem snel, en voorziet het onderliggende model van nieuwe mogelijkheden, zoals het controleren van de gegenereerde afbeeldingen zowel via tekst als via directe manipulatie van de invoergezichtsembeddings. Bovendien, wanneer we een vast willekeurig vector gebruiken in plaats van een gezichtsembedding van een door de gebruiker aangeleverd beeld, lost onze methode in essentie het probleem op van consistente karaktergeneratie over afbeeldingen heen. Tot slot, hoewel verder onderzoek nodig is, hopen we dat onze methode, die de tekstuele vooroordelen van het model ontkoppelt van zijn vooroordelen op gezichten, een stap zou kunnen zijn naar enige vermindering van vooroordelen in toekomstige tekst-naar-beeld modellen.
We introduceren Cap3D, een automatische aanpak voor het genereren van beschrijvende tekst voor 3D-objecten. Deze aanpak maakt gebruik van vooraf getrainde modellen voor beeldbeschrijving, beeld-tekst-uitlijning en LLM (Large Language Models) om bijschriften vanuit meerdere perspectieven van een 3D-asset te consolideren, waardoor het tijdrovende en kostbare proces van handmatige annotatie volledig wordt omzeild. We passen Cap3D toe op de recent geïntroduceerde grootschalige 3D-dataset, Objaverse, wat resulteert in 660k 3D-tekstparen. Onze evaluatie, uitgevoerd met behulp van 41k menselijke annotaties uit dezelfde dataset, toont aan dat Cap3D menselijk geschreven beschrijvingen overtreft op het gebied van kwaliteit, kosten en snelheid. Door effectieve prompt engineering rivaliseert Cap3D menselijke prestaties bij het genereren van geometrische beschrijvingen op basis van 17k verzamelde annotaties uit de ABO-dataset. Tot slot finetunen we Text-to-3D-modellen op Cap3D en menselijke bijschriften, en laten we zien dat Cap3D beter presteert; en benchmarken we de state-of-the-art (SOTA) inclusief Point-E, Shape-E en DreamFusion.
Taalmodellen zijn met succes gebruikt om natuurlijke signalen te modelleren, zoals afbeeldingen, spraak en muziek. Een belangrijk onderdeel van deze modellen is een hoogwaardig neuraal compressiemodel dat hoogdimensionale natuurlijke signalen kan comprimeren tot lagere-dimensionale discrete tokens. Hiertoe introduceren we een hoogwaardig universeel neuraal audiocompressie-algoritme dat een compressie van ~90x bereikt van 44,1 KHz audio naar tokens met slechts 8 kbps bandbreedte. We bereiken dit door vooruitgang in hoogwaardige audiogeneratie te combineren met betere vectorquantisatietechnieken uit het beelddomein, samen met verbeterde adversariële en reconstructieverliezen. We comprimeren alle domeinen (spraak, omgeving, muziek, enz.) met een enkel universeel model, waardoor het breed toepasbaar is voor generatieve modellering van alle audio. We vergelijken ons met concurrerende audiocompressie-algoritmen en constateren dat onze methode hen aanzienlijk overtreft. We bieden grondige ablatiestudies voor elke ontwerpkeuze, evenals open-source code en getrainde modelgewichten. We hopen dat ons werk de basis kan leggen voor de volgende generatie van hoogwaardige audiomodellering.
We identificeren incrementele leer dynamieken in transformers, waarbij het verschil tussen getrainde en initiële gewichten progressief in rang toeneemt. We bewijzen dit rigoureus onder de vereenvoudigende aannames van diagonale gewichtsmatrices en kleine initialisatie. Onze experimenten ondersteunen de theorie en tonen ook aan dat dit fenomeen in de praktijk kan optreden zonder de vereenvoudigende aannames.
Contrastieve beeld-tekstmodellen zoals CLIP vormen de bouwstenen van veel state-of-the-art systemen. Hoewel ze uitblinken in het herkennen van algemene, veelvoorkomende concepten, hebben ze nog steeds moeite met fijnmazige entiteiten die zeldzaam zijn of zelfs ontbreken in de vooraf getrainde dataset. Daarom is een belangrijk ingrediënt voor hun succes het gebruik van grootschalige, zorgvuldig samengestelde vooraf getrainde data, gericht op het uitbreiden van de set concepten die ze kunnen onthouden tijdens de voorafgaande trainingsfase. In dit werk onderzoeken we een alternatief voor het direct coderen van fijnmazige kennis in de parameters van het model: in plaats daarvan trainen we het model om deze kennis op te halen uit een extern geheugen. Specifiek stellen we voor om bestaande visie-tekstmodellen uit te rusten met de mogelijkheid om hun embedding te verfijnen met kruismodale informatie die tijdens de inferentie uit een geheugen wordt opgehaald, wat hun zero-shot voorspellingen aanzienlijk verbetert. Opmerkelijk genoeg laten we zien dat dit kan worden bereikt met een lichtgewicht, enkellaags fusion-transformer bovenop een bevroren CLIP. Onze experimenten valideren dat onze retrieval-enhanced contrastieve (RECO) training de prestaties van CLIP aanzienlijk verbetert op verschillende uitdagende fijnmazige taken: bijvoorbeeld +10,9 op Stanford Cars, +10,2 op CUB-2011 en +7,3 op de recente OVEN-benchmark.
State-of-the-art methoden voor informatie-extractie worden beperkt door OCR-fouten. Ze werken goed voor gedrukte tekst in formulierachtige documenten, maar ongestructureerde, handgeschreven documenten blijven een uitdaging. Het aanpassen van bestaande modellen aan domeinspecifieke trainingsdata is vrij kostbaar, vanwege twee factoren: 1) de beperkte beschikbaarheid van domeinspecifieke documenten (zoals handgeschreven recepten, labnotities, etc.), en 2) annotaties worden nog uitdagender omdat domeinspecifieke kennis nodig is om onleesbare handgeschreven documentafbeeldingen te decoderen. In dit werk richten we ons op het complexe probleem van het extraheren van medicijnnamen uit handgeschreven recepten met alleen zwak gelabelde data. De data bestaat uit afbeeldingen samen met de lijst van medicijnnamen erin, maar niet hun locatie in de afbeelding. We lossen het probleem op door eerst de regio's van belang te identificeren, d.w.z. medicijnregels, alleen op basis van zwakke labels, en vervolgens een domeinspecifiek medicijn-taalmodel in te brengen dat is geleerd met alleen synthetisch gegenereerde data. Vergeleken met standaard state-of-the-art methoden presteert onze aanpak meer dan 2,5x beter in het extraheren van medicijnnamen uit recepten.