Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote multimodale modellen die getraind zijn op natuurlijke documenten, waarin afbeeldingen en tekst door elkaar heen lopen, presteren beter dan modellen die getraind zijn op afbeelding-tekstparen in verschillende multimodale benchmarks. De datasets die gebruikt zijn om deze modellen te trainen, zijn echter niet vrijgegeven en het verzamelproces is niet volledig gespecificeerd. Wij introduceren de OBELICS-dataset, een open, web-schaal gefilterde dataset van door elkaar lopende afbeelding-tekstdocumenten, bestaande uit 141 miljoen webpagina's geëxtraheerd uit Common Crawl, 353 miljoen bijbehorende afbeeldingen en 115 miljard teksttokens. We beschrijven het proces van datasetcreatie, presenteren uitgebreide filterregels en bieden een analyse van de inhoud van de dataset. Om de haalbaarheid van OBELICS aan te tonen, trainen we visie- en taalmodellen van 9 en 80 miljard parameters, genaamd IDEFICS, en behalen we competitieve prestaties op verschillende multimodale benchmarks. We geven onze dataset, modellen en code vrij.
3D-reconstructie uit één enkele afbeelding is een belangrijke maar uitdagende taak die uitgebreide kennis van onze natuurlijke wereld vereist. Veel bestaande methoden lossen dit probleem op door een neurale stralingsveld te optimaliseren onder begeleiding van 2D-diffusiemodellen, maar lijden onder lange optimalisatietijden, 3D-inconsistente resultaten en slechte geometrie. In dit werk stellen we een nieuwe methode voor die een enkele afbeelding van een willekeurig object als invoer neemt en een volledige 360-graden 3D-textuurmesh genereert in één enkele voorwaartse doorloop. Gegeven een enkele afbeelding gebruiken we eerst een op het gezichtspunt gebaseerd 2D-diffusiemodel, Zero123, om multi-view afbeeldingen te genereren voor de invoerweergave, en streven we ernaar deze naar de 3D-ruimte te tillen. Omdat traditionele reconstructiemethoden moeite hebben met inconsistente multi-view voorspellingen, bouwen we ons 3D-reconstructiemodule op een SDF-gebaseerde generaliseerbare neurale oppervlakreconstructiemethode en stellen we verschillende cruciale trainingsstrategieën voor om de reconstructie van 360-graden meshes mogelijk te maken. Zonder kostbare optimalisaties reconstrueert onze methode 3D-vormen in aanzienlijk minder tijd dan bestaande methoden. Bovendien levert onze methode betere geometrie op, genereert meer 3D-consistente resultaten en houdt zich nauwer aan de invoerafbeelding. We evalueren onze aanpak op zowel synthetische data als afbeeldingen uit de praktijk en tonen de superioriteit aan in termen van zowel meshkwaliteit als looptijd. Daarnaast kan onze aanpak naadloos de tekst-naar-3D-taak ondersteunen door te integreren met kant-en-klare tekst-naar-afbeelding diffusiemodellen.
Dit artikel introduceert DreamDiffusion, een nieuwe methode voor het genereren van hoogwaardige afbeeldingen rechtstreeks uit hersenelektro-encefalogram (EEG) signalen, zonder de noodzaak om gedachten om te zetten in tekst. DreamDiffusion maakt gebruik van vooraf getrainde tekst-naar-afbeelding modellen en past temporeel gemaskeerde signaalmodellering toe om de EEG-encoder vooraf te trainen voor effectieve en robuuste EEG-representaties. Daarnaast maakt de methode gebruik van de CLIP-afbeeldingencoder om extra supervisie te bieden, waardoor EEG-, tekst- en afbeelding-embeddings beter op elkaar worden afgestemd, zelfs bij een beperkt aantal EEG-afbeelding paren. Over het algemeen overwint de voorgestelde methode de uitdagingen van het gebruik van EEG-signalen voor afbeeldingsgeneratie, zoals ruis, beperkte informatie en individuele verschillen, en behaalt veelbelovende resultaten. Kwantitatieve en kwalitatieve resultaten demonstreren de effectiviteit van de voorgestelde methode als een belangrijke stap in de richting van draagbare en kosteneffectieve "gedachten-naar-afbeelding", met potentiële toepassingen in de neurowetenschappen en computervisie.
Text-to-image diffusiemodellen hebben aanzienlijke belangstelling getrokken vanwege hun brede toepasbaarheid in diverse velden. Er blijven echter uitdagingen bestaan bij het creëren van controleerbare modellen voor gepersonaliseerde objectgeneratie. In dit artikel identificeren we eerst de verstrengelingsproblemen in bestaande gepersonaliseerde generatieve modellen, en stellen vervolgens een eenvoudige en efficiënte data-augmentatietrainingsstrategie voor die het diffusiemodel leidt om zich uitsluitend te richten op objectidentiteit. Door de plug-and-play adapterlagen van een vooraf getraind controleerbaar diffusiemodel in te voegen, verkrijgt ons model de mogelijkheid om de locatie en grootte van elk gegenereerd gepersonaliseerd object te controleren. Tijdens de inferentie stellen we een regionaal geleide samplingtechniek voor om de kwaliteit en trouw van de gegenereerde afbeeldingen te behouden. Onze methode bereikt vergelijkbare of superieure trouw voor gepersonaliseerde objecten, wat resulteert in een robuust, veelzijdig en controleerbaar text-to-image diffusiemodel dat in staat is realistische en gepersonaliseerde afbeeldingen te genereren. Onze aanpak toont aanzienlijk potentieel voor diverse toepassingen, zoals in kunst, entertainment en advertentieontwerp.
We presenteren een nieuwe alignment-voor-generatie aanpak om de uitdagende taak aan te pakken van het genereren van algemene 3D-vormen op basis van 2D-afbeeldingen of teksten. Het direct leren van een conditioneel generatief model van afbeeldingen of teksten naar 3D-vormen is gevoelig voor inconsistente resultaten met de condities, omdat 3D-vormen een extra dimensie hebben waarvan de verdeling aanzienlijk verschilt van die van 2D-afbeeldingen en teksten. Om de domeinkloof tussen de drie modaliteiten te overbruggen en multi-modale-geconditioneerde 3D-vormgeneratie te vergemakkelijken, onderzoeken we het representeren van 3D-vormen in een vorm-afbeelding-tekst-uitgelijnde ruimte. Ons framework bestaat uit twee modellen: een Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) en een conditionele Aligned Shape Latent Diffusion Model (ASLDM). Het eerste model codeert de 3D-vormen in de vormlatente ruimte die is uitgelijnd met de afbeelding en tekst en reconstrueert de fijnmazige 3D neurale velden die corresponderen met gegeven vorm-embeddings via de transformer-gebaseerde decoder. Het tweede model leert een probabilistische afbeelding van de afbeelding- of tekstruimte naar de latente vormruimte. Onze uitgebreide experimenten tonen aan dat onze voorgestelde aanpak hogere kwaliteit en meer diverse 3D-vormen kan genereren die beter semantisch overeenkomen met de visuele of tekstuele conditionele inputs, wat de effectiviteit van de vorm-afbeelding-tekst-uitgelijnde ruimte voor cross-modale 3D-vormgeneratie valideert.
Voorgetrainde grote taalmodellen (PLMs) vormen de basis van de meeste nieuwe ontwikkelingen in natuurlijke taalverwerking. Ze hebben het veld verschoven van toepassingsspecifieke modelpijplijnen naar een enkel model dat is aangepast aan een breed scala aan taken. Autoregressieve PLMs zoals GPT-3 of PaLM, samen met technieken zoals few-shot learning, hebben bovendien de uitvoermodaliteit verlegd naar generatie in plaats van classificatie of regressie. Ondanks hun alomtegenwoordige gebruik wordt de generatiekwaliteit van taalmodellen zelden geëvalueerd wanneer deze modellen worden geïntroduceerd. Daarnaast is het onduidelijk hoe bestaande generatietaken—hoewel ze kunnen worden gebruikt om systemen op hoog niveau te vergelijken—verband houden met de real-world use cases waarvoor mensen ze hebben geadopteerd. In dit werk bespreken we hoe bestaande toepassingsspecifieke generatiebenchmarks kunnen worden aangepast aan PLMs en bieden we een diepgaande, empirische studie van de beperkingen en mogelijkheden van PLMs in natuurlijke taalgeneratietaken, langs dimensies zoals schaal, architectuur, invoer- en uitvoertaal. Onze resultaten tonen aan dat PLMs verschillen in hun toepasbaarheid op verschillende dataregimes en hun generalisatie naar meerdere talen, en geven aan welke PLMs gebruikt moeten worden voor een gegeven generatietaakopstelling. We delen best practices die in overweging moeten worden genomen bij het benchmarken van generatiecapaciteiten tijdens de ontwikkeling van toekomstige PLMs.
Dynamische modellen die zijn geleerd van visuele observaties, hebben hun effectiviteit bewezen in verschillende robotmanipulatietaken. Een van de belangrijkste vragen bij het leren van dergelijke dynamische modellen is welke scène-representatie te gebruiken. Eerdere werken gaan doorgaans uit van een representatie met een vaste dimensie of resolutie, wat inefficiënt kan zijn voor eenvoudige taken en ondoeltreffend voor complexere taken. In dit werk onderzoeken we hoe dynamische en adaptieve representaties op verschillende abstractieniveaus kunnen worden geleerd om de optimale balans tussen efficiëntie en effectiviteit te bereiken. Specifiek construeren we dynamische-resolutie deeltjesrepresentaties van de omgeving en leren we een geïntegreerd dynamisch model met behulp van grafische neurale netwerken (GNN's) dat een continue selectie van het abstractieniveau mogelijk maakt. Tijdens de testfase kan de agent adaptief de optimale resolutie bepalen bij elke stap van model-predictieve controle (MPC). We evalueren onze methode in het manipuleren van objecthopen, een taak die we vaak tegenkomen in toepassingen zoals koken, landbouw, productie en farmaceutica. Door uitgebreide evaluaties zowel in simulatie als in de echte wereld tonen we aan dat onze methode aanzienlijk betere prestaties behaalt dan state-of-the-art basislijnen met vaste resolutie bij het verzamelen, sorteren en herverdelen van granulaire objecthopen gemaakt met verschillende materialen zoals koffiebonen, amandelen, maïs, enz.
We laten voor het eerst zien dat neurale netwerken die alleen op synthetische data zijn getraind, state-of-the-art nauwkeurigheid bereiken bij het probleem van 3D menselijke pose- en vormschatting (HPS) vanuit echte beelden. Eerdere synthetische datasets waren klein, onrealistisch of misten realistische kleding. Het bereiken van voldoende realisme is niet triviaal, en we laten zien hoe dit te doen voor volledige lichamen in beweging. Specifiek bevat onze BEDLAM-dataset monochrome RGB-video’s met grondwaarheid 3D-lichamen in SMPL-X-formaat. Het omvat een diversiteit aan lichaamsvormen, bewegingen, huidskleuren, haar en kleding. De kleding wordt realistisch gesimuleerd op de bewegende lichamen met behulp van commerciële kledingfysica-simulatie. We renderen verschillende aantallen mensen in realistische scènes met gevarieerde belichting en camerabewegingen. Vervolgens trainen we verschillende HPS-regressoren met BEDLAM en bereiken we state-of-the-art nauwkeurigheid op benchmarks met echte beelden, ondanks de training met synthetische data. We gebruiken BEDLAM om inzicht te krijgen in welke modelontwerpkeuzes belangrijk zijn voor nauwkeurigheid. Met goede synthetische trainingsdata vinden we dat een basismethode zoals HMR de nauwkeurigheid van de huidige SOTA-methode (CLIFF) benadert. BEDLAM is nuttig voor een verscheidenheid aan taken, en alle beelden, grondwaarheid lichamen, 3D-kleding, ondersteunende code en meer zijn beschikbaar voor onderzoeksdoeleinden. Daarnaast bieden we gedetailleerde informatie over onze synthetische data-generatiepipeline, waardoor anderen hun eigen datasets kunnen genereren. Zie de projectpagina: https://bedlam.is.tue.mpg.de/.
Diepe neurale netwerken (DNN's) zijn alomtegenwoordig geworden in machine learning, maar hun energieverbruik blijft een opmerkelijk probleem. Het verlagen van de voedingsspanning is een effectieve strategie om het energieverbruik te verminderen. Echter, het agressief verlagen van de voedingsspanning kan leiden tot nauwkeurigheidsverlies door willekeurige bitflips in statisch RAM-geheugen (SRAM), waar modelparameters worden opgeslagen. Om deze uitdaging aan te pakken, introduceren we NeuralFuse, een nieuwe add-on module die de nauwkeurigheid-energie afweging in lage spanningsregimes aanpakt door invoertransformaties te leren om foutbestendige datarepresentaties te genereren. NeuralFuse beschermt de nauwkeurigheid van DNN's in zowel nominale als lage spanningsscenario's. Bovendien is NeuralFuse eenvoudig te implementeren en kan het gemakkelijk worden toegepast op DNN's met beperkte toegang, zoals niet-configureerbare hardware of externe toegang tot cloudgebaseerde API's. Experimentele resultaten tonen aan dat NeuralFuse, bij een bitfoutpercentage van 1%, het SRAM-geheugentoegangsenergieverbruik met tot 24% kan verminderen terwijl de nauwkeurigheid met tot 57% wordt verbeterd. Voor zover wij weten, is dit de eerste model-agnostische benadering (d.w.z. zonder modelhertraining) om bitfouten veroorzaakt door lage spanning aan te pakken. De broncode is beschikbaar op https://github.com/IBM/NeuralFuse.
We presenteren ArrayBot, een gedistribueerd manipulatief systeem bestaande uit een 16x16 array van verticaal verschuifbare pijlers, geïntegreerd met tactiele sensoren, die tegelijkertijd tafelobjecten kunnen ondersteunen, waarnemen en manipuleren. Om generaliseerbare gedistribueerde manipulatie te bereiken, maken we gebruik van reinforcement learning (RL) algoritmen voor de automatische ontdekking van controlebeleidsregels. Gezien de massaal redundante acties, stellen we voor om de actieruimte te hervormen door rekening te houden met het ruimtelijk lokale actiepatroon en de laagfrequente acties in het frequentiedomein. Met deze hervormde actieruimte trainen we RL-agents die diverse objecten kunnen verplaatsen uitsluitend op basis van tactiele waarnemingen. Verrassend genoeg ontdekken we dat het gevonden beleid niet alleen kan generaliseren naar onbekende objectvormen in de simulator, maar ook kan worden overgedragen naar de fysieke robot zonder enige domeinrandomisatie. Door gebruik te maken van het geïmplementeerde beleid, presenteren we een overvloed aan real-world manipulatietaken, wat het enorme potentieel van RL op ArrayBot voor gedistribueerde manipulatie illustreert.
De afgelopen jaren zijn Transformer-gebaseerde taalmodelen de standaardaanpak geworden voor taken binnen natuurlijke taalverwerking. Echter beperken strenge doorvoer- en latentie-eisen in industriële toepassingen hun adoptie. Om deze kloof te verkleinen, worden modelcompressietechnieken zoals gestructureerd snoeien gebruikt om de inferentie-efficiëntie te verbeteren. Toch bieden de meeste bestaande inferentie-runtimes voor neurale netwerken onvoldoende ondersteuning voor gestructureerde sparsity. In dit artikel stellen we een efficiënte sparse deep learning inferentie-softwarestack voor Transformer-gebaseerde taalmodelen voor, waarbij de gewichten worden gesnoeid met een constante blokgrootte. Onze sparse software-accelerator maakt gebruik van Intel Deep Learning Boost om de prestaties van sparse matrix - dense matrix vermenigvuldiging (vaak afgekort als SpMM) op CPU's te maximaliseren. Onze SpMM-kernel overtreft de bestaande sparse bibliotheken (oneMKL, TVM en LIBXSMM) met een orde van grootte op een breed scala aan GEMM-vormen onder 5 representatieve sparsity-ratio's (70%, 75%, 80%, 85%, 90%). Bovendien toont onze SpMM-kernel een versnelling tot 5x ten opzichte van de dense GEMM-kernel van oneDNN, een goed geoptimaliseerde dense bibliotheek die veel wordt gebruikt in de industrie. We passen onze sparse accelerator toe op veelgebruikte Transformer-gebaseerde taalmodelen, waaronder Bert-Mini, DistilBERT, Bert-Base en BERT-Large. Onze sparse inferentie-software toont een versnelling tot 1,5x ten opzichte van Neural Magic's Deepsparse onder dezelfde configuraties op Xeon op Amazon Web Services onder proxy productie latentiebeperkingen. We vergelijken onze oplossing ook met twee framework-gebaseerde inferentie-oplossingen, ONNX Runtime en PyTorch, en demonstreren een versnelling tot 37x ten opzichte van ONNX Runtime en 345x ten opzichte van PyTorch op Xeon onder de latentiebeperkingen. Alle broncode is openbaar beschikbaar op Github: https://github.com/intel/intel-extension-for-transformers.