HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

11 papers found

OBELICS: Een open, web-schaal gefilterde dataset van interleavende beeld-tekst documenten
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Jun 21

ByHugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh

Grote multimodale modellen die getraind zijn op natuurlijke documenten, waarin afbeeldingen en tekst door elkaar heen lopen, presteren beter dan modellen die getraind zijn op afbeelding-tekstparen in verschillende multimodale benchmarks. De datasets die gebruikt zijn om deze modellen te trainen, zijn echter niet vrijgegeven en het verzamelproces is niet volledig gespecificeerd. Wij introduceren de OBELICS-dataset, een open, web-schaal gefilterde dataset van door elkaar lopende afbeelding-tekstdocumenten, bestaande uit 141 miljoen webpagina's geëxtraheerd uit Common Crawl, 353 miljoen bijbehorende afbeeldingen en 115 miljard teksttokens. We beschrijven het proces van datasetcreatie, presenteren uitgebreide filterregels en bieden een analyse van de inhoud van de dataset. Om de haalbaarheid van OBELICS aan te tonen, trainen we visie- en taalmodellen van 9 en 80 miljard parameters, genaamd IDEFICS, en behalen we competitieve prestaties op verschillende multimodale benchmarks. We geven onze dataset, modellen en code vrij.

One-2-3-45: Elke Afbeelding naar 3D-Mesh in 45 Seconden zonder Per-Vorm Optimalisatie
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

Jun 29

ByMinghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su

3D-reconstructie uit één enkele afbeelding is een belangrijke maar uitdagende taak die uitgebreide kennis van onze natuurlijke wereld vereist. Veel bestaande methoden lossen dit probleem op door een neurale stralingsveld te optimaliseren onder begeleiding van 2D-diffusiemodellen, maar lijden onder lange optimalisatietijden, 3D-inconsistente resultaten en slechte geometrie. In dit werk stellen we een nieuwe methode voor die een enkele afbeelding van een willekeurig object als invoer neemt en een volledige 360-graden 3D-textuurmesh genereert in één enkele voorwaartse doorloop. Gegeven een enkele afbeelding gebruiken we eerst een op het gezichtspunt gebaseerd 2D-diffusiemodel, Zero123, om multi-view afbeeldingen te genereren voor de invoerweergave, en streven we ernaar deze naar de 3D-ruimte te tillen. Omdat traditionele reconstructiemethoden moeite hebben met inconsistente multi-view voorspellingen, bouwen we ons 3D-reconstructiemodule op een SDF-gebaseerde generaliseerbare neurale oppervlakreconstructiemethode en stellen we verschillende cruciale trainingsstrategieën voor om de reconstructie van 360-graden meshes mogelijk te maken. Zonder kostbare optimalisaties reconstrueert onze methode 3D-vormen in aanzienlijk minder tijd dan bestaande methoden. Bovendien levert onze methode betere geometrie op, genereert meer 3D-consistente resultaten en houdt zich nauwer aan de invoerafbeelding. We evalueren onze aanpak op zowel synthetische data als afbeeldingen uit de praktijk en tonen de superioriteit aan in termen van zowel meshkwaliteit als looptijd. Daarnaast kan onze aanpak naadloos de tekst-naar-3D-taak ondersteunen door te integreren met kant-en-klare tekst-naar-afbeelding diffusiemodellen.

DreamDiffusion: Het genereren van hoogwaardige afbeeldingen uit hersen-EEG-signalen
DreamDiffusion: Generating High-Quality Images from Brain EEG Signals

Jun 29

ByYunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan

Dit artikel introduceert DreamDiffusion, een nieuwe methode voor het genereren van hoogwaardige afbeeldingen rechtstreeks uit hersenelektro-encefalogram (EEG) signalen, zonder de noodzaak om gedachten om te zetten in tekst. DreamDiffusion maakt gebruik van vooraf getrainde tekst-naar-afbeelding modellen en past temporeel gemaskeerde signaalmodellering toe om de EEG-encoder vooraf te trainen voor effectieve en robuuste EEG-representaties. Daarnaast maakt de methode gebruik van de CLIP-afbeeldingencoder om extra supervisie te bieden, waardoor EEG-, tekst- en afbeelding-embeddings beter op elkaar worden afgestemd, zelfs bij een beperkt aantal EEG-afbeelding paren. Over het algemeen overwint de voorgestelde methode de uitdagingen van het gebruik van EEG-signalen voor afbeeldingsgeneratie, zoals ruis, beperkte informatie en individuele verschillen, en behaalt veelbelovende resultaten. Kwantitatieve en kwalitatieve resultaten demonstreren de effectiviteit van de voorgestelde methode als een belangrijke stap in de richting van draagbare en kosteneffectieve "gedachten-naar-afbeelding", met potentiële toepassingen in de neurowetenschappen en computervisie.

Genereer Alles Overal in Elke Scene
Generate Anything Anywhere in Any Scene

Jun 29

ByYuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee

Text-to-image diffusiemodellen hebben aanzienlijke belangstelling getrokken vanwege hun brede toepasbaarheid in diverse velden. Er blijven echter uitdagingen bestaan bij het creëren van controleerbare modellen voor gepersonaliseerde objectgeneratie. In dit artikel identificeren we eerst de verstrengelingsproblemen in bestaande gepersonaliseerde generatieve modellen, en stellen vervolgens een eenvoudige en efficiënte data-augmentatietrainingsstrategie voor die het diffusiemodel leidt om zich uitsluitend te richten op objectidentiteit. Door de plug-and-play adapterlagen van een vooraf getraind controleerbaar diffusiemodel in te voegen, verkrijgt ons model de mogelijkheid om de locatie en grootte van elk gegenereerd gepersonaliseerd object te controleren. Tijdens de inferentie stellen we een regionaal geleide samplingtechniek voor om de kwaliteit en trouw van de gegenereerde afbeeldingen te behouden. Onze methode bereikt vergelijkbare of superieure trouw voor gepersonaliseerde objecten, wat resulteert in een robuust, veelzijdig en controleerbaar text-to-image diffusiemodel dat in staat is realistische en gepersonaliseerde afbeeldingen te genereren. Onze aanpak toont aanzienlijk potentieel voor diverse toepassingen, zoals in kunst, entertainment en advertentieontwerp.

Michelangelo: Conditionele 3D-vormgeneratie gebaseerd op vorm-beeld-tekst Uitgelijnde latente representatie
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

Jun 29

ByZibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin Fu, Tao Chen, Gang Yu, Shenghua Gao

We presenteren een nieuwe alignment-voor-generatie aanpak om de uitdagende taak aan te pakken van het genereren van algemene 3D-vormen op basis van 2D-afbeeldingen of teksten. Het direct leren van een conditioneel generatief model van afbeeldingen of teksten naar 3D-vormen is gevoelig voor inconsistente resultaten met de condities, omdat 3D-vormen een extra dimensie hebben waarvan de verdeling aanzienlijk verschilt van die van 2D-afbeeldingen en teksten. Om de domeinkloof tussen de drie modaliteiten te overbruggen en multi-modale-geconditioneerde 3D-vormgeneratie te vergemakkelijken, onderzoeken we het representeren van 3D-vormen in een vorm-afbeelding-tekst-uitgelijnde ruimte. Ons framework bestaat uit twee modellen: een Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) en een conditionele Aligned Shape Latent Diffusion Model (ASLDM). Het eerste model codeert de 3D-vormen in de vormlatente ruimte die is uitgelijnd met de afbeelding en tekst en reconstrueert de fijnmazige 3D neurale velden die corresponderen met gegeven vorm-embeddings via de transformer-gebaseerde decoder. Het tweede model leert een probabilistische afbeelding van de afbeelding- of tekstruimte naar de latente vormruimte. Onze uitgebreide experimenten tonen aan dat onze voorgestelde aanpak hogere kwaliteit en meer diverse 3D-vormen kan genereren die beter semantisch overeenkomen met de visuele of tekstuele conditionele inputs, wat de effectiviteit van de vorm-afbeelding-tekst-uitgelijnde ruimte voor cross-modale 3D-vormgeneratie valideert.

Benchmarken van de mogelijkheden van grote taalmodellen voor conditionele generatie
Benchmarking Large Language Model Capabilities for Conditional Generation

Jun 29

ByJoshua Maynez, Priyanka Agrawal, Sebastian Gehrmann

Voorgetrainde grote taalmodellen (PLMs) vormen de basis van de meeste nieuwe ontwikkelingen in natuurlijke taalverwerking. Ze hebben het veld verschoven van toepassingsspecifieke modelpijplijnen naar een enkel model dat is aangepast aan een breed scala aan taken. Autoregressieve PLMs zoals GPT-3 of PaLM, samen met technieken zoals few-shot learning, hebben bovendien de uitvoermodaliteit verlegd naar generatie in plaats van classificatie of regressie. Ondanks hun alomtegenwoordige gebruik wordt de generatiekwaliteit van taalmodellen zelden geëvalueerd wanneer deze modellen worden geïntroduceerd. Daarnaast is het onduidelijk hoe bestaande generatietaken—hoewel ze kunnen worden gebruikt om systemen op hoog niveau te vergelijken—verband houden met de real-world use cases waarvoor mensen ze hebben geadopteerd. In dit werk bespreken we hoe bestaande toepassingsspecifieke generatiebenchmarks kunnen worden aangepast aan PLMs en bieden we een diepgaande, empirische studie van de beperkingen en mogelijkheden van PLMs in natuurlijke taalgeneratietaken, langs dimensies zoals schaal, architectuur, invoer- en uitvoertaal. Onze resultaten tonen aan dat PLMs verschillen in hun toepasbaarheid op verschillende dataregimes en hun generalisatie naar meerdere talen, en geven aan welke PLMs gebruikt moeten worden voor een gegeven generatietaakopstelling. We delen best practices die in overweging moeten worden genomen bij het benchmarken van generatiecapaciteiten tijdens de ontwikkeling van toekomstige PLMs.

Dynamisch-resolutie model leren voor manipulatie van objectstapels
Dynamic-Resolution Model Learning for Object Pile Manipulation

Jun 29

ByYixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu

Dynamische modellen die zijn geleerd van visuele observaties, hebben hun effectiviteit bewezen in verschillende robotmanipulatietaken. Een van de belangrijkste vragen bij het leren van dergelijke dynamische modellen is welke scène-representatie te gebruiken. Eerdere werken gaan doorgaans uit van een representatie met een vaste dimensie of resolutie, wat inefficiënt kan zijn voor eenvoudige taken en ondoeltreffend voor complexere taken. In dit werk onderzoeken we hoe dynamische en adaptieve representaties op verschillende abstractieniveaus kunnen worden geleerd om de optimale balans tussen efficiëntie en effectiviteit te bereiken. Specifiek construeren we dynamische-resolutie deeltjesrepresentaties van de omgeving en leren we een geïntegreerd dynamisch model met behulp van grafische neurale netwerken (GNN's) dat een continue selectie van het abstractieniveau mogelijk maakt. Tijdens de testfase kan de agent adaptief de optimale resolutie bepalen bij elke stap van model-predictieve controle (MPC). We evalueren onze methode in het manipuleren van objecthopen, een taak die we vaak tegenkomen in toepassingen zoals koken, landbouw, productie en farmaceutica. Door uitgebreide evaluaties zowel in simulatie als in de echte wereld tonen we aan dat onze methode aanzienlijk betere prestaties behaalt dan state-of-the-art basislijnen met vaste resolutie bij het verzamelen, sorteren en herverdelen van granulaire objecthopen gemaakt met verschillende materialen zoals koffiebonen, amandelen, maïs, enz.

BEDLAM: Een synthetische dataset van lichamen die gedetailleerde levensechte geanimeerde bewegingen vertonen
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Jun 29

ByMichael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang

We laten voor het eerst zien dat neurale netwerken die alleen op synthetische data zijn getraind, state-of-the-art nauwkeurigheid bereiken bij het probleem van 3D menselijke pose- en vormschatting (HPS) vanuit echte beelden. Eerdere synthetische datasets waren klein, onrealistisch of misten realistische kleding. Het bereiken van voldoende realisme is niet triviaal, en we laten zien hoe dit te doen voor volledige lichamen in beweging. Specifiek bevat onze BEDLAM-dataset monochrome RGB-video’s met grondwaarheid 3D-lichamen in SMPL-X-formaat. Het omvat een diversiteit aan lichaamsvormen, bewegingen, huidskleuren, haar en kleding. De kleding wordt realistisch gesimuleerd op de bewegende lichamen met behulp van commerciële kledingfysica-simulatie. We renderen verschillende aantallen mensen in realistische scènes met gevarieerde belichting en camerabewegingen. Vervolgens trainen we verschillende HPS-regressoren met BEDLAM en bereiken we state-of-the-art nauwkeurigheid op benchmarks met echte beelden, ondanks de training met synthetische data. We gebruiken BEDLAM om inzicht te krijgen in welke modelontwerpkeuzes belangrijk zijn voor nauwkeurigheid. Met goede synthetische trainingsdata vinden we dat een basismethode zoals HMR de nauwkeurigheid van de huidige SOTA-methode (CLIFF) benadert. BEDLAM is nuttig voor een verscheidenheid aan taken, en alle beelden, grondwaarheid lichamen, 3D-kleding, ondersteunende code en meer zijn beschikbaar voor onderzoeksdoeleinden. Daarnaast bieden we gedetailleerde informatie over onze synthetische data-generatiepipeline, waardoor anderen hun eigen datasets kunnen genereren. Zie de projectpagina: https://bedlam.is.tue.mpg.de/.

NeuralFuse: Leren om de nauwkeurigheid van toegangsbeperkte neurale netwerk inferentie in lage-spanning regimes te verbeteren
NeuralFuse: Learning to Improve the Accuracy of Access-Limited Neural Network Inference in Low-Voltage Regimes

Jun 29

ByHao-Lun Sun, Lei Hsiung, Nandhini Chandramoorthy, Pin-Yu Chen, Tsung-Yi Ho

Diepe neurale netwerken (DNN's) zijn alomtegenwoordig geworden in machine learning, maar hun energieverbruik blijft een opmerkelijk probleem. Het verlagen van de voedingsspanning is een effectieve strategie om het energieverbruik te verminderen. Echter, het agressief verlagen van de voedingsspanning kan leiden tot nauwkeurigheidsverlies door willekeurige bitflips in statisch RAM-geheugen (SRAM), waar modelparameters worden opgeslagen. Om deze uitdaging aan te pakken, introduceren we NeuralFuse, een nieuwe add-on module die de nauwkeurigheid-energie afweging in lage spanningsregimes aanpakt door invoertransformaties te leren om foutbestendige datarepresentaties te genereren. NeuralFuse beschermt de nauwkeurigheid van DNN's in zowel nominale als lage spanningsscenario's. Bovendien is NeuralFuse eenvoudig te implementeren en kan het gemakkelijk worden toegepast op DNN's met beperkte toegang, zoals niet-configureerbare hardware of externe toegang tot cloudgebaseerde API's. Experimentele resultaten tonen aan dat NeuralFuse, bij een bitfoutpercentage van 1%, het SRAM-geheugentoegangsenergieverbruik met tot 24% kan verminderen terwijl de nauwkeurigheid met tot 57% wordt verbeterd. Voor zover wij weten, is dit de eerste model-agnostische benadering (d.w.z. zonder modelhertraining) om bitfouten veroorzaakt door lage spanning aan te pakken. De broncode is beschikbaar op https://github.com/IBM/NeuralFuse.

ArrayBot: Reinforcement Learning voor Generaliseerbare Gedistribueerde Manipulatie via Aanraking
ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch

Jun 29

ByZhengrong Xue, Han Zhang, Jingwen Cheng, Zhengmao He, Yuanchen Ju, Changyi Lin, Gu Zhang, Huazhe Xu

We presenteren ArrayBot, een gedistribueerd manipulatief systeem bestaande uit een 16x16 array van verticaal verschuifbare pijlers, geïntegreerd met tactiele sensoren, die tegelijkertijd tafelobjecten kunnen ondersteunen, waarnemen en manipuleren. Om generaliseerbare gedistribueerde manipulatie te bereiken, maken we gebruik van reinforcement learning (RL) algoritmen voor de automatische ontdekking van controlebeleidsregels. Gezien de massaal redundante acties, stellen we voor om de actieruimte te hervormen door rekening te houden met het ruimtelijk lokale actiepatroon en de laagfrequente acties in het frequentiedomein. Met deze hervormde actieruimte trainen we RL-agents die diverse objecten kunnen verplaatsen uitsluitend op basis van tactiele waarnemingen. Verrassend genoeg ontdekken we dat het gevonden beleid niet alleen kan generaliseren naar onbekende objectvormen in de simulator, maar ook kan worden overgedragen naar de fysieke robot zonder enige domeinrandomisatie. Door gebruik te maken van het geïmplementeerde beleid, presenteren we een overvloed aan real-world manipulatietaken, wat het enorme potentieel van RL op ArrayBot voor gedistribueerde manipulatie illustreert.

Een efficiënte softwareversneller voor sparse inferentie voor transformer-gebaseerde taalmodelen op CPU's
An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs

Jun 28

ByHaihao Shen, Hengyu Meng, Bo Dong, Zhe Wang, Ofir Zafrir, Yi Ding, Yu Luo, Hanwen Chang, Qun Gao, Ziheng Wang, Guy Boudoukh, Moshe Wasserblat

De afgelopen jaren zijn Transformer-gebaseerde taalmodelen de standaardaanpak geworden voor taken binnen natuurlijke taalverwerking. Echter beperken strenge doorvoer- en latentie-eisen in industriële toepassingen hun adoptie. Om deze kloof te verkleinen, worden modelcompressietechnieken zoals gestructureerd snoeien gebruikt om de inferentie-efficiëntie te verbeteren. Toch bieden de meeste bestaande inferentie-runtimes voor neurale netwerken onvoldoende ondersteuning voor gestructureerde sparsity. In dit artikel stellen we een efficiënte sparse deep learning inferentie-softwarestack voor Transformer-gebaseerde taalmodelen voor, waarbij de gewichten worden gesnoeid met een constante blokgrootte. Onze sparse software-accelerator maakt gebruik van Intel Deep Learning Boost om de prestaties van sparse matrix - dense matrix vermenigvuldiging (vaak afgekort als SpMM) op CPU's te maximaliseren. Onze SpMM-kernel overtreft de bestaande sparse bibliotheken (oneMKL, TVM en LIBXSMM) met een orde van grootte op een breed scala aan GEMM-vormen onder 5 representatieve sparsity-ratio's (70%, 75%, 80%, 85%, 90%). Bovendien toont onze SpMM-kernel een versnelling tot 5x ten opzichte van de dense GEMM-kernel van oneDNN, een goed geoptimaliseerde dense bibliotheek die veel wordt gebruikt in de industrie. We passen onze sparse accelerator toe op veelgebruikte Transformer-gebaseerde taalmodelen, waaronder Bert-Mini, DistilBERT, Bert-Base en BERT-Large. Onze sparse inferentie-software toont een versnelling tot 1,5x ten opzichte van Neural Magic's Deepsparse onder dezelfde configuraties op Xeon op Amazon Web Services onder proxy productie latentiebeperkingen. We vergelijken onze oplossing ook met twee framework-gebaseerde inferentie-oplossingen, ONNX Runtime en PyTorch, en demonstreren een versnelling tot 37x ten opzichte van ONNX Runtime en 345x ten opzichte van PyTorch op Xeon onder de latentiebeperkingen. Alle broncode is openbaar beschikbaar op Github: https://github.com/intel/intel-extension-for-transformers.

Een efficiënte softwareversneller voor sparse inferentie voor transformer-gebaseerde taalmodelen op CPU's
An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs

Jun 28

ByHaihao Shen, Hengyu Meng, Bo Dong, Zhe Wang, Ofir Zafrir, Yi Ding, Yu Luo, Hanwen Chang, Qun Gao, Ziheng Wang, Guy Boudoukh, Moshe Wasserblat