Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De snelle ontwikkeling van grote taalmodel(len) heeft een revolutie teweeggebracht in code-intelligentie binnen softwareontwikkeling. Het overwicht van closed-source modellen heeft echter uitgebreid onderzoek en ontwikkeling beperkt. Om dit aan te pakken, introduceren we de DeepSeek-Coder-serie, een reeks open-source codemodellen met groottes van 1,3B tot 33B, getraind vanaf nul op 2 biljoen tokens. Deze modellen zijn voorgetraind op een hoogwaardig projectniveau codecorpus en maken gebruik van een invul-taak met een venster van 16K om codegeneratie en -invulling te verbeteren. Onze uitgebreide evaluaties tonen aan dat DeepSeek-Coder niet alleen state-of-the-art prestaties behaalt onder open-source codemodellen op meerdere benchmarks, maar ook bestaande closed-source modellen zoals Codex en GPT-3.5 overtreft. Bovendien vallen de DeepSeek-Coder-modellen onder een permissieve licentie die zowel onderzoek als onbeperkt commercieel gebruik mogelijk maakt.
Naarmate online winkelen groeit, is het vermogen van kopers om producten virtueel in hun omgeving te visualiseren - een fenomeen dat we definiëren als "Virtual Try-All" - van cruciaal belang geworden. Recente diffusiemodellen bevatten van nature een wereldmodel, waardoor ze geschikt zijn voor deze taak binnen een inpainting-context. Traditionele beeld-geconditioneerde diffusiemodellen slagen er echter vaak niet in om de fijne details van producten vast te leggen. Daarentegen zijn personalisatie-gedreven modellen zoals DreamPaint goed in het behouden van de details van het item, maar zijn ze niet geoptimaliseerd voor realtime toepassingen. Wij presenteren "Diffuse to Choose", een nieuw diffusie-gebaseerd beeld-geconditioneerd inpainting-model dat efficiënt een snelle inferentie balanceert met het behoud van hoogwaardige details in een gegeven referentie-item, terwijl het nauwkeurige semantische manipulaties in de gegeven scène-inhoud waarborgt. Onze aanpak is gebaseerd op het integreren van fijnmazige kenmerken uit de referentie-afbeelding rechtstreeks in de latente kenmerkkaarten van het hoofd-diffusiemodel, samen met een perceptueel verlies om de details van het referentie-item verder te behouden. We voeren uitgebreide tests uit op zowel interne als publiekelijk beschikbare datasets, en tonen aan dat Diffuse to Choose superieur is aan bestaande zero-shot diffusie-inpainting-methoden, evenals few-shot diffusie-personalisatie-algoritmen zoals DreamPaint.
In dit werk onderzoeken we opnieuw de afhankelijkheden tussen patches in het decodeermechanisme van gemaskeerde autoencoders (MAE). We ontleden dit decodeermechanisme voor de reconstructie van gemaskeerde patches in MAE in zelf-attentie en kruis-attentie. Onze bevindingen suggereren dat zelf-attentie tussen gemaskeerde patches niet essentieel is voor het leren van goede representaties. Daarom stellen we een nieuw pretrainingsframework voor: Cross-Attention Masked Autoencoders (CrossMAE). Het decoder van CrossMAE maakt alleen gebruik van kruis-attentie tussen gemaskeerde en zichtbare tokens, zonder verlies in downstreamprestaties. Dit ontwerp maakt het ook mogelijk om slechts een kleine subset van gemaskeerde tokens te decoderen, wat de efficiëntie verhoogt. Bovendien kan elk decoderblok nu verschillende encoderfeatures benutten, wat resulteert in verbeterd representatie leren. CrossMAE evenaart de prestaties van MAE met 2,5 tot 3,7 keer minder decodeerrekenkracht. Het overtreft ook MAE op ImageNet-classificatie en COCO-instancesegmentatie onder dezelfde rekenkracht. Code en modellen: https://crossmae.github.io
In het dynamische landschap van generatieve NLP beperken traditionele tekstverwerkingspijplijnen de onderzoeksflexibiliteit en reproduceerbaarheid, omdat ze zijn afgestemd op specifieke dataset-, taak- en modelcombinaties. De toenemende complexiteit, met systeemprompts, modelspecifieke formaten, instructies en meer, vraagt om een verschuiving naar een gestructureerde, modulaire en aanpasbare oplossing. Om aan deze behoefte tegemoet te komen, presenteren we Unitxt, een innovatieve bibliotheek voor aanpasbare tekstuele gegevensvoorbereiding en evaluatie, afgestemd op generatieve taalmodelen. Unitxt integreert naadloos met veelgebruikte bibliotheken zoals HuggingFace en LM-eval-harness en ontleedt verwerkingsstromen in modulaire componenten, waardoor eenvoudige aanpassing en uitwisseling tussen praktijkmensen mogelijk wordt. Deze componenten omvatten modelspecifieke formaten, taakprompts en vele andere uitgebreide datasetverwerkingsdefinities. De Unitxt-Catalogus centraliseert deze componenten, wat samenwerking en exploratie in moderne tekstuele gegevensworkflows bevordert. Unitxt is meer dan alleen een tool; het is een door de gemeenschap gedreven platform dat gebruikers in staat stelt om hun pijplijnen gezamenlijk te bouwen, te delen en verder te ontwikkelen. Sluit je aan bij de Unitxt-gemeenschap op https://github.com/IBM/unitxt!
Zes-bits kwantisatie (FP6) kan effectief de grootte van grote taalmodellen (LLM's) verkleinen en de modelkwaliteit consistent behouden over diverse toepassingen. Echter, bestaande systemen bieden geen Tensor Core-ondersteuning voor FP6-kwantisatie en hebben moeite om praktische prestatieverbeteringen te bereiken tijdens LLM-inferentie. Het ondersteunen van FP6-kwantisatie op GPU's is uitdagend vanwege (1) onvriendelijke geheugentoegang van modelgewichten met onregelmatige bitbreedte en (2) hoge runtime-overhead van gewichts-dekwantisatie. Om deze problemen aan te pakken, stellen we TC-FPx voor, het eerste full-stack GPU-kernelontwerpschema met geïntegreerde Tensor Core-ondersteuning voor floating-point gewichten met verschillende kwantisatie-bitbreedtes. We integreren de TC-FPx-kernel in een bestaand inferentiesysteem, waardoor nieuwe end-to-end ondersteuning (genaamd FP6-LLM) voor gekwantiseerde LLM-inferentie wordt geboden, waarbij betere afwegingen tussen inferentiekosten en modelkwaliteit worden bereikt. Experimenten tonen aan dat FP6-LLM de inferentie van LLaMA-70b mogelijk maakt met slechts één GPU, waarbij een 1,69x-2,65x hogere genormaliseerde inferentiedoorvoer wordt bereikt dan de FP16-basislijn. De broncode zal binnenkort publiekelijk beschikbaar zijn.
In dit onderzoek bestuderen we de representatieleervaardigheden van Denoising Diffusion Models (DDM) die oorspronkelijk zijn ontwikkeld voor beeldgeneratie. Onze filosofie is om een DDM te deconstrueren en deze geleidelijk om te vormen tot een klassieke Denoising Autoencoder (DAE). Deze deconstructieve procedure stelt ons in staat te onderzoeken hoe verschillende componenten van moderne DDMs zelfsupervised representatie leren beïnvloeden. We observeren dat slechts een zeer beperkt aantal moderne componenten cruciaal zijn voor het leren van goede representaties, terwijl vele andere niet essentieel zijn. Onze studie komt uiteindelijk uit op een benadering die sterk vereenvoudigd is en in grote mate lijkt op een klassieke DAE. We hopen dat ons onderzoek de interesse zal hernieuwen in een familie van klassieke methoden binnen het domein van modern zelfsupervised leren.
Wij stellen voor om transformers van een specifieke modaliteit te verbeteren met irrelevante gegevens van andere modaliteiten, bijvoorbeeld een ImageNet-model te verbeteren met audio- of pointclouddatasets. Wij willen benadrukken dat de gegevensmonsters van de doelmodaliteit irrelevant zijn voor de andere modaliteiten, wat onze methode onderscheidt van andere werken die gebruikmaken van gepaarde (bijvoorbeeld CLIP) of verweven gegevens van verschillende modaliteiten. Wij stellen een methodologie voor genaamd Multimodal Pathway - gegeven een doelmodaliteit en een transformer die daarvoor is ontworpen, gebruiken wij een hulptransformer die is getraind met gegevens van een andere modaliteit en construeren wij paden om componenten van de twee modellen te verbinden, zodat gegevens van de doelmodaliteit door beide modellen kunnen worden verwerkt. Op deze manier benutten wij de universele sequence-to-sequence modelleervaardigheden van transformers die zijn verkregen uit twee modaliteiten. Als concrete implementatie gebruiken wij een modaliteitsspecifieke tokenizer en een taakspecifieke head zoals gebruikelijk, maar benutten wij de transformerblokken van het hulpmodel via een voorgestelde methode genaamd Cross-Modal Re-parameterization, die de hulpgewichten benut zonder enige inferentiekosten. Bij de taken voor beeld-, pointcloud-, video- en audioherkenning observeren wij significante en consistente prestatieverbeteringen met irrelevante gegevens van andere modaliteiten. De code en modellen zijn beschikbaar op https://github.com/AILab-CVC/M2PT.
We introduceren pix2gestalt, een raamwerk voor zero-shot amodale segmentatie, dat leert om de vorm en het uiterlijk van hele objecten te schatten die slechts gedeeltelijk zichtbaar zijn achter occlusies. Door gebruik te maken van grootschalige diffusiemodellen en hun representaties over te dragen naar deze taak, leren we een conditioneel diffusiemodel voor het reconstrueren van hele objecten in uitdagende zero-shot gevallen, inclusief voorbeelden die natuurlijke en fysieke aannames doorbreken, zoals kunst. Als trainingsdata gebruiken we een synthetisch samengestelde dataset die occluded objecten bevat, gekoppeld aan hun volledige tegenhangers. Experimenten tonen aan dat onze aanpak supervised baseline-methoden overtreft op gevestigde benchmarks. Ons model kan bovendien worden gebruikt om de prestaties van bestaande objectherkenning- en 3D-reconstructiemethoden aanzienlijk te verbeteren in de aanwezigheid van occlusies.
Het inzetten van robots in open, ongestructureerde omgevingen zoals woningen is een langlopend onderzoeksprobleem. Echter worden robots vaak alleen bestudeerd in afgesloten laboratoriumomgevingen, en eerder werk op het gebied van mobiele manipulatie is beperkt tot het oppakken, verplaatsen en neerzetten van objecten, wat slechts het topje van de ijsberg is in dit onderzoeksgebied. In dit artikel introduceren we het Open-World Mobile Manipulation System, een volledige aanpak om realistische bediening van gearticuleerde objecten aan te pakken, zoals echte deuren, kasten, lades en koelkasten in open, ongestructureerde omgevingen. De robot maakt gebruik van een adaptief leerframework om aanvankelijk te leren van een kleine dataset via gedragsklonering, gevolgd door leren door online oefening op nieuwe objecten die buiten de trainingsdistributie vallen. We ontwikkelen ook een goedkoop hardwareplatform voor mobiele manipulatie dat in staat is tot veilige en autonome online aanpassing in ongestructureerde omgevingen, met een kostenplaatje van ongeveer 20.000 USD. In onze experimenten maken we gebruik van 20 gearticuleerde objecten verspreid over 4 gebouwen op de CMU-campus. Met minder dan een uur online leren voor elk object, is het systeem in staat om het slagingspercentage te verhogen van 50% bij pre-training via gedragsklonering naar 95% door gebruik te maken van online aanpassing. Videoresultaten zijn te vinden op https://open-world-mobilemanip.github.io/.
Het gebrek aan hoogwaardige data voor taken in inhoudsgebaseerde generatie is geïdentificeerd als een belangrijk obstakel voor de vooruitgang van deze taken. Om dit gat te dichten, stellen we Genie voor, een nieuwe methode voor het automatisch genereren van hoogwaardige inhoudsgebaseerde data. Deze bestaat uit drie fasen: (a) Inhoudsvoorbereiding, (b) Generatie: het creëren van taakspecifieke voorbeelden uit de inhoud (bijv. vraag-antwoordparen of samenvattingen). (c) Een filtermechanisme dat gericht is op het waarborgen van de kwaliteit en betrouwbaarheid van de gegenereerde data. We demonstreren deze methodologie door drie grootschalige synthetische datasets te genereren, gericht op Long-Form Question-Answering (LFQA), samenvatting en informatie-extractie. In een menselijke evaluatie werd onze gegenereerde data als natuurlijk en van hoge kwaliteit beoordeeld. Bovendien vergelijken we modellen die getraind zijn op onze data met modellen die getraind zijn op door mensen geschreven data — ELI5 en ASQA voor LFQA en CNN-DailyMail voor samenvatting. We tonen aan dat onze modellen gelijkwaardig zijn aan of beter presteren dan modellen die getraind zijn op door mensen gegenereerde data, en consistent beter presteren in betrouwbaarheid. Tot slot hebben we onze methode toegepast om LFQA-data binnen het medische domein te creëren en vergeleken we een model dat hierop getraind is met modellen die getraind zijn op andere domeinen.