Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) onderscheiden zich door hun enorme aantal parameters, wat doorgaans leidt tot aanzienlijke redundantie. Dit werk introduceert MaskLLM, een leerbare snoeimethode die Semi-gestructureerde (of "N:M") Spaarzaamheid in LLM's tot stand brengt, met als doel de rekenkundige overhead tijdens inferentie te verminderen. In plaats van een nieuwe belangrijkheidscriterium te ontwikkelen, modelleert MaskLLM N:M-patronen expliciet als een leerzame distributie via Gumbel Softmax-sampling. Deze benadering vergemakkelijkt end-to-end training op grootschalige datasets en biedt twee opmerkelijke voordelen: 1) Hoogwaardige Maskers - onze methode schaalt effectief naar grote datasets en leert nauwkeurige maskers; 2) Overdraagbaarheid - het probabilistisch modelleren van maskerdistributie maakt de transfer van spaarzaamheid tussen domeinen of taken mogelijk. We hebben MaskLLM geëvalueerd met 2:4 spaarzaamheid op verschillende LLM's, waaronder LLaMA-2, Nemotron-4 en GPT-3, met groottes variërend van 843M tot 15B parameters, en onze empirische resultaten tonen aanzienlijke verbeteringen ten opzichte van state-of-the-art methoden. Bijvoorbeeld, toonaangevende benaderingen behalen een perplexiteit (PPL) van 10 of meer op Wikitext in vergelijking met de 5.12 PPL van het dichte model, maar MaskLLM behaalt een aanzienlijk lagere 6.72 PPL alleen door de maskers met bevroren gewichten te leren. Bovendien maakt de leerbaarheid van MaskLLM aangepaste maskers mogelijk voor verliesloze toepassing van 2:4 spaarzaamheid op downstreamtaken of domeinen. De code is beschikbaar op https://github.com/NVlabs/MaskLLM.
GPT-4o, een omni-modulair model dat vocale gesprekken met diverse emoties en tonen mogelijk maakt, markeert een mijlpaal voor omni-modulaire basismodellen. Het blijft echter uitdagend om Grote Taalmodellen in staat te stellen afbeeldingen, teksten en spraak volledig end-to-end te begrijpen en te genereren met publiekelijk beschikbare gegevens in de open-source gemeenschap. Bestaande visie-taalmodellen vertrouwen op externe tools voor de spraakverwerking, terwijl spraak-taalmodellen nog steeds lijden onder beperkte of zelfs afwezige visiebegripsvaardigheden. Om dit hiaat aan te pakken, stellen we EMOVA (EMotioneel Omni-aanwezige Stemassistent) voor, om Grote Taalmodellen in staat te stellen end-to-end spraakmogelijkheden te hebben terwijl de toonaangevende visie-taalprestaties behouden blijven. Met een semantische-akoestische ontkoppelde spraaktokenizer merken we verrassend op dat omni-modulaire afstemming de visie-taal- en spraakvaardigheden verder kan verbeteren in vergelijking met de overeenkomstige bi-modale afgestemde tegenhangers. Bovendien wordt een lichtgewicht stijlmodule voorgesteld voor flexibele spraakstijlcontroles (bijv. emoties en toonhoogtes). Voor het eerst behaalt EMOVA state-of-the-art prestaties op zowel de visie-taal- als spraakbenchmarks, en ondersteunt tegelijkertijd omni-modulaire gesproken dialogen met levendige emoties.
Recente ontwikkelingen in Grote Multimodale Modellen (LMM's) hebben hun bekwaamheid in 2D visuele begripstaken aanzienlijk verbeterd, waardoor ze effectief afbeeldingen en video's kunnen verwerken en begrijpen. Echter, de ontwikkeling van LMM's met 3D-bewustzijn voor het begrijpen van 3D-scènes is belemmerd door het gebrek aan grootschalige 3D vision-language datasets en krachtige 3D encoders. In dit artikel introduceren we een eenvoudig maar effectief framework genaamd LLaVA-3D. Door gebruik te maken van de sterke 2D begripsprioriteiten van LLaVA, past onze LLaVA-3D LLaVA efficiënt aan voor het begrijpen van 3D-scènes zonder de 2D begripsmogelijkheden in gevaar te brengen. Om dit te bereiken, maken we gebruik van een eenvoudige maar effectieve representatie, 3D Patch, die 2D CLIP patch kenmerken verbindt met hun overeenkomstige posities in 3D-ruimte. Door de 3D Patches te integreren in 2D LMM's en gezamenlijke 2D en 3D vision-language instructieafstemming toe te passen, vestigen we een verenigde architectuur voor zowel 2D beeldbegrip als 3D scènebegrip. Experimentele resultaten tonen aan dat LLaVA-3D 3,5x sneller convergeert dan bestaande 3D LMM's wanneer getraind op 3D vision-language datasets. Bovendien behaalt LLaVA-3D niet alleen state-of-the-art prestaties op verschillende 3D taken, maar behoudt het ook vergelijkbare 2D beeldbegrip- en vision-language gespreksmogelijkheden met LLaVA.
Het benutten van de visuele voorkennis van vooraf getrainde tekst-naar-afbeelding diffusiemodellen biedt een veelbelovende oplossing om nul-shot generalisatie te verbeteren bij dichte voorspelingstaken. Echter maken bestaande methoden vaak kritiekloos gebruik van de oorspronkelijke diffusieformulering, die mogelijk niet optimaal is vanwege de fundamentele verschillen tussen dichte voorspelling en beeldgeneratie. In dit artikel bieden we een systematische analyse van de diffusieformulering voor dichte voorspelling, met de focus op zowel kwaliteit als efficiëntie. We constateren dat het oorspronkelijke parameterisatietype voor beeldgeneratie, dat leert ruis te voorspellen, schadelijk is voor dichte voorspelling; het meerstaps ruisen/ruisverwijderingsdiffusieproces is ook onnodig en uitdagend om te optimaliseren. Op basis van deze inzichten introduceren we Lotus, een diffusiegebaseerd visueel basismodel met een eenvoudig maar effectief aanpassingsprotocol voor dichte voorspelling. Specifiek wordt Lotus getraind om rechtstreeks annotaties te voorspellen in plaats van ruis, waardoor schadelijke variantie wordt vermeden. We hervormen ook het diffusieproces tot een eenstapsprocedure, wat optimalisatie vereenvoudigt en de inferentiesnelheid aanzienlijk verhoogt. Daarnaast introduceren we een nieuwe afstemmingsstrategie genaamd 'detail preserver', die nauwkeurigere en gedetailleerdere voorspellingen oplevert. Zonder de trainingsgegevens of modelcapaciteit op te schalen, behaalt Lotus state-of-the-art prestaties in nul-shot diepte- en normaalschatting over verschillende datasets. Het verbetert ook aanzienlijk de efficiëntie, aangezien het honderden malen sneller is dan de meeste bestaande diffusiegebaseerde methoden.
Instructieafstemming betekent doorgaans het finetunen van een taalmodel op instructie-antwoordparen. We ontdekken twee vormen van aanpassing (afstemming) die tekortschieten in vergelijking met instructieafstemming, maar toch instructieopvolging opleveren; we noemen dit impliciete instructieafstemming. We vinden eerst dat instructie-antwoordparen niet noodzakelijk zijn: training uitsluitend op antwoorden, zonder bijbehorende instructies, leidt tot instructieopvolging. Dit suggereert dat vooraf getrainde modellen een instructie-antwoordafbeelding hebben die wordt onthuld door het model de gewenste verdeling van antwoorden bij te brengen. Echter, we vinden vervolgens dat het niet nodig is om de gewenste verdeling van antwoorden bij te brengen: instructie-antwoordtraining op smal domeingegevens zoals poëzie leidt nog steeds tot brede instructieopvolgingsgedrag zoals receptengeneratie. In het bijzonder, wanneer instructies heel verschillend zijn van die in het smalle finetuningdomein, voldoen de reacties van modellen niet aan de stijl van het finetuningdomein. Om impliciete instructieafstemming te verklaren, hypothetiseren we dat zeer eenvoudige veranderingen in de distributie van een taalmodel instructieopvolging opleveren. We ondersteunen dit door een op regels gebaseerd taalmodel met de hand te schrijven dat instructieopvolging oplevert in een product-van-experts met een vooraf getraind model. De regels zijn om langzaam de waarschijnlijkheid van het beëindigen van de sequentie te verhogen, herhaling te bestraffen, en uniform de waarschijnlijkheden van 15 woorden te veranderen. Samengevat, aanpassingen die worden gemaakt zonder te zijn ontworpen om instructieopvolging op te leveren, kunnen dit impliciet doen.
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten aangetoond in het verwerken van lange contextuele invoer, maar dit gaat gepaard met een toename van rekenkracht en latentie. Ons onderzoek introduceert een nieuw benadering voor het versnellen van LLM-inferentie en het verminderen van GPU-geheugenverbruik door de lange context bottleneck aan te pakken. Ons onderzoek toont aan dat LLM's relevante tokens kunnen identificeren in de vroege lagen voordat ze antwoorden op een query genereren. Door gebruik te maken van deze inzichten stellen we een algoritme voor dat de vroege lagen van een LLM gebruikt als filters om invoertokens te selecteren en comprimeren, waardoor de contextlengte aanzienlijk wordt verminderd voor verdere verwerking. Onze methode, GemFilter, toont aanzienlijke verbeteringen in zowel snelheid als geheugenefficiëntie in vergelijking met bestaande technieken, zoals standaard aandacht en SnapKV/H2O. Opmerkelijk is dat het een 2,4 keer snellere verwerkingssnelheid behaalt en 30% minder GPU-geheugen gebruikt in vergelijking met SOTA-methoden. Evaluatie van de Naald in een Hooiberg-taak toont aan dat GemFilter aanzienlijk beter presteert dan standaard aandacht, SnapKV en vergelijkbare prestaties levert op de LongBench-uitdaging. GemFilter is eenvoudig, vereist geen training en is breed toepasbaar op verschillende LLM's. Belangrijk is dat het interpretatie biedt door mensen in staat te stellen de geselecteerde invoersequentie te inspecteren. Deze bevindingen bieden niet alleen praktische voordelen voor de implementatie van LLM's, maar verbeteren ook ons begrip van de interne mechanismen van LLM's, waardoor verdere optimalisaties in LLM-ontwerp en inferentie mogelijk worden. Onze code is beschikbaar op https://github.com/SalesforceAIResearch/GemFilter.
Latente diffusiemodellen (LDM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van beeldgeneratie. Een belangrijk voordeel van LDM's is hun vermogen om te werken in een gecomprimeerde latente ruimte, wat zorgt voor efficiëntere training en implementatie. Ondanks deze voordelen blijven er echter uitdagingen bestaan bij LDM's. Zo is waargenomen dat LDM's vaak hoogfrequente details en complexe composities onvolmaakt genereren. We veronderstellen dat een reden voor deze tekortkomingen is dat al het voor- en na-trainen van LDM's wordt uitgevoerd in de latente ruimte, die doorgaans 8 keer 8 lagere ruimtelijke resolutie heeft dan de uitvoerbeelden. Om dit probleem aan te pakken, stellen we voor om pixelruimte supervisie toe te voegen in het na-trainingsproces om hoogfrequente details beter te behouden. Experimenteel tonen we aan dat het toevoegen van een pixelruimte objectief aanzienlijk zowel de kwaliteit van supervisie fine-tuning als voorkeursgebaseerde na-training verbetert met een grote marge op een toonaangevend DiT-transformator- en U-Net-diffusiemodellen, zowel in visuele kwaliteit als visuele foutmetrieken, terwijl de kwaliteit van de tekstuitlijning gelijk blijft.
In het tijdperk van grote taalmodellen (LLM's) zal er dankzij de snelle ontwikkeling van taal-UI een enorme hoeveelheid gesprekslogs worden verzameld. Conversatieanalyse (CA) streeft ernaar om cruciale informatie uit gespreksgegevens te onthullen en te analyseren, waardoor handmatige processen worden gestroomlijnd en zakelijke inzichten en besluitvorming worden ondersteund. De behoefte van CA om bruikbare inzichten te extraheren en empowerment te stimuleren wordt steeds prominenter en trekt brede aandacht. Echter, het ontbreken van een duidelijk afgebakend kader voor CA leidt tot een versnippering van verschillende technieken, waardoor het moeilijk wordt om een systematische technische synergie te vormen om zakelijke toepassingen te versterken. In dit artikel voeren we een grondige review uit en systematiseren we de CA-taak om het bestaande gerelateerde werk samen te vatten. Specifiek definiëren we formeel de CA-taak om de gefragmenteerde en chaotische situatie in dit vakgebied aan te pakken, en leiden we vier kernstappen van CA af, van reconstructie van gespreksscènes, tot diepgaande attributieanalyse, en vervolgens tot het uitvoeren van gerichte training, om uiteindelijk gesprekken te genereren op basis van de gerichte training om specifieke doelen te bereiken. Daarnaast presenteren we relevante benchmarks, bespreken potentiële uitdagingen en wijzen op toekomstige richtingen in zowel de industrie als de academische wereld. Gezien de huidige ontwikkelingen is het duidelijk dat de meerderheid van de inspanningen nog steeds gericht is op de analyse van oppervlakkige gesprekselementen, wat een aanzienlijke kloof creëert tussen onderzoek en bedrijfsleven, en met behulp van LLM's toont recent werk een trend naar onderzoek naar causaliteit en strategische taken die geavanceerd en hoog-niveau zijn. De geanalyseerde ervaringen en inzichten zullen ongetwijfeld een bredere toepassingswaarde hebben in bedrijfsactiviteiten die gericht zijn op gesprekslogs.
We presenteren Disco4D, een nieuw Gaussisch Splatting-framework voor 4D menselijke generatie en animatie vanuit een enkele afbeelding. In tegenstelling tot bestaande methoden, ontrafelt Disco4D op een onderscheidende manier kleding (met Gaussische modellen) van het menselijk lichaam (met het SMPL-X model), wat aanzienlijk de generatiedetails en flexibiliteit verbetert. Het heeft de volgende technische innovaties. 1) Disco4D leert om de kleding Gaussiërs efficiënt over de SMPL-X Gaussiërs te passen. 2) Het maakt gebruik van diffusiemodellen om het 3D generatieproces te verbeteren, bijvoorbeeld door het modelleren van verduisterde delen die niet zichtbaar zijn in de invoerafbeelding. 3) Het leert een identiteitscodering voor elke kleding Gaussiër om de scheiding en extractie van kledingstukken te vergemakkelijken. Bovendien ondersteunt Disco4D op een natuurlijke wijze 4D menselijke animatie met levendige dynamiek. Uitgebreide experimenten tonen de superioriteit van Disco4D aan op het gebied van 4D menselijke generatie en animatietaken. Onze visualisaties zijn te vinden op https://disco-4d.github.io/.
In de afgelopen jaren zijn multi-vector ophaalmethoden, aangevoerd door ColBERT, een steeds populairdere benadering geworden voor neurale IR. Door representaties op tokenniveau op te slaan in plaats van op documentniveau, hebben deze methoden een zeer sterke ophaalprestatie aangetoond, vooral in out-of-domain instellingen. De opslag- en geheugenvereisten die nodig zijn om het grote aantal bijbehorende vectoren op te slaan, blijven echter een belangrijk nadeel, waardoor praktische adoptie wordt belemmerd. In dit artikel introduceren we een eenvoudige op clustering gebaseerde token-poolingbenadering om agressief het aantal vectoren dat moet worden opgeslagen te verminderen. Met deze methode kan de ruimte- en geheugenfootprint van ColBERT-indexen met 50% worden verminderd met vrijwel geen degradatie van de ophaalprestatie. Deze methode maakt ook verdere verminderingen mogelijk, waarbij het aantal vectoren met 66% tot 75% wordt verminderd, waarbij de degradatie op de meeste datasets onder de 5% blijft. Belangrijk is dat deze benadering geen architecturale wijziging of verwerkingstijd van query's vereist en kan worden gebruikt als een eenvoudige plug-in tijdens indexering met elk ColBERT-achtig model.
Mensen kunnen leren om nieuwe objecten te manipuleren door eenvoudigweg anderen te observeren; het geven van robots de mogelijkheid om te leren van dergelijke demonstraties zou een natuurlijke interface mogelijk maken voor het specificeren van nieuwe gedragingen. Dit werk ontwikkelt Robot See Robot Do (RSRD), een methode voor het imiteren van gearticuleerde objectmanipulatie vanuit een enkele monoculaire RGB-menselijke demonstratie gegeven een enkele statische multi-view objectscan. We stellen eerst 4D Differentieerbare Deelmodellen (4D-DPM) voor, een methode voor het herstellen van 3D-deelbeweging vanuit een monoculaire video met differentieerbare rendering. Deze analyse-op-synthese benadering maakt gebruik van deelcentrische kenmerkvelden in een iteratieve optimalisatie die het gebruik van geometrische regularisatoren mogelijk maakt om 3D-bewegingen te herstellen vanuit slechts een enkele video. Gegeven deze 4D-reconstructie, bootst de robot objecttrajecten na door bimanuele arm bewegingen te plannen die de gedemonstreerde deelbeweging van het object veroorzaken. Door demonstraties voor te stellen als deelcentrische trajecten, richt RSRD zich op het repliceren van het beoogde gedrag van de demonstratie terwijl het rekening houdt met de eigen morfologische beperkingen van de robot, in plaats van te proberen de beweging van de hand te reproduceren. We evalueren de 3D-trackingnauwkeurigheid van 4D-DPM op grondwaarheid geannoteerde 3D-deeltrajecten en de fysieke uitvoeringsprestaties van RSRD op 9 objecten over 10 pogingen elk op een bimanuele YuMi-robot. Elke fase van RSRD behaalt een gemiddeld succespercentage van 87%, voor een totaal eind-tot-eind succespercentage van 60% over 90 pogingen. Opmerkelijk is dat dit wordt bereikt met alleen kenmerkvelden gedistilleerd uit grote voorgeleerde visiemodellen - zonder enige taakspecifieke training, fijnafstemming, datasetverzameling of annotatie. Projectpagina: https://robot-see-robot-do.github.io
Het extraheren van betekenisvolle inzichten uit grote en complexe datasets brengt aanzienlijke uitdagingen met zich mee, met name op het gebied van het waarborgen van de nauwkeurigheid en relevantie van opgehaalde informatie. Traditionele methoden voor gegevensopvraging zoals sequentiële zoekopdrachten en op indexen gebaseerde opvraging falen vaak bij het verwerken van ingewikkelde en onderling verbonden gegevensstructuren, wat resulteert in onvolledige of misleidende resultaten. Om deze beperkingen te overwinnen, introduceren we Structured-GraphRAG, een veelzijdig raamwerk dat is ontworpen om informatieopvraging te verbeteren over gestructureerde datasets bij natuurlijke taal zoekopdrachten. Structured-GraphRAG maakt gebruik van meerdere kennisgrafieken, die gegevens op een gestructureerde manier weergeven en complexe relaties tussen entiteiten vastleggen, waardoor een meer genuanceerde en uitgebreide opvraging van informatie mogelijk is. Deze op grafieken gebaseerde benadering vermindert het risico op fouten in de uitvoer van taalmodellen door reacties te baseren op een gestructureerd formaat, waardoor de betrouwbaarheid van de resultaten wordt verbeterd. We tonen de effectiviteit van Structured-GraphRAG aan door de prestaties te vergelijken met die van een recent gepubliceerde methode die traditionele opvraging-gebaseerde generatie gebruikt. Onze bevindingen tonen aan dat Structured-GraphRAG de verwerkingsefficiëntie van zoekopdrachten aanzienlijk verbetert en de responstijden verkort. Hoewel onze casestudy zich richt op voetbalgegevens, is het ontwerp van het raamwerk breed toepasbaar, en biedt het een krachtig instrument voor gegevensanalyse en het verbeteren van toepassingen van taalmodellen over verschillende gestructureerde domeinen.