Dagelijks geselecteerde AI onderzoekspapers met vertalingen
CLIP is vandaag een van de belangrijkste multimodale fundamentele modellen. Wat drijft de mogelijkheden van CLIP? De rijke toezichtsignalen die worden geleverd door natuurlijke taal, de drager van menselijke kennis, vormen een krachtige cross-modale representatieruimte. Echter, met de snelle vooruitgang in grote taalmodellen (LLM's) zoals GPT-4 en LLaMA, worden de grenzen van taalbegrip en -generatie voortdurend verlegd. Dit roept een intrigerende vraag op: kunnen de mogelijkheden van LLM's worden benut om multimodale representatie-leren verder te verbeteren? De potentiële voordelen van het opnemen van LLM's in CLIP zijn duidelijk. De sterke tekstuele begripsvaardigheden van LLM's kunnen fundamenteel de mogelijkheid van CLIP verbeteren om afbeeldingsbijschriften te verwerken, waardoor de mogelijkheid om lange en complexe teksten te verwerken aanzienlijk wordt verbeterd, een bekende beperking van de standaard CLIP. Bovendien worden LLM's getraind op een uitgebreid corpus van tekst, waarbij ze open-wereldkennis bezitten. Dit stelt hen in staat om bijschriftinformatie uit te breiden tijdens de training, waardoor de efficiëntie van het leerproces wordt verhoogd. In dit artikel stellen we LLM2CLIP voor, een nieuwe benadering die de kracht van LLM's om de potentie van CLIP te ontsluiten omarmt. Door de LLM af te stemmen in de bijschriftruimte met contrastief leren, extraheren we zijn tekstuele mogelijkheden in de uitvoer-embeddings, wat de tekstuele onderscheidbaarheid van de uitvoerlaag aanzienlijk verbetert. Vervolgens ontwerpen we een efficiënt trainingsproces waarbij de afgestemde LLM fungeert als een krachtige leraar voor de visuele encoder van CLIP. Dankzij de aanwezigheid van de LLM kunnen we nu langere en complexere bijschriften opnemen zonder beperkt te worden door de contextvenster- en vermogensbeperkingen van de tekstencoder van de standaard CLIP. Onze experimenten tonen aan dat deze benadering aanzienlijke verbeteringen brengt in cross-modale taken.
Grote taalmodellen (LLM's) hebben indrukwekkende capaciteiten getoond, maar worstelen nog steeds met complexe redeneertaken die meerdere stappen vereisen. Terwijl opdrachtgestuurde methoden zoals Chain-of-Thought (CoT) de redeneervaardigheid van LLM's tijdens inferentie kunnen verbeteren, blijft het optimaliseren van redeneercapaciteiten tijdens training een uitdaging. We introduceren LaTent Reasoning Optimization (LaTRO), een principieel kader dat redeneren formuleert als het monsteren uit een latente distributie en dit optimaliseert via variationale benaderingen. LaTRO stelt LLM's in staat om tegelijkertijd zowel hun redeneerproces als hun vermogen om redeneerkwaliteit te evalueren te verbeteren, zonder externe feedback of beloningsmodellen te vereisen. We valideren LaTRO via experimenten op de GSM8K- en ARC-Challenge-datasets met behulp van meerdere modelarchitecturen. Op GSM8K verbetert LaTRO de zero-shot nauwkeurigheid gemiddeld met 12,5% ten opzichte van basismodellen en met 9,6% ten opzichte van begeleid fine-tunen over Phi-3.5-mini, Mistral-7B en Llama-3.1-8B. Onze bevindingen suggereren dat vooraf getrainde LLM's latente redeneervermogens bezitten die kunnen worden ontsloten en verbeterd via onze voorgestelde optimalisatiebenadering op een zelfverbeterende manier. De code van LaTRO is beschikbaar op https://github.com/SalesforceAIResearch/LaTRO.
Pipeline parallelisme wordt veel gebruikt om de training van op transformers gebaseerde grote taalmodellen te schalen, er zijn verschillende werken uitgevoerd om de doorvoer en geheugenfootprint te verbeteren. In dit artikel behandelen we een vaak over het hoofd gezien probleem: de woordenschatlagen kunnen een onevenwichtige berekening en geheugenverbruik veroorzaken over de verschillende fasen van de pipeline, wat de pipeline-onderbrekingen en het geheugenknelpunt verergert. Om dit aan te pakken, verdelen we de woordenschatlagen gelijkmatig over de pipeline-apparaten en groeperen we de berekening in pipeline-passages. Om de activatiegeheugenoverhead te verminderen, stellen we verschillende algoritmen voor om communicatiebarrières binnen de woordenschatlagen te verminderen. Daarnaast maken we gebruik van een generaliseerbare methode om Woordenschatparallelisme te integreren met bestaande pipeline-schema's. Door deze technieken te combineren, balanceren onze methoden effectief de berekening en parametergeheugen, met slechts een kleine constante activatiegeheugenoverhead. Opmerkelijk is dat, wanneer gecombineerd met activatiegeheugen-gebalanceerde schema's zoals V-Half, onze aanpak een perfecte balans bereikt in zowel geheugen als berekening. Uitgebreide evaluaties tonen aan dat onze methode berekening en geheugenbalans bereikt ongeacht de omvang van de woordenschat, wat resulteert in een verbetering van de doorvoer van 5% tot 51% in vergelijking met naïeve benaderingen, terwijl het piekgebruik van geheugen aanzienlijk wordt verminderd, vooral voor scenario's met een grote woordenschat. Onze implementatie is open source beschikbaar op https://github.com/sail-sg/VocabularyParallelism.
Wij presenteren StdGEN, een innovatieve pipeline voor het genereren van semantisch gedecomposeerde hoogwaardige 3D-personages vanuit enkele afbeeldingen, waardoor brede toepassingen mogelijk zijn in virtual reality, gaming en filmmaken, enz. In tegenstelling tot eerdere methoden die worstelen met beperkte decomposeerbaarheid, onbevredigende kwaliteit en lange optimalisatietijden, biedt StdGEN decomposeerbaarheid, effectiviteit en efficiëntie; d.w.z. het genereert gedetailleerde 3D-personages met afzonderlijke semantische componenten zoals het lichaam, kleding en haar, in drie minuten. In de kern van StdGEN staat ons voorgestelde Semantisch-bewust Groot Reconstructiemodel (S-LRM), een op transformer gebaseerd generaliseerbaar model dat geometrie, kleur en semantiek gezamenlijk reconstrueert vanuit multi-view afbeeldingen op een feed-forward manier. Een differentieerbaar meerlagig semantisch oppervlakte-extractieschema wordt geïntroduceerd om meshes te verkrijgen uit hybride impliciete velden gereconstrueerd door onze S-LRM. Daarnaast zijn een gespecialiseerd efficiënt multi-view diffusiemodel en een iteratieve meerlagige oppervlakteraffineringsmodule geïntegreerd in de pipeline om de generatie van hoogwaardige, decomposeerbare 3D-personages te vergemakkelijken. Uitgebreide experimenten tonen onze state-of-the-art prestaties in 3D-animepersonagegeneratie, waarbij bestaande baselines aanzienlijk worden overtroffen op het gebied van geometrie, textuur en decomposeerbaarheid. StdGEN biedt kant-en-klare semantisch-gedecomposeerde 3D-personages en maakt flexibele aanpassing mogelijk voor een breed scala aan toepassingen. Projectpagina: https://stdgen.github.io
Het verfijnen van grote taalmodellen (LLM's) is essentieel om hun prestaties op specifieke taken te verbeteren, maar is vaak resource-intensief vanwege overbodige of niet-informatieve gegevens. Om deze inefficiëntie aan te pakken, introduceren we DELIFT (Data Efficiënte Taalmodel Instructie Verfijning), een nieuw algoritme dat systematisch de gegevensselectie optimaliseert over de drie belangrijke fasen van verfijning: (1) instructieverfijning, (2) taakspecifieke verfijning (bijv. redeneren, vraagbeantwoording), en (3) voortdurende verfijning (bijv. het opnemen van nieuwe gegevensversies). In tegenstelling tot bestaande methoden die zich richten op optimalisatie in één fase of vertrouwen op rekenintensieve gradiëntberekeningen, werkt DELIFT efficiënt over alle fasen. Centraal in onze aanpak staat een paarsgewijze nutsmetriek die kwantificeert hoe nuttig een gegevensmonster is voor het verbeteren van de reacties van het model op andere monsters, waarbij effectief de informatieve waarde wordt gemeten ten opzichte van de huidige capaciteiten van het model. Door verschillende submodulaire functies toe te passen op deze metriek, selecteert DELIFT diverse en optimale subsets die nuttig zijn in alle fasen van verfijning. Experimenten over verschillende taken en modelgroottes tonen aan dat DELIFT de omvang van de verfijningsgegevens tot wel 70% kan verminderen zonder prestatieverlies, wat aanzienlijke rekenbesparingen oplevert en bestaande methoden overtreft op zowel efficiëntie als effectiviteit.
De opkomst van grote taalmodellen (LLM's) zoals GitHub Copilot heeft aanzienlijk bijgedragen aan de productiviteit van programmeurs, met name op het gebied van codegeneratie. Echter, deze modellen worstelen vaak met taken in de echte wereld zonder fijnafstemming. Naarmate LLM's groter en krachtiger worden, wordt fijnafstemming voor gespecialiseerde taken steeds duurder. Methoden voor parameter-efficiënte fijnafstemming (PEFT), waarbij slechts een subset van modelparameters wordt afgestemd, bieden een veelbelovende oplossing door de computationele kosten van het afstemmen van LLM's te verlagen terwijl hun prestaties behouden blijven. Bestaande studies hebben onderzocht hoe PEFT en LLM's kunnen worden ingezet voor verschillende codegerelateerde taken en hebben vastgesteld dat de effectiviteit van PEFT-technieken afhankelijk is van de taak. Het gebruik van PEFT-technieken voor het genereren van unit tests is nog weinig onderzocht. De stand van de techniek beperkt zich tot het gebruik van LLM's met volledige fijnafstemming om unit tests te genereren. Dit artikel onderzoekt zowel volledige fijnafstemming als verschillende PEFT-methoden, waaronder LoRA, (IA)^3 en prompt-afstemming, over verschillende modelarchitecturen en groottes. We gebruiken goed vastgestelde benchmarkdatasets om hun effectiviteit bij het genereren van unit tests te evalueren. Onze bevindingen tonen aan dat PEFT-methoden prestaties kunnen leveren die vergelijkbaar zijn met volledige fijnafstemming voor het genereren van unit tests, waardoor gespecialiseerde fijnafstemming toegankelijker en kosteneffectiever wordt. Met name prompt-afstemming is het meest effectief wat betreft kosten en gebruik van middelen, terwijl LoRA in verschillende gevallen de effectiviteit van volledige fijnafstemming benadert.
Dit artikel heeft als doel een geïntegreerd Computer-Ondersteund Ontwerp (CAD) generatiesysteem te ontwerpen dat gemakkelijk CAD-modellen kan genereren op basis van de invoer van de gebruiker in de vorm van tekstuele beschrijvingen, afbeeldingen, puntenwolken, of zelfs een combinatie daarvan. Met het oog op dit doel introduceren we de CAD-MLLM, het eerste systeem dat in staat is om parametrische CAD-modellen te genereren die afhankelijk zijn van de multimodale invoer. Binnen het CAD-MLLM-framework maken we specifiek gebruik van de commandosequenties van CAD-modellen en maken we vervolgens gebruik van geavanceerde grote taalmodellen (LLM's) om de kenmerkruimte over deze diverse multimodale gegevens en de gevectoriseerde representaties van CAD-modellen uit te lijnen. Om het modeltrainen te vergemakkelijken, ontwerpen we een uitgebreide gegevensconstructie- en annotatiepijplijn die elk CAD-model uitrust met bijbehorende multimodale gegevens. Ons resulterende dataset, genaamd Omni-CAD, is de eerste multimodale CAD-dataset die tekstuele beschrijvingen, multi-view afbeeldingen, punten en commandosequenties voor elk CAD-model bevat. Het bevat ongeveer 450K exemplaren en hun CAD-constructiesequenties. Om de kwaliteit van onze gegenereerde CAD-modellen grondig te evalueren, gaan we verder dan de huidige evaluatiemetrics die zich richten op reconstructiekwaliteit door aanvullende metrics te introduceren die de topologiekwaliteit en de omvang van de oppervlakte-omsluiting beoordelen. Uitgebreide experimentele resultaten tonen aan dat CAD-MLLM aanzienlijk beter presteert dan bestaande conditionele generatieve methoden en zeer robuust blijft ten opzichte van ruis en ontbrekende punten. De projectpagina en meer visualisaties zijn te vinden op: https://cad-mllm.github.io/
Moderne taalmodellen kunnen inputs verwerken in diverse talen en modaliteiten. We veronderstellen dat modellen deze mogelijkheid verwerven door het leren van een gedeelde representatieruimte over heterogene gegevenstypen (bijv. verschillende talen en modaliteiten), waarbij semantisch vergelijkbare inputs dicht bij elkaar worden geplaatst, zelfs als ze afkomstig zijn uit verschillende modaliteiten/talen. We noemen dit de semantische hub hypothese, naar het hub-en-spoke model uit de neurowetenschappen (Patterson et al., 2007) dat stelt dat semantische kennis in het menselijk brein is georganiseerd via een transmodale semantische "hub" die informatie integreert vanuit verschillende modaliteitsspecifieke "spokes" regio's. We tonen eerst aan dat modelrepresentaties voor semantisch equivalentie inputs in verschillende talen vergelijkbaar zijn in de tussenliggende lagen, en dat deze ruimte kan worden geïnterpreteerd met behulp van de dominante voorafgaande taal van het model via de logit lens. Deze neiging strekt zich uit tot andere gegevenstypen, waaronder rekenkundige uitdrukkingen, code, en visuele/audio inputs. Interventies in de gedeelde representatieruimte in één gegevenstype beïnvloeden ook voorspelbaar de modeluitvoer in andere gegevenstypen, wat suggereert dat deze gedeelde representatieruimte niet eenvoudigweg een overblijfsel is van grootschalige training op brede gegevens, maar iets dat actief wordt gebruikt door het model tijdens de verwerking van inputs.
Fijnafgestemde visie-taalmodellen (VLM's) leggen vaak onbedoelde correlaties vast tussen beeldkenmerken en tekstuele eigenschappen, wat resulteert in verminderde zero-shot prestaties tijdens de testfase. Bestaande benaderingen om onbedoelde correlaties aan te pakken (i) werken voornamelijk op het globale beeldniveau in plaats van direct in te grijpen op fijnkorrelige beeldkenmerken en (ii) zijn voornamelijk ontworpen voor unimodale instellingen. In dit werk presenteren we RaVL, dat een fijnkorrelig perspectief biedt op de robuustheid van VLM's door onbedoelde correlaties te ontdekken en te verminderen met behulp van lokale beeldkenmerken in plaats van te werken op het globale beeldniveau. Gegeven een fijnafgestemd VLM, ontdekt RaVL eerst onbedoelde correlaties door gebruik te maken van een regionaal clusteringbenadering om precieze beeldkenmerken te identificeren die bijdragen aan zero-shot classificatiefouten. Vervolgens vermindert RaVL de geïdentificeerde onbedoelde correlatie met een nieuw regiobewust verliesfunctie die het VLM in staat stelt zich te richten op relevante regio's en onbedoelde relaties te negeren tijdens het fijnafstemmen. We evalueren RaVL op 654 VLM's met verschillende modelarchitecturen, gegevensdomeinen en geleerde onbedoelde correlaties. Onze resultaten tonen aan dat RaVL nauwkeurig onbedoelde correlaties ontdekt (191% verbetering ten opzichte van de dichtstbijzijnde basislijn) en vermindert (8,2% verbetering in de classificatienauwkeurigheid van de slechtste groepsafbeelding). Kwalitatieve evaluaties op VLM's in algemene en medische domeinen bevestigen onze bevindingen.
Technische schuld (TD) is een term die wordt gebruikt om de extra werkzaamheden en kosten te beschrijven die ontstaan wanneer ontwikkelaars hebben gekozen voor een snelle en gemakkelijke oplossing voor een probleem, in plaats van een effectievere en goed ontworpen, maar tijdrovende aanpak. Zelf-toegegeven technische schulden (SATD's) zijn een specifiek type technische schulden die ontwikkelaars opzettelijk documenteren en erkennen, meestal via tekstuele opmerkingen. Hoewel deze zelf-toegegeven opmerkingen een nuttig hulpmiddel zijn voor het identificeren van technische schulden, richten de meeste bestaande benaderingen zich op het vastleggen van cruciale tokens die verband houden met verschillende categorieën van TD, waarbij de rijke informatie die in de broncode zelf is ingebed, wordt verwaarloosd. Recente onderzoeken hebben zich gericht op het detecteren van SATD's door opmerkingen in de broncode te analyseren, en er is weinig werk verricht met betrekking tot technische schulden die in de broncode zijn opgenomen. Om een dergelijke lacune op te vullen, hebben we in deze studie, door de analyse van opmerkingen en hun bijbehorende broncode uit 974 Java-projecten gehost in het Stack-corpus, het allereerste dataset van TD samengesteld dat is geïdentificeerd aan de hand van code-opmerkingen, gekoppeld aan de bijbehorende broncode. Uit een empirische evaluatie bleek dat de opmerkingen van het resulterende dataset de voorspellingsprestaties van state-of-the-art SATD-detectiemodellen helpen verbeteren. Belangrijker nog, het opnemen van de geclassificeerde broncode verbetert aanzienlijk de nauwkeurigheid bij het voorspellen van verschillende soorten technische schuld. In dit opzicht is ons werk tweeledig: (i) We geloven dat ons dataset toekomstig werk op dit gebied zal stimuleren, waarbij verschillende onderzoeksproblemen met betrekking tot de herkenning van technische schuld worden geïnspireerd; (ii) De voorgestelde classificatoren kunnen dienen als baselines voor andere studies over de detectie van TD aan de hand van het samengestelde dataset.