Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Transfusion, een methode voor het trainen van een multimodaal model op discrete en continue data. Transfusion combineert de taalmodelleringsverliesfunctie (voorspelling van het volgende token) met diffusie om een enkele transformer te trainen op gemengde-modaliteitsequenties. We pretrainen meerdere Transfusion-modellen tot 7B parameters vanaf nul op een mix van tekst- en beelddata, waarbij we schaalwetten vaststellen ten opzichte van verschillende uni- en cross-modale benchmarks. Onze experimenten tonen aan dat Transfusion aanzienlijk beter schaalt dan het kwantiseren van afbeeldingen en het trainen van een taalmodel op discrete beeldtokens. Door het introduceren van modaliteit-specifieke encoder- en decoderlagen kunnen we de prestaties van Transfusion-modellen verder verbeteren, en zelfs elke afbeelding comprimeren tot slechts 16 patches. We demonstreren verder dat het opschalen van onze Transfusion-methode naar 7B parameters en 2T multimodale tokens een model oplevert dat afbeeldingen en tekst kan genereren op hetzelfde niveau als vergelijkbare schaaldiffusiemodellen en taalmodel, waardoor de voordelen van beide werelden worden benut.
Recente vooruitgang in Large Language Models (LLM's) heeft de interpretatie en verwerking van tabelgegevens aanzienlijk verbeterd, waarbij voorheen ondenkbare mogelijkheden zijn geïntroduceerd. Ondanks deze prestaties, ondervinden LLM's nog steeds aanzienlijke uitdagingen wanneer ze worden toegepast in industriële scenario's, met name vanwege de toegenomen complexiteit van redeneren die vereist is bij real-world tabelgegevens, wat een opmerkelijk verschil tussen academische benchmarks en praktische toepassingen benadrukt. Om dit verschil aan te pakken, voeren we een gedetailleerd onderzoek uit naar de toepassing van tabelgegevens in industriële scenario's en stellen we een uitgebreide en complexe benchmark voor, TableBench, die 18 vakgebieden omvat binnen vier hoofdcategorieën van tabelvraagbeantwoordingsmogelijkheden (TableQA). Bovendien introduceren we TableLLM, getraind op onze zorgvuldig samengestelde trainingsset TableInstruct, dat vergelijkbare prestaties behaalt met GPT-3.5. Uitgebreide experimenten uitgevoerd op TableBench geven aan dat zowel open-source als propriëtaire LLM's nog aanzienlijke ruimte voor verbetering hebben om aan de eisen van de echte wereld te voldoen, waarbij het meest geavanceerde model, GPT-4, slechts een bescheiden score behaalt in vergelijking met mensen.
Het opnemen van code in de mix van pre-trainingsdata, zelfs voor modellen die niet specifiek zijn ontworpen voor code, is een gangbare praktijk geworden bij het pre-trainen van grote taalmodellen (LLMs). Hoewel er onder praktijkmensen anekdotisch consensus bestaat dat codedata een cruciale rol speelt in de prestaties van algemene LLMs, is er slechts beperkt onderzoek gedaan naar de precieze impact van code op taken die niet met code te maken hebben. In dit werk onderzoeken we systematisch de impact van codedata op de algemene prestaties. We stellen de vraag: "Wat is de impact van codedata die wordt gebruikt tijdens het pre-trainen op een grote verscheidenheid aan downstream-taken buiten codegeneratie?" We voeren uitgebreide ablatie-experimenten uit en evalueren over een breed scala aan taken, waaronder redeneertaken in natuurlijke taal, taken over wereldkennis, codebenchmarks en winpercentages van LLM-als-rechter voor modellen met een grootte variërend van 470M tot 2,8B parameters. In alle settings vinden we consistente resultaten die aantonen dat code een cruciaal bouwsteen is voor generalisatie die ver reikt buiten codetaken, en dat verbeteringen in codekwaliteit een onevenredig grote impact hebben op alle taken. In het bijzonder resulteert de toevoeging van code, vergeleken met pre-trainen op alleen tekst, in een relatieve toename van tot wel 8,2% in redeneren in natuurlijke taal (NL), 4,2% in wereldkennis, 6,6% verbetering in generatieve winpercentages, en een 12-voudige boost in codeprestaties. Ons werk suggereert dat investeringen in codekwaliteit en het behouden van code tijdens het pre-trainen positieve effecten hebben.
We stellen voor om patchrepresentaties over verschillende views te sorteren als een nieuwe zelfgesuperviseerde leerinspanning om voorgetrainde representaties te verbeteren. Hiertoe introduceren we NeCo: Patch Neighbor Consistency, een nieuwe trainingsloss die patch-level nearest neighbor consistentie afdwingt tussen een student- en een teacher-model, ten opzichte van referentiebatchjes. Onze methode maakt gebruik van een differentieerbare sorteermethode die wordt toegepast op voorgetrainde representaties, zoals DINOv2-registers, om het leersignaal te versterken en deze verder te verbeteren. Deze dichte post-pretraining resulteert in superieure prestaties over verschillende modellen en datasets, ondanks dat slechts 19 uur op een enkele GPU vereist is. We tonen aan dat deze methode hoogwaardige dichte feature-encoders genereert en stellen verschillende nieuwe state-of-the-art resultaten vast: +5,5% en +6% voor niet-parametrische in-context semantische segmentatie op ADE20k en Pascal VOC, en +7,2% en +5,7% voor lineaire segmentatie-evaluaties op COCO-Things en -Stuff.
Diffusiemodellen zijn naar voren gekomen als koplopers in tekst-naar-beeldgeneratie vanwege hun indrukwekkende mogelijkheden. Desalniettemin leidt hun vaste beeldresolutie tijdens de training vaak tot uitdagingen bij het genereren van hoge-resolutiebeelden, zoals semantische onnauwkeurigheden en objectreplicatie. Dit artikel introduceert MegaFusion, een nieuwe aanpak die bestaande diffusiegebaseerde tekst-naar-beeldgeneratiemodellen uitbreidt naar efficiënte hogere-resolutiegeneratie zonder aanvullende fine-tuning of extra aanpassing. Specifiek gebruiken we een innovatieve truncate-and-relay-strategie om de denoisingsprocessen over verschillende resoluties te verbinden, waardoor hoge-resolutiebeeldgeneratie op een grof-naar-fijne manier mogelijk wordt. Bovendien passen we de prioriteiten van het model aan voor hogere resolutie door het integreren van gedilateerde convoluties en ruisherplanning. De veelzijdigheid en effectiviteit van MegaFusion maken het universeel toepasbaar op zowel latent-space- als pixel-space-diffusiemodellen, evenals op andere afgeleide modellen. Uitgebreide experimenten bevestigen dat MegaFusion de mogelijkheden van bestaande modellen aanzienlijk versterkt om beelden van megapixels en verschillende beeldverhoudingen te produceren, terwijl slechts ongeveer 40% van de oorspronkelijke rekenkosten nodig is.
Grote Taalmodellen (LLMs) worden steeds vaker ingezet in toepassingen met lange contexten, zoals interactieve chatbots, documentanalyse en agentworkflows, maar het is een uitdaging om verzoeken met lange contexten te verwerken met lage latentie en hoge doorvoer. Speculatief decoderen (SD) is een veelgebruikte techniek om latentie te verminderen zonder in te leveren op prestaties, maar de conventionele wijsheid suggereert dat de effectiviteit ervan beperkt is tot kleine batchgroottes. In MagicDec laten we zien dat SD verrassend genoeg zelfs in een regime met hoge doorvoer voor inferentie een versnelling kan bereiken voor matig tot lange sequenties. Nog interessanter is dat een intelligente ontwerpstrategie een betere versnelling kan bereiken bij toenemende batchgrootte, gebaseerd op onze grondige analyse. MagicDec identificeert eerst de knelpunten die verschuiven bij toenemende batchgrootte en sequentielengte, en gebruikt deze inzichten om speculatief decoderen effectiever in te zetten voor inferentie met hoge doorvoer. Vervolgens maakt het gebruik van ontwerpmodellen met een sparse KV-cache om het KV-knelpunt aan te pakken dat schaalt met zowel sequentielengte als batchgrootte.
In het huidige tijdperk, waarin grote taalmodellen (LLMs) zijn geïntegreerd in talloze real-world toepassingen, is het waarborgen van hun veiligheid en robuustheid cruciaal voor verantwoord AI-gebruik. Geautomatiseerde red-teaming methoden spelen hierbij een sleutelrol door het genereren van adversariële aanvallen om potentiële kwetsbaarheden in deze modellen te identificeren en te mitigeren. Bestaande methoden kampen echter vaak met trage prestaties, beperkte categorische diversiteit en hoge resource-eisen. Hoewel Rainbow Teaming, een recente aanpak, de diversiteitsuitdaging aanpakt door adversariële promptgeneratie te formuleren als een kwaliteit-diversiteit zoekopdracht, blijft het traag en vereist het een grote fijn afgestelde mutator voor optimale prestaties. Om deze beperkingen te overwinnen, stellen we Ferret voor, een nieuwe aanpak die voortbouwt op Rainbow Teaming door meerdere adversariële promptmutaties per iteratie te genereren en een scoringsfunctie te gebruiken om de meest effectieve adversariële prompt te rangschikken en te selecteren. We onderzoeken verschillende scoringsfuncties, waaronder beloningsmodellen, Llama Guard en LLM-as-a-judge, om adversariële mutaties te rangschikken op basis van hun potentiële schade om de efficiëntie van de zoektocht naar schadelijke mutaties te verbeteren. Onze resultaten tonen aan dat Ferret, met behulp van een beloningsmodel als scoringsfunctie, het algehele aanvalssuccespercentage (ASR) verbetert tot 95%, wat 46% hoger is dan Rainbow Teaming. Bovendien reduceert Ferret de benodigde tijd om een 90% ASR te bereiken met 15,2% vergeleken met de baseline en genereert het adversariële prompts die overdraagbaar zijn, d.w.z. effectief op andere LLMs van grotere omvang. Onze codes zijn beschikbaar op https://github.com/declare-lab/ferret.
De snelle vooruitgang van tekst-naar-beeldgeneratiesystemen, geïllustreerd door modellen zoals Stable Diffusion, Midjourney, Imagen en DALL-E, heeft de zorgen over hun mogelijke misbruik vergroot. Als reactie hierop hebben bedrijven zoals Meta en Google hun inspanningen geïntensiveerd om watermerktechnieken toe te passen op AI-gegenereerde afbeeldingen, om de verspreiding van potentieel misleidende beelden te beperken. In dit artikel betogen wij echter dat de huidige methoden voor beeldwatermerken kwetsbaar zijn en gemakkelijk kunnen worden omzeild door middel van visuele parafrase-aanvallen. De voorgestelde visuele parafraseerder werkt in twee stappen. Ten eerste genereert het een bijschrift voor de gegeven afbeelding met behulp van KOSMOS-2, een van de nieuwste state-of-the-art beeldbeschrijvingssystemen. Ten tweede geeft het zowel de originele afbeelding als het gegenereerde bijschrift door aan een beeld-naar-beeld diffussiesysteem. Tijdens de denoising-stap van de diffusiepijplijn genereert het systeem een visueel vergelijkbare afbeelding die wordt geleid door het tekstbijschrift. De resulterende afbeelding is een visuele parafrase en bevat geen watermerken. Onze empirische bevindingen tonen aan dat visuele parafrase-aanvallen effectief watermerken uit afbeeldingen kunnen verwijderen. Dit artikel biedt een kritische evaluatie en onthult empirisch de kwetsbaarheid van bestaande watermerktechnieken voor visuele parafrase-aanvallen. Hoewel wij geen oplossingen voor dit probleem voorstellen, dient dit artikel als een oproep aan de wetenschappelijke gemeenschap om de ontwikkeling van robuustere watermerktechnieken te prioriteren. Onze eerste-in-zijn-soort dataset voor visuele parafrases en de bijbehorende code zijn publiekelijk beschikbaar.
Transformer-gebaseerde grote taalmodellen (LLMs) vertonen beperkingen, zoals het genereren van onveilige reacties, onbetrouwbare redeneringen, enz. Bestaande interventiebenaderingen tijdens inferentie proberen deze problemen te verminderen door aanvullende modellen te finetunen om kalibratiesignalen (zoals beloningen) te produceren die het decodeerproces van het LLM begeleiden. Deze oplossing introduceert echter aanzienlijke tijd- en ruimteoverhead vanwege de vereiste aparte modellen. Dit werk stelt Non-disruptive parameters insertion (Otter) voor, waarbij extra parameters in de transformer-architectuur worden ingevoegd om kalibratiesignalen te voorspellen naast de oorspronkelijke LLM-uitvoer. Otter biedt state-of-the-art prestaties op meerdere veeleisende taken, terwijl het tot 86,5% extra ruimte en 98,5% extra tijd bespaart. Bovendien integreert Otter naadloos met bestaande inferentie-engines, vereist slechts een éénregelige codewijziging, en blijft de oorspronkelijke modelrespons toegankelijk na de parameterinvoeging. Onze code is publiekelijk beschikbaar op https://github.com/chenhan97/Otter.
Een "match cut" is een veelgebruikte videobewerkingstechniek waarbij een paar shots met een vergelijkbare compositie soepel in elkaar overgaan. Hoewel match cuts vaak visueel zijn, kunnen bepaalde match cuts ook een vloeiende overgang van audio omvatten, waarbij geluiden uit verschillende bronnen samensmelten tot een ononderscheidbare overgang tussen twee shots. In dit artikel onderzoeken we de mogelijkheid om automatisch "audio match cuts" te vinden en te creëren binnen video's en films. We creëren een zelfgestuurde audiorepresentatie voor audio match cutting en ontwikkelen een grof-naar-fijn audio match-pipeline die passende shots aanbeveelt en het gemengde audio creëert. We annoteren verder een dataset voor de voorgestelde audio match cut-taak en vergelijken het vermogen van meerdere audiorepresentaties om audio match cut-kandidaten te vinden. Tot slot evalueren we meerdere methoden om twee passende audiokandidaten te mengen met als doel een soepele overgang te creëren. De projectpagina en voorbeelden zijn beschikbaar op: https://denfed.github.io/audiomatchcut/
De gespecialiseerde taal en complexe concepten in de natuurkunde vormen aanzienlijke uitdagingen voor informatie-extractie via Natural Language Processing (NLP). Centraal in effectieve NLP-toepassingen staat het tekstembeddingmodel, dat tekst omzet in dichte vectorrepresentaties voor efficiënte informatie-opsporing en semantische analyse. In dit werk introduceren we PhysBERT, het eerste natuurkunde-specifieke tekstembeddingmodel. Vooraf getraind op een gecureerde corpus van 1,2 miljoen arXiv-natuurkundepapers en verfijnd met begeleide data, presteert PhysBERT beter dan toonaangevende algemene modellen bij natuurkunde-specifieke taken, waaronder de effectiviteit bij het verfijnen voor specifieke natuurkunde-subdomeinen.
Visuele tracking op basis van eventcamera's heeft de laatste jaren steeds meer aandacht gekregen vanwege het unieke beeldvormingsprincipe en de voordelen van laag energieverbruik, een hoog dynamisch bereik en een dichte temporele resolutie. Huidige op events gebaseerde trackingalgoritmen lopen echter geleidelijk aan tegen hun prestatiegrenzen aan, voornamelijk door het gebruik van vision Transformers en de statische sjabloon voor de lokalisatie van doelobjecten. In dit artikel stellen we een nieuw visueel trackingframework voor dat gebaseerd is op Mamba, waarbij het state space-model met lineaire complexiteit wordt gebruikt als backbone-netwerk. De zoekregio's en de doelsjabloon worden ingevoerd in het vision Mamba-netwerk voor gelijktijdige feature-extractie en interactie. De uitvoertokens van de zoekregio's worden vervolgens ingevoerd in de trackingkop voor de lokalisatie van het doel. Belangrijker is dat we overwegen om een dynamische sjabloonupdate-strategie te introduceren in het trackingframework met behulp van het Memory Mamba-netwerk. Door rekening te houden met de diversiteit van monsters in de doelsjabloonbibliotheek en door passende aanpassingen te maken aan de sjabloongeheugenmodule, kan een effectievere dynamische sjabloon worden geïntegreerd. De effectieve combinatie van dynamische en statische sjablonen stelt ons Mamba-gebaseerde trackingalgoritme in staat om een goede balans te bereiken tussen nauwkeurigheid en rekenkosten op meerdere grootschalige datasets, waaronder EventVOT, VisEvent en FE240hz. De broncode zal worden vrijgegeven op https://github.com/Event-AHU/MambaEVT.
Het is al lang een onderzoeksdoel om robotarmen te voorzien van menselijke behendigheid. Bi-manueel pianospel door robots vormt een taak die uitdagingen combineert van dynamische taken, zoals het genereren van snelle maar precieze bewegingen, met langzamere maar contactrijke manipulatieproblemen. Hoewel op reinforcement learning gebaseerde benaderingen veelbelovende resultaten hebben laten zien in enkelvoudige taken, worstelen deze methoden in een omgeving met meerdere liedjes. Ons werk heeft als doel deze kloof te dichten en daarmee imitation learning benaderingen voor robotpianospel op grote schaal mogelijk te maken. Hiertoe introduceren we de Robot Piano 1 Miljoen (RP1M) dataset, die bi-manuele robotpianospelbewegingsgegevens bevat van meer dan een miljoen trajecten. We formuleren vingerplaatsingen als een optimaal transportprobleem, waardoor automatische annotatie van grote hoeveelheden ongelabelde liedjes mogelijk wordt. Het benchmarken van bestaande imitation learning benaderingen laat zien dat dergelijke benaderingen state-of-the-art robotpianospelprestaties bereiken door gebruik te maken van RP1M.
3D Gaussian Splatting (3DGS) is uitgegroeid tot de de facto methode voor 3D-representatie in veel visuele taken. Dit vraagt om 3D-begrip direct in deze representatieruimte. Om onderzoek in deze richting te faciliteren, bouwen we eerst een grootschalige dataset van 3DGS met behulp van de veelgebruikte ShapeNet- en ModelNet-datasets. Onze dataset, ShapeSplat, bestaat uit 65K objecten uit 87 unieke categorieën, waarvan de labels overeenkomen met de respectievelijke datasets. Het maken van deze dataset vereiste een rekenkracht equivalent aan 2 GPU-jaren op een TITAN XP GPU. We gebruiken onze dataset voor unsupervised pretraining en supervised finetuning voor classificatie- en segmentatietaken. Hiertoe introduceren we \textit{Gaussian-MAE}, dat de unieke voordelen van representatieleren vanuit Gaussiaanse parameters benadrukt. Door uitgebreide experimenten bieden we verschillende waardevolle inzichten. In het bijzonder tonen we aan dat (1) de verdeling van de geoptimaliseerde GS-centroïden significant verschilt van de uniform bemonsterde puntenwolk (gebruikt voor initialisatie); (2) deze verandering in verdeling leidt tot verslechtering in classificatie maar verbetering in segmentatietaken wanneer alleen de centroïden worden gebruikt; (3) om aanvullende Gaussiaanse parameters te benutten, stellen we Gaussiaanse featuregroepering voor in een genormaliseerde feature-ruimte, samen met een splats pooling layer, wat een op maat gemaakte oplossing biedt om vergelijkbare Gaussiaanse functies effectief te groeperen en in te bedden, wat leidt tot aanzienlijke verbetering in finetuning-taken.
Stedelijke mobiliteit en transportsystemen zijn diepgaand getransformeerd door de vooruitgang in autonome voertuigtechnologieën. Baidu Apollo Go, een pionierende robotaxi-service van de Chinese techgigant Baidu, is recentelijk op grote schaal ingezet in grote steden zoals Beijing en Wuhan, wat een toename in gesprekken heeft veroorzaakt en een blik biedt op de toekomst van stedelijke mobiliteit. Deze studie onderzoekt de publieke houding ten opzichte van Apollo Go in heel China met behulp van sentimentanalyse met een hybride BERT-model op 36.096 Weibo-berichten van januari tot juli 2024. De analyse toont aan dat 89,56\% van de berichten gerelateerd aan Apollo Go geclusterd zijn in juli. Van januari tot juli was het publieke sentiment overwegend positief, maar negatieve commentaren begonnen toe te nemen nadat het op 21 juli een hot topic werd. Ruimtelijke analyse wijst op een sterke correlatie tussen provincies met een hoge discussie-intensiteit en die waar Apollo Go actief is. Aanvankelijk domineerden Hubei en Guangdong het volume van online berichten, maar tegen juli hadden Guangdong, Beijing en internationale regio's Hubei ingehaald. De houdingen varieerden aanzienlijk tussen provincies, waarbij Xinjiang en Qinghai optimisme toonden en Tibet en Gansu zorgen uitten over de impact op traditionele taxidiensten. Sentimentanalyse onthulde dat positieve commentaren zich richtten op technologie-toepassingen en persoonlijke ervaringen, terwijl negatieve commentaren zich concentreerden op banenverlies en veiligheidszorgen. Samenvattend benadrukt deze studie de divergentie in publieke percepties van autonome ride-hailingdiensten, wat waardevolle inzichten biedt voor planners, beleidsmakers en dienstverleners. Het model is gepubliceerd op Hugging Face op https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao en de repository op GitHub op https://github.com/GIStudio/trb2024.