Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Segment Anything Model 2 (SAM 2), een foundation model gericht op het oplossen van promptbare visuele segmentatie in afbeeldingen en video's. We hebben een data-engine ontwikkeld, die het model en de data verbetert via gebruikersinteractie, om de grootste video-segmentatiedataset tot nu toe te verzamelen. Ons model is een eenvoudige transformer-architectuur met streaminggeheugen voor real-time videoverwerking. SAM 2, getraind op onze data, levert sterke prestaties op een breed scala aan taken. Bij video-segmentatie observeren we een betere nauwkeurigheid, waarbij we 3x minder interacties nodig hebben dan bij eerdere benaderingen. Bij beeldsegmentatie is ons model nauwkeuriger en 6x sneller dan het Segment Anything Model (SAM). Wij geloven dat onze data, model en inzichten een belangrijke mijlpaal zullen vormen voor video-segmentatie en gerelateerde perceptietaken. We brengen een versie van ons model, de dataset en een interactieve demo uit.
In dit werk introduceren we Gemma 2, een nieuwe toevoeging aan de Gemma-familie van lichtgewicht, state-of-the-art open modellen, variërend in schaal van 2 miljard tot 27 miljard parameters. In deze nieuwe versie passen we verschillende bekende technische aanpassingen toe op de Transformer-architectuur, zoals het interleaven van lokaal-globale aandacht (Beltagy et al., 2020a) en groep-query aandacht (Ainslie et al., 2023). We trainen de 2B- en 9B-modellen ook met kennisdistillatie (Hinton et al., 2015) in plaats van next token prediction. De resulterende modellen leveren de beste prestaties voor hun grootte en bieden zelfs competitieve alternatieven voor modellen die 2-3 keer groter zijn. We stellen al onze modellen beschikbaar aan de gemeenschap.
We presenteren SF3D, een nieuwe methode voor snelle en hoogwaardige gereconstrueerde textuurobjecten uit een enkele afbeelding in slechts 0,5 seconden. In tegenstelling tot de meeste bestaande benaderingen, is SF3D expliciet getraind voor meshgeneratie en omvat het een snelle UV-unwrappingtechniek die snelle textuurgeneratie mogelijk maakt in plaats van te vertrouwen op vertexkleuren. De methode leert ook materiaalparameters en normal maps te voorspellen om de visuele kwaliteit van de gereconstrueerde 3D-meshes te verbeteren. Bovendien integreert SF3D een delighting-stap om laagfrequente belichtingseffecten effectief te verwijderen, waardoor de gereconstrueerde meshes eenvoudig kunnen worden gebruikt onder nieuwe belichtingsomstandigheden. Experimenten tonen de superieure prestaties van SF3D aan ten opzichte van de bestaande technieken. Projectpagina: https://stable-fast-3d.github.io
Hoewel grote taalmodellen opmerkelijke prestaties vertonen in natuurlijke taalverwerking, maakt hun intensieve gebruik van bronnen ze minder toegankelijk. Daarentegen bieden kleinere taalmodellen zoals MiniCPM een meer duurzame schaalbaarheid, maar presteren ze vaak minder goed zonder gespecialiseerde optimalisatie. In dit artikel onderzoeken we de verbetering van kleinere taalmodellen door de kwaliteit van hun tekstembeddingen te verhogen. We selecteren drie taalmodellen, MiniCPM, Phi-2 en Gemma, om contrastieve fine-tuning uit te voeren op de NLI-dataset. Onze resultaten tonen aan dat deze fine-tuning-methode de kwaliteit van tekstembeddingen voor alle drie de modellen verbetert op verschillende benchmarks, waarbij MiniCPM de meest significante verbeteringen laat zien met een gemiddelde prestatieverbetering van 56,33%. De code voor contrastieve fine-tuning is publiekelijk beschikbaar op https://github.com/trapoom555/Language-Model-STS-CFT.
Het recente succes van grote visuele taalmodellen toont een groot potentieel in het aansturen van agentsystemen die werken op gebruikersinterfaces. Wij stellen echter dat de kracht van multimodale modellen zoals GPT-4V als een algemene agent op meerdere besturingssystemen en verschillende applicaties grotendeels wordt onderschat, vanwege het ontbreken van een robuuste schermparsingtechniek die in staat is om: 1) betrouwbaar interactieve iconen binnen de gebruikersinterface te identificeren, en 2) de semantiek van verschillende elementen in een schermafbeelding te begrijpen en de beoogde actie nauwkeurig te associëren met het corresponderende gebied op het scherm. Om deze lacunes op te vullen, introduceren we OmniParser, een uitgebreide methode voor het parsen van schermafbeeldingen van gebruikersinterfaces in gestructureerde elementen, wat het vermogen van GPT-4V aanzienlijk verbetert om acties te genereren die nauwkeurig kunnen worden verankerd in de corresponderende gebieden van de interface. We hebben eerst een dataset voor het detecteren van interactieve iconen samengesteld met behulp van populaire webpagina's en een dataset met iconenbeschrijvingen. Deze datasets werden gebruikt om gespecialiseerde modellen te finetunen: een detectiemodel om interactieve gebieden op het scherm te parsen en een captionmodel om de functionele semantiek van de gedetecteerde elementen te extraheren. OmniParser verbetert de prestaties van GPT-4V aanzienlijk op de ScreenSpot-benchmark. En op de Mind2Web- en AITW-benchmark presteert OmniParser met alleen schermafbeeldingen als invoer beter dan de GPT-4V-baselines die aanvullende informatie buiten de schermafbeelding vereisen.
Multimodale taalmodellen (MLLMs) worden steeds vaker geïmplementeerd in realistische omgevingen, wat vereist dat ze 3D-ruimtes kunnen interpreteren en tijdelijke dynamiek kunnen begrijpen. Ondanks hun potentieel schieten de huidige topmodellen binnen onze gemeenschap nog tekort in het adequaat begrijpen van ruimtelijke en temporele dimensies. We introduceren Coarse Correspondence, een eenvoudige, trainingsvrije, effectieve en algemene visuele promptmethode om 3D- en temporeel begrip in multimodale LLMs te stimuleren. Onze methode gebruikt een lichtgewicht trackingmodel om objectcorrespondenties te vinden tussen frames in een video of tussen sets van beeldperspectieven. Het selecteert de meest voorkomende objectinstanties en visualiseert deze met markeringen met unieke ID's in de afbeelding. Met deze eenvoudige aanpak behalen we state-of-the-art resultaten op 3D-begripbenchmarks, waaronder ScanQA (+20,5\%) en een subset van OpenEQA (+9,7\%), en op langdurige videobenchmarks zoals EgoSchema (+6,0\%). We hebben ook een kleine diagnostische dataset samengesteld om te evalueren of MLLMs kunnen redeneren over ruimte vanuit een beschreven perspectief dat verschilt van het cameraperspectief. Opnieuw verbetert Coarse Correspondence de ruimtelijke perspectiefnamevaardigheden, maar we benadrukken dat MLLMs moeite hebben met deze taak. Samen tonen we aan dat onze eenvoudige promptmethode aanzienlijk kan bijdragen aan downstream taken die 3D- of temporeel redeneren vereisen.
Recente toepassingen van grote taalmodellen, zoals Retrieval-Augmented Generation en chatbots, hebben geleid tot een grotere behoefte aan het verwerken van langere invoercontexten. Deze vereiste wordt echter belemmerd door inherente beperkingen. Architectonisch zijn modellen beperkt door een contextvenster dat tijdens de training is gedefinieerd. Bovendien vereist het verwerken van uitgebreide teksten aanzienlijk GPU-geheugen. Wij stellen een nieuwe benadering voor, genaamd Finch, om de invoercontext te comprimeren door gebruik te maken van de vooraf getrainde modelgewichten van de self-attention. Gegeven een prompt en een lange tekst, identificeert Finch iteratief de meest relevante Key (K) en Value (V) paren over segmenten van de tekst, geconditioneerd op de prompt. Alleen dergelijke paren worden opgeslagen in de KV-cache, die, binnen de ruimte die wordt beperkt door het contextvenster, uiteindelijk een gecomprimeerde versie van de lange tekst bevat. Ons voorstel stelt modellen in staat om grote invoeren te verwerken, zelfs bij hoge compressie (tot 93x), terwijl de semantische integriteit behouden blijft zonder dat fine-tuning nodig is.
Diffusiemodellen hebben de weg geopend naar een breed scala aan tekstgebaseerde beeldbewerkingsframeworks. Deze bouwen echter meestal voort op de meerstapsaard van het achterwaartse diffusieproces, en het aanpassen ervan aan gedistilleerde, snel bemonsterende methoden is verrassend uitdagend gebleken. Hier richten we ons op een populaire lijn van tekstgebaseerde bewerkingsframeworks - de ``bewerkingsvriendelijke'' DDPM-ruisinversiebenadering. We analyseren de toepassing ervan op snel bemonsterende methoden en categoriseren de tekortkomingen in twee klassen: het verschijnen van visuele artefacten en onvoldoende bewerkingssterkte. We herleiden de artefacten naar niet-overeenkomende ruisstatistieken tussen geïnverteerde ruis en het verwachte ruisschema, en stellen een verschoven ruisschema voor dat deze afwijking corrigeert. Om de bewerkingssterkte te vergroten, stellen we een pseudo-guidance-benadering voor die efficiënt de omvang van bewerkingen vergroot zonder nieuwe artefacten te introduceren. Al met al maakt onze methode tekstgebaseerde beeldbewerking mogelijk met slechts drie diffusiestappen, terwijl het nieuwe inzichten biedt in de mechanismen achter populaire tekstgebaseerde bewerkingsbenaderingen.
MM-Vet, met open-einde visueel-taalkundige vragen gericht op het evalueren van geïntegreerde capaciteiten, is een van de meest populaire benchmarks geworden voor de evaluatie van grote multimodale modellen. MM-Vet beoordeelt zes kernvisueel-taalkundige (VL) capaciteiten: herkenning, kennis, ruimtelijk bewustzijn, taalgeneratie, OCR en rekenen. Het vraagformaat is echter beperkt tot enkele beeld-tekstparen, waardoor het ontbreekt aan de afwisselende beeld- en tekstreeksen die veel voorkomen in real-world scenario's. Om deze beperking aan te pakken, introduceren we MM-Vet v2, dat een nieuwe VL-capaciteit bevat genaamd "beeld-tekstreeksbegrip", waarmee het vermogen van modellen om VL-reeksen te verwerken wordt geëvalueerd. Bovendien behouden we de hoge kwaliteit van de evaluatiemonsters terwijl we de omvang van de evaluatieset verder uitbreiden. Door MM-Vet v2 te gebruiken om grote multimodale modellen te benchmarken, ontdekten we dat Claude 3.5 Sonnet het beste model is met een score van 71,8, wat iets beter is dan GPT-4o dat een score van 71,0 behaalde. Onder de open-weight modellen leidt InternVL2-Llama3-76B met een score van 68,4.
De afgelopen jaren is er een enorme verbetering te zien geweest in de kwaliteit van videogeneratie- en bewerkingstechnieken. Hoewel verschillende technieken zich richten op het bewerken van uiterlijk, behandelen slechts weinigen beweging. Huidige benaderingen die tekst, trajecten of begrenzingsvakken gebruiken, zijn beperkt tot eenvoudige bewegingen, dus specificeren wij bewegingen met een enkele bewegingreferentievideo in plaats daarvan. Wij stellen verder voor om een vooraf getraind beeld-naar-video-model te gebruiken in plaats van een tekst-naar-video-model. Deze aanpak stelt ons in staat om het exacte uiterlijk en de positie van een doelobject of -scène te behouden en helpt om uiterlijk en beweging te ontwarren. Onze methode, genaamd motion-textual inversion, maakt gebruik van onze observatie dat beeld-naar-video-modellen uiterlijk voornamelijk uit de (latente) beeldinvoer halen, terwijl de tekst/beeld-embedding die via cross-attention wordt geïnjecteerd vooral de beweging bepaalt. Wij representeren daarom beweging met behulp van tekst/beeld-embeddingtokens. Door te werken met een uitgebreide bewegingstekst-embedding die meerdere tekst/beeld-embeddingtokens per frame bevat, bereiken we een hoge temporele beweginggranulariteit. Zodra deze embedding is geoptimaliseerd op de bewegingreferentievideo, kan deze worden toegepast op verschillende doelbeelden om video's te genereren met semantisch vergelijkbare bewegingen. Onze aanpak vereist geen ruimtelijke uitlijning tussen de bewegingreferentievideo en het doelbeeld, generaliseert over verschillende domeinen en kan worden toegepast op diverse taken zoals full-body- en gezichtsheruitvoering, evenals het beheersen van de beweging van levenloze objecten en de camera. Wij tonen empirisch de effectiviteit van onze methode aan in de taak van semantische videobewegingsoverdracht, waarbij we bestaande methoden in deze context aanzienlijk overtreffen.
Audio-gestuurde 3D-gezichtsanimatie heeft als doel om invoeraudio te koppelen aan realistische gezichtsbewegingen. Ondanks aanzienlijke vooruitgang ontstaan er beperkingen door inconsistente 3D-annotaties, waardoor eerdere modellen beperkt waren tot training op specifieke annotaties en daardoor de trainingschaal beperkt werd. In dit werk presenteren we UniTalker, een uniform model met een multi-head architectuur dat ontworpen is om effectief gebruik te maken van datasets met verschillende annotaties. Om de trainingsstabiliteit te verbeteren en consistentie tussen de multi-head uitvoer te waarborgen, gebruiken we drie trainingsstrategieën, namelijk PCA, model warm-up en pivot identity embedding. Om de trainingschaal en diversiteit uit te breiden, hebben we A2F-Bench samengesteld, bestaande uit vijf openbaar beschikbare datasets en drie nieuw samengestelde datasets. Deze datasets bevatten een breed scala aan audiodomeinen, waaronder meertalige spraak en liedjes, waardoor de trainingsdata wordt opgeschaald van de gebruikelijke datasets, die doorgaans minder dan 1 uur beslaan, naar 18,5 uur. Met een enkel getraind UniTalker-model behalen we aanzienlijke reducties in lipvertexfouten van 9,2% voor de BIWI-dataset en 13,7% voor de Vocaset. Daarnaast toont het vooraf getrainde UniTalker belofte als het basismodel voor audio-gestuurde gezichtsanimatietaken. Het finetunen van het vooraf getrainde UniTalker op bekende datasets verbetert de prestaties op elke dataset verder, met een gemiddelde foutreductie van 6,3% op A2F-Bench. Bovendien overtreft het finetunen van UniTalker op een onbekende dataset met slechts de helft van de data de eerdere state-of-the-art modellen die getraind zijn op de volledige dataset. De code en dataset zijn beschikbaar op de projectpagina https://github.com/X-niper/UniTalker.
Het mogelijk maken van betrokkenheid bij manga voor visueel beperkte personen vormt een aanzienlijke uitdaging vanwege de inherent visuele aard ervan. Met het doel om toegankelijkheid te bevorderen, beoogt dit artikel een dialoogtranscript van een volledig mangahoofdstuk volledig automatisch te genereren, met bijzondere nadruk op het waarborgen van narratieve consistentie. Dit houdt in het identificeren van (i) wat er wordt gezegd, d.w.z. het detecteren van de teksten op elke pagina en deze classificeren als essentieel versus niet-essentieel, en (ii) wie het zegt, d.w.z. het toeschrijven van elke dialoog aan de spreker, terwijl ervoor wordt gezorgd dat dezelfde personages gedurende het hele hoofdstuk consistent worden benoemd. Hiertoe introduceren we: (i) Magiv2, een model dat in staat is om hoogwaardige transcripten van mangahoofdstukken te genereren met benoemde personages en een aanzienlijk hogere precisie in sprekerdiarisering dan eerdere werken; (ii) een uitbreiding van de PopManga-evaluatiedataset, die nu annotaties bevat voor spreekballonstaartvakken, associaties van tekst met bijbehorende staarten, classificaties van tekst als essentieel of niet-essentieel, en de identiteit voor elk personagevak; en (iii) een nieuwe personagebankdataset, die meer dan 11K personages uit 76 mangaseries omvat, met in totaal 11.5K voorbeeldafbeeldingen van personages, evenals een lijst van hoofdstukken waarin ze voorkomen. De code, het getrainde model en beide datasets zijn te vinden op: https://github.com/ragavsachdeva/magi
Dit werk presenteert een nieuw raamwerk voor het trainen van geneste embeddingmodellen voor het Arabisch via Matryoshka Embedding Learning, waarbij gebruik wordt gemaakt van meertalige, Arabisch-specifieke en Engelstalige modellen, om de kracht van geneste embeddingmodellen in verschillende downstream taken voor Arabische NLP te benadrukken. Onze innovatieve bijdrage omvat de vertaling van verschillende datasets voor zinsgelijkwaardigheid naar het Arabisch, wat een uitgebreid evaluatieraamwerk mogelijk maakt om deze modellen op verschillende dimensies te vergelijken. We hebben verschillende geneste embeddingmodellen getraind op de Arabische Natural Language Inference triplet-dataset en hun prestaties beoordeeld met behulp van meerdere evaluatiemetrics, waaronder Pearson- en Spearman-correlaties voor cosinusgelijkwaardigheid, Manhattan-afstand, Euclidische afstand en inproductgelijkwaardigheid. De resultaten tonen de superieure prestaties van de Matryoshka-embeddingmodellen aan, met name in het vastleggen van semantische nuances die uniek zijn voor de Arabische taal. De resultaten toonden aan dat Arabische Matryoshka-embeddingmodellen superieure prestaties leveren in het vastleggen van semantische nuances die uniek zijn voor de Arabische taal, waarbij ze traditionele modellen met tot wel 20-25\% overtreffen op verschillende gelijkwaardigheidsmetrics. Deze resultaten onderstrepen de effectiviteit van taal-specifieke training en benadrukken het potentieel van Matryoshka-modellen in het verbeteren van semantische tekstuele gelijkwaardigheidstaken voor Arabische NLP.
Conditionele diffusiemodellen hebben opmerkelijke successen geboekt in het genereren van visuele inhoud, waarbij ze hoogwaardige samples produceren in verschillende domeinen, grotendeels dankzij classifier-free guidance (CFG). Recente pogingen om guidance uit te breiden naar unconditionele modellen hebben vertrouwd op heuristische technieken, wat resulteerde in suboptimale generatiekwaliteit en ongewenste effecten. In dit werk stellen we Smoothed Energy Guidance (SEG) voor, een nieuwe trainings- en conditievrije benadering die gebruikmaakt van het energie-gebaseerde perspectief van het self-attention-mechanisme om beeldgeneratie te verbeteren. Door de energie van self-attention te definiëren, introduceren we een methode om de kromming van het energielandschap van aandacht te verminderen en gebruiken we de uitvoer als de unconditionele voorspelling. In de praktijk controleren we de kromming van het energielandschap door de Gaussische kernelparameter aan te passen, terwijl de guidance-schaalparameter vast blijft. Daarnaast presenteren we een query-vervagingmethode die equivalent is aan het vervagen van de volledige aandachtgewichten zonder kwadratische complexiteit in het aantal tokens te veroorzaken. In onze experimenten behaalt SEG een Pareto-verbetering in zowel kwaliteit als de vermindering van bijwerkingen. De code is beschikbaar op https://github.com/SusungHong/SEG-SDXL.
Rebussen zijn puzzels die beperkte, meerstaps redenering vereisen om een verborgen zin te identificeren uit een reeks afbeeldingen en letters. In dit werk introduceren we een grote verzameling verbaal uitgedrukte rebussen voor de Italiaanse taal en gebruiken we deze om de rebusoplossende vaardigheden van state-of-the-art grote taalmodelen te evalueren. Algemene systemen zoals LLaMA-3 en GPT-4o presteren slecht op deze taak, maar ad-hoc fine-tuning lijkt de prestaties van modellen te verbeteren. We constateren echter dat de prestatieverbeteringen door training grotendeels worden gemotiveerd door memorisatie. Onze resultaten suggereren dat rebusoplossing een uitdagende testomgeving blijft om de linguïstische vaardigheid en het vermogen om sequentiële instructies te volgen van grote taalmodelen te evalueren.
Het detecteren van out-of-distribution (OOD) samples is cruciaal voor het waarborgen van de veiligheid van machine learning-systemen en heeft het vakgebied van OOD-detectie vormgegeven. Tegelijkertijd zijn er verschillende andere problemen die nauw verwant zijn aan OOD-detectie, waaronder anomaliedetectie (AD), nieuwigheiddetectie (ND), open set herkenning (OSR) en uitbijterdetectie (OD). Om deze problemen te verenigen, werd een gegeneraliseerd OOD-detectiekader voorgesteld, dat deze vijf problemen taxonomisch categoriseert. Vision Language Models (VLMs) zoals CLIP hebben echter het paradigma aanzienlijk veranderd en de grenzen tussen deze vakgebieden vervaagd, wat onderzoekers opnieuw in verwarring heeft gebracht. In dit overzicht presenteren we eerst een gegeneraliseerde OOD-detectie v2, die de evolutie van AD, ND, OSR, OOD-detectie en OD in het VLM-tijdperk omvat. Ons kader laat zien dat, met enige inactiviteit en integratie binnen het vakgebied, de meest veeleisende uitdagingen OOD-detectie en AD zijn geworden. Daarnaast benadrukken we ook de significante verschuiving in de definitie, probleemstellingen en benchmarks; we bieden daarom een uitgebreide review van de methodologie voor OOD-detectie, inclusief een discussie over andere gerelateerde taken om hun relatie met OOD-detectie te verduidelijken. Tot slot verkennen we de vooruitgang in het opkomende tijdperk van Large Vision Language Models (LVLMs), zoals GPT-4V. We sluiten dit overzicht af met open uitdagingen en toekomstige richtingen.
Dit artikel introduceert een nieuwe aanpak genaamd zin-voor-zin spraaksamenvatting (Sen-SSum), die tekstsamenvattingen genereert uit een gesproken document op een zin-voor-zin manier. Sen-SSum combineert de real-time verwerking van automatische spraakherkenning (ASR) met de beknoptheid van spraaksamenvatting. Om deze aanpak te verkennen, presenteren we twee datasets voor Sen-SSum: Mega-SSum en CSJ-SSum. Met behulp van deze datasets evalueert onze studie twee soorten Transformer-gebaseerde modellen: 1) cascade-modellen die ASR combineren met sterke tekstsamenvattingsmodellen, en 2) end-to-end (E2E) modellen die spraak direct omzetten in een tekstsamenvatting. Hoewel E2E-modellen aantrekkelijk zijn voor het ontwikkelen van reken-efficiënte modellen, presteren ze slechter dan cascade-modellen. Daarom stellen we kennisdistillatie voor E2E-modellen voor met behulp van pseudo-samenvattingen gegenereerd door de cascade-modellen. Onze experimenten tonen aan dat deze voorgestelde kennisdistillatie de prestaties van het E2E-model effectief verbetert op beide datasets.