Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren de "Wet van Visuele Representatie" in multimodale grote taalmodellen (MLLM's). Deze onthult een sterke correlatie tussen de combinatie van cross-modale alignering, correspondentie in visuele representatie en MLLM-prestaties. Wij kwantificeren de twee factoren met behulp van de cross-modale Alignerings- en Correspondentiescore (AC-score). Uit uitgebreide experimenten met dertien verschillende visuele representatie-instellingen en evaluaties over acht benchmarks blijkt dat de AC-score lineair gecorreleerd is aan modelprestaties. Door deze relatie te benutten, kunnen wij de optimale visuele representatie identificeren en trainen zonder telkens het taalmodel te moeten finetunen, wat resulteert in een reductie van 99,7% in rekenkosten.
Vanuit VisualGLM en CogVLM verkennen we continu Visueel-Taalmodellen (VLM's) met als doel verbeterde visueel-taalintegratie, efficiënte architectuur voor hogere resoluties, en bredere modaliteiten en toepassingen. Hier presenteren we de CogVLM2-familie, een nieuwe generatie visueel-taalmodellen voor beeld- en videobegrip, bestaande uit CogVLM2, CogVLM2-Video en GLM-4V. Als beeldbegripsmodel erft CogVLM2 de visuele expertarchitectuur met verbeterde trainingsmethoden in zowel pre-training als post-training, en ondersteunt het een invoerresolutie tot 1344 × 1344 pixels. Als videobegripsmodel integreert CogVLM2-Video meerdere frames met tijdstempels en introduceert het geautomatiseerde constructie van temporele ankergegevens. Opmerkelijk is dat de CogVLM2-familie state-of-the-art resultaten heeft behaald op benchmarks zoals MMBench, MM-Vet, TextVQA, MVBench en VCGBench. Alle modellen zijn open-source beschikbaar op https://github.com/THUDM/CogVLM2 en https://github.com/THUDM/GLM-4, wat bijdraagt aan de vooruitgang van het vakgebied.
Taalmodelle zijn effectief toegepast voor het modelleren van natuurlijke signalen, zoals beelden, video, spraak en audio. Een cruciaal onderdeel van deze modellen is de codec-tokenizer, die hoogdimensionale natuurlijke signalen comprimeert tot lagerdimensionale discrete tokens. In dit artikel introduceren we WavTokenizer, dat verschillende voordelen biedt ten opzichte van eerdere state-of-the-art akoestische codec-modellen in het audiodomein: 1) extreme compressie. Door de lagen van quantizers en de temporele dimensie van de discrete codec te comprimeren, vereist één seconde audio met een samplefrequentie van 24 kHz slechts een enkele quantizer met 40 of 75 tokens. 2) verbeterde subjectieve kwaliteit. Ondanks het verminderde aantal tokens behaalt WavTokenizer state-of-the-art reconstructiekwaliteit met uitstekende UTMOS-scores en bevat het inherent rijkere semantische informatie. We bereiken deze resultaten specifiek door het ontwerpen van een bredere VQ-ruimte, uitgebreide contextuele vensters, verbeterde attention-netwerken, evenals de introductie van een krachtige multi-scale discriminator en een inverse Fourier-transformatiestructuur. We hebben uitgebreide reconstructie-experimenten uitgevoerd in de domeinen spraak, audio en muziek. WavTokenizer vertoonde sterke prestaties op diverse objectieve en subjectieve metrieken in vergelijking met state-of-the-art modellen. We testten ook semantische informatie, VQ-benutting en aanpassingsvermogen aan generatieve modellen. Uitgebreide ablatiestudies bevestigen de noodzaak van elke module in WavTokenizer. De gerelateerde code, demo's en vooraf getrainde modellen zijn beschikbaar op https://github.com/jishengpeng/WavTokenizer.
Vooruitgang in 3D-scènereconstructie heeft 2D-beelden uit de echte wereld omgezet in 3D-modellen, waarbij realistische 3D-resultaten worden geproduceerd uit honderden invoerfoto's. Ondanks groot succes in scenario's met dichte-beeldreconstructie, blijft het renderen van een gedetailleerde scène vanuit onvoldoende vastgelegde beeldhoeken een slecht-gesteld optimalisatieprobleem, wat vaak resulteert in artefacten en vervormingen in onbezochte gebieden. In dit artikel stellen we ReconX voor, een nieuw 3D-scènereconstructieparadigma dat de dubbelzinnige reconstructie-uitdaging herformuleert als een temporele generatietaak. Het kerninzicht is om de sterke generatieve prior van grote, vooraf getrainde videodiffusiemodellen los te laten voor reconstructie met weinig beeldhoeken. Echter, 3D-beeldconsistentie blijkt moeilijk nauwkeurig te behouden in rechtstreeks gegenereerde videoframes van vooraf getrainde modellen. Om dit aan te pakken, construeert de voorgestelde ReconX, gegeven beperkte invoerbeelden, eerst een globaal puntenwolk en codeert deze in een contextuele ruimte als 3D-structuurvoorwaarde. Geleid door deze voorwaarde, synthetiseert het videodiffusiemodel vervolgens videoframes die zowel detailbehoudend zijn als een hoge mate van 3D-consistentie vertonen, waardoor de coherentie van de scène vanuit verschillende perspectieven wordt gewaarborgd. Ten slotte herstellen we de 3D-scène uit de gegenereerde video via een confidence-aware 3D Gaussian Splatting-optimalisatieschema. Uitgebreide experimenten op diverse real-world datasets tonen de superioriteit van onze ReconX aan ten opzichte van state-of-the-art methoden wat betreft kwaliteit en generaliseerbaarheid.
Wij introduceren SAM2Point, een eerste verkenning die het Segment Anything Model 2 (SAM 2) aanpast voor zero-shot en promptbare 3D-segmentatie. SAM2Point interpreteert elke 3D-data als een reeks multi-directionele video's en benut SAM 2 voor segmentatie in de 3D-ruimte, zonder aanvullende training of 2D-3D-projectie. Ons framework ondersteunt diverse prompttypes, waaronder 3D-punten, -kaders en -maskers, en kan generaliseren over uiteenlopende scenario's, zoals 3D-objecten, binnenruimtes, buitenomgevingen en ruwe, sparse LiDAR. Demonstraties op meerdere 3D-datasets, zoals Objaverse, S3DIS, ScanNet, Semantic3D en KITTI, benadrukken de robuuste generalisatiecapaciteiten van SAM2Point. Voor zover wij weten, presenteren wij de meest getrouwe implementatie van SAM in 3D, wat kan dienen als startpunt voor toekomstig onderzoek naar promptbare 3D-segmentatie. Online Demo: https://huggingface.co/spaces/ZiyuG/SAM2Point . Code: https://github.com/ZiyuGuo99/SAM2Point .
Taalmodelle hebben opmerkelijke prestaties getoond bij het oplossen van redeneertaken; zelfs de krachtigste modellen maken echter af en toe nog redeneerfouten. Recentelijk is er actief onderzoek gaande om de redeneernauwkeurigheid te verbeteren, met name door voorgetrainde taalmodelle hun fouten te laten "zelf-corrigeren" via multi-round prompting. In dit artikel volgen we deze onderzoekslijn, maar richten we ons op het begrijpen van het nut van het direct integreren van "foutcorrectie"-data in de voorafgaande trainingsfase. Deze data bestaat uit foutieve oplossingsstappen die direct worden gevolgd door hun correcties. Met behulp van een synthetische wiskundedataset tonen we veelbelovende resultaten: dit type voorafgaande trainingsdata kan taalmodelle helpen om direct een hogere redeneernauwkeurigheid te bereiken (d.w.z. via eenvoudige auto-regressie, zonder multi-round prompting) in vergelijking met voorafgaande training op dezelfde hoeveelheid foutloze data. We gaan ook in op vele details, zoals (1) hoe deze aanpak verschilt van beam search, (2) hoe dergelijke data kan worden voorbereid, (3) of maskering nodig is voor de foutieve tokens, (4) de benodigde hoeveelheid fouten, (5) of dergelijke data kan worden uitgesteld naar de fine-tuning fase, en vele andere.
Het diffusiemodel heeft uitzonderlijke capaciteiten getoond bij gecontroleerde beeldgeneratie, wat de interesse in beeldstijloverdracht verder heeft aangewakkerd. Bestaande onderzoeken richten zich voornamelijk op trainingsvrije methoden (zoals beeldinversie) vanwege de schaarste aan specifieke data. In deze studie presenteren we een dataconstructiepijplijn voor inhoud-stijl-gestileerde beeldtriplets die gestileerde datatriplets genereert en automatisch zuivert. Op basis van deze pijplijn construeren we IMAGStyle, de eerste grootschalige stijloverdrachtsdataset met 210k beeldtriplets, beschikbaar voor de onderzoeksgemeenschap. Uitgerust met IMAGStyle stellen we CSGO voor, een stijloverdrachtsmodel gebaseerd op end-to-end training, dat expliciet inhouds- en stijlkenmerken ontkoppelt door onafhankelijke kenmerkinjectie te gebruiken. De verenigde CSGO implementeert beeldgestuurde stijloverdracht, tekstgestuurde gestileerde synthese en tekstbewerkingsgestuurde gestileerde synthese. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan bij het verbeteren van stijlcontrolecapaciteiten in beeldgeneratie. Aanvullende visualisaties en toegang tot de broncode zijn te vinden op de projectpagina: https://csgo-gen.github.io/.
Wij presenteren Spann3R, een nieuwe aanpak voor dichte 3D-reconstructie uit geordende of ongeordende beeldverzamelingen. Gebaseerd op het DUSt3R-paradigma, gebruikt Spann3R een op transformers gebaseerde architectuur om direct puntenkaarten uit beelden te regresseren, zonder enige voorkennis van de scène of cameraparameters. In tegenstelling tot DUSt3R, dat per beeldpaar puntenkaarten voorspelt die elk in hun eigen lokale coördinatenstelsel zijn uitgedrukt, kan Spann3R per beeld puntenkaarten voorspellen die in een globaal coördinatenstelsel zijn uitgedrukt, waardoor de noodzaak voor optimalisatiegebaseerde globale alignering wordt geëlimineerd. Het kernidee van Spann3R is het beheren van een extern ruimtelijk geheugen dat leert om alle relevante voorgaande 3D-informatie bij te houden. Spann3R bevraagt vervolgens dit ruimtelijk geheugen om de 3D-structuur van het volgende frame in een globaal coördinatenstelsel te voorspellen. Door gebruik te maken van de vooraf getrainde gewichten van DUSt3R en verder te fine-tunen op een subset van datasets, toont Spann3R competitieve prestaties en generalisatievermogen op verschillende onbekende datasets en kan het geordende beeldverzamelingen in realtime verwerken. Projectpagina: https://hengyiwang.github.io/projects/spanner
Auteursverhulling, het herschrijven van een tekst om de identiteit van de auteur opzettelijk te verbergen, is een belangrijke maar uitdagende taak. Huidige methoden die gebruikmaken van large language models (LLM's) missen interpreteerbaarheid en bestuurbaarheid, waarbij vaak auteurspecifieke stilistische kenmerken worden genegeerd, wat resulteert in een minder robuuste algehele prestatie. Om dit aan te pakken, ontwikkelen we StyleRemix, een adaptieve en interpreteerbare verhullingsmethode die specifieke, fijnmazige stijlelementen van de originele invoertekst verstoort. StyleRemix gebruikt vooraf getrainde Low Rank Adaptation (LoRA)-modules om een invoer specifiek langs verschillende stilistische assen (bijvoorbeeld formaliteit en lengte) te herschrijven, waarbij de rekencapaciteit laag blijft. StyleRemix presteert beter dan state-of-the-art vergelijkingsmethoden en aanzienlijk grotere LLM's in een verscheidenheid aan domeinen, zoals beoordeeld door zowel automatische als menselijke evaluatie. Daarnaast brengen we AuthorMix uit, een grote set van 30.000 hoogwaardige, langere teksten van een diverse groep van 14 auteurs en 4 domeinen, en DiSC, een parallel corpus van 1.500 teksten die zeven stijlassen in 16 unieke richtingen omvatten.
Nieuwe machine learning-methoden voor het genereren van tabulaire gegevens worden vaak ontwikkeld op kleine datasets die niet overeenkomen met de schaal die nodig is voor wetenschappelijke toepassingen. Wij onderzoeken een recent voorstel om XGBoost te gebruiken als de functiebenadering in diffusie- en flow-matchingmodellen voor tabulaire gegevens, wat extreem geheugenintensief bleek te zijn, zelfs op minuscule datasets. In dit werk voeren we een kritische analyse uit van de bestaande implementatie vanuit een technisch perspectief en tonen we aan dat deze beperkingen niet fundamenteel zijn voor de methode; met een betere implementatie kan deze worden opgeschaald naar datasets die 370 keer groter zijn dan voorheen gebruikt. Onze efficiënte implementatie maakt het ook mogelijk modellen op te schalen naar veel grotere omvang, wat direct leidt tot verbeterde prestaties op benchmarktaken, zoals we aantonen. We stellen ook algoritmische verbeteringen voor die het resourcegebruik en de modelprestaties verder kunnen bevorderen, waaronder multi-output bomen die bijzonder geschikt zijn voor generatief modelleren. Tot slot presenteren we resultaten op grootschalige wetenschappelijke datasets afkomstig uit experimentele deeltjesfysica als onderdeel van de Fast Calorimeter Simulation Challenge. Code is beschikbaar op https://github.com/layer6ai-labs/calo-forest.
Talloze biologische en fysische processen kunnen worden gemodelleerd als systemen van interagerende entiteiten die continu in de tijd evolueren, zoals de dynamiek van communicerende cellen of fysische deeltjes. Het leren van de dynamiek van dergelijke systemen is essentieel voor het voorspellen van de temporele evolutie van populaties in nieuwe samples en onbekende omgevingen. Op stromingen gebaseerde modellen maken het mogelijk deze dynamiek op populatieniveau te leren - zij modelleren de evolutie van de volledige verdeling van samples. Huidige op stromingen gebaseerde modellen zijn echter beperkt tot een enkele initiële populatie en een set vooraf gedefinieerde condities die verschillende dynamieken beschrijven. Wij stellen dat meerdere processen in de natuurwetenschappen moeten worden voorgesteld als vectorvelden op de Wasserstein-variëteit van kansdichtheden. Dat wil zeggen, de verandering van de populatie op elk moment hangt af van de populatie zelf vanwege de interacties tussen samples. Dit is met name cruciaal voor gepersonaliseerde geneeskunde, waar de ontwikkeling van ziekten en hun respectievelijke behandelrespons afhangt van de micro-omgeving van cellen die specifiek is voor elke patiënt. Wij stellen Meta Flow Matching (MFM) voor, een praktische benadering om langs deze vectorvelden op de Wasserstein-variëteit te integreren door het stroommodel te amortiseren over de initiële populaties. Concreet embedden we de populatie van samples met behulp van een Graph Neural Network (GNN) en gebruiken we deze embeddings om een Flow Matching-model te trainen. Hierdoor kan MFM, in tegenstelling tot eerder voorgestelde methoden, generaliseren over de initiële verdelingen. Wij demonstreren het vermogen van MFM om de voorspelling van individuele behandelresponsen te verbeteren op een grootschalige multi-patiënt single-cell drug screen dataset.