Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoogwaardige instructiedata is cruciaal voor het afstemmen van grote taalmmodellen (LLM's). Hoewel sommige modellen, zoals Llama-3-Instruct, open gewichten hebben, blijven hun afstemmingsdata privé, wat de democratisering van AI belemmert. Hoge menselijke arbeidskosten en een beperkte, vooraf gedefinieerde scope voor prompting voorkomen dat bestaande open-source methoden voor datacreëring effectief kunnen opschalen, wat mogelijk de diversiteit en kwaliteit van publieke afstemmingsdatasets beperkt. Is het mogelijk om hoogwaardige instructiedata op grote schaal te synthetiseren door deze rechtstreeks uit een afgestemd LLM te extraheren? Wij presenteren een zelf-synthese methode voor het genereren van grootschalige afstemmingsdata genaamd Magpie. Onze belangrijkste observatie is dat afgestemde LLM's zoals Llama-3-Instruct een gebruikersquery kunnen genereren wanneer we alleen de linkersjablonen invoeren tot aan de positie gereserveerd voor gebruikersberichten, dankzij hun autoregressieve aard. We gebruiken deze methode om Llama-3-Instruct te prompten en 4 miljoen instructies te genereren, samen met hun bijbehorende reacties. We voeren een uitgebreide analyse uit van de geëxtraheerde data en selecteren 300K hoogwaardige instanties. Om Magpie-data te vergelijken met andere publieke instructiedatasets, fine-tunen we Llama-3-8B-Base met elke dataset en evalueren we de prestaties van de fine-tuned modellen. Onze resultaten geven aan dat in sommige taken modellen die zijn fine-tuned met Magpie vergelijkbaar presteren met de officiële Llama-3-8B-Instruct, ondanks dat de laatste is versterkt met 10 miljoen datapunten door middel van supervised fine-tuning (SFT) en daaropvolgend feedbackleren. We laten ook zien dat het gebruik van Magpie uitsluitend voor SFT de prestaties kan overtreffen van eerdere publieke datasets die worden gebruikt voor zowel SFT als voorkeursoptimalisatie, zoals directe voorkeursoptimalisatie met UltraFeedback. Dit voordeel is duidelijk zichtbaar op afstemmingsbenchmarks zoals AlpacaEval, ArenaHard en WildBench.
We stellen een video-editingframework voor, NaRCan, dat een hybride vervormingsveld en een diffusieprior integreert om hoogwaardige natuurlijke canonieke afbeeldingen te genereren die de invoervideo representeren. Onze aanpak maakt gebruik van homografie om globale beweging te modelleren en gebruikt multi-layer perceptrons (MLPs) om lokale resterende vervormingen vast te leggen, waardoor het vermogen van het model om complexe videodynamiek te verwerken wordt verbeterd. Door een diffusieprior vanaf de vroege fasen van de training te introduceren, zorgt ons model ervoor dat de gegenereerde afbeeldingen een hoogwaardig natuurlijk uiterlijk behouden, waardoor de geproduceerde canonieke afbeeldingen geschikt zijn voor verschillende downstream taken in video-editing, een mogelijkheid die niet wordt bereikt door huidige canonieke methoden. Bovendien integreren we low-rank adaptation (LoRA) fine-tuning en introduceren we een techniek voor het plannen van ruis- en diffusiepriorupdates die het trainingsproces met 14 keer versnelt. Uitgebreide experimentele resultaten tonen aan dat onze methode bestaande benaderingen overtreft in verschillende video-editingtaken en samenhangende en hoogwaardige bewerkte videosequenties produceert. Bekijk onze projectpagina voor videoresultaten op https://koi953215.github.io/NaRCan_page/.
Op beweging gebaseerde regelbare tekst-naar-video-generatie maakt gebruik van bewegingen om de videogeneratie te sturen. Eerdere methoden vereisen doorgaans het trainen van modellen om bewegingssignalen te coderen of het finetunen van videodiffusiemodellen. Deze benaderingen resulteren echter vaak in suboptimale bewegingsgeneratie wanneer ze buiten het getrainde domein worden toegepast. In dit werk stellen we MotionClone voor, een trainingsvrij raamwerk dat het klonen van bewegingen vanuit een referentievideo mogelijk maakt om tekst-naar-video-generatie te sturen. We gebruiken temporele aandacht in video-inversie om de bewegingen in de referentievideo weer te geven en introduceren primaire temporele-aandachtsturing om de invloed van ruisachtige of zeer subtiele bewegingen binnen de aandachtgewichten te verminderen. Bovendien stellen we een locatiebewust semantisch stuurmechanisme voor om het generatiemodel te helpen redelijke ruimtelijke relaties te synthetiseren en zijn promptvolgingsvermogen te verbeteren. Dit mechanisme maakt gebruik van de grove locatie van de voorgrond uit de referentievideo en originele classifier-free stuurkenmerken om de videogeneratie te begeleiden. Uitgebreide experimenten tonen aan dat MotionClone bedreven is in zowel globale camerabewegingen als lokale objectbewegingen, met opmerkelijke superioriteit op het gebied van bewegingsgetrouwheid, tekstuele uitlijning en temporele consistentie.
Beeld-tekstparen die via webcrawling zijn verzameld, zijn inherent onnauwkeurig. Eerdere studies tonen aan dat het semantisch uitlijnen en verrijken van de tekstuele beschrijvingen van deze paren de modeltraining voor diverse visie-taal taken aanzienlijk kan verbeteren, met name bij tekst-naar-beeld generatie. Grootschalig onderzoek op dit gebied blijft echter voornamelijk gesloten. Ons artikel heeft als doel deze gemeenschappelijke inspanning te overbruggen door gebruik te maken van de krachtige en open-source LLaMA-3, een GPT-4-niveau LLM. Onze herbeschrijvingspijplijn is eenvoudig: eerst fine-tunen we een LLaMA-3-8B aangedreven LLaVA-1.5 en vervolgens gebruiken we deze om 1,3 miljard afbeeldingen uit de DataComp-1B dataset opnieuw te beschrijven. Onze empirische resultaten bevestigen dat deze verbeterde dataset, Recap-DataComp-1B, aanzienlijke voordelen biedt bij het trainen van geavanceerde visie-taal modellen. Voor discriminerende modellen zoals CLIP, observeren we een verbeterde zero-shot prestaties in cross-modale retrieval taken. Voor generatieve modellen zoals tekst-naar-beeld Diffusion Transformers, vertonen de gegenereerde afbeeldingen een aanzienlijke verbetering in de afstemming met de tekstuele instructies van gebruikers, vooral bij het volgen van complexe queries. Onze projectpagina is te vinden op https://www.haqtu.me/Recap-Datacomp-1B/.
Misschien niet. We identificeren en analyseren fouten in de populaire Massive Multitask Language Understanding (MMLU) benchmark. Hoewel MMLU breed wordt geadopteerd, toont onze analyse talrijke grondwaarheidsfouten aan die de werkelijke capaciteiten van LLMs verhullen. Zo ontdekken we dat 57% van de geanalyseerde vragen in de Virologie-subset fouten bevat. Om dit probleem aan te pakken, introduceren we een uitgebreid raamwerk voor het identificeren van datasetfouten met behulp van een nieuwe foutentaxonomie. Vervolgens creëren we MMLU-Redux, een subset van 3.000 handmatig geannoteerde vragen uit 30 MMLU-onderwerpen. Met MMLU-Redux demonstreren we significante discrepanties met de oorspronkelijk gerapporteerde modelprestatiemetingen. Onze resultaten pleiten sterk voor het herzien van de foutgevoelige vragen in MMLU om de toekomstige bruikbaarheid en betrouwbaarheid als benchmark te verbeteren. Daarom stellen we MMLU-Redux open voor aanvullende annotatie: https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
In de afgelopen jaren is er een snelle ontwikkeling geweest in 3D-generatiemodellen, wat nieuwe mogelijkheden heeft geopend voor toepassingen zoals het simuleren van de dynamische bewegingen van 3D-objecten en het aanpassen van hun gedrag. Huidige 3D-generatieve modellen richten zich echter vaak alleen op oppervlaktekenmerken zoals kleur en vorm, waarbij de inherente fysieke eigenschappen die het gedrag van objecten in de echte wereld bepalen, worden verwaarloosd. Om nauwkeurig fysiek-gealigneerde dynamica te simuleren, is het essentieel om de fysieke eigenschappen van materialen te voorspellen en deze te integreren in het gedragsvoorspellingsproces. Desalniettemin blijft het voorspellen van de diverse materialen van objecten uit de echte wereld een uitdaging vanwege de complexe aard van hun fysieke attributen. In dit artikel stellen we Physics3D voor, een nieuwe methode voor het leren van verschillende fysieke eigenschappen van 3D-objecten via een videodiffusiemodel. Onze aanpak omvat het ontwerpen van een zeer generaliseerbaar fysisch simulatatiesysteem gebaseerd op een visco-elastisch materiaalmodel, waarmee we een breed scala aan materialen met hoogwaardige mogelijkheden kunnen simuleren. Bovendien distilleren we de fysieke priors uit een videodiffusiemodel dat meer begrip bevat van realistische objectmaterialen. Uitgebreide experimenten tonen de effectiviteit van onze methode aan, zowel voor elastische als plastische materialen. Physics3D toont groot potentieel om de kloof tussen de fysieke wereld en de virtuele neurale ruimte te overbruggen, waardoor een betere integratie en toepassing van realistische fysieke principes in virtuele omgevingen mogelijk wordt gemaakt. Projectpagina: https://liuff19.github.io/Physics3D.
Dit artikel introduceert PowerInfer-2, een framework ontworpen voor snelle inferentie van Large Language Models (LLM's) op smartphones, met name effectief voor modellen waarvan de grootte de geheugencapaciteit van het apparaat overschrijdt. De kern van PowerInfer-2 is het benutten van de heterogene reken-, geheugen- en I/O-bronnen in smartphones door traditionele matrixberekeningen op te splitsen in fijnmazige neuronclusterberekeningen. Specifiek beschikt PowerInfer-2 over een polymorfe neuron-engine die rekenstrategieën aanpast voor verschillende fasen van LLM-inferentie. Daarnaast introduceert het gesegmenteerde neuron-caching en fijnmazige pipelining op neuronclusterniveau, wat de overhead veroorzaakt door I/O-operaties effectief minimaliseert en verbergt. De implementatie en evaluatie van PowerInfer-2 tonen aan dat het een breed scala aan LLM-modellen kan ondersteunen op twee smartphones, met een snelheidstoename van tot 29,2x vergeleken met state-of-the-art frameworks. Opmerkelijk is dat PowerInfer-2 het eerste systeem is dat het TurboSparse-Mixtral-47B-model kan bedienen met een generatiesnelheid van 11,68 tokens per seconde op een smartphone. Voor modellen die volledig in het geheugen passen, kan PowerInfer-2 een vermindering van ongeveer 40% in geheugengebruik bereiken, terwijl de inferentiesnelheden vergelijkbaar blijven met die van llama.cpp en MLC-LLM. Voor meer details, inclusief een demonstratievideo, bezoek de projectsite op www.powerinfer.ai/v2.
In dit artikel presenteren we VideoLLaMA 2, een set Video Large Language Models (Video-LLMs) die zijn ontworpen om ruimtelijk-temporele modellering en audio-begrip te verbeteren in video- en audio-gerichte taken. Voortbouwend op zijn voorganger, integreert VideoLLaMA 2 een op maat gemaakte Spatial-Temporal Convolution (STC)-connector, die effectief de complexe ruimtelijke en temporele dynamiek van videodata vastlegt. Daarnaast integreren we een Audio Branch in het model via gezamenlijke training, waardoor de multimodale begripscapaciteiten van het model worden verrijkt door audio-signalen naadloos te incorporeren. Uitgebreide evaluaties op meerkeuzevragen over video (MC-VQA), open-einde video-vragen (OE-VQA) en video-onderschrijving (VC) taken tonen aan dat VideoLLaMA 2 consistent competitieve resultaten behaalt onder open-source modellen en zelfs dicht in de buurt komt van enkele propriëtaire modellen op verschillende benchmarks. Bovendien laat VideoLLaMA 2 redelijke verbeteringen zien in audio-only en audio-video vraag-antwoord (AQA & OE-AVQA) benchmarks ten opzichte van bestaande modellen. Deze vooruitgang onderstreept de superieure prestaties van VideoLLaMA 2 in multimodaal begrip, wat een nieuwe standaard zet voor intelligente video-analysesystemen. Alle modellen zijn openbaar gemaakt om verder onderzoek te faciliteren.
De integratie van taal en 3D-perceptie is cruciaal voor de ontwikkeling van belichaamde agents en robots die de fysieke wereld begrijpen en ermee interacteren. Hoewel grote taalmmodellen (LLMs) indrukwekkende taalbegrip- en generatiecapaciteiten hebben getoond, staat hun aanpassing aan 3D-omgevingen (3D-LLMs) nog in de kinderschoenen. Een belangrijke uitdaging is het ontbreken van grootschalige datasets die een dichte verankering tussen taal en 3D-scènes bieden. In dit artikel introduceren we 3D-GRAND, een baanbrekende grootschalige dataset bestaande uit 40.087 huishoudelijke scènes, gekoppeld aan 6,2 miljoen dicht verankerde scène-taal instructies. Onze resultaten tonen aan dat instructieafstemming met 3D-GRAND de verankeringscapaciteiten aanzienlijk verbetert en hallucinaties in 3D-LLMs vermindert. Als onderdeel van onze bijdragen stellen we een uitgebreide benchmark 3D-POPE voor om hallucinaties in 3D-LLMs systematisch te evalueren, wat eerlijke vergelijkingen tussen toekomstige modellen mogelijk maakt. Onze experimenten benadrukken een schaaleffect tussen de grootte van de dataset en de prestaties van 3D-LLMs, wat het cruciale belang van grootschalige 3D-tekst datasets in het bevorderen van belichaamd AI-onderzoek onderstreept. Opmerkelijk is dat onze resultaten vroege signalen tonen voor effectieve sim-to-real transfer, wat aangeeft dat modellen die getraind zijn op grote synthetische data goed kunnen presteren op real-world 3D-scans. Met 3D-GRAND en 3D-POPE willen we de belichaamde AI-gemeenschap voorzien van essentiële bronnen en inzichten, en zo de basis leggen voor betrouwbaardere en beter verankerde 3D-LLMs. Projectwebsite: https://3d-grand.github.io
Multimodale Taalmodellen (MLLMs) demonstreren de opkomende capaciteiten van "wereldmodellen" — het interpreteren en redeneren over complexe dynamieken uit de echte wereld. Om deze capaciteiten te beoordelen, stellen we dat video's het ideale medium zijn, omdat ze rijke representaties van real-world dynamieken en causaliteiten bevatten. Hiertoe introduceren we MMWorld, een nieuwe benchmark voor multidisciplinair, veelzijdig multimodaal videobegrip. MMWorld onderscheidt zich van eerdere benchmarks voor videobegrip met twee unieke voordelen: (1) multidisciplinair, waarbij verschillende disciplines worden bestreken die vaak domeinkennis vereisen voor een grondig begrip; (2) veelzijdig redeneren, inclusief uitleg, contrafeitelijk denken, toekomstvoorspelling, enz. MMWorld bestaat uit een door mensen geannoteerde dataset om MLLMs te evalueren met vragen over de volledige video's en een synthetische dataset om MLLMs te analyseren binnen een enkele waarnemingsmodaliteit. Samen omvat MMWorld 1.910 video's over zeven brede disciplines en 69 subdisciplines, compleet met 6.627 vraag-antwoordparen en bijbehorende bijschriften. De evaluatie omvat 2 propriëtaire en 10 open-source MLLMs, die moeite hebben met MMWorld (bijvoorbeeld GPT-4V presteert het beste met slechts 52,3% nauwkeurigheid), wat een grote ruimte voor verbetering laat zien. Verdere ablatiestudies onthullen andere interessante bevindingen, zoals de verschillende vaardigheden van modellen in vergelijking met mensen. We hopen dat MMWorld een essentiële stap kan zijn naar de evaluatie van wereldmodellen in video's.
Het benutten van activatiesparsheid is een veelbelovende aanpak om het inferentieproces van grote taalmodelen (LLMs) aanzienlijk te versnellen zonder in te leveren op prestaties. Activatiesparsheid wordt echter bepaald door activatiefuncties, en veelgebruikte functies zoals SwiGLU en GeGLU vertonen beperkte sparsheid. Het simpelweg vervangen van deze functies door ReLU resulteert niet in voldoende sparsheid. Bovendien kan onvoldoende trainingsdata het risico op prestatieverlies verder vergroten. Om deze uitdagingen aan te pakken, stellen we een nieuwe dReLU-functie voor, die is ontworpen om de activatiesparsheid van LLMs te verbeteren, samen met een hoogwaardige mixverhouding van trainingsdata om effectieve versparsing te bevorderen. Daarnaast maken we gebruik van sparse activatiepatronen binnen de Feed-Forward Network (FFN) experts van Mixture-of-Experts (MoE) modellen om de efficiëntie verder te verhogen. Door onze neuronversparsingsmethode toe te passen op de Mistral- en Mixtral-modellen, worden er per inferentie-iteratie respectievelijk slechts 2,5 miljard en 4,3 miljard parameters geactiveerd, terwijl de modelprestaties zelfs krachtiger worden. Evaluatieresultaten tonen aan dat deze sparsheid een 2-5x versnelling van het decodeerproces oplevert. Opmerkelijk is dat onze TurboSparse-Mixtral-47B op mobiele telefoons een inferentiesnelheid van 11 tokens per seconde bereikt. Onze modellen zijn beschikbaar op https://huggingface.co/PowerInfer.
Onlangs heeft de toepassing van moderne diffusiegebaseerde tekst-naar-beeldgeneratiemodellen voor het creëren van artistieke lettertypen, traditioneel het domein van professionele ontwerpers, aanzienlijke belangstelling gewekt. In tegenstelling tot de meerderheid van bestaande studies die zich richten op het genereren van artistieke typografie, streeft ons onderzoek naar het aanpakken van een nieuwe en uitdagender taak: het genereren van teksteffecten voor meertalige lettertypen. Deze taak vereist in essentie het genereren van samenhangende en consistente visuele inhoud binnen de grenzen van een canvas in de vorm van een lettertype, in plaats van een traditioneel rechthoekig canvas. Om deze taak aan te pakken, introduceren we een nieuw vormadaptief diffusiemodel dat in staat is om de gegeven vorm te interpreteren en strategisch pixelverdelingen binnen het onregelmatige canvas te plannen. Om dit te bereiken, stellen we een hoogwaardige vormadaptieve beeld-tekstdataset samen en integreren we het segmentatiemasker als visuele voorwaarde om het beeldgeneratieproces binnen het onregelmatige canvas te sturen. Deze aanpak stelt het traditionele op rechthoekige canvas gebaseerde diffusiemodel in staat om de gewenste concepten te produceren in overeenstemming met de verstrekte geometrische vormen. Ten tweede, om consistentie over meerdere letters te behouden, presenteren we ook een trainingsvrije, vormadaptieve effectoverdrachtsmethode voor het overbrengen van texturen van een gegenereerde referentieletter naar andere. De belangrijkste inzichten zijn het opbouwen van een lettertype-effectruisprior en het verspreiden van de lettertype-effectinformatie in een aaneengeschakelde latente ruimte. De effectiviteit van ons FontStudio-systeem wordt bevestigd door gebruikersvoorkeurstudies, die een duidelijke voorkeur (78% winratio's op esthetiek) voor ons systeem aantonen, zelfs in vergelijking met het nieuwste onovertroffen commerciële product, Adobe Firefly.
Recente Diffusion Transformers (DiTs) hebben indrukwekkende mogelijkheden getoond in het genereren van hoogwaardige inhoud met één modaliteit, waaronder afbeeldingen, video's en audio. Het is echter nog steeds onderbelicht of de transformer-gebaseerde diffuser efficiënt Gaussiaanse ruis kan denoizen richting uitstekende multimodale inhoudcreatie. Om deze kloof te overbruggen, introduceren we AV-DiT, een nieuwe en efficiënte audio-visuele diffusion transformer die is ontworpen om hoogwaardige, realistische video's te genereren met zowel visuele als audiotracks. Om de modelcomplexiteit en rekenkosten te minimaliseren, maakt AV-DiT gebruik van een gedeelde DiT-backbone die vooraf is getraind op alleen beeldgegevens, waarbij alleen lichtgewicht, nieuw ingevoegde adapters trainbaar zijn. Deze gedeelde backbone faciliteert zowel audio- als videogeneratie. Specifiek bevat de videotak een trainbare temporele aandachtlaag in een bevroren, vooraf getrainde DiT-blok voor temporele consistentie. Daarnaast past een klein aantal trainbare parameters het op afbeeldingen gebaseerde DiT-blok aan voor audiogeneratie. Een extra gedeeld DiT-blok, uitgerust met lichtgewicht parameters, faciliteert feature-interactie tussen audio- en visuele modaliteiten, wat zorgt voor uitlijning. Uitgebreide experimenten op de AIST++ en Landscape datasets tonen aan dat AV-DiT state-of-the-art prestaties bereikt in gezamenlijke audio-visuele generatie met aanzienlijk minder afstelbare parameters. Bovendien benadrukken onze resultaten dat een enkele gedeelde backbone voor beeldgeneratie met modaliteit-specifieke aanpassingen voldoende is voor het construeren van een gezamenlijke audio-videogenerator. Onze broncode en vooraf getrainde modellen zullen worden vrijgegeven.
Offline voorkeursoptimalisatie is een belangrijke methode om de kwaliteit van Large Language Model (LLM)-outputs te verbeteren en te beheersen. Doorgaans wordt voorkeursoptimalisatie benaderd als een offline supervised learning-taak met behulp van handmatig ontworpen convexe verliesfuncties. Hoewel deze methoden gebaseerd zijn op theoretische inzichten, worden ze inherent beperkt door menselijke creativiteit, waardoor de grote zoekruimte van mogelijke verliesfuncties onderbelicht blijft. Wij pakken dit aan door LLM-gestuurde objectiefontdekking uit te voeren om automatisch nieuwe state-of-the-art voorkeursoptimalisatie-algoritmen te ontdekken zonder (expert)menselijke tussenkomst. Specifiek vragen we iteratief een LLM om nieuwe voorkeursoptimalisatie-verliesfuncties voor te stellen en te implementeren op basis van eerder geëvalueerde prestatiemetingen. Dit proces leidt tot de ontdekking van voorheen onbekende en hoogpresterende voorkeursoptimalisatie-algoritmen. Het best presterende algoritme noemen we Discovered Preference Optimization (DiscoPOP), een nieuw algoritme dat adaptief logistische en exponentiële verliezen combineert. Experimenten tonen de state-of-the-art prestaties van DiscoPOP aan en het succesvolle gebruik ervan bij niet-getrainde taken.
Diffusiemodellen hebben opmerkelijke prestaties getoond in beeld- en videosynthese. Het opschalen ervan naar hoge-resolutie inputs is echter uitdagend en vereist een herstructurering van de diffusiepijplijn in meerdere onafhankelijke componenten, wat de schaalbaarheid beperkt en downstream toepassingen compliceert. Dit maakt het zeer efficiënt tijdens de training en maakt end-to-end optimalisatie op hoge-resolutie video's mogelijk. We verbeteren PDMs op twee principiële manieren. Ten eerste ontwikkelen we, om consistentie tussen patches te waarborgen, deep context fusion -- een architecturale techniek die contextinformatie op een hiërarchische manier van lage-schaal naar hoge-schaal patches doorgeeft. Ten tweede stellen we, om training en inferentie te versnellen, adaptieve berekening voor, die meer netwerkcapaciteit en berekening toewijst aan grove beelddetails. Het resulterende model behaalt een nieuwe state-of-the-art FVD-score van 66.32 en een Inception Score van 87.68 in klasse-conditionele videogeneratie op UCF-101 256^2, wat recente methoden met meer dan 100% overtreft. Vervolgens tonen we aan dat het snel kan worden afgestemd vanuit een basis 36x64 lage-resolutie generator voor hoge-resolutie 64x288x512 tekst-naar-video synthese. Voor zover wij weten, is ons model het eerste diffusie-gebaseerde architectuur dat op dergelijke hoge resoluties volledig end-to-end wordt getraind. Projectwebpagina: https://snap-research.github.io/hpdm.
Helder zien met hoge resolutie is een fundament van Grote Multimodale Modellen (LMMs), wat bewezen is van vitaal belang te zijn voor visuele perceptie en redenering. Bestaande werken gebruiken meestal een eenvoudige methode voor resolutie-opschaling, waarbij de afbeelding bestaat uit globale en lokale takken, waarbij de laatste de gesneden afbeeldingspatches zijn maar worden aangepast aan dezelfde resolutie als de eerste. Dit betekent dat een hogere resolutie meer lokale patches vereist, wat resulteert in exorbitante rekenkosten, en tegelijkertijd kan de dominantie van lokale afbeeldingstokens de globale context verminderen. In dit artikel duiken we in de problemen en stellen we een nieuw framework voor, evenals een uitgebreide optimalisatiestrategie. Specifiek extraheren we contextuele informatie uit het globale beeld met behulp van een mengsel van adapters, gebaseerd op de observatie dat verschillende adapters uitblinken in verschillende taken. Met betrekking tot lokale patches worden leerbare query-embeddings geïntroduceerd om afbeeldingstokens te verminderen, waarbij de belangrijkste tokens die betrekking hebben op de gebruikersvraag verder worden geselecteerd door een op gelijkenis gebaseerde selector. Onze empirische resultaten tonen een 'minder is meer'-patroon, waarbij het gebruik van minder maar meer informatieve lokale afbeeldingstokens leidt tot verbeterde prestaties. Daarnaast ligt een belangrijke uitdaging in de trainingsstrategie, aangezien gelijktijdige end-to-end training van het globale mijnblok en het lokale compressieblok niet optimale resultaten oplevert. Wij pleiten daarom voor een afwisselende trainingswijze, die een gebalanceerd leren tussen globale en lokale aspecten waarborgt. Tot slot introduceren we ook een uitdagende dataset met hoge eisen aan afbeeldingsdetails, wat de training van de lokale compressielaag versterkt. De voorgestelde methode, genaamd LMM met Verfijnde Taken, Lokale afbeeldingscompressie en Mengsel van Globale Experts (SliME), behaalt toonaangevende prestaties op verschillende benchmarks met slechts 2 miljoen trainingsdata.
We introduceren Visual Caption Restoration (VCR), een nieuwe vision-language taak die modellen uitdaagt om gedeeltelijk verborgen teksten nauwkeurig te herstellen met behulp van pixel-level hints binnen afbeeldingen. Deze taak ontstaat uit de observatie dat tekst die in afbeeldingen is ingebed, intrinsiek verschilt van veelvoorkomende visuele elementen en natuurlijke taal vanwege de noodzaak om de modaliteiten van visie, tekst en tekst ingebed in afbeeldingen op elkaar af te stemmen. Hoewel talrijke werken tekst ingebed in afbeeldingen hebben geïntegreerd in visuele vraag-antwoordtaken, vertrouwen benaderingen voor deze taken over het algemeen op optische tekenherkenning of gemaskeerde taalmodellering, waardoor de taak voornamelijk wordt gereduceerd tot tekstgebaseerde verwerking. Echter, tekstgebaseerde verwerking wordt ineffectief in VCR, aangezien nauwkeurige tekstherstel afhangt van de gecombineerde informatie uit de verstrekte afbeeldingen, context en subtiele aanwijzingen uit de kleine blootgestelde gebieden van gemaskeerde teksten. We ontwikkelen een pijplijn om synthetische afbeeldingen te genereren voor de VCR-taak met behulp van afbeelding-bijschriftparen, met instelbare bijschriftzichtbaarheid om de taakmoeilijkheid te beheersen. Met deze pijplijn construeren we een dataset voor VCR genaamd VCR-Wiki met behulp van afbeeldingen met bijschriften van Wikipedia, bestaande uit 2,11 miljoen Engelse en 346 duizend Chinese entiteiten in zowel makkelijke als moeilijke splitsvarianten. Onze resultaten onthullen dat huidige vision-language modellen aanzienlijk achterblijven bij menselijke prestaties in de VCR-taak, en het louter finetunen van de modellen op onze dataset leidt niet tot opmerkelijke verbeteringen. We geven VCR-Wiki en de code voor dataconstructie vrij om toekomstig onderzoek te faciliteren.
Het modelleren van multivariate tijdreeksen is een goed ingeburgerd probleem met een breed scala aan toepassingen, van gezondheidszorg tot financiële markten. Traditionele State Space Models (SSM's) zijn klassieke benaderingen voor het modelleren van univariate tijdreeksen vanwege hun eenvoud en expressieve kracht om lineaire afhankelijkheden weer te geven. Ze hebben echter fundamenteel beperkte expressieve kracht om niet-lineaire afhankelijkheden vast te leggen, zijn in de praktijk traag en slagen er niet in om de informatie-uitwisseling tussen variabelen te modelleren. Ondanks recente pogingen om de expressieve kracht van SSM's te verbeteren door gebruik te maken van diep gestructureerde SSM's, zijn de bestaande methoden ofwel beperkt tot univariate tijdreeksen, slagen ze er niet in om complexe patronen (bijv. seizoenspatronen) te modelleren, slagen ze er niet in om de afhankelijkheden van variabele en tijdsdimensies dynamisch te modelleren, en/of zijn ze invoeronafhankelijk. Wij presenteren Chimera, dat twee invoerafhankelijke 2D-SSM-heads gebruikt met verschillende discretisatieprocessen om langetermijnprogressie en seizoenspatronen te leren. Om de efficiëntie van complexe 2D-recurrentie te verbeteren, presenteren we een snelle training met behulp van een nieuwe 2-dimensionale parallelle selectieve scan. We presenteren en bespreken verder 2-dimensionale Mamba en Mamba-2 als speciale gevallen van onze 2D-SSM. Onze experimentele evaluatie toont de superieure prestaties van Chimera op uitgebreide en diverse benchmarks, waaronder ECG- en spraaktijdreeksclassificatie, langetermijn- en kortetermijntijdreeksvoorspelling, en tijdreeksanomaliedetectie.
Pathologie, de microscopische analyse van ziek weefsel, is essentieel voor het diagnosticeren van verschillende medische aandoeningen, met name kanker. Traditionele methoden zijn arbeidsintensief en gevoelig voor menselijke fouten. Digitale pathologie, waarbij glasplaatjes worden omgezet in hoogwaardige digitale afbeeldingen voor analyse door computeralgoritmen, revolutioneert het vakgebied door de diagnostische nauwkeurigheid, consistentie en efficiëntie te verbeteren via geautomatiseerde beeldanalyse en grootschalige gegevensverwerking. Fundamentele transformer-pretraining is cruciaal voor het ontwikkelen van robuuste, generaliseerbare modellen, omdat het leren van grote hoeveelheden niet-geannoteerde data mogelijk maakt. Dit artikel introduceert de Hibou-familie van fundamentele vision transformers voor pathologie, waarbij het DINOv2-framework wordt gebruikt om twee modelvarianten, Hibou-B en Hibou-L, te pretrainen op een propriëtaire dataset van meer dan 1 miljoen whole slide images (WSI’s) die diverse weefseltypen en kleuringstechnieken vertegenwoordigen. Onze gepretrainde modellen tonen superieure prestaties op zowel patch- als slide-level benchmarks en overtreffen bestaande state-of-the-art methoden. Met name Hibou-L behaalt de hoogste gemiddelde nauwkeurigheid over meerdere benchmarkdatasets. Om verder onderzoek en toepassing in het veld te ondersteunen, hebben we het Hibou-B model open-source gemaakt, dat toegankelijk is op https://github.com/HistAI/hibou.
Grote taalmmodellen (LLMs) hebben zich ontwikkeld om uitgebreide kennis over diverse domeinen te omvatten. Toch is het bepalen wat een groot taalmodel niet zou moeten weten belangrijk om afstemming en daarmee veilig gebruik te waarborgen. Het nauwkeurig en efficiënt afleren van kennis uit een LLM blijft echter een uitdaging vanwege de mogelijke nevenschade veroorzaakt door de vage grens tussen behoud en vergeten, en de grote rekenkundige vereisten voor optimalisatie in state-of-the-art modellen met honderden miljarden parameters. In dit werk presenteren we Embedding-COrrupted (ECO) Prompts, een lichtgewicht afleren-framework voor grote taalmmodellen om zowel de uitdagingen van kennisverstrengeling als de efficiëntie van afleren aan te pakken. In plaats van te vertrouwen op het LLM zelf om kennis af te leren, dwingen we een afgeleerde staat af tijdens inferentie door gebruik te maken van een promptclassificator om prompts te identificeren en te beschermen die vergeten moeten worden. We leren corrupties toegevoegd aan prompt-embeddings via nulde-orde optimalisatie gericht op het afleren-doel offline en corrumperen prompts die door de classificator zijn gemarkeerd tijdens inferentie. We ontdekken dat deze embedding-gecorrumpeerde prompts niet alleen leiden tot gewenste uitkomsten die voldoen aan het afleren-doel, maar ook dicht in de buurt komen van de uitkomst van een model dat nooit is getraind op de data die vergeten moet worden. Door uitgebreide experimenten met afleren demonstreren we de superioriteit van onze methode in het bereiken van veelbelovend afleren met bijna geen neveneffecten in algemene domeinen en domeinen die nauw verwant zijn aan de afgeleerde domeinen. Daarnaast benadrukken we de schaalbaarheid van onze methode naar 100 LLMs, variërend van 0,5B tot 236B parameters, zonder extra kosten naarmate het aantal parameters toeneemt.
Gemaskerde (of absorberende) diffusie wordt actief onderzocht als alternatief voor autoregressieve modellen voor generatieve modellering van discrete data. Echter, bestaand werk op dit gebied is belemmerd door onnodig complexe modelformuleringen en onduidelijke relaties tussen verschillende perspectieven, wat heeft geleid tot suboptimale parameterisatie, trainingsdoelen en ad hoc aanpassingen om deze problemen tegen te gaan. In dit werk streven we ernaar om een eenvoudig en algemeen raamwerk te bieden dat het volledige potentieel van gemaskerde diffusiemodellen ontsluit. We laten zien dat het continue-tijd variatie-objectief van gemaskerde diffusiemodellen een eenvoudige gewogen integraal van kruisentropieverliezen is. Ons raamwerk maakt het ook mogelijk om gegeneraliseerde gemaskerde diffusiemodellen te trainen met toestandsafhankelijke maskeringsschema's. Wanneer geëvalueerd op perplexiteit, overtreffen onze op OpenWebText getrainde modellen eerdere diffusietaalmodellen op GPT-2-schaal en tonen ze superieure prestaties op 4 van de 5 zero-shot taalmodelleertaken. Bovendien presteren onze modellen aanzienlijk beter dan eerdere discrete diffusiemodellen op pixel-niveau beeldmodellering, met 2,78 (CIFAR-10) en 3,42 (ImageNet 64x64) bits per dimensie, wat vergelijkbaar of beter is dan autoregressieve modellen van vergelijkbare grootte.