Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De snelle vooruitgang in Vision-Language Modellen (VLM's) heeft een groot potentieel laten zien in het aanpakken van wiskundige redeneertaken die visuele context omvatten. In tegenstelling tot mensen die betrouwbaar oplossingsstappen kunnen toepassen op vergelijkbare problemen met kleine aanpassingen, hebben we ontdekt dat toonaangevende VLM's zoals GPT-4o consequent kunnen falen in deze scenario's, waarbij beperkingen in hun wiskundige redeneervermogen aan het licht komen. In dit artikel onderzoeken we de robuustheid van wiskundige redenering in VLM's en evalueren we hoe goed deze modellen presteren onder verschillende varianten van dezelfde vraag, zoals veranderingen in visuele numerieke waarden of functiegrafieken. Hoewel er verschillende op visie gebaseerde wiskundige benchmarks zijn ontwikkeld om de probleemoplossende capaciteiten van VLM's te beoordelen, bevatten deze benchmarks alleen statische sets van problemen en kunnen ze de robuustheid van wiskundige redenering niet gemakkelijk evalueren. Om deze lacune op te vullen, introduceren we DynaMath, een dynamische visuele wiskundige benchmark die is ontworpen voor een diepgaande beoordeling van VLM's. DynaMath bevat 501 hoogwaardige, multidisciplinaire basisvragen, elk gerepresenteerd als een Python-programma. Die programma's zijn zorgvuldig ontworpen en geannoteerd om de automatische generatie van een veel grotere set concrete vragen mogelijk te maken, inclusief veel verschillende soorten visuele en tekstuele variaties. DynaMath stelt ons in staat om het generalisatievermogen van VLM's te evalueren door hun prestaties te beoordelen onder variërende invoercondities van een basisvraag. We hebben 14 toonaangevende VLM's geëvalueerd met 5.010 gegenereerde concrete vragen. Onze resultaten tonen aan dat de modelnauwkeurigheid in het slechtste geval, gedefinieerd als het percentage correct beantwoorde basisvragen in alle 10 varianten, aanzienlijk lager is dan de nauwkeurigheid in het gemiddelde geval. Onze analyse benadrukt de noodzaak om de robuustheid van de redeneervaardigheden van VLM's te bestuderen, en DynaMath biedt waardevolle inzichten om de ontwikkeling van betrouwbaardere modellen voor wiskundige redenering te sturen.
Mixture of Experts (MoEs) speelt een belangrijke rol in de ontwikkeling van meer efficiënte en effectieve grote taalmodellen (LLMs). Vanwege de enorme resourcevereisten blijven de studie van grootschalige MoE-algoritmes ontoegankelijk voor veel onderzoekers. Dit werk ontwikkelt LibMoE, een uitgebreid en modulair framework om het onderzoek, de training en de evaluatie van MoE-algoritmes te stroomlijnen. Gebaseerd op drie kernprincipes: (i) modulair ontwerp, (ii) efficiënte training; (iii) uitgebreide evaluatie, maakt LibMoE MoE in LLMs toegankelijker voor een breed scala aan onderzoekers door de training en evaluatiepijplijnen te standaardiseren. Met behulp van LibMoE hebben we uitgebreid vijf toonaangevende MoE-algoritmes getest op drie verschillende LLMs en 11 datasets onder de zero-shot instelling. De resultaten tonen aan dat ondanks de unieke kenmerken, alle MoE-algoritmes ongeveer vergelijkbaar presteren wanneer ze gemiddeld worden over een breed scala aan taken. Met het modulaire ontwerp en uitgebreide evaluatie geloven we dat LibMoE van onschatbare waarde zal zijn voor onderzoekers om zinvolle vooruitgang te boeken naar de volgende generatie van MoE en LLMs. Projectpagina: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
Ondanks de populariteit van de kwantisatie van grote taalmodellen (LLM) voor versnelling van inferentie, blijft er aanzienlijke onzekerheid bestaan over de nauwkeurigheids-prestatieafwegingen die gepaard gaan met verschillende kwantisatieformaten. We presenteren een uitgebreide empirische studie van gekwantiseerde nauwkeurigheid, waarbij populaire kwantisatieformaten (FP8, INT8, INT4) worden geëvalueerd op academische benchmarks en real-world taken, op de volledige Llama-3.1 model familie. Daarnaast onderzoekt onze studie het verschil in gegenereerde tekst door gekwantiseerde modellen versus hun ongecomprimeerde tegenhangers. Naast benchmarks presenteren we ook een paar kwantisatieverbeteringen die ons in staat stelden om resultaten van state-of-the-art nauwkeurigheidsherstel te behalen. Ons onderzoek, waarbij meer dan 500.000 individuele evaluaties zijn betrokken, levert verschillende belangrijke bevindingen op: (1) FP8 gewichts- en activiteitskwantisatie (W8A8-FP) is verliesvrij over alle model schalen, (2) INT8 gewichts- en activiteitskwantisatie (W8A8-INT), wanneer correct afgestemd, leidt tot verrassend lage 1-3% nauwkeurigheidsdegradatie, en (3) INT4 alleen-gewicht kwantisatie (W4A16-INT) is concurrerend met 8-bit gehele getal gewichts- en activiteitskwantisatie. Om de vraag naar het "beste" formaat voor een bepaalde implementatieomgeving aan te pakken, voeren we een analyse van inferentieprestaties uit met behulp van het populaire open-source vLLM-framework op verschillende GPU-architecturen. We vinden dat W4A16 de beste kostenefficiëntie biedt voor synchrone implementaties, en voor asynchrone implementatie op mid-tier GPU's. Tegelijkertijd excelleren W8A8-formaten in asynchrone "continue batch" implementatie van middelgrote en grote modellen op high-end GPU's. Onze resultaten bieden een reeks praktische richtlijnen voor het implementeren van gekwantiseerde LLM's over verschillende schalen en prestatievereisten.
Autonome agenten zijn steeds belangrijker geworden voor interactie met de echte wereld. Android agenten worden met name vaak genoemd als interactiemethode. Echter, bestaande studies voor het trainen en evalueren van Android agenten missen systematisch onderzoek naar zowel open-source als gesloten-source modellen. In dit werk stellen we AndroidLab voor als een systematisch framework voor Android agenten. Het omvat een operationele omgeving met verschillende modaliteiten, actieruimte, en een reproduceerbare benchmark. Het ondersteunt zowel grote taalmodellen (LLM's) als multimodale modellen (LMM's) in dezelfde actieruimte. De AndroidLab benchmark bevat vooraf gedefinieerde Android virtuele apparaten en 138 taken over negen apps gebouwd op deze apparaten. Door gebruik te maken van de AndroidLab omgeving, ontwikkelen we een Android Instructiedataset en trainen we zes open-source LLM's en LMM's, waarbij de gemiddelde succespercentages stijgen van 4.59% naar 21.50% voor LLM's en van 1.93% naar 13.28% voor LMM's. AndroidLab is open-source en publiekelijk beschikbaar op https://github.com/THUDM/Android-Lab.
Grote taalmodellen (LLM's) hebben opmerkelijk potentieel getoond als autonome agenten, met name bij webgebaseerde taken. Bestaande LLM-webagenten vertrouwen echter zwaar op dure eigen LLM-API's, terwijl open LLM's de noodzakelijke besluitvormingscapaciteiten missen. Dit artikel introduceert WebRL, een zelfevoluerend online curriculumversterkend leerframework dat is ontworpen om hoogwaardige webagenten te trainen met behulp van open LLM's. WebRL pakt drie belangrijke uitdagingen aan bij het bouwen van LLM-webagenten, waaronder de schaarste aan trainings taken, schaarse feedbacksignalen en beleidsverdelingsafwijking bij online leren. Specifiek omvat WebRL 1) een zelfevoluerend curriculum dat nieuwe taken genereert uit onsuccesvolle pogingen, 2) een robuust uitkomstgesuperviseerd beloningsmodel (ORM), en 3) adaptieve versterkingsleerstrategieën om consistente verbeteringen te waarborgen. We passen WebRL toe om open Llama-3.1 en GLM-4 modellen om te vormen tot bekwame webagenten. Op WebArena-Lite verbetert WebRL het succespercentage van Llama-3.1-8B van 4,8% naar 42,4%, en van 6,1% naar 43% voor GLM-4-9B. Deze open modellen overtreffen aanzienlijk de prestaties van GPT-4-Turbo (17,6%) en GPT-4o (13,9%) en presteren beter dan eerdere state-of-the-art webagenten die zijn getraind op open LLM's (AutoWebGLM, 18,2%). Onze bevindingen tonen de effectiviteit van WebRL aan bij het overbruggen van de kloof tussen open en eigen LLM-gebaseerde webagenten, waardoor de weg wordt vrijgemaakt voor meer toegankelijke en krachtige autonome webinteractiesystemen.
OpenAI's Sora benadrukt het potentieel van videogeneratie voor het ontwikkelen van wereldmodellen die voldoen aan fundamentele natuurkundige wetten. Echter kan de capaciteit van videogeneratiemodellen om dergelijke wetten puur uit visuele data te ontdekken zonder menselijke voorkennis in twijfel worden getrokken. Een wereldmodel dat de ware wet leert, zou voorspellingen moeten geven die robuust zijn tegen nuances en correct extrapoleren naar ongeziene scenario's. In dit werk evalueren we over drie belangrijke scenario's: in-distributie, out-of-distributie en combinatoriële generalisatie. We hebben een 2D-simulatietestomgeving ontwikkeld voor objectbeweging en botsingen om video's te genereren die deterministisch worden beheerst door een of meer klassieke mechanische wetten. Dit biedt een onbeperkte hoeveelheid gegevens voor grootschalige experimenten en maakt kwantitatieve evaluatie mogelijk of de gegenereerde video's voldoen aan natuurkundige wetten. We hebben op diffusie gebaseerde videogeneratiemodellen getraind om objectbewegingen te voorspellen op basis van initiële frames. Onze schaalexperimenten tonen perfecte generalisatie binnen de distributie, meetbaar schalingsgedrag voor combinatoriële generalisatie, maar falen in out-of-distributiescenario's. Verdere experimenten onthullen twee belangrijke inzichten over de generalisatiemechanismen van deze modellen: (1) de modellen falen om algemene fysische regels abstract te maken en vertonen in plaats daarvan "geval-gebaseerd" generalisatiegedrag, d.w.z., het nabootsen van het dichtstbijzijnde trainingsvoorbeeld; (2) bij generalisatie naar nieuwe gevallen wordt waargenomen dat modellen verschillende factoren prioriteren bij het verwijzen naar trainingsgegevens: kleur > grootte > snelheid > vorm. Onze studie suggereert dat schalen alleen onvoldoende is voor videogeneratiemodellen om fundamentele natuurkundige wetten te ontdekken, ondanks de rol ervan in het bredere succes van Sora. Zie onze projectpagina op https://phyworld.github.io
Bestaande LLM-agent systemen selecteren doorgaans acties uit een vast en vooraf gedefinieerde set bij elke stap. Hoewel deze benadering effectief is in gesloten, nauw afgebakende omgevingen, betogen wij dat dit twee belangrijke uitdagingen met zich meebrengt bij het implementeren van LLM-agenten in real-world scenario's: (1) het selecteren uit een vastgestelde set acties beperkt aanzienlijk de plannings- en handelingsmogelijkheden van LLM-agenten, en (2) deze benadering vereist aanzienlijke menselijke inspanning om alle mogelijke acties op te sommen en te implementeren, wat onpraktisch wordt in complexe omgevingen met een groot aantal potentiële acties. In dit werk stellen we een LLM-agent framework voor dat de dynamische creatie en samenstelling van acties op een online manier mogelijk maakt. In dit framework interageert de agent met de omgeving door programma's te genereren en uit te voeren die geschreven zijn in een algemene programmeertaal bij elke stap. Bovendien worden gegenereerde acties in de loop van de tijd opgebouwd voor toekomstig hergebruik. Onze uitgebreide experimenten op de GAIA benchmark tonen aan dat dit framework aanzienlijk meer flexibiliteit biedt en eerdere methoden overtreft. Opmerkelijk is dat het een LLM-agent in staat stelt om te herstellen in scenario's waarin er geen relevante actie bestaat in de vooraf gedefinieerde set of wanneer bestaande acties falen door onvoorziene randgevallen. Op het moment van schrijven staan we bovenaan op de GAIA openbare ranglijst. Onze code is te vinden op https://github.com/adobe-research/dynasaur.
Diffusiemodellen hebben uitstekende mogelijkheden aangetoond op het gebied van tekst-naar-afbeelding generatie. Hun semantisch begrip (d.w.z. prompt-opvolging) is ook aanzienlijk verbeterd met grote taalmodellen (bijv. T5, Llama). Echter, bestaande modellen kunnen lang en complex tekstprompts niet perfect verwerken, vooral wanneer de tekstprompts verschillende objecten met talrijke kenmerken en onderlinge ruimtelijke relaties bevatten. Hoewel er veel regionale prompting methoden zijn voorgesteld voor op UNet gebaseerde modellen (SD1.5, SDXL), zijn er nog geen implementaties gebaseerd op de recente Diffusion Transformer (DiT) architectuur, zoals SD3 en FLUX.1. In dit rapport stellen we regionale prompting voor FLUX.1 voor op basis van aandachtsmanipulatie, waardoor DiT in staat is om fijnmazige compositionele tekst-naar-afbeelding generatiecapaciteit te hebben op een trainingvrije manier. De code is beschikbaar op https://github.com/antonioo-c/Regional-Prompting-FLUX.
Texturering is een cruciale stap in de 3D-assetproductieworkflow, die de visuele aantrekkingskracht en diversiteit van 3D-assets verbetert. Ondanks recente vooruitgang in Tekst-naar-Textuur (T2T) generatie, leveren bestaande methoden vaak ondermaatse resultaten op, voornamelijk vanwege lokale discontinuïteiten, inconsistenties over meerdere weergaven en hun sterke afhankelijkheid van UV-uitpakkingsresultaten. Om deze uitdagingen aan te pakken, stellen we een nieuw generatie-verfijning 3D-textureringskader voor genaamd MVPaint, dat hoogwaardige, naadloze texturen kan genereren met nadruk op multi-weergave consistentie. MVPaint bestaat voornamelijk uit drie belangrijke modules. 1) Gesynchroniseerde Multi-weergave Generatie (SMG). Gegeven een 3D-meshmodel genereert MVPaint eerst gelijktijdig multi-weergave beelden door gebruik te maken van een SMG-model, wat leidt tot grove textureringsresultaten met onbeschilderde delen als gevolg van ontbrekende observaties. 2) Ruimtebewuste 3D-Inpainting (S3I). Om volledige 3D-texturering te garanderen, introduceren we de S3I-methode, speciaal ontworpen om effectief texturen aan te brengen op eerder onwaargenomen gebieden. 3) UV-Verfijning (UVR). Bovendien maakt MVPaint gebruik van een UVR-module om de textuurkwaliteit in de UV-ruimte te verbeteren, die eerst een UV-ruimte Super-Resolutie uitvoert, gevolgd door een Ruimtebewust Naad-Gladstrijk algoritme voor het herzien van ruimtelijke textuurdiscontinuïteiten veroorzaakt door UV-uitpakking. Bovendien stellen we twee T2T-evaluatiebenchmarks vast: de Objaverse T2T-benchmark en de GSO T2T-benchmark, gebaseerd op geselecteerde hoogwaardige 3D-meshes uit de Objaverse dataset en de volledige GSO dataset, respectievelijk. Uitgebreide experimentele resultaten tonen aan dat MVPaint bestaande state-of-the-art methoden overtreft. Met name kon MVPaint hoogwaardige texturen genereren met minimale Janus-problemen en zeer verbeterde cross-view consistentie.
In dit artikel introduceren we Hunyuan-Large, momenteel het grootste open-source Transformer-gebaseerde model van een mengeling van experts, met in totaal 389 miljard parameters en 52 miljard activatieparameters, in staat om tot 256K tokens te verwerken. We voeren een grondige evaluatie uit van de superieure prestaties van Hunyuan-Large over verschillende benchmarks, waaronder taalbegrip en -generatie, logisch redeneren, wiskundige probleemoplossing, codering, lange context en geaggregeerde taken, waar het LLama3.1-70B overtreft en vergelijkbare prestaties vertoont in vergelijking met het aanzienlijk grotere LLama3.1-405B-model. Belangrijke kenmerken van Hunyuan-Large zijn synthetische gegevens op grote schaal die vele malen groter zijn dan in eerdere literatuur, een gemengde expertrouteringsstrategie, een techniek voor compressie van key-value cache en een expertspecifieke leersnelheidsstrategie. Daarnaast onderzoeken we ook de schaalwetten en leerschema's van modellen van een mengeling van experts, waarbij we waardevolle inzichten en richtlijnen bieden voor toekomstige modelontwikkeling en -optimalisatie. De code en checkpoints van Hunyuan-Large zijn vrijgegeven om toekomstige innovaties en toepassingen te vergemakkelijken. Codes: https://github.com/Tencent/Hunyuan-Large Modellen: https://huggingface.co/tencent/Tencent-Hunyuan-Large
De grootschalige implementatie van grote taalmodellen (LLM's) in verschillende toepassingen, zoals chatbots en virtuele assistenten, vereist dat LLM's cultureel gevoelig zijn voor de gebruiker om inclusiviteit te waarborgen. Cultuur is uitgebreid bestudeerd in de psychologie en antropologie, en er is recentelijk een toename geweest in onderzoek naar het maken van LLM's die cultureel inclusiever zijn dan alleen meertaligheid, en voortbouwen op bevindingen uit de psychologie en antropologie. In dit artikel onderzoeken we inspanningen om cultureel bewustzijn te integreren in op tekst gebaseerde en multimodale LLM's. We beginnen met het definiëren van cultureel bewustzijn in LLM's, waarbij we de definities van cultuur uit de antropologie en psychologie als vertrekpunt nemen. Vervolgens onderzoeken we de methodologieën die zijn aangenomen voor het creëren van interculturele datasets, strategieën voor culturele inclusie in taken, en methodologieën die zijn gebruikt voor het benchmarken van cultureel bewustzijn in LLM's. Daarnaast bespreken we de ethische implicaties van culturele afstemming, de rol van mens-computerinteractie bij het bevorderen van culturele inclusie in LLM's, en de rol van culturele afstemming bij het bevorderen van sociaalwetenschappelijk onderzoek. Tot slot geven we aanwijzingen voor toekomstig onderzoek op basis van onze bevindingen over lacunes in de literatuur.
Het genereren van temporeel consistente video's van hoge kwaliteit kan rekenkundig kostbaar zijn, vooral over langere tijdsperiodes. Meer recente Diffusion Transformers (DiTs) - ondanks significante vooruitgang op dit gebied - hebben dergelijke uitdagingen alleen maar vergroot doordat ze afhankelijk zijn van grotere modellen en zwaardere aandachtsmechanismen, wat resulteert in langzamere inferentiesnelheden. In dit artikel introduceren we een trainingsvrije methode om video DiTs te versnellen, genaamd Adaptieve Caching (AdaCache), die is gemotiveerd door het feit dat "niet alle video's gelijk zijn": wat betekent dat sommige video's minder denoising-stappen vereisen om een redelijke kwaliteit te bereiken dan andere. Hierop voortbouwend cachen we niet alleen berekeningen via het diffusieproces, maar ontwerpen we ook een cachelogboekschema dat is afgestemd op elke videogeneratie, waarbij de kwaliteit-latency trade-off wordt gemaximaliseerd. We introduceren verder een Bewegingsregulerings (MoReg) schema om videoinformatie binnen AdaCache te benutten, waarbij de berekeningsallocatie wordt gecontroleerd op basis van bewegingsinhoud. Al met al bieden onze plug-and-play bijdragen aanzienlijke versnellingen van inferentie (bijv. tot 4,7x op Open-Sora 720p - 2s videogeneratie) zonder in te leveren op de generatiekwaliteit, over meerdere video DiT baselines.
Recente ontwikkelingen in 2D visuele generatie zijn opmerkelijk succesvol geweest. Echter, 3D en 4D generatie blijven uitdagend in praktische toepassingen vanwege het gebrek aan grootschalige 4D data en effectief modelontwerp. In dit artikel stellen we voor om gezamenlijk algemene 3D en 4D generatie te onderzoeken door gebruik te maken van camera- en objectbewegingen die vaak worden waargenomen in het dagelijks leven. Vanwege het gebrek aan echte 4D data in de gemeenschap, stellen we eerst een gegevenscuratiepijplijn voor om cameraposities en objectbewegingssterkte uit video's te verkrijgen. Op basis van deze pijplijn introduceren we een grootschalige echte 4D scènedataset: CamVid-30K. Door gebruik te maken van alle 3D en 4D data ontwikkelen we ons framework, GenXD, waarmee we elke 3D- of 4D-scène kunnen produceren. We stellen multiview-temporale modules voor, die camerabewegingen en objectbewegingen ontwarren, om naadloos te leren van zowel 3D- als 4D-data. Daarnaast maakt GenXD gebruik van gemaskeerde latente condities om een verscheidenheid aan conditioneringweergaven te ondersteunen. GenXD kan video's genereren die de cameratraject volgen, evenals consistente 3D-weergaven die kunnen worden omgezet in 3D-representaties. We voeren uitgebreide evaluaties uit over verschillende echte en synthetische datasets, waarbij we de effectiviteit en veelzijdigheid van GenXD aantonen in vergelijking met eerdere methoden in 3D- en 4D-generatie.
Moderne visuele effecten (VFX) software heeft het mogelijk gemaakt voor getalenteerde artiesten om afbeeldingen van vrijwel alles te creëren. Echter blijft het creatieproces arbeidsintensief, complex en grotendeels ontoegankelijk voor alledaagse gebruikers. In dit werk presenteren we AutoVFX, een framework dat automatisch realistische en dynamische VFX-video's creëert vanuit een enkele video en natuurlijke taalinstructies. Door zorgvuldig neurale scènemodellering, op LLM gebaseerde codegeneratie en fysieke simulatie te integreren, is AutoVFX in staat om fysiek gefundeerde, fotorealistische bewerkingseffecten te bieden die rechtstreeks kunnen worden aangestuurd met behulp van natuurlijke taalinstructies. We voeren uitgebreide experimenten uit om de doeltreffendheid van AutoVFX te valideren over een divers spectrum van video's en instructies. Kwantitatieve en kwalitatieve resultaten suggereren dat AutoVFX alle concurrerende methoden veruit overtreft op het gebied van generatieve kwaliteit, instructieafstemming, bewerkingsflexibiliteit en fysieke geloofwaardigheid.
Activatieschaarste duidt op het bestaan van aanzienlijke zwak bijdragende elementen binnen activatie-uitvoer die geëlimineerd kunnen worden, wat ten goede komt aan vele belangrijke toepassingen die betrekking hebben op grote taalmodellen (LLM's). Hoewel het bevorderen van grotere activatieschaarste binnen LLM's diepgaande studies verdient, ontbreken bestaande werken uitgebreid en kwantitatief onderzoek naar de correlatie tussen activatieschaarste en potentieel invloedrijke factoren. In dit artikel presenteren we een uitgebreide studie naar de kwantitatieve schaaleigenschappen en invloedrijke factoren van de activatieschaarste binnen alleen-decoder Transformer-gebaseerde LLM's. Specifiek stellen we PPL-p% schaarste voor, een nauwkeurige en prestatiebewuste activatieschaarstemetriek die toepasbaar is op elke activatiefunctie. Via uitgebreide experimenten ontdekken we verschillende belangrijke fenomenen. Ten eerste vertonen verschillende activatiefuncties vergelijkbare prestaties maar tegengestelde trends in schaarste tijdens training. De activatieratio (d.w.z. 1-schaarsteratio) evolueert als een convergerende toenemende machtsfunctie en afnemende logaritmische machtsfunctie met de hoeveelheid trainingsgegevens voor respectievelijk SiLU-geactiveerde en ReLU-geactiveerde LLM's. Dit toont aan dat ReLU efficiënter is als activatiefunctie dan SiLU en meer trainingsgegevens kan benutten om activatieschaarste te verbeteren. Ten tweede neemt de activatieratio lineair toe met de breedte-diepte verhouding tot een bepaald bottleneckpunt, wat wijst op het potentiële voordeel van een diepere architectuur bij een vast parameterschaal. Ten slotte, bij vergelijkbare breedte-diepte verhoudingen, vinden we verrassend dat de limietwaarde van activatieschaarste zwak varieert met de parameterschaal, d.w.z. de activatiepatronen binnen LLM's zijn ongevoelig voor de parameterschaal. Deze empirische wetten met betrekking tot LLM's met grotere activatieschaarste hebben belangrijke implicaties voor het efficiënter en interpreteerbaarder maken van LLM's.
Het afgelopen jaar heeft de significante vooruitgang van op video gebaseerde grote taalmodellen gezien. Echter, de uitdaging van het ontwikkelen van een eendelig model voor zowel korte als lange video begrip blijft onopgelost. De meeste bestaande video LLM's kunnen geen video's van een uur verwerken, terwijl methoden die zijn aangepast voor lange video's vaak niet effectief zijn voor kortere video's en afbeeldingen. In dit artikel identificeren we het belangrijkste probleem als de overbodige inhoud in video's. Om dit aan te pakken, stellen we een nieuwe pooling-strategie voor die tegelijkertijd tokencompressie en instructiebewuste visuele functieaggregatie bereikt. Ons model wordt Prompt-geleide Pooling LLaVA genoemd, of kortweg PPLLaVA. Specifiek bestaat PPLLaVA uit drie kerncomponenten: de op CLIP gebaseerde visuele-prompt uitlijning die visuele informatie extraheren die relevant is voor de instructies van de gebruiker, de prompt-geleide pooling die de visuele sequentie comprimeert naar willekeurige schalen met behulp van convolutiestijl pooling, en de clip-contextuitbreiding die is ontworpen voor lange instructies die vaak voorkomen in visuele dialogen. Bovendien integreert onze codebase ook de meest geavanceerde video Direct Preference Optimization (DPO) en visuele interleaved training. Uitgebreide experimenten hebben de prestaties van ons model bevestigd. Met een superieure doorvoer en slechts 1024 visuele context behaalt PPLLaVA betere resultaten op afbeeldingsbenchmarks als een video LLM, terwijl het state-of-the-art prestaties behaalt op verschillende videobenchmarks, uitblinkend in taken variërend van onderschriftgeneratie tot meerkeuzevragen, en het verwerken van videolengtes van seconden tot uren. De codes zijn beschikbaar op https://github.com/farewellthree/PPLLaVA.
Bij de ontwikkeling van Grote Taalmodellen (GTM) is Versterkend Leren van Menselijke Feedback (VLMF) cruciaal om modellen af te stemmen op menselijke waarden en voorkeuren. VLMF vertrouwt traditioneel op de Kullback-Leibler (KL) divergentie tussen het huidige beleid en een bevroren oorspronkelijk beleid als referentie, die wordt toegevoegd als een straf in beleidsoptimalisatie-algoritmen zoals Proximale Beleidsoptimalisatie (PBO). Hoewel deze beperking voorkomt dat modellen te ver afdwalen van het oorspronkelijke controlepunt, beperkt het de verkenning van het beloningslandschap, waardoor het vermogen van het model om hoogwaardige oplossingen te ontdekken wordt verminderd. Als gevolg hiervan zit beleidsoptimalisatie vaak gevangen in een nauwe regio van de parameterruimte, wat leidt tot suboptimale afstemming en prestaties. Dit artikel presenteert SALSA (Soepgebaseerd Afstemmingsleren voor Sterkere Aanpassing), een nieuw benadering ontworpen om deze beperkingen te overwinnen door een flexibeler en beter gelegen referentiemodel te creëren via gewichtsruimte-averaging van twee onafhankelijke fijn afgestemde toezichtsmodellen. Deze modelsoep staat grotere afwijkingen toe in KL divergentie en het verkennen van een veelbelovende regio van de oplossingsruimte zonder stabiliteit op te offeren. Door gebruik te maken van dit robuustere referentiemodel, bevordert SALSA betere verkenning, behaalt hogere beloningen en verbetert de robuustheid van het model, generalisatie buiten de distributie en prestaties. We valideren de effectiviteit van SALSA door uitgebreide experimenten op populaire open modellen (Llama2-7B, Mistral-7B en Gemma-2B) over verschillende benchmarks (MT-Bench, Arena-Hard, UltraFeedback), waar het consequent PBO overtreft door diepere verkenning te bevorderen en superieure afstemming te bereiken in GTM's.
We introduceren Image-GOal Representations (IGOR), met als doel een eenduidige, semantisch consistente actieruimte te leren voor zowel mensen als diverse robots. Via deze eenduidige latente actieruimte maakt IGOR kennisoverdracht mogelijk tussen grootschalige robot- en menselijke activiteitsgegevens. We bereiken dit door visuele veranderingen tussen een initiële afbeelding en de doeltoestand samen te drukken tot latente acties. IGOR stelt ons in staat latente actielabels te genereren voor video-gegevens op internet-schaal. Deze eenduidige latente actieruimte maakt het mogelijk om basisbeleid en wereldmodellen te trainen voor een breed scala aan taken uitgevoerd door zowel robots als mensen. We tonen aan dat: (1) IGOR een semantisch consistente actieruimte leert voor zowel mensen als robots, waarin verschillende mogelijke bewegingen van objecten die de kennis van fysieke interactie vertegenwoordigen, worden gekarakteriseerd; (2) IGOR de bewegingen van het object in de ene video kan "migreren" naar andere video's, zelfs tussen mensen en robots, door gezamenlijk gebruik te maken van het latente actiemodel en het wereldmodel; (3) IGOR kan leren om latente acties af te stemmen op natuurlijke taal via het basisbeleidsmodel, en latente acties te integreren met een beleidsmodel op laag niveau om effectieve robotbesturing te bereiken. We geloven dat IGOR nieuwe mogelijkheden opent voor kennisoverdracht en controle van mens naar robot.
Het begrijpen en beperken van de potentiële risico's die gepaard gaan met foundation modellen (FMs) is afhankelijk van het ontwikkelen van effectieve interpreteerbaarheidsmethoden. Schaarse Auto-encoders (SAEs) zijn naar voren gekomen als een veelbelovend instrument voor het ontwarren van FM representaties, maar ze hebben moeite om zeldzame, maar cruciale concepten in de data vast te leggen. Wij introduceren Gespecialiseerde Schaarste Auto-encoders (SSAEs), ontworpen om deze ongrijpbare donkere materie kenmerken te verhelderen door zich te richten op specifieke subdomeinen. Wij presenteren een praktisch recept voor het trainen van SSAEs, waarbij de doeltreffendheid van dichte ophaling voor gegevensselectie en de voordelen van Gehelde Empirische Risico-minimalisatie als trainingsdoel worden aangetoond om concept recall te verbeteren. Onze evaluatie van SSAEs op standaard metrieken, zoals downstream perplexiteit en L_0 schaarsheid, toont aan dat ze effectief subdomein staartconcepten vastleggen, waarbij ze de mogelijkheden van algemene SAEs overtreffen. Wij tonen de praktische bruikbaarheid van SSAEs aan in een casestudie over de Bias in Bios dataset, waar SSAEs een toename van 12,5% in nauwkeurigheid van de classificatie van de slechtst presterende groep bereiken wanneer ze worden toegepast om onjuiste genderinformatie te verwijderen. SSAEs bieden een krachtige nieuwe lens om in de interne werking van FMs in subdomeinen te kijken.
Wij presenteren Multi-expert Aansturing, een nieuwe verbetering van ExpertAansturing (Xu et al., 2023), ontworpen om de generatie van grote taalmodellen (GTM) te verbeteren. Specifiek begeleidt het een GTM om een invoerinstructie te vervullen door meerdere experts te simuleren, hun reacties te aggregeren en de beste te selecteren uit individuele en geaggregeerde reacties. Dit proces wordt uitgevoerd in een enkele gedachtegang via onze zeven zorgvuldig ontworpen subtaken afgeleid van de Nominal Group Techniek (Ven en Delbecq, 1974), een goed ingeburgerd besluitvormingskader. Onze evaluaties tonen aan dat Multi-expert Aansturing aanzienlijk beter presteert dan ExpertAansturing en vergelijkbare baselines bij het verbeteren van de waarachtigheid, feitelijkheid, informativiteit en bruikbaarheid van reacties, terwijl toxiciteit en kwetsendheid worden verminderd. Het behaalt verder een state-of-the-art waarachtigheid door de beste baseline met 8.69% te overtreffen met ChatGPT. Multi-expert Aansturing is efficiënt, verklaarbaar en zeer aanpasbaar aan diverse scenario's, waardoor de noodzaak voor handmatige promptconstructie wordt geëlimineerd.
Dit artikel beschrijft een efficiënt algoritme voor het oplossen van lawaaierige lineaire inverse problemen met behulp van vooraf getrainde diffusiemodellen. Door het paradigma van denoising diffusie impliciete modellen (DDIM) uit te breiden, stellen we geconstrainde diffusie impliciete modellen (CDIM) voor die de diffusie-updates aanpassen om een beperking op de uiteindelijke output af te dwingen. Voor ruisloze inverse problemen voldoet CDIM precies aan de beperkingen; in het geval van ruis generaliseren we CDIM om precies aan een beperking op de restverdeling van het geluid te voldoen. Experimenten over een verscheidenheid aan taken en metingen tonen sterke prestaties van CDIM, met een vergelijkbare versnelling van de inferentie als onbeperkte DDIM: 10 tot 50 keer sneller dan eerdere conditionele diffusiemethoden. We tonen de veelzijdigheid van onze aanpak aan op vele problemen, waaronder super-resolutie, denoising, inpainting, debezemen en 3D-puntwolkreconstructie.
Grote multimodale modellen (LMM's) hebben recentelijk grote vooruitgang getoond in het begrijpen van tekstrijke afbeeldingen, maar ze hebben nog steeds moeite met complexe, visueel rijke documenten die meerdere pagina's beslaan. Traditionele methoden die documentparsers gebruiken voor opvraag-verrijkte generatie ondervinden prestatie- en efficiëntiebeperkingen, terwijl het direct presenteren van alle pagina's aan LMM's leidt tot inefficiënties, vooral bij lange documenten. In dit werk presenteren we een nieuw raamwerk genaamd LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), dat de mogelijkheden van elk LMM verbreedt om het begrip van lange documenten te ondersteunen. We tonen aan dat LMM's effectief kunnen dienen als multimodale opvragers, die relevante pagina's ophalen om gebruikersvragen te beantwoorden op basis van deze pagina's. LoCAL is geïmplementeerd met twee specifieke LMM-adapters: één voor het ophalen van bewijspagina's en een andere voor het beantwoorden van vragen. Empirische resultaten tonen state-of-the-art prestaties op openbare benchmarks, waarbij de effectiviteit van LoCAL wordt aangetoond.
We introduceren Swan, een familie van embedding modellen gericht op de Arabische taal, die zowel kleinschalige als grootschalige toepassingen aanpakt. Swan omvat twee varianten: Swan-Small, gebaseerd op ARBERTv2, en Swan-Large, gebouwd op ArMistral, een voorgeleerd Arabisch groot taalmodel. Om deze modellen te evalueren, stellen we ArabicMTEB voor, een uitgebreide benchmark suite die de prestaties van cross-linguale, multi-dialectale, multi-domein- en multi-culturele Arabische tekstembedding beoordeelt, waarbij acht diverse taken worden behandeld en 94 datasets bestrijkt. Swan-Large behaalt state-of-the-art resultaten, overtreft Multilingual-E5-large in de meeste Arabische taken, terwijl de Swan-Small consequent Multilingual-E5 base overtreft. Onze uitgebreide evaluaties tonen aan dat Swan modellen zowel dialectaal als cultureel bewust zijn, uitblinken in verschillende Arabische domeinen en aanzienlijke kostenefficiëntie bieden. Dit werk bevordert aanzienlijk het veld van Arabische taalmodellering en levert waardevolle bronnen voor toekomstig onderzoek en toepassingen in de Arabische natuurlijke taalverwerking. Onze modellen en benchmark zullen openbaar toegankelijk worden gemaakt voor onderzoek.