Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in visie-taalmodellen hebben de prestaties verbeterd door de lengte van visuele tokens te vergroten, waardoor ze veel langer zijn dan teksttokens en aanzienlijk hogere computationele kosten met zich meebrengen. We merken echter op dat de visuele tokens gegenereerd door populaire visuele encoders, zoals CLIP en SigLIP, aanzienlijke redundantie bevatten. Om dit aan te pakken, introduceren we VisionZip, een eenvoudige maar effectieve methode die een set informatieve tokens selecteert voor invoer naar het taalmodel, waardoor de visuele token redundantie wordt verminderd en de efficiëntie wordt verbeterd terwijl de modelprestaties behouden blijven. Het voorgestelde VisionZip kan breed worden toegepast op beeld- en video-begripstaken en is goed geschikt voor multi-turn dialogen in realistische scenario's, waar eerdere methoden ondermaats presteren. Experimentele resultaten tonen aan dat VisionZip de vorige state-of-the-art methode overtreft met minstens 5% prestatiewinst in bijna alle instellingen. Bovendien verbetert onze methode aanzienlijk de modelinferentiesnelheid, waardoor de prefilling-tijd met 8x wordt verbeterd en waardoor het LLaVA-Next 13B-model sneller kan afleiden dan het LLaVA-Next 7B-model terwijl betere resultaten worden behaald. Verder analyseren we de oorzaken van deze redundantie en moedigen we de gemeenschap aan om zich te richten op het extraheren van betere visuele kenmerken in plaats van simpelweg de tokenlengte te vergroten. Onze code is beschikbaar op https://github.com/dvlab-research/VisionZip.
We introduceren een nieuw 3D-generatiemethode voor veelzijdige en hoogwaardige 3D-assetcreatie. De hoeksteen is een verenigde Gestructureerde LATente (SLAT) representatie die het mogelijk maakt om te decoderen naar verschillende outputformaten, zoals Radiance Fields, 3D Gaussians en meshes. Dit wordt bereikt door een dunbevolkt 3D-rooster te integreren met dichte multiview visuele kenmerken die zijn geëxtraheerd uit een krachtig vision foundation model, waarbij zowel structurele (geometrie) als texturale (uiterlijk) informatie uitgebreid worden vastgelegd terwijl flexibiliteit tijdens decodering behouden blijft. We maken gebruik van gerechtvaardigde flow transformers die zijn afgestemd op SLAT als onze 3D-generatiemodellen en trainen modellen met maximaal 2 miljard parameters op een grote 3D-assetdataset van 500K diverse objecten. Ons model genereert hoogwaardige resultaten met tekst- of beeldcondities, waarbij bestaande methoden aanzienlijk worden overtroffen, inclusief recente methoden op vergelijkbare schalen. We tonen flexibele outputformaatselectie en lokale 3D-bewerkingsmogelijkheden die niet werden aangeboden door eerdere modellen. Code, model en data zullen worden vrijgegeven.
Grafische gebruikersinterfaces (GUI's) zijn cruciaal voor mens-computerinteractie, maar het automatiseren van GUI-taken blijft uitdagend vanwege de complexiteit en variabiliteit van visuele omgevingen. Bestaande benaderingen vertrouwen vaak op tekstuele representaties van GUI's, wat beperkingen met zich meebrengt op het gebied van generalisatie, efficiëntie en schaalbaarheid. In dit artikel introduceren we Aguvis, een verenigd puur op visie gebaseerd framework voor autonome GUI-agenten dat op verschillende platforms werkt. Onze benadering maakt gebruik van op beelden gebaseerde observaties, en maakt instructies in natuurlijke taal vast aan visuele elementen, en maakt gebruik van een consistente actieruimte om generalisatie over platforms te waarborgen. Om de beperkingen van eerdere werken aan te pakken, integreren we expliciete planning en redeneren binnen het model, waardoor de mogelijkheid om autonoom te navigeren en te interacteren met complexe digitale omgevingen wordt verbeterd. We construeren een grootschalige dataset van GUI-agenttrajecten, waarbij multimodale redenering en vastlegging worden opgenomen, en maken gebruik van een tweefasen trainingspijplijn die zich eerst richt op algemene GUI-vastlegging, gevolgd door planning en redeneren. Via uitgebreide experimenten tonen we aan dat Aguvis eerdere state-of-the-art methoden overtreft in zowel offline als real-world online scenario's, waarbij het naar ons weten de eerste volledig autonome pure visie GUI-agent is die in staat is taken zelfstandig uit te voeren zonder samenwerking met externe gesloten-bronmodellen. We hebben alle datasets, modellen en trainingsrecepten open source gemaakt om toekomstig onderzoek te vergemakkelijken op https://aguvis-project.github.io/.
Wij presenteren Florence-VL, een nieuwe familie van multimodale grote taalmodellen (MLLM's) met verrijkte visuele representaties geproduceerd door Florence-2, een generatief visueel grondslagmodel. In tegenstelling tot de veelgebruikte CLIP-stijl vision transformer die is getraind door contrastief leren, kan Florence-2 verschillende niveaus en aspecten van visuele kenmerken vastleggen, die veelzijdiger zijn om aangepast te worden aan diverse downstream taken. Wij stellen een nieuw feature-fusie architectuur voor en een innovatief trainingsrecept dat effectief Florence-2's visuele kenmerken integreert in vooraf getrainde LLM's, zoals Phi 3.5 en LLama 3. In het bijzonder stellen wij "diepte-adem fusie (DBFusion)" voor om de visuele kenmerken die zijn geëxtraheerd uit verschillende diepten en onder meerdere prompts te fuseren. Onze modeltraining bestaat uit end-to-end vooraftraining van het hele model gevolgd door fijnafstemming van de projectielaag en de LLM, op basis van een zorgvuldig ontworpen recept van diverse open-source datasets die onder andere hoogwaardige afbeelding bijschriften en instructie-afstemmingsparen bevatten. Onze kwantitatieve analyse en visualisatie van Florence-VL's visuele kenmerken tonen de voordelen ervan ten opzichte van populaire vision encoders op visie-taal uitlijning, waarbij de verrijkte diepte en adem belangrijke rollen spelen. Florence-VL behaalt aanzienlijke verbeteringen ten opzichte van bestaande state-of-the-art MLLM's over verschillende multimodale en visie-gerichte benchmarks die algemene VQA, perceptie, hallucinatie, OCR, grafiek, kennisintensief begrip, enz. omvatten. Om toekomstig onderzoek te vergemakkelijken, zijn onze modellen en het volledige trainingsrecept open-source beschikbaar. https://github.com/JiuhaiChen/Florence-VL
Visuele taalmodellen (VLM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van nauwkeurigheid. Echter, hun efficiëntie heeft veel minder aandacht gekregen. Dit artikel introduceert NVILA, een familie van open VLM's die zijn ontworpen om zowel efficiëntie als nauwkeurigheid te optimaliseren. Voortbouwend op VILA, verbeteren we de modelarchitectuur door eerst de ruimtelijke en temporele resoluties te vergroten, en vervolgens visuele tokens te comprimeren. Deze "eerst schalen en dan comprimeren" benadering stelt NVILA in staat om op efficiënte wijze hoge-resolutie afbeeldingen en lange video's te verwerken. We voeren ook een systematisch onderzoek uit om de efficiëntie van NVILA gedurende de gehele levenscyclus te verbeteren, van training en fine-tuning tot implementatie. NVILA evenaart of overtreft de nauwkeurigheid van veel toonaangevende open en gepatenteerde VLM's over een breed scala aan afbeeldings- en videobenchmarks. Tegelijkertijd verlaagt het de trainingskosten met 4,5 keer, vermindert het geheugengebruik bij fine-tuning met 3,4 keer, verlaagt het de latentie vooraf met 1,6-2,2 keer, en de decodeerlatentie met 1,2-2,8 keer. We zullen binnenkort onze code en modellen beschikbaar stellen om reproduceerbaarheid te vergemakkelijken.
Gezien het toenemende gebruik van synthetische data bij de post-training van taalmodellen (LM), is het vermogen van een LM om hoogwaardige data te genereren bijna net zo cruciaal geworden als zijn vermogen om problemen direct op te lossen. Hoewel eerdere werken zich hebben gericht op het ontwikkelen van effectieve methoden voor data generatie, ontbreekt het aan een systematische vergelijking van verschillende LMs als data generatoren in een uniforme setting. Om deze lacune aan te pakken, stellen wij AgoraBench voor, een benchmark die gestandaardiseerde instellingen en metrieken biedt om de data generatie capaciteiten van LMs te evalueren. Door 1,26 miljoen trainingsvoorbeelden te synthetiseren met behulp van 6 LMs en 99 studentenmodellen te trainen, onthullen we belangrijke inzichten over de data generatie mogelijkheden van LMs. Ten eerste observeren we dat LMs verschillende sterke punten vertonen. Zo blinkt GPT-4o uit in het genereren van nieuwe problemen, terwijl Claude-3.5-Sonnet beter presteert in het verbeteren van bestaande problemen. Bovendien onthult onze analyse dat het vermogen van een LM om data te genereren niet noodzakelijkerwijs correleert met zijn vermogen om problemen op te lossen. In plaats daarvan dienen meerdere intrinsieke kenmerken van datakwaliteit - waaronder responskwaliteit, perplexiteit en instructiemoeilijkheid - gezamenlijk als betere indicatoren. Tot slot tonen we aan dat strategische keuzes in outputformaat en kostenbewuste modelselectie aanzienlijke invloed hebben op de effectiviteit van data generatie.
Automatische detectie en preventie van open-set storingen zijn cruciaal in gesloten-lus robotica systemen. Recente studies hebben vaak moeite om onverwachte storingen tegelijkertijd reactief te identificeren nadat ze zich hebben voorgedaan en om voorzienbare storingen proactief te voorkomen. Met dit doel voor ogen stellen wij Code-als-Monitor (CaM) voor, een nieuw paradigma dat gebruikmaakt van het visie-taalmodel (VLM) voor zowel open-set reactieve als proactieve storingsdetectie. De kern van onze methode is om beide taken te formuleren als een verenigde reeks van ruimtelijke-temporele beperkingsvraagstukken en VLM-generieerde code te gebruiken om ze te evalueren voor real-time monitoring. Om de nauwkeurigheid en efficiëntie van monitoring te verbeteren, introduceren we verder beperkingselementen die beperking-gerelateerde entiteiten of hun delen abstraheren tot compacte geometrische elementen. Deze benadering biedt meer algemeenheid, vereenvoudigt tracking en vergemakkelijkt beperkingsbewuste visuele programmering door deze elementen te gebruiken als visuele aanwijzingen. Experimenten tonen aan dat CaM een succespercentage van 28,7% hoger behaalt en de uitvoeringstijd met 31,8% vermindert onder ernstige verstoringen in vergelijking met baselines over drie simulatoren en een real-world omgeving. Bovendien kan CaM geïntegreerd worden met open-lus besturingsbeleid om gesloten-lus systemen te vormen, waardoor taken op lange termijn mogelijk zijn in drukke scènes met dynamische omgevingen.
Diffusiemodellen excelleren in het genereren van hoogwaardige afbeeldingen. Echter, huidige diffusiemodellen hebben moeite om betrouwbare afbeeldingen te produceren zonder begeleidingsmethoden, zoals begeleiding zonder classifier (CFG). Zijn begeleidingsmethoden werkelijk noodzakelijk? Door te observeren dat ruis verkregen via diffusie-inversie hoogwaardige afbeeldingen kan reconstrueren zonder begeleiding, richten we ons op de initiële ruis van het denoising-pijplijn. Door Gaussische ruis te mappen naar 'begeleidingsvrije ruis', ontdekken we dat kleine lage-magnitude lage-frequentie componenten het denoising-proces aanzienlijk verbeteren, waardoor de noodzaak voor begeleiding wordt weggenomen en zowel de inferentie-doorvoer als het geheugen worden verbeterd. Voortbouwend hierop stellen we \ours voor, een nieuw method die begeleidingsmethoden vervangt door een enkele verfijning van de initiële ruis. Deze verfijnde ruis maakt hoogwaardige beeldgeneratie mogelijk zonder begeleiding, binnen dezelfde diffusiepijplijn. Ons ruis-verfijningsmodel maakt gebruik van efficiënt leren in ruimte van ruis, waardoor snelle convergentie en sterke prestaties worden behaald met slechts 50K tekst-afbeeldingsparen. We valideren de effectiviteit ervan aan de hand van diverse metrieken en analyseren hoe verfijnde ruis de noodzaak voor begeleiding kan elimineren. Zie onze projectpagina: https://cvlab-kaist.github.io/NoiseRefine/.
Bestaande methoden voor het genereren van multi-view afbeeldingen brengen vaak ingrijpende wijzigingen aan in vooraf getrainde tekst-naar-afbeelding (T2I) modellen en vereisen volledige fijnafstemming, wat leidt tot (1) hoge computationele kosten, vooral bij grote basismodellen en hoge-resolutie afbeeldingen, en (2) degradatie in beeldkwaliteit als gevolg van optimalisatieproblemen en schaarse hoogwaardige 3D-gegevens. In dit artikel stellen we de eerste adapter-gebaseerde oplossing voor multi-view afbeeldingsgeneratie voor en introduceren we MV-Adapter, een veelzijdige plug-and-play adapter die T2I modellen en hun derivaten verbetert zonder de oorspronkelijke netwerkstructuur of kenmerkruimte te wijzigen. Door minder parameters bij te werken, maakt MV-Adapter efficiënte training mogelijk en behoudt het de eerder ingebedde kennis in vooraf getrainde modellen, waardoor overpassingrisico's worden verminderd. Om de 3D geometrische kennis efficiënt binnen de adapter te modelleren, introduceren we innovatieve ontwerpen die onder andere gedupliceerde zelfaandachtslagen en parallelle aandachtsarchitectuur omvatten, waardoor de adapter de krachtige aannames van de vooraf getrainde modellen kan erven om de nieuwe 3D-kennis te modelleren. Bovendien presenteren we een verenigde conditie-encoder die naadloos camera parameters en geometrische informatie integreert, waardoor toepassingen zoals tekst- en afbeeldingsgebaseerde 3D-generatie en texturering worden vergemakkelijkt. MV-Adapter bereikt multi-view generatie op 768 resolutie op Stable Diffusion XL (SDXL) en toont aanpasbaarheid en veelzijdigheid. Het kan ook worden uitgebreid naar willekeurige weergavegeneratie, waardoor bredere toepassingen mogelijk zijn. We tonen aan dat MV-Adapter een nieuwe kwaliteitsstandaard zet voor multi-view afbeeldingsgeneratie en nieuwe mogelijkheden opent vanwege zijn efficiëntie, aanpasbaarheid en veelzijdigheid.
Tekstgebaseerde adversariële begeleiding met een negatieve prompt is naar voren gekomen als een veelgebruikte benadering om de outputkenmerken weg te duwen van ongewenste concepten. Hoewel nuttig, kan het uitvoeren van adversariële begeleiding met alleen tekst onvoldoende zijn om complexe visuele concepten vast te leggen en ongewenste visuele elementen zoals auteursrechtelijk beschermde personages te vermijden. In dit artikel verkennen we voor het eerst een alternatieve modaliteit in deze richting door adversariële begeleiding rechtstreeks uit te voeren met behulp van visuele kenmerken van een referentiebeeld of andere beelden in een batch. In het bijzonder introduceren we negatieve token-samenvoeging (NegToMe), een eenvoudige maar effectieve trainingvrije benadering die adversariële begeleiding uitvoert door selectief overeenkomende semantische kenmerken uit elkaar te duwen (tussen referentie en gegenereerde output) tijdens het omgekeerde diffusieproces. Wanneer gebruikt met andere beelden in dezelfde batch, observeren we dat NegToMe de outputdiversiteit (raciaal, geslacht, visueel) aanzienlijk verhoogt zonder in te boeten aan de kwaliteit van de outputafbeelding. Op vergelijkbare wijze, wanneer gebruikt met betrekking tot een referentie auteursrechtelijk beschermd bezit, helpt NegToMe de visuele gelijkenis met auteursrechtelijk beschermd materiaal met 34,57% te verminderen. NegToMe is eenvoudig te implementeren met slechts enkele regels code, gebruikt slechts marginaal hogere (<4%) inferentietijden en generaliseert naar verschillende diffusiearchitecturen zoals Flux, die niet van nature de ondersteuning van een aparte negatieve prompt ondersteunen. De code is beschikbaar op https://negtome.github.io
Recente ontwikkelingen in kleding-gecentreerde beeldgeneratie op basis van tekst- en beeldprompts met behulp van diffusiemodellen zijn indrukwekkend. Bestaande methoden missen echter ondersteuning voor verschillende combinaties van kledingstukken en worstelen om de kledingdetails te behouden terwijl ze trouw blijven aan de tekstprompts, waardoor hun prestaties beperkt zijn in diverse scenario's. In dit artikel richten we ons op een nieuwe taak, namelijk Multi-Kledingstuk Virtueel Aankleden, en stellen we een nieuwe methode genaamd AnyDressing voor om personages aan te passen op basis van elke combinatie van kledingstukken en gepersonaliseerde tekstprompts. AnyDressing bestaat uit twee primaire netwerken genaamd GarmentsNet en DressingNet, die respectievelijk zijn toegewijd aan het extraheren van gedetailleerde kledingkenmerken en het genereren van aangepaste beelden. Specifiek stellen we een efficiënte en schaalbare module voor genaamd Kledingstuk-Specifieke Functie-extractor in GarmentsNet om kledingtexturen individueel parallel te coderen. Deze ontwerp voorkomt verwarring tussen kledingstukken en zorgt voor netwerkefficiëntie. Ondertussen ontwerpen we een adaptief Dressing-Attention mechanisme en een nieuwe Strategie voor Instellingsniveau Kledingstuk Lokalisatie Leren in DressingNet om nauwkeurig meerdere kledingkenmerken in hun overeenkomstige regio's in te brengen. Deze aanpak integreert efficiënt multi-kledingtextuur aanwijzingen in gegenereerde beelden en verbetert verder de consistentie tussen tekst en beeld. Daarnaast introduceren we een Strategie voor Kleding-Verbeterde Textuurleren om de fijnkorrelige textuurdetails van kledingstukken te verbeteren. Dankzij ons goed doordachte ontwerp kan AnyDressing dienen als een plug-in module die eenvoudig kan worden geïntegreerd met eventuele gemeenschapscontrole-uitbreidingen voor diffusiemodellen, waardoor de diversiteit en controleerbaarheid van gesynthetiseerde beelden worden verbeterd. Uitgebreide experimenten tonen aan dat AnyDressing state-of-the-art resultaten behaalt.
Culturele vooroordelen in meertalige datasets vormen aanzienlijke uitdagingen voor hun effectiviteit als wereldwijde benchmarks. Deze vooroordelen komen niet alleen voort uit taal, maar ook uit de culturele kennis die nodig is om vragen te interpreteren, wat de praktische bruikbaarheid van vertaalde datasets zoals MMLU vermindert. Bovendien introduceert vertaling vaak artefacten die de betekenis of duidelijkheid van vragen in de doeltaal kunnen vertekenen. Een veelvoorkomende praktijk bij meertalige evaluaties is om te vertrouwen op machinaal vertaalde evaluatiesets, maar enkel het vertalen van een dataset is onvoldoende om deze uitdagingen aan te pakken. In dit werk onderzoeken we de impact van beide problemen op meertalige evaluaties en de daaropvolgende modelprestaties. Onze grootschalige evaluatie van toonaangevende open en gepatenteerde modellen illustreert dat vooruitgang op MMLU sterk afhankelijk is van het leren van op het Westen gerichte concepten, waarbij 28% van alle vragen cultureel gevoelige kennis vereisen. Bovendien, voor vragen die geografische kennis vereisen, richt maar liefst 84,9% zich op Noord-Amerikaanse of Europese regio's. De ranglijsten van modelevaluaties veranderen afhankelijk van of ze worden geëvalueerd op het volledige deel of de subset van vragen die zijn geannoteerd als cultureel gevoelig, wat de vertekening van modelranglijsten aantoont wanneer er blindelings wordt vertrouwd op vertaalde MMLU. We introduceren Global-MMLU, een verbeterde MMLU met evaluatiedekking in 42 talen - met een verbeterde algehele kwaliteit door samen te werken met gecompenseerde professionele en gemeenschapsannotatoren om de kwaliteit van vertalingen te verifiëren, terwijl we ook culturele vooroordelen in de oorspronkelijke dataset rigoureus evalueren. Deze uitgebreide Global-MMLU-set bevat ook aangewezen subsets die zijn gelabeld als cultureel gevoelig en cultureel agnostisch om een meer holistische, volledige evaluatie mogelijk te maken.
Grote Taalmodellen (LLM's) zijn opgedoken als een mijlpaal in kunstmatige intelligentie, en hun prestaties kunnen verbeteren naarmate de omvang van het model toeneemt. Echter, deze schaalvergroting brengt grote uitdagingen met zich mee voor training en inferentie-efficiëntie, met name bij het implementeren van LLM's in omgevingen met beperkte middelen, en de schaaltrend wordt steeds onhoudbaarder. Dit artikel introduceert het concept van "capaciteitsdichtheid" als een nieuwe maatstaf om de kwaliteit van de LLM's over verschillende schalen te evalueren en beschrijft de trend van LLM's in termen van zowel effectiviteit als efficiëntie. Om de capaciteitsdichtheid van een bepaald doel-LLM te berekenen, introduceren we eerst een reeks referentiemodellen en ontwikkelen we een schalingswet om de downstream prestaties van deze referentiemodellen te voorspellen op basis van hun parametergroottes. Vervolgens definiëren we de effectieve parametergrootte van het doel-LLM als de parametergrootte die nodig is voor een referentiemodel om een equivalente prestatie te behalen, en formaliseren we de capaciteitsdichtheid als de verhouding tussen de effectieve parametergrootte en de daadwerkelijke parametergrootte van het doel-LLM. Capaciteitsdichtheid biedt een uniform kader voor het beoordelen van zowel model effectiviteit als efficiëntie. Onze verdere analyse van recente open-source basis-LLM's onthult een empirische wet (de verdichtingswet) waarbij de capaciteitsdichtheid van LLM's exponentieel toeneemt in de loop van de tijd. Meer specifiek verdubbelt de capaciteitsdichtheid van LLM's ongeveer elke drie maanden aan de hand van enkele veelgebruikte benchmarks voor evaluatie. De wet biedt nieuwe perspectieven om toekomstige LLM-ontwikkeling te sturen, waarbij de nadruk ligt op het verbeteren van de capaciteitsdichtheid om optimale resultaten te behalen met minimale rekenkundige overhead.
Wij presenteren Infinity, een Bitwise Visueel AutoRegressief Model dat in staat is om hoogwaardige, fotorealistische afbeeldingen te genereren op basis van taalinstructies. Infinity herdefinieert het visuele autoregressieve model binnen een raamwerk van bitgewijze tokenvoorspelling met een oneindige-vocabulaire tokenizer en classifier, en een bitgewijs zelfcorrectiemechanisme, waardoor de generatiecapaciteit en details aanzienlijk verbeteren. Door theoretisch de grootte van de tokenizer-vocabulaire naar oneindig te schalen en tegelijkertijd de transformer-grootte te schalen, ontketent onze methode aanzienlijke schaalvermogens in vergelijking met standaard VAR-modellen. Infinity vestigt een nieuw record voor autoregressieve tekst-naar-afbeelding modellen, waarbij het topklasse diffusiemodellen zoals SD3-Medium en SDXL overtreft. Opmerkelijk genoeg overtreft Infinity SD3-Medium door de GenEval benchmark score te verbeteren van 0.62 naar 0.73 en de ImageReward benchmark score van 0.87 naar 0.96, met een winratio van 66%. Zonder extra optimalisatie genereert Infinity een hoogwaardige 1024x1024 afbeelding in 0.8 seconden, waardoor het 2.6x sneller is dan SD3-Medium en het de snelste tekst-naar-afbeelding model maakt. Modellen en codes zullen worden vrijgegeven om verdere verkenning van Infinity voor visuele generatie en uniforme tokenizermodellering te bevorderen.
Wij presenteren HumanEdit, een hoogwaardige dataset die beloond wordt door mensen en specifiek is ontworpen voor instructiegestuurde beeldbewerking, waardoor precieze en diverse beeldmanipulaties mogelijk zijn via instructies in natuurlijke taal. Eerdere grootschalige bewerkingsdatasets bevatten vaak minimaal menselijk feedback, wat uitdagingen met zich meebrengt bij het afstemmen van datasets op menselijke voorkeuren. HumanEdit overbrugt deze kloof door menselijke annotatoren in te zetten om dataparen te construeren en beheerders om feedback te geven. Met zorgvuldige samenstelling bestaat HumanEdit uit 5.751 afbeeldingen en vereist meer dan 2.500 uur menselijke inspanning verdeeld over vier fasen, wat zowel nauwkeurigheid als betrouwbaarheid garandeert voor een breed scala aan beeldbewerkingstaken. De dataset omvat zes verschillende soorten bewerkingsinstructies: Actie, Toevoegen, Tellen, Relatie, Verwijderen en Vervangen, die een breed spectrum van realistische scenario's bestrijken. Alle afbeeldingen in de dataset worden vergezeld door maskers, en voor een subset van de gegevens zorgen we ervoor dat de instructies voldoende gedetailleerd zijn om maskervrije bewerking te ondersteunen. Bovendien biedt HumanEdit uitgebreide diversiteit en hoogwaardige 1024 bij 1024 content afkomstig uit verschillende domeinen, waarmee het een veelzijdige nieuwe benchmark vormt voor datasets voor instructiegestuurde beeldbewerking. Met als doel het bevorderen van toekomstig onderzoek en het vaststellen van evaluatiebenchmarks op het gebied van beeldbewerking, stellen we HumanEdit beschikbaar op https://huggingface.co/datasets/BryanW/HumanEdit.
Multimodale Grote Taalmodellen (MGT's) zijn steeds belangrijker geworden vanwege hun state-of-the-art prestaties en het vermogen om meerdere gegevensmodaliteiten, zoals tekst, afbeeldingen en audio, te integreren om complexe taken met hoge nauwkeurigheid uit te voeren. Dit artikel presenteert een uitgebreid overzicht van gepersonaliseerde multimodale grote taalmodellen, met de focus op hun architectuur, trainingsmethoden en toepassingen. We stellen een intuïtieve taxonomie voor om de technieken te categoriseren die worden gebruikt om MGT's te personaliseren voor individuele gebruikers, en bespreken de technieken dienovereenkomstig. Verder bespreken we hoe dergelijke technieken kunnen worden gecombineerd of aangepast wanneer dat nodig is, waarbij we hun voordelen en onderliggende rationale benadrukken. We bieden ook een beknopt overzicht van personalisatietaken die zijn onderzocht in bestaand onderzoek, samen met de evaluatiemetrics die vaak worden gebruikt. Daarnaast vatten we de datasets samen die nuttig zijn voor het benchmarken van gepersonaliseerde MGT's. Tot slot schetsen we kritieke open uitdagingen. Dit overzicht heeft tot doel een waardevolle bron te zijn voor onderzoekers en praktijkmensen die de ontwikkeling van gepersonaliseerde multimodale grote taalmodellen willen begrijpen en bevorderen.
Het begrijpen van de interne berekeningen van grote taalmodellen (LLM's) is cruciaal om ze af te stemmen op menselijke waarden en ongewenst gedrag zoals het genereren van giftige inhoud te voorkomen. Mechanistische interpreteerbaarheid wordt echter belemmerd door polysemie - waar individuele neuronen reageren op meerdere, niet-gerelateerde concepten. Terwijl Schaarse Auto-encoders (SAE's) hebben geprobeerd om deze kenmerken te ontwarren door middel van schaars woordenboekleren, hebben ze de prestaties van LLM's aangetast vanwege de afhankelijkheid van post-hoc reconstructieverlies. Om dit probleem aan te pakken, introduceren we de Architectuur van Mengeling van Monosematische Experts voor Transformers (Monet), die schaars woordenboekleren rechtstreeks opneemt in end-to-end Mixture-of-Experts pretraining. Onze nieuwe expertdecompositiemethode maakt het mogelijk om het aantal experts per laag op te schalen naar 262.144, terwijl de totale parameters evenredig schalen met de vierkantswortel van het aantal experts. Onze analyses tonen de onderlinge exclusiviteit van kennis tussen experts aan en laten de parametrische kennis zien die is ingekapseld in individuele experts. Bovendien maakt Monet kennismanipulatie mogelijk over domeinen, talen en toxiciteitsvermindering zonder de algemene prestaties te verslechteren. Onze zoektocht naar transparante LLM's benadrukt het potentieel van het opschalen van het aantal experts om mechanistische interpreteerbaarheid te verbeteren en de interne kennis rechtstreeks aan te passen om het modelgedrag fundamenteel aan te passen. De broncode en vooraf getrainde checkpoints zijn beschikbaar op https://github.com/dmis-lab/Monet.
Als een wereldwijd gevierde sport heeft voetbal een brede interesse aangetrokken van fans over de hele wereld. Dit artikel heeft als doel een uitgebreid multimodaal kader te ontwikkelen voor het begrijpen van voetbalvideo's. Specifiek leveren we de volgende bijdragen in dit artikel: (i) we introduceren SoccerReplay-1988, de grootste multimodale voetbaldataset tot nu toe, met video's en gedetailleerde annotaties van 1.988 complete wedstrijden, met een geautomatiseerd annotatieproces; (ii) we presenteren het eerste visueel-talige basismodel in het voetbaldomein, MatchVision, dat gebruikmaakt van ruimtelijk-temporele informatie in voetbalvideo's en uitblinkt in verschillende downstream taken; (iii) we voeren uitgebreide experimenten en ablatiestudies uit over gebeurtenisklassificatie, commentaargeneratie en herkenning van overtredingen vanuit meerdere gezichtspunten. MatchVision toont state-of-the-art prestaties op al deze gebieden, waarbij bestaande modellen aanzienlijk overtroffen worden, wat de superioriteit van onze voorgestelde gegevens en model benadrukt. We zijn van mening dat dit werk een standaard paradigma zal bieden voor onderzoek naar sportbegrip.
Wij introduceren OmniFlow, een nieuw generatief model ontworpen voor taken van elk-naar-elk generatie zoals tekst-naar-afbeelding, tekst-naar-audio, en audio-naar-afbeelding synthese. OmniFlow verbetert het rectified flow (RF) framework dat gebruikt wordt in tekst-naar-afbeelding modellen om de gezamenlijke verdeling van meerdere modaliteiten te behandelen. Het presteert beter dan eerdere elk-naar-elk modellen op een breed scala van taken, zoals tekst-naar-afbeelding en tekst-naar-audio synthese. Ons werk biedt drie belangrijke bijdragen: Ten eerste breiden we RF uit naar een multi-modale setting en introduceren een nieuw begeleidingsmechanisme, waardoor gebruikers flexibel de uitlijning tussen verschillende modaliteiten in de gegenereerde uitvoer kunnen controleren. Ten tweede stellen we een nieuw architectuur voor die de tekst-naar-afbeelding MMDiT architectuur van Stable Diffusion 3 uitbreidt en audio- en tekstgeneratie mogelijk maakt. De uitgebreide modules kunnen efficiënt individueel worden voorgeleerd en samengevoegd worden met de standaard tekst-naar-afbeelding MMDiT voor fijnafstemming. Ten slotte voeren we een uitgebreide studie uit naar de ontwerpkeuzes van rectified flow transformers voor grootschalige audio- en tekstgeneratie, waarbij waardevolle inzichten worden geboden in het optimaliseren van prestaties over diverse modaliteiten. De Code zal beschikbaar zijn op https://github.com/jacklishufan/OmniFlows.
Contrastief getrainde Vision-Language Modellen (VLM's) zoals CLIP zijn de facto benadering geworden voor discriminatieve visie-taal representatie-leren. Echter, deze modellen hebben beperkt begrip van taal, waarbij ze vaak een "zak van woorden"-gedrag vertonen. Tegelijkertijd zijn Grote Vision-Language Modellen (LVLM's), die visie-encoders combineren met LLM's, in staat gebleken gedetailleerde visie-taal redenering uit te voeren, maar hun autoregressieve aard maakt ze minder geschikt voor discriminatieve taken. In dit werk stellen we voor om "het beste van beide werelden" te combineren: een nieuwe trainingsbenadering voor discriminatieve fine-tuning van LVLM's die resulteert in sterke discriminatieve en compositionele mogelijkheden. We zetten in feite een generatief LVLM om in een discriminatief model, waardoor de mogelijkheid voor krachtige beeld-tekst discriminatie gecombineerd met verbeterd taalbegrip wordt ontsloten. Onze bijdragen omvatten: (1) Een zorgvuldig ontworpen trainings/optimalisatiekader dat gebruikmaakt van beeld-tekst paren van variabele lengte en granulariteit voor het trainen van het model met zowel contrastieve als volgende-token voorspellingsverliezen. Dit wordt ondersteund door ablatie studies die de noodzaak van de componenten van ons kader rechtvaardigen. (2) Een parameter-efficiënte aanpassingsmethode met behulp van een combinatie van zachte aanmoediging en LoRA-adapters. (3) Aanzienlijke verbeteringen ten opzichte van state-of-the-art CLIP-achtige modellen van vergelijkbare grootte, inclusief standaard beeld-tekst ophaalbenchmarks en opmerkelijke winsten in compositionele aspecten.
Grote Taalmodellen (LLM's) hebben de afgelopen jaren opmerkelijke vooruitgang geboekt; echter, hun uitstekende prestaties zijn nog steeds grotendeels beperkt tot de belangrijkste wereldtalen, voornamelijk Engels. Veel LLM's blijven uitdagingen ondervinden bij meertalige taken, vooral als het gaat om talen met weinig bronnen. Om dit probleem aan te pakken, hebben we Marco-LLM geïntroduceerd: Massieve meertalige training voor cross-linguale verbetering van LLM's. We hebben een aanzienlijke hoeveelheid meertalige gegevens verzameld voor verschillende talen met weinig bronnen en uitgebreide voortdurende voorafgaande training uitgevoerd met behulp van de Qwen2-modellen. Deze inspanning heeft geleid tot een meertalig LLM genaamd Marco-LLM. Door uitgebreide evaluaties op verschillende meertalige benchmarks, waaronder MMMLU, AGIEval, Belebele, Flores-200, XCOPA en vele anderen, heeft Marco-LLM aanzienlijke verbeteringen aangetoond ten opzichte van toonaangevende LLM's. Bovendien heeft Marco-LLM aanzienlijke verbeteringen behaald in machinevertalingstaken van elk naar elk, wat de effectiviteit van ons meertalige LLM aantoont. Marco-LLM is een baanbrekend meertalig LLM dat is ontworpen om niet alleen uitzonderlijk goed te presteren bij meertalige taken, inclusief talen met weinig bronnen, maar ook sterke prestaties te behouden in het Engels en andere belangrijke talen, waardoor de prestatiekloof tussen talen met veel en weinig bronnen wordt verkleind. Door talen met elkaar te verbinden, toont deze inspanning onze toewijding aan het zorgen dat LLM's nauwkeurig werken in verschillende talen.
Recente ontwikkelingen in video diffusiemodellen hebben nieuwe mogelijkheden ontsloten voor realistische audio-gestuurde pratende videogeneratie. Het naadloos synchroniseren van audio en lippen, het behouden van identiteitsconsistentie op lange termijn en het produceren van natuurlijke, audio-uitgelijnde uitdrukkingen in gegenereerde pratende video's blijven echter aanzienlijke uitdagingen. Om deze uitdagingen aan te pakken, stellen we Memory-geleide EMOtie-bewuste diffusie (MEMO) voor, een end-to-end audio-gestuurde portretanimatiebenadering om identiteitsconsistente en expressieve pratende video's te genereren. Onze aanpak is gebaseerd op twee belangrijke modules: (1) een geheugen-geleide temporale module, die de identiteitsconsistentie op lange termijn en de bewegingssmoothness verbetert door geheugenstaten te ontwikkelen om informatie uit een langer verleden op te slaan om temporale modellering te begeleiden via lineaire aandacht; en (2) een emotie-bewuste audio module, die traditionele kruisaandacht vervangt door multimodale aandacht om de audio-video interactie te verbeteren, terwijl emoties worden gedetecteerd uit audio om gezichtsuitdrukkingen te verfijnen via emotie-adaptieve laagnormering. Uitgebreide kwantitatieve en kwalitatieve resultaten tonen aan dat MEMO realistischere pratende video's genereert over diverse beeld- en audiotype, waarbij het de state-of-the-art methoden overtreft op het gebied van algehele kwaliteit, audio-lip synchronisatie, identiteitsconsistentie en expressie-emotie uitlijning.
In dit artikel stellen we ZipAR voor, een trainingvrij, plug-and-play parallel decoderingsraamwerk voor het versnellen van auto-regressieve (AR) visuele generatie. De motivatie komt voort uit de observatie dat afbeeldingen lokale structuren vertonen en ruimtelijk verre regio's neigen naar minimale onderlinge afhankelijkheid. Gegeven een gedeeltelijk gedecodeerde set visuele tokens, naast het oorspronkelijke voorspellingsmechanisme voor het volgende token in de rijdimensie, kunnen de tokens die overeenkomen met ruimtelijk aangrenzende regio's in de kolomdimensie parallel worden gedecodeerd, waardoor het "volgende-set voorspelling" paradigma mogelijk wordt. Door meerdere tokens tegelijkertijd te decoderen in een enkele voorwaartse passage, wordt het aantal benodigde voorwaartse passages om een afbeelding te genereren aanzienlijk verminderd, resulterend in een aanzienlijke verbetering in generatie-efficiëntie. Experimenten tonen aan dat ZipAR het aantal model voorwaartse passages kan verminderen met maximaal 91% op het Emu3-Gen model zonder dat er extra hertraining nodig is.
De huidige grote taalmodellen zijn voornamelijk gebaseerd op decoderende structuurtransformatoren, die geweldige mogelijkheden hebben voor in-context leren (ICL). Over het algemeen wordt aangenomen dat de belangrijke basis van de ICL-capaciteit ervan het inductiekopmechanisme is, dat minstens twee lagen aandacht vereist. Om de inductiecapaciteit van het model efficiënter te implementeren, herzien we het inductiekopmechanisme en stellen een KV-verschuivende aandacht voor. We bewijzen theoretisch dat de KV-verschuivende aandacht de vereisten van het model voor de diepte en breedte van het inductiekopmechanisme vermindert. Onze experimentele resultaten tonen aan dat KV-verschuivende aandacht gunstig is voor het leren van inductiekoppen en taalmodellering, wat leidt tot betere prestaties of snellere convergentie van speelgoedmodellen naar de vooraf getrainde modellen met meer dan 10 B parameters.
Wij stellen 4Real-Video voor, een nieuw raamwerk voor het genereren van 4D-video's, georganiseerd als een raster van videoframes met zowel tijd- als gezichtspuntassen. In dit raster bevat elke rij frames die dezelfde tijdstap delen, terwijl elke kolom frames bevat van hetzelfde gezichtspunt. We stellen een nieuw tweestromenarchitectuur voor. Eén stroom voert gezichtspuntupdates uit op kolommen, en de andere stroom voert temporale updates uit op rijen. Na elke diffusietransformerlaag wisselt een synchronisatielaag informatie uit tussen de twee tokenstromen. We stellen twee implementaties van de synchronisatielaag voor, waarbij gebruik wordt gemaakt van ofwel harde of zachte synchronisatie. Deze feedforward-architectuur verbetert eerdere werken op drie manieren: hogere inferentiesnelheid, verbeterde visuele kwaliteit (gemeten aan de hand van FVD, CLIP en VideoScore), en verbeterde temporale en gezichtspuntconsistentie (gemeten aan de hand van VideoScore en Dust3R-Confidence).
Ondanks de opmerkelijke prestaties van multimodale grote taalmodellen (MLLM's) bij diverse taken, belemmeren de aanzienlijke trainings- en inferentiekosten hun vooruitgang. De meerderheid van de berekeningen komt voort uit het overweldigende volume aan visuele tokens verwerkt door de transformer decoder. In dit artikel stellen we voor om efficiënte MLLM's te bouwen door gebruik te maken van het Mixture-of-Depths (MoD) mechanisme, waarbij elke transformer decoder laag essentiële visuele tokens selecteert om te verwerken terwijl overbodige worden overgeslagen. Het integreren van MoD in MLLM's is echter niet triviaal. Om de uitdagingen van trainings- en inferentiestabiliteit en beperkte trainingsdata aan te pakken, passen we de MoD-module aan met twee nieuwe ontwerpen: tanh-gepoorte gewichtnormalisatie (TanhNorm) en symmetrische token-herweging (STRing). Bovendien merken we op dat visuele tokens een hogere redundantie vertonen in diepere lagen en ontwerpen daarom een progressieve verhoudingsafname (PRD) strategie, die geleidelijk de tokenretentieverhouding laag voor laag vermindert, met behulp van een verschoven cosinusschema. Dit cruciale ontwerp ontketent volledig het potentieel van MoD, wat de efficiëntie en prestaties van onze modellen aanzienlijk verbetert. Om de effectiviteit van onze aanpak te valideren, voeren we uitgebreide experimenten uit met twee basismodellen over 14 benchmarks. Ons model, p-MoD, evenaart of overtreft zelfs de prestaties van de basismodellen, met slechts 55,6% TFLOPs en 53,8% KV-cacheopslag tijdens inferentie, en 77,7% GPU-uren tijdens training.
Ondanks aanzienlijke vooruitgang in visie-taalmodellen (VLM's), ontbreken effectieve benaderingen om de kwaliteit van de respons te verbeteren door schaalvergroting van de inferentietijd berekening. Deze mogelijkheid wordt beschouwd als een kernstap naar zelfverbeterende modellen in recente studies naar grote taalmodellen. In dit artikel presenteren we het Vision Value Model (VisVM) dat VLM-inferentietijdzoekopdrachten kan begeleiden om reacties te genereren met een beter visueel begrip. Specifiek evalueert VisVM niet alleen de kwaliteit van de gegenereerde zin in de huidige zoekstap, maar anticipeert ook op de kwaliteit van de daaropvolgende zinnen die kunnen voortvloeien uit de huidige stap, en biedt zo een langetermijnwaarde. Op deze manier stuurt VisVM VLM's weg van het genereren van zinnen die vatbaar zijn voor hallucinaties of onvoldoende details, waardoor er reacties van hogere kwaliteit worden geproduceerd. Experimentele resultaten tonen aan dat door VisVM geleide zoekopdrachten aanzienlijk de mogelijkheid van VLM's verbeteren om beschrijvende bijschriften te genereren met rijkere visuele details en minder hallucinaties, in vergelijking met gretige decodering en zoekmethoden met andere visuele beloningssignalen. Bovendien blijkt dat het zelf trainen van het model met de door VisVM geleide bijschriften de prestaties van VLM's verbetert over een breed scala van multimodale benchmarks, wat wijst op het potentieel voor het ontwikkelen van zelfverbeterende VLM's. Ons waarde model en code zijn beschikbaar op https://github.com/si0wang/VisVM.
Medische beeldsegmentatie heeft recentelijk indrukwekkende vooruitgang laten zien met diepe neurale netwerken, maar de heterogene modaliteiten en schaarste aan maskerannotaties beperken de ontwikkeling van segmentatiemodellen op niet-geannoteerde modaliteiten. Dit artikel onderzoekt een nieuw paradigma voor het benutten van generatieve modellen in medische toepassingen: het controleerbaar synthetiseren van gegevens voor niet-geannoteerde modaliteiten, zonder dat geregistreerde gegevensparen nodig zijn. Specifiek leveren we de volgende bijdragen in dit artikel: (i) we verzamelen en beheren een grootschalige radiologie beeld-tekst dataset, MedGen-1M, bestaande uit modaliteitslabels, kenmerken, regio- en orgaaninformatie, samen met een subset van orgaanmaskerannotaties, ter ondersteuning van onderzoek naar controleerbare medische beeldgeneratie; (ii) we stellen een diffusie-gebaseerde gegevensmotor voor, genaamd MRGen, die generatie mogelijk maakt op basis van tekstprompts en maskers, waarbij MR-beelden worden gesynthetiseerd voor diverse modaliteiten die maskerannotaties missen, om segmentatiemodellen te trainen op niet-geannoteerde modaliteiten; (iii) we voeren uitgebreide experimenten uit over verschillende modaliteiten, waarbij we aantonen dat onze gegevensmotor effectief trainingssamples kan synthetiseren en MRI-segmentatie kan uitbreiden naar niet-geannoteerde modaliteiten.
Het extraheren van tabellen uit documentafbeeldingen is een uitdagend AI-probleem, en gelabelde gegevens voor veel inhoudsdomeinen zijn moeilijk te verkrijgen. Bestaande datasetten voor tabel extractie richten zich vaak op wetenschappelijke tabellen vanwege de grote hoeveelheid academische artikelen die direct beschikbaar zijn, samen met hun broncode. Er zijn echter aanzienlijke verschillen in lay-out en typografie tussen tabellen in wetenschappelijke, financiële en andere domeinen. Huidige datasetten missen vaak de woorden en hun posities binnen de tabellen, en vertrouwen in plaats daarvan op onbetrouwbare OCR om deze kenmerken te extraheren voor het trainen van moderne machine learning modellen voor taken op het gebied van natuurlijke taalverwerking. Daarom is er behoefte aan een meer algemene methode om gelabelde gegevens te verkrijgen. Wij presenteren SynFinTabs, een grootschalige, gelabelde dataset van synthetische financiële tabellen. We hopen dat onze methode om deze synthetische tabellen te genereren overdraagbaar is naar andere domeinen. Om de effectiviteit van onze dataset te demonstreren bij het trainen van modellen om informatie uit tabelafbeeldingen te extraheren, creëren we FinTabQA, een groot taalmodel getraind op een extractieve vraag-en-antwoordtaak. We testen ons model met echte financiële tabellen en vergelijken het met een state-of-the-art generatief model en bespreken de resultaten. Wij stellen de dataset, het model en de code voor het genereren van de dataset openbaar beschikbaar.
Open community-driven platforms zoals Chatbot Arena die gebruikersvoorkeursgegevens van sitebezoekers verzamelen, hebben een reputatie opgebouwd als een van de meest betrouwbare publiekelijk beschikbare benchmarks voor de prestaties van LLM. Hoewel nu standaard, is het lastig om effectieve waarborgen te implementeren om hoogwaardige annotaties van mensen te verzamelen. In dit artikel tonen we aan dat drie bronnen van slechte annotaties, zowel kwaadwillig als anderszins, de betrouwbaarheid van open ranglijsten kunnen aantasten. In het bijzonder laten we zien dat slechts 10% van de van slechte kwaliteit zijnde stemmen door apathische (sitebezoekers die niet op passende wijze gestimuleerd worden om correcte stemmen uit te brengen) of vijandige (slechte actoren die de ranglijst van een doelmodel willen opblazen) annotatoren de ranglijsten van modellen tot wel 5 plaatsen op de ranglijst kunnen veranderen. Tot slot bespreken we open uitdagingen bij het waarborgen van hoogwaardige menselijke annotaties.
We ontwikkelen schaalwetten voor taken en modelleren ladders om de individuele taakprestaties van vooraf getrainde taalmodellen (LM's) te voorspellen in de overgetrainde setting. Standaard machtsregels voor verlies bij taalmodellering kunnen taakprestaties niet nauwkeurig modelleren. Daarom maken we gebruik van een tweestaps voorspellingsbenadering: eerst gebruiken we model- en gegevensgrootte om een taakspecifiek verlies te voorspellen, en vervolgens gebruiken we dit taakverlies om de taakprestatie te voorspellen. We trainen een reeks kleinschalige "ladder" modellen, verzamelen gegevenspunten om de geparametriseerde functies van de twee voorspellingsstappen aan te passen, en maken voorspellingen voor twee doelmodellen: een 7B-model getraind op 4T tokens en een 13B-model getraind op 5T tokens. Het trainen van de laddermodellen kost slechts 1% van de berekening die wordt gebruikt voor de doelmodellen. Op vier meerkeuzetaken geschreven in gerangschikte classificatie-indeling, kunnen we de nauwkeurigheid van beide doelmodellen voorspellen binnen 2 punten absolute fout. We hebben een hogere voorspellingsfout op vier andere taken (gemiddelde absolute fout 6.9) en vinden dat dit vaak taken zijn met een hogere variabiliteit in taakmetrieken. We vinden ook dat het gebruik van minder berekening om minder laddermodellen te trainen de voorspellingen meestal verslechtert. Ten slotte tonen we empirisch aan dat onze ontwerpkeuzes en de tweestapsbenadering leiden tot superieure prestaties bij het vaststellen van schaalwetten.