Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het genereren van natuurlijke en betekenisvolle reacties om te communiceren met multimodale menselijke input is een fundamentele capaciteit van Large Vision-Language Models (LVLMs). Hoewel huidige open-source LVLMs veelbelovende prestaties laten zien in vereenvoudigde scenario's zoals enkelvoudige invoer met één afbeelding, schieten ze tekort in realistische gespreksscenario's zoals het volgen van instructies in een lange contextgeschiedenis met meerdere beurten en meerdere afbeeldingen. Bestaande LVLM-benchmarks richten zich voornamelijk op meerkeuzevragen of korte antwoorden, wat niet voldoende de capaciteiten van LVLMs in realistische mens-AI-interactietoepassingen beoordeelt. Daarom introduceren we MMDU, een uitgebreide benchmark, en MMDU-45k, een grootschalig instructieafstemmingsdataset, ontworpen om de vaardigheden van LVLMs in gesprekken met meerdere beurten en meerdere afbeeldingen te evalueren en te verbeteren. We gebruiken het clusteringalgoritme om relevante afbeeldingen en tekstuele beschrijvingen uit de open-source Wikipedia te vinden en construeren vraag-antwoordparen door menselijke annotators met behulp van het GPT-4o-model. MMDU heeft een maximum van 18k afbeelding+tekst tokens, 20 afbeeldingen en 27 beurten, wat minstens 5x langer is dan eerdere benchmarks en uitdagingen biedt aan huidige LVLMs. Onze diepgaande analyse van 15 representatieve LVLMs met behulp van MMDU onthult dat open-source LVLMs achterblijven bij closed-source tegenhangers vanwege beperkte conversatie-instructieafstemmingsdata. We tonen aan dat het finetunen van open-source LVLMs op MMDU-45k deze kloof aanzienlijk verkleint, langere en nauwkeurigere gesprekken genereert, en scores op MMDU en bestaande benchmarks verbetert (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Onze bijdragen banen de weg voor het overbruggen van de kloof tussen huidige LVLM-modellen en de eisen van realistische toepassingen. Dit project is beschikbaar op https://github.com/Liuziyu77/MMDU.
We introduceren DataComp for Language Models (DCLM), een testomgeving voor gecontroleerde datasetexperimenten met als doel het verbeteren van taalmodel(len). Als onderdeel van DCLM bieden we een gestandaardiseerd corpus van 240T tokens, geëxtraheerd uit Common Crawl, effectieve pretrainingsrecepten gebaseerd op het OpenLM-framework, en een uitgebreide set van 53 downstream-evaluaties. Deelnemers aan de DCLM-benchmark kunnen experimenteren met datacuratiestrategieën zoals deduplicatie, filtering en datamixen op modelschalen variërend van 412M tot 7B parameters. Als basislijn voor DCLM voeren we uitgebreide experimenten uit en concluderen we dat modelgebaseerde filtering essentieel is voor het samenstellen van een hoogwaardige trainingsset. De resulterende dataset, DCLM-Baseline, maakt het mogelijk om een taalmodel van 7B parameters vanaf nul te trainen tot een 5-shot nauwkeurigheid van 64% op MMLU met 2.6T trainings-tokens. Vergeleken met MAP-Neo, de vorige state-of-the-art in open-data taalmodel(len), vertegenwoordigt DCLM-Baseline een verbetering van 6,6 procentpunt op MMLU terwijl het met 40% minder rekenkracht is getraind. Ons basislijnmodel is ook vergelijkbaar met Mistral-7B-v0.3 en Llama 3 8B op MMLU (63% & 66%), en presteert vergelijkbaar op een gemiddelde van 53 natuurlijke taalbegriptaken terwijl het met 6,6x minder rekenkracht is getraind dan Llama 3 8B. Onze resultaten benadrukken het belang van datasetontwerp voor het trainen van taalmodel(len) en bieden een startpunt voor verder onderzoek naar datacuratie.
Direct preference optimization (DPO) heeft zich bewezen als een effectieve methode voor het afstemmen van grote taalmodelen (LLM's). Recente studies hebben geprobeerd DPO toe te passen op multimodale scenario's, maar het bleek lastig om consistente verbeteringen te bereiken. Door middel van een vergelijkend experiment identificeren we het onvoorwaardelijke voorkeursprobleem in multimodale voorkeursoptimalisatie, waarbij het model de beeldconditie over het hoofd ziet. Om dit probleem aan te pakken, stellen we mDPO voor, een multimodale DPO-doelstelling die voorkomt dat taalvoorkeuren te veel prioriteit krijgen door ook beeldvoorkeuren te optimaliseren. Bovendien introduceren we een beloningsanker dat ervoor zorgt dat de beloning positief is voor gekozen antwoorden, waardoor een afname in hun waarschijnlijkheid wordt voorkomen — een intrinsiek probleem van relatieve voorkeursoptimalisatie. Experimenten met twee multimodale LLM's van verschillende grootte en drie veelgebruikte benchmarks tonen aan dat mDPO het onvoorwaardelijke voorkeursprobleem in multimodale voorkeursoptimalisatie effectief aanpakt en de modelprestaties aanzienlijk verbetert, met name in het verminderen van hallucinaties.
Grote taalmmodellen (LLMs) zijn in staat om uitgebreide dialooggeschiedenissen te verwerken tijdens langdurige interacties met gebruikers zonder extra geheugenmodules; hun reacties hebben echter de neiging om informatie uit het verleden over het hoofd te zien of verkeerd te herinneren. In dit artikel herzien we geheugen-augmented responsgeneratie in het tijdperk van LLMs. Terwijl eerder werk zich richtte op het verwijderen van verouderde herinneringen, stellen wij dat dergelijke herinneringen contextuele aanwijzingen kunnen bieden die dialoogsystemen helpen de ontwikkeling van eerdere gebeurtenissen te begrijpen en daardoor de responsgeneratie ten goede komen. Wij presenteren Theanine, een raamwerk dat de responsgeneratie van LLMs verrijkt met geheugentijdlijnen — reeksen herinneringen die de ontwikkeling en causaliteit van relevante eerdere gebeurtenissen demonstreren. Naast Theanine introduceren we TeaFarm, een tegenfeitelijke vraag-antwoordpipeline die de beperkingen van G-Eval in langdurige gesprekken aanpakt. Aanvullende video's van onze methoden en de TeaBag-dataset voor TeaFarm-evaluatie zijn te vinden op https://theanine-693b0.web.app/.
Recentelijk hebben 3D-assets die via reconstructie en generatie zijn gemaakt, de kwaliteit van handmatig vervaardigde assets geëvenaard, wat hun potentieel voor vervanging benadrukt. Dit potentieel blijft echter grotendeels onbenut omdat deze assets altijd moeten worden omgezet naar meshes voor toepassingen in de 3D-industrie, en de meshes die door huidige mesh-extractiemethoden worden geproduceerd, zijn aanzienlijk inferieur aan Artist-Created Meshes (AMs), d.w.z. meshes die door menselijke artiesten zijn gemaakt. Specifiek vertrouwen huidige mesh-extractiemethoden op dichte vlakken en negeren ze geometrische kenmerken, wat leidt tot inefficiënties, gecompliceerde nabewerking en lagere representatiekwaliteit. Om deze problemen aan te pakken, introduceren we MeshAnything, een model dat mesh-extractie behandelt als een generatieprobleem, waarbij het AMs produceert die zijn afgestemd op gespecificeerde vormen. Door 3D-assets in elke 3D-representatie om te zetten in AMs, kan MeshAnything worden geïntegreerd met verschillende 3D-assetproductiemethoden, waardoor hun toepassing in de 3D-industrie wordt verbeterd. De architectuur van MeshAnything bestaat uit een VQ-VAE en een shape-conditioned decoder-only transformer. We leren eerst een mesh-vocabulaire aan met behulp van de VQ-VAE, en trainen vervolgens de shape-conditioned decoder-only transformer op dit vocabulaire voor shape-conditioned autoregressieve mesh-generatie. Onze uitgebreide experimenten tonen aan dat onze methode AMs genereert met honderden keren minder vlakken, wat de opslag-, rendering- en simulatie-efficiëntie aanzienlijk verbetert, terwijl een precisie wordt bereikt die vergelijkbaar is met eerdere methoden.
Ondanks de recente observatie dat grote taalmmodellen (LLMs) aanzienlijke feitelijke kennis kunnen opslaan, is er een beperkt begrip van de mechanismen waarmee ze feitelijke kennis verwerven door middel van pretraining. Dit werk vult deze leemte door te bestuderen hoe LLMs feitelijke kennis verwerven tijdens pretraining. De bevindingen onthullen verschillende belangrijke inzichten in de dynamiek van feitelijke kennisverwerving tijdens pretraining. Ten eerste, tegenintuïtief, observeren we dat pretraining met meer data geen significante verbetering laat zien in het vermogen van het model om feitelijke kennis te verwerven en te behouden. Vervolgens is er een machtswetrelatie tussen trainingsstappen en het vergeten van memorisatie en generalisatie van feitelijke kennis, en LLMs die getraind zijn met gedupliceerde trainingsdata vertonen sneller vergeten. Ten derde kan het trainen van LLMs met grotere batchgroottes de robuustheid van de modellen tegen vergeten vergroten. Over het algemeen suggereren onze observaties dat feitelijke kennisverwerving in LLM-pretraining plaatsvindt door geleidelijk de waarschijnlijkheid van feitelijke kennis die in de pretrainingdata wordt gepresenteerd, te verhogen bij elke stap. Deze toename wordt echter verdund door daaropvolgend vergeten. Op basis van deze interpretatie demonstreren we dat we plausibele verklaringen kunnen bieden voor recent waargenomen gedragingen van LLMs, zoals de slechte prestaties van LLMs op kennis van de lange staart en de voordelen van het dedupliceren van het pretrainingcorpus.
Recente Large Language Models zijn uitgebreid met visuele mogelijkheden, waardoor ze afbeeldingen, video's en gecombineerde visueel-taalkundige inhoud kunnen begrijpen. De leermethoden van deze grote multimodale modellen behandelen video's echter meestal als vooraf bepaalde clips, waardoor ze minder effectief en efficiënt zijn in het verwerken van streaming video-inputs. In dit artikel stellen we een nieuw Learning-In-Video-Stream (LIVE) framework voor, dat tijdelijk uitgelijnde, langdurige context en real-time conversatie mogelijk maakt binnen een continue videostream. Ons LIVE framework omvat uitgebreide benaderingen om videostreamingdialoog te bereiken, waaronder: (1) een trainingsdoel ontworpen om taalmodeling uit te voeren voor continue streaming-inputs, (2) een datageneratieschema dat offline temporele annotaties omzet in een streamingdialoogformaat, en (3) een geoptimaliseerd inferentiepijplijn om de modelresponsen in real-world videostreams te versnellen. Met ons LIVE framework hebben we het VideoLLM-online model gebouwd op basis van Llama-2/Llama-3 en laten we de significante voordelen zien in het verwerken van streaming video's. Zo kan ons model bijvoorbeeld gemiddeld streamingdialoog ondersteunen in een videoclip van 5 minuten met meer dan 10 FPS op een A100 GPU. Bovendien toont het ook state-of-the-art prestaties op openbare offline videobenchmarks, zoals herkenning, ondertiteling en voorspelling. De code, het model, de data en de demo zijn beschikbaar gemaakt op https://showlab.github.io/videollm-online.
De inzet van grote taalmodellen (LLMs) wordt vaak belemmerd door de uitgebreide geheugeneisen van de Key-Value (KV) cache, vooral naarmate de contextlengtes toenemen. Bestaande benaderingen om de KV-cachegrootte te verkleinen, omvatten ofwel het finetunen van het model om een compressiestrategie te leren, ofwel het gebruikmaken van attentiescores om de sequentielengte te reduceren. Wij analyseren de aandachtverdelingen in decoder-only Transformers-gebaseerde modellen en merken op dat de aandachtstoewijzingspatronen consistent blijven over de meeste lagen. Verrassend genoeg vinden we een duidelijke correlatie tussen de L_2 en de attentiescores over gecachete KV-paren, waarbij een lage L_2 van een key-embedding meestal leidt tot een hoge attentiescore tijdens het decoderen. Deze bevinding geeft aan dat de invloed van een KV-paar mogelijk wordt bepaald door de key-embedding zelf voordat deze wordt bevraagd. Op basis van deze observatie comprimeren we de KV-cache op basis van de L_2 van key-embeddings. Onze experimentele resultaten tonen aan dat deze eenvoudige strategie de KV-cachegrootte kan verkleinen met 50% bij taalmodellering en needle-in-a-haystack taken, en met 90% bij passkey-retrieval taken, zonder verlies van nauwkeurigheid.
Het waarnemen en begrijpen van niet-spraakgeluiden en non-verbale spraak is essentieel voor het nemen van beslissingen die ons helpen om te interageren met onze omgeving. In dit artikel introduceren we GAMA, een nieuw General-purpose Large Audio-Language Model (LALM) met geavanceerde audio-begrip en complexe redeneervaardigheden. We bouwen GAMA door een LLM te integreren met meerdere soorten audio-representaties, waaronder kenmerken van een aangepaste Audio Q-Former, een multi-layer aggregator die kenmerken uit meerdere lagen van een audio-encoder samenvoegt. We fine-tunen GAMA op een grootschalige audio-taal dataset, wat het uitrust met audio-begrip vaardigheden. Vervolgens introduceren we CompA-R (Instruction-Tuning voor Complex Audio Reasoning), een synthetisch gegenereerde instruction-tuning (IT) dataset met instructies die het model vereisen om complexe redeneringen uit te voeren op de input audio. We instruction-tunen GAMA met CompA-R om het te voorzien van complexe redeneervaardigheden, waarbij we verder een soft prompt toevoegen als input met hoogwaardig semantisch bewijs door gebruik te maken van event tags van de input audio. Tot slot stellen we ook CompA-R-test voor, een door mensen gelabelde evaluatie dataset voor het beoordelen van de capaciteiten van LALMs op open-einde audio-vraagbeantwoording die complexe redenering vereist. Door geautomatiseerde en expert menselijke evaluaties tonen we aan dat GAMA alle andere LALMs in de literatuur overtreft op diverse audio-begrip taken met marges van 1%-84%. Bovendien blijkt GAMA, getraind op CompA-R, superieur in zijn complexe redeneer- en instructievolgcapaciteiten.
Grote taalmodellen (LLM's) gebaseerd op decoder-only transformers hebben superieure tekstbegripcapaciteiten getoond in vergelijking met CLIP- en T5-serie modellen. Het paradigma voor het benutten van huidige geavanceerde LLM's in tekst-naar-beeld diffusiemodellen moet echter nog worden verkend. We hebben een ongebruikelijk fenomeen waargenomen: het direct gebruiken van een groot taalmodel als prompt-encoder verslechtert aanzienlijk het vermogen om prompts te volgen bij beeldgeneratie. We hebben twee belangrijke obstakels achter dit probleem geïdentificeerd. Het ene is de mismatch tussen de training voor voorspelling van het volgende token in LLM en de vereiste voor discriminerende promptkenmerken in diffusiemodellen. Het andere is de intrinsieke positionele bias die wordt geïntroduceerd door de decoder-only architectuur. Om dit probleem aan te pakken, stellen we een nieuw raamwerk voor om de capaciteiten van LLM's volledig te benutten. Door het zorgvuldig ontworpen gebruikersadvies verbeteren we effectief de tekstrepresentatiecapaciteit voor promptcodering en elimineren we de inherente positionele bias. Hierdoor kunnen we state-of-the-art LLM's flexibel integreren in het tekst-naar-beeld generatiemodel. Bovendien bieden we ook een effectieve manier om meerdere LLM's in ons raamwerk te fuseren. Gezien de uitstekende prestaties en schaalbaarheid die de transformer-architectuur heeft getoond, ontwerpen we verder een LLM-Infused Diffusion Transformer (LI-DiT) op basis van het raamwerk. We voeren uitgebreide experimenten uit om LI-DiT te valideren over modelgrootte en datagrootte. Dankzij de inherente capaciteiten van de LLM's en onze innovatieve ontwerpen overtreft de promptbegripprestatie van LI-DiT gemakkelijk state-of-the-art open-source modellen evenals mainstream closed-source commerciële modellen, waaronder Stable Diffusion 3, DALL-E 3 en Midjourney V6. De krachtige LI-DiT-10B zal beschikbaar zijn na verdere optimalisatie en beveiligingscontroles.
Multimodale interleaved datasets met vrije, door elkaar heen lopende reeksen van afbeeldingen en tekst zijn cruciaal voor het trainen van geavanceerde grote multimodale modellen (LMMs). Ondanks de snelle vooruitgang van open-source LMMs, is er nog steeds een opvallend gebrek aan grootschalige, diverse open-source multimodale interleaved datasets. Als reactie hierop introduceren we MINT-1T, de meest uitgebreide en diverse open-source Multimodale INTerleaved dataset tot nu toe. MINT-1T bestaat uit één biljoen teksttokens en drie miljard afbeeldingen, een schaalvergroting van 10x ten opzichte van bestaande open-source datasets. Daarnaast hebben we voorheen onbenutte bronnen zoals PDF's en ArXiv-artikelen opgenomen. Omdat het schalen van multimodale interleaved datasets aanzienlijke technische inspanning vereist, is het delen van het datacuratieproces en het vrijgeven van de dataset van groot belang voor de gemeenschap. Onze experimenten tonen aan dat LMMs die op MINT-1T zijn getraind, de prestaties evenaren van modellen die zijn getraind op de vorige toonaangevende dataset, OBELICS. Onze data en code zullen worden vrijgegeven op https://github.com/mlfoundations/MINT-1T.
Het bestaande fine-tuning paradigma voor taalmodelen is broos in scenario's van kennisbewerking, waarbij het model nieuwe informatie moet integreren zonder uitgebreide hertraining. Deze broosheid resulteert vaak in overfitting, verminderde prestaties en onnatuurlijke taalgeneratie. Om dit aan te pakken, stellen we Consistent In-Context Editing (ICE) voor, een nieuwe aanpak die gebruikmaakt van de in-context leercapaciteit van het model om af te stemmen op een contextuele verdeling in plaats van een one-hot doel. ICE introduceert een eenvoudig optimalisatiekader dat zowel een doel als een procedure omvat, waardoor de robuustheid en effectiviteit van op gradienten gebaseerde tuningsmethoden worden verbeterd. We bieden analytische inzichten in ICE op vier kritieke aspecten van kennisbewerking: nauwkeurigheid, lokaliteit, generalisatie en linguïstische kwaliteit, en tonen de voordelen ervan aan. Experimentele resultaten over vier datasets bevestigen de effectiviteit van ICE en demonstreren het potentieel voor continue bewerking, waarbij ervoor wordt gezorgd dat bijgewerkte informatie wordt geïntegreerd terwijl de integriteit van het model behouden blijft.
Multimodale Large Language Models (MLLMs) hebben een uitstekend begrip van afbeeldingen en 3D-data getoond. Beide modaliteiten hebben echter tekortkomingen in het holistisch vastleggen van het uiterlijk en de geometrie van objecten. Ondertussen zijn Neural Radiance Fields (NeRFs), die informatie coderen binnen de gewichten van een eenvoudig Multi-Layer Perceptron (MLP), naar voren gekomen als een steeds meer verspreide modaliteit die tegelijkertijd de geometrie en fotorealistische weergave van objecten vastlegt. Dit artikel onderzoekt de haalbaarheid en effectiviteit van het integreren van NeRF in MLLM. We creëren LLaNA, de eerste algemene NeRF-taalassistent die nieuwe taken kan uitvoeren, zoals NeRF-beschrijvingen en vraag-en-antwoord. Opmerkelijk is dat onze methode direct de gewichten van de NeRF's MLP verwerkt om informatie over de gerepresenteerde objecten te extraheren, zonder dat er afbeeldingen gerenderd of 3D-datastructuren gematerialiseerd hoeven te worden. Bovendien bouwen we een dataset van NeRFs met tekstannotaties voor diverse NeRF-taal taken, zonder menselijke tussenkomst. Op basis van deze dataset ontwikkelen we een benchmark om het NeRF-begrip van onze methode te evalueren. De resultaten tonen aan dat het verwerken van NeRF-gewichten gunstiger presteert dan het extraheren van 2D- of 3D-representaties uit NeRFs.
Het trainen van grote visueel-taalkundige modellen vereist uitgebreide, hoogwaardige afbeelding-tekst paren. Bestaande, van het web geschraapte datasets zijn echter rommelig en missen gedetailleerde afbeeldingsbeschrijvingen. Om deze kloof te overbruggen, introduceren we PixelProse, een uitgebreide dataset van meer dan 16 miljoen synthetisch gegenereerde bijschriften, waarbij gebruik wordt gemaakt van state-of-the-art visueel-taalkundige modellen voor gedetailleerde en nauwkeurige beschrijvingen. Om de integriteit van de gegevens te waarborgen, analyseren we onze dataset grondig op problematische inhoud, waaronder materiaal met betrekking tot seksueel misbruik van kinderen (CSAM), persoonlijk identificeerbare informatie (PII) en toxiciteit. We bieden ook waardevolle metadata, zoals de aanwezigheid van watermerken en esthetische scores, die helpen bij verdere filtering van de dataset. We hopen dat PixelProse een waardevolle bron zal zijn voor toekomstig visueel-taalkundig onderzoek. PixelProse is beschikbaar op https://huggingface.co/datasets/tomg-group-umd/pixelprose.
Reinforcement learning from human feedback (RLHF) is een veelbelovende oplossing om grote taalmmodellen (LLMs) beter af te stemmen op menselijke waarden. Off-policy voorkeursoptimalisatie, waarbij de voorkeursgegevens worden verkregen van andere modellen, wordt veel gebruikt vanwege de kostenefficiëntie en schaalbaarheid. Off-policy voorkeursoptimalisatie heeft echter vaak te maken met een distributiekloof tussen het beleid dat wordt gebruikt voor gegevensverzameling en het doelbeleid, wat leidt tot suboptimale optimalisatie. In dit artikel stellen we een nieuwe strategie voor om dit probleem te verlichten door on-policy learning te simuleren met off-policy voorkeursgegevens. Onze Weighted Preference Optimization (WPO)-methode past off-policy gegevens aan zodat ze meer lijken op on-policy gegevens door voorkeursparen te herwegen op basis van hun waarschijnlijkheid onder het huidige beleid. Deze methode lost niet alleen het distributieprobleem op, maar verbetert ook het optimalisatieproces zonder extra kosten te maken. We valideren onze methode op benchmarks voor instructievolging, waaronder Alpaca Eval 2 en MT-bench. WPO presteert niet alleen tot 5,6% beter dan Direct Preference Optimization (DPO) op Alpaca Eval 2, maar behaalt ook een opmerkelijke lengte-gecontroleerde winstratio van 48,6% tegen GPT-4-turbo op basis van Llama-3-8B-Instruct, waardoor het het sterkste 8B-model op de leaderboard is. We zullen de code en modellen vrijgeven op https://github.com/wzhouad/WPO.
Wereldmodellen simuleren toekomstige toestanden van de wereld als reactie op verschillende acties. Ze faciliteren interactieve contentcreatie en bieden een basis voor gefundeerd, langetermijnredeneren. Huidige foundationmodellen voldoen niet volledig aan de capaciteiten van algemene wereldmodellen: grote taalmodelen (LLM's) worden beperkt door hun afhankelijkheid van de taalmodaliteit en hun beperkte begrip van de fysieke wereld, terwijl videomodellen geen interactieve actiecontrole hebben over de wereldsimulaties. Dit artikel zet een stap in de richting van het bouwen van een algemeen wereldmodel door Pandora te introduceren, een hybride autoregressief-diffusiemodel dat wereldtoestanden simuleert door video's te genereren en realtime controle mogelijk maakt met vrije-tekstacties. Pandora bereikt domeingeneraliteit, videoconsistentie en bestuurbaarheid door grootschalige voorafgaande training en instructieafstemming. Cruciaal is dat Pandora de kosten van training vanaf nul omzeilt door een vooraf getraind LLM (7B) en een vooraf getraind videomodel te integreren, waarbij alleen aanvullende lichtgewicht finetuning nodig is. We illustreren uitgebreide output van Pandora in diverse domeinen (binnen/buiten, natuurlijk/stedelijk, mens/robot, 2D/3D, enz.). De resultaten wijzen op een groot potentieel voor het bouwen van sterkere algemene wereldmodellen met grootschaligere training.
Recente doorbraken in vision-language models (VLMs) benadrukken de noodzaak om menselijke voorkeuren te benchmarken in real-world multimodale interacties. Om deze kloof te dichten, hebben we WildVision-Arena (WV-Arena) gelanceerd, een online platform dat menselijke voorkeuren verzamelt om VLMs te evalueren. We hebben WV-Bench samengesteld door 500 hoogwaardige samples te selecteren uit 8.000 gebruikersinzendingen in WV-Arena. WV-Bench gebruikt GPT-4 als beoordelaar om elke VLM te vergelijken met Claude-3-Sonnet, waarbij een Spearman-correlatie van 0,94 met de WV-Arena Elo wordt bereikt. Dit presteert aanzienlijk beter dan andere benchmarks zoals MMVet, MMMU en MMStar. Onze uitgebreide analyse van 20K real-world interacties onthult belangrijke inzichten in de faalgevallen van toonaangevende VLMs. Zo ontdekken we dat hoewel GPT-4V veel andere modellen zoals Reka-Flash, Opus en Yi-VL-Plus overtreft in eenvoudige visuele herkenning en redeneertaken, het nog steeds uitdagingen ondervindt met subtiele contextuele aanwijzingen, ruimtelijk redeneren, visuele verbeelding en expertdomeinkennis. Daarnaast vertonen huidige VLMs problemen met hallucinaties en veiligheid wanneer ze opzettelijk worden uitgedaagd. We maken onze chat- en feedbackdata beschikbaar om verder onderzoek in het veld van VLMs te bevorderen.
We presenteren L4GM, het eerste 4D Large Reconstruction Model dat geanimeerde objecten genereert vanuit een single-view video-input — in een enkele feed-forward pass die slechts een seconde duurt. De sleutel tot ons succes is een nieuwe dataset van multiview video's die zorgvuldig geselecteerde, gerenderde geanimeerde objecten uit Objaverse bevat. Deze dataset toont 44K diverse objecten met 110K animaties gerenderd in 48 gezichtspunten, wat resulteert in 12M video's met in totaal 300M frames. We houden L4GM eenvoudig voor schaalbaarheid en bouwen direct voort op LGM, een voorgetraind 3D Large Reconstruction Model dat 3D Gaussische ellipsoïden genereert vanuit multiview beeldinput. L4GM produceert een per-frame 3D Gaussian Splatting-representatie van videoframes die met een lage fps zijn bemonsterd, en upsamplet vervolgens de representatie naar een hogere fps om temporele vloeiendheid te bereiken. We voegen temporele self-attention lagen toe aan de basis-LGM om het consistentie over tijd te laten leren, en gebruiken een per-timestep multiview rendering loss om het model te trainen. De representatie wordt naar een hogere framerate geüpsampled door een interpolatiemodel te trainen dat tussenliggende 3D Gaussische representaties produceert. We demonstreren dat L4GM, dat alleen op synthetische data is getraind, uitstekend generaliseert naar in-the-wild video's, en hoogwaardige geanimeerde 3D-assets produceert.
In de echte wereld zijn documenten georganiseerd in verschillende formaten en modaliteiten. Traditionele retrievalsystemen vereisen op maat gemaakte documentparsingtechnieken en inhoudsextractiemodules om invoer voor indexering voor te bereiden. Dit proces is tijdrovend, foutgevoelig en gaat gepaard met informatieverlies. Daarom stellen we Document Screenshot Embedding (DSE) voor, een nieuw retrievalparadigma dat documentschermafbeeldingen beschouwt als een uniform invoerformaat, waarvoor geen inhoudsextractiepreprocessing nodig is en dat alle informatie in een document behoudt (bijv. tekst, afbeeldingen en lay-out). DSE maakt gebruik van een groot vision-languagemodel om documentschermafbeeldingen direct te coderen in dichte representaties voor retrieval. Om onze methode te evalueren, hebben we eerst de dataset Wiki-SS samengesteld, een corpus van 1,3 miljoen schermafbeeldingen van Wikipedia-webpagina's, om vragen uit de Natural Questions-dataset te beantwoorden. In zo'n tekstintensieve documentretrievalomgeving toont DSE een competitieve effectiviteit in vergelijking met andere tekstretrievalmethoden die afhankelijk zijn van parsing. DSE overtreft bijvoorbeeld BM25 met 17 punten in top-1 retrievalnauwkeurigheid. Daarnaast presteert DSE in een gemengde modaliteitstaak van dia-retrieval aanzienlijk beter dan OCR-tekstretrievalmethoden, met meer dan 15 punten in nDCG@10. Deze experimenten tonen aan dat DSE een effectief documentretrievalparadigma is voor diverse soorten documenten. Modelcheckpoints, code en de Wiki-SS-collectie zullen worden vrijgegeven.
Benchmarks voor grote multimodale taalmodellen (MLM's) dienen nu om de algemene capaciteiten van modellen tegelijkertijd te beoordelen in plaats van te evalueren voor een specifieke vaardigheid. Hierdoor worden ontwikkelaars die willen bepalen welke modellen ze voor hun toepassing moeten gebruiken, overweldigd door het aantal benchmarks en blijven ze onzeker over welke benchmarkresultaten het meest representatief zijn voor hun specifieke use case. Dit artikel introduceert Task-Me-Anything, een benchmarkgeneratie-engine die een benchmark produceert die is afgestemd op de behoeften van een gebruiker. Task-Me-Anything onderhoudt een uitbreidbare taxonomie van visuele assets en kan programmatisch een groot aantal taakinstanties genereren. Daarnaast behandelt het algoritmisch gebruikersvragen over MLM-prestaties efficiënt binnen een computationeel budget. Het bevat 113K afbeeldingen, 10K video's, 2K 3D-objectassets, meer dan 365 objectcategorieën, 655 attributen en 335 relaties. Het kan 750M afbeelding-/video-vraag-antwoordparen genereren, die gericht zijn op het evalueren van de perceptuele capaciteiten van MLM's. Task-Me-Anything onthult kritieke inzichten: open-source MLM's blinken uit in object- en attribuutherkenning maar hebben moeite met ruimtelijk en temporeel begrip; elk model vertoont unieke sterke en zwakke punten; grotere modellen presteren over het algemeen beter, hoewel uitzonderingen bestaan; en GPT4o toont uitdagingen in het herkennen van roterende/bewegende objecten en het onderscheiden van kleuren.
Een recente grens in computervisie is de taak van 3D-videogeneratie, die bestaat uit het genereren van een tijdsvariërende 3D-representatie van een scène. Om dynamische 3D-scènes te genereren, modelleren huidige methoden expliciet 3D-temporele dynamiek door gezamenlijk te optimaliseren voor consistentie over zowel tijd als verschillende aanzichten van de scène. In dit artikel onderzoeken we in plaats daarvan of het noodzakelijk is om expliciet multiview-consistentie over tijd af te dwingen, zoals huidige benaderingen doen, of dat het voldoende is voor een model om 3D-representaties van elk tijdstip onafhankelijk te genereren. We stellen daarom een model voor, Vid3D, dat gebruikmaakt van 2D-videodiffusie om 3D-video's te genereren door eerst een 2D-"zaadje" van de temporele dynamiek van de video te genereren en vervolgens onafhankelijk een 3D-representatie voor elk tijdstip in de zaadvideo te genereren. We evalueren Vid3D tegen twee state-of-the-art methoden voor 3D-videogeneratie en ontdekken dat Vid3D vergelijkbare resultaten behaalt, ondanks dat het geen expliciete 3D-temporele dynamiek modelleert. We onderzoeken verder hoe de kwaliteit van Vid3D afhangt van het aantal gegenereerde aanzichten per frame. Hoewel we enige degradatie waarnemen bij minder aanzichten, blijft de prestatievermindering beperkt. Onze resultaten suggereren dus dat 3D-temporele kennis mogelijk niet noodzakelijk is om hoogwaardige dynamische 3D-scènes te genereren, wat potentieel eenvoudigere generatieve algoritmen voor deze taak mogelijk maakt.
We presenteren een nieuw multimodaal voorkeursdataset voor creatieve taken, bestaande uit meer dan 250 miljoen menselijke beoordelingen van meer dan 2,2 miljoen bijschriften, verzameld via crowdsourcing van beoordelingsgegevens voor de wekelijkse cartoonbijschriftenwedstrijd van The New Yorker over de afgelopen acht jaar. Deze unieke dataset ondersteunt de ontwikkeling en evaluatie van multimodale grote taalmodellen en voorkeursgebaseerde fine-tuning algoritmen voor het genereren van humoristische bijschriften. We stellen nieuwe benchmarks voor om de kwaliteit van modelgegenereerde bijschriften te beoordelen, waarbij we zowel GPT4 als menselijke oordelen gebruiken om op rangschikking gebaseerde evaluatiestrategieën vast te stellen. Onze experimentele resultaten benadrukken de beperkingen van huidige fine-tuning methoden, zoals RLHF en DPO, wanneer deze worden toegepast op creatieve taken. Bovendien tonen we aan dat zelfs state-of-the-art modellen zoals GPT4 en Claude momenteel onderpresteren in vergelijking met de beste menselijke deelnemers in het genereren van humoristische bijschriften. Terwijl we deze uitgebreide dataverzamelingsinspanning afronden, maken we de volledige voorkeursdataset beschikbaar voor de onderzoeksgemeenschap, om verdere vooruitgang in AI-humorgeneratie en -evaluatie te bevorderen.
Er wordt algemeen aangenomen dat een neuraal netwerk een trainingsset kan aanpassen die minstens evenveel voorbeelden bevat als het parameters heeft, wat de noties van overgeparameteriseerde en ondergeparameteriseerde modellen ondersteunt. In de praktijk vinden we echter alleen oplossingen die toegankelijk zijn via ons trainingsproces, inclusief de optimizer en regularizers, wat de flexibiliteit beperkt. Bovendien bepaalt de exacte parameterisatie van de functieklasse, ingebouwd in een architectuur, het verliesoppervlak en beïnvloedt het de minima die we vinden. In dit werk onderzoeken we het vermogen van neurale netwerken om in de praktijk gegevens aan te passen. Onze bevindingen geven aan dat: (1) standaard optimizers minima vinden waarin het model alleen trainingsets kan aanpassen met aanzienlijk minder voorbeelden dan het parameters heeft; (2) convolutionele netwerken parameter-efficiënter zijn dan MLP's en ViT's, zelfs op willekeurig gelabelde gegevens; (3) hoewel stochastische training wordt beschouwd als een regulariserend effect, vindt SGD eigenlijk minima die meer trainingsgegevens aanpassen dan volledige batch gradient descent; (4) het verschil in capaciteit om correct en incorrect gelabelde voorbeelden aan te passen, voorspellend kan zijn voor generalisatie; (5) ReLU-activeringsfuncties resulteren in het vinden van minima die meer gegevens aanpassen, ondanks dat ze zijn ontworpen om verdwijnende en exploderende gradients in diepe architecturen te voorkomen.
De snelle opkomst van Taalmodellen (Language Models, LMs) heeft hun toepassing in verschillende domeinen uitgebreid. Echter, vanwege beperkingen in modelgrootte, gerelateerde kosten of propriëtaire restricties, is het gebruik van state-of-the-art (SOTA) grote taalmodellen (LLMs) niet altijd haalbaar. Met de opkomst van open, kleinere LMs kunnen meer toepassingen gebruikmaken van hun mogelijkheden, maar het selecteren van het juiste LM kan een uitdaging zijn. Dit werk voert een diepgaande experimentele analyse uit van de semantische correctheid van de uitvoer van 10 kleinere, open LMs, gericht op drie aspecten: taaktypen, toepassingsdomeinen en redeneringstypen, waarbij diverse promptstijlen worden gebruikt. We tonen aan dat de meest effectieve modellen en promptstijlen variëren afhankelijk van de specifieke vereisten. Onze analyse biedt een vergelijkende beoordeling van LMs en promptstijlen met behulp van een voorgesteld drieledig schema van aspecten voor hun strategische selectie op basis van use-case en andere beperkingen. We laten ook zien dat, indien correct gebruikt, deze LMs kunnen concurreren met, en soms zelfs beter presteren dan, SOTA LLMs zoals DeepSeek-v2, GPT-3.5-Turbo en GPT-4o.
Het selecteren van hoogwaardige gegevens voor pre-training is cruciaal voor het bepalen van de prestaties van taalmodelen bij downstream taken. Een grote uitdaging ligt in het identificeren van deze optimale subset, een probleem dat over het algemeen als onoplosbaar wordt beschouwd, waardoor schaalbare en effectieve heuristieken noodzakelijk zijn. In dit werk stellen we een methode voor gegevensselectie voor, CoLoR-Filter (Conditional Loss Reduction Filtering), die gebruikmaakt van een empirische Bayes-geïnspireerde aanpak om een eenvoudig en computationeel efficiënt selectiecriterium af te leiden op basis van de relatieve verlieswaarden van twee hulpmodelle. Naast de modelleringsredenering evalueren we CoLoR-Filter empirisch op twee taalmodelleertaken: (1) het selecteren van gegevens uit C4 voor domeinaanpassing aan evaluatie op Books en (2) het selecteren van gegevens uit C4 voor een reeks downstream meerkeuzevraag-antwoordtaken. We tonen gunstige schaalbaarheid aan, zowel wanneer we agressiever subselecteren als wanneer we kleine hulpmodelle gebruiken om gegevens te selecteren voor grote doelmodelle. Als een belangrijk resultaat kan CoLoR-Filter-gegevens, geselecteerd met behulp van een paar hulpmodelle van 150 miljoen parameters, een doelmodel van 1,2 miljard parameters trainen om een model van 1,2 miljard parameters te evenaren dat is getraind op 25 miljard willekeurig geselecteerde tokens, met 25x minder gegevens voor Books en 11x minder gegevens voor de downstream taken. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Gefilterde gegevens: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
Attention-based transformers zijn de standaardarchitectuur geworden in veel deep learning-gebieden, voornamelijk vanwege hun vermogen om langeafstandsafhankelijkheden te modelleren en invoerreeksen met variabele lengte te verwerken. Het aandachtmechanisme met zijn kwadratische complexiteit vormt echter een belangrijk knelpunt in de transformer-architectuur. Dit algoritme is slechts unidirectioneel in de decoder en convergeert naar een statisch patroon in overgeparametriseerde decoder-only modellen. Ik pak dit probleem aan door een generatieve functie te ontwikkelen als vervanging voor aandacht of activatie. Het behoudt nog steeds het auto-regressieve karakter door elk token te vergelijken met het vorige. In mijn testopstelling met nanoGPT resulteert dit in een kleiner verlies terwijl het model kleiner is. Het verlies daalt verder door het opnemen van een gemiddelde contextvector. Dit concept van aandachtsvervanging is beschikbaar onder de GNU AGPL v3-licentie op https://gitlab.com/Bachstelze/causal_generation.
Een veelvoud aan verschillende Large Language Models (LLMs) wordt geconfronteerd met een gemeenschappelijke uitdaging bij het contextueel analyseren van tabelvraag-antwoordtaken. Deze uitdagingen ontstaan door (1) beperkte contextvensters voor grote tabellen, (2) veelzijdige discrepanties tussen tokenisatiepatronen en celgrenzen, en (3) diverse beperkingen die voortkomen uit gegevensvertrouwelijkheid bij het gebruik van externe modellen zoals gpt-3.5-turbo. Wij stellen een coöperatief spel genaamd "HiddenTables" voor als een mogelijke oplossing voor deze uitdaging. In essentie wordt "HiddenTables" gespeeld tussen de codegenererende LLM "Solver" en de "Oracle", die het vermogen van de LLM-agents evalueert om tabelvraag-antwoordtaken op te lossen. Dit spel is gebaseerd op natuurlijke taal schema's en zorgt, cruciaal, voor de beveiliging van de onderliggende gegevens. Wij presenteren bewijsvoerende experimenten op een diverse set van tabellen die het collectieve onvermogen van een LLM aantonen om te generaliseren en te presteren op complexe queries, compositionele afhankelijkheden te hanteren, en natuurlijke taal af te stemmen op programmatische commando's wanneer concrete tabelechema's worden verstrekt. In tegenstelling tot encoder-gebaseerde modellen, hebben wij de grenzen van "HiddenTables" verlegd om niet beperkt te worden door het aantal rijen - waardoor wij een verbeterde efficiëntie in prompt- en completion-tokens demonstreren. Onze infrastructuur heeft een nieuwe dataset "PyQTax" voortgebracht die 116.671 vraag-tabel-antwoord tripletten omvat en aanvullende fijnmazige opdelingen en labels biedt voor verschillende vraagtaxonomieën. Daarom is "HiddenTables", in samenhang met onze academische bijdragen over de tekortkomingen van LLMs in TableQA-taken, een tastbare manifestatie van hoe LLMs kunnen interageren met enorme datasets terwijl gegevensbeveiliging wordt gewaarborgd en generatiekosten worden geminimaliseerd.
Generatieve 3D-schilderkunst behoort tot de belangrijkste productiviteitsboosters in het beheer en de recycling van hoogwaardige 3D-assets. Sinds tekst-naar-beeldmodellen toegankelijk werden voor inferentie op consumentenhardware, is de prestaties van 3D-schildermethoden gestaag verbeterd en nadert deze momenteel een plateau. In de kern van de meeste van dergelijke modellen ligt denoising diffusie in de latente ruimte, een inherent tijdrovend iteratief proces. Recentelijk zijn er meerdere technieken ontwikkeld om de generatie te versnellen en het aantal sampling-iteraties met ordes van grootte te verminderen. Deze technieken, ontworpen voor 2D-generatieve beeldvorming, worden niet geleverd met recepten om ze naar 3D te tillen. In dit artikel pakken we dit tekort aan door een Latent Consistency Model (LCM) aanpassing voor te stellen voor de betreffende taak. We analyseren de sterke en zwakke punten van het voorgestelde model en evalueren het zowel kwantitatief als kwalitatief. Op basis van de studie van Objaverse-datasetmonsters behaalt onze 3D-schildermethode een sterke voorkeur in alle evaluaties. De broncode is beschikbaar op https://github.com/kongdai123/consistency2.
Het benutten van menselijke voorkeuren om het gedrag van Large Language Models (LLMs) te sturen, heeft de afgelopen jaren aanzienlijk succes laten zien. Desalniettemin blijven gegevensselectie en labeling een knelpunt voor deze systemen, vooral op grote schaal. Het selecteren van de meest informatieve punten voor het verkrijgen van menselijke feedback kan daarom de kosten van voorkeurslabeling aanzienlijk verlagen en de verdere ontwikkeling van LLMs bevorderen. Bayesian Active Learning biedt een principieel kader om deze uitdaging aan te pakken en heeft opmerkelijke successen geboekt in diverse omgevingen. Eerdere pogingen om het in te zetten voor Preference Modeling hebben echter niet aan deze verwachtingen voldaan. In dit werk identificeren we dat een naïeve schatting van epistemische onzekerheid leidt tot het verkrijgen van redundante samples. We pakken dit aan door de Bayesian Active Learner for Preference Modeling (BAL-PM) voor te stellen, een nieuw stochastisch acquisitiebeleid dat niet alleen gericht is op punten met hoge epistemische onzekerheid volgens het voorkeursmodel, maar ook streeft naar het maximaliseren van de entropie van de verkregen promptdistributie in de kenmerkruimte die wordt overspannen door het gebruikte LLM. Opmerkelijk is dat onze experimenten aantonen dat BAL-PM 33% tot 68% minder voorkeurslabels vereist in twee populaire datasets voor menselijke voorkeuren en eerdere stochastische Bayesian acquisitiebelevenissen overtreft.