Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Masked Image Modeling (MIM) met Vector Quantization (VQ) heeft grote successen geboekt in zowel zelfgesuperviseerde voorafgaande training als beeldgeneratie. De meeste bestaande methoden hebben echter moeite om de afweging in gedeelde latente ruimte aan te pakken tussen generatiekwaliteit en representatieleer en efficiëntie. Om de grenzen van dit paradigma te verleggen, stellen we MergeVQ voor, dat token-samenvoegingstechnieken integreert in VQ-gebaseerde generatieve modellen om de kloof tussen beeldgeneratie en visuele representatieleer te overbruggen in een uniforme architectuur. Tijdens de voorafgaande training ontkoppelt MergeVQ top-k semantiek van de latente ruimte met de token-samenvoegmodule na self-attention blokken in de encoder voor daaropvolgende Look-up Free Quantization (LFQ) en globale uitlijning, en herstelt hun fijnmazige details via cross-attention in de decoder voor reconstructie. Voor de tweede fase van generatie introduceren we MergeAR, dat KV Cache-compressie uitvoert voor efficiënte rastervolgorde-voorspelling. Uitgebreide experimenten op ImageNet bevestigen dat MergeVQ als een AR-generatief model competitieve prestaties behaalt in zowel visuele representatieleer als beeldgeneratietaken, terwijl het gunstige token-efficiëntie en inferentiesnelheid behoudt. De code en het model zullen beschikbaar zijn op https://apexgen-x.github.io/MergeVQ.
Recente vooruitgang in beeld- en videosynthese heeft nieuwe mogelijkheden geopend in generatieve spellen. Een bijzonder intrigerende toepassing is het transformeren van personages uit animefilms in interactieve, speelbare entiteiten. Hierdoor kunnen spelers zich onderdompelen in de dynamische animewereld als hun favoriete personages voor levenssimulatie via taalcommando's. Dergelijke spellen worden gedefinieerd als oneindige spellen omdat ze vooraf bepaalde grenzen en vaste spelregels elimineren, waarbij spelers kunnen interacteren met de spelwereld via open-einde taal en steeds evoluerende verhaallijnen en omgevingen kunnen ervaren. Recentelijk heeft een baanbrekende aanpak voor oneindige animelevenssimulatie gebruik gemaakt van grote taalmodelen (LLMs) om meerzijdige tekstdialogen om te zetten in taalcommando's voor beeldgeneratie. Dit negeert echter de historische visuele context, wat leidt tot inconsistente gameplay. Bovendien genereert het alleen statische beelden, waardoor de dynamiek die nodig is voor een boeiende spelervaring ontbreekt. In dit werk stellen we AnimeGamer voor, dat is gebouwd op Multimodale Grote Taalmodelen (MLLMs) om elke spelstatus te genereren, inclusief dynamische animatieshots die personagebewegingen en updates aan personagestatus weergeven, zoals geïllustreerd in Figuur 1. We introduceren nieuwe actiebewuste multimodale representaties om animatieshots weer te geven, die kunnen worden gedecodeerd in hoogwaardige videoclips met behulp van een videodiffusiemodel. Door historische animatieshotrepresentaties als context te nemen en daaropvolgende representaties te voorspellen, kan AnimeGamer spellen genereren met contextuele consistentie en bevredigende dynamiek. Uitgebreide evaluaties met zowel geautomatiseerde metrieken als menselijke evaluaties tonen aan dat AnimeGamer bestaande methoden overtreft in verschillende aspecten van de spelervaring. Codes en checkpoints zijn beschikbaar op https://github.com/TencentARC/AnimeGamer.
Hoewel recente beeldgebaseerde methoden voor menselijke animatie realistische lichaams- en gezichtsbewegingen kunnen synthetiseren, blijven er kritieke tekortkomingen bestaan op het gebied van fijnmazige holistische bestuurbaarheid, multi-schaal aanpassingsvermogen en langetermijntemporele samenhang, wat leidt tot een lagere expressiviteit en robuustheid. Wij stellen een op een diffusie-transformer (DiT) gebaseerd framework voor, DreamActor-M1, met hybride begeleiding om deze beperkingen te overwinnen. Voor bewegingsbegeleiding zorgen onze hybride controlesignalen, die impliciete gezichtsrepresentaties, 3D-hoofdbolletjes en 3D-lichaamsskeletten integreren, voor robuuste controle van gezichtsuitdrukkingen en lichaamsbewegingen, terwijl expressieve en identiteit-behoudende animaties worden geproduceerd. Voor schaalaanpassing hanteren we een progressieve trainingsstrategie met gegevens van verschillende resoluties en schalen om diverse lichaamshoudingen en beeldschalen, variërend van portretten tot volledige lichaamsweergaven, te kunnen verwerken. Voor uiterlijkbegeleiding integreren we bewegingspatronen uit opeenvolgende frames met aanvullende visuele referenties, waardoor langetermijntemporele samenhang wordt gewaarborgd voor onzichtbare gebieden tijdens complexe bewegingen. Experimenten tonen aan dat onze methode de state-of-the-art werken overtreft en expressieve resultaten levert voor portretten, bovenlichaam- en volledige lichaamsgeneratie met robuuste langetermijnconsistentie. Projectpagina: https://grisoon.github.io/DreamActor-M1/.
Er is steeds meer aandacht voor het verbeteren van de redeneervaardigheden van multimodale grote taalmodellen (MLLMs). Als hoeksteen voor AI-agents die functioneren in de fysieke wereld, komt visueel-ruimtelijke intelligentie (VSI) op basis van video naar voren als een van de meest cruciale redeneervaardigheden van MLLMs. Dit werk voert een eerste, diepgaande studie uit naar het verbeteren van het visueel-ruimtelijk redeneren van MLLMs via R1-Zero-achtige training. Technisch gezien identificeren we eerst dat de visueel-ruimtelijke redeneervaardigheden van kleine tot middelgrote Qwen2-VL-modellen niet geactiveerd kunnen worden via Chain of Thought (CoT)-prompts. Vervolgens integreren we GRPO-training voor verbeterd visueel-ruimtelijk redeneren, waarbij we gebruikmaken van de zorgvuldig samengestelde VSI-100k-dataset, in navolging van DeepSeek-R1-Zero. Tijdens het onderzoek identificeren we de noodzaak om de KL-straf (zelfs met een kleine waarde) in GRPO te behouden. Met slechts 120 GPU-uren kan ons vsGRPO-2B-model, gefinetuned vanuit Qwen2-VL-2B, het basismodel met 12,1% overtreffen en GPT-4o overstijgen. Bovendien bereikt ons vsGRPO-7B-model, gefinetuned vanuit Qwen2-VL-7B, prestaties die vergelijkbaar zijn met die van het beste open-source model LLaVA-NeXT-Video-72B. Daarnaast vergelijken we vsGRPO met supervised fine-tuning en direct preference optimization-baselines en observeren we een sterke prestatie-superioriteit. De code en dataset zullen binnenkort beschikbaar zijn.
DeepSeek-R1-Zero heeft aangetoond dat reinforcement learning (RL) op grote schaal de redeneervaardigheden van LLMs direct kan verbeteren zonder supervised fine-tuning. In dit werk onderzoeken we kritisch R1-Zero-achtige training door de twee kerncomponenten te analyseren: basismodellen en RL. We onderzoeken een breed scala aan basismodellen, waaronder DeepSeek-V3-Base, om te begrijpen hoe pretrainingkenmerken de RL-prestaties beïnvloeden. Onze analyse onthult dat DeepSeek-V3-Base al een "Aha-moment" vertoont, terwijl Qwen2.5-basismodellen sterke redeneervaardigheden demonstreren zelfs zonder prompt templates, wat suggereert dat er mogelijke vooroordelen in de pretraining zitten. Daarnaast identificeren we een optimalisatiebias in Group Relative Policy Optimization (GRPO), die de responslengte kunstmatig verhoogt (met name voor incorrecte uitvoer) tijdens de training. Om dit aan te pakken, introduceren we Dr. GRPO, een onbevooroordeelde optimalisatiemethode die de token-efficiëntie verbetert terwijl de redeneerprestaties behouden blijven. Gebruikmakend van deze inzichten presenteren we een minimalistisch R1-Zero-recept dat een nauwkeurigheid van 43,3% behaalt op AIME 2024 met een 7B-basismodel, waarmee een nieuwe state-of-the-art wordt gevestigd. Onze code is beschikbaar op https://github.com/sail-sg/understand-r1-zero.
Academisch schrijven vereist zowel coherente tekstgeneratie als nauwkeurige citatie van relevante literatuur. Hoewel recente Retrieval-Augmented Generation (RAG)-systemen de feitelijke nauwkeurigheid in algemene tekstgeneratie aanzienlijk hebben verbeterd, blijft hun vermogen om professioneel academisch schrijven adequaat te ondersteunen beperkt. In dit werk introduceren we ScholarCopilot, een uniform raamwerk ontworpen om bestaande grote taalmodelen te verbeteren voor het genereren van professionele academische artikelen met accurate en contextueel relevante citaties. ScholarCopilot bepaalt dynamisch wanneer wetenschappelijke referenties moeten worden opgehaald door een retrieval-token [RET] te genereren, en gebruikt vervolgens de representatie ervan om relevante citaties op te zoeken uit een database. De opgehaalde referenties worden in het model gevoerd om het generatieproces te versterken. We optimaliseren zowel de generatie- als de citatietaken gezamenlijk binnen één raamwerk om de efficiëntie te verhogen. Getraind op 500K papers van arXiv, behaalt ons model een top-1 retrieval-nauwkeurigheid van 40,1% op onze evaluatiedataset, wat beter is dan baseline-modellen zoals E5-Mistral-7B-Instruct (15,0%) en BM25 (9,8%). Op een dataset van 1.000 academische schrijfsamples scoort ScholarCopilot 16,2/25 in generatiekwaliteit (gemeten over relevantie, coherentie, academische strengheid, volledigheid en innovatie), wat beter is dan modellen met 10x meer parameters zoals Qwen-2.5-72B-Instruct (15,8/25). Menselijke studies bevestigen ook de superieure prestaties van ScholarCopilot in citatieherinnering, schrijfefficiëntie en algehele gebruikerservaring, wat de effectiviteit van onze aanpak bevestigt.
Het reconstrueren van 3D-scènes uit beperkte aanzichten is een uitdagende taak vanwege het inherent slecht gestelde probleem. Traditionele methoden hebben gespecialiseerde oplossingen ontwikkeld (bijvoorbeeld geometrische regularisatie of feed-forward deterministische modellen) om dit probleem te verlichten. Echter, lijden ze nog steeds aan prestatieverlies door minimale overlap tussen de invoerbeelden met onvoldoende visuele informatie. Gelukkig tonen recente videogeneratieve modellen belofte in het aanpakken van deze uitdaging, omdat ze in staat zijn videoclips te genereren met plausibele 3D-structuren. Aangedreven door grote vooraf getrainde videodiffusiemodellen, beginnen enkele baanbrekende onderzoeken het potentieel van videogeneratieve voorkennis te verkennen en 3D-scènes te creëren uit beperkte aanzichten. Ondanks indrukwekkende verbeteringen, worden ze beperkt door trage inferentietijd en het ontbreken van 3D-beperkingen, wat leidt tot inefficiënties en reconstructie-artefacten die niet overeenkomen met de geometrische structuur van de echte wereld. In dit artikel stellen we VideoScene voor om het videodiffusiemodel te destilleren om in één stap 3D-scènes te genereren, met als doel een efficiënt en effectief hulpmiddel te bouwen om de kloof tussen video en 3D te overbruggen. Specifiek ontwerpen we een 3D-bewuste sprongstroomdestillatiestrategie om tijdrovende overbodige informatie over te slaan en trainen we een dynamisch denoiseringsbeleidsnetwerk om adaptief de optimale sprongtijdstap tijdens inferentie te bepalen. Uitgebreide experimenten tonen aan dat onze VideoScene snellere en superieure 3D-scènegeneratieresultaten bereikt dan eerdere videodiffusiemodellen, wat het potentieel ervan als een efficiënt hulpmiddel voor toekomstige video-naar-3D-toepassingen benadrukt. Projectpagina: https://hanyang-21.github.io/VideoScene
Video-diffusiemodellen (VDM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, waardoor het mogelijk is geworden om zeer realistische video's te genereren en de aandacht van de gemeenschap te trekken vanwege hun potentieel als wereld-simulatoren. Ondanks hun mogelijkheden slagen VDM's er echter vaak niet in om fysiek plausibele video's te produceren vanwege een inherent gebrek aan begrip van de fysica, wat resulteert in onjuiste dynamiek en gebeurtenisvolgordes. Om deze beperking aan te pakken, stellen we een nieuw tweestaps beeld-naar-video-generatieframework voor dat expliciet fysica integreert. In de eerste fase gebruiken we een Vision Language Model (VLM) als een grofkorrelige bewegingplanner, waarbij we ketendenk- en fysicabewuste redeneringen integreren om ruwe bewegingsbanen/veranderingen te voorspellen die de fysieke dynamiek van de echte wereld benaderen, terwijl de consistentie tussen frames wordt gewaarborgd. In de tweede fase gebruiken we de voorspelde bewegingsbanen/veranderingen om de videogeneratie van een VDM te sturen. Omdat de voorspelde bewegingsbanen/veranderingen ruw zijn, wordt er tijdens de inferentie ruis toegevoegd om de VDM de vrijheid te geven om beweging met meer fijne details te genereren. Uitgebreide experimentele resultaten tonen aan dat ons framework fysiek plausibele beweging kan produceren, en vergelijkende evaluaties benadrukken de opmerkelijke superioriteit van onze aanpak ten opzichte van bestaande methoden. Meer videoresultaten zijn beschikbaar op onze Projectpagina: https://madaoer.github.io/projects/physically_plausible_video_generation.
We introduceren PaperBench, een benchmark die het vermogen van AI-agents evalueert om state-of-the-art AI-onderzoek te repliceren. Agents moeten 20 ICML 2024 Spotlight- en Oral-papers van scratch repliceren, inclusief het begrijpen van de bijdragen van de papers, het ontwikkelen van een codebase en het succesvol uitvoeren van experimenten. Voor objectieve evaluatie ontwikkelen we rubrics die elke replicatietaak hiërarchisch opdelen in kleinere sub-taken met duidelijke beoordelingscriteria. In totaal bevat PaperBench 8.316 individueel beoordeelbare taken. De rubrics worden samen met de auteur(s) van elk ICML-paper ontwikkeld voor nauwkeurigheid en realisme. Om schaalbare evaluatie mogelijk te maken, ontwikkelen we ook een op LLM gebaseerde beoordelaar om replicatiepogingen automatisch te beoordelen aan de hand van de rubrics, en we beoordelen de prestaties van onze beoordelaar door een aparte benchmark voor beoordelaars te creëren. We evalueren verschillende frontier-modellen op PaperBench en constateren dat de best presterende geteste agent, Claude 3.5 Sonnet (New) met open-source scaffolding, een gemiddelde replicatiescore van 21,0\% behaalt. Ten slotte werven we top-ML-promovendi aan om een subset van PaperBench te proberen, en we constateren dat modellen de menselijke baseline nog niet overtreffen. We https://github.com/openai/preparedness{open-sourcen onze code} om toekomstig onderzoek te vergemakkelijken in het begrijpen van de AI-engineeringcapaciteiten van AI-agents.
We presenteren Articulated Kinematics Distillation (AKD), een raamwerk voor het genereren van hoogwaardige karakteranimaties door de sterke punten van skeletgebaseerde animatie en moderne generatieve modellen te combineren. AKD maakt gebruik van een skeletgebaseerde representatie voor gerigde 3D-assets, waardoor het aantal vrijheidsgraden (Degrees of Freedom, DoFs) aanzienlijk wordt verminderd door zich te richten op gewrichtsniveau-controle, wat efficiënte en consistente bewegingssynthese mogelijk maakt. Door Score Distillation Sampling (SDS) met vooraf getrainde videodiffusiemodellen, destilleert AKD complexe, gearticuleerde bewegingen terwijl de structurele integriteit behouden blijft, waardoor uitdagingen worden overwonnen die 4D neurale vervormingsvelden ondervinden bij het behouden van vormconsistentie. Deze aanpak is van nature compatibel met fysicagebaseerde simulatie, wat fysisch plausibele interacties garandeert. Experimenten tonen aan dat AKD superieure 3D-consistentie en bewegingskwaliteit bereikt in vergelijking met bestaande werken op het gebied van tekst-naar-4D-generatie. Projectpagina: https://research.nvidia.com/labs/dir/akd/
We presenteren ILLUME+, dat gebruikmaakt van dubbele visuele tokenisatie en een diffusiedecoder om zowel diepgaand semantisch begrip als hoogwaardige beeldgeneratie te verbeteren. Bestaande geünificeerde modellen hebben moeite gehad om de drie fundamentele capaciteiten in één model tegelijkertijd te hanteren: begrip, generatie en bewerking. Modellen zoals Chameleon en EMU3 gebruiken VQGAN voor beelddiscretisatie, maar door het gebrek aan diepgaande semantische interactie blijven ze achter op gespecialiseerde modellen zoals LLaVA in visuele begriptaken. Om dit te verhelpen, gebruiken LaViT en ILLUME semantische encoders voor tokenisatie, maar ze worstelen met beeldbewerking vanwege slechte textuurbehoud. Ondertussen ontkoppelt de Janus-serie de invoer- en uitvoerbeeldrepresentatie, wat hun vermogen beperkt om naadloos interleaved beeld-tekstbegrip en -generatie te hanteren. In tegenstelling hiermee introduceert ILLUME+ een geünificeerde dubbele visuele tokenizer, DualViTok, die zowel fijnkorrelige texturen als tekstuitgelijnde semantiek behoudt, terwijl het een grof-naar-fijn beeldrepresentatiestrategie mogelijk maakt voor multimodaal begrip en generatie. Daarnaast gebruiken we een diffusiemodel als de beelddetokenizer voor verbeterde generatiekwaliteit en efficiënte superresolutie. ILLUME+ volgt een continu-invoer, discreet-uitvoer schema binnen het geünificeerde MLLM en neemt een progressief trainingsproces aan dat dynamische resolutie ondersteunt over de visie-tokenizer, MLLM en diffusiedecoder. Dit ontwerp maakt flexibele en efficiënte contextbewuste beeldbewerking en -generatie mogelijk over diverse taken. ILLUME+ (3B) vertoont competitieve prestaties ten opzichte van bestaande geünificeerde MLLM's en gespecialiseerde modellen over multimodale begrip-, generatie- en bewerkingsbenchmarks. Met zijn sterke prestaties biedt ILLUME+ een schaalbare en veelzijdige basis voor toekomstige multimodale toepassingen. Projectpagina: https://illume-unified-mllm.github.io/.
Het genereren van hoogwaardige menselijke afbeeldingen via tekst-naar-beeld (T2I) methoden is een belangrijke maar uitdagende taak. In tegenstelling tot algemene beeldgeneratie moet de synthese van menselijke afbeeldingen voldoen aan strikte criteria met betrekking tot menselijke houding, anatomie en afstemming op tekstuele prompts, wat het bijzonder moeilijk maakt om realistische resultaten te bereiken. Recente vooruitgang in T2I-generatie op basis van diffusiemodellen heeft veelbelovende resultaten laten zien, maar er blijven uitdagingen bestaan in het voldoen aan mens-specifieke voorkeuren. In dit artikel introduceren we een nieuwe aanpak die specifiek is afgestemd op de generatie van menselijke afbeeldingen door gebruik te maken van Direct Preference Optimization (DPO). We introduceren een efficiënte methode voor het construeren van een gespecialiseerde DPO-dataset voor het trainen van modellen voor menselijke beeldgeneratie zonder de noodzaak van kostbaar menselijk feedback. We stellen ook een aangepaste verliesfunctie voor die het DPO-trainingsproces verbetert door artefacten te minimaliseren en de beeldkwaliteit te verbeteren. Onze methode toont haar veelzijdigheid en effectiviteit in het genereren van menselijke afbeeldingen, inclusief gepersonaliseerde tekst-naar-beeld generatie. Door middel van uitgebreide evaluaties laten we zien dat onze aanpak de stand van zaken in menselijke beeldgeneratie aanzienlijk vooruithelpt, met superieure resultaten op het gebied van natuurlijke anatomieën, houdingen en tekst-beeld afstemming.
Vision-Language Models (VLMs) breiden de mogelijkheden van Large Language Models (LLMs) uit door visuele informatie te integreren, maar ze blijven kwetsbaar voor jailbreak-aanvallen, vooral bij het verwerken van ruisachtige of beschadigde afbeeldingen. Hoewel bestaande VLMs tijdens de training beveiligingsmaatregelen nemen om dergelijke aanvallen te beperken, worden kwetsbaarheden geassocieerd met ruis-augmented visuele invoer over het hoofd gezien. In dit werk identificeren we dat het ontbreken van ruis-augmented training kritieke beveiligingslekken veroorzaakt: veel VLMs zijn vatbaar voor zelfs eenvoudige verstoringen zoals Gaussische ruis. Om deze uitdaging aan te pakken, stellen we Robust-VLGuard voor, een multimodale veiligheidsdataset met uitgelijnde / niet-uitgelijnde afbeelding-tekst paren, gecombineerd met ruis-augmented fine-tuning die de aanvalssuccespercentages verlaagt terwijl de functionaliteit van de VLM behouden blijft. Voor sterkere op optimalisatie gebaseerde visuele verstoringsaanvallen stellen we DiffPure-VLM voor, waarbij we diffusiemodellen gebruiken om adversariële verstoringen om te zetten in Gaussische ruis, die kan worden verdedigd door VLMs met ruis-augmented veiligheidsfine-tuning. Experimentele resultaten tonen aan dat de distributieverschuivende eigenschap van het diffusiemodel goed aansluit bij onze fine-tuned VLMs, wat adversariële verstoringen over verschillende intensiteiten aanzienlijk vermindert. De dataset en code zijn beschikbaar op https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Hoewel recente zero-shot tekst-naar-spraak (TTS) modellen de spraakkwaliteit en expressiviteit aanzienlijk hebben verbeterd, kampen mainstream systemen nog steeds met problemen gerelateerd aan de modellering van spraak-tekst-uitlijning: 1) modellen zonder expliciete spraak-tekst-uitlijning modellering vertonen minder robuustheid, vooral voor moeilijke zinnen in praktische toepassingen; 2) vooraf gedefinieerde uitlijning-gebaseerde modellen lijden onder natuurlijkheidsbeperkingen van geforceerde uitlijningen. Dit artikel introduceert MegaTTS 3, een TTS-systeem met een innovatief spaarzaam uitlijningsalgoritme dat de latente diffusie transformer (DiT) begeleidt. Specifiek bieden we spaarzame uitlijningsgrenzen aan MegaTTS 3 om de moeilijkheid van uitlijning te verminderen zonder de zoekruimte te beperken, waardoor een hoge natuurlijkheid wordt bereikt. Bovendien gebruiken we een multi-condition classifier-free guidance strategie voor accentintensiteitsaanpassing en passen we de stukgewijs gecorrigeerde flow-techniek toe om het generatieproces te versnellen. Experimenten tonen aan dat MegaTTS 3 state-of-the-art zero-shot TTS-spraakkwaliteit bereikt en zeer flexibele controle over accentintensiteit ondersteunt. Opmerkelijk is dat ons systeem hoogwaardige spraak van één minuut kan genereren met slechts 8 samplingstappen. Audiovoorbeelden zijn beschikbaar op https://sditdemo.github.io/sditdemo/.
Vision-language modellen (VLMs) zijn gevoelig voor objecthallucinaties, waarbij ze ten onrechte de aanwezigheid van bepaalde objecten in een afbeelding aangeven. Bestaande benchmarks kwantificeren hallucinaties met behulp van relatief kleine, gelabelde datasets. Deze aanpak is echter i) onvoldoende om hallucinaties te beoordelen die ontstaan in open-wereldomgevingen, waar VLMs veelvuldig worden gebruikt, en ii) ontoereikend voor het detecteren van systematische fouten in VLMs. Wij stellen DASH (Detection and Assessment of Systematic Hallucinations) voor, een automatische, grootschalige pipeline die is ontworpen om systematische hallucinaties van VLMs op real-world afbeeldingen in een open-wereldomgeving te identificeren. Een belangrijk onderdeel is DASH-OPT voor op afbeeldingen gebaseerde retrieval, waarbij we optimaliseren over het 'natuurlijke afbeeldingsmanifold' om afbeeldingen te genereren die de VLM misleiden. De output van DASH bestaat uit clusters van echte en semantisch vergelijkbare afbeeldingen waarvoor de VLM een object hallucineert. We passen DASH toe op PaliGemma en twee LLaVA-NeXT modellen over 380 objectklassen en vinden in totaal meer dan 19k clusters met 950k afbeeldingen. We bestuderen de overdracht van de geïdentificeerde systematische hallucinaties naar andere VLMs en laten zien dat fine-tuning van PaliGemma met de modelspecifieke afbeeldingen die met DASH zijn verkregen, objecthallucinaties vermindert. Code en data zijn beschikbaar op https://YanNeu.github.io/DASH.
Visienetwerkontwerpen, waaronder Convolutionele Neurale Netwerken en Vision Transformers, hebben het vakgebied van computervisie aanzienlijk vooruitgebracht. Toch vormen hun complexe berekeningen uitdagingen voor praktische implementaties, met name in realtime-toepassingen. Om dit probleem aan te pakken, hebben onderzoekers diverse lichtgewicht en efficiënte netwerkontwerpen verkend. Bestaande lichtgewicht modellen maken echter voornamelijk gebruik van self-attention-mechanismen en convoluties voor tokenmixing. Deze afhankelijkheid brengt beperkingen met zich mee in de effectiviteit en efficiëntie van de perceptie- en aggregatieprocessen in lichtgewicht netwerken, wat de balans tussen prestaties en efficiëntie onder beperkte rekenbudgetten belemmert. In dit artikel putten we inspiratie uit het dynamische heteroschaal-visievermogen dat inherent is aan het efficiënte menselijke visiesysteem en stellen we een "See Large, Focus Small"-strategie voor voor het ontwerp van lichtgewicht visienetwerken. We introduceren LS (Large-Small) convolutie, die grote-kernelperceptie combineert met kleine-kernelaggregatie. Het kan efficiënt een breed scala aan perceptuele informatie vastleggen en precieze feature-aggregatie bereiken voor dynamische en complexe visuele representaties, waardoor het bekwame verwerking van visuele informatie mogelijk maakt. Op basis van LS-convolutie presenteren we LSNet, een nieuwe familie van lichtgewicht modellen. Uitgebreide experimenten tonen aan dat LSNet superieure prestaties en efficiëntie bereikt in vergelijking met bestaande lichtgewicht netwerken in diverse visietaken. Codes en modellen zijn beschikbaar op https://github.com/jameslahm/lsnet.
State Space Models (SSMs) doen zich steeds meer gelden als een overtuigend alternatief voor Transformers vanwege hun consistente geheugengebruik en hoge prestaties. Desondanks is het opschalen van SSMs op clouddiensten of apparaten met beperkte middelen een uitdaging vanwege hun opslagvereisten en rekenkracht. Om dit te overwinnen, kan het kwantiseren van SSMs met dataformaten met een laag bitbreedte het modelformaat verkleinen en profiteren van hardwareversnelling. Omdat SSMs gevoelig zijn voor kwantisatiefouten, hebben recente inspanningen zich gericht op het optimaliseren van een specifiek model of bitbreedte voor efficiëntie zonder in te leveren op prestaties. Echter, verschillende bitbreedteconfiguraties zijn essentieel voor verschillende scenario's, zoals W4A8 voor het verhogen van de decodersnelheid bij grote batches, en W4A16 voor het verbeteren van de generatiesnelheid in toepassingen met korte prompts voor een enkele gebruiker. Daarom presenteren we Quamba2, compatibel met W8A8, W4A8 en W4A16 voor zowel Mamba1- als Mamba2-backbones, waarmee we inspelen op de groeiende vraag naar SSM-implementatie op diverse platforms. Gebaseerd op de kanaalvolgorde-behoudende en activatie-persistente eigenschappen van SSMs, stellen we een offline aanpak voor om de invoer van een lineaire recurrentie te kwantiseren in 8-bit door sorteren en clusteren voor invoer x, gecombineerd met een per-staat-groep-kwantisatie voor invoerafhankelijke parameters B en C. Om compute-invariantie in de SSM-uitvoer te garanderen, herschikken we de gewichten offline volgens de clusteringvolgorde. De experimenten tonen aan dat Quamba2-8B verschillende state-of-the-art SSM-kwantisatiemethoden overtreft en respectievelijk 1,3x en 3x snelheidsverbeteringen biedt in de pre-filling- en generatiefasen, terwijl het een 4x geheugenreductie biedt met slechts een gemiddelde nauwkeurigheidsdaling van 1,6%. De evaluatie op MMLU toont de generaliseerbaarheid en robuustheid van ons framework. De code en gekwantiseerde modellen zullen worden vrijgegeven op: https://github.com/enyac-group/Quamba.
Grote taalmodellen tonen opmerkelijke redeneervaardigheden, maar produceren vaak onbetrouwbare of incorrecte antwoorden. Bestaande verificatiemethoden zijn doorgaans modelspecifiek of domeinbeperkt, vereisen aanzienlijke rekenkracht en schieten tekort in schaalbaarheid over diverse redeneertaken. Om deze beperkingen aan te pakken, stellen we VerifiAgent voor, een geïntegreerde verificatieagent die twee niveaus van verificatie combineert: meta-verificatie, die de volledigheid en consistentie van modelantwoorden beoordeelt, en toolgebaseerde adaptieve verificatie, waarbij VerifiAgent autonoom geschikte verificatietools selecteert op basis van het type redenering, zoals wiskundige, logische of alledaagse redenering. Deze adaptieve aanpak zorgt voor zowel efficiëntie als robuustheid in verschillende verificatiescenario's. Experimentele resultaten tonen aan dat VerifiAgent baseline-verificatiemethoden (bijv. deductieve verifier, backward verifier) overtreft in alle redeneertaken. Daarnaast kan het de nauwkeurigheid van redeneringen verder verbeteren door feedback van verificatieresultaten te benutten. VerifiAgent kan ook effectief worden toegepast op schaalvergroting van inferentie, waarbij het betere resultaten behaalt met minder gegenereerde samples en kosten in vergelijking met bestaande procesbeloningsmodellen in het domein van wiskundig redeneren. Code is beschikbaar op https://github.com/Jiuzhouh/VerifiAgent.
Er zijn verschillende laagoverslaande methoden voorgesteld om de token-generatie in grote taalmodellen (LLMs) te versnellen. Deze methoden hebben echter een fundamentele vraag over het hoofd gezien: Hoe variëren de rekenkundige eisen tijdens de generatie van verschillende tokens? In dit werk introduceren we FlexiDepth, een methode die het aantal Transformer-lagen dat wordt gebruikt in tekstgeneratie dynamisch aanpast. Door het integreren van een plug-in router en adapter maakt FlexiDepth adaptieve laagoverslaan mogelijk in LLMs zonder de oorspronkelijke parameters te wijzigen. Het introduceren van FlexiDepth in het Llama-3-8B-model resulteert in het overslaan van 8 lagen uit 32, terwijl het volledige 100\% benchmarkprestaties behoudt. Experimentele resultaten met FlexiDepth tonen aan dat de rekenkundige eisen in LLMs aanzienlijk variëren op basis van het tokentype. Specifiek vereist het genereren van repetitieve tokens of vaste zinnen minder lagen, terwijl het produceren van tokens die rekenkundige verwerking of hoge onzekerheid met zich meebrengen meer lagen vereist. Interessant genoeg sluit dit adaptieve toewijzingspatroon aan bij menselijke intuïtie. Om onderzoek op dit gebied te bevorderen, hebben we FlexiDepth en een dataset die de laagtoewijzingspatronen van FlexiDepth documenteert open source gemaakt voor toekomstige verkenning.
We presenteren een doelbewuste videodiffusiemodel dat video's genereert vanuit een invoerafbeelding waarin een acteur interageert met een gespecificeerd doel terwijl een gewenste actie wordt uitgevoerd. Het doel wordt gedefinieerd door een segmentatiemasker en de gewenste actie wordt beschreven via een tekstprompt. In tegenstelling tot bestaande beheersbare beeld-naar-video diffusiemodellen die vaak vertrouwen op dichte structurele of bewegingsaanwijzingen om de bewegingen van de acteur naar het doel te sturen, vereist ons doelbewuste model slechts een eenvoudig masker om het doel aan te geven, waarbij het gebruikmaakt van de generalisatiecapaciteiten van vooraf getrainde modellen om plausibele acties te produceren. Dit maakt onze methode bijzonder effectief voor scenario's van mens-objectinteractie (HOI), waar het geven van precieze actiebegeleiding uitdagend is, en maakt verder het gebruik van videodiffusiemodellen mogelijk voor hoogwaardige actieplanning in toepassingen zoals robotica. We bouwen ons doelbewuste model door een basismodel uit te breiden om het doelmasker als een extra invoer te incorporeren. Om doelbewustzijn af te dwingen, introduceren we een speciaal token dat de ruimtelijke informatie van het doel codeert binnen de tekstprompt. We fine-tunen vervolgens het model met onze samengestelde dataset met behulp van een nieuw kruis-attentieverlies dat de kruis-attentiemaps geassocieerd met dit token uitlijnt met het invoerdoelmasker. Om de prestaties verder te verbeteren, passen we dit verlies selectief toe op de meest semantisch relevante transformatorblokken en aandachtregio's. Experimentele resultaten tonen aan dat ons doelbewuste model bestaande oplossingen overtreft in het genereren van video's waarin acteurs nauwkeurig interageren met de gespecificeerde doelen. We demonstreren verder de effectiviteit ervan in twee downstream-toepassingen: videocontentcreatie en zero-shot 3D HOI-bewegingssynthese.
Eerder onderzoek naar out-of-distribution detectie (OoDD) richtte zich voornamelijk op enkelvoudige modaliteitsmodellen. Recentelijk, met de opkomst van grootschalige vooraf getrainde vision-language modellen zoals CLIP, zijn OoDD-methoden ontstaan die gebruikmaken van dergelijke multimodale representaties via zero-shot en prompt learning strategieën. Deze methoden houden echter meestal ofwel de vooraf getrainde gewichten bevroren of passen ze slechts gedeeltelijk aan, wat suboptimaal kan zijn voor downstream datasets. In dit artikel benadrukken we dat multimodale fine-tuning (MMFT) aanzienlijke OoDD-prestaties kan bereiken. Ondanks enkele recente werken die de impact van fine-tuning methoden voor OoDD aantonen, blijft er aanzienlijk potentieel voor prestatieverbetering. Wij onderzoeken de beperkingen van naïeve fine-tuning methoden en analyseren waarom ze niet volledig gebruikmaken van de vooraf getrainde kennis. Onze empirische analyse suggereert dat dit probleem zou kunnen voortkomen uit de modaliteitskloof binnen in-distribution (ID) embeddings. Om dit aan te pakken, stellen we een trainingsdoel voor dat de cross-modale uitlijning verbetert door de afstanden tussen beeld- en tekstembeddings van ID-data te regulariseren. Deze aanpassing helpt bij het beter benutten van vooraf getrainde tekstuele informatie door vergelijkbare semantiek uit verschillende modaliteiten (d.w.z. tekst en beeld) nauwer uit te lijnen in de hypersferische representatieruimte. We tonen theoretisch aan dat de voorgestelde regularisatie overeenkomt met de maximum likelihood schatting van een energie-gebaseerd model op een hypersfeer. Door gebruik te maken van ImageNet-1k OoD benchmark datasets, laten we zien dat onze methode, gecombineerd met post-hoc OoDD-benaderingen die gebruikmaken van vooraf getrainde kennis (bijv. NegLabel), bestaande methoden significant overtreft, wat resulteert in state-of-the-art OoDD-prestaties en leidende ID-nauwkeurigheid.
Grote taalmodellen (LLM's) hebben het potentieel om de geneeskunde te transformeren, maar realistische klinische scenario's bevatten overbodige informatie die de prestaties kan belemmeren. De opkomst van ondersteunende technologieën zoals ambient dictation, die automatisch conceptnotities genereert uit live patiëntencasussen, kan extra ruis introduceren, waardoor het cruciaal is om het vermogen van LLM's om relevante data te filteren te beoordelen. Om dit te onderzoeken, hebben we MedDistractQA ontwikkeld, een benchmark die gebruikmaakt van USMLE-stijl vragen verweven met gesimuleerde realistische afleidingen. Onze bevindingen tonen aan dat afleidende uitspraken (polyseme woorden met klinische betekenissen die in een niet-klinische context worden gebruikt of verwijzingen naar niet-gerelateerde gezondheidsproblemen) de nauwkeurigheid van LLM's met tot wel 17,9% kunnen verminderen. Veelvoorgestelde oplossingen om modelprestaties te verbeteren, zoals retrieval-augmented generation (RAG) en medische fine-tuning, veranderden dit effect niet en introduceerden in sommige gevallen zelfs hun eigen verstorende factoren en verslechterden de prestaties verder. Onze bevindingen suggereren dat LLM's van nature de logische mechanismen missen die nodig zijn om relevante van irrelevante klinische informatie te onderscheiden, wat uitdagingen oplevert voor realistische toepassingen. MedDistractQA en onze resultaten benadrukken de noodzaak van robuuste mitigatiestrategieën om de veerkracht van LLM's tegen overbodige informatie te vergroten.