Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Pre-trainingsdatasets worden doorgaans verzameld uit webinhoud en missen inherente domeinindelingen. Bijvoorbeeld, veelgebruikte datasets zoals Common Crawl bevatten geen expliciete domeinlabels, terwijl het handmatig samenstellen van gelabelde datasets zoals The Pile arbeidsintensief is. Als gevolg hiervan blijft het identificeren van een optimale pre-trainingsdatamix een uitdagend probleem, ondanks de aanzienlijke voordelen voor de pre-trainingsprestaties. Om deze uitdagingen aan te pakken, stellen wij CLustering-based Iterative Data Mixture Bootstrapping (CLIMB) voor, een geautomatiseerd framework dat datamixen ontdekt, evalueert en verfijnt in een pre-trainingsomgeving. Specifiek embedt en clustert CLIMB grootschalige datasets in een semantische ruimte en zoekt vervolgens iteratief naar optimale mixen met behulp van een kleiner proxy-model en een voorspeller. Wanneer continu getraind op 400B tokens met deze mix, overtreft ons 1B-model de state-of-the-art Llama-3.2-1B met 2,0%. Bovendien observeren we dat optimalisatie voor een specifiek domein (bijvoorbeeld Sociale Wetenschappen) een verbetering van 5% oplevert ten opzichte van willekeurige steekproeven. Ten slotte introduceren we ClimbLab, een gefilterd corpus van 1,2 biljoen tokens met 20 clusters als onderzoeksspeelveld, en ClimbMix, een compact maar krachtige dataset van 400 miljard tokens die is ontworpen voor efficiënte pre-training en superieure prestaties levert binnen een gelijk tokenbudget. We analyseren de uiteindelijke datamix en verduidelijken de kenmerken van een optimale datamix. Onze data is beschikbaar op: https://research.nvidia.com/labs/lpr/climb/
Frontiermodellen die uitgebreide redeneersporen genereren, produceren onbedoeld rijke tokenreeksen die modeldistillatie kunnen vergemakkelijken. Door deze kwetsbaarheid te erkennen, kunnen modelbezitters samplingstrategieën zoeken die de effectiviteit van distillatie beperken zonder de modelprestaties aan te tasten. Antidistillatie-sampling biedt precies deze mogelijkheid. Door strategisch de volgende-token-waarschijnlijkheidsverdeling van een model aan te passen, vergiftigt antidistillatie-sampling redeneersporen, waardoor ze aanzienlijk minder effectief worden voor distillatie terwijl de praktische bruikbaarheid van het model behouden blijft. Voor meer details, zie https://antidistillation.com.
We presenteren een neuraal netwerkstructuur, FramePack, om next-frame (of next-frame-section) voorspellingsmodellen te trainen voor videogeneratie. De FramePack comprimeert invoerframes om de contextlengte van de transformer een vast aantal te maken, ongeacht de videolengte. Hierdoor kunnen we een groot aantal frames verwerken met videodiffusie met een rekenkundig knelpunt dat vergelijkbaar is met beelddiffusie. Dit maakt ook de trainingsbatchgroottes voor video aanzienlijk groter (batchgroottes worden vergelijkbaar met beelddiffusietraining). We stellen ook een anti-drifting bemonsteringsmethode voor die frames genereert in omgekeerde temporele volgorde met vroeg vastgestelde eindpunten om exposure bias (foutaccumulatie over iteraties) te voorkomen. Tot slot tonen we aan dat bestaande videodiffusiemodellen kunnen worden gefinetuned met FramePack, en dat hun visuele kwaliteit kan worden verbeterd omdat de next-frame voorspelling meer gebalanceerde diffusieschema's ondersteunt met minder extreme flow shift-tijdstappen.
Vision-Language Models (VLMs) blinken uit in visueel begrip, maar hebben vaak last van visuele hallucinaties, waarbij ze beschrijvingen genereren van niet-bestaande objecten, acties of concepten, wat aanzienlijke risico's met zich meebrengt in veiligheidskritieke toepassingen. Bestaande methoden om hallucinaties te verminderen volgen doorgaans een van twee paradigma's: generatie-aanpassing, waarbij het decodeergedrag wordt aangepast om tekst af te stemmen op visuele invoer, en post-hoc verificatie, waarbij externe modellen de uitvoer beoordelen en corrigeren. Hoewel effectief, baseren generatie-aanpassingsmethoden zich vaak op heuristieken en missen ze correctiemechanismen, terwijl post-hoc verificatie ingewikkeld is, meestal meerdere modellen vereist en eerder geneigd is om uitvoer te verwerpen dan te verfijnen. In dit werk introduceren we REVERSE, een uniform raamwerk dat hallucinatiebewuste training integreert met real-time zelfverificatie. Door gebruik te maken van een nieuwe hallucinatie-verificatiedataset met meer dan 1,3 miljoen semi-synthetische samples, samen met een nieuwe retrospectieve resamplingtechniek tijdens inferentie, stelt onze aanpak VLMs in staat om zowel hallucinaties te detecteren tijdens de generatie als deze hallucinaties dynamisch te herzien. Onze evaluaties tonen aan dat REVERSE state-of-the-art reductie van hallucinaties bereikt, waarbij het de beste bestaande methoden tot 12% overtreft op CHAIR-MSCOCO en 28% op HaloQuest. Onze dataset, model en code zijn beschikbaar op: https://reverse-vlm.github.io.
We introduceren de Perception Encoder (PE), een state-of-the-art encoder voor beeld- en videobegrip die getraind is via eenvoudige visie-taal-leren. Traditioneel hebben visie-encoders vertrouwd op een verscheidenheid aan vooraf getrainde doelstellingen, elk afgestemd op specifieke downstream taken zoals classificatie, bijschriften of lokalisatie. Verrassend genoeg ontdekken we, na het opschalen van ons zorgvuldig afgestemde beeldpretrainingsrecept en verfijning met onze robuuste videodata-engine, dat contrastief visie-taal-trainen alleen al sterke, algemene embeddings kan produceren voor al deze downstream taken. Er is slechts één voorbehoud: deze embeddings zijn verborgen in de tussenliggende lagen van het netwerk. Om deze naar voren te halen, introduceren we twee uitlijningsmethoden: taaluitlijning voor multimodale taalmodellering en ruimtelijke uitlijning voor dichte voorspelling. Samen met het kerncontrastieve checkpoint bereikt onze PE-familie van modellen state-of-the-art prestaties op een breed scala aan taken, waaronder zero-shot beeld- en videoclassificatie en -retrieval; document-, beeld- en video-Q&A; en ruimtelijke taken zoals detectie, diepteschatting en tracking. Om verder onderzoek te bevorderen, maken we onze modellen, code en een nieuwe dataset van synthetisch en door mensen geannoteerde video's beschikbaar.
Wereldsimulatie heeft steeds meer populariteit gewonnen vanwege het vermogen om virtuele omgevingen te modelleren en de gevolgen van acties te voorspellen. Het beperkte temporele contextvenster leidt echter vaak tot problemen bij het handhaven van langetermijnconsistentie, met name bij het behouden van 3D-ruimtelijke consistentie. In dit werk presenteren we WorldMem, een raamwerk dat scènegeneratie verbetert met een geheugenbank bestaande uit geheugeneenheden die geheugenframes en statussen (bijvoorbeeld poses en tijdstempels) opslaan. Door een geheugenattentiemechanisme te gebruiken dat effectief relevante informatie uit deze geheugenframes haalt op basis van hun statussen, is onze methode in staat om eerder waargenomen scènes nauwkeurig te reconstrueren, zelfs bij aanzienlijke verschillen in gezichtspunt of tijdsintervallen. Bovendien maakt ons raamwerk, door tijdstempels in de statussen op te nemen, niet alleen een statische wereld mogelijk, maar vangt het ook de dynamische evolutie ervan in de tijd, waardoor zowel perceptie als interactie binnen de gesimuleerde wereld mogelijk wordt. Uitgebreide experimenten in zowel virtuele als reële scenario's valideren de effectiviteit van onze aanpak.
Large Language Models (LLMs) zijn snel in omvang gegroeid, wat aanzienlijke uitdagingen creëert voor efficiënte implementatie op hardware met beperkte resources. In dit artikel introduceren we Dynamic-Length Float (DFloat11), een verliesvrij compressie framework dat de grootte van LLM's met 30% reduceert terwijl outputs worden behouden die bit-voor-bit identiek zijn aan het originele model. DFloat11 is gemotiveerd door de lage entropie in de BFloat16 gewichtsrepresentatie van LLM's, wat significante inefficiëntie in bestaande opslagformaten blootlegt. Door entropiecodering toe te passen, wijst DFloat11 dynamische-lengte coderingen toe aan gewichten op basis van frequentie, waardoor bijna informatie-optimale compressie wordt bereikt zonder enig verlies van precisie. Om efficiënte inferentie met dynamische-lengte coderingen mogelijk te maken, ontwikkelen we een aangepaste GPU kernel voor snelle online decompressie. Ons ontwerp omvat het volgende: (i) decompositie van geheugenintensieve lookup-tabellen (LUTs) in compacte LUTs die passen in GPU SRAM, (ii) een tweefasen kernel voor het coördineren van thread lees/schrijf posities met behulp van lichtgewicht hulpvariabelen, en (iii) transformer-block-level decompressie om latentie te minimaliseren. Experimenten op recente modellen, waaronder Llama-3.1, Qwen-2.5 en Gemma-3, valideren onze hypothese dat DFloat11 een modelgrootte reductie van ongeveer 30% bereikt terwijl bit-voor-bit exacte outputs worden behouden. Vergeleken met een potentieel alternatief waarbij delen van een ongecomprimeerd model naar de CPU worden verplaatst om aan geheugenbeperkingen te voldoen, bereikt DFloat11 een 1.9-38.8x hogere doorvoer in token generatie. Met een vast GPU geheugenbudget maakt DFloat11 5.3-13.17x langere contextlengtes mogelijk dan ongecomprimeerde modellen. Opmerkelijk is dat onze methode verliesvrije inferentie van Llama-3.1-405B, een 810GB model, mogelijk maakt op een enkele node uitgerust met 8x80GB GPU's. Onze code en modellen zijn beschikbaar op https://github.com/LeanModels/DFloat11.
Hoewel datasynthese en -distillatie veelbelovende strategieën zijn om kleine taalmodellen te verbeteren, zijn huidige benaderingen sterk afhankelijk van grote taalmodellen (LLM's), die te kampen hebben met hoge rekenkosten, milieuonvriendelijkheid en mogelijke vooroordelen die zijn overgenomen van monolithische architecturen. Daarentegen zijn kleinere LLM's toegankelijker en duurzamer, maar hun individuele capaciteiten schieten vaak tekort in het genereren van hoogwaardige, diverse en betrouwbare data. Geïnspireerd door collaboratieve menselijke processen (bijvoorbeeld peer review), stellen we een framework voor met meerdere kleine LLM's, genaamd GRA, dat gespecialiseerde rollen over kleine LLM's verdeelt om iteratieve verfijning en kwaliteitscontrole te bereiken, wat doorgaans door één grote LLM wordt gedaan. In dit collaboratieve framework nemen meerdere kleine LLM's verschillende rollen aan – Generator, Reviewer en Adjudicator – om een peer-review-geïnspireerde datasynthesepijplijn te simuleren. De Generator stelt initiële datamonsters voor, de Reviewer beoordeelt hun kwaliteit en diversiteit, en de Adjudicator lost conflicten op om de output te finaliseren. Door het syntheseproces op te splitsen in gespecialiseerde subtaken, kunnen collaboratieve kleine LLM's een dataniveau bereiken dat gelijk is aan distillatie op basis van grote LLM's. Via experimenten op meerdere benchmarks tonen we aan dat door GRA geproduceerde data de kwaliteit van uitvoer van enkele grote LLM's evenaart of overtreft, bijvoorbeeld Qwen-2.5-72B-Instruct. Onze resultaten betwisten de noodzaak van monolithische grote modellen voor hoogwaardige datasynthese en pleiten in plaats daarvan voor strategische coördinatie van kleinere agents. Onze datasets, modellen en code zijn publiekelijk beschikbaar op https://github.com/GX-XinGao/GRA.
Grafieken zijn alomtegenwoordig, aangezien mensen ze vaak gebruiken om data te analyseren, vragen te beantwoorden en cruciale inzichten te ontdekken. Het uitvoeren van complexe analytische taken met grafieken vereist echter aanzienlijke perceptuele en cognitieve inspanning. Chart Question Answering (CQA)-systemen automatiseren dit proces door modellen in staat te stellen visuele representaties van data te interpreteren en te redeneren. Bestaande benchmarks zoals ChartQA missen echter real-world diversiteit en hebben recentelijk prestatieverzadiging laten zien met moderne grote visueel-taalmodelen (LVLMs). Om deze beperkingen aan te pakken, introduceren we ChartQAPro, een nieuwe benchmark die 1.341 grafieken bevat uit 157 diverse bronnen, die verschillende grafiektypen omvatten, waaronder infographics en dashboards, en 1.948 vragen in verschillende typen, zoals meerkeuzevragen, conversatievragen, hypothetische vragen en onbeantwoordbare vragen, om de uitdagingen van de echte wereld beter te weerspiegelen. Onze evaluaties met 21 modellen tonen een aanzienlijke prestatievermindering voor LVLMs op ChartQAPro; bijvoorbeeld, Claude Sonnet 3.5 scoort 90,5% op ChartQA maar slechts 55,81% op ChartQAPro, wat de complexiteit van grafiekredenering onderstreept. We vullen onze bevindingen aan met gedetailleerde foutenanalyses en ablatiestudies, waarbij we belangrijke uitdagingen en kansen identificeren voor het bevorderen van LVLMs in grafiekbegrip en -redenering. We geven ChartQAPro vrij op https://github.com/vis-nlp/ChartQAPro.
Grote Videomodelen (LVMs) gebaseerd op Grote Taalmodellen (LLMs) hebben potentie getoond in videobegrip, maar kampen vaak met een gebrek aan afstemming met menselijke intuïtie en problemen met videohallucinatie. Om deze uitdagingen aan te pakken, introduceren we VistaDPO, een nieuw raamwerk voor Video Hiërarchische Ruimtelijk-Temporele Directe Voorkeursoptimalisatie. VistaDPO verbetert de afstemming van tekst-video voorkeuren op drie hiërarchische niveaus: i) Instantieniveau, waarbij de algemene videocontent wordt afgestemd op de reacties; ii) Temporeel niveau, waarbij de temporele semantiek van de video wordt afgestemd op gebeurtenisbeschrijvingen; en iii) Perceptief niveau, waarbij ruimtelijke objecten worden afgestemd op taaltokens. Gezien het gebrek aan datasets voor gedetailleerde video-taal voorkeursafstemming, hebben we VistaDPO-7k geconstrueerd, een dataset van 7,2K QA-paren geannoteerd met gekozen en afgewezen reacties, samen met ruimtelijk-temporele grondingsinformatie zoals tijdstempels, keyframes en begrenzingsvakken. Uitgebreide experimenten op benchmarks zoals Video Hallucinatie, Video QA en Captioning-prestatietaken tonen aan dat VistaDPO de prestaties van bestaande LVMs aanzienlijk verbetert en effectief video-taal misalignement en hallucinatie vermindert. De code en data zijn beschikbaar op https://github.com/HaroldChen19/VistaDPO.
Het succes van tekst-naar-beeld (T2I) generatiemodellen heeft geleid tot een proliferatie van talrijke modelcheckpoints die zijn verfijnd vanuit hetzelfde basismodel op verschillende gespecialiseerde datasets. Deze overweldigende productie van gespecialiseerde modellen introduceert nieuwe uitdagingen voor hoge parameterredundantie en enorme opslagkosten, waardoor de ontwikkeling van effectieve methoden om de capaciteiten van diverse krachtige modellen te consolideren en te verenigen in één enkel model noodzakelijk is. Een gangbare praktijk bij het samenvoegen van modellen is het gebruik van statische lineaire interpolatie in de parameterruimte om het doel van stijlmenging te bereiken. Dit negeert echter de kenmerken van de T2I-generatietaak, waarbij talrijke verschillende modellen uiteenlopende stijlen omvatten, wat kan leiden tot incompatibiliteit en verwarring in het samengevoegde model. Om dit probleem aan te pakken, introduceren we een stijl-aanstuurbaar beeldgeneratiepijplijn die nauwkeurig afbeeldingen in willekeurige stijlen kan genereren onder controle van stijlvectoren. Op basis van dit ontwerp stellen we het score-distillatie gebaseerde model-samenvoegingsparadigma (DMM) voor, dat meerdere modellen comprimeert tot één veelzijdig T2I-model. Bovendien heroverwegen en herformuleren we de taak van model-samenvoeging in de context van T2I-generatie, door nieuwe samenvoegingsdoelen en evaluatieprotocollen te presenteren. Onze experimenten tonen aan dat DMM de kennis van meerdere leraarmodellen compact kan reorganiseren en beheersbare generatie in willekeurige stijlen kan bereiken.
Recente vooruitgang in reinforcement learning (RL) heeft de redeneervaardigheden van vision-language modellen (VLMs) versterkt. Het verbeteren van beleidsverkenning om testtijdberekeningen effectiever te schalen, blijft echter onderbelicht in VLMs. Bovendien hebben VLMs nog steeds moeite met onvolmaakte visuele waarneming, wat op zijn beurt het daaropvolgende redeneerproces beïnvloedt. Daarom stellen we NoisyRollout voor, een eenvoudige maar effectieve RL-benadering die trajecten van zowel schone als matig vervormde afbeeldingen combineert om gerichte diversiteit in visuele waarneming en de resulterende redeneerpatronen te introduceren. Zonder extra trainingskosten verbetert NoisyRollout de verkenningcapaciteiten van VLMs door een visiegerichte inductieve bias te incorporeren. Bovendien gebruikt NoisyRollout een ruis-annealing schema dat geleidelijk de vervormingssterkte tijdens de training vermindert, waardoor vroeg voordeel wordt gehaald uit ruisige signalen terwijl de trainingsstabiliteit en schaalbaarheid in latere fasen behouden blijven. Met slechts 2.1K trainingsmonsters behaalt NoisyRollout state-of-the-art prestaties onder open-source RL-afgestemde modellen op 5 out-of-domain benchmarks die zowel redeneer- als waarnemingstaken omvatten, terwijl vergelijkbare of zelfs betere in-domain prestaties worden behouden.
Vision-language modellen zijn essentieel voor onderzoek in computervisie, maar veel hoogpresterende modellen blijven closed-source, waardoor hun data, ontwerp en trainingsproces verborgen blijven. De onderzoeksgemeenschap heeft hierop gereageerd door distillatie van black-box modellen te gebruiken om trainingsdata te labelen, wat sterke benchmarkresultaten oplevert, maar ten koste gaat van meetbare wetenschappelijke vooruitgang. Zonder kennis van de details van het leraarmodel en zijn databronnen blijft wetenschappelijke vooruitgang echter moeilijk te meten. In dit artikel bestuderen we het bouwen van een Perception Language Model (PLM) in een volledig open en reproduceerbaar raamwerk voor transparant onderzoek in beeld- en videobegrip. We analyseren standaard trainingspijplijnen zonder distillatie van propriëtaire modellen en onderzoeken grootschalige synthetische data om kritieke datalacunes te identificeren, met name in gedetailleerd videobegrip. Om deze lacunes te overbruggen, publiceren we 2,8 miljoen door mensen gelabelde voorbeelden van fijnmazige video vraag-antwoordparen en ruimtelijk-temporeel verankerde videobijschriften. Daarnaast introduceren we PLM-VideoBench, een suite voor het evalueren van uitdagende videobegriptaken die zich richten op het vermogen om te redeneren over het "wat", "waar", "wanneer" en "hoe" van een video. We maken ons werk volledig reproduceerbaar door data, trainingsrecepten, code en modellen beschikbaar te stellen.
Huidige op leren gebaseerde benaderingen voor het aanpassen van onderwerpen, die voornamelijk vertrouwen op U-Net-architecturen, hebben te kampen met beperkte generalisatiecapaciteit en verminderde beeldkwaliteit. Tegelijkertijd vereisen op optimalisatie gebaseerde methoden onderwerp-specifieke fine-tuning, wat onvermijdelijk de tekstuele bestuurbaarheid aantast. Om deze uitdagingen aan te pakken, stellen we InstantCharacter voor, een schaalbaar raamwerk voor karakteraanpassing gebouwd op een foundation diffusion transformer. InstantCharacter toont drie fundamentele voordelen: ten eerste bereikt het open-domein personalisatie over diverse karakteruitingen, poses en stijlen terwijl het hoogwaardige resultaten behoudt. Ten tweede introduceert het raamwerk een schaalbare adapter met gestapelde transformer-encoders, die effectief open-domein karakterkenmerken verwerkt en naadloos interageert met de latente ruimte van moderne diffusion transformers. Ten derde, om het raamwerk effectief te trainen, hebben we een grootschalige karakterdataset geconstrueerd met 10-miljoen-niveau samples. De dataset is systematisch georganiseerd in gepaarde (multi-view karakter) en ongepaarde (tekst-beeldcombinaties) subsets. Deze duale datastructuur maakt gelijktijdige optimalisatie van identiteitsconsistentie en tekstuele bewerkbaarheid mogelijk via verschillende leerpaden. Kwalitatieve experimenten tonen de geavanceerde mogelijkheden van InstantCharacter aan in het genereren van hoogwaardige, tekstbestuurbare en karakterconsistente afbeeldingen, wat een nieuwe standaard zet voor karaktergedreven beeldgeneratie. Onze broncode is beschikbaar op https://github.com/Tencent/InstantCharacter.
Het opschalen van rekenkracht tijdens testen is naar voren gekomen als een cruciaal ingrediënt om grote taalmmodellen (LLMs) in staat te stellen moeilijke problemen op te lossen, maar gaat gepaard met hoge latentie en inferentiekosten. Wij introduceren slaaptijd-rekenkracht, waardoor modellen offline kunnen "nadenken" over contexten voordat queries worden gepresenteerd: door te anticiperen op welke queries gebruikers zouden kunnen stellen en nuttige hoeveelheden vooraf te berekenen, kunnen we de rekenvereisten tijdens testen aanzienlijk verminderen. Om de effectiviteit van onze methode aan te tonen, creëren we aangepaste versies van twee redeneertaken - Stateful GSM-Symbolic en Stateful AIME. We ontdekken dat slaaptijd-rekenkracht de benodigde rekenkracht tijdens testen om dezelfde nauwkeurigheid te bereiken met ~5x kan verminderen op Stateful GSM-Symbolic en Stateful AIME, en dat door het opschalen van slaaptijd-rekenkracht we de nauwkeurigheid verder kunnen verhogen met tot 13% op Stateful GSM-Symbolic en 18% op Stateful AIME. Bovendien introduceren we Multi-Query GSM-Symbolic, dat GSM-Symbolic uitbreidt door meerdere gerelateerde queries per context op te nemen. Door slaaptijd-rekenkracht te amortiseren over gerelateerde queries over dezelfde context met behulp van Multi-Query GSM-Symbolic, kunnen we de gemiddelde kosten per query met 2,5x verlagen. Vervolgens voeren we aanvullende analyses uit om te begrijpen wanneer slaaptijd-rekenkracht het meest effectief is, waarbij we ontdekken dat de voorspelbaarheid van de gebruikersquery goed gecorreleerd is met de effectiviteit van slaaptijd-rekenkracht. Tot slot voeren we een casestudy uit van het toepassen van slaaptijd-rekenkracht op een realistische agentische SWE-taak.
Grote Taalmodellen (LLMs) hebben enorm potentieel getoond als agenten, waarbij ze uitblinken in taken die meerdere rondes van redeneren en interacties vereisen. Rejection Sampling Fine-Tuning (RFT) is naar voren gekomen als een effectieve methode voor het finetunen van LLMs als agenten: het imiteert eerst succesvolle trajecten die door experts zijn gegenereerd en verbetert vervolgens de agentvaardigheden door iteratieve finetuning op succesvolle, zelf gegenereerde trajecten. Echter, aangezien de expert (bijvoorbeeld GPT-4) vooral slaagt in eenvoudigere subtaken en RFT inherent de voorkeur geeft aan eenvoudigere scenario's, blijven veel complexe subtaken onopgelost en persistent buiten de distributie (OOD). Na onderzoek van deze uitdagende subtaken ontdekten we dat eerder mislukte expert trajecten vaak waardevolle richtlijnen kunnen bieden, zoals plannen en cruciale acties, die de verkenningsefficiëntie van de agent en het verwerven van kritieke vaardigheden aanzienlijk kunnen verbeteren. Gemotiveerd door deze observaties stellen we Exploring Expert Failures (EEF) voor, dat nuttige acties identificeert uit mislukte expert trajecten en deze integreert in de trainingsdataset. Potentieel schadelijke acties worden zorgvuldig uitgesloten om besmetting van het leerproces van het model te voorkomen. Door gebruik te maken van de nuttige acties in expertfouten lost EEF met succes enkele eerder onoplosbare subtaken op en verbetert het de afstemming van de agent. Opmerkelijk is dat onze aanpak een winstpercentage van 62\% behaalde in WebShop, wat beter is dan RFT (53,6\%) en GPT-4 (35,6\%), en voor zover wij weten, een nieuwe state-of-the-art vestigt als de eerste methode die een score van 0,81 in WebShop overschrijdt en 81 in SciWorld overtreft.
Computationale kleurconstantie, of witbalans, is een belangrijk onderdeel van de beeldverwerkingsprocessor (ISP) van een camera dat kleurzweem door scèneverlichting corrigeert. Omdat deze bewerking plaatsvindt in de cameraspecifieke raw-kleurruimte, moeten witbalansalgoritmen zich aanpassen aan verschillende camera's. Dit artikel introduceert een op leren gebaseerde methode voor kruiscamera kleurconstantie die generaliseert naar nieuwe camera's zonder hertraining. Onze methode maakt gebruik van vooraf gekalibreerde kleurcorrectiematrices (CCM's) die beschikbaar zijn op ISP's en die de raw-kleurruimte van de camera afbeelden naar een standaardruimte (bijv. CIE XYZ). Onze methode gebruikt deze CCM's om vooraf gedefinieerde verlichtingskleuren (bijv. langs de Planckiaanse locus) om te zetten naar de raw-ruimte van de testcamera. De gemapte lichtbronnen worden gecodeerd in een compacte camera fingerprint embedding (CFE) die het netwerk in staat stelt zich aan te passen aan onbekende camera's. Om overfitting te voorkomen vanwege het beperkte aantal camera's en CCM's tijdens de training, introduceren we een data-augmentatietechniek die interpolatie toepast tussen camera's en hun CCM's. Experimentele resultaten over meerdere datasets en backbone-architecturen laten zien dat onze methode state-of-the-art kruiscamera kleurconstantie bereikt, terwijl deze lichtgewicht blijft en alleen gebruikmaakt van gegevens die direct beschikbaar zijn in camera-ISP's.
Movie Audio Description (AD) heeft als doel visuele inhoud te beschrijven tijdens dialoogvrije segmenten, wat met name voordelig is voor blinde en slechtziende (BVI) kijkers. In vergelijking met algemene videobijschriften vereist AD plotrelevante narratie met expliciete verwijzingen naar karakternamen, wat unieke uitdagingen met zich meebrengt in het begrijpen van films. Om actieve hoofdpersonages te identificeren en te focussen op regio's die relevant zijn voor het verhaal, stellen we FocusedAD voor, een nieuw framework dat karaktergerichte film-audiobeschrijvingen levert. Het omvat: (i) een Character Perception Module (CPM) voor het volgen van karakterregio's en het koppelen ervan aan namen; (ii) een Dynamic Prior Module (DPM) die contextuele aanwijzingen injecteert uit eerdere AD's en ondertitels via leerbare soft prompts; en (iii) een Focused Caption Module (FCM) die narraties genereert die verrijkt zijn met plotrelevante details en benoemde karakters. Om beperkingen in karakteridentificatie te overwinnen, introduceren we ook een geautomatiseerde pipeline voor het bouwen van karakterquerybanken. FocusedAD behaalt state-of-the-art prestaties op meerdere benchmarks, inclusief sterke zero-shot resultaten op MAD-eval-Named en ons nieuw voorgestelde Cinepile-AD-dataset. Code en data zullen worden vrijgegeven op https://github.com/Thorin215/FocusedAD.
We introduceren Complex-Edit, een uitgebreide benchmark ontworpen om instructiegebaseerde beeldbewerkingsmodellen systematisch te evalueren over instructies van variërende complexiteit. Om deze benchmark te ontwikkelen, maken we gebruik van GPT-4o om automatisch een diverse set bewerkingsinstructies op grote schaal te verzamelen. Onze aanpak volgt een gestructureerde ``Chain-of-Edit''-pijplijn: we genereren eerst individuele atomische bewerkingstaken onafhankelijk van elkaar en integreren deze vervolgens om samenhangende, complexe instructies te vormen. Daarnaast introduceren we een reeks metrieken om verschillende aspecten van bewerkingsprestaties te beoordelen, samen met een VLM-gebaseerde automatische evaluatiepijplijn die grootschalige beoordelingen ondersteunt. Onze benchmark levert verschillende opmerkelijke inzichten op: 1) Open-source modellen presteren aanzienlijk slechter in vergelijking met propriëtaire, gesloten modellen, waarbij het prestatieverschil toeneemt naarmate de complexiteit van de instructies groter wordt; 2) Toegenomen instructiecomplexiteit belemmert vooral het vermogen van de modellen om belangrijke elementen uit de invoerbeelden te behouden en de algehele esthetische kwaliteit te bewaren; 3) Het ontbinden van een complexe instructie in een reeks atomische stappen, uitgevoerd in een stap-voor-stap benadering, verslechtert de prestaties aanzienlijk over meerdere metrieken; 4) Een eenvoudige Best-of-N selectiestrategie verbetert de resultaten voor zowel directe bewerking als de stap-voor-stap sequentiële aanpak; en 5) We observeren een ``vloek van synthetische data'': wanneer synthetische data betrokken is bij de modeltraining, neigen de bewerkte afbeeldingen van dergelijke modellen steeds synthetischer te lijken naarmate de complexiteit van de bewerkingsinstructies toeneemt – een fenomeen dat opmerkelijk genoeg ook zichtbaar is in de nieuwste GPT-4o-uitvoer.
Grote taalmodellen (LLM) gebruiken steeds vaker retrieval-augmented generation (RAG) om de feitelijkheid van hun antwoorden te verbeteren. In de praktijk moeten deze systemen echter vaak omgaan met ambiguïteit in gebruikersvragen en mogelijk tegenstrijdige informatie uit meerdere bronnen, terwijl ze ook onnauwkeurige informatie uit rommelige of irrelevante documenten moeten onderdrukken. Eerder onderzoek heeft deze uitdagingen over het algemeen geïsoleerd bestudeerd en aangepakt, waarbij slechts één aspect tegelijk werd overwogen, zoals het omgaan met ambiguïteit of robuustheid tegen ruis en desinformatie. Wij beschouwen daarentegen meerdere factoren tegelijkertijd en stellen (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents) voor, een nieuwe dataset die complexe en realistische scenario's simuleert voor tegenstrijdig bewijs bij een gebruikersvraag, inclusief ambiguïteit, desinformatie en ruis; en (ii) MADAM-RAG, een multi-agentbenadering waarbij LLM-agents in meerdere rondes debatteren over de kwaliteit van een antwoord, waardoor een aggregator reacties kan samenvoegen die corresponderen met gedisambigueerde entiteiten, terwijl desinformatie en ruis worden weggefilterd, waardoor diverse bronnen van conflict gezamenlijk worden aangepakt. We demonstreren de effectiviteit van MADAM-RAG met zowel gesloten als open-source modellen op AmbigDocs -- waarbij alle geldige antwoorden voor ambigue vragen moeten worden gepresenteerd -- en verbeteren sterke RAG-baselines met tot 11,40%, en op FaithEval -- waarbij desinformatie moet worden onderdrukt -- waar we met Llama3.3-70B-Instruct tot 15,80% (absoluut) verbeteren. Bovendien stellen we vast dat RAMDocs een uitdaging vormt voor bestaande RAG-baselines (Llama3.3-70B-Instruct behaalt slechts een exacte overeenkomstscore van 32,60). Hoewel MADAM-RAG een begin maakt met het aanpakken van deze tegenstrijdige factoren, geeft onze analyse aan dat er nog steeds een aanzienlijke kloof bestaat, vooral wanneer het niveau van onbalans in ondersteunend bewijs en desinformatie toeneemt.
Het waarborgen van de ethische inzet van tekst-naar-beeldmodellen vereist effectieve technieken om het genereren van schadelijk of ongepast content te voorkomen. Hoewel conceptverwijderingsmethoden een veelbelovende oplossing bieden, kampen bestaande finetuning-gebaseerde benaderingen met aanzienlijke beperkingen. Anchor-vrije methoden riskeren het verstoren van samplingtrajectories, wat leidt tot visuele artefacten, terwijl anchor-gebaseerde methoden afhankelijk zijn van de heuristische selectie van anchorconcepten. Om deze tekortkomingen te overwinnen, introduceren we een finetuning-framework, genaamd ANT, dat Automatisch deNoising Trajectories begeleidt om ongewenste concepten te vermijden. ANT is gebaseerd op een belangrijk inzicht: het omkeren van de conditierichting van classifier-free guidance tijdens de midden tot late denoising-fasen maakt precieze contentmodificatie mogelijk zonder de structurele integriteit in de vroege fasen op te offeren. Dit inspireert een trajectory-aware doelstelling die de integriteit van het scorefunctieveld in de vroege fasen behoudt, dat samples naar het natuurlijke beeldmanifold stuurt, zonder te vertrouwen op heuristische anchorconceptselectie. Voor het verwijderen van enkelvoudige concepten stellen we een augmentatie-versterkte gewichtssaliency map voor om precies de kritieke parameters te identificeren die het meest significant bijdragen aan het ongewenste concept, wat een grondigere en efficiëntere verwijdering mogelijk maakt. Voor het verwijderen van meerdere concepten biedt onze doelstellingsfunctie een veelzijdige plug-and-play oplossing die de prestaties aanzienlijk verbetert. Uitgebreide experimenten tonen aan dat ANT state-of-the-art resultaten behaalt bij zowel enkelvoudige als meervoudige conceptverwijdering, en hoogwaardige, veilige outputs levert zonder in te leveren op de generatieve kwaliteit. Code is beschikbaar op https://github.com/lileyang1210/ANT.
Recente kleinere taalmodellen zoals Phi-3.5 en Phi-4 zijn afhankelijk van synthetische data die gegenereerd wordt met behulp van grotere taalmodellen. Er blijven vragen bestaan over het benutten van synthetische data voor andere use cases, zoals het aanpassen van LLM's aan specifieke domeinen. Een belangrijke beperking van synthetische data is de lage diversiteit, wat een negatieve impact heeft op de downstream toepasbaarheid voor het verbeteren van andere modellen. Om dit aan te pakken, stellen we MetaSynth voor, een methode voor het genereren van synthetische data die diversiteit vergroot door middel van meta-prompting, waarbij een taalmodel meerdere "expert" LLM-agenten coördineert om gezamenlijk data te genereren. Met slechts 25 miljoen tokens van synthetische data die gegenereerd is met MetaSynth, hebben we een goed getraind LLM (Mistral-7B-v0.3) succesvol aangepast aan twee gespecialiseerde domeinen—Financiën en Biomedische wetenschappen—zonder de mogelijkheden van het resulterende model in algemene taken aan te tasten. Daarnaast evalueren we de diversiteit van onze synthetische data met behulp van zeven geautomatiseerde metrieken, en concluderen dat deze de diversiteit van LLM pre-trainingscorpora benadert. Het continu pre-trainen van Mistral-7B-v0.3 met MetaSynth presteert aanzienlijk beter dan het basis-LLM, met verbeteringen van tot 4,08% in Financiën en 13,75% in Biomedische wetenschappen. Hetzelfde model vertoont een verminderde prestatie wanneer het getraind wordt op data die gegenereerd is met behulp van een sjabloonprompt, zelfs wanneer de sjabloon eerdere generaties en variërende In-Context voorbeelden van echte data bevat. Onze bevindingen suggereren dat een paar miljoen tokens van diverse synthetische data, zonder enige echte data te mengen, voldoende is voor effectieve domeinadaptatie bij gebruik van MetaSynth.
Single-stream architecturen die gebruikmaken van Vision Transformer (ViT)-backbones tonen recentelijk veel potentieel voor real-time UAV-tracking. Echter, frequente occlusies door obstakels zoals gebouwen en bomen leggen een groot nadeel bloot: deze modellen missen vaak strategieën om occlusies effectief te hanteren. Nieuwe methoden zijn nodig om de occlusiebestendigheid van single-stream ViT-modellen in luchtvaarttracking te verbeteren. In dit werk stellen we voor om Occlusion-Robust Representations (ORR) te leren op basis van ViTs voor UAV-tracking door een invariantie van de kenmerkrepresentatie van een doelwit af te dwingen ten opzichte van willekeurige maskeringsoperaties gemodelleerd door een ruimtelijk Cox-proces. Hopelijk simuleert deze willekeurige maskering doelwitocclusies bij benadering, waardoor we ViTs kunnen leren die robuust zijn tegen doelwitocclusies voor UAV-tracking. Dit framework wordt ORTrack genoemd. Daarnaast stellen we, om real-time toepassingen te faciliteren, een Adaptive Feature-Based Knowledge Distillation (AFKD)-methode voor om een compactere tracker te creëren, die het gedrag van het leraarmodel ORTrack adaptief nabootst volgens de moeilijkheidsgraad van de taak. Dit studentenmodel, genaamd ORTrack-D, behoudt veel van de prestaties van ORTrack terwijl het hogere efficiëntie biedt. Uitgebreide experimenten op meerdere benchmarks valideren de effectiviteit van onze methode, waarbij state-of-the-art prestaties worden gedemonstreerd. De code is beschikbaar op https://github.com/wuyou3474/ORTrack.