Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Normalisatielagen zijn alomtegenwoordig in moderne neurale netwerken en worden al lang als essentieel beschouwd. Dit werk toont aan dat Transformers zonder normalisatie dezelfde of betere prestaties kunnen bereiken met een opmerkelijk eenvoudige techniek. We introduceren Dynamic Tanh (DyT), een elementgewijze bewerking DyT(x) = tanh(alpha x), als een directe vervanging voor normalisatielagen in Transformers. DyT is geïnspireerd door de observatie dat laagnormalisatie in Transformers vaak tanh-achtige, S-vormige input-output-mapping produceert. Door DyT te integreren, kunnen Transformers zonder normalisatie de prestaties van hun genormaliseerde tegenhangers evenaren of overtreffen, meestal zonder hyperparameterafstemming. We valideren de effectiviteit van Transformers met DyT in diverse settings, variërend van herkenning tot generatie, gesuperviseerd tot zelfgesuperviseerd leren, en computervisie tot taalmodelen. Deze bevindingen dagen het conventionele begrip uit dat normalisatielagen onmisbaar zijn in moderne neurale netwerken, en bieden nieuwe inzichten in hun rol in diepe netwerken.
Aangezien er nu miljoenen openbaar beschikbare neurale netwerken zijn, wordt het zoeken en analyseren van grote modelrepositories steeds belangrijker. Het navigeren door zoveel modellen vereist een atlas, maar aangezien de meeste modellen slecht gedocumenteerd zijn, is het in kaart brengen van zo'n atlas een uitdaging. Om het verborgen potentieel van modelrepositories te verkennen, brengen we een voorlopige atlas in kaart die het gedocumenteerde deel van Hugging Face vertegenwoordigt. Het biedt indrukwekkende visualisaties van het modellandschap en de evolutie ervan. We demonstreren verschillende toepassingen van deze atlas, waaronder het voorspellen van modelattributen (bijv. nauwkeurigheid) en het analyseren van trends in computervisiemodellen. Omdat de huidige atlas echter nog incompleet is, stellen we een methode voor om niet-gedocumenteerde regio's in kaart te brengen. Specifiek identificeren we structurele aannames met een hoge betrouwbaarheid op basis van dominante praktijken voor modeltraining in de echte wereld. Door gebruik te maken van deze aannames, maakt onze aanpak een nauwkeurige mapping mogelijk van voorheen niet-gedocumenteerde gebieden van de atlas. We maken onze datasets, code en interactieve atlas openbaar beschikbaar.
Text-to-image-modellen zoals Stable Diffusion en DALLE-3 hebben nog steeds moeite met multi-turn beeldbewerking. We ontleden zo'n taak als een agent-gebaseerde workflow (pad) van toolgebruik die een reeks subtaken aanpakt met AI-tools van uiteenlopende kosten. Conventionele zoekalgoritmen vereisen dure exploratie om toolpaden te vinden. Hoewel grote taalmodellen (LLM's) voorkennis hebben van subtaskplanning, kunnen ze nauwkeurige inschattingen van de mogelijkheden en kosten van tools missen om te bepalen welke in elke subtask toegepast moeten worden. Kunnen we de sterke punten van zowel LLM's als grafiekzoeken combineren om kostenefficiënte toolpaden te vinden? We stellen een driestapsbenadering "CoSTA*" voor die LLM's gebruikt om een subtaskboom te creëren, wat helpt bij het snoeien van een grafiek van AI-tools voor de gegeven taak, en vervolgens A*-zoeken uitvoert op de kleine subgrafiek om een toolpad te vinden. Om de totale kosten en kwaliteit beter in balans te brengen, combineert CoSTA* beide metrieken van elke tool voor elke subtask om het A*-zoeken te sturen. De output van elke subtask wordt vervolgens geëvalueerd door een vision-language model (VLM), waarbij een falen een update van de kosten en kwaliteit van de tool voor die subtask triggert. Hierdoor kan het A*-zoeken snel herstellen van fouten om andere paden te verkennen. Bovendien kan CoSTA* automatisch schakelen tussen modaliteiten over subtasks heen voor een betere kosten-kwaliteitverhouding. We bouwen een nieuwe benchmark voor uitdagende multi-turn beeldbewerking, waarop CoSTA* zowel op kosten als kwaliteit beter presteert dan state-of-the-art beeldbewerkingsmodellen of agents, en flexibele afwegingen maakt op basis van gebruikersvoorkeuren.
Recente vooruitgang in grote visueel-taalmodelen (LVLMs) heeft potentie getoond voor belichaamde taakplanning, maar ze worstelen nog steeds met fundamentele uitdagingen zoals afhankelijkheidsbeperkingen en efficiëntie. Bestaande benaderingen optimaliseren ofwel alleen actieselectie of maken gebruik van wereldmodellen tijdens inferentie, waarbij de voordelen van het leren modelleren van de wereld om planningscapaciteiten te verbeteren over het hoofd worden gezien. Wij stellen Dual Preference Optimization (D^2PO) voor, een nieuw leerframework dat gezamenlijk staatspredictie en actieselectie optimaliseert via voorkeursleren, waardoor LVLMs omgevingsdynamiek kunnen begrijpen voor betere planning. Om automatisch trajecten en stapsgewijze voorkeursdata te verzamelen zonder menselijke annotatie, introduceren we een boomzoekmechanisme voor uitgebreide exploratie via trial-and-error. Uitgebreide experimenten op VoTa-Bench laten zien dat onze D^2PO-gebaseerde methode aanzienlijk beter presteert dan bestaande methoden en GPT-4o wanneer toegepast op Qwen2-VL (7B), LLaVA-1.6 (7B) en LLaMA-3.2 (11B), met superieure taaksuccespercentages en efficiëntere uitvoeringspaden.
Huidige methoden voor beeldgeneratie en -bewerking verwerken tekstuele prompts voornamelijk als directe invoer zonder te redeneren over visuele compositie en expliciete operaties. Wij presenteren Generation Chain-of-Thought (GoT), een nieuw paradigma dat generatie en bewerking mogelijk maakt via een expliciet taalredeneerproces voordat beelden worden gegenereerd. Deze aanpak transformeert conventionele tekst-naar-beeldgeneratie en -bewerking in een raamwerk dat wordt geleid door redenering, waarbij semantische relaties en ruimtelijke arrangementen worden geanalyseerd. We definiëren de formulering van GoT en construeren grootschalige GoT-datasets met meer dan 9 miljoen samples die gedetailleerde redeneerketens bevatten die semantisch-ruimtelijke relaties vastleggen. Om de voordelen van GoT te benutten, implementeren we een uniform raamwerk dat Qwen2.5-VL integreert voor het genereren van redeneerketens, samen met een end-to-end diffusiemodel dat is versterkt door onze nieuwe Semantic-Spatial Guidance Module. Experimenten tonen aan dat ons GoT-raamwerk uitstekende prestaties levert bij zowel generatie- als bewerkingstaken, met significante verbeteringen ten opzichte van baseline-methoden. Daarnaast maakt onze aanpak interactieve visuele generatie mogelijk, waardoor gebruikers redeneerstappen expliciet kunnen aanpassen voor precieze beeldwijzigingen. GoT pionier een nieuwe richting voor redenering-gestuurde visuele generatie en bewerking, waarbij beelden worden geproduceerd die beter aansluiten bij menselijke intenties. Om toekomstig onderzoek te faciliteren, maken we onze datasets, code en vooraf getrainde modellen publiekelijk beschikbaar op https://github.com/rongyaofang/GoT.
Dit artikel presenteert SANA-Sprint, een efficiënt diffusiemodel voor ultra-snelle tekst-naar-beeld (T2I) generatie. SANA-Sprint is gebouwd op een vooraf getraind basis model en versterkt met hybride distillatie, waardoor het aantal inferentiestappen drastisch wordt teruggebracht van 20 naar 1-4. We introduceren drie belangrijke innovaties: (1) We stellen een trainingsvrije aanpak voor die een vooraf getraind flow-matching model transformeert voor continue-tijd consistentie distillatie (sCM), waardoor kostbare training vanaf nul wordt geëlimineerd en een hoge trainingsefficiëntie wordt bereikt. Onze hybride distillatiestrategie combineert sCM met latente adversariële distillatie (LADD): sCM zorgt voor afstemming met het leraarmodel, terwijl LADD de kwaliteit van enkelstapsgeneratie verbetert. (2) SANA-Sprint is een uniform stap-adaptief model dat hoogwaardige generatie bereikt in 1-4 stappen, waardoor stap-specifieke training wordt geëlimineerd en de efficiëntie wordt verbeterd. (3) We integreren ControlNet met SANA-Sprint voor real-time interactieve beeldgeneratie, waardoor directe visuele feedback voor gebruikersinteractie mogelijk wordt. SANA-Sprint stelt een nieuwe Pareto-grens vast in de afweging tussen snelheid en kwaliteit, waarbij state-of-the-art prestaties worden bereikt met 7.59 FID en 0.74 GenEval in slechts 1 stap - beter dan FLUX-schnell (7.94 FID / 0.71 GenEval) terwijl het 10x sneller is (0.1s vs 1.1s op H100). Het bereikt ook een latentie van 0.1s (T2I) en 0.25s (ControlNet) voor 1024 x 1024 beelden op H100, en 0.31s (T2I) op een RTX 4090, wat de uitzonderlijke efficiëntie en het potentieel voor AI-gestuurde consumententoepassingen (AIPC) aantoont. Code en vooraf getrainde modellen zullen openbaar worden gemaakt.
We introduceren VisualPRM, een geavanceerd multimodaal Process Reward Model (PRM) met 8B parameters, dat de redeneervaardigheden van bestaande Multimodale Large Language Models (MLLMs) verbetert over verschillende modelschalen en -families met Best-of-N (BoN) evaluatiestrategieën. Specifiek verbetert ons model de redeneerprestaties van drie typen MLLMs en vier verschillende modelschalen. Zelfs wanneer toegepast op de zeer capabele InternVL2.5-78B, behaalt het een verbetering van 5,9 punten over zeven multimodale redeneerbenchmarks. Experimentele resultaten tonen aan dat ons model superieure prestaties vertoont in vergelijking met Outcome Reward Models en Self-Consistency tijdens BoN-evaluatie. Om de training van multimodale PRMs te vergemakkelijken, hebben we een multimodaal procesbegeleidingsdataset VisualPRM400K geconstrueerd met behulp van een geautomatiseerde datapijplijn. Voor de evaluatie van multimodale PRMs stellen we VisualProcessBench voor, een benchmark met door mensen geannoteerde stap-voor-stap correctheidslabels, om de vaardigheden van PRMs te meten om foutieve stappen in multimodale redeneertaken te detecteren. We hopen dat ons werk meer toekomstig onderzoek kan inspireren en bijdraagt aan de ontwikkeling van MLLMs. Ons model, data en benchmark zijn vrijgegeven op https://internvl.github.io/blog/2025-03-13-VisualPRM/.
Text-to-image diffusiemodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige inhoud op basis van tekstprompts. Hun afhankelijkheid van publiek beschikbare data en de groeiende trend van het delen van data voor fine-tuning maken deze modellen echter bijzonder kwetsbaar voor datavergiftigingsaanvallen. In dit werk introduceren we de Silent Branding Attack, een nieuwe methode voor datavergiftiging die text-to-image diffusiemodellen manipuleert om afbeeldingen te genereren die specifieke merkenlogo's of symbolen bevatten zonder enige tekstuele triggers. We ontdekken dat wanneer bepaalde visuele patronen herhaaldelijk in de trainingsdata voorkomen, het model leert deze van nature in zijn uitvoer te reproduceren, zelfs zonder vermelding in de prompt. Hierop voortbouwend ontwikkelen we een geautomatiseerd datavergiftigingsalgoritme dat logo's onopvallend in originele afbeeldingen injecteert, waardoor ze natuurlijk integreren en onopgemerkt blijven. Modellen die op deze vergiftigde dataset zijn getraind, genereren afbeeldingen met logo's zonder de beeldkwaliteit of tekstuitlijning te verslechteren. We valideren onze silent branding attack experimenteel in twee realistische scenario's op grootschalige, hoogwaardige afbeeldingsdatasets en datasets voor stijlpersonalisatie, waarbij we hoge slagingspercentages behalen zelfs zonder specifieke tekstuele trigger. Menselijke evaluatie en kwantitatieve metingen, waaronder logo-detectie, tonen aan dat onze methode logo's onopvallend kan inbedden.
Het maken van tekst-naar-beeld (T2I) generatieve modellen die zowel snel als goed kunnen samplen, vertegenwoordigt een veelbelovende onderzoeksrichting. Eerdere studies hebben zich doorgaans gericht op het verbeteren van de visuele kwaliteit van gesynthetiseerde beelden ten koste van de samplingefficiëntie, of op het drastisch versnellen van het samplingproces zonder de generatieve capaciteit van het basismodel te verbeteren. Bovendien zijn bijna alle inferentiemethoden niet in staat gebleken om stabiele prestaties te garanderen op zowel diffusiemodellen (DMs) als visuele autoregressieve modellen (ARMs). In dit artikel introduceren we een nieuwe plug-and-play inferentieparadigma, CoRe^2, dat bestaat uit drie subprocessen: Collect, Reflect en Refine. CoRe^2 verzamelt eerst classifier-free guidance (CFG) trajecten, en gebruikt vervolgens de verzamelde data om een zwak model te trainen dat de gemakkelijk te leren inhoud reflecteert, terwijl het aantal functie-evaluaties tijdens de inferentie wordt gehalveerd. Vervolgens gebruikt CoRe^2 weak-to-strong guidance om de conditionele output te verfijnen, waardoor het vermogen van het model om hoogfrequente en realistische inhoud te genereren wordt verbeterd, wat moeilijk is voor het basismodel om vast te leggen. Voor zover wij weten, is CoRe^2 de eerste die zowel efficiëntie als effectiviteit aantoont over een breed scala aan DMs, waaronder SDXL, SD3.5 en FLUX, evenals ARMs zoals LlamaGen. Het heeft aanzienlijke prestatieverbeteringen laten zien op HPD v2, Pick-of-Pic, Drawbench, GenEval en T2I-Compbench. Bovendien kan CoRe^2 naadloos worden geïntegreerd met de state-of-the-art Z-Sampling, waarbij het deze overtreft met 0.3 en 0.16 op PickScore en AES, terwijl het een tijdsbesparing van 5.64 seconden bereikt met SD3.5. De code is vrijgegeven op https://github.com/xie-lab-ml/CoRe/tree/main.
Het leren van 4D-taalvelden om tijdgevoelige, open-einde taalquery's in dynamische scènes mogelijk te maken, is essentieel voor veel real-world toepassingen. Hoewel LangSplat CLIP-features succesvol verankert in 3D Gaussiaanse representaties, waardoor precisie en efficiëntie in statische 3D-scènes worden bereikt, mist het de mogelijkheid om dynamische 4D-velden te verwerken, omdat CLIP, ontworpen voor statische beeld-tekst taken, geen temporele dynamiek in video's kan vastleggen. Real-world omgevingen zijn van nature dynamisch, waarbij de semantiek van objecten in de tijd evolueert. Het bouwen van een precies 4D-taalveld vereist het verkrijgen van pixel-uitgelijnde, objectgewijze videofeatures, wat huidige vision-modellen moeilijk kunnen bereiken. Om deze uitdagingen aan te pakken, stellen we 4D LangSplat voor, dat 4D-taalvelden leert om tijd-onafhankelijke of tijdgevoelige open-vocabulary query's in dynamische scènes efficiënt te verwerken. 4D LangSplat omzeilt het leren van het taalveld vanuit vision-features en leert direct vanuit tekst gegenereerd uit objectgewijze videobijschriften via Multimodale Grote Taalmodellen (MLLMs). Specifiek stellen we een multimodale objectgewijze video-prompting methode voor, bestaande uit visuele en tekstuele prompts die MLLMs begeleiden om gedetailleerde, temporeel consistente, hoogwaardige bijschriften voor objecten gedurende een video te genereren. Deze bijschriften worden gecodeerd met een Groot Taalmodel in hoogwaardige zin-embeddings, die vervolgens dienen als pixel-uitgelijnde, object-specifieke feature-supervisie, waardoor open-vocabulary tekstquery's via gedeelde embedding-ruimtes worden gefaciliteerd. Erkennend dat objecten in 4D-scènes soepele overgangen tussen statussen vertonen, stellen we verder een status-deformeerbaar netwerk voor om deze continue veranderingen in de tijd effectief te modelleren. Onze resultaten over meerdere benchmarks tonen aan dat 4D LangSplat precieze en efficiënte resultaten behaalt voor zowel tijdgevoelige als tijd-onafhankelijke open-vocabulary query's.
Dit artikel presenteert ons werk aan de Light-R1-serie, waarbij modellen, data en code allemaal vrijgegeven zijn. We richten ons eerst op het trainen van lange COT-modellen vanaf nul, specifiek uitgaande van modellen die aanvankelijk geen lange COT-capaciteiten hadden. Met behulp van een curriculumtrainingsrecept bestaande uit tweefasen SFT en semi-on-policy DPO, trainen we ons model Light-R1-32B vanuit Qwen2.5-32B-Instruct, wat resulteert in superieure wiskundige prestaties vergeleken met DeepSeek-R1-Distill-Qwen-32B. Ondanks dat het uitsluitend getraind is op wiskundige data, toont Light-R1-32B sterke generalisatie over andere domeinen. In de daaropvolgende fase van dit werk benadrukken we het significante voordeel van de 3k dataset die is samengesteld voor de tweede SFT-fase bij het verbeteren van andere modellen. Door DeepSeek-R1-Distilled modellen te finetunen met behulp van deze dataset, verkrijgen we nieuwe SOTA-modellen in 7B en 14B, terwijl het 32B-model, Light-R1-32B-DS, vergelijkbaar presteerde met QwQ-32B en DeepSeek-R1. Verder breiden we ons werk uit door reinforcement learning, specifiek GRPO, toe te passen op lange-COT-modellen om de redeneerprestaties verder te verbeteren. We trainen met succes ons laatste Light-R1-14B-DS met RL, waarmee we SOTA-prestaties bereiken onder 14B-parametermodellen in wiskunde. Met AIME24 & 25-scores van respectievelijk 74.0 en 60.2, overtreft Light-R1-14B-DS zelfs veel 32B-modellen en DeepSeek-R1-Distill-Llama-70B. De RL-training vertoont ook het verwachte gedrag, met een gelijktijdige toename in responslengte en beloningsscore. De Light-R1-serie van werk valideert het trainen van lange-COT-modellen vanaf nul, toont de kunst in SFT-data en geeft SOTA-modellen vrij van RL.
Diffusiegebaseerde generatieve modellen hebben een revolutie teweeggebracht in objectgerichte beeldbewerking, maar hun inzet voor realistische objectverwijdering en -invoeging wordt nog steeds belemmerd door uitdagingen zoals de complexe interactie van fysische effecten en onvoldoende gepaarde trainingsdata. In dit werk introduceren we OmniPaint, een uniform raamwerk dat objectverwijdering en -invoeging herdefinieert als onderling afhankelijke processen in plaats van geïsoleerde taken. Door gebruik te maken van een vooraf getraind diffusieprior en een progressieve trainingspijplijn die bestaat uit initiële optimalisatie van gepaarde voorbeelden en daaropvolgende grootschalige verfijning van ongepaarde data via CycleFlow, bereikt OmniPaint nauwkeurige voorgrondeliminatie en naadloze objectinvoeging, waarbij de scènegeometrie en intrinsieke eigenschappen trouw worden behouden. Bovendien biedt onze nieuwe CFD-metric een robuuste, referentievrije evaluatie van contextconsistentie en objecthallucinatie, waarmee een nieuwe standaard wordt gevestigd voor hoogwaardige beeldbewerking. Projectpagina: https://yeates.github.io/OmniPaint-Page/
Vision-Language Models hebben aanzienlijke vooruitgang geboekt op veel perceptiegerichte taken, maar hun vooruitgang op redeneergerichte taken lijkt beperkt te zijn vanwege het gebrek aan hoogwaardige en diverse trainingsdata. In dit werk streven we ernaar het tekort aan redeneergerichte multimodale datasets aan te pakken. We stellen VisualWebInstruct voor - een nieuwe aanpak die gebruikmaakt van zoekmachines om een diverse en hoogwaardige dataset te creëren die meerdere disciplines omvat, zoals wiskunde, natuurkunde, financiën, scheikunde, enz. We beginnen met zorgvuldig geselecteerde 30.000 startafbeeldingen en gebruiken Google Image Search om websites te identificeren die vergelijkbare afbeeldingen bevatten. We verzamelen en verwerken de HTML's van meer dan 700K unieke URL-bronnen. Door een pijplijn van inhoudsextractie, filtering en synthese bouwen we een dataset van ongeveer 900K vraag-antwoordparen, waarvan 40% visuele QA-paren zijn en de rest tekstuele QA-paren. Modellen die zijn afgestemd op VisualWebInstruct laten aanzienlijke prestatieverbeteringen zien: (1) training vanaf Llava-OV-mid toont 10-20% absolute puntwinsten op benchmarks, (2) training vanaf MAmmoTH-VL toont een absolute winst van 5%. Ons beste model, MAmmoTH-VL2, toont state-of-the-art prestaties binnen de 10B parameterklasse op MMMU-Pro-std (40,7%), MathVerse (42,6%) en DynaMath (55,7%). Deze opmerkelijke resultaten benadrukken de effectiviteit van onze dataset in het verbeteren van de redeneervaardigheden van VLMs voor complexe multimodale taken.
Recente ontwikkelingen in Large Reasoning Models (LRMs), met name die gebruikmaken van Chain-of-Thought reasoning (CoT), hebben geheel nieuwe mogelijkheden geopend voor Machine Translation (MT). Dit position paper betoogt dat LRMs traditionele neurale MT evenals LLM-gebaseerde MT-paradigma's ingrijpend hebben getransformeerd door vertaling te herdefiniëren als een dynamische redeneertaak die contextueel, cultureel en linguïstisch begrip en redeneren vereist. We identificeren drie fundamentele verschuivingen: 1) contextuele samenhang, waarbij LRMs ambiguïteiten oplossen en discoursstructuur behouden door expliciet te redeneren over zinsoverschrijdende en complexe context of zelfs het ontbreken daarvan; 2) culturele intentionaliteit, waardoor modellen uitvoer kunnen aanpassen door sprekersintentie, publieksverwachtingen en socio-linguïstische normen af te leiden; 3) zelfreflectie, waarbij LRMs tijdens de inferentietijd zelfreflectie kunnen uitvoeren om potentiële fouten in vertalingen, vooral in extreem rumoerige gevallen, te corrigeren, wat betere robuustheid laat zien vergeleken met simpele X->Y-vertaling. We verkennen verschillende scenario's in vertaling, waaronder gestileerde vertaling, documentniveauvertaling en multimodale vertaling, door empirische voorbeelden te tonen die de superioriteit van LRMs in vertaling aantonen. We identificeren ook verschillende interessante fenomenen voor LRMs in MT, zoals auto-pivotvertaling, evenals kritieke uitdagingen zoals over-localisatie in vertaling en inferentie-efficiëntie. Tot slot concluderen we dat LRMs vertaalsystemen niet louter als tekstomzetters herdefiniëren, maar als meertalige cognitieve agenten die in staat zijn om betekenis te redeneren die verder gaat dan de tekst. Deze paradigmaverschuiving herinnert ons eraan om problemen in vertaling te bezien in een veel bredere context met LRMs – wat we daarmee kunnen bereiken.
Recente vooruitgang in Large Language Models (LLM's) met een lange context heeft zich voornamelijk gericht op het verwerken van uitgebreide invoercontexten, wat heeft geleid tot aanzienlijke vorderingen in het begrijpen van lange contexten. Het even cruciale aspect van het genereren van langere uitvoer heeft echter relatief minder aandacht gekregen. Dit artikel pleit voor een paradigmaverschuiving in NLP-onderzoek naar het aanpakken van de uitdagingen van het genereren van lange uitvoer. Taken zoals het schrijven van romans, langetermijnplanning en complex redeneren vereisen dat modellen uitgebreide contexten begrijpen en samenhangende, contextueel rijke en logisch consistente langere tekst produceren. Deze eisen benadrukken een kritieke kloof in de huidige mogelijkheden van LLM's. Wij benadrukken het belang van dit onderbelichte domein en roepen op tot gerichte inspanningen om fundamentele LLM's te ontwikkelen die zijn afgestemd op het genereren van hoogwaardige, langere uitvoer, wat enorm potentieel heeft voor toepassingen in de echte wereld.
In dit werk bestuderen we empirisch Diffusion Transformers (DiTs) voor tekst-naar-beeldgeneratie, met een focus op architecturale keuzes, tekstconditioneringsstrategieën en trainingsprotocollen. We evalueren een reeks DiT-gebaseerde architecturen—inclusief PixArt-stijl en MMDiT-varianten—en vergelijken deze met een standaard DiT-variant die direct concatenated tekst- en ruisinputs verwerkt. Verrassend genoeg tonen onze bevindingen aan dat de prestaties van standaard DiT vergelijkbaar zijn met die van gespecialiseerde modellen, terwijl ze superieure parameter-efficiëntie demonstreren, vooral wanneer ze worden opgeschaald. Door gebruik te maken van de laaggewijze parameterdelingstrategie, bereiken we een verdere reductie van 66% in modelgrootte vergeleken met een MMDiT-architectuur, met minimale impact op de prestaties. Op basis van een diepgaande analyse van kritieke componenten zoals tekstencoders en Variational Auto-Encoders (VAEs), introduceren we DiT-Air en DiT-Air-Lite. Met supervised en reward fine-tuning bereikt DiT-Air state-of-the-art prestaties op GenEval en T2I CompBench, terwijl DiT-Air-Lite zeer competitief blijft en de meeste bestaande modellen overtreft ondanks zijn compacte formaat.
Pixel grounding, dat taken omvat zoals Referring Expression Segmentation (RES), heeft aanzienlijke aandacht gekregen vanwege het immense potentieel om de kloof tussen visuele en talige modaliteiten te overbruggen. Vooruitgang in dit domein wordt echter momenteel beperkt door tekortkomingen in bestaande datasets, waaronder beperkte objectcategorieën, onvoldoende tekstuele diversiteit en een gebrek aan hoogwaardige annotaties. Om deze beperkingen te verlichten, introduceren we GroundingSuite, dat bestaat uit: (1) een geautomatiseerd data-annotatieframework dat gebruikmaakt van meerdere Vision-Language Model (VLM) agents; (2) een grootschalige trainingsdataset met 9,56 miljoen diverse verwijzingsexpressies en hun corresponderende segmentaties; en (3) een zorgvuldig samengesteld evaluatiebenchmark bestaande uit 3.800 afbeeldingen. De GroundingSuite-trainingsdataset faciliteert aanzienlijke prestatieverbeteringen, waardoor modellen die erop getraind zijn state-of-the-art resultaten kunnen behalen. Specifiek een cIoU van 68,9 op gRefCOCO en een gIoU van 55,3 op RefCOCOm. Bovendien toont het GroundingSuite-annotatieframework superieure efficiëntie in vergelijking met de huidige toonaangevende data-annotatiemethode, namelijk 4,5 keer sneller dan de GLaMM.
Videogeneratiemodellen hebben het afgelopen jaar opmerkelijke vooruitgang geboekt. De kwaliteit van AI-video's blijft verbeteren, maar ten koste van een grotere modelomvang, een toename in de hoeveelheid data en een grotere vraag naar rekenkracht voor training. In dit rapport presenteren we Open-Sora 2.0, een commercieel niveau videogeneratiemodel dat voor slechts $200k is getraind. Met dit model tonen we aan dat de kosten voor het trainen van een toonaangevend videogeneratiemodel zeer goed beheersbaar zijn. We beschrijven alle technieken die bijdragen aan deze efficiëntiedoorbraak, waaronder datacuratie, modelarchitectuur, trainingsstrategie en systeemoptimalisatie. Volgens menselijke evaluatieresultaten en VBench-scores is Open-Sora 2.0 vergelijkbaar met wereldwijd leidende videogeneratiemodellen, waaronder het open-source HunyuanVideo en het closed-source Runway Gen-3 Alpha. Door Open-Sora 2.0 volledig open-source te maken, streven we ernaar om toegang tot geavanceerde videogeneratietechnologie te democratiseren, wat bredere innovatie en creativiteit in contentcreatie bevordert. Alle bronnen zijn openbaar beschikbaar op: https://github.com/hpcaitech/Open-Sora.
Grote Taalmodellen hebben opmerkelijke redeneervaardigheden getoond bij complexe tekstuele taken. Multimodaal redeneren, dat het integreren van visuele en tekstuele informatie vereist, blijft echter een aanzienlijke uitdaging. Bestaande visueel-taalkundige modellen hebben vaak moeite om visuele inhoud effectief te analyseren en te redeneren, wat resulteert in suboptimale prestaties bij complexe redeneertaken. Bovendien belemmert het ontbreken van uitgebreide benchmarks de nauwkeurige beoordeling van multimodale redeneervaardigheden. In dit artikel introduceren we R1-Onevision, een multimodaal redeneermodel dat is ontworpen om de kloof tussen visuele waarneming en diepgaand redeneren te overbruggen. Om dit te bereiken, stellen we een cross-modale redeneerpijplijn voor die afbeeldingen omzet in formele tekstuele representaties, waardoor precies taalgebaseerd redeneren mogelijk wordt. Met behulp van deze pijplijn construeren we de R1-Onevision-dataset, die gedetailleerde, stapsgewijze multimodale redeneerannotaties biedt over diverse domeinen. We ontwikkelen het R1-Onevision-model verder door middel van supervised fine-tuning en reinforcement learning om geavanceerde redeneer- en robuuste generalisatievaardigheden te cultiveren. Om multimodale redeneerprestaties over verschillende niveaus uitgebreid te evalueren, introduceren we R1-Onevision-Bench, een benchmark die is afgestemd op menselijke onderwijsstadia, en examens omvat van de middelbare school tot de universiteit en daarbuiten. Experimentele resultaten tonen aan dat R1-Onevision state-of-the-art prestaties bereikt, en modellen zoals GPT-4o en Qwen2.5-VL overtreft op meerdere uitdagende multimodale redeneerbenchmarks.
Gedistilleerde diffusiemodellen hebben een kritieke beperking: een verminderde steekproefdiversiteit in vergelijking met hun basisvarianten. In dit werk ontdekken we dat, ondanks dit diversiteitsverlies, gedistilleerde modellen de fundamentele conceptrepresentaties van basismodellen behouden. We demonstreren controle-distillatie - waarbij controlemechanismen zoals Concept Sliders en LoRA's die op basismodellen zijn getraind, naadloos kunnen worden overgedragen naar gedistilleerde modellen en vice versa, waardoor controle effectief wordt gedistilleerd zonder enige hertraining. Dit behoud van representatiestructuur leidde tot ons onderzoek naar de mechanismen van diversiteitscollaps tijdens distillatie. Om te begrijpen hoe distillatie diversiteit beïnvloedt, introduceren we Diffusion Target (DT) Visualisatie, een analyse- en debugtool die onthult hoe modellen einduitvoer voorspellen op tussenliggende stappen. Via DT-Visualisatie identificeren we generatie-artefacten, inconsistenties, en tonen we aan dat initiële diffusietijdstappen onevenredig de uitvoerdiversiteit bepalen, terwijl latere stappen voornamelijk details verfijnen. Op basis van deze inzichten introduceren we diversiteitsdistillatie - een hybride inferentiebenadering die strategisch het basismodel inzet voor alleen het eerste kritieke tijdstip voordat wordt overgeschakeld naar het efficiënte gedistilleerde model. Onze experimenten tonen aan dat deze eenvoudige aanpassing niet alleen de diversiteitsmogelijkheden van basis- naar gedistilleerde modellen herstelt, maar deze verrassend genoeg zelfs overtreft, terwijl bijna de rekenkundige efficiëntie van gedistilleerde inferentie behouden blijft, allemaal zonder extra training of modelaanpassingen. Onze code en gegevens zijn beschikbaar op https://distillation.baulab.info
Recente vooruitgang in videogeneratie maakt het mogelijk realistische, minutenlange single-shot video's te produceren met schaalbare diffusie-transformers. Echter, vereisen narratieve video's uit de echte wereld multi-shot scènes met visuele en dynamische consistentie tussen shots. In dit werk introduceren we Long Context Tuning (LCT), een trainingsparadigma dat het contextvenster van vooraf getrainde single-shot videodiffusiemodellen uitbreidt om scèniveauconsistentie direct uit data te leren. Onze methode breidt volledige aandachtmechanismen uit van individuele shots naar alle shots binnen een scène, waarbij interleaved 3D-positie-embedding en een asynchrone ruisstrategie worden geïntegreerd, wat zowel gezamenlijke als autoregressieve shotgeneratie mogelijk maakt zonder extra parameters. Modellen met bidirectionele aandacht na LCT kunnen verder worden verfijnd met context-causale aandacht, wat efficiënte autoregressieve generatie met KV-cache mogelijk maakt. Experimenten tonen aan dat single-shot modellen na LCT coherente multi-shot scènes kunnen produceren en opkomende capaciteiten vertonen, waaronder compositionele generatie en interactieve shotextensie, wat de weg effent voor praktischer visuele contentcreatie. Zie https://guoyww.github.io/projects/long-context-video/ voor meer details.
Naarmate we opschalen naar grotere machine learning-modellen, veroorzaken de frequente synchronisatie-eisen die inherent zijn aan data-parallelle benaderingen aanzienlijke vertragingen, wat een kritieke uitdaging vormt voor verdere schaalvergroting. Recent werk ontwikkelt een aanpak (DiLoCo) die de synchronisatie-eisen versoepelt zonder in te leveren op modelkwaliteit. Deze studies analyseren echter niet zorgvuldig hoe het gedrag van DiLoCo verandert met de modelgrootte. In dit werk bestuderen we het schaalgedrag van DiLoCo bij het trainen van LLM's onder een vast rekenbudget. We richten ons op hoe algoritmische factoren, waaronder het aantal modelreplica's, hyperparameters en het tokenbudget, de training beïnvloeden op manieren die nauwkeurig kunnen worden voorspeld via schaalwetten. We ontdekken dat DiLoCo zowel voorspelbaar als robuust schaalt met de modelgrootte. Wanneer goed afgesteld, schaalt DiLoCo beter dan data-parallelle training met de modelgrootte, en kan het zelfs bij kleine modelgroottes data-parallelle training overtreffen. Onze resultaten tonen een breder scala aan voordelen van DiLoCo dan eerder gedocumenteerd, waaronder grotere optimale batchgroottes, verbeterde downstream-generalizatie met schaal, en verbeterde evaluatiewinst voor een vast tokenbudget.
Videogeneratie heeft een opmerkelijke vooruitgang geboekt met de komst van diepe generatieve modellen, met name diffusiemodellen. Hoewel bestaande methoden uitblinken in het genereren van hoogwaardige video's vanuit tekstprompts of enkele afbeeldingen, blijft gepersonaliseerde multi-subject videogeneratie een grotendeels onontgonnen uitdaging. Deze taak omvat het synthetiseren van video's die meerdere afzonderlijke onderwerpen bevatten, elk gedefinieerd door aparte referentieafbeeldingen, terwijl temporele en ruimtelijke consistentie wordt gewaarborgd. Huidige benaderingen zijn voornamelijk gebaseerd op het koppelen van onderwerpafbeeldingen aan trefwoorden in tekstprompts, wat ambiguïteit introduceert en hun vermogen om onderwerprelaties effectief te modelleren beperkt. In dit artikel stellen we CINEMA voor, een nieuw raamwerk voor coherente multi-subject videogeneratie door gebruik te maken van een Multimodaal Taalmodel op grote schaal (MLLM). Onze aanpak elimineert de noodzaak van expliciete correspondenties tussen onderwerpafbeeldingen en tekstentiteiten, waardoor ambiguïteit wordt verminderd en de annotatie-inspanning wordt verlaagd. Door MLLM te gebruiken om onderwerprelaties te interpreteren, vergemakkelijkt onze methode schaalbaarheid, waardoor het gebruik van grote en diverse datasets voor training mogelijk wordt. Bovendien kan ons raamwerk worden geconditioneerd op een variërend aantal onderwerpen, wat meer flexibiliteit biedt in gepersonaliseerde contentcreatie. Door middel van uitgebreide evaluaties tonen we aan dat onze aanpak de consistentie van onderwerpen en de algehele video-coherentie aanzienlijk verbetert, wat de weg vrijmaakt voor geavanceerde toepassingen in storytelling, interactieve media en gepersonaliseerde videogeneratie.
Dit artikel onderzoekt de haalbaarheid van het gebruik van tekst-naar-beeldmodellen in een zero-shot opzet om afbeeldingen te genereren voor taxonomische concepten. Hoewel tekstgebaseerde methoden voor taxonomieverrijking goed ingeburgerd zijn, blijft het potentieel van de visuele dimensie onontgonnen. Om dit aan te pakken, stellen we een uitgebreide benchmark voor voor Taxonomie Afbeelding Generatie die het vermogen van modellen beoordeelt om taxonomische concepten te begrijpen en relevante, hoogwaardige afbeeldingen te genereren. De benchmark omvat zowel alledaagse als willekeurig geselecteerde WordNet-concepten, naast de door LLM gegenereerde voorspellingen. De 12 modellen worden geëvalueerd aan de hand van 9 nieuwe taxonomiegerelateerde tekst-naar-beeld metrieken en menselijke feedback. Bovendien introduceren we het gebruik van paarsgewijze evaluatie met GPT-4 feedback voor beeldgeneratie. Experimentele resultaten tonen aan dat de rangschikking van modellen aanzienlijk verschilt van standaard T2I-taken. Playground-v2 en FLUX presteren consistent beter over alle metrieken en subsets, terwijl de op retrieval gebaseerde aanpak slecht presteert. Deze bevindingen benadrukken het potentieel voor het automatiseren van het samenstellen van gestructureerde databronnen.
Vision Language Models (VLMs) hebben aanzienlijk potentieel getoond in verschillende downstream taken, waaronder Beeld/Video Generatie, Visuele Vraag Beantwoording, Multimodale Chatbots en Video Begrip. Deze modellen hebben echter vaak moeite met eenvoudige beeldtransformaties. Dit artikel onderzoekt het beeldniveau-begrip van VLMs, specifiek CLIP van OpenAI en SigLIP van Google. Onze bevindingen tonen aan dat deze modellen geen begrip hebben van meerdere beeldniveau-augmentaties. Om dit onderzoek te faciliteren, hebben we een geaugmenteerde versie van de Flickr8k dataset gemaakt, waarbij elk beeld gekoppeld is aan een gedetailleerde beschrijving van de toegepaste transformatie. We onderzoeken verder hoe dit tekort downstream taken beïnvloedt, met name bij beeldbewerking, en evalueren de prestaties van state-of-the-art Image2Image modellen op eenvoudige transformaties.
Stijloverdracht houdt in dat de stijl van een referentiebeeld wordt overgedragen naar de inhoud van een doelbeeld. Recente vooruitgang in LoRA-gebaseerde (Low-Rank Adaptatie) methoden heeft veelbelovende resultaten laten zien in het effectief vastleggen van de stijl van een enkel beeld. Deze benaderingen kampen echter nog steeds met aanzienlijke uitdagingen, zoals inhoudsinconsistentie, stijlmisalignering en inhoudslekken. In dit artikel analyseren we uitgebreid de beperkingen van de standaard diffusie-parameterisatie, die leert om ruis te voorspellen, in de context van stijloverdracht. Om deze problemen aan te pakken, introduceren we ConsisLoRA, een LoRA-gebaseerde methode die zowel de inhouds- als stijlconsistentie verbetert door de LoRA-gewichten te optimaliseren om het originele beeld te voorspellen in plaats van ruis. We stellen ook een tweestaps trainingsstrategie voor die het leren van inhoud en stijl van het referentiebeeld ontkoppelt. Om zowel de globale structuur als de lokale details van het inhoudsbeeld effectief vast te leggen, introduceren we een stapsgewijze verliesovergangsstrategie. Daarnaast presenteren we een inferentiebegeleidingsmethode die continue controle over de sterkte van inhoud en stijl mogelijk maakt tijdens de inferentie. Door zowel kwalitatieve als kwantitatieve evaluaties toont onze methode aanzienlijke verbeteringen in inhouds- en stijlconsistentie aan, terwijl inhoudslekken effectief worden verminderd.
We introduceren ARPG, een nieuw visueel autoregressief model dat gerandomiseerde parallelle generatie mogelijk maakt, en daarmee de inherente beperkingen van conventionele rastervolgorde-benaderingen aanpakt, die de inferentie-efficiëntie en zero-shot generalisatie belemmeren vanwege hun sequentiële, vooraf bepaalde token-generatievolgorde. Onze belangrijkste inzicht is dat effectieve willekeurige-volgorde-modellering expliciete begeleiding vereist voor het bepalen van de positie van het volgende voorspelde token. Hiertoe stellen we een nieuw begeleid decodeerframework voor dat positionele begeleiding ontkoppelt van inhoudsrepresentatie, en deze afzonderlijk codeert als queries en key-value paren. Door deze begeleiding direct te integreren in het causale aandachtmechanisme, maakt onze aanpak volledig willekeurige-volgorde training en generatie mogelijk, waardoor de noodzaak voor bidirectionele aandacht wordt geëlimineerd. Hierdoor generaliseert ARPG gemakkelijk naar zero-shot taken zoals image inpainting, outpainting en resolutie-uitbreiding. Bovendien ondersteunt het parallelle inferentie door het gelijktijdig verwerken van meerdere queries met behulp van een gedeelde KV-cache. Op de ImageNet-1K 256 benchmark behaalt onze aanpak een FID van 1,94 met slechts 64 samplingstappen, wat een meer dan 20-voudige toename in doorvoersnelheid oplevert terwijl het geheugengebruik met meer dan 75% wordt verminderd in vergelijking met representatieve recente autoregressieve modellen van vergelijkbare schaal.
Geavanceerde generatieve modellen blinken uit in het synthetiseren van afbeeldingen, maar zijn vaak afhankelijk van tekstgebaseerde conditionering. Visuele ontwerpers werken echter vaak voorbij taal, waarbij ze direct inspiratie putten uit bestaande visuele elementen. In veel gevallen vertegenwoordigen deze elementen slechts fragmenten van een potentieel concept—zoals een uniek gestructureerde vleugel of een specifiek kapsel—die dienen als inspiratie voor de kunstenaar om te verkennen hoe deze creatief samengevoegd kunnen worden tot een coherent geheel. Met het oog op deze behoefte introduceren we een generatief raamwerk dat naadloos een gedeeltelijke set van door de gebruiker geleverde visuele componenten integreert in een coherente compositie, terwijl tegelijkertijd de ontbrekende delen worden gesamplet die nodig zijn om een plausibel en compleet concept te genereren. Onze aanpak bouwt voort op een krachtige en onderbenutte representatieruimte, geëxtraheerd uit IP-Adapter+, waarop we IP-Prior trainen, een lichtgewicht flow-matching model dat coherente composities synthetiseert op basis van domeinspecifieke priors, waardoor diverse en contextbewuste generaties mogelijk worden. Daarnaast presenteren we een LoRA-gebaseerde fine-tuning strategie die de promptnaleving in IP-Adapter+ voor een bepaalde taak aanzienlijk verbetert, waardoor de veelvoorkomende afweging tussen reconstructiekwaliteit en promptnaleving wordt aangepakt.
In dit artikel presenteren we een algemeen framework voor universele zero-shot doelgerichte navigatie. Bestaande zero-shot methoden bouwen een inferentiekader op basis van grote taalmodellen (LLM) voor specifieke taken, wat sterk verschilt in de algehele pipeline en niet generaliseert over verschillende soorten doelen. Met het oog op universele zero-shot navigatie stellen we een uniforme grafische representatie voor om verschillende doelen te verenigen, waaronder objectcategorieën, instantiebeelden en tekstbeschrijvingen. We zetten ook de observatie van de agent om in een online onderhouden scènegraph. Met deze consistente scène- en doelrepresentatie behouden we de meeste structurele informatie in vergelijking met pure tekst en kunnen we LLM inzetten voor expliciete grafische redenering. Specifiek voeren we grafische matching uit tussen de scènegraph en de doelgraph op elk tijdstip en stellen we verschillende strategieën voor om langetermijndoelen van exploratie te genereren op basis van verschillende matchingstatussen. De agent zoekt eerst iteratief naar subgraphs van het doel bij zero-matching. Bij gedeeltelijke matching gebruikt de agent vervolgens coördinaatprojectie en ankerpaaruitlijning om de doellocatie af te leiden. Ten slotte worden scènegraphcorrectie en doelverificatie toegepast voor perfecte matching. We introduceren ook een blacklistmechanisme om een robuuste overgang tussen fasen mogelijk te maken. Uitgebreide experimenten op verschillende benchmarks tonen aan dat onze UniGoal state-of-the-art zero-shot prestaties behaalt op drie bestudeerde navigatietaken met een enkel model, en zelfs task-specifieke zero-shot methoden en supervised universele methoden overtreft.
Automatische spraakherkenning (ASR)-modellen hebben aan populariteit gewonnen voor toepassingen zoals ondertiteling, spraakvertaling en live transcriptie. Dit artikel bestudeert Whisper en twee modelvarianten: één geoptimaliseerd voor live spraakstreaming en een andere voor offline transcriptie. Opmerkelijk is dat deze modellen hallucinaties kunnen genereren, wat de betrouwbaarheid van de transcriptie vermindert. Bovendien vertonen grotere modelvarianten een verhoogde latentie en vormen ze uitdagingen voor implementatie op apparaten met beperkte middelen. Deze studie analyseert de overeenkomsten en verschillen tussen drie Whisper-modellen, waarbij kwalitatief hun specifieke mogelijkheden worden onderzocht. Vervolgens kwantificeert deze studie de impact van modelkwantisatie op latentie en evalueert het de haalbaarheid voor implementatie aan de rand van het netwerk. Met behulp van de open-source LibriSpeech-dataset evalueert dit artikel de woordfoutratio (WER) samen met een latentieanalyse van whispercpp met behulp van drie kwantisatiemethoden (INT4, INT5, INT8). De resultaten tonen aan dat kwantisatie de latentie met 19\% vermindert en de modelgrootte met 45\% verkleint, terwijl de transcriptienauwkeurigheid behouden blijft. Deze bevindingen bieden inzicht in de optimale gebruiksscenario's van verschillende Whisper-modellen en de mogelijkheden voor implementatie op randapparaten. Alle code, datasets en implementatiedetails zijn beschikbaar in een openbare GitHub-repository: https://github.com/allisonandreyev/WhisperQuantization.git.
Vision Transformer-modellen vertonen enorme kracht, maar blijven ondoorzichtig voor menselijk begrip, wat uitdagingen en risico's met zich meebrengt voor praktische toepassingen. Hoewel eerder onderzoek heeft geprobeerd deze modellen te ontrafelen via input-attributie en neuronrolanalyse, is er een opvallende leemte geweest in het overwegen van laagniveau-informatie en het holistische pad van informatieoverdracht tussen lagen. In dit artikel onderzoeken we het belang van invloedrijke neuronpaden binnen vision Transformers, wat een pad van neuronen is van de modelinput naar de output dat de modelinferentie het meest significant beïnvloedt. We stellen eerst een gezamenlijke invloedsmaat voor om de bijdrage van een set neuronen aan het modelresultaat te beoordelen. Verder bieden we een laagprogressieve neuronlokalisatiebenadering die efficiënt de meest invloedrijke neuron in elke laag selecteert, in een poging het cruciale neuronpad van input naar output binnen het doelmodel te ontdekken. Onze experimenten tonen de superioriteit van onze methode aan bij het vinden van het meest invloedrijke neuronpad waarlangs de informatie stroomt, vergeleken met bestaande baseline-oplossingen. Daarnaast hebben de neuronpaden aangetoond dat vision Transformers een specifiek intern werkingsmechanisme vertonen voor het verwerken van visuele informatie binnen dezelfde beeldcategorie. We analyseren verder de sleuteleffecten van deze neuronen op de beeldclassificatietaak, wat aantoont dat de gevonden neuronpaden al de modelcapaciteit op downstreamtaken hebben behouden, wat ook inzicht kan bieden voor real-world toepassingen zoals modelpruning. De projectwebsite, inclusief implementatiecode, is beschikbaar op https://foundation-model-research.github.io/NeuronPath/.
Grote Taalmodellen (LLMs) dringen snel door in het leven van kinderen – via adoptie door ouders, scholen en peer-netwerken – maar het huidige onderzoek naar AI-ethiek en -veiligheid behandelt niet adequaat de inhoudelijke risico’s die specifiek zijn voor minderjarigen. In dit artikel belichten we deze hiaten met een real-world casestudy van een LLM-gebaseerde chatbot die werd ingezet in een middelbare school, waarbij wordt onthuld hoe leerlingen het systeem gebruikten en soms misbruikten. Op basis van deze bevindingen stellen we een nieuwe taxonomie voor van inhoudelijke risico’s voor minderjarigen en introduceren we MinorBench, een open-source benchmark ontworpen om LLM’s te evalueren op hun vermogen om onveilige of ongepaste vragen van kinderen te weigeren. We evalueren zes prominente LLM’s onder verschillende systeemprompts, waarbij aanzienlijke variabiliteit in hun naleving van kindveiligheid wordt aangetoond. Onze resultaten bieden praktische stappen voor robuustere, kindgerichte veiligheidsmechanismen en benadrukken de urgentie om AI-systemen aan te passen om jonge gebruikers te beschermen.
Ondanks veelbelovende prestaties van open-source grote visueel-taalmodelen (LVLMs), falen op overdracht gebaseerde gerichte aanvallen vaak tegen black-box commerciële LVLMs. Analyse van mislukte adversariële perturbaties laat zien dat de geleerde perturbaties meestal afkomstig zijn uit een uniforme verdeling en duidelijke semantische details missen, wat resulteert in onbedoelde reacties. Dit kritieke gebrek aan semantische informatie zorgt ervoor dat commerciële LVLMs de perturbatie ofwel volledig negeren of de ingebedde semantiek verkeerd interpreteren, waardoor de aanval mislukt. Om deze problemen te overwinnen, merken we op dat het identificeren van kernsemantische objecten een belangrijk doel is voor modellen die getraind zijn met verschillende datasets en methodologieën. Dit inzicht motiveert onze aanpak die de semantische duidelijkheid verfijnt door expliciete semantische details te coderen binnen lokale regio's, waardoor interoperabiliteit wordt gegarandeerd en fijnmazigere kenmerken worden vastgelegd, en door wijzigingen te concentreren op semantisch rijke gebieden in plaats van ze uniform toe te passen. Om dit te bereiken, stellen we een eenvoudige maar zeer effectieve oplossing voor: bij elke optimalisatiestap wordt de adversariële afbeelding willekeurig bijgesneden met een gecontroleerde aspectverhouding en schaal, herschaald en vervolgens uitgelijnd met de doelafbeelding in de embeddingruimte. Experimentele resultaten bevestigen onze hypothese. Onze adversariële voorbeelden, gemaakt met lokaal-geaggregeerde perturbaties gericht op cruciale regio's, vertonen verrassend goede overdraagbaarheid naar commerciële LVLMs, waaronder GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, en zelfs redeneermodellen zoals o1, Claude-3.7-thinking en Gemini-2.0-flash-thinking. Onze aanpak behaalt slagingspercentages van meer dan 90% op GPT-4.5, 4o en o1, wat aanzienlijk beter is dan alle voorgaande state-of-the-art aanvalsmethoden. Onze geoptimaliseerde adversariële voorbeelden onder verschillende configuraties en trainingscode zijn beschikbaar op https://github.com/VILA-Lab/M-Attack.
Object Hallucination (OH) wordt erkend als een van de belangrijkste betrouwbaarheidsuitdagingen in Large Vision-Language Models (LVLMs). Recente vooruitgang in Large Language Models (LLMs) suggereert dat interne toestanden, zoals verborgen toestanden, de "algemene waarheidsgetrouwheid" van gegenereerde antwoorden coderen. Het blijft echter onderbelicht hoe interne toestanden in LVLMs functioneren en of ze kunnen dienen als "per-token" hallucinatie-indicatoren, wat essentieel is voor het verminderen van OH. In dit artikel voeren we eerst een diepgaande verkenning uit van LVLM-interne toestanden in relatie tot OH-problemen en ontdekken dat (1) LVLM-interne toestanden hooggespecificeerde per-token indicatoren zijn van hallucinatiegedrag. Bovendien (2) coderen verschillende LVLMs universele patronen van hallucinaties in gemeenschappelijke latente deelruimten, wat aangeeft dat er "generieke waarheidsgetrouwe richtingen" bestaan die worden gedeeld door verschillende LVLMs. Op basis van deze ontdekkingen stellen we Truthful-Guided Pre-Intervention (TruthPrInt) voor, dat eerst de waarheidsgetrouwe richting van LVLM-decodering leert en vervolgens waarheidsgetrouwe begeleide interventie tijdens de inferentietijd toepast tijdens de LVLM-decodering. We stellen verder ComnHallu voor om zowel de overdraagbaarheid van hallucinatiedetectie tussen LVLMs als tussen data te verbeteren door hallucinatie latente deelruimten te construeren en uit te lijnen. We evalueren TruthPrInt in uitgebreide experimentele settings, inclusief in-domein en out-of-domein scenario's, over populaire LVLMs en OH-benchmarks. Experimentele resultaten tonen aan dat TruthPrInt aanzienlijk beter presteert dan state-of-the-art methoden. Codes zullen beschikbaar zijn op https://github.com/jinhaoduan/TruthPrInt.
Toxiciteit in discussies over bugrapporten vormt aanzienlijke uitdagingen voor de samenwerkingsdynamiek in open-source softwareontwikkeling. Bugrapporten zijn cruciaal voor het identificeren en oplossen van defecten, maar hun inherent probleemgerichte aard en emotioneel geladen context maken ze vatbaar voor giftige interacties. Deze studie onderzoekt toxiciteit in GitHub-bugrapporten door middel van een kwalitatieve analyse van 203 bugdiscussies, waaronder 81 giftige. Onze bevindingen tonen aan dat toxiciteit vaak ontstaat door verkeerde inschattingen van de ernst en prioriteit van bugs, onopgeloste frustraties met tools en tekortkomingen in professionele communicatie. Deze giftige interacties leiden niet alleen productieve discussies af, maar verminderen ook de kans op bruikbare resultaten, zoals het koppelen van issues aan pull-requests. Onze voorlopige bevindingen bieden praktische aanbevelingen om de bugoplossing te verbeteren door toxiciteit te verminderen.
Minibatch optimaal transportkoppeling vereenvoudigt paden in onvoorwaardelijke flow matching. Dit leidt tot minder rekenintensieve inferentie, omdat er minder integratiestappen en minder complexe numerieke oplossers nodig zijn bij het numeriek oplossen van een gewone differentiaalvergelijking tijdens testtijd. In de voorwaardelijke setting schiet minibatch optimaal transport echter tekort. Dit komt doordat de standaard optimale transporttoewijzing geen rekening houdt met voorwaarden, wat resulteert in een voorwaardelijk scheve priorverdeling tijdens de training. Tijdens testtijd hebben we echter geen toegang tot deze scheve prior, maar nemen we steekproeven uit de volledige, onbevooroordeelde priorverdeling. Deze kloof tussen training en testen leidt tot een ondermaatse prestaties. Om deze kloof te overbruggen, stellen we voorwaardelijk optimaal transport C^2OT voor, dat een voorwaardelijke wegingsterm toevoegt aan de kostenmatrix bij het berekenen van de optimale transporttoewijzing. Experimenten tonen aan dat deze eenvoudige aanpassing werkt met zowel discrete als continue voorwaarden in 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 en ImageNet-256x256. Onze methode presteert over het algemeen beter in vergelijking met de bestaande baseline-methoden bij verschillende functie-evaluatiebudgetten. Code is beschikbaar op https://hkchengrex.github.io/C2OT.
We introduceren PerCoV2, een nieuw en open ultra-laag bitrate perceptueel beeldcompressiesysteem dat is ontworpen voor toepassingen met beperkte bandbreedte en opslag. Voortbouwend op eerder werk van Careil et al., breidt PerCoV2 de oorspronkelijke formulering uit naar het Stable Diffusion 3-ecosysteem en verbetert het de efficiëntie van entropiecodering door expliciet de discrete hyper-latente beeldverdeling te modelleren. Hiertoe voeren we een uitgebreide vergelijking uit van recente autoregressieve methoden (VAR en MaskGIT) voor entropiemodellering en evalueren we onze aanpak op de grootschalige MSCOCO-30k benchmark. In vergelijking met eerder werk behaalt PerCoV2 (i) een hogere beeldgetrouwheid bij nog lagere bitrates terwijl het concurrerende perceptuele kwaliteit behoudt, (ii) beschikt het over een hybride generatiemodus voor verdere bitratebesparingen, en (iii) is het uitsluitend gebouwd op publieke componenten. Code en getrainde modellen zullen worden vrijgegeven op https://github.com/Nikolai10/PerCoV2.
Dit artikel introduceert PoseLess, een nieuw framework voor robot-handbesturing dat de noodzaak voor expliciete pose-schatting elimineert door direct 2D-beelden naar gewrichtshoeken te mappen met behulp van geprojecteerde representaties. Onze aanpak maakt gebruik van synthetische trainingsgegevens die gegenereerd zijn via gerandomiseerde gewrichtsconfiguraties, wat zero-shot generalisatie naar real-world scenario's en cross-morfologie overdracht van robot- naar menselijke handen mogelijk maakt. Door visuele invoer te projecteren en een transformer-gebaseerde decoder te gebruiken, bereikt PoseLess robuuste, lage-latency besturing terwijl het uitdagingen zoals diepte-ambiguïteit en dataschaarste aanpakt. Experimentele resultaten tonen competitieve prestaties in de nauwkeurigheid van gewrichtshoekvoorspelling zonder gebruik te maken van enig door mensen gelabelde dataset.
Classifier-free guidance is uitgegroeid tot een standaardtechniek voor conditionele generatie met denoising-diffusiemodellen. Echter ontbreekt er nog steeds een diepgaand begrip van classifier-free guidance. In dit werk voeren we een empirische studie uit om een nieuw perspectief te bieden op classifier-free guidance. Concreet gaan we, in plaats van ons uitsluitend te richten op classifier-free guidance, terug naar de oorsprong, namelijk classifier guidance, identificeren de belangrijkste aanname voor de afleiding, en voeren een systematische studie uit om de rol van de classifier te begrijpen. We ontdekken dat zowel classifier guidance als classifier-free guidance conditionele generatie bereiken door de denoising-diffusietrajecten weg te duwen van beslissingsgrenzen, d.w.z. gebieden waar conditionele informatie meestal verstrengeld is en moeilijk te leren is. Op basis van dit classifier-gerichte begrip stellen we een generieke nabewerkingsstap voor, gebaseerd op flow-matching, om de kloof tussen de geleerde distributie van een voorgetraind denoising-diffusiemodel en de echte datadistributie te verkleinen, voornamelijk rond de beslissingsgrenzen. Experimenten op diverse datasets bevestigen de effectiviteit van de voorgestelde aanpak.