Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Met de release van het o1-model door OpenAI zijn redeneermodellen die langzame denkstrategieën toepassen geleidelijk aan opgekomen. Omdat de reacties die door dergelijke modellen worden gegenereerd vaak complexe redeneringen, tussenstappen en zelfreflectie bevatten, zijn bestaande evaluatiemethoden vaak ontoereikend. Ze hebben moeite om te bepalen of de LLM-uitvoer daadwerkelijk equivalent is aan het referentieantwoord, en hebben ook moeite om het uiteindelijke antwoord te identificeren en te extraheren uit lange, complexe reacties. Om dit probleem aan te pakken, stellen we xVerify voor, een efficiënte antwoordverifier voor de evaluatie van redeneermodellen. xVerify toont een sterke capaciteit in equivalentiebeoordeling, waardoor het effectief kan bepalen of de antwoorden die door redeneermodellen worden geproduceerd equivalent zijn aan referentieantwoorden voor verschillende soorten objectieve vragen. Om xVerify te trainen en te evalueren, construeren we de VAR-dataset door vraag-antwoordparen te verzamelen die gegenereerd zijn door meerdere LLM's over verschillende datasets, waarbij gebruik wordt gemaakt van meerdere redeneermodellen en uitdagende evaluatiesets die specifiek zijn ontworpen voor de beoordeling van redeneermodellen. Een meerronde annotatieproces wordt gebruikt om de nauwkeurigheid van de labels te waarborgen. Op basis van de VAR-dataset trainen we meerdere xVerify-modellen van verschillende schalen. In evaluatie-experimenten die zijn uitgevoerd op zowel de testset als de generalisatieset, behalen alle xVerify-modellen overall F1-scores en nauwkeurigheid van meer dan 95%. Opmerkelijk is dat de kleinste variant, xVerify-0.5B-I, alle evaluatiemethoden overtreft behalve GPT-4o, terwijl xVerify-3B-Ib GPT-4o overtreft in overall prestaties. Deze resultaten valideren de effectiviteit en generaliseerbaarheid van xVerify.
We presenteren Seedream 3.0, een hoogwaardig Chinees-Engels tweetalig basismodel voor beeldgeneratie. We hebben verschillende technische verbeteringen ontwikkeld om bestaande uitdagingen in Seedream 2.0 aan te pakken, waaronder afstemming op complexe prompts, fijnmazige typografiegeneratie, suboptimale visuele esthetiek en trouw, en beperkte beeldresoluties. Specifiek zijn de vooruitgangen van Seedream 3.0 het resultaat van verbeteringen in de gehele pijplijn, van dataconstructie tot modelimplementatie. Op het dataniveau verdubbelen we de dataset met behulp van een defectbewust trainingsparadigma en een dual-axis collaboratief data-sampling framework. Bovendien passen we verschillende effectieve technieken toe, zoals mixed-resolution training, cross-modality RoPE, representation alignment loss, en resolution-aware timestep sampling in de pre-trainingsfase. Tijdens de post-trainingsfase maken we gebruik van gediversifieerde esthetische bijschriften in SFT, en een VLM-gebaseerd beloningsmodel met schaling, waardoor uitvoeringen worden bereikt die goed aansluiten bij menselijke voorkeuren. Daarnaast introduceert Seedream 3.0 een nieuw versnellingsparadigma. Door consistente ruisverwachting en importance-aware timestep sampling toe te passen, bereiken we een versnelling van 4 tot 8 keer terwijl de beeldkwaliteit behouden blijft. Seedream 3.0 toont significante verbeteringen ten opzichte van Seedream 2.0: het versterkt de algehele capaciteiten, met name voor tekstweergave in complexe Chinese karakters, wat belangrijk is voor professionele typografiegeneratie. Daarnaast biedt het native hoge-resolutie uitvoer (tot 2K), waardoor het beelden met hoge visuele kwaliteit kan genereren.
Het bevorderen van de redeneervaardigheden van LLM's heeft brede interesse gewekt. Huidige technieken na de training zijn echter sterk afhankelijk van toezichtsignalen, zoals uitkomstsupervisie of aanvullende beloningsmodellen, die te maken hebben met problemen van schaalbaarheid en hoge annotatiekosten. Dit motiveert ons om de redeneervaardigheden van LLM's te verbeteren zonder de noodzaak van externe supervisie. We introduceren een generaliseerbaar en volledig ongesuperviseerd zelf-trainingsframework, genaamd Genius. Zonder externe hulpmiddelen moet Genius de optimale responssequentie stap voor stap zoeken en de LLM optimaliseren. Om de mogelijke stappen te verkennen en de optimale te benutten, introduceert Genius een stapsgewijze vooruitziende her-bemonsteringsstrategie om stappen te bemonsteren en de stapwaarde te schatten door toekomstige uitkomsten te simuleren. Verder erkennen we dat de ongesuperviseerde setting onvermijdelijk intrinsieke ruis en onzekerheid met zich meebrengt. Om een robuuste optimalisatie te bieden, stellen we een voordeel-gekalibreerde optimalisatie (ACO) verliesfunctie voor om schattingsinconsistenties te verminderen. Door deze technieken te combineren, biedt Genius een geavanceerde eerste stap naar zelfverbetering van LLM-redenering met algemene queries en zonder supervisie, wat de schaalwetten van redenering revolutioneert gezien de enorme beschikbaarheid van algemene queries. De code zal worden vrijgegeven op https://github.com/xufangzhi/Genius.
Naarmate het na-trainen van grote taalmodellen (LLM's) vordert van instructievolging naar complexe redeneertaken, blijft het begrip van hoe verschillende gegevens de finetuning-dynamiek beïnvloeden grotendeels onontgonnen. In dit artikel presenteren we een spectrale analyse van laaggewijze gradiënten die worden geïnduceerd door instructie- en redeneergegevens van lage/hoge kwaliteit voor het na-trainen van LLM's. Onze analyse onthult dat veel bestudeerde metrieken voor gegevensevaluatie, zoals IFD, InsTag, Moeilijkheid en Beloning, kunnen worden verklaard en verenigd door spectrale eigenschappen die worden berekend uit de singuliere waardeontbinding (SVD) van gradiënten. Specifiek worden gegevens van hogere kwaliteit meestal geassocieerd met lagere nucleaire normen en hogere effectieve rangen. Opmerkelijk is dat de effectieve rang betere robuustheid en resolutie vertoont dan de nucleaire norm bij het vastleggen van subtiele kwaliteitsverschillen. Zo bereiken redeneergegevens aanzienlijk hogere effectieve rangen dan instructiegegevens, wat wijst op rijkere gradiëntstructuren bij complexere taken. Onze experimenten benadrukken ook dat modellen binnen dezelfde familie vergelijkbare gradiëntpatronen delen, ongeacht hun grootte, terwijl verschillende modelfamilies aanzienlijk divergeren. Door een verenigd perspectief te bieden op de effecten van gegevenskwaliteit over instructie- en redeneergegevens, belicht dit werk de wisselwerking tussen gegevenskwaliteit en trainstabiliteit, en werpt het nieuw licht op het ontwikkelen van betere gegevensverkenningsstrategieën voor na-trainen.
Een AI-systeem kan kennis alleen creëren en behouden voor zover het die kennis zelf kan verifiëren. Recent onderzoek naar lange Chain-of-Thought-redeneringen heeft het grote potentieel van LLM's aangetoond bij het oplossen van competitieve problemen, maar hun verificatievermogen blijft zwak en is nog onvoldoende onderzocht. In dit artikel introduceren we Heimdall, de lange CoT-verificatie-LLM die de juistheid van oplossingen nauwkeurig kan beoordelen. Met puur reinforcement learning verhogen we de verificatienauwkeurigheid van 62,5% naar 94,5% bij competitieve wiskundeproblemen. Door schaling met herhaalde steekproeven neemt de nauwkeurigheid verder toe tot 97,5%. Door middel van menselijke evaluatie toont Heimdall indrukwekkende generalisatiecapaciteiten, waarbij het de meeste problemen in uitdagende wiskundebewijzen succesvol detecteert, een type dat niet tijdens de training is opgenomen. Bovendien stellen we Pessimistische Verificatie voor om de functionaliteit van Heimdall uit te breiden naar het opschalen van probleemoplossing. Het roept Heimdall op om de oplossingen van een oplossingsmodel te beoordelen en selecteert op basis van het pessimistische principe de meest waarschijnlijk correcte oplossing met de minste onzekerheid. Met DeepSeek-R1-Distill-Qwen-32B als oplossingsmodel verbetert Pessimistische Verificatie de oplossingsnauwkeurigheid op AIME2025 van 54,2% naar 70,0% met een 16x rekenbudget en naar 83,3% met meer rekenbudget. Met het sterkere oplossingsmodel Gemini 2.5 Pro bereikt de score 93,0%. Ten slotte prototypen we een automatisch kennisontdekkingssysteem, een ternair systeem waarbij één component vragen stelt, een ander oplossingen biedt en de derde de oplossingen verifieert. Met behulp van de datasynthese NuminaMath voor de eerste twee componenten identificeert Heimdall effectief problematische records binnen de dataset en onthult dat bijna de helft van de data gebreken vertoont, wat interessant genoeg overeenkomt met recente ablatiestudies van NuminaMath.
TextArena is een open-source verzameling van competitieve tekstgebaseerde spellen voor het trainen en evalueren van agentgedrag in Large Language Models (LLM's). Het omvat meer dan 57 unieke omgevingen (inclusief singleplayer, tweespeler en multiplayer-opstellingen) en maakt eenvoudige evaluatie van modelcapaciteiten mogelijk via een online speelsysteem (tegen mensen en andere ingediende modellen) met real-time TrueSkill-scores. Traditionele benchmarks beoordelen zelden dynamische sociale vaardigheden zoals onderhandeling, theory of mind en misleiding, wat een gat creëert dat TextArena opvult. Ontworpen met onderzoek, gemeenschap en uitbreidbaarheid in gedachten, benadrukt TextArena het gemak van het toevoegen van nieuwe spellen, het aanpassen van het framework, het testen van modellen, het spelen tegen de modellen en het trainen van modellen. Gedetailleerde documentatie van omgevingen, spellen, leaderboards en voorbeelden is beschikbaar op https://github.com/LeonGuertler/TextArena en https://www.textarena.ai/.
Multimodale Large Language Models (MLLMs) behalen opmerkelijke prestaties voor fijnmazige, pixelgebaseerde begripstaken. Echter, alle bestaande werken zijn sterk afhankelijk van extra componenten, zoals een vision encoder (CLIP) en segmentatie-experts, wat leidt tot een hoge systeemcomplexiteit en de schaalbaarheid van het model beperkt. In dit werk is ons doel om een sterk vereenvoudigde MLLM te verkennen zonder extra componenten te introduceren. Ons werk is geïnspireerd door recente onderzoeken naar het ontwerp van een Single trAnsformer als een geïntegreerd vIsion-Language Model (SAIL), waarbij deze werken visuele tokens en teksttokens gezamenlijk leren in transformers. Wij presenteren Pixel-SAIL, een enkele transformer voor pixelgebaseerde MLLM-taken. In het bijzonder presenteren we drie technische verbeteringen ten opzichte van de standaard baseline. Ten eerste ontwerpen we een leerbare upsampling-module om visuele tokenfeatures te verfijnen. Ten tweede stellen we een nieuwe strategie voor visuele promptinjectie voor, waardoor de enkele transformer visuele promptinputs kan begrijpen en profiteert van de vroege fusie van visuele prompt-embeddings en visuele tokens. Ten derde introduceren we een strategie voor vision expert-distillatie om de fijnmazige feature-extractiecapaciteit van de enkele transformer efficiënt te verbeteren. Daarnaast hebben we een uitgebreide benchmark voor pixelbegrip (PerBench) samengesteld, waarbij een handmatige controle is toegepast. Deze omvat drie taken: gedetailleerde objectbeschrijving, visuele prompt-gebaseerde vraagbeantwoording en visueel-tekstuele verwijzende segmentatie. Uitgebreide experimenten op vier verwijzende segmentatiebenchmarks, één visuele prompt-benchmark en onze PerBench laten zien dat onze Pixel-SAIL vergelijkbare of zelfs betere resultaten behaalt met een veel eenvoudiger pipeline. Code en model zullen worden vrijgegeven op https://github.com/magic-research/Sa2VA.
Oppervlaktenormaalschatting vormt een hoeksteen voor een breed scala aan computervisietoepassingen. Hoewel veel inspanningen zijn gericht op statische beeldscenario's, blijft het waarborgen van temporele coherentie in video-gebaseerde normaalschatting een aanzienlijke uitdaging. In plaats van simpelweg bestaande methoden aan te vullen met temporele componenten, presenteren we NormalCrafter om gebruik te maken van de inherente temporele voorkennis van videodiffusiemodellen. Om hoogwaardige normaalschatting over sequenties te garanderen, stellen we Semantische Feature Regularisatie (SFR) voor, die diffusiekenmerken uitlijnt met semantische aanwijzingen, waardoor het model wordt aangemoedigd zich te concentreren op de intrinsieke semantiek van de scène. Bovendien introduceren we een tweefasen trainingsprotocol dat zowel latent als pixelruimte leren benut om ruimtelijke nauwkeurigheid te behouden terwijl langdurige temporele context wordt gehandhaafd. Uitgebreide evaluaties tonen de effectiviteit van onze methode aan, waarbij een superieure prestaties wordt getoond in het genereren van temporeel consistente normaalsequenties met gedetailleerde details uit diverse video's.
Reinforcement learning (RL) is een overheersende benadering geworden voor het finetunen van grote taalmodelen (LLMs) op complexe redeneertaken. Onder recente methodes springt GRPO eruit vanwege zijn empirische succes bij het trainen van modellen zoals DeepSeek-R1, maar de bronnen van zijn effectiviteit blijven slecht begrepen. In dit werk bekijken we GRPO opnieuw vanuit het perspectief van een reinforce-achtig algoritme en analyseren we de kerncomponenten. Verrassend genoeg ontdekken we dat een eenvoudige baseline voor rejection sampling, RAFT, die alleen traint op positief beloonde samples, competitieve prestaties levert in vergelijking met GRPO en PPO. Onze ablatiestudies onthullen dat het belangrijkste voordeel van GRPO voortkomt uit het weggooien van prompts met volledig incorrecte antwoorden, in plaats van uit zijn beloningsnormalisatie. Gemotiveerd door dit inzicht stellen we Reinforce-Rej voor, een minimale uitbreiding van policy gradient die zowel volledig incorrecte als volledig correcte samples filtert. Reinforce-Rej verbetert de KL-efficiëntie en stabiliteit, en dient als een lichtgewicht maar effectief alternatief voor complexere RL-algoritmen. We pleiten voor RAFT als een robuuste en interpreteerbare baseline, en suggereren dat toekomstige vooruitgang zich moet richten op meer principiële ontwerpen voor het incorporeren van negatieve samples, in plaats van er ongericht op te vertrouwen. Onze bevindingen bieden richtlijnen voor toekomstig werk in beloningsgebaseerde post-training van LLMs.
Omdat grote taalmodelen duur zijn om te pretrainen op verschillende datasets, is het gebruik van kleinschalige experimenten om beslissingen over data te nemen cruciaal om kosten te verlagen. Welke benchmarks en methoden om beslissingen te nemen op basis van waargenomen prestaties op kleine schaal voorspellen het meest nauwkeurig de datasets die de beste grote modellen opleveren? Om open verkenning van deze vraag mogelijk te maken, geven we modellen, data en evaluaties vrij in DataDecide — de meest uitgebreide open suite van modellen met verschillen in data en schaal. We voeren gecontroleerde pretrainingsexperimenten uit over 25 corpora met verschillende bronnen, deduplicatie en filtering tot 100B tokens, modelgroottes tot 1B parameters en 3 willekeurige seeds. We ontdekken dat de rangschikking van modellen op een enkele, kleine grootte (bijv. 150M parameters) een sterke basislijn is voor het voorspellen van de beste modellen op onze grotere doelschaal (1B) (~80% van de vergelijkingen correct). Geen van de 8 baseline-methoden voor schaalwetten overtreft de compute-beslissingsgrens van voorspellingen op één schaal, maar DataDecide kan verbeteringen in toekomstige schaalwetten meten. We identificeren ook dat het gebruik van continue waarschijnlijkheidsmetrieken als proxies in kleine experimenten benchmarks zoals MMLU, ARC, HellaSwag, MBPP en HumanEval voor meer dan 80% voorspelbaar maakt op de doelgrootte van 1B met slechts 0,01% van de benodigde rekenkracht.
Redeneermodellen hebben opmerkelijke vooruitgang geboekt bij het oplossen van complexe en logica-intensieve taken door uitgebreide Chain-of-Thoughts (CoTs) te genereren voordat een definitief antwoord wordt gegeven. Echter, de opkomst van dit "langzaam-denken"-paradigma, waarbij talrijke tokens sequentieel worden gegenereerd, introduceert onvermijdelijk aanzienlijke rekenkosten. Dit benadrukt de dringende behoefte aan effectieve versnelling. Dit overzicht heeft als doel een uitgebreid beeld te geven van recente ontwikkelingen op het gebied van efficiënt redeneren. Het categoriseert bestaande werken in drie belangrijke richtingen: (1) korter - het comprimeren van lange CoTs tot beknopte maar effectieve redeneerketens; (2) kleiner - het ontwikkelen van compacte taalmodelen met sterke redeneervaardigheden door technieken zoals kennisdistillatie, andere modelcompressietechnieken en reinforcement learning; en (3) sneller - het ontwerpen van efficiënte decodeerstrategieën om de inferentie te versnellen. Een geselecteerde verzameling van artikelen die in dit overzicht worden besproken, is beschikbaar in onze GitHub-repository.
Retrieval-Augmented Generation (RAG) verbetert de prestaties van Large Language Models (LLM) bij kennisintensieve taken, maar is sterk afhankelijk van de kwaliteit van de initiële zoekopdracht. Huidige methoden, die vaak Reinforcement Learning (RL) gebruiken, richten zich doorgaans op het formuleren van zoekopdrachten of het redeneren over resultaten, zonder expliciet doorzettingsvermogen na een mislukte zoekpoging aan te moedigen. Wij introduceren ReZero (Retry-Zero), een nieuw RL-framework dat het opnieuw proberen van een zoekopdracht na een aanvankelijk mislukte poging direct beloont. Dit stimuleert de LLM om alternatieve zoekopdrachten te verkennen in plaats van voortijdig te stoppen. ReZero toont een aanzienlijke verbetering, met een nauwkeurigheid van 46,88% vergeleken met een baseline van 25%. Door doorzettingsvermogen te belonen, verhoogt ReZero de robuustheid van LLM in complexe informatiezoek-scenario's waarin initiële zoekopdrachten mogelijk onvoldoende blijken.
Dit artikel introduceert SAIL, een enkele transformer-gebaseerde unificatie van een multimodale grote taalmodellering (MLLM) die ruwe pixelcodering en taaldecodering integreert binnen een enkele architectuur. In tegenstelling tot bestaande modulaire MLLM's, die afhankelijk zijn van een vooraf getrainde vision transformer (ViT), elimineert SAIL de noodzaak van een aparte vision-encoder, wat resulteert in een minimalistischere architectuur. In plaats van nieuwe architectuurcomponenten te introduceren, past SAIL mix-attention-mechanismen en multimodale positionele coderingen aan om beter aan te sluiten bij de verschillende kenmerken van visuele en tekstuele modaliteiten. We vergelijken systematisch de eigenschappen van SAIL - waaronder schaalbaarheid, patronen van kruismodale informatieoverdracht en visuele representatiecapaciteiten - met die van modulaire MLLM's. Door zowel de trainingsdata als de modelgrootte te schalen, bereikt SAIL prestaties die vergelijkbaar zijn met modulaire MLLM's. Opmerkelijk is dat het verwijderen van vooraf getrainde ViT-componenten de schaalbaarheid van SAIL verbetert en resulteert in aanzienlijk verschillende patronen van kruismodale informatieoverdracht. Bovendien toont SAIL sterke visuele representatiecapaciteiten, met resultaten die vergelijkbaar zijn met ViT-22B in visuele taken zoals semantische segmentatie. Code en modellen zijn beschikbaar op https://github.com/bytedance/SAIL.
Dit werk presenteert SimpleAR, een standaard autoregressief raamwerk voor visuele generatie zonder complexe architectuurwijzigingen. Door zorgvuldige exploratie van trainings- en inferentieoptimalisatie tonen we aan dat: 1) met slechts 0,5B parameters ons model afbeeldingen met een resolutie van 1024x1024 kan genereren met hoge kwaliteit, en competitieve resultaten behaalt op uitdagende tekst-naar-afbeelding benchmarks, bijvoorbeeld 0,59 op GenEval en 79,66 op DPG; 2) zowel supervised fine-tuning (SFT) als Group Relative Policy Optimization (GRPO) training kunnen leiden tot significante verbeteringen in generatie-esthetiek en promptafstemming; en 3) wanneer geoptimaliseerd met inferentieversnellings-technieken zoals vLLM, kan de tijd die SimpleAR nodig heeft om een 1024x1024 afbeelding te genereren worden teruggebracht tot ongeveer 14 seconden. Door deze bevindingen te delen en de code openbaar te maken, hopen we het potentieel van autoregressieve visuele generatie te onthullen en meer deelname aan dit onderzoeksveld te stimuleren. De code is beschikbaar op https://github.com/wdrink/SimpleAR.
Het vermogen voor complex wiskundig redeneren is een belangrijke maatstaf voor kunstmatige intelligentie. Hoewel reinforcement learning (RL) toegepast op LLM's veelbelovend is, wordt de vooruitgang aanzienlijk belemmerd door het gebrek aan grootschalige trainingsdata die voldoende uitdagend is, verifieerbare antwoordformaten heeft die geschikt zijn voor RL, en vrij is van contaminatie met evaluatiebenchmarks. Om deze beperkingen aan te pakken, introduceren we DeepMath-103K, een nieuwe, grootschalige dataset bestaande uit ongeveer 103K wiskundige problemen, specifiek ontworpen om geavanceerde redeneermodellen te trainen via RL. DeepMath-103K is samengesteld via een rigoureus proces dat bronanalyse, strikte decontaminatie tegen talrijke benchmarks, en filtering voor hoge moeilijkheidsgraad (voornamelijk niveaus 5-9) omvat, wat de uitdaging aanzienlijk overstijgt van bestaande open bronnen. Elk probleem bevat een verifieerbaar eindantwoord, waardoor regelgebaseerde RL mogelijk is, en drie verschillende R1-gegenereerde oplossingen die geschikt zijn voor diverse trainingsparadigma's zoals supervised fine-tuning of distillatie. Met een breed scala aan wiskundige onderwerpen bevordert DeepMath-103K de ontwikkeling van generaliseerbaar redeneren. We tonen aan dat modellen getraind op DeepMath-103K aanzienlijke verbeteringen laten zien op uitdagende wiskundige benchmarks, wat de effectiviteit ervan valideert. We maken DeepMath-103K publiekelijk beschikbaar om de voortgang van de gemeenschap te faciliteren in het bouwen van krachtigere AI-redeneersystemen: https://github.com/zwhe99/DeepMath.
Process Reward Models (PRMs) bieden stap-voor-stap supervisie aan grote taalmodellen (LLMs), maar het opschalen van de annotatie van trainingsdata blijft een uitdaging voor zowel mensen als LLMs. Om deze beperking aan te pakken, stellen we een actief leren-benadering voor, ActPRM, die proactief de meest onzekere samples selecteert voor training, waardoor de labelkosten aanzienlijk worden verlaagd. Tijdens de training gebruiken we de PRM om onzekerheid te schatten na de forward pass, waarbij alleen zeer onzekere data behouden blijft. Een krachtig maar kostbaar redeneermodel labelt vervolgens deze data. Daarna berekenen we het verlies ten opzichte van de labels en updaten we de gewichten van de PRM. We vergelijken ActPRM met standaard fine-tuning in een pool-gebaseerde actief leren-setting, en laten zien dat ActPRM 50% van de annotatie reduceert, maar vergelijkbare of zelfs betere prestaties behaalt. Naast annotatie-efficiëntie, verbeteren we de actief getrainde PRM verder door meer dan 1M+ wiskundige redeneertrajecten te filteren met ActPRM, waarbij 60% van de data behouden blijft. Een daaropvolgende training op deze geselecteerde dataset resulteert in een nieuwe state-of-the-art (SOTA) PRM op ProcessBench (75.0%) en PRMBench (65.5%) vergeleken met modellen van dezelfde grootte.
Diffusiemodellen blinken uit in het genereren van hoogdimensionale data, maar blijven achter in trainings efficiëntie en representatiekwaliteit in vergelijking met zelfsupervisie methoden. We identificeren een belangrijk knelpunt: het onderbenutten van hoogwaardige, semantisch rijke representaties tijdens de training vertraagt de convergentie aanzienlijk. Onze systematische analyse onthult een kritieke representatieverwerkingsregio – voornamelijk in de vroege lagen – waar semantisch en structureel patroonleren plaatsvindt voordat generatie kan optreden. Om dit aan te pakken, stellen we Embedded Representation Warmup (ERW) voor, een plug-and-play framework waarin in de eerste fase de ERW-module dient als een opwarmfase die de vroege lagen van het diffusiemodel initialiseert met hoogwaardige, voorgetrainde representaties. Deze opwarmfase minimaliseert de last van het leren van representaties vanaf nul, waardoor convergentie wordt versneld en prestaties worden verbeterd. Onze theoretische analyse toont aan dat de effectiviteit van ERW afhangt van de precieze integratie in specifieke neurale netwerklagen – de representatieverwerkingsregio genoemd – waar het model voornamelijk feature-representaties verwerkt en transformeert voor latere generatie. We stellen verder vast dat ERW niet alleen de trainingsconvergentie versnelt, maar ook de representatiekwaliteit verbetert: empirisch bereikt onze methode een 40-voudige versnelling in trainingssnelheid vergeleken met REPA, de huidige state-of-the-art methoden. Code is beschikbaar op https://github.com/LINs-lab/ERW.
Diffusiemodellen staan algemeen bekend om hun vermogen om hoogwaardige afbeeldingen te genereren. Ondanks de uitstekende prestaties en schaalbaarheid van de Diffusion Transformer (DiT)-architectuur, past deze een vaste compressie toe over verschillende beeldregio's tijdens het diffusieproces, waarbij de van nature variërende informatiedichtheden in deze regio's worden genegeerd. Grote compressie leidt echter tot beperkte lokale realiteit, terwijl kleine compressie de rekencomplexiteit verhoogt en de globale consistentie aantast, wat uiteindelijk de kwaliteit van de gegenereerde afbeeldingen beïnvloedt. Om deze beperkingen aan te pakken, stellen we voor om verschillende beeldregio's dynamisch te comprimeren door het belang van verschillende regio's te herkennen, en introduceren we een nieuw tweestaps raamwerk dat is ontworpen om de effectiviteit en efficiëntie van beeldgeneratie te verbeteren: (1) Dynamic VAE (DVAE) in de eerste fase gebruikt een hiërarchische encoder om verschillende beeldregio's te coderen met verschillende downsampling-snelheden, afgestemd op hun specifieke informatiedichtheden, waardoor nauwkeurigere en natuurlijkere latente codes voor het diffusieproces worden geboden. (2) Dynamic Diffusion Transformer (D^2iT) in de tweede fase genereert afbeeldingen door multi-granulaire ruis te voorspellen, bestaande uit grofkorrelige (minder latente code in gladde regio's) en fijnkorrelige (meer latente codes in gedetailleerde regio's), door een nieuwe combinatie van de Dynamic Grain Transformer en de Dynamic Content Transformer. De strategie van het combineren van ruwe ruisvoorspelling met correctie van gedetailleerde regio's bereikt een eenheid van globale consistentie en lokale realiteit. Uitgebreide experimenten op verschillende generatietaken valideren de effectiviteit van onze aanpak. De code zal worden vrijgegeven op https://github.com/jiawn-creator/Dynamic-DiT.
Huidige multimodale benchmarks verwarren vaak redeneren met domeinspecifieke kennis, waardoor het moeilijk is om algemene redeneervaardigheden in niet-expertsettings te isoleren en te evalueren. Om dit aan te pakken, introduceren we VisualPuzzles, een benchmark die zich richt op visueel redeneren en bewust de afhankelijkheid van gespecialiseerde kennis minimaliseert. VisualPuzzles bestaat uit diverse vragen die vijf categorieën omvatten: algoritmisch, analoog, deductief, inductief en ruimtelijk redeneren. Een belangrijke bron van onze vragen zijn handmatig vertaalde logische redeneervragen uit het Chinese ambtenarenexamen. Experimenten tonen aan dat VisualPuzzles aanzienlijk minder intensieve domeinspecifieke kennis en complexer redeneren vereist in vergelijking met benchmarks zoals MMMU, waardoor we authentiek multimodaal redeneren beter kunnen evalueren. Evaluaties laten zien dat state-of-the-art multimodale grote taalmodellen consistent achterblijven bij menselijke prestaties op VisualPuzzles, en dat sterke prestaties op kennisintensieve benchmarks niet noodzakelijk vertalen naar succes op redeneringsgerichte, kennisarme taken. Daarnaast leveren redeneringsverbeteringen, zoals het opschalen van rekencapaciteit tijdens inferentie (met "denk"modi), inconsistente winsten op tussen modellen en taaktypen, en we observeren geen duidelijke correlatie tussen modelgrootte en prestaties. We ontdekten ook dat modellen verschillende redeneer- en antwoordpatronen vertonen op VisualPuzzles in vergelijking met benchmarks die meer nadruk leggen op kennis. VisualPuzzles biedt een duidelijker lens om redeneervaardigheden te evalueren die verder gaan dan feitelijke herinnering en domeinkennis.
De implementatie van taalmodeltoepassingen in consumentgerichte applicaties brengt talrijke risico's met zich mee. Hoewel bestaand onderzoek naar schade en gevaren van dergelijke toepassingen top-down benaderingen volgt die zijn afgeleid van regelgevende kaders en theoretische analyses, blijft empirisch bewijs van real-world foutmodi onderbelicht. In dit werk introduceren we RealHarm, een dataset van geannoteerde problematische interacties met AI-agents, opgebouwd uit een systematische review van openbaar gerapporteerde incidenten. Door schade, oorzaken en gevaren specifiek vanuit het perspectief van de implementeerder te analyseren, constateren we dat reputatieschade de overheersende organisatorische schade vormt, terwijl desinformatie naar voren komt als de meest voorkomende categorie van gevaar. We evalueren empirisch state-of-the-art beveiligingsmaatregelen en contentmoderatiesystemen om te onderzoeken of dergelijke systemen de incidenten hadden kunnen voorkomen, wat een aanzienlijke kloof in de bescherming van AI-toepassingen aan het licht brengt.
Hybride LLM-architecturen die Attention en State Space Models (SSMs) combineren, bereiken state-of-the-art nauwkeurigheid en runtime-prestaties. Recent onderzoek heeft aangetoond dat het toepassen van compressie en distillatie op Attention-only modellen kleinere, nauwkeurigere modellen oplevert tegen een fractie van de trainingskosten. In dit werk onderzoeken we de effectiviteit van het comprimeren van hybride architecturen. We introduceren een nieuwe groep-gevoelige pruningstrategie die de structurele integriteit van SSM-blokken en hun sequentiemodelleringscapaciteiten behoudt. Bovendien demonstreren we de noodzaak van dergelijke SSM-pruning om verbeterde nauwkeurigheid en inferentiesnelheid te bereiken in vergelijking met traditionele benaderingen. Ons compressierecept combineert SSM-, FFN-, embeddingdimensie- en layer-pruning, gevolgd door hertraining op basis van kennisdistillatie, vergelijkbaar met de MINITRON-techniek. Met deze aanpak comprimeren we het Nemotron-H 8B Hybride model tot 4B parameters met tot 40x minder trainings-tokens. Het resulterende model overtreft de nauwkeurigheid van vergelijkbaar grote modellen terwijl het 2x snellere inferentie bereikt, wat de Pareto-grens aanzienlijk vooruithelpt.
We introduceren AI University (AI-U), een flexibel raamwerk voor AI-gestuurde cursusinhoudslevering dat zich aanpast aan de lesstijlen van docenten. In de kern verfijnt AI-U een groot taalmodel (LLM) met retrieval-augmented generation (RAG) om docent-afgestemde antwoorden te genereren uit collegevideo's, notities en leerboeken. Met behulp van een gevorderde cursus over de eindige-elementenmethode (FEM) als casestudy presenteren we een schaalbare pijplijn om systematisch trainingsdata op te bouwen, een open-source LLM te verfijnen met Low-Rank Adaptation (LoRA), en de antwoorden te optimaliseren via RAG-gebaseerde synthese. Onze evaluatie - die cosine similarity, LLM-gebaseerde beoordeling en expertreview combineert - toont een sterke afstemming met de cursusmaterialen. We hebben ook een prototype webapplicatie ontwikkeld, beschikbaar op https://my-ai-university.com, die de traceerbaarheid verbetert door AI-gegenereerde antwoorden te koppelen aan specifieke secties van het relevante cursusmateriaal en tijdstempels van de open-access collegevideo's. Ons expertmodel blijkt in 86% van de testgevallen een grotere cosine similarity te hebben met een referentie. Een LLM-beoordelaar vond ook dat ons expertmodel ongeveer vier van de vijf keer beter presteerde dan het basis Llama 3.2-model. AI-U biedt een schaalbare aanpak voor AI-ondersteund onderwijs, wat de weg vrijmaakt voor bredere adoptie in het hoger onderwijs. Hier is ons raamwerk gepresenteerd in de context van een cursus over FEM - een onderwerp dat centraal staat in de opleiding van PhD- en Masterstudenten in de technische wetenschappen. Deze context is echter een specifiek voorbeeld van een bredere toepassing: het verfijnen van LLM's voor onderzoeksinhoud in de wetenschap.
Dit rapport biedt een uitgebreid overzicht van de 4e Pixel-level Video Understanding in the Wild (PVUW) Challenge, gehouden in samenwerking met CVPR 2025. Het vat de resultaten van de challenge, de gebruikte methodologieën en toekomstige onderzoeksrichtingen samen. De challenge omvat twee tracks: MOSE, die zich richt op complexe scène-video-objectsegmentatie, en MeViS, die gericht is op beweging-gestuurde, taalgebaseerde videosegmentatie. Beide tracks introduceren nieuwe, uitdagendere datasets die beter aansluiten bij realistische scenario's. Door gedetailleerde evaluatie en analyse biedt de challenge waardevolle inzichten in de huidige stand van de techniek en opkomende trends in complexe videosegmentatie. Meer informatie is te vinden op de workshopwebsite: https://pvuw.github.io/.
De toepassing van diffusiemodellen in 3D LiDAR-scenecompletering is beperkt vanwege de trage bemonsteringssnelheid van diffusie. Score-distillatie versnelt de diffusiebemonstering, maar gaat ten koste van de prestaties, terwijl post-training met directe beleidsoptimalisatie (DPO) de prestaties verbetert door gebruik te maken van voorkeursdata. Dit artikel introduceert Distillation-DPO, een nieuw diffusiedistillatieraamwerk voor LiDAR-scenecompletering met voorkeursafstemming. Ten eerste genereert het studentmodel gepaarde completeringsscènes met verschillende initiële ruis. Ten tweede gebruiken we LiDAR-scene-evaluatiemetrics als voorkeur om winnende en verliezende sampleparen te construeren. Deze constructie is redelijk, aangezien de meeste LiDAR-scenemetrics informatief maar niet differentieerbaar zijn om direct te optimaliseren. Ten derde optimaliseert Distillation-DPO het studentmodel door het verschil in scorefuncties tussen het leraar- en studentmodel te benutten op de gepaarde completeringsscènes. Dit proces wordt herhaald tot convergentie. Uitgebreide experimenten tonen aan dat, vergeleken met state-of-the-art LiDAR-scenecompleteringsdiffusiemodellen, Distillation-DPO een hogere kwaliteit van scenecompletering bereikt terwijl de completeringssnelheid met meer dan 5 keer wordt versneld. Onze methode is de eerste die, voor zover wij weten, voorkeursleren in distillatie onderzoekt en inzichten biedt in voorkeursafgestemde distillatie. Onze code is publiekelijk beschikbaar op https://github.com/happyw1nd/DistillationDPO.
Peer review is een hoeksteen van kwaliteitscontrole in wetenschappelijke publicaties. Met de toenemende werklast is het onbedoelde gebruik van 'snelle' heuristieken, aangeduid als lui denken, naar voren gekomen als een terugkerend probleem dat de kwaliteit van reviews aantast. Geautomatiseerde methoden om dergelijke heuristieken te detecteren kunnen helpen om het peer-reviewproces te verbeteren. Er is echter beperkt NLP-onderzoek naar dit probleem, en er bestaat geen real-world dataset om de ontwikkeling van detectietools te ondersteunen. Dit werk introduceert LazyReview, een dataset van peer-reviewzinnen geannoteerd met fijnmazige categorieën van lui denken. Onze analyse toont aan dat Large Language Models (LLMs) moeite hebben om deze gevallen te detecteren in een zero-shot setting. Instructiegebaseerde fine-tuning op onze dataset verbetert de prestaties echter aanzienlijk met 10-20 prestatiepunten, wat het belang van hoogwaardige trainingsdata onderstreept. Bovendien toont een gecontroleerd experiment aan dat reviews die zijn herzien met feedback over lui denken, uitgebreider en actiegerichter zijn dan die zonder dergelijke feedback. We zullen onze dataset en de verbeterde richtlijnen vrijgeven die kunnen worden gebruikt om junior reviewers in de gemeenschap op te leiden. (Code beschikbaar hier: https://github.com/UKPLab/arxiv2025-lazy-review)
Recente ontwikkelingen in Large Language Models (LLMs) hebben geleid tot significante doorbraken in videobegrip. Bestaande modellen hebben echter nog steeds moeite met het verwerken van lange video's vanwege de contextlengtebeperking van LLMs en de enorme hoeveelheid informatie in de video. Hoewel sommige recente methoden zijn ontworpen voor het begrijpen van lange video's, verliezen ze vaak cruciale informatie tijdens tokencompressie en hebben ze moeite met aanvullende modaliteiten zoals audio. In dit werk stellen we een dynamische methode voor voor het coderen van lange video's door gebruik te maken van de temporele relatie tussen frames, genaamd Temporal Dynamic Context (TDC). Ten eerste segmenteren we de video in semantisch consistente scènes op basis van inter-frame overeenkomsten, waarna we elk frame coderen in tokens met behulp van visueel-audiocoders. Ten tweede introduceren we een nieuwe temporele contextcompressor om het aantal tokens binnen elk segment te verminderen. Specifiek gebruiken we een query-gebaseerde Transformer om video-, audio- en instructieteksttokens samen te voegen tot een beperkte set temporele contexttokens. Ten slotte voeren we de statische frametokens en de temporele contexttokens in de LLM in voor videobegrip. Bovendien stellen we, om extreem lange video's te verwerken, een trainingsvrije chain-of-thought strategie voor die geleidelijk antwoorden uit meerdere videosegmenten extraheert. Deze tussenliggende antwoorden dienen als onderdeel van het redeneerproces en dragen bij aan het uiteindelijke antwoord. We voeren uitgebreide experimenten uit op benchmarks voor algemeen videobegrip en audio-videobegrip, waar onze methode sterke prestaties laat zien. De code en modellen zijn beschikbaar op https://github.com/Hoar012/TDC-Video.
Vision-Language Models (VLMs) kunnen visuele en tekstuele informatie verwerken in meerdere formaten: teksten, afbeeldingen, afwisselende teksten en afbeeldingen, of zelfs urenlange video's. In dit werk voeren we gedetailleerde kwantitatieve en kwalitatieve analyses uit van automatische samenvatting van multimodale presentaties met behulp van VLMs met verschillende representaties als invoer. Uit deze experimenten stellen we kosteneffectieve strategieën voor voor het genereren van samenvattingen uit tekstrijke multimodale documenten onder verschillende invoerlengtebudgetten met behulp van VLMs. We tonen aan dat dia's die uit de videostream zijn geëxtraheerd, voordelig kunnen worden gebruikt als invoer in plaats van de ruwe video, en dat een gestructureerde representatie van afwisselende dia's en transcript de beste prestaties levert. Tot slot reflecteren en becommentariëren we de aard van cross-modale interacties in multimodale presentaties en delen we suggesties om de mogelijkheden van VLMs te verbeteren voor het begrijpen van documenten van deze aard.
De recent voorgestelde Forgetting Transformer (FoX) integreert een forget-gate in softmax-attentie en heeft consequent betere of vergelijkbare prestaties laten zien in vergelijking met de standaard RoPE-gebaseerde Transformer. Opmerkelijk is dat veel aandachtskoppen in FoX de neiging hebben om snel te vergeten, waardoor hun uitvoer bij elke tijdstap voornamelijk afhankelijk is van de lokale context. Op basis van deze observatie stellen we Adaptive Computation Pruning (ACP) voor FoX voor, een methode die dynamisch berekeningen verwijdert die betrekking hebben op input-output-afhankelijkheden die sterk zijn verzwakt door de forget-gate. Dit wordt bereikt met behulp van een dynamisch ingestelde pruning-drempel die ervoor zorgt dat de verwijderde aandachtswaarden verwaarloosbaar blijven. We passen ACP toe bij het vooraf trainen van taalmmodellen met FoX en laten zien dat het consistent het aantal FLOPs in softmax-attentie met ongeveer 70% vermindert, ongeacht de modelgrootte en contextlengte, wat resulteert in een verbetering van de trainingsdoorvoer van ongeveer 10% tot 35%. Bovendien leveren langere contextlengtes grotere computationele besparingen op. Al deze snelheidsverbeteringen worden bereikt zonder enig prestatieverlies. We voeren ook verschillende analyses uit om dieper inzicht te bieden in onze methode, zoals het onderzoeken van de pruning-patronen en het analyseren van de verdeling van FLOP-besparingen over verschillende aandachtskoppen. Onze code is beschikbaar op https://github.com/zhixuan-lin/arctic-fox.
Met het succes van beeldgeneratie worden generatieve diffusiemodellen steeds vaker ingezet voor discriminatieve taken, aangezien pixelgeneratie een uniforme perceptie-interface biedt. Het direct hergebruiken van het generatieve ruisverwijderingsproces voor discriminatieve doeleinden onthult echter kritieke hiaten die eerder zelden werden aangepakt. Generatieve modellen tolereren tussenliggende steekproeffouten als de uiteindelijke distributie plausibel blijft, maar discriminatieve taken vereisen rigoureuze nauwkeurigheid gedurende het hele proces, zoals blijkt uit uitdagende multimodale taken zoals verwijzende beeldsegmentatie. Gemotiveerd door deze kloof analyseren en verbeteren we de afstemming tussen generatieve diffusieprocessen en perceptietaken, met de focus op hoe de perceptiekwaliteit evolueert tijdens ruisverwijdering. We ontdekken: (1) eerdere ruisverwijderingsstappen dragen onevenredig veel bij aan de perceptiekwaliteit, wat ons ertoe aanzet om op maat gemaakte leerdoelen voor te stellen die de verschillende bijdragen van tijdstappen weerspiegelen; (2) latere ruisverwijderingsstappen vertonen onverwachte perceptieverslechtering, wat de gevoeligheid voor verschuivingen in de trainings-ruisverwijderingsdistributie benadrukt, aangepakt door onze op diffusie afgestemde data-augmentatie; en (3) generatieve processen maken uniek interactiviteit mogelijk, dienend als bestuurbare gebruikersinterfaces die aanpasbaar zijn aan correctieprompts in meervoudige interacties. Onze inzichten verbeteren diffusiegebaseerde perceptiemodellen aanzienlijk zonder architectuurwijzigingen, wat resulteert in state-of-the-art prestaties op diepteschatting, verwijzende beeldsegmentatie en algemene perceptietaken. Code beschikbaar op https://github.com/ziqipang/ADDP.
Ondanks hun veelvuldige gebruik voor veranderingsdetectie, vertonen zowel ConvNets als Vision Transformers (ViT) bekende beperkingen, waarbij de eerste moeite hebben met het modelleren van langeafstandsafhankelijkheden en de laatste rekenkundig inefficiënt zijn, wat het trainen op grootschalige datasets uitdagend maakt. Vision Mamba, een architectuur gebaseerd op State Space Models, is naar voren gekomen als een alternatief dat de genoemde tekortkomingen aanpakt en is al toegepast op remote sensing veranderingsdetectie, hoewel meestal als een feature-extractie-backbone. In dit artikel wordt het Change State Space Model geïntroduceerd, dat specifiek is ontworpen voor veranderingsdetectie door zich te richten op de relevante veranderingen tussen bi-temporele beelden, waarbij irrelevante informatie effectief wordt gefilterd. Door zich uitsluitend te concentreren op de veranderde kenmerken, wordt het aantal netwerkparameters verminderd, wat de rekenkundige efficiëntie aanzienlijk verbetert terwijl een hoge detectieprestatie en robuustheid tegen inputdegradatie behouden blijft. Het voorgestelde model is geëvalueerd via drie benchmarkdatasets, waar het ConvNets, ViTs en Mamba-gebaseerde tegenhangers overtrof met een fractie van hun rekenkundige complexiteit. De implementatie zal beschikbaar worden gesteld op https://github.com/Elman295/CSSM na acceptatie.