Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel introduceert Group Sequence Policy Optimization (GSPO), ons stabiele, efficiënte en krachtige reinforcement learning-algoritme voor het trainen van grote taalmodel(len). In tegenstelling tot eerdere algoritmen die token-level belangrijkheidsratio's hanteren, definieert GSPO de belangrijkheidsratio op basis van sequentiekans en voert het sequentieniveau-clipping, beloning en optimalisatie uit. We tonen aan dat GSPO superieure trainingsefficiëntie en prestaties bereikt in vergelijking met het GRPO-algoritme, Mixture-of-Experts (MoE) RL-training aanzienlijk stabiliseert, en het potentieel heeft om het ontwerp van RL-infrastructuur te vereenvoudigen. Deze verdiensten van GSPO hebben bijgedragen aan de opmerkelijke verbeteringen in de nieuwste Qwen3-modellen.
Recente vooruitgang in transformer-gebaseerde architecturen heeft opmerkelijke successen laten zien bij videogeneratietaken. De kwadratische complexiteit van volledige aandachtmechanismen blijft echter een kritieke bottleneck, met name voor hoogwaardige en langdurige videosequenties. In dit artikel stellen we NABLA voor, een nieuw Neighborhood Adaptive Block-Level Attention-mechanisme dat zich dynamisch aanpast aan sparsitypatronen in videodiffusietransformers (DiTs). Door gebruik te maken van bloksgewijze aandacht met een adaptieve sparsity-gestuurde drempel, vermindert NABLA de rekenkosten terwijl de generatieve kwaliteit behouden blijft. Onze methode vereist geen aangepast ontwerp van low-level operatoren en kan naadloos worden geïntegreerd met PyTorch's Flex Attention-operator. Experimenten tonen aan dat NABLA tot 2,7x snellere training en inferentie bereikt in vergelijking met de baseline, bijna zonder in te leveren op kwantitatieve metrieken (CLIP-score, VBench-score, menselijke evaluatiescore) en visuele kwaliteit. De code en modelgewichten zijn hier beschikbaar: https://github.com/gen-ai-team/Wan2.1-NABLA.
Large Language Models (LLMs) hebben indrukwekkende prestaties geleverd op taken die intensief redeneren vereisen, maar het optimaliseren van hun redeneerefficiëntie blijft een uitdaging. Hoewel Test-Time Scaling (TTS) de kwaliteit van het redeneren verbetert, leidt het vaak tot overdenken, waarbij tokens worden verspild aan overbodige berekeningen. Dit onderzoek onderzoekt hoe LLM test-time scaling efficiënt en adaptief kan worden gestuurd zonder aanvullende training. Geïnspireerd door het concept van momentum in de natuurkunde, stellen we Momentum Uncertainty-guided Reasoning (MUR) voor, dat dynamisch denkbudgetten toewijst aan kritieke redeneerstappen door stap-voor-stap onzekerheid in de tijd te volgen en te aggregeren. Om flexibele controle tijdens de inferentie te ondersteunen, introduceren we gamma-control, een eenvoudig mechanisme dat het redeneerbudget afstelt via een enkele hyperparameter. We bieden een diepgaand theoretisch bewijs om de superioriteit van MUR te ondersteunen op het gebied van stabiliteit en biases. MUR wordt uitgebreid geëvalueerd tegen verschillende TTS-methoden over vier uitdagende benchmarks (MATH-500, AIME24, AIME25 en GPQA-diamond) met behulp van verschillende groottes van recente Qwen3-modellen (1.7B, 4B en 8B). De resultaten tonen aan dat MUR de berekening met gemiddeld meer dan 50% vermindert terwijl de nauwkeurigheid met 0,62-3,37% wordt verbeterd.
We presenteren Captain Cinema, een generatieframework voor het maken van korte films. Gegeven een gedetailleerde tekstuele beschrijving van een filmverhaal, genereert onze aanpak eerst een reeks keyframes die het volledige narratief schetsen, wat zorgt voor langeafstandscoherentie in zowel het verhaal als het visuele uiterlijk (bijv. scènes en personages). We verwijzen naar deze stap als top-down keyframe planning. Deze keyframes dienen vervolgens als conditioneringssignalen voor een videosynthesemodel, dat langecontextleren ondersteunt, om de spatio-temporele dynamiek tussen de keyframes te produceren. Deze stap wordt aangeduid als bottom-up video synthesis. Om de stabiele en efficiënte generatie van lange narratieve cinematische werken met meerdere scènes te ondersteunen, introduceren we een interleaved trainingsstrategie voor Multimodal Diffusion Transformers (MM-DiT), specifiek aangepast voor langecontext videodata. Ons model is getraind op een speciaal samengestelde cinematische dataset bestaande uit interleaved dataparen. Onze experimenten tonen aan dat Captain Cinema gunstig presteert in de geautomatiseerde creatie van visueel coherente en narratief consistente korte films van hoge kwaliteit en efficiëntie. Projectpagina: https://thecinema.ai
Grote redeneermodellen hebben opmerkelijke prestaties bereikt door uitgebreide ketens van gedachten, maar deze computationele vrijheid leidt tot overmatige token-generatie, zelfs voor eenvoudige problemen. Wij presenteren Length-Adaptive Policy Optimization (LAPO), een nieuw raamwerk dat de controle over de redeneerlengte transformeert van een externe beperking naar een intrinsieke modelcapaciteit. In tegenstelling tot bestaande benaderingen die rigide limieten opleggen of vertrouwen op post-hoc interventies, stelt LAPO modellen in staat om een begrip van de juiste redeneerdiepte te internaliseren via een tweestaps reinforcement learning-proces. In de eerste fase leren modellen natuurlijke redeneerpatronen door de statistische verdeling van succesvolle oplossingslengtes te ontdekken. De tweede fase benut deze patronen als metacognitieve begeleiding, waarbij ze direct worden ingebed in de redeneercontext van het model om flexibiliteit tijdens inferentie te garanderen. Experimenten op wiskundige redeneerbenchmarks tonen aan dat LAPO het tokengebruik met tot wel 40,9\% vermindert, terwijl de nauwkeurigheid met 2,3\% verbetert. Onze analyse laat zien dat modellen die met LAPO zijn getraind, emergent vermogen ontwikkelen om computationele middelen toe te wijzen op basis van probleemcomplexiteit, waardoor efficiënt redeneren wordt bereikt zonder kwaliteit op te offeren.
Informatie-extractie (IE) is fundamenteel voor talrijke NLP-toepassingen, maar bestaande oplossingen vereisen vaak gespecialiseerde modellen voor verschillende taken of zijn afhankelijk van rekenintensieve grote taalmodelen. Wij presenteren GLiNER2, een uniform raamwerk dat de oorspronkelijke GLiNER-architectuur verbetert om named entity recognition, tekstclassificatie en hiërarchische gestructureerde data-extractie te ondersteunen binnen één efficiënt model. Gebouwd op een vooraf getrainde transformer-encoderarchitectuur, behoudt GLiNER2 CPU-efficiëntie en een compacte omvang, terwijl het multitask-compositie introduceert via een intuïtieve schema-gebaseerde interface. Onze experimenten tonen competitieve prestaties aan bij extractie- en classificatietaken, met aanzienlijke verbeteringen in implementatietoegankelijkheid vergeleken met LLM-gebaseerde alternatieven. Wij brengen GLiNER2 uit als een open-source pip-installeerbare bibliotheek met vooraf getrainde modellen en documentatie op https://github.com/fastino-ai/GLiNER2.
Ondanks de opmerkelijke ontwikkelingen die recente 3D-generatiewerkzaamheden hebben bereikt, blijft het schalen van deze methoden naar geografische omvang, zoals het modelleren van duizenden vierkante kilometers van het aardoppervlak, een open uitdaging. Wij pakken dit aan door een dubbele innovatie in data-infrastructuur en modelarchitectuur. Ten eerste introduceren we Aerial-Earth3D, de grootste 3D-luchtdataset tot nu toe, bestaande uit 50k gecureerde scènes (elk 600m x 600m) die zijn vastgelegd over het vasteland van de VS, bestaande uit 45M multi-view Google Earth-frames. Elke scène biedt pose-geannoteerde multi-view afbeeldingen, dieptekaarten, normalen, semantische segmentatie en cameraposes, met expliciete kwaliteitscontrole om terreindiversiteit te waarborgen. Op basis hiervan stellen we EarthCrafter voor, een op maat gemaakt framework voor grootschalige 3D-aardegeneratie via sparse-decoupled latent diffusion. Onze architectuur scheidt structurele en textuurgeneratie: 1) Dual sparse 3D-VAEs comprimeren hoogresolutie geometrische voxels en textuur-2D Gaussian Splats (2DGS) in compacte latente ruimtes, waardoor de kostbare berekeningen die gepaard gaan met enorme geografische schaal grotendeels worden verlicht, terwijl kritieke informatie behouden blijft. 2) We stellen condition-aware flow matching-modellen voor die getraind zijn op gemengde invoer (semantiek, afbeeldingen of geen van beide) om flexibel latente geometrie- en textuurkenmerken onafhankelijk te modelleren. Uitgebreide experimenten tonen aan dat EarthCrafter aanzienlijk beter presteert in extreem grootschalige generatie. Het framework ondersteunt verder veelzijdige toepassingen, van semantisch geleide stadslay-outgeneratie tot onvoorwaardelijke terreinsynthese, terwijl geografische geloofwaardigheid wordt behouden door onze rijke datapriors van Aerial-Earth3D. Onze projectpagina is beschikbaar op https://whiteinblue.github.io/earthcrafter/.
Het schalen van visuele generatiemodellen is essentieel voor het creëren van real-world content, maar vereist aanzienlijke trainings- en rekenkundige kosten. Alternatief heeft test-time scaling steeds meer aandacht gekregen vanwege de efficiëntie in middelen en veelbelovende prestaties. In dit werk presenteren we TTS-VAR, het eerste algemene test-time scaling framework voor visuele auto-regressieve (VAR) modellen, waarbij het generatieproces wordt gemodelleerd als een padzoekprobleem. Om dynamisch een balans te vinden tussen rekenkundige efficiëntie en verkenningscapaciteit, introduceren we eerst een adaptief dalend batchgrootte schema gedurende het causale generatieproces. Daarnaast, geïnspireerd door VAR's hiërarchische coarse-to-fine multi-schaal generatie, integreert ons framework twee belangrijke componenten: (i) Op grove schalen observeren we dat gegenereerde tokens moeilijk te evalueren zijn, wat mogelijk leidt tot foutieve acceptatie van inferieure samples of afwijzing van superieure samples. Gezien het feit dat de grove schalen voldoende structurele informatie bevatten, stellen we clustering-gebaseerde diversiteitszoektocht voor. Dit behoudt structurele variëteit door semantische feature clustering, waardoor latere selectie op samples met hoger potentieel mogelijk wordt. (ii) Op fijne schalen prioriteert resampling-gebaseerde potentiële selectie veelbelovende kandidaten met behulp van potentiële scores, die worden gedefinieerd als beloningsfuncties die multi-schaal generatiegeschiedenis incorporeren. Experimenten met het krachtige VAR-model Infinity laten een opmerkelijke verbetering van 8.7% in de GenEval-score zien (van 0.69 naar 0.75). Belangrijke inzichten onthullen dat structurele kenmerken in de vroege fase de uiteindelijke kwaliteit effectief beïnvloeden, en dat de effectiviteit van resampling varieert over generatieschalen. Code is beschikbaar op https://github.com/ali-vilab/TTS-VAR.
Grote redeneermodellen behalen opmerkelijke prestaties door uitgebreide keten-van-gedachten-generatie, maar vertonen aanzienlijke computationele inefficiëntie door uniforme redeneerstrategieën toe te passen, ongeacht de complexiteit van het probleem. Wij presenteren Hierarchical Budget Policy Optimization (HBPO), een reinforcement learning-raamwerk dat modellen in staat stelt om probleemspecifieke redeneerdieptes te leren zonder in te leveren op capaciteit. HBPO adresseert de fundamentele uitdaging van het ineenstorten van de verkenruimte in efficiëntiegericht training, waarbij straffen op lange uitvoerlengtes modellen systematisch beïnvloeden om weg te blijven van noodzakelijke lange redeneerpaden. Door hiërarchische budgetverkenning verdeelt onze aanpak rollout-monsters in meerdere subgroepen met verschillende tokenbudgetten, met als doel efficiënte resourceallocatie mogelijk te maken terwijl degradatie van capaciteit wordt voorkomen. We introduceren gedifferentieerde beloningsmechanismen die budgetbewuste prikkels creëren die zijn afgestemd op de complexiteit van het probleem, waardoor modellen natuurlijke overeenkomsten kunnen ontdekken tussen taakeisen en computationale inspanning. Uitgebreide experimenten tonen aan dat HBPO het gemiddelde tokengebruik met tot wel 60,6% reduceert terwijl de nauwkeurigheid met 3,14% verbetert over vier redeneerbenchmarks. In tegenstelling tot bestaande methoden die externe beperkingen opleggen of vertrouwen op discrete modusselectie, vertoont HBPO emergent adaptief gedrag waarbij modellen automatisch de redeneerdiepte aanpassen op basis van probleemcomplexiteit. Onze resultaten suggereren dat redeneerefficiëntie en capaciteit niet intrinsiek conflicteren, en tegelijkertijd geoptimaliseerd kunnen worden door geschikt gestructureerde hiërarchische training die de verkeningsdiversiteit behoudt.
Leren van niet-stationaire datastromen die onderhevig zijn aan conceptdrift vereist modellen die zich on-the-fly kunnen aanpassen terwijl ze resource-efficiënt blijven. Bestaande adaptieve ensemblemethoden vertrouwen vaak op grofkorrelige aanpassingsmechanismen of eenvoudige stemschema's die gespecialiseerde kennis niet optimaal benutten. Dit artikel introduceert DriftMoE, een online Mixture-of-Experts (MoE)-architectuur die deze beperkingen aanpakt via een nieuw co-trainingsraamwerk. DriftMoE beschikt over een compacte neurale router die samen wordt getraind met een pool van incrementele Hoeffding tree-experts. De belangrijkste innovatie ligt in een symbiotische leerlus die expertspecialisatie mogelijk maakt: de router selecteert de meest geschikte expert voor voorspelling, de relevante experts werken incrementeel bij met het ware label, en de router verfijnt zijn parameters met behulp van een multi-hot correctheidsmasker dat elke nauwkeurige expert versterkt. Deze feedbacklus biedt de router een duidelijk trainingssignaal terwijl het expertspecialisatie versnelt. We evalueren de prestaties van DriftMoE over negen state-of-the-art datastroomleerbenchmarks die abrupte, geleidelijke en real-world driften omvatten, waarbij we twee verschillende configuraties testen: één waarbij experts zich specialiseren op dataregimes (multi-class variant), en een andere waarbij ze zich richten op single-class specialisatie (taakgebaseerde variant). Onze resultaten tonen aan dat DriftMoE competitieve resultaten behaalt met state-of-the-art adaptieve ensembles voor stroomleren, en biedt een principiële en efficiënte aanpak voor conceptdrift-aanpassing. Alle code, datapijplijnen en reproduceerbaarheidsscripts zijn beschikbaar in ons openbare GitHub-repository: https://github.com/miguel-ceadar/drift-moe.
We introduceren de nieuwste serie TeleChat-modellen: TeleChat2, TeleChat2.5 en T1, die een aanzienlijke upgrade bieden ten opzichte van hun voorganger, TeleChat. Ondanks minimale wijzigingen in de modelarchitectuur behaalt de nieuwe serie aanzienlijke prestatieverbeteringen door verbeterde trainingsstrategieën in zowel de pre-training als de post-training fasen. De serie begint met TeleChat2, dat wordt voorgetraind op 10 biljoen hoogwaardige en diverse tokens. Dit wordt gevolgd door Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO) om de mogelijkheden verder te verbeteren. TeleChat2.5 en T1 breiden de pijplijn uit door een voortgezette pre-training fase met domeinspecifieke datasets te incorporeren, gecombineerd met reinforcement learning (RL) om de prestaties in codegeneratie en wiskundige redeneertaken te verbeteren. De T1-variant is ontworpen voor complex redeneren, ondersteunt lange Chain-of-Thought (CoT) redenering en toont aanzienlijke verbeteringen in wiskunde en codering. Daarentegen geeft TeleChat2.5 prioriteit aan snelheid en levert het snelle inferentie. Beide vlaggenschipmodellen van T1 en TeleChat2.5 zijn dichte Transformer-gebaseerde architecturen met 115B parameters, die aanzienlijke vooruitgang laten zien in redeneren en algemene taakprestaties vergeleken met het originele TeleChat. Opmerkelijk is dat T1-115B propriëtaire modellen zoals OpenAI's o1-mini en GPT-4o overtreft. We geven TeleChat2, TeleChat2.5 en T1 vrij, inclusief post-getrainde versies met 35B en 115B parameters, om ontwikkelaars en onderzoekers te voorzien van state-of-the-art taalmodellen die zijn afgestemd op diverse toepassingen.
Grote Taalmodellen (LLMs) tonen aanzienlijke belofte in financiële toepassingen; echter, heersende modellen vertonen vaak beperkingen wanneer ze worden geconfronteerd met scenario's die geavanceerde redeneervaardigheden, strikte betrouwbaarheidscriteria en efficiënte aanpassing aan domeinspecifieke vereisten vereisen. Wij introduceren de Agentar-Fin-R1-serie van financiële grote taalmodellen (8B en 32B parameters), specifiek ontworpen op basis van het Qwen3-basismodel om redeneervaardigheden, betrouwbaarheid en domeinspecialisatie voor financiële toepassingen te verbeteren. Onze optimalisatieaanpak integreert een hoogwaardig, systematisch labelingsysteem voor financiële taken met een uitgebreid meerlaags betrouwbaarheidsborgingskader. Dit kader omvat hoogwaardige betrouwbare kennisengineering, multi-agent betrouwbare datasynthese en rigoureuze datavalidatiegovernance. Door label-gestuurde automatische moeilijkheidsbewuste optimalisatie, een tweefasig trainingspijplijn en dynamische attributiesystemen bereiken we aanzienlijke verbeteringen in de trainings efficiëntie. Onze modellen ondergaan uitgebreide evaluatie op mainstream financiële benchmarks, waaronder Fineva, FinEval en FinanceIQ, evenals algemene redeneerdatasets zoals MATH-500 en GPQA-diamond. Om de implementatiemogelijkheden in de praktijk grondig te beoordelen, stellen we innovatief de Finova-evaluatiebenchmark voor, die zich richt op agent-niveau financiële redenering en nalevingsverificatie. Experimentele resultaten tonen aan dat Agentar-Fin-R1 niet alleen state-of-the-art prestaties bereikt op financiële taken, maar ook uitzonderlijke algemene redeneervaardigheden vertoont, wat de effectiviteit ervan als een betrouwbare oplossing voor hoogwaardige financiële toepassingen valideert. De Finova-bench is beschikbaar op https://github.com/antgroup/Finova.
Diffusie-gebaseerde tekst-naar-spraak (TTS) systemen hebben opmerkelijke vooruitgang geboekt in zero-shot spraaksynthese, maar het optimaliseren van alle componenten voor perceptuele metrieken blijft een uitdaging. Eerder werk met DMOSpeech toonde directe metriekoptimalisatie voor spraakgeneratiecomponenten, maar de duurvoorspelling bleef ongeoptimaliseerd. Dit artikel presenteert DMOSpeech 2, dat metriekoptimalisatie uitbreidt naar de duurvoorspeller via een reinforcement learning-benadering. Het voorgestelde systeem implementeert een nieuw duurbeleidsraamwerk met groep-relatieve voorkeuroptimalisatie (GRPO) waarbij sprekersgelijkenis en woordfoutenpercentage als beloningssignalen worden gebruikt. Door deze voorheen ongeoptimaliseerde component te optimaliseren, creëert DMOSpeech 2 een completere metriek-geoptimaliseerde synthesepijplijn. Daarnaast introduceert dit artikel teacher-guided sampling, een hybride benadering die een leraarmodel gebruikt voor initiële denoising-stappen voordat wordt overgeschakeld naar het studentmodel, wat de uitvoerdiversiteit aanzienlijk verbetert terwijl de efficiëntie behouden blijft. Uitgebreide evaluaties tonen superieure prestaties aan op alle metrieken vergeleken met eerdere systemen, terwijl het aantal sampling-stappen wordt gehalveerd zonder kwaliteitsverlies. Deze vooruitgangen vertegenwoordigen een belangrijke stap richting spraaksynthesesystemen met metriekoptimalisatie over meerdere componenten. De audiovoorbeelden, code en vooraf getrainde modellen zijn beschikbaar op https://dmospeech2.github.io/.
Dit rapport documenteert, beschrijft en evalueert nieuwe GloVe-modellen (Global Vectors for Word Representation) voor het Engels uit 2024. Hoewel de oorspronkelijke GloVe-modellen uit 2014 veelvuldig zijn gebruikt en nuttig zijn bevonden, blijven talen en de wereld zich ontwikkelen, en we dachten dat het huidige gebruik baat zou kunnen hebben bij geactualiseerde modellen. Bovendien waren de modellen uit 2014 niet zorgvuldig gedocumenteerd wat betreft de exacte dataversies en preprocessingsstappen die werden gebruikt, en dit herstellen we door deze nieuwe modellen te documenteren. We hebben twee sets woordembeddingen getraind met behulp van Wikipedia, Gigaword en een subset van Dolma. Evaluatie door middel van vocabulairevergelijking, directe tests en NER-taken (Named Entity Recognition) toont aan dat de 2024-vectoren nieuwe cultureel en taalkundig relevante woorden incorporeren, vergelijkbaar presteren op structurele taken zoals analogieën en gelijkenissen, en verbeterde prestaties laten zien op recente, tijdgebonden NER-datasets zoals niet-Westerse nieuwsgegevens.
Segmenten in computervisie worden vaak gedefinieerd door semantische overwegingen en zijn sterk afhankelijk van categorie-specifieke conventies. Daarentegen suggereert ontwikkelingspsychologie dat mensen de wereld waarnemen in termen van Spelke-objecten—groeperingen van fysieke dingen die betrouwbaar samen bewegen wanneer ze worden beïnvloed door fysieke krachten. Spelke-objecten werken dus op categorie-agnostische causale bewegingsrelaties, wat mogelijk beter geschikt is voor taken zoals manipulatie en planning. In dit artikel benchmarken we eerst het Spelke-objectconcept, waarbij we de SpelkeBench-dataset introduceren die een breed scala aan goed gedefinieerde Spelke-segmenten in natuurlijke afbeeldingen bevat. Vervolgens bouwen we SpelkeNet, een klasse van visuele wereldmodellen die getraind zijn om verdelingen over toekomstige bewegingen te voorspellen, om Spelke-segmenten algoritmisch uit afbeeldingen te extraheren. SpelkeNet ondersteunt de schatting van twee sleutelconcepten voor Spelke-objectdetectie: (1) de bewegingsaffordantiekaart, die regio's identificeert die waarschijnlijk bewegen bij een prik, en (2) de verwachte-verplaatsingskaart, die vastlegt hoe de rest van de scène zal bewegen. Deze concepten worden gebruikt voor "statistische tegenfeitelijke verkenning", waarbij diverse "virtuele prikken" worden toegepast op regio's met hoge bewegingsaffordantie, en de resulterende verwachte verplaatsingskaarten worden gebruikt om Spelke-segmenten te definiëren als statistische aggregaten van gecorreleerde bewegingsstatistieken. We constateren dat SpelkeNet gesuperviseerde baseline-modellen zoals SegmentAnything (SAM) overtreft op SpelkeBench. Tot slot tonen we aan dat het Spelke-concept praktisch nuttig is voor downstream-toepassingen, waarbij het superieure prestaties oplevert op de 3DEditBench-benchmark voor fysieke objectmanipulatie wanneer het wordt gebruikt in een verscheidenheid aan kant-en-klare objectmanipulatiemodellen.
Recente vooruitgang in tekst-naar-beeld-synthese profiteert grotendeels van geavanceerde samplingstrategieën en classifier-free guidance (CFG) om hoogwaardige generatie te garanderen. Echter, de afhankelijkheid van CFG op twee forward passes, vooral in combinatie met ingewikkelde samplingalgoritmen, resulteert in onhoudbaar hoge inferentiekosten. Om dit aan te pakken, introduceren we TeEFusion (Text Embeddings Fusion), een nieuwe en efficiënte distillatiemethode die de begeleidingsgrootte direct in de tekst-embeddings integreert en de complexe samplingstrategie van het leraarmodel distilleert. Door eenvoudigweg conditionele en niet-conditionele tekst-embeddings te fuseren met behulp van lineaire operaties, reconstrueert TeEFusion de gewenste begeleiding zonder extra parameters toe te voegen, en stelt het tegelijkertijd het studentmodel in staat om te leren van de output van het leraarmodel die is geproduceerd via diens geavanceerde samplingbenadering. Uitgebreide experimenten op state-of-the-art modellen zoals SD3 tonen aan dat onze methode het studentmodel in staat stelt om de prestaties van het leraarmodel nauwkeurig na te bootsen met een veel eenvoudigere en efficiëntere samplingstrategie. Hierdoor bereikt het studentmodel inferentiesnelheden die tot 6 keer sneller zijn dan die van het leraarmodel, terwijl de beeldkwaliteit op niveaus blijft die vergelijkbaar zijn met die verkregen via de complexe samplingbenadering van het leraarmodel. De code is publiekelijk beschikbaar op https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Gedeeltelijk Relevante Video Retrieval (PRVR) behandelt de cruciale uitdaging van het matchen van onbewerkte video's met tekstquery's die slechts gedeeltelijke inhoud beschrijven. Bestaande methoden lijden onder geometrische vervorming in de Euclidische ruimte, wat soms de intrinsieke hiërarchische structuur van video's verkeerd weergeeft en bepaalde hiërarchische semantiek over het hoofd ziet, wat uiteindelijk leidt tot suboptimale temporele modellering. Om dit probleem aan te pakken, stellen we het eerste hyperbolische modelleringsframework voor PRVR voor, genaamd HLFormer, dat gebruikmaakt van hyperbolische ruimteleer om de suboptimale hiërarchische modelleringsmogelijkheden van de Euclidische ruimte te compenseren. Specifiek integreert HLFormer het Lorentz Attention Block en het Euclidean Attention Block om video-embeddings te coderen in hybride ruimtes, waarbij het Mean-Guided Adaptive Interaction Module wordt gebruikt om features dynamisch te fuseren. Daarnaast introduceren we een Partial Order Preservation Loss om de "text < video" hiërarchie af te dwingen door middel van Lorentzian cone constraints. Deze aanpak verbetert verder de cross-modale matching door de gedeeltelijke relevantie tussen video-inhoud en tekstquery's te versterken. Uitgebreide experimenten tonen aan dat HLFormer state-of-the-art methoden overtreft. De code is vrijgegeven op https://github.com/lijun2005/ICCV25-HLFormer.
We introduceren de Iwin Transformer, een nieuwe hiërarchische vision transformer zonder positionele inbedding, die direct kan worden afgestemd van lage naar hoge resolutie, dankzij de samenwerking van innovatieve interleaved window attention en depthwise separable convolution. Deze aanpak gebruikt attention om verre tokens te verbinden en past convolutie toe om naburige tokens te koppelen, waardoor globale informatie-uitwisseling binnen een enkele module mogelijk wordt, wat de beperking van de Swin Transformer overwint om twee opeenvolgende blokken nodig te hebben om globale attention te benaderen. Uitgebreide experimenten op visuele benchmarks tonen aan dat de Iwin Transformer sterke concurrentie vertoont in taken zoals beeldclassificatie (87,4 top-1 nauwkeurigheid op ImageNet-1K), semantische segmentatie en video-actieherkenning. We valideren ook de effectiviteit van de kerncomponent in Iwin als een zelfstandige module die naadloos de self-attention module in klasse-conditionele beeldgeneratie kan vervangen. De concepten en methoden die door de Iwin Transformer worden geïntroduceerd, hebben het potentieel om toekomstig onderzoek te inspireren, zoals Iwin 3D Attention in videogeneratie. De code en modellen zijn beschikbaar op https://github.com/cominder/Iwin-Transformer.
Medische beeldsegmentatie is cruciaal voor veel gezondheidszorgtaken, waaronder ziekte-diagnose en behandelplanning. Een belangrijk gebied is de segmentatie van huidlaesies, wat essentieel is voor het diagnosticeren van huidkanker en het monitoren van patiënten. In deze context introduceert dit artikel SegDT, een nieuw segmentatiemodel gebaseerd op de diffusion transformer (DiT). SegDT is ontworpen om te werken op hardware met lage kosten en integreert Rectified Flow, wat de generatiekwaliteit verbetert bij verminderde inferentiestappen en de flexibiliteit van standaard diffusiemodellen behoudt. Onze methode wordt geëvalueerd op drie benchmarkdatasets en vergeleken met verschillende bestaande werken, waarbij state-of-the-art resultaten worden behaald terwijl snelle inferentiesnelheden worden gehandhaafd. Dit maakt het voorgestelde model aantrekkelijk voor real-world medische toepassingen. Dit werk bevordert de prestaties en mogelijkheden van deep learning-modellen in medische beeldanalyse, waardoor snellere en nauwkeurigere diagnostische tools worden mogelijk gemaakt voor zorgprofessionals. De code is publiekelijk beschikbaar gemaakt op https://github.com/Bekhouche/SegDT{GitHub}.
Dit artikel presenteert een nieuwe, op deep learning gebaseerde aanpak voor de gelijktijdige classificatie van leeftijd en geslacht vanuit gezichtsafbeeldingen, ontworpen om de effectiviteit van gerichte advertentiecampagnes te verbeteren. We stellen een aangepaste Convolutional Neural Network (CNN)-architectuur voor, geoptimaliseerd voor beide taken, die gebruikmaakt van de inherente correlatie tussen leeftijd en geslachtsinformatie aanwezig in gezichtskenmerken. In tegenstelling tot bestaande methoden die deze taken vaak onafhankelijk behandelen, leert ons model gedeelde representaties, wat leidt tot verbeterde prestaties. Het netwerk wordt getraind op een grote, diverse dataset van gezichtsafbeeldingen, zorgvuldig voorbewerkt om robuustheid te waarborgen tegen variaties in belichting, houding en beeldkwaliteit. Onze experimentele resultaten tonen een significante verbetering in de nauwkeurigheid van geslachtsclassificatie, met een score van 95%, en een competitief gemiddeld absoluut foutpercentage van 5,77 jaar voor leeftijdsschatting. Cruciaal is dat we de prestaties analyseren over verschillende leeftijdsgroepen, waarbij specifieke uitdagingen worden geïdentificeerd in het nauwkeurig schatten van de leeftijd van jongere individuen. Deze analyse onthult de noodzaak van gerichte data-augmentatie en modelverfijning om deze vooroordelen aan te pakken. Bovendien onderzoeken we de impact van verschillende CNN-architecturen en hyperparameterinstellingen op de algehele prestaties, wat waardevolle inzichten biedt voor toekomstig onderzoek.
Multimodale Large Language Models (MLLMs), gebouwd op krachtige taalbackbones, hebben Multimodale In-Context Learning (MICL) mogelijk gemaakt - het aanpassen aan nieuwe taken op basis van enkele multimodale demonstraties bestaande uit afbeeldingen, vragen en antwoorden. Ondanks aanzienlijke verbeteringen op standaard visie-taal datasets, hebben huidige MLLMs moeite om visuele informatie in de demonstraties te benutten. Specifiek neigen ze visuele aanwijzingen te negeren en te veel te vertrouwen op tekstuele patronen, wat leidt tot louter tekstimitatie in plaats van echte multimodale aanpassing. Dit gedrag maakt MICL nog steeds unimodaal en beperkt grotendeels de praktische bruikbaarheid. Belangrijker nog, deze beperking wordt vaak verhuld door de verbeterde prestaties op taken die geen begrip van de visuele context vereisen. Als gevolg hiervan blijft het effectief verbeteren van MICL-vaardigheden en het betrouwbaar evalueren van MICL-prestaties onderbelicht. Om deze problemen aan te pakken, introduceren we eerst Dynamic Attention Reallocation (DARA), een efficiënte fine-tuning strategie die modellen aanmoedigt om aandacht te besteden aan de visuele context door de aandacht te herverdelen over visuele en tekstuele tokens. Daarnaast presenteren we TrueMICL, een MICL-specifieke dataset met zowel ondersteunende als test sets die expliciet de integratie van multimodale informatie - met name visuele inhoud - vereist voor correcte taakvoltooiing. Uitgebreide experimenten tonen de effectiviteit van onze holistische oplossing aan, met aanzienlijke verbeteringen in de echte multimodale in-context leerprestaties. Code en datasets zijn beschikbaar op https://chenxshuo.github.io/true-micl-colm.