Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Mensen leren abstracte concepten aan via multisensorische synergie, en zodra deze gevormd zijn, kunnen dergelijke representaties vaak vanuit één enkele modaliteit worden opgeroepen. Geïnspireerd door dit principe introduceren we Concerto, een minimalistische simulatie van menselijke conceptvorming voor ruimtelijke cognitie, die 3D intramodale zelfdistillatie combineert met 2D-3D cross-modale gezamenlijke inbedding. Ondanks zijn eenvoud leert Concerto coherentere en informatievere ruimtelijke kenmerken, zoals gedemonstreerd door zero-shot visualisaties. Het overtreft zowel standalone state-of-the-art 2D- als 3D zelfgesuperviseerde modellen met respectievelijk 14,2% en 4,8%, evenals hun kenmerkenconcatenatie, in lineaire probing voor 3D-scèneperceptie. Met volledige fine-tuning stelt Concerto nieuwe state-of-the-art resultaten vast op meerdere scènebegrip-benchmarks (bijv. 80,7% mIoU op ScanNet). We presenteren verder een variant van Concerto toegesneden op ruimtelijk begrip van videogegenereerde puntenwolken, en een translator die Concerto-representaties lineair projecteert in de taalkundige ruimte van CLIP, waardoor open-wereldperceptie mogelijk wordt. Deze resultaten benadrukken dat Concerto ruimtelijke representaties ontwikkelt met superieure fijnmazige geometrische en semantische consistentie.
Real-world taken vereisen beslissingen op verschillende granulariteiten, en mensen blinken hierin uit door gebruik te maken van een verenigde cognitieve representatie waarin plannen fundamenteel wordt begrepen als een hoogwaardige vorm van actie. Huidige op Large Language Models (LLM) gebaseerde agents missen echter dit cruciale vermogen om soepel te opereren over verschillende beslissingsgranulariteiten heen. Deze beperking komt voort uit bestaande paradigma's die een rigide scheiding afdwingen tussen hoogwaardig plannen en laagwaardige actie, wat de dynamische aanpasbaarheid schaadt en de generalisatie beperkt. Wij stellen ReCode (Recursive Code Generation) voor, een nieuw paradigma dat deze beperking aanpakt door planning en actie te verenigen binnen een enkele code-representatie. In deze representatie behandelt ReCode hoogwaardige plannen als abstracte placeholder-functies, die de agent vervolgens recursief decomposeert in fijnkorreligere subfuncties totdat primitieve acties worden bereikt. Deze recursieve aanpak lost de rigide grens tussen plan en actie op, waardoor de agent zijn beslissingsgranulariteit dynamisch kan controleren. Bovendien genereert de recursieve structuur inherent rijke, multi-granulariteit trainingsdata, waardoor modellen hiërarchische beslissingsprocessen kunnen leren. Uitgebreide experimenten tonen aan dat ReCode geavanceerde baseline-methoden significant overtreft in inferentieprestaties en uitzonderlijke data-efficiëntie vertoont tijdens training, wat onze kerninzicht valideert dat het verenigen van planning en actie door recursieve code-generatie een krachtige en effectieve aanpak is om universele granulariteitscontrole te bereiken. De code is beschikbaar op https://github.com/FoundationAgents/ReCode.
De snelle vooruitgang van grote taalmodellen (LLM's) heeft de opkomst van data-agents gestimuleerd – autonome systemen die zijn ontworpen om Data + AI-ecosystemen te orkestreren voor het aanpakken van complexe data-gerelateerde taken. De term "data-agent" lijdt echter momenteel aan terminologische ambiguïteit en inconsistente toepassing, waarbij eenvoudige vraagbeantwoorders worden samengevoegd met geavanceerde autonome architecturen. Deze terminologische onduidelijkheid bevordert ongepaste gebruikersverwachtingen, verantwoordelijkheidsuitdagingen en barrières voor industriële groei. Geïnspireerd door de SAE J3016-standaard voor rijhulpsystemen, introduceert dit overzicht de eerste systematische hiërarchische taxonomie voor data-agents, bestaande uit zes niveaus die progressieve verschuivingen in autonomie afbakenen en traceren, van handmatige operaties (L0) tot een visie van generatieve, volledig autonome data-agents (L5), waardoor de grenzen van capaciteiten en verantwoordelijkheidsverdeling worden verduidelijkt. Door deze lens bieden we een gestructureerd overzicht van bestaand onderzoek, gerangschikt naar toenemende autonomie, dat gespecialiseerde data-agents voor data management, -voorbereiding en -analyse omvat, naast opkomende inspanningen richting veelzijdige, uitgebreide systemen met verbeterde autonomie. We analyseren verder kritische evolutionaire sprongen en technische hiaten voor de verdere ontwikkeling van data-agents, met name de voortdurende L2-naar-L3-transitie, waarbij data-agents evolueren van procedurele uitvoering naar autonome orkestratie. Ten slotte sluiten we af met een vooruitziende routekaart, waarin de komst van proactieve, generatieve data-agents wordt voorzien.
Het direct modelleren van de expliciete likelihood van de ruwe dataverdeling is een belangrijk onderwerp in het machine learning-domein, wat de schaalsuccessen in Large Language Models heeft bereikt door autoregressieve modellering. Continue autoregressieve modellering van visuele pixeldata lijdt echter onder extreem lange sequenties en hoogdimensionale ruimtes. In dit artikel presenteren we FARMER, een nieuw end-to-end generatief raamwerk dat Normalizing Flows (NF) en Autoregressieve (AR) modellen verenigt voor traceerbare likelihood-schatting en hoogwaardige beeld synthese direct vanuit ruwe pixels. FARMER gebruikt een inverteerbare autoregressieve flow om beelden om te zetten in latente sequenties, waarvan de verdeling impliciet wordt gemodelleerd door een autoregressief model. Om redundantie en complexiteit in pixelgebaseerde modellering aan te pakken, stellen we een zelfsupervised dimensiereductieschema voor dat NF-latente kanalen verdeelt in informatieve en redundante groepen, wat effectievere en efficiëntere AR-modellering mogelijk maakt. Verder ontwerpen we een one-step distillatieschema om de inferentiesnelheid significant te versnellen en introduceren we een op resampling gebaseerd classifier-free guidance-algoritme om de beeldgeneratiekwaliteit te verbeteren. Uitgebreide experimenten tonen aan dat FARMER competitieve prestaties bereikt in vergelijking met bestaande pixelgebaseerde generatieve modellen, terwijl het exacte likelihoods en schaalbare training biedt.
Huidige Vision-Language-Action (VLA)-modellen worden vaak beperkt door een rigide, statisch interactieparadigma, waarbij het vermogen ontbreekt om gelijktijdig te zien, horen, spreken en handelen, evenals om realtime gebruikersinterrupties dynamisch te verwerken. Dit belemmert naadloze embodied samenwerking, wat resulteert in een inflexibele en niet-responsieve gebruikerservaring. Om deze beperkingen aan te pakken, introduceren we VITA-E, een nieuw embodied interactieraamwerk ontworpen voor zowel gedragsgelijktijdigheid als bijna realtime interruptie. De kern van onze aanpak is een dual-model architectuur waarin twee parallelle VLA-instanties functioneren als een "Actief Model" en een "Standby Model", waardoor de embodied agent zijn omgeving kan observeren, naar gebruikersspraak kan luisteren, verbale reacties kan geven en acties kan uitvoeren, allemaal gelijktijdig en onderbreekbaar, wat mensachtige multitasking-capaciteiten nabootst. We stellen verder een "model-as-controller"-paradigma voor, waarbij we het VLM fine-tunen om speciale tokens te genereren die dienen als directe systeemniveau-commando's, waardoor de redenering van het model wordt gekoppeld aan het gedrag van het systeem. Experimenten uitgevoerd op een fysiek humanoïde platform tonen aan dat VITA-E complexe interactieve scenario's betrouwbaar kan afhandelen. Ons raamwerk is compatibel met verschillende dual-system VLA-modellen en behaalt een extreem hoge slagingspercentage voor noodstops en spraakinterrupties, terwijl het ook gelijktijdige spraak en actie succesvol uitvoert. Dit vertegenwoordigt een significante stap richting natuurlijkere en capabelere embodied assistenten.
Audio-gestuurde humane animatiemodellen kampen vaak met identiteitsverval tijdens temporele autoregressieve generatie, waarbij karakters geleidelijk hun identiteit verliezen in de loop van de tijd. Een oplossing is het genereren van keyframes als intermediaire temporele ankers die degradatie voorkomen, maar dit vereist een extra keyframe-generatiefase en kan de natuurlijke bewegingsdynamiek beperken. Om dit aan te pakken, stellen wij Lookahead Anchoring voor, dat gebruikmaakt van keyframes uit toekomstige tijdstappen vóór het huidige generatiewindow, in plaats van erbinnen. Dit transformeert keyframes van vaste grenzen naar directionele bakens: het model streeft continu naar deze toekomstige ankers terwijl het reageert op directe audiocues, waarbij een consistente identiteit wordt behouden door aanhoudende begeleiding. Dit maakt ook zelf-keyframing mogelijk, waarbij de referentieafbeelding dient als het lookahead-doel, waardoor de noodzaak voor keyframe-generatie volledig wordt geëlimineerd. Wij ontdekken dat de temporele lookahead-afstand van nature de balans beheerst tussen expressiviteit en consistentie: grotere afstanden zorgen voor meer bewegingsvrijheid, terwijl kleinere afstanden de identiteitshandhaving versterken. Toegepast op drie recente humane animatiemodellen bereikt Lookahead Anchoring superieure lipsynchronisatie, identiteitsbehoud en visuele kwaliteit, wat een verbeterde temporele conditionering aantoont over verschillende architecturen. Videoresultaten zijn beschikbaar op de volgende link: https://lookahead-anchoring.github.io.
Mensen nemen de geometrische structuur en semantische inhoud van een 3D-wereld van nature waar als verweven dimensies, wat een coherent en accuraat begrip van complexe scènes mogelijk maakt. De meeste bestaande benaderingen prioriteren echter het trainen van grote geometriemodellen voor laagwaardige 3D-reconstructie en behandelen hoogwaardig ruimtelijk begrip geïsoleerd, waarbij ze het cruciale samenspel tussen deze twee fundamentele aspecten van 3D-scène-analyse over het hoofd zien. Dit beperkt de generalisatie en leidt tot slechte prestaties bij downstream 3D-begriptaken. Recente pogingen hebben dit probleem verlicht door simpelweg 3D-modellen af te stemmen op specifieke taalmodellen, waardoor de perceptie wordt beperkt tot de capaciteit van het afgestemde model en de aanpasbaarheid aan downstream taken wordt beperkt. In dit artikel stellen we InstanceGrounded Geometry Transformer (IGGT) voor, een end-to-end grote, verenigde transformer om de kennis voor zowel ruimtelijke reconstructie als instantiegebaseerd contextueel begrip te verenigen. Specifiek ontwerpen we een 3D-consistente contrastieve leerstrategie die IGGT begeleidt om een verenigde representatie te coderen met geometrische structuren en instantiegebaseerde clustering uitsluitend via 2D-visuele invoer. Deze representatie ondersteunt de consistente transformatie van 2D-visuele invoer naar een coherente 3D-scène met expliciet onderscheiden objectinstanties. Om deze taak te vergemakkelijken, construeren we verder InsScene-15K, een grootschalige dataset met hoogwaardige RGB-beelden, poses, dieptekaarten en 3D-consistente instantieniveau maskerannotaties via een nieuwe data-curatiepijplijn.
Diffusie- en flow matching-modellen zijn opgekomen als krachtige robotbeleidsmodellen, waardoor Vision-Language-Action (VLA)-modellen kunnen generaliseren over diverse scènes en instructies. Wanneer ze echter via imitatieleren worden getraind, maakt hun hoge generatieve capaciteit ze gevoelig voor ruis in menselijke demonstraties: schokken, pauzes en trillingen die de actiecoherentie verminderen. Verminderde actiecoherentie veroorzaakt instabiliteit en trajectdrift tijdens de inzet, fouten die catastrofaal zijn bij fijnmazige manipulatie waar precisie cruciaal is. In dit artikel presenteren we Action Coherence Guidance (ACG) voor VLA-modellen, een trainingsvrij testtijd-begeleidingsalgoritme dat de actiecoherentie verbetert en daardoor prestatieverbeteringen oplevert. Geëvalueerd op RoboCasa, DexMimicGen en real-world SO-101-taken, verbetert ACG consistent de actiecoherentie en verhoogt het de slagingspercentages bij diverse manipulatietaken. Code en projectpagina zijn beschikbaar op respectievelijk https://github.com/DAVIAN-Robotics/ACG en https://DAVIAN-Robotics.github.io/ACG.
Tekst-embeddingmodellen vormen een fundamenteel onderdeel in real-world zoektoepassingen. Door queries en documenten af te beelden in een gedeelde embeddedingsruimte, leveren ze competitieve retrievalkwaliteit met hoge efficiëntie. Hun rankingnauwkeurigheid blijft echter beperkt in vergelijking met gespecialiseerde rerankers, met name recente listwise rerankers op basis van LLM's, die fijnmazige query-document- en document-documentinteracties vastleggen. In dit artikel stellen we een eenvoudig maar effectief unified framework voor, E^2Rank (Efficient Embedding-based Ranking, ook wel Embedding-to-Rank), dat een enkel tekst-embeddingmodel uitbreidt om zowel hoogwaardige retrieval als listwise reranking uit te voeren door middel van voortgezette training onder een listwise rankingdoelstelling, waardoor sterke effectiviteit wordt bereikt met opmerkelijke efficiëntie. Door de cosinusgelijkenis tussen de query- en document-embeddings te gebruiken als een uniforme rankingfunctie, dient de listwise ranking-prompt, die is opgebouwd uit de originele query en zijn kandidaat-documenten, als een versterkte query die is verrijkt met signalen uit de top-K documenten, vergelijkbaar met pseudo-relevance feedback (PRF) in traditionele retrievalmodellen. Dit ontwerp behoudt de efficiëntie en representatiekwaliteit van het basale embeddingmodel, terwijl de rerankingprestaties aanzienlijk worden verbeterd. Empirisch behaalt E^2Rank state-of-the-art resultaten op de BEIR reranking-benchmark en demonstreert het competitieve prestaties op de reasoning-intensieve BRIGHT-benchmark, met zeer lage rerankinglatentie. We tonen ook aan dat het rankingtrainingsproces de embeddingprestaties op de MTEB-benchmark verbetert. Onze bevindingen geven aan dat een enkel embeddingmodel effectief retrieval en reranking kan verenigen, waarbij zowel computationele efficiëntie als competitieve rankingnauwkeurigheid worden geboden.
Grote Multimodale Modellen (LMM's) hebben opmerkelijke vooruitgang geboekt in het genereren van fotorealistische en prompt-afgestemde beelden, maar produceren vaak uitvoer die in tegenspraak is met verifieerbare kennis, vooral wanneer prompts fijnmazige attributen of tijdgevoelige gebeurtenissen bevatten. Conventionele, met retrieval-augmented benaderingen proberen dit probleem aan te pakken door externe informatie in te brengen, maar zijn fundamenteel niet in staat om de generatie te grondvesten in accurate en evoluerende kennis vanwege hun afhankelijkheid van statische bronnen en oppervlakkige integratie van bewijs. Om deze kloof te overbruggen, introduceren we ORIG, een agent-gebaseerd open multimodaal retrieval-augmented raamwerk voor Factuele Beeldgeneratie (FIG), een nieuwe taak die zowel visueel realisme als feitelijke onderbouwing vereist. ORIG haalt iteratief multimodaal bewijs op van het web, filtert dit, en integreert de verfijnde kennis stapsgewijs in verrijkte prompts om de generatie te sturen. Om een systematische evaluatie mogelijk te maken, bouwden we FIG-Eval, een benchmark die tien categorieën omspant over perceptuele, compositionele en temporele dimensies. Experimenten tonen aan dat ORIG de feitelijke consistentie en de algehele beeldkwaliteit aanzienlijk verbetert ten opzichte van sterke baseline-methoden, wat het potentieel aantoont van open multimodale retrieval voor feitelijke beeldgeneratie.
Videogeneratie is een cruciale weg naar wereldmodellen, waarbij efficiënte inferentie van lange video's een sleutelcapaciteit is. Hiertoe introduceren we LongCat-Video, een fundamenteel videogeneratiemodel met 13,6B parameters, dat sterke prestaties levert bij diverse videogeneratietaken. Het blinkt vooral uit in efficiënte en hoogwaardige generatie van lange video's, wat onze eerste stap vertegenwoordigt naar wereldmodellen. Belangrijke kenmerken zijn: * **Unificieke architectuur voor meerdere taken:** Gebaseerd op het Diffusion Transformer (DiT) framework ondersteunt LongCat-Video Text-to-Video, Image-to-Video en Video-Vervolg taken met een enkel model. * **Generatie van lange video's:** Pre-training op Video-Vervolg taken stelt LongCat-Video in staat om hoge kwaliteit en temporele coherentie te behouden bij het genereren van minutenlange video's. * **Efficiënte inferentie:** LongCat-Video genereert 720p, 30fps video's binnen enkele minuten door een coarse-to-fine generatiestrategie toe te passen langs zowel de temporele als spatiale assen. Block Sparse Attention verbetert de efficiëntie verder, vooral bij hoge resoluties. * **Sterke prestaties met multi-reward RLHF:** Training met multi-reward Reinforcement Learning from Human Feedback (RLHF) stelt LongCat-Video in staat om prestaties te bereiken die vergelijkbaar zijn met de nieuwste closed-source en toonaangevende open-source modellen. Code en modelgewichten zijn openbaar beschikbaar om de vooruitgang in het veld te versnellen.
Multi-head attention (MHA) is de hoeksteen geworden van moderne grote taalmodel(len), waarbij de representatiecapaciteit wordt vergroot door parallelle aandachtskoppen. Het vergroten van het aantal koppen verzwakt echter inherent de capaciteit van individuele koppen, en bestaande aandachtmechanismen - of het nu standaard MHA of varianten zoals grouped-query attention (GQA) en grouped-tied attention (GTA) zijn - voegen eenvoudigweg de uitvoeren van geïsoleerde koppen samen zonder sterke interactie. Om deze beperking aan te pakken, stellen wij knocking-heads attention (KHA) voor, waarbij aandachtskoppen op elkaar kunnen "kloppen" - dit vergemakkelijkt interacties op feature-niveau tussen koppen vóór de scaled dot-product attention. Dit wordt bereikt door een gedeelde, diagonaal geïnitialiseerde projectiematrix toe te passen op alle koppen. De diagonale initialisatie behoudt kop-specifieke specialisatie aan het begin van de training, terwijl het model geleidelijk geïntegreerde representaties tussen koppen kan leren. KHA voegt slechts minimale parameters en FLOPs toe en kan naadloos worden geïntegreerd in MHA, GQA, GTA en andere aandachtvarianten. Wij valideren KHA door een MoE-model met 6,1B parameters (1,01B geactiveerd) te trainen op 1T hoogwaardige tokens. In vergelijking met baseline-aandachtmechanismen biedt KHA superieure en stabielere trainingsdynamiek, wat resulteert in betere prestaties bij downstream-taken.
Beloningsmodellen (RMs) spelen een cruciale rol bij het afstemmen van AI-gedrag op menselijke voorkeuren, maar worden geconfronteerd met twee fundamentele uitdagingen: (1) Modaliteitsonevenwicht, waarbij de meeste RMs voornamelijk gericht zijn op tekst- en beeldmodaliteiten en beperkte ondersteuning bieden voor video, audio en andere modaliteiten; en (2) Voorkeursrigiditeit, waarbij training op vaste binaire voorkeursparen de complexiteit en diversiteit van gepersonaliseerde voorkeuren niet kan vastleggen. Om deze uitdagingen aan te pakken, stellen wij Omni-Reward voor, een stap in de richting van generalistische omni-modale beloningsmodellering met ondersteuning voor vrije-vorm voorkeuren, bestaande uit: (1) Evaluatie: We introduceren Omni-RewardBench, de eerste omni-modale RM-benchmark met vrije-vorm voorkeuren, die negen taken beslaat over vijf modaliteiten, waaronder tekst, beeld, video, audio en 3D; (2) Data: We construeren Omni-RewardData, een multimodaal voorkeursdataset bestaande uit 248K algemene voorkeursparen en 69K instructie-afstemmingsparen voor het trainen van generalistische omni-modale RMs; (3) Model: We stellen Omni-RewardModel voor, dat zowel discriminerende als generatieve RMs omvat, en sterke prestaties behaalt op Omni-RewardBench evenals op andere veelgebruikte beloningsmodelleringsbenchmarks.
Multimodale grote taalmodellen (MLLM's) hebben sterke algemene capaciteiten getoond in visueel begrip van de open wereld. De meeste bestaande MLLM's richten zich echter voornamelijk op holistisch, sceneniveau-begrip en zien vaak de behoefte aan fijnmazige, objectgerichte redenering over het hoofd. In dit artikel presenteren we PixelRefer, een uniform MLLM-raamwerk op regioniveau dat geavanceerd fijnmazig begrip mogelijk maakt voor door de gebruiker gespecificeerde regio's in zowel afbeeldingen als video's. Gemotiveerd door de observatie dat LLM-aandacht zich voornamelijk richt op tokens op objectniveau, stellen we een Schaaladaptieve Object Tokenizer (SAOT) voor om compacte en semantisch rijke objectrepresentaties te genereren uit vrij-vorm regio's. Onze analyse toont aan dat globale visuele tokens voornamelijk bijdragen in de vroege LLM-lagen, wat de ontwerpinspiratie vormt voor PixelRefer-Lite, een efficiënte variant die een Objectgerichte Infusiemodule gebruikt om globale context vooraf te versmelten met objecttokens. Dit resulteert in een lichtgewicht Object-Only Framework dat de rekenkosten aanzienlijk verlaagt terwijl een hoge semantische trouw behouden blijft. Om fijnmazige instructie-afstemming te vergemakkelijken, hebben we PixelRefer-2.2M samengesteld, een hoogwaardige objectgerichte instructiedataset. Uitgebreide experimenten over een reeks benchmarks valideren dat PixelRefer toonaangevende prestaties bereikt met minder trainingsvoorbeelden, terwijl PixelRefer-Lite competitieve nauwkeurigheid biedt met aanzienlijke efficiëntiewinst.
De toepassing van Reinforcement Learning met Verifieerbare Beloningen (RLVR) op wiskundige en programmeerdomeinen heeft aanzienlijke verbeteringen aangetoond in de redeneer- en probleemoplossende vermogens van Large Language Models. Ondanks het succes bij het oplossen van problemen met een enkele generatie, kan het reinforcement learning fine-tuning proces het exploratievermogen van het model schaden, wat zich uit in een verminderde diversiteit van generaties en een daaruit voortvloeiende prestatievermindering tijdens Best-of-N sampling voor grote N-waarden. In dit werk richten we ons op het optimaliseren van de max@k-metriek, een continue generalisatie van pass@k. We leiden een zuivere on-policy gradient schatting af voor directe optimalisatie van deze metriek. Bovendien breiden we onze afleidingen uit naar off-policy updates, een veelvoorkomend element in moderne RLVR-algoritmen, wat een betere steekproevefficiëntie mogelijk maakt. Empirisch tonen we aan dat onze doelstelling effectief de max@k-metriek optimaliseert in off-policy scenario's, waardoor het model wordt afgestemd op de Best-of-N inferentiestrategie.
Unified multimodale modellen hebben recentelijk opmerkelijke vooruitgang geboekt in zowel capaciteit als veelzijdigheid, maar de meeste toonaangevende systemen worden nog steeds vanaf nul getraind en vereisen aanzienlijke rekenbronnen. In dit artikel tonen we aan dat competitieve prestaties veel efficiënter kunnen worden verkregen door strategisch gebruik te maken van publiek beschikbare modellen die gespecialiseerd zijn in generatie of begrip. Onze belangrijkste ontwerpkeuze is het behouden van de oorspronkelijke blokken, terwijl er tevens multimodale self-attention blokken door de netwerken heen worden verweven. Dit dubbele fusiemechanisme (1) maakt effectief rijke multimodale fusie mogelijk terwijl het grotendeels de oorspronkelijke sterke punten van de basismodellen behoudt, en (2) katalyseert een synergetische fusie van hoogwaardige semantische representaties van de begrips-encoder met laagwaardige ruimtelijke signalen van de generatie-encoder. Door training met slechts ~35B tokens bereikt deze aanpak sterke resultaten op meerdere benchmarks: 0.91 op GenEval voor compositionele tekst-naar-beeld generatie, 82.16 op DPG-Bench voor complexe tekst-naar-beeld generatie, 6.06 op GEditBench, en 3.77 op ImgEdit-Bench voor beeldbewerking. Door de volledige set code, modelgewichten en datasets vrij te geven, hopen we toekomstig onderzoek naar unified multimodale modellering te ondersteunen.
Visie-taalkundige afstemming in multimodale grote taalmodellen (MLLM's) berust typisch op supervised fine-tuning (SFT) of reinforcement learning (RL). SFT is stabiel en efficiënt maar vereist grootschalige menselijke annotaties en kan subtiele voorkeuren niet vastleggen, terwijl RL een beloningssignaal introduceert voor training, maar lijdt onder overhead en instabiliteit. Deze beperkingen benadrukken een afweging tussen schaalbaarheid, robuustheid en afstemmingskwaliteit. Om dit aan te pakken, stellen we MergeMix voor, een augmentatieparadigma tijdens de training dat SFT en RL verbindt. Het past eerst een aandacht-bewuste beeldmixing toe via token-samenvoeging met meer clusterrepresentatie en ruimtelijke context, en presenteert vervolgens een voorkeursgedreven trainingsparadigma voor MLLM's door voorkeursparen te bouwen met gemengde beelden en ruwe beelden, en te optimaliseren via SimPO-verlies. Als een mixup-augmentatie verbetert MergeMix de aandachtconsistentie en -efficiëntie, en overtreft andere heuristiek-gebaseerde methoden in classificatie. Uitgebreide experimenten tonen aan dat MergeMix competitieve nauwkeurigheid bereikt met verbeterde efficiëntie, en biedt een schaalbare aanpak voor voorkeursafstemming in classificatie en MLLM's.
Versterkend leren (Reinforcement Learning, RL) heeft aanzienlijk potentieel getoond om de redeneervermogens van grote taalmodellen (Large Language Models, LLM's) te verbeteren. Het succes van RL voor LLM's is echter sterk afhankelijk van door mensen samengestelde datasets en verifieerbare beloningen, wat hun schaalbaarheid en algemene toepasbaarheid beperkt. Recente zelf-spel (Self-Play) RL-methoden, geïnspireerd door het succes van dit paradigma in games en Go, streven ernaar de redeneervermogen van LLM's te verbeteren zonder door mensen geannoteerde data. Hun methoden zijn echter voornamelijk afhankelijk van een gegronde omgeving voor feedback (bijvoorbeeld een Python-interpreter of een game-engine); het uitbreiden ervan naar algemene domeinen blijft een uitdaging. Om deze uitdagingen aan te pakken, stellen we Multi-Agent Evolve (MAE) voor, een raamwerk dat LLM's in staat stelt zichzelf te ontwikkelen bij het oplossen van diverse taken, waaronder wiskunde, redeneren en algemene kennis Q&A. De kernontwerp van MAE is gebaseerd op een triplet van interagerende agents (Voorsteller, Oplosser, Beoordelaar) die worden geïnstantieerd vanuit één enkel LLM, en past versterkend leren toe om hun gedrag te optimaliseren. De Voorsteller genereert vragen, de Oplosser probeert oplossingen en de Beoordelaar evalueert beide, terwijl ze gezamenlijk evolueren. Experimenten met Qwen2.5-3B-Instruct tonen aan dat MAE een gemiddelde verbetering van 4,54% bereikt op meerdere benchmarks. Deze resultaten benadrukken MAE als een schaalbare, data-efficiënte methode voor het verbeteren van de algemene redeneervermogens van LLM's met minimale afhankelijkheid van door mensen samengesteld toezicht.
De zoektocht naar robotgeneralisten – programmeerbare agents die in staat zijn tot uiteenlopende taken in diverse omgevingen – vereist een rigoureuze en schaalbare evaluatie. Toch wordt real-world testen van robotbeleid fundamenteel beperkt door praktische beperkingen: het is arbeidsintensief, traag, onveilig op grote schaal en moeilijk te reproduceren. Bestaande simulatiebenchmarks kampen met vergelijkbare beperkingen, omdat ze beleid trainen en testen binnen dezelfde synthetische domeinen en geen modellen kunnen beoordelen die zijn getraind op real-world demonstraties of alternatieve simulatieomgevingen. Naarmate het beleid in omvang en complexiteit toeneemt, worden deze barrières alleen maar groter, aangezien "succes" in de robotica vaak afhangt van genuanceerde menselijke beoordelingen van uitvoeringskwaliteit. In dit artikel introduceren we een nieuw benchmarkkader dat deze uitdagingen overwint door de evaluatie van VLA's te verplaatsen naar grootschalige gesimuleerde omgevingen, versterkt met online menselijke feedback. Door gebruik te maken van vooruitgang in vision-language modellen, generatieve 2D-naar-3D-modellering en differentieerbaar renderen, zet onze aanpak videodemonstraties uit veelgebruikte robotdatasets automatisch om in gesimuleerde tegenhangers. Binnen deze digitale tweelingen beoordelen we VLA-beleid met zowel geautomatiseerde, door VLM-gestuurde scoring als schaalbare beoordelingen van menselijke voorkeuren, verzameld via crowdworkers. Hierdoor verandert menselijke betrokkenheid van vervelende scène-opbouw, resetten en veiligheidstoezicht in lichte voorkeursvergelijkingen. Om robuustheid te meten, verstoren we gesimuleerde omgevingen systematisch langs meerdere assen, zoals texturen en objectplaatsingen, om de generalisatie van beleid onder gecontroleerde variatie stresstesten. Het resultaat is een continu evoluerende, reproduceerbare en schaalbare benchmark voor in de real-world getraind robotmanipulatiebeleid, die een cruciaal ontbrekend vermogen in het huidige roboticalandschap adresseert.
Bestaande benaderingen zijn doorgaans afhankelijk van grootschalige fine-tuning om taalmodellen aan te passen voor herrangkings-taken, wat rekenkundig kostbaar is. In dit werk tonen we aan dat moderne taalmodellen effectief kunnen worden aangepast met uitsluitend minimale, hoogwaardige supervisie. Hiertoe ontwikkelen we LIMRANK-SYNTHESIZER, een herbruikbare en open-source pijplijn voor het genereren van diverse, uitdagende en realistische herrangkingsvoorbeelden. Met behulp van deze synthetische data fine-tunen we ons herrangkingsmodel, LIMRANK. We evalueren LIMRANK op twee uitdagende benchmarks, namelijk BRIGHT voor reasoning-intensief zoeken en FollowIR voor instructievolgend zoeken. Onze experimenten tonen aan dat LIMRANK competitieve prestaties levert, terwijl het getraind is op minder dan 5% van de data die doorgaans in eerder werk wordt gebruikt. Verdere ablatiestudies demonstreren de effectiviteit van LIMRANK-SYNTHESIZER en de sterke generalisatiecapaciteiten van LIMRANK voor downstream-taken, waaronder het zoeken in wetenschappelijke literatuur en retrieval-augmented generation voor kennisintensief probleemoplossen.
Grote Taalmodellen (LLM's) zijn waardevolle assistenten geworden voor ontwikkelaars bij code-gerelateerde taken. Hoewel LLM's uitblinken in traditionele programmeertaken zoals codegeneratie en bugfixes, hebben ze moeite met visueel georiënteerde codeertaken, waarbij ze vaak suboptimale esthetiek produceren. In dit artikel introduceren we een nieuwe pijplijn om de esthetische kwaliteit van door LLM's gegenereerde code te verbeteren. We construeren eerst AesCode-358K, een grootschalige instruction-tuning dataset gericht op code-esthetiek. Vervolgens stellen we *agentic reward feedback* voor, een multi-agent systeem dat de uitvoerbaarheid, statische esthetiek en interactieve esthetiek evalueert. Hierop voortbordurend ontwikkelen we GRPO-AR, dat deze signalen integreert in het GRPO-algoritme voor gezamenlijke optimalisatie van functionaliteit en code-esthetiek. Ten slotte ontwikkelen we OpenDesign, een benchmark voor het beoordelen van code-esthetiek. Experimentele resultaten tonen aan dat de combinatie van supervised fine-tuning op AesCode-358K met reinforcement learning met behulp van *agentic reward feedback* de prestaties op OpenDesign aanzienlijk verbetert en ook de resultaten op bestaande benchmarks zoals PandasPlotBench versterkt. Opmerkelijk is dat onze AesCoder-4B GPT-4o en GPT-4.1 overtreft, en prestaties bereikt die vergelijkbaar zijn met grote open-source modellen met 480B-685B parameters, wat de effectiviteit van onze aanpak onderstreept.
Beeld Auto-regressieve (AR) modellen zijn naar voren gekomen als een krachtig paradigma voor visuele generatieve modellen. Ondanks hun veelbelovende prestaties hebben ze last van een trage generatiesnelheid vanwege het grote aantal benodigde samplingstappen. Hoewel Distilled Decoding 1 (DD1) recentelijk werd voorgesteld om sampling in weinig stappen mogelijk te maken voor beeld-AR-modellen, leidt het nog steeds tot aanzienlijke prestatievermindering in de instelling met één stap, en is het afhankelijk van een vooraf gedefinieerde mapping die de flexibiliteit beperkt. In dit werk stellen we een nieuwe methode voor, Distilled Decoding 2 (DD2), om de haalbaarheid van sampling in één stap voor beeld-AR-modellen verder te bevorderen. In tegenstelling tot DD1 is DD2 niet afhankelijk van een vooraf gedefinieerde mapping. We beschouwen het oorspronkelijke AR-model als een leraarmodel dat de grondwaarheid conditionele score verschaft in de latente inbeddingsruimte op elke tokenpositie. Op basis hiervan stellen we een nieuw verlies voor conditionele score-distillatie voor om een generator voor één stap te trainen. Specifiek trainen we een apart netwerk om de conditionele score van de gegenereerde verdeling te voorspellen en passen we score-distillatie toe op elke tokenpositie, geconditioneerd op voorgaande tokens. Experimentele resultaten tonen aan dat DD2 sampling in één stap mogelijk maakt voor beeld-AR-modellen met een minimale FID-stijging van 3.40 naar 5.43 op ImageNet-256. Vergeleken met de sterkste baseline DD1, verkleint DD2 de kloof tussen sampling in één stap en het oorspronkelijke AR-model met 67%, met tegelijkertijd een trainingsversnelling tot 12,3 keer. DD2 zet een significante stap richting het doel van AR-generatie in één stap, wat nieuwe mogelijkheden opent voor snelle en hoogwaardige AR-modellering. Code is beschikbaar op https://github.com/imagination-research/Distilled-Decoding-2.
Fysische simulatie berust op ruimtelijk variërende mechanische eigenschappen, die vaak moeizaam handmatig worden vervaardigd. VoMP is een forward-propagatiemethode die is getraind om de elasticiteitsmodulus (E), de Poisson-ratio (ν) en de dichtheid (ρ) te voorspellen in het gehele volume van 3D-objecten, in elke representatie die kan worden gerenderd en gevoxeliseerd. VoMP aggregeert per-voxel multi-view kenmerken en geeft deze door aan onze getrainde Geometry Transformer om per-voxel materiaal latente codes te voorspellen. Deze latente codes bevinden zich op een variëteit van fysisch plausibele materialen, die we leren uit een real-world dataset, waardoor de geldigheid van de gedecodeerde per-voxel materialen wordt gegarandeerd. Om object-level trainingsdata te verkrijgen, stellen we een annotatiepijplijn voor die kennis combineert uit gesegmenteerde 3D-datasets, materiaaldatabases en een vision-language model, samen met een nieuwe benchmark. Experimenten tonen aan dat VoMP nauwkeurige volumetrische eigenschappen schat, en daarbij de eerdere staat van de techniek ver overtreft in nauwkeurigheid en snelheid.
Wij introduceren PRISM-Bench, een benchmark met op puzzels gebaseerde visuele uitdagingen die is ontworpen om niet alleen te evalueren of modellen problemen kunnen oplossen, maar ook hoe hun redenering verloopt. In tegenstelling tot eerdere evaluaties die alleen de nauwkeurigheid van het eindantwoord meten, introduceert PRISM-Bench een diagnostische taak: gegeven een visuele puzzel en een stapsgewijze 'chain-of-thought' (CoT) die precies één fout bevat, moeten modellen de eerste incorrecte stap identificeren. Deze opzet maakt een gedetailleerde beoordeling mogelijk van logische consistentie, foutdetectie en visueel redeneervermogen. De puzzels in PRISM-Bench vereisen meerstaps symbolisch, geometrisch en analogy-based redeneren, waardoor shortcuts op basis van oppervlakkige patroonherkenning worden tegengegaan. Evaluaties van state-of-the-art MLLM's (Multimodale Large Language Models) tonen een hardnekkige kloof tussen vloeiende generatie en betrouwbaar redeneren: modellen die plausibele CoT's produceren, slagen er vaak niet in eenvoudige logische fouten te lokaliseren. Door het genereren van antwoorden te scheiden van de verificatie van de redenering, biedt PRISM-Bench een scherpere blik op multimodaal redeneervermogen en benadrukt het de noodzaak van diagnostische evaluatieprotocollen bij de ontwikkeling van betrouwbare MLLM's.
Huidige 3D/4D-generatiemethoden zijn doorgaans geoptimaliseerd voor fotorealisme, efficiëntie en esthetiek. Ze slagen er echter vaak niet in de semantische identiteit van het onderwerp bij verschillende gezichtspunten te behouden. Het aanpassen van generatiemethoden met één of enkele afbeeldingen van een specifiek onderwerp (ook wel personalisatie of onderwerpgestuurde generatie genoemd) maakt het mogelijk visuele inhoud te genereren die overeenkomt met de identiteit van het onderwerp. Toch is gepersonaliseerde 3D/4D-generatie grotendeels nog onvoldoende onderzocht. In dit werk introduceren we TIRE (Track, Inpaint, REsplat), een nieuwe methode voor onderwerpgestuurde 3D/4D-generatie. De methode neemt een initieel 3D-model gegenereerd door een bestaand 3D-generatief model als invoer en gebruikt videotracking om de regio's te identificeren die aangepast moeten worden. Vervolgens passen we een onderwerpgestuurd 2D-inpaintingmodel toe om de geïdentificeerde regio's progressief in te vullen. Ten slotte splatten we de aangepaste 2D-multi-viewobservaties terug naar 3D met behoud van consistentie. Uitgebreide experimenten tonen aan dat onze aanpak de identiteitsbehoud in 3D/4D-generatie significant verbetert in vergelijking met state-of-the-artmethoden. Onze projectwebsite is beschikbaar op https://zsh2000.github.io/track-inpaint-resplat.github.io/.
Fotorealistische 3D-reconstructie van het volledige menselijk lichaam uit één enkele afbeelding is een cruciale maar uitdagende taak voor toepassingen in films en videogames vanwege inherente ambiguïteiten en ernstige zelf-occlusies. Hoewel recente methoden gebruikmaken van SMPL-schatting en op SMPL-geconditioneerde beeldgeneratieve modellen om nieuwe aanzichten te hallucineren, lijden zij onder onnauwkeurige 3D-priors geschat uit SMPL-meshes en hebben zij moeite met moeilijke menselijke houdingen en het reconstrueren van fijne details. In dit artikel stellen wij SyncHuman voor, een nieuw raamwerk dat voor het eerst een 2D-meerzicht-generatief model en een 3D-native generatief model combineert, waardoor hoogwaardige reconstructie van geklede menselijke meshes mogelijk wordt vanuit enkelvoudige beelden, zelfs bij uitdagende menselijke houdingen. Het meerzicht-generatieve model excelleert in het vastleggen van fijne 2D-details maar worstelt met structurele consistentie, terwijl het 3D-native generatieve model grove maar structureel consistente 3D-vormen genereert. Door de complementaire sterke punten van deze twee benaderingen te integreren, ontwikkelen wij een effectiever generatieraamwerk. Specifiek fine-tunen wij eerst gezamenlijk het meerzicht-generatieve model en het 3D-native generatieve model met een voorgestelde pixel-gealigneerde 2D-3D-synchronisatie-attentie om geometrisch uitgelijnde 3D-vormen en 2D-meerzichtbeelden te produceren. Om de details verder te verbeteren, introduceren wij een feature-injectiemechanisme dat fijne details optilt vanuit de 2D-meerzichtbeelden naar de uitgelijnde 3D-vormen, waardoor nauwkeurige en hoogwaardige reconstructie mogelijk wordt. Uitgebreide experimenten tonen aan dat SyncHuman robuuste en fotorealistische 3D-mensreconstructie bereikt, zelfs voor beelden met uitdagende houdingen. Onze methode overtreft baseline-methoden in geometrische nauwkeurigheid en visuele kwaliteit, wat een veelbelovende richting voor toekomstige 3D-generatiemodellen aantoont.
Grote taalmodellen hallucineren routinematig API's en lokaliseren bewerkingen foutief, terwijl taalservers geverifieerde, IDE-kwaliteit feiten over echte code berekenen. Wij presenteren Lanser-CLI, een CLI-first orchestratielaag die een Language Server Protocol (LSP)-server vastpint en bemiddelt voor codeeragenten en CI, waarbij deterministische, herhaalbare werkstromen worden blootgelegd. Ons standpunt is dat taalservers niet alleen structurele informatie verschaffen (definities, referenties, types, diagnostiek) maar ook een actiebaar procesbeloning: machinegeverifieerde, stapsgewijze signalen die de planninglus van een agent uitlijnen met de programmeerrealiteit. In dit werk levert Lanser-CLI de volgende bijdragen: (i) een robuust adresseerschema voorbij broze "bestand:regel:kolom" via een Selector-DSL (symbolische, AST-pad- en inhoudsgeankerde selectors) met een principieel herlocalisatiealgoritme; (ii) deterministische Analysebundels die Language Server-reacties normaliseren en omgevings-/mogelijkheidsmetadata vastleggen met stabiele inhoudshashes; (iii) een veiligheidsenvelop voor muterende operaties (hernoemen, code-acties) met voorbeeldweergave, workspace-afgeschermde omgevingen en Git-bewuste, transactionele toepassing; en (iv) een procesbeloningsfunctie afgeleid van Language Server-feiten (diagnostische delta's, disambiguatiebetrouwbaarheid en veilige-toepassingscontroles) die online berekenbaar en offline herspeelbaar is. Wij formaliseren determinisme onder bevroren momentopnamen en stellen een monotoniciteitseigenschap vast voor de procesbeloning, waardoor deze geschikt is voor processupervisie en tegenfeitelijke analyse. Projectpagina: https://github.com/yifanzhang-pro/lanser-cli
Dit artikel presenteert een systematische studie naar schaalwetten voor de taak van deepfake-detectie. Concreet analyseren we de modelprestatie in relatie tot het aantal domeinen met echte afbeeldingen, deepfake-generatiemethoden en trainingsafbeeldingen. Aangezien geen enkele bestaande dataset voldoet aan de schaaleisen voor dit onderzoek, construeren we ScaleDF, de grootste dataset tot op heden op dit gebied, die meer dan 5,8 miljoen echte afbeeldingen uit 51 verschillende datasets (domeinen) en meer dan 8,8 miljoen nepafbeeldingen bevat, gegenereerd door 102 deepfake-methoden. Met behulp van ScaleDF observeren we een machtswet-schaling die vergelijkbaar is met die in grote taalmodellen (LLM's). Specifiek volgt de gemiddelde detectiefout een voorspelbaar machtswet-verval naarmate het aantal echte domeinen of het aantal deepfake-methoden toeneemt. Deze cruciale observatie stelt ons niet alleen in staat te voorspellen hoeveel extra echte domeinen of deepfake-methoden nodig zijn om een streefprestatie te bereiken, maar inspireert ons ook om de evoluerende deepfake-technologie op een data-gecentreerde manier te counteren. Daarnaast onderzoeken we de rol van vooraf trainen en data-augmentatie bij deepfake-detectie onder schaling, evenals de beperkingen van schaling zelf.
Grote taalmodellen (LLM's) blinken uit in zero-shot inferentie maar blijven moeite houden met complexe, meerstaps redenering. Recente methoden die LLM's verrijken met tussenliggende redeneerstappen, zoals Chain of Thought (CoT) en Program of Thought (PoT), verbeteren de prestaties maar produceren vaak ongewenste oplossingen, vooral in algoritmische domeinen. Wij introduceren Per-Instance Program Synthesis (PIPS), een methode die programma's op instantieniveau genereert en verfijnt met behulp van structurele feedback, zonder te vertrouwen op taakspecifieke richtlijnen of expliciete testgevallen. Om de prestaties verder te verbeteren, integreert PIPS een betrouwbaarheidsmetriek die dynamisch kiest tussen directe inferentie en programsynthese op basis van elke individuele instantie. Experimenten met drie vooraanstaande LLM's en 30 benchmarks – inclusief alle taken van Big Bench Extra Hard (BBEH), visuele vraag-antwoordtaken, relationele redeneertaken en wiskundige redeneertaken – tonen aan dat PIPS de absolute harmonische gemiddelde nauwkeurigheid met respectievelijk tot 8,6% en 9,4% verbetert ten opzichte van PoT en CoT, en de ongewenste programma-generaties met 65,1% reduceert op de algoritmische taken in vergelijking met PoT bij gebruik van Gemini-2.0-Flash.
Recente vooruitgang in het versnellen van tekst-naar-beeld (T2I) diffusiemodellen heeft de synthese van hoogwaardige afbeeldingen mogelijk gemaakt, zelfs in één enkele stap. Het personaliseren van deze modellen om nieuwe concepten op te nemen blijft echter een uitdaging, vanwege de beperkte capaciteit van éénstapsmodellen om nieuwe conceptdistributies effectief vast te leggen. Wij stellen een bidirectioneel conceptdistillatiekader voor, EchoDistill, om personalisatie in één stap (1-SDP) mogelijk te maken. Onze aanpak omvat een end-to-end trainingsproces waarbij een meerstaps diffusiemodel (leraar) en een éénstaps diffusiemodel (leerling) gelijktijdig worden getraind. Het concept wordt eerst gedistilleerd van het leraarmodel naar het leermodel, en vervolgens teruggekaatst van de leerling naar de leraar. Tijdens EchoDistill delen we de tekstencoder tussen de twee modellen om een consistente semantische interpretatie te waarborgen. Hierna wordt het leermodel geoptimaliseerd met adversariële verliezen om af te stemmen op de distributie van echte afbeeldingen, en met aligneringsverliezen om consistentie met de output van de leraar te behouden. Verder introduceren we de bidirectionele terugkoppelingsverfijningsstrategie, waarbij het leermodel zijn snellere generatievermogen benut om feedback te geven aan het leraarmodel. Dit bidirectionele conceptdistillatiemechanisme verbetert niet alleen het vermogen van de leerling om nieuwe concepten te personaliseren, maar ook de generatieve kwaliteit van het leraarmodel. Onze experimenten tonen aan dat dit collaboratieve kader bestaande personalisatiemethoden in de 1-SDP-opzet significant overtreft, en zo een nieuw paradigma vestigt voor snelle en effectieve personalisatie in T2I-diffusiemodellen.
Wij presenteren geheugen-gebaseerd taalmodelleren als een efficiënt, milieuvriendelijk alternatief voor taalmodellering op basis van diepe neurale netwerken. Het biedt logaritmisch-lineair schaalbare prestaties voor next-token-voorspelling en sterke memorisatiecapaciteiten. Door snelle benaderingen van k-dichtstbijzijnde-buurclassificatie te implementeren, laat geheugen-gebaseerd taalmodelleren een relatief kleine ecologische voetafdruk achter, zowel tijdens training als tijdens inferentie, omdat het volledig op CPU's draait en lage tokenlatenties bereikt. De interne werking is eenvoudig en volledig transparant. Wij vergelijken onze implementatie van geheugen-gebaseerd taalmodelleren, OLIFANT, met GPT-2 en GPT-Neo op next-token-voorspellingsnauwkeurigheid, geschatte emissies en snelheden, en bieden enkele diepere analyses van het model.
In dit artikel presenteren wij een nieuw op diffusie gebaseerd model voor rijstrookdetectie, genaamd DiffusionLane, dat de taak van rijstrookdetectie behandelt als een denoisering-diffusieproces in de parameterruimte van de rijstrook. Ten eerste voegen we Gaussische ruis toe aan de parameters (het startpunt en de hoek) van grondwaarheid-rijstroken om verstoorde rijstrookankers te verkrijgen, waarbij het model leert om deze verstoorde ankers op een progressieve manier te verfijnen om de doelrijstroken te verkrijgen. Ten tweede stellen we een hybride decodeerstrategie voor om de zwakke kenmerkrepresentatie van de encoder aan te pakken, die voortkomt uit de verstoorde rijstrookankers. Concreet ontwerpen we een hybride diffusiedecoder die globale en lokale decoders combineert voor hoogwaardige rijstrookankers. Vervolgens gebruiken we, om de kenmerkrepresentatie van de encoder te verbeteren, een hulpkop (auxiliary head) tijdens de trainingsfase om leerbare rijstrookankers toe te passen voor een verrijkte supervisie op de encoder. Experimentele resultaten op vier benchmarks, Carlane, Tusimple, CULane en LLAMAS, tonen aan dat DiffusionLane een sterke generalisatiecapaciteit en veelbelovende detectieprestaties bezit in vergelijking met eerdere state-of-the-art methoden. Zo overtreft DiffusionLane met ResNet18 de bestaande methoden met ten minste 1% nauwkeurigheid op de domeinadaptatiedataset Carlane. Daarnaast behaalt DiffusionLane met MobileNetV4 een F1-score van 81,32% op CULane, 96,89% nauwkeurigheid op Tusimple met ResNet34, en een F1-score van 97,59% op LLAMAS met ResNet101. De code zal beschikbaar zijn op https://github.com/zkyntu/UnLanedet.
Diffusion Transformers (DiTs) leveren toonaangevende generatieve prestaties, maar hun kwadratische trainingskosten ten opzichte van de sequentielengte maken grootschalige voorafgaande training (pretraining) buitensporig duur. Token dropping kan de trainingskosten verlagen, maar naïeve strategieën verslechteren de representaties, en bestaande methoden zijn ofwel parameterrijk of falen bij hoge drop-ratio's. Wij presenteren SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, een eenvoudige methode die agressief token dropping (tot 75%) mogelijk maakt zonder kwaliteitsverlies. SPRINT benut de complementaire rollen van ondiepe en diepe lagen: vroege lagen verwerken alle tokens om lokale details vast te leggen, diepere lagen werken op een sparse subset om de rekenkracht te verminderen, en hun uitvoeren worden via residuele verbindingen samengevoegd (gefuseerd). De training volgt een tweefasenschema: een lange gemaskeerde voorafgaande training voor efficiëntie, gevolgd door een korte fine-tuning met alle tokens om de kloof tussen training en inferentie te dichten. Op ImageNet-1K 256x256 behaalt SPRINT een 9,8x besparing in trainingskosten met vergelijkbare FID/FDD, en tijdens de inferentie halveert de Path-Drop Guidance (PDG) de FLOPs bijna terwijl de kwaliteit verbetert. Deze resultaten positioneren SPRINT als een eenvoudige, effectieve en algemene oplossing voor efficiënte DiT-training.
De opmerkelijke successen van diffusie- en flow-matching-modellen hebben een golf van onderzoeken ontketend om ze tijdens de testfase aan te passen voor gecontroleerde generatietaken. Voorbeelden variëren van beeldbewerking tot restauratie, compressie en personalisatie. Vanwege het iteratieve karakter van het steekproefproces in deze modellen is het echter rekenkundig onpraktisch om op gradienten gebaseerde optimalisatie te gebruiken om het beeld dat aan het einde van het proces wordt gegenereerd direct te controleren. Als gevolg daarvan grijpen bestaande methoden doorgaans naar het afzonderlijk manipuleren van elke tijdstap. Hier introduceren we FlowOpt - een zero-order (gradient-vrije) optimalisatieraamwerk dat het gehele flow-proces als een black box behandelt, waardoor optimalisatie door het hele steekproefpad mogelijk is zonder backpropagatie door het model. Onze methode is zowel zeer efficiënt als gebruiksvriendelijk, doordat gebruikers de tussentijdse optimalisatieresultaten kunnen monitoren en indien gewenst vroegtijdig kunnen stoppen. We bewijzen een voldoende voorwaarde voor de stapgrootte van FlowOpt, waarborgen gegarandeerde convergentie naar het globale optimum. We tonen verder aan hoe deze bovengrens empirisch kan worden geschat om een geschikte stapgrootte te kiezen. We demonstreren hoe FlowOpt kan worden gebruikt voor beeldbewerking, waarbij we twee opties tonen: (i) inversie (het bepalen van de initiële ruis die een gegeven beeld genereert), en (ii) het direct sturen van het bewerkte beeld om vergelijkbaar te zijn met het bronbeeld, terwijl het voldoet aan een doeltekstprompt. In beide gevallen behaalt FlowOpt state-of-the-art resultaten, terwijl het ruwweg hetzelfde aantal neurale functie-evaluaties (NFA's) gebruikt als bestaande methoden. Code en voorbeelden zijn beschikbaar op de projectwebpagina.
Matrix-gebaseerde voorgeconditioneerde optimalisatiemethoden, zoals Muon, zijn recentelijk aangetoond efficiënter te zijn dan scalaire optimalisatiemethoden voor het trainen van grootschalige neurale netwerken, waaronder grote taalmmodellen (LLM's). Anderzijds hebben recente benchmarks van optimalisatiemethoden voor LLM-pre-training aangetoond dat variantiereductietechnieken zoals MARS aanzienlijke snelheidswinsten kunnen bereiken ten opzichte van standaard optimalisatiemethoden die geen variantiereductie toepassen. In dit artikel introduceren we, om het beste van beide werelden te combineren, MARS-M: een nieuwe optimalisatiemethode die de variantiereductietechniek van MARS integreert met Muon. Onder standaard regulariteitsvoorwaarden bewijzen we dat Muon-M convergeert naar een stationair punt van de eerste orde met een snelheid van mathcal{O}(T^{-1/3}), wat een verbetering is ten opzichte van de mathcal{O}(T^{-1/4})-snelheid die door Muon wordt bereikt. Onze empirische resultaten voor taalmodelleer- en computervisietaken tonen aan dat MARS-M consistent lagere verliezen en verbeterde prestaties oplevert op verschillende downstream benchmarks. De implementatie van MARS-M is beschikbaar op https://github.com/AGI-Arena/MARS/MARS_M.
Grote taalmodellen (LLM's) hebben recentelijk vooruitgang geboekt in auditieve spraakherkenning (ASR), visuele spraakherkenning (VSR) en audiovisuele spraakherkenning (AVSR). Het begrip van hun interne dynamiek tijdens fine-tuning blijft echter beperkt. In natuurlijke taalverwerking heeft recent onderzoek aandacht-sinks aan het licht gebracht: tokens die onevenredig veel aandacht aantrekken, en daaraan gerelateerde massieve activaties waarbij sommige kenmerken van sink-tokens enorme activatie vertonen in LLM's. In dit werk bestuderen wij als eerste deze fenomenen in multimodale spraakherkenning. Via een gedetailleerde analyse van audiovisuele LLM's identificeren we aandacht-sinks en massieve activaties, niet alleen bij het BOS-token maar ook bij intermediaire tokens met lage semantiek in ASR, VSR en AVSR. We tonen aan dat massieve activaties ontstaan in de MLP-lagen en overeenkomen met vaste kenmerkindices voor alle sink-tokens. Verder tonen we aan dat intermediaire sink-tokens een hoge cosinusgelijkenis vertonen met het BOS-token, waardoor aandacht en activatie worden versterkt. Voortbouwend op deze inzichten introduceren we een eenvoudig decorrelatieverlies dat de cosinusgelijkenis tussen BOS en andere tokens vermindert, waardoor intermediaire sinks en massieve activaties effectief worden beperkt. Bovendien verbetert onze methode de woordfoutenfrequentie (WER) bij hoge audiovisuele feature-downsampling, terwijl deze stabiel blijft bij lagere downsampling-snelheden.