Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben opmerkelijke successen geboekt in natuurlijke taalverwerking. Recente vooruitgang heeft geleid tot de ontwikkeling van een nieuwe klasse van redeneer-LLMs; bijvoorbeeld heeft het open-source model DeepSeek-R1 state-of-the-art prestaties bereikt door diep denken en complex redeneren te integreren. Ondanks deze indrukwekkende capaciteiten blijven de interne redeneermechanismen van dergelijke modellen onontgonnen. In dit werk gebruiken we Sparse Autoencoders (SAEs), een methode om een sparse decompositie van latente representaties van een neuraal netwerk in interpreteerbare kenmerken te leren, om kenmerken te identificeren die het redeneren in de DeepSeek-R1-serie van modellen aansturen. Eerst stellen we een aanpak voor om kandidaat-'redeneerkenmerken' uit SAE-representaties te extraheren. We valideren deze kenmerken door empirische analyse en interpreteerbaarheidsmethoden, waarbij we hun directe correlatie met de redeneervaardigheden van het model aantonen. Cruciaal is dat we aantonen dat het sturen van deze kenmerken systematisch de redeneerprestaties verbetert, wat het eerste mechanistische inzicht biedt in redeneren in LLMs. Code beschikbaar op https://github.com/AIRI-Institute/SAE-Reasoning.
Met de mogelijkheid om trainingsdata, modelgrootte en rekenkosten op te schalen, heeft videogeneratie indrukwekkende resultaten behaald in digitale creatie, waardoor gebruikers hun creativiteit in verschillende domeinen kunnen uiten. Recentelijk hebben onderzoekers in Large Language Models (LLMs) het schalen uitgebreid naar testtijd, wat de prestaties van LLMs aanzienlijk kan verbeteren door meer rekentijd tijdens de inferentie te gebruiken. In plaats van videofundamentmodellen op te schalen via dure trainingskosten, verkennen we de kracht van Test-Time Scaling (TTS) in videogeneratie, met als doel de vraag te beantwoorden: als een videogeneratiemodel een aanzienlijke hoeveelheid rekentijd tijdens de inferentie mag gebruiken, hoeveel kan het dan de generatiekwaliteit verbeteren bij een uitdagende tekstprompt? In dit werk interpreteren we het test-time scaling van videogeneratie als een zoekprobleem om betere trajecten te bemonsteren vanuit de Gaussische ruisruimte naar de doelvideodistributie. Specifiek bouwen we de zoekruimte met test-time verifiers om feedback te geven en heuristische algoritmen om het zoekproces te begeleiden. Gegeven een tekstprompt, verkennen we eerst een intuïtieve lineaire zoekstrategie door het aantal ruiskandidaten tijdens de inferentie te verhogen. Omdat het volledig ontruisen van alle frames tegelijkertijd zware rekenkosten tijdens de testtijd vereist, ontwerpen we een efficiëntere TTS-methode voor videogeneratie genaamd Tree-of-Frames (ToF) die videotakken adaptief uitbreidt en snoeit op een autoregressieve manier. Uitgebreide experimenten op benchmarks voor tekstgeconditioneerde videogeneratie tonen aan dat het verhogen van de rekentijd tijdens de testtijd consistent leidt tot significante verbeteringen in de kwaliteit van video's. Projectpagina: https://liuff19.github.io/Video-T1
Moderne game-ontwikkeling wordt geconfronteerd met aanzienlijke uitdagingen op het gebied van creativiteit en kosten als gevolg van vooraf bepaalde inhoud in traditionele game-engines. Recente doorbraken in videogeneratiemodellen, die in staat zijn realistische en interactieve virtuele omgevingen te synthetiseren, bieden een kans om het maken van games te revolutioneren. In dit position paper stellen we Interactive Generative Video (IGV) voor als de basis voor Generative Game Engines (GGE), wat de generatie van onbeperkt nieuwe inhoud in next-generation gaming mogelijk maakt. GGE maakt gebruik van de unieke sterke punten van IGV, zoals het synthetiseren van onbeperkte hoogwaardige inhoud, fysica-bewuste wereldmodellering, gebruikersgestuurde interactiviteit, langetermijngeheugenmogelijkheden en causaal redeneren. We presenteren een uitgebreid framework dat de kernmodules van GGE beschrijft, samen met een hiërarchische volwassenheidsroutekaart (L0-L4) om de evolutie ervan te begeleiden. Ons werk schetst een nieuwe koers voor game-ontwikkeling in het AI-tijdperk, waarbij we een toekomst voorzien waarin AI-gestuurde generatieve systemen fundamenteel veranderen hoe games worden gemaakt en ervaren.
DeepSeek-R1 heeft aangetoond dat lange ketens van gedachtegangen (CoT) op natuurlijke wijze kunnen ontstaan door een eenvoudig reinforcement learning (RL) raamwerk met op regels gebaseerde beloningen, waarbij de training direct kan beginnen vanaf de basismodellen - een paradigma dat wordt aangeduid als zero RL training. De meeste recente inspanningen om zero RL training te reproduceren hebben zich voornamelijk gericht op de Qwen2.5 modelreeks, wat mogelijk niet representatief is omdat we ontdekken dat de basismodellen al sterke instructievolgende en zelfreflectievaardigheden vertonen. In dit werk onderzoeken we zero RL training over 10 diverse basismodellen, die verschillende families en groottes omvatten, waaronder LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, en alle Qwen2.5 modellen van 0.5B tot 32B. Door gebruik te maken van verschillende belangrijke ontwerpstrategieën - zoals het aanpassen van formaatbeloning en het beheersen van de moeilijkheidsgraad van queries - behalen we aanzienlijke verbeteringen in zowel de redeneernauwkeurigheid als de responslengte in de meeste instellingen. Echter, door de trainingsdynamiek zorgvuldig te monitoren, observeren we dat verschillende basismodellen tijdens de training verschillende patronen vertonen. Zo correleert de toegenomen responslengte niet altijd met het ontstaan van bepaalde cognitieve gedragingen zoals verificatie (d.w.z. het "aha-moment"). Opmerkelijk is dat we het "aha-moment" voor het eerst observeren in kleine modellen die niet tot de Qwen-familie behoren. We delen de belangrijkste ontwerpen die succesvolle zero RL training mogelijk maken, samen met onze bevindingen en praktijken. Om verder onderzoek te faciliteren, maken we de code, modellen en analysetools openbaar.
De integratie van geometrische reconstructie en generatieve modellering blijft een cruciale uitdaging bij het ontwikkelen van AI-systemen die mensachtig ruimtelijk redeneren mogelijk maken. Dit artikel introduceert Aether, een geïntegreerd raamwerk dat geometriebewust redeneren in wereldmodellen mogelijk maakt door het gezamenlijk optimaliseren van drie kerncapaciteiten: (1) 4D-dynamische reconstructie, (2) actie-geconditioneerde videovoorspelling, en (3) doel-geconditioneerde visuele planning. Door taakverweven kenmerkenleren bereikt Aether synergetische kennisuitwisseling tussen reconstructie-, voorspellings- en planningsdoelen. Gebaseerd op videogeneratiemodellen toont ons raamwerk een ongekende generalisatie van synthetisch naar echt, ondanks dat het nooit real-world data heeft gezien tijdens de training. Bovendien bereikt onze aanpak zero-shot generalisatie in zowel actievolgtaken als reconstructietaken, dankzij de intrinsieke geometrische modellering. Opmerkelijk is dat de reconstructieprestaties, zelfs zonder real-world data, die van domeinspecifieke modellen ver overtreffen. Daarnaast maakt Aether gebruik van een geometrie-geïnformeerde actieruimte om voorspellingen naadloos om te zetten in acties, waardoor effectieve autonome trajectplanning mogelijk wordt. We hopen dat ons werk de gemeenschap inspireert om nieuwe grenzen te verkennen in fysiek redelijke wereldmodellering en de toepassingen daarvan.
Omnimatte heeft als doel een gegeven video te ontbinden in semantisch betekenisvolle lagen, inclusief de achtergrond en individuele objecten samen met hun bijbehorende effecten, zoals schaduwen en reflecties. Bestaande methoden vereisen vaak uitgebreide training of kostbare zelfgesuperviseerde optimalisatie. In dit artikel presenteren we OmnimatteZero, een trainingsvrije aanpak die gebruikmaakt van vooraf getrainde videodiffusiemodellen voor omnimatte. Het kan objecten uit video's verwijderen, individuele objectlagen samen met hun effecten extraheren en die objecten samenvoegen met nieuwe video's. We bereiken dit door zero-shot image inpainting-technieken aan te passen voor het verwijderen van objecten uit video's, een taak waar ze standaard niet effectief mee om kunnen gaan. Vervolgens laten we zien dat self-attention maps informatie vastleggen over het object en zijn voetafdrukken, en gebruiken we deze om de effecten van het object in te vullen, waardoor een schone achtergrond overblijft. Daarnaast kunnen objectlagen door eenvoudige latente rekenkunde worden geïsoleerd en naadloos worden gecombineerd met nieuwe videolagen om nieuwe video's te produceren. Evaluaties tonen aan dat OmnimatteZero niet alleen superieure prestaties levert op het gebied van achtergrondreconstructie, maar ook een nieuw record vestigt voor de snelste Omnimatte-aanpak, waarbij realtime prestaties worden bereikt met een minimale frametijd.
Vooruitgang in wetenschappelijke ontdekkingen is zelden het resultaat van een enkel "Eureka"-moment, maar eerder het product van honderden wetenschappers die geleidelijk samenwerken aan een gemeenschappelijk doel. Hoewel bestaande agentworkflows in staat zijn om autonoom onderzoek te produceren, doen ze dit in isolatie, zonder de mogelijkheid om voortdurend voort te bouwen op eerdere onderzoeksresultaten. Om deze uitdagingen aan te pakken, introduceren we AgentRxiv - een raamwerk dat LLM-agentlaboratoria in staat stelt om rapporten te uploaden en op te halen van een gedeelde preprintserver om samen te werken, inzichten te delen en iteratief voort te bouwen op elkaars onderzoek. We geven agentlaboratoria de opdracht om nieuwe redeneer- en prompttechnieken te ontwikkelen en ontdekken dat agenten met toegang tot hun eerdere onderzoek hogere prestatieverbeteringen behalen in vergelijking met agenten die in isolatie werken (11,4% relatieve verbetering ten opzichte van de baseline op MATH-500). We constateren dat de best presterende strategie generaliseert naar benchmarks in andere domeinen (gemiddeld 3,3% verbetering). Meerdere agentlaboratoria die onderzoek delen via AgentRxiv zijn in staat om samen te werken aan een gemeenschappelijk doel, sneller vooruitgang te boeken dan geïsoleerde laboratoria en een hogere algehele nauwkeurigheid te bereiken (13,7% relatieve verbetering ten opzichte van de baseline op MATH-500). Deze bevindingen suggereren dat autonome agenten een rol kunnen spelen bij het ontwerpen van toekomstige AI-systemen naast mensen. We hopen dat AgentRxiv agenten in staat stelt om samen te werken aan onderzoeksdoelen en onderzoekers in staat stelt om ontdekkingen te versnellen.
Classifier-Free Guidance (CFG) is een veelgebruikte techniek in diffusie-/stroommodellen om de beeldkwaliteit en beheersbaarheid te verbeteren. In dit werk bestuderen we eerst analytisch het effect van CFG op stroommatchende modellen die getraind zijn op Gaussische mengsels, waarbij de grondwaarheid van de stroom kan worden afgeleid. We observeren dat in de vroege fasen van de training, wanneer de stroomschatting onnauwkeurig is, CFG monsters naar incorrecte trajecten leidt. Op basis van deze observatie stellen we CFG-Zero* voor, een verbeterde CFG met twee bijdragen: (a) geoptimaliseerde schaal, waarbij een scalar wordt geoptimaliseerd om de onnauwkeurigheden in de geschatte snelheid te corrigeren, vandaar de * in de naam; en (b) zero-init, waarbij de eerste paar stappen van de ODE-oplosser op nul worden gezet. Experimenten op zowel tekst-naar-beeld (Lumina-Next, Stable Diffusion 3 en Flux) als tekst-naar-video (Wan-2.1) generatie tonen aan dat CFG-Zero* consistent beter presteert dan CFG, wat de effectiviteit ervan in het begeleiden van Stroommatchende modellen benadrukt. (Code is beschikbaar op github.com/WeichenFan/CFG-Zero-star)
Grote Taalmodellen (LLMs) worden steeds vaker ingezet in agentische systemen die interacteren met een externe omgeving. Echter zijn LLM-agenten kwetsbaar voor prompt-injectieaanvallen bij het verwerken van niet-vertrouwde data. In dit artikel stellen we CaMeL voor, een robuuste verdediging die een beschermende systeemlaag rondom het LLM creëert, waardoor het beveiligd blijft zelfs wanneer onderliggende modellen vatbaar kunnen zijn voor aanvallen. Om te functioneren, extraheert CaMeL expliciet de controle- en dataflows uit de (vertrouwde) query; hierdoor kan de niet-vertrouwde data die door het LLM wordt opgehaald nooit invloed hebben op de programmastroom. Om de beveiliging verder te verbeteren, vertrouwt CaMeL op het concept van een capability om te voorkomen dat privédata worden uitgelekt via niet-geautoriseerde dataflows. We demonstreren de effectiviteit van CaMeL door 67% van de taken op te lossen met aantoonbare beveiliging in AgentDojo [NeurIPS 2024], een recente benchmark voor agentische beveiliging.
Het evalueren van generatieve basis modellen op open-eindige multimodale begrips- (MMU) en generatie (MMG) taken over diverse modaliteiten (bijv., afbeeldingen, audio, video) vormt aanzienlijke uitdagingen vanwege de complexiteit van kruismodale interacties. Hiertoe is het idee ontstaan om Multimodale LLM's (MLLMs) als geautomatiseerde beoordelaars te gebruiken, met bemoedigende resultaten bij het beoordelen van visueel-taalkundige begripstaken. Dit artikel gaat verder door MLLM-as-a-Judge uit te breiden over modaliteiten op een uniforme manier door twee benchmarks te introduceren, TaskAnything en JudgeAnything, om respectievelijk de algehele prestaties en beoordelingscapaciteiten van MLLMs over any-to-any modaliteit taken te evalueren. Specifiek evalueert TaskAnything de MMU- en MMG-capaciteiten over 15 any-to-any modaliteitscategorieën, waarbij 1.500 queries worden gebruikt die zijn samengesteld uit gevestigde benchmarks. Verder evalueert JudgeAnything de beoordelingscapaciteiten van 5 geavanceerde modellen (bijv., GPT-4o en Gemini-2.0-Flash) vanuit het perspectief van Paarsgewijze Vergelijking en Score Evaluatie, en biedt een gestandaardiseerde testomgeving die menselijke oordelen en gedetailleerde rubrieken omvat. Onze uitgebreide experimenten tonen aan dat hoewel deze MLLMs veelbelovend zijn in het beoordelen van MMU (d.w.z., een gemiddelde van 66,55% behalen in de Paarsgewijze Vergelijking setting en 42,79% in de Score Evaluatie setting), ze aanzienlijke uitdagingen ondervinden bij MMG-taken (d.w.z., gemiddeld slechts 53,37% in de Paarsgewijze Vergelijking setting en 30,05% in de Score Evaluatie setting), wat kruismodale vooroordelen en hallucinatieproblemen blootlegt. Om dit aan te pakken, presenteren we OmniArena, een geautomatiseerd platform voor het evalueren van omni-modellen en multimodale beloningsmodellen. Ons werk benadrukt de noodzaak van eerlijkere evaluatieprotocollen en een sterkere afstemming op menselijke voorkeuren. De broncode en dataset zijn publiekelijk beschikbaar op: https://urrealhero.github.io/judgeanythingweb/.
We introduceren FFN Fusion, een architectonische optimalisatietechniek die sequentiële berekeningen in grote taalmodelen vermindert door natuurlijke mogelijkheden voor parallelisatie te identificeren en te benutten. Onze belangrijkste inzicht is dat sequenties van Feed-Forward Network (FFN) lagen, met name die welke overblijven na het verwijderen van specifieke aandachtslagen, vaak kunnen worden geparalleliseerd met minimale impact op de nauwkeurigheid. We ontwikkelen een principiële methodologie voor het identificeren en samenvoegen van dergelijke sequenties, waarbij ze worden omgezet in parallelle bewerkingen die de inferentielatentie aanzienlijk verminderen terwijl het modelgedrag behouden blijft. Door deze technieken toe te passen op Llama-3.1-405B-Instruct, creëren we Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), een efficiënt en binnenkort publiekelijk beschikbaar model dat een 1.71X versnelling in inferentielatentie en 35X lagere kosten per token bereikt, terwijl het sterke prestaties behoudt op benchmarks. Door uitgebreide experimenten op modellen van 49B tot 253B parameters, tonen we aan dat FFN Fusion steeds effectiever wordt op grotere schaal en kan complementair zijn aan bestaande optimalisatietechnieken zoals kwantisatie en pruning. Het meest intrigerend is dat we ontdekken dat zelfs volledige transformerblokken die zowel aandacht als FFN lagen bevatten soms kunnen worden geparalleliseerd, wat nieuwe richtingen suggereert voor het ontwerp van neurale architecturen.
Grote Vision-Taalmodellen (LVLMs) volgen doorgaans een tweefasen trainingsparadigma: voorafgaande training en gesuperviseerde fijnafstemming. Onlangs is voorkeursoptimalisatie, afkomstig uit het taalgebied, naar voren gekomen als een effectieve post-trainingsversterkingsstrategie om de capaciteiten van LVLMs te verbeteren. Het construeren van hoogwaardige, door mensen geannoteerde voorkeursdata en het ontwikkelen van robuuste beloningsmodellen om deze voorkeuren na te bootsen, zijn echter zowel kostbaar als uitdagend. Gemotiveerd door deze observatie stellen we Vision-R1 voor, een nieuw visie-gestuurd R1-achtig versterkend leeralgoritme voor LVLMs dat modellen beloont met definitieve visuele feedback. Het maakt alleen gebruik van gecureerde instructiedata, waardoor de behoefte aan gespecialiseerde beloningsmodellen en handmatig samengestelde voorkeursdatasets wordt geëlimineerd. We integreren een criterium-gestuurde beloningsfunctie die multidimensionale feedback verder integreert om modelvoltooiingen uitgebreid te evalueren op basis van de logica van de visietaak. Bovendien introduceren we een progressieve regelverfijningsstrategie die de beloningscriteria tijdens de training dynamisch aanpast, waardoor continue modelverbetering wordt mogelijk gemaakt en beloningsmanipulatie wordt gemitigeerd. Uitgebreide experimenten op zowel in-distributie als out-of-distributie benchmarks tonen aan dat het fijnafstemmen van de 7B LVLMs met Vision-R1 consistente prestatieverbeteringen oplevert, met zelfs tot 50% verbetering en het overtreffen van het state-of-the-art model van 10x de grootte.
Huidige generatieve modellen, zoals autoregressieve en diffusiebenaderingen, ontbinden het leren van hoogdimensionale dataverdelingen in een reeks eenvoudigere subtaken. Er ontstaan echter inherente conflicten tijdens de gezamenlijke optimalisatie van deze subtaken, en bestaande oplossingen slagen er niet in deze conflicten op te lossen zonder efficiëntie of schaalbaarheid op te offeren. Wij stellen een nieuw equivariant beeldmodelleringsraamwerk voor dat de optimalisatiedoelen van subtaken inherent op één lijn brengt door gebruik te maken van de translatie-invariantie van natuurlijke visuele signalen. Onze methode introduceert (1) kolomsgewijze tokenisatie die de translatiesymmetrie langs de horizontale as versterkt, en (2) venstergebaseerde causale aandacht die consistente contextuele relaties tussen posities afdwingt. Bij evaluatie op klasse-geconditioneerde ImageNet-generatie met een resolutie van 256x256 bereikt onze aanpak prestaties die vergelijkbaar zijn met state-of-the-art AR-modellen, terwijl minder rekenbronnen worden gebruikt. Systematische analyse toont aan dat verbeterde equivariantie inter-taakconflicten vermindert, wat de zero-shot generalisatie aanzienlijk verbetert en ultra-lange beeld-synthese mogelijk maakt. Dit werk introduceert het eerste raamwerk voor taak-uitgelijnde ontbinding in generatieve modellering, en biedt inzichten in efficiënte parametersharing en conflictvrije optimalisatie. De code en modellen zijn publiekelijk beschikbaar op https://github.com/drx-code/EquivariantModeling.
Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond bij het oplossen van wiskundige problemen. Bestaande benaderingen richten zich echter voornamelijk op het verbeteren van de kwaliteit van correcte trainingsdata, bijvoorbeeld door hoogwaardige correcte oplossingen te destilleren uit geavanceerde modellen, waarbij de waarde van foutieve data wordt verwaarloosd. Dit kan het reflecterend vermogen van het model belemmeren. Hoewel sommige studies proberen foutieve data te benutten, gebruiken ze vaak complexe mechanismen, zoals Monte Carlo Tree Search (MCTS) om foutieve nodes te verkennen. In dit werk stellen we voor om de redeneervaardigheid van LLMs te verbeteren door te leren van fouten voor wiskundige vooruitgang (LEMMA). LEMMA construeert data die bestaat uit een incorrecte oplossing met een foutieve stap en een reflectieverbinding naar een correcte oplossing voor fine-tuning. Specifiek analyseren we systematisch de fouttypes die door het model worden gegenereerd en introduceren we een op fouttypes gebaseerde methode voor foutaugmentatie om diverse en representatieve fouten te verzamelen. Correcte oplossingen worden verkregen door de fouten te herstellen of door een nieuwe start te genereren. Via een modelbewuste soepele reflectieverbinding wordt de foutieve oplossing overgebracht naar de correcte. Door fine-tuning op de geconstrueerde dataset kan het model fouten autonoom corrigeren tijdens het generatieproces zonder afhankelijk te zijn van externe kritiekmodellen. Experimentele resultaten tonen aan dat LEMMA significante prestatieverbeteringen bereikt ten opzichte van andere sterke baselines.
De schaalvergroting van rekencapaciteit voor het vooraf trainen van taalmodelen (LM's) heeft de groei van door mensen geschreven teksten overtroffen, wat heeft geleid tot zorgen dat data de bottleneck zal worden voor de schaalvergroting van LM's. Om het vooraf trainen in dit data-beperkte regime voort te zetten, stellen we voor dat het expliciet modelleren en afleiden van de onderliggende latente gedachten die ten grondslag liggen aan het tekstgeneratieproces, de efficiëntie van de trainingsdata aanzienlijk kan verbeteren. Intuïtief gezien beschouwt onze aanpak webtekst als het gecomprimeerde eindresultaat van een uitgebreid menselijk denkproces, en bevatten de latente gedachten belangrijke contextuele kennis en redeneerstappen die cruciaal zijn voor data-efficiënt leren. We demonstreren empirisch de effectiviteit van onze aanpak door middel van data-beperkt voortgezet vooraf trainen voor wiskunde. We laten eerst zien dat synthetische data-benaderingen voor het afleiden van latente gedachten de data-efficiëntie aanzienlijk verbeteren, en beter presteren dan trainen op dezelfde hoeveelheid ruwe data (5,7\% \rightarrow 25,4\% op MATH). Bovendien demonstreren we het afleiden van latente gedachten zonder een sterke leraar, waarbij een LM zijn eigen prestaties bootstrap door een EM-algoritme te gebruiken om iteratief de capaciteit van het getrainde LM en de kwaliteit van de met gedachten verrijkte trainingsdata te verbeteren. We laten zien dat een 1B LM zijn prestaties over ten minste drie iteraties kan bootstrap en aanzienlijk beter presteert dan baseline-modellen die op ruwe data zijn getraind, met toenemende winsten door extra rekencapaciteit bij het uitvoeren van de E-stap. De winsten door schaalvergroting van inferentie en EM-iteraties suggereren nieuwe mogelijkheden voor het schalen van data-beperkt vooraf trainen.
Natural Language to SQL (NL2SQL) heeft aanzienlijke vooruitgang geboekt met grote taalmodellen (LLMs). Deze modellen zijn echter vaak afhankelijk van gesloten bron systemen en hoge rekenkracht, wat uitdagingen oplevert op het gebied van gegevensprivacy en implementatie. Kleine taalmodellen (SLMs) daarentegen, hebben moeite met NL2SQL-taken, waarbij ze slechte prestaties vertonen en incompatibel zijn met bestaande frameworks. Om deze problemen aan te pakken, introduceren we Feather-SQL, een nieuw lichtgewicht framework speciaal ontworpen voor SLMs. Feather-SQL verbetert de uitvoerbaarheid en nauwkeurigheid van SQL door 1) schema-snoei en -koppeling, 2) multi-pad en multi-kandidaatgeneratie. Daarnaast introduceren we het 1+1 Model Collaboration Paradigm, dat een sterk algemeen chatmodel combineert met een fijn afgestemd SQL-specialist, waardoor sterke analytische redenering wordt gecombineerd met hoogwaardige SQL-generatie. Experimentele resultaten op BIRD tonen aan dat Feather-SQL de NL2SQL-prestaties van SLMs verbetert, met een boost van ongeveer 10% voor modellen zonder fijnafstemming. Het voorgestelde paradigma verhoogt de nauwkeurigheidsgrens van SLMs tot 54,76%, wat de effectiviteit ervan benadrukt.
3D Gaussian Splatting (3DGS) is naar voren gekomen als een krachtige representatie voor real-time, hoogwaardige rendering, wat een breed scala aan toepassingen mogelijk maakt. Het representeren van 3D-scènes met talrijke expliciete Gaussische primitieven brengt echter aanzienlijke opslag- en geheugenoverhead met zich mee. Recente studies hebben aangetoond dat hoogwaardige rendering kan worden bereikt met een aanzienlijk verminderd aantal Gaussische primitieven wanneer deze worden weergegeven met attributen van hoge precisie. Desalniettemin vertrouwen bestaande 3DGS-compressiemethoden nog steeds op een relatief groot aantal Gaussische primitieven, waarbij voornamelijk wordt gefocust op attribuutcompressie. Dit komt doordat een kleinere set Gaussische primitieven steeds gevoeliger wordt voor lossy attribuutcompressie, wat leidt tot ernstige kwaliteitsvermindering. Aangezien het aantal Gaussische primitieven direct gerelateerd is aan de rekenkosten, is het essentieel om het aantal Gaussische primitieven effectief te verminderen in plaats van alleen de opslag te optimaliseren. In dit artikel stellen we de Optimized Minimal Gaussians-representatie (OMG) voor, die de opslag aanzienlijk vermindert terwijl een minimaal aantal primitieven wordt gebruikt. Ten eerste bepalen we de onderscheidende Gaussische primitieven uit de nabijgelegen, waardoor redundantie wordt geminimaliseerd zonder kwaliteit op te offeren. Ten tweede stellen we een compacte en precieze attribuutrepresentatie voor die zowel continuïteit als onregelmatigheid tussen primitieven efficiënt vastlegt. Daarnaast introduceren we een sub-vector kwantisatietechniek voor een verbeterde weergave van onregelmatigheid, waarbij snelle training wordt behouden met een verwaarloosbare codebookgrootte. Uitgebreide experimenten tonen aan dat OMG de opslagbehoefte met bijna 50% vermindert in vergelijking met de vorige state-of-the-art en rendering met meer dan 600 FPS mogelijk maakt terwijl een hoge renderkwaliteit behouden blijft. Onze broncode is beschikbaar op https://maincold2.github.io/omg/.
Diffusiemodellen hebben opmerkelijke capaciteiten getoond in het genereren van visuele inhoud, maar blijven uitdagend om in te zetten vanwege hun hoge rekenkosten tijdens inferentie. Deze rekenlast ontstaat voornamelijk door de kwadratische complexiteit van self-attention ten opzichte van de resolutie van afbeeldingen of video's. Hoewel bestaande versnellingsmethoden vaak inleveren op uitvoerkwaliteit of kostbare hertraining vereisen, merken we op dat de meeste diffusiemodellen vooraf getraind zijn op lagere resoluties, wat een mogelijkheid biedt om deze laagresolutie-priors te benutten voor efficiëntere inferentie zonder prestatieverlies. In dit werk introduceren we Bottleneck Sampling, een trainingsvrij raamwerk dat laagresolutie-priors benut om de rekenoverhead te verminderen terwijl de uitvoerkwaliteit behouden blijft. Bottleneck Sampling volgt een hoog-laag-hoog denoisingswerkflow: het voert hoogresolutie-denoisings uit in de initiële en finale fasen, terwijl het op lagere resoluties werkt in tussenliggende stappen. Om aliasing en vervagingsartefacten te verminderen, verfijnen we verder de resolutieovergangspunten en verschuiven we adaptief de denoising-tijdstappen in elke fase. We evalueren Bottleneck Sampling op zowel afbeeldings- als videogeneratietaken, waarbij uitgebreide experimenten aantonen dat het de inferentie versnelt tot wel 3x voor afbeeldingsgeneratie en 2,5x voor videogeneratie, terwijl de uitvoerkwaliteit vergelijkbaar blijft met het standaard volledige-resolutie-samplingproces over meerdere evaluatiemetrics. Code is beschikbaar op: https://github.com/tyfeld/Bottleneck-Sampling
Recente vooruitgang in Grote Video Taalmodellen (LVLMs) heeft hun potentieel voor multi-modale begripsvorming benadrukt, maar het evalueren van hun feitelijke grondigheid in videocontexten blijft een kritieke, onopgeloste uitdaging. Om deze kloof te dichten, introduceren we Video SimpleQA, de eerste uitgebreide benchmark die specifiek is ontworpen voor de evaluatie van de feitelijkheid van LVLMs. Ons werk onderscheidt zich van bestaande videobenchmarks door de volgende sleutelkenmerken: 1) Vereiste kennis: het vereist de integratie van externe kennis die verder gaat dan de expliciete narratief; 2) Feitzoekende vraag: gericht op objectieve, onbetwiste gebeurtenissen of relaties, waarbij subjectieve interpretatie wordt vermeden; 3) Definitief & kort antwoord: antwoorden zijn eenduidig en definitief correct in een kort formaat, wat geautomatiseerde evaluatie mogelijk maakt via LLM-as-a-judge frameworks met minimale scoringsvariantie; 4) Externe bron geverifieerd: alle annotaties ondergaan rigoureuze validatie tegen gezaghebbende externe referenties om de betrouwbaarheid te waarborgen; 5) Tijdelijke redenering vereist: de geannoteerde vraagtypen omvatten zowel statisch begrip van één frame als dynamische temporele redenering, waarbij expliciet de feitelijkheid van LVLMs wordt geëvalueerd onder langetermijncontextafhankelijkheden. We evalueren uitgebreid 41 state-of-the-art LVLMs en vatten de belangrijkste bevindingen als volgt samen: 1) Huidige LVLMs vertonen opmerkelijke tekortkomingen in feitelijke naleving, met name voor open-source modellen. Het best presterende model Gemini-1.5-Pro behaalt slechts een F-score van 54,4%; 2) Testtijd-rekenparadigma's laten onbeduidende prestatieverbeteringen zien, wat fundamentele beperkingen onthult voor het verbeteren van feitelijkheid via achteraf berekening; 3) Retrieval-Augmented Generation toont consistente verbeteringen tegen de kosten van extra inferentietijdoverhead, wat een kritieke efficiëntie-prestatieafweging presenteert.
Dit artikel presenteert AlphaSpace, een nieuwe methodologie die is ontworpen om de ruimtelijke redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren voor navigatie in 3D Cartesiaanse ruimte. AlphaSpace maakt gebruik van een op semantiek gebaseerde tokenisatiestrategie, waarbij hoogte-informatie wordt gecodeerd via gespecialiseerde semantische tokens, en integreert voornamelijk symbolische synthetische redeneergegevens. Deze aanpak stelt LLMs in staat om objecten nauwkeurig te manipuleren door ze te positioneren op specifieke [x, y, z] coördinaten. Experimentele resultaten tonen aan dat AlphaSpace aanzienlijk beter presteert dan bestaande modellen bij manipulatiesubtaken, met een totale nauwkeurigheid van 66,67%, vergeleken met 37,5% voor GPT-4o en 29,17% voor Claude 3.5 Sonnet.
Text-to-video (T2V)-generatie heeft aanzienlijke vooruitgang geboekt met diffusiemodellen. Bestaande methoden hebben echter nog steeds moeite met het nauwkeurig koppelen van attributen, het bepalen van ruimtelijke relaties en het vastleggen van complexe actie-interacties tussen meerdere onderwerpen. Om deze beperkingen aan te pakken, stellen we MagicComp voor, een trainingsvrije methode die compositorische T2V-generatie verbetert via tweefasige verfijning. Specifiek: (1) Tijdens de Conditioneringsfase: We introduceren Semantic Anchor Disambiguation om subjectspecifieke semantiek te versterken en ambiguïteit tussen onderwerpen op te lossen door geleidelijk directionele vectoren van semantische ankers in de originele tekstembedding te injecteren; (2) Tijdens de Denoising-fase: We stellen Dynamic Layout Fusion Attention voor, dat grondingsprioriteiten en modeladaptieve ruimtelijke perceptie integreert om onderwerpen flexibel aan hun spatiotemporele regio’s te binden via gemaskeerde aandachtmodulatie. Bovendien is MagicComp een model-agnostische en veelzijdige aanpak, die naadloos kan worden geïntegreerd in bestaande T2V-architecturen. Uitgebreide experimenten op T2V-CompBench en VBench tonen aan dat MagicComp state-of-the-art methoden overtreft, wat het potentieel ervan benadrukt voor toepassingen zoals complexe prompt-gebaseerde en traject-controleerbare videogeneratie. Projectpagina: https://hong-yu-zhang.github.io/MagicComp-Page/.
In dit artikel presenteren we Diffusion-4K, een nieuw framework voor directe synthese van ultra-hogeresolutiebeelden met behulp van tekst-naar-beeld diffusiemodellen. De kernverbeteringen omvatten: (1) Aesthetic-4K Benchmark: om het ontbreken van een publiek beschikbare 4K-beeldsynthese dataset aan te pakken, hebben we Aesthetic-4K geconstrueerd, een uitgebreide benchmark voor het genereren van ultra-hogeresolutiebeelden. We hebben een hoogwaardige 4K-dataset samengesteld met zorgvuldig geselecteerde afbeeldingen en bijschriften gegenereerd door GPT-4o. Daarnaast introduceren we de GLCM Score en Compressie Ratio metriek om fijne details te evalueren, gecombineerd met holistische maatstaven zoals FID, Aesthetics en CLIPScore voor een uitgebreide beoordeling van ultra-hogeresolutiebeelden. (2) Wavelet-gebaseerde Fine-tuning: we stellen een wavelet-gebaseerde fine-tuning benadering voor voor directe training met fotorealistische 4K-beelden, toepasbaar op verschillende latente diffusiemodellen, waarbij de effectiviteit ervan wordt aangetoond in het synthetiseren van zeer gedetailleerde 4K-beelden. Als gevolg hiervan behaalt Diffusion-4K indrukwekkende prestaties in hoogwaardige beeldsynthese en het volgen van tekstprompts, vooral wanneer het wordt aangedreven door moderne grootschalige diffusiemodellen (bijv. SD3-2B en Flux-12B). Uitgebreide experimentele resultaten van onze benchmark demonstreren de superioriteit van Diffusion-4K in ultra-hogeresolutiebeeldsynthese.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in diverse vakgebieden, met name in coderen, wiskundig redeneren en logisch probleemoplossen. Een cruciale vraag blijft echter: Blijven deze wiskundige redeneervaardigheden behouden wanneer LLMs worden geconfronteerd met cultureel aangepaste wiskundeproblemen? Specifiek, hoe presteren LLMs wanneer ze worden geconfronteerd met wiskundeproblemen die zijn ingebed in culturele contexten die niet significant zijn vertegenwoordigd in grootschalige AI-trainingsdata? Om dit te onderzoeken, hebben we zes synthetische culturele datasets gegenereerd uit GSM8K, een veelgebruikte benchmark voor het beoordelen van de wiskundige redeneervaardigheden van LLMs. Terwijl we de wiskundige logica en numerieke waarden van de originele GSM8K-testset behouden, passen we culturele elementen aan, zoals persoonsnamen, voedselitems, plaatsnamen, enz. Deze cultureel aangepaste datasets bieden een betrouwbaarder kader voor het evalueren van het wiskundig redeneren van LLMs onder veranderende culturele contexten. Onze bevindingen tonen aan dat LLMs moeite hebben met wiskundeproblemen wanneer culturele referenties veranderen, ook al blijft de onderliggende wiskundige structuur constant. Kleinere modellen vertonen een grotere prestatievermindering in vergelijking met grotere modellen. Interessant genoeg suggereren onze resultaten ook dat culturele vertrouwdheid het wiskundig redeneren kan verbeteren. Zelfs modellen zonder expliciete wiskundige training maar met blootstelling aan relevante culturele contexten presteren soms beter dan grotere, wiskundig vaardige modellen bij cultureel ingebedde wiskundeproblemen. Deze studie benadrukt de impact van culturele context op de wiskundige redeneervaardigheden van LLMs, en onderstreept de noodzaak voor meer diverse en representatieve trainingsdata om de robuustheid in real-world toepassingen te verbeteren. De benchmarkdatasets en het script voor het reproduceren van de resultaten zijn beschikbaar op https://github.com/akarim23131/Lost_in_Cultural_Translation.
De recente exponentiële groei van Large Language Models (LLM's) is voornamelijk gebaseerd op GPU-systemen. CPU's komen echter naar voren als een flexibel en kosteneffectief alternatief, met name gericht op inferentie- en redeneerworkloads. RISC-V wint snel aan populariteit op dit gebied, dankzij zijn open en leveranciersonafhankelijke ISA. De RISC-V-hardware voor LLM-workloads en het bijbehorende software-ecosysteem zijn echter nog niet volledig volwassen en gestroomlijnd, gezien de noodzaak van domeinspecifieke optimalisatie. Dit artikel beoogt deze kloof te dichten door zich te richten op het optimaliseren van LLM-inferentie op de Sophon SG2042, de eerste commercieel beschikbare many-core RISC-V CPU met vectorverwerkingsmogelijkheden. Op twee recente state-of-the-art LLM's die zijn geoptimaliseerd voor redeneren, DeepSeek R1 Distill Llama 8B en DeepSeek R1 Distill QWEN 14B, behalen we 4,32/2,29 tokens/s voor token-generatie en 6,54/3,68 tokens/s voor promptverwerking, met een versnelling van maximaal 2,9x/3,0x vergeleken met onze baseline.
Het beantwoorden van niet-factoïde vragen (NFQA) vormt een aanzienlijke uitdaging vanwege het open-einde karakter, de diverse intenties en de noodzaak voor multi-aspect redenering, waardoor conventionele benaderingen voor factoïde vraag-antwoord, inclusief retrieval-augmented generation (RAG), ontoereikend zijn. In tegenstelling tot factoïde vragen hebben niet-factoïde vragen (NFQs) geen definitieve antwoorden en vereisen ze het synthetiseren van informatie uit meerdere bronnen over verschillende redeneerdimensies. Om deze beperkingen aan te pakken, introduceren we Typed-RAG, een type-bewust multi-aspect decompositiekader binnen het RAG-paradigma voor NFQA. Typed-RAG classificeert NFQs in verschillende typen -- zoals debat, ervaring en vergelijking -- en past aspect-gebaseerde decompositie toe om de retrieval- en generatiestrategieën te verfijnen. Door multi-aspect NFQs te decomponeren in enkelvoudige aspect sub-vragen en de resultaten te aggregeren, genereert Typed-RAG meer informatieve en contextueel relevante antwoorden. Om Typed-RAG te evalueren, introduceren we Wiki-NFQA, een benchmarkdataset die diverse NFQ-typen omvat. Experimentele resultaten tonen aan dat Typed-RAG de baseline-methoden overtreft, wat het belang van type-bewuste decompositie voor effectieve retrieval en generatie in NFQA benadrukt. Onze code en dataset zijn beschikbaar op https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
Text-to-Video (T2V)-generatie heeft aanzienlijke aandacht getrokken vanwege het vermogen om realistische video's te synthetiseren op basis van tekstuele beschrijvingen. Bestaande modellen hebben echter moeite om een balans te vinden tussen rekenkundige efficiëntie en hoge visuele kwaliteit, vooral op apparaten met beperkte resources, zoals iGPU's en mobiele telefoons. Het meeste eerdere werk richt zich op visuele kwaliteit terwijl de behoefte aan kleinere, efficiëntere modellen die geschikt zijn voor implementatie in de praktijk over het hoofd wordt gezien. Om deze uitdaging aan te pakken, stellen we een lichtgewicht T2V-framework voor, genaamd Hummingbird, dat bestaande modellen uitdunt en de visuele kwaliteit verbetert door middel van visuele feedbackleren. Onze aanpak reduceert de grootte van de U-Net van 1,4 miljard naar 0,7 miljard parameters, wat de efficiëntie aanzienlijk verbetert terwijl de hoge kwaliteit van videogeneratie behouden blijft. Daarnaast introduceren we een nieuwe gegevensverwerkingspijplijn die gebruikmaakt van Large Language Models (LLM's) en Video Quality Assessment (VQA)-modellen om de kwaliteit van zowel tekstprompts als videogegevens te verbeteren. Om gebruikersgestuurde training en stijlaanpassing te ondersteunen, maken we de volledige trainingscode, inclusief gegevensverwerking en modeltraining, openbaar. Uitgebreide experimenten tonen aan dat onze methode een 31-voudige versnelling bereikt in vergelijking met state-of-the-art modellen zoals VideoCrafter2, terwijl ook de hoogste algemene score op VBench wordt behaald. Bovendien ondersteunt onze methode de generatie van video's met maximaal 26 frames, wat de beperkingen van bestaande U-Net-gebaseerde methoden voor lange videogeneratie aanpakt. Opmerkelijk is dat het volledige trainingsproces slechts vier GPU's vereist, maar toch prestaties levert die concurrerend zijn met bestaande toonaangevende methoden. Hummingbird biedt een praktische en efficiënte oplossing voor T2V-generatie, die hoge prestaties, schaalbaarheid en flexibiliteit combineert voor toepassingen in de praktijk.
Het resultaat van pre-training van Large Language Models (LLM) hangt sterk af van gewichtsinitialisatie en variantiebeheerstrategieën. Hoewel het belang van initiële variantiebeheer algemeen goed gedocumenteerd is in neurale netwerken, is de literatuur over initialisatie en het beheer van de groei ervan tijdens LLM-pre-training specifiek enigszins beperkt. In dit artikel introduceren we het Layer Index Rescaling (LIR) gewichtsinitialisatieschema en de Target Variance Rescaling (TVR) variantiebeheerstrategie. Experimenten met een LLaMA-model van 1B parameters tonen aan dat beter variantiebeheer met behulp van deze technieken aanzienlijke verbeteringen oplevert in de prestaties op downstream taken (tot 4,6% op veelgebruikte pre-training benchmarks) en extreme activatiewaarden vermindert, waardoor uitdagingen gerelateerd aan kwantisatie en training met lage precisie worden gemitigeerd. Onze code is beschikbaar op: https://github.com/bluorion-com/weight_rescaling.
We presenteren MetaSpatial, het eerste reinforcement learning (RL)-gebaseerde raamwerk ontworpen om 3D ruimtelijk redeneren in vision-language modellen (VLMs) te verbeteren, waardoor real-time 3D scènegeneratie mogelijk wordt zonder de noodzaak van hard-coded optimalisaties. MetaSpatial richt zich op twee kernuitdagingen: (i) het gebrek aan geïnternaliseerd 3D ruimtelijk redeneren in VLMs, wat hun vermogen om realistische lay-outs te genereren beperkt, en (ii) de inefficiëntie van traditionele supervised fine-tuning (SFT) voor lay-outgeneratietaken, aangezien perfecte grondwaarheidannotaties ontbreken. Onze belangrijkste innovatie is een multi-turn RL-gebaseerd optimalisatiemechanisme dat physics-aware beperkingen en gerenderde beeldbeoordelingen integreert, waardoor gegeneerde 3D lay-outs coherent, fysiek plausibel en esthetisch consistent zijn. Methodologisch introduceert MetaSpatial een adaptief, iteratief redeneerproces, waarbij het VLM ruimtelijke arrangementen over meerdere beurten verfijnt door gerenderde uitvoer te analyseren, waardoor de scènecoherentie geleidelijk verbetert. Empirische evaluaties tonen aan dat MetaSpatial de ruimtelijke consistentie en opmaakstabiliteit van verschillende schaalmodellen aanzienlijk verbetert. Na de training zijn objectplaatsingen realistischer, uitgelijnd en functioneel coherent, wat de effectiviteit van RL voor 3D ruimtelijk redeneren in metaverse, AR/VR, digitale tweelingen en gameontwikkelingstoepassingen valideert. Onze code, data en trainingspipeline zijn publiekelijk beschikbaar op https://github.com/PzySeere/MetaSpatial.
Hoewel natuurlijke taal instructies een intuïtieve manier bieden om geautomatiseerde beeldbewerking te sturen, hebben deep-learning modellen vaak moeite om hoogwaardige resultaten te behalen, voornamelijk vanwege de uitdagingen bij het creëren van grote, hoogwaardige trainingsdatasets. Eerdere werkzaamheden hebben doorgaans vertrouwd op text-to-image (T2I) generatieve modellen om paren van originele en bewerkte afbeeldingen te produceren die de input/output van een instructiegestuurd beeldbewerkingsmodel simuleren. Deze afbeeldingsparen komen echter vaak niet overeen met de gespecificeerde bewerkingsinstructies vanwege de beperkingen van T2I-modellen, wat een negatieve impact heeft op modellen die op dergelijke datasets zijn getraind. Om dit aan te pakken, presenteren we Instruct-CLIP, een zelfgestuurde methode die de semantische veranderingen tussen originele en bewerkte afbeeldingen leert om de instructies in bestaande datasets te verfijnen en beter af te stemmen. Bovendien passen we Instruct-CLIP aan om ruisachtige latente afbeeldingen en diffusietijdstappen te verwerken, zodat het kan worden gebruikt om latente diffusiemodellen (LDMs) [19] te trainen en efficiënt de afstemming tussen de bewerkingsinstructie en de beeldveranderingen in de latente ruimte te handhaven op elk stap van de diffusiepijplijn. We gebruiken Instruct-CLIP om de InstructPix2Pix dataset te corrigeren en verkrijgen meer dan 120K verfijnde samples die we vervolgens gebruiken om hun model te fine-tunen, geleid door onze nieuwe Instruct-CLIP-gebaseerde verliesfunctie. Het resulterende model kan bewerkingen produceren die beter zijn afgestemd op de gegeven instructies. Onze code en dataset zijn beschikbaar op https://github.com/SherryXTChen/Instruct-CLIP.git.
Taalmodellen zijn recentelijk doorgedrongen tot het domein van redeneren, maar het is door multimodaal redeneren dat we het volledige potentieel kunnen ontsluiten om meer uitgebreide, mensachtige cognitieve capaciteiten te bereiken. Dit overzicht biedt een systematische beschrijving van de recente benaderingen voor multimodaal redeneren, waarbij ze worden ingedeeld in twee niveaus: taalgericht multimodaal redeneren en collaboratief multimodaal redeneren. Het eerste omvat éénmalige visuele waarneming en actieve visuele waarneming, waarbij visie voornamelijk een ondersteunende rol speelt in taalredenering. Het laatste omvat actiegeneratie en statusupdate binnen het redeneerproces, wat een dynamischere interactie tussen modaliteiten mogelijk maakt. Verder analyseren we de technologische evolutie van deze methoden, bespreken we hun inherente uitdagingen en introduceren we belangrijke benchmarktaken en evaluatiemetrics voor het beoordelen van multimodaal redeneervermogen. Tot slot bieden we inzichten in toekomstige onderzoeksrichtingen vanuit de volgende twee perspectieven: (i) van visueel-taalredeneren naar omnimodaal redeneren en (ii) van multimodaal redeneren naar multimodale agents. Dit overzicht beoogt een gestructureerd beeld te geven dat verdere vooruitgang in multimodaal redeneeronderzoek zal inspireren.
Discrete visuele tokenizers transformeren afbeeldingen in een reeks tokens, waardoor token-gebaseerde visuele generatie mogelijk wordt, vergelijkbaar met taalmodellen. Dit proces is echter inherent uitdagend, omdat het zowel het comprimeren van visuele signalen in een compacte representatie als het discretiseren ervan in een vaste set codes vereist. Traditionele discrete tokenizers leren deze twee taken doorgaans gezamenlijk, wat vaak leidt tot instabiele training, lage codebookbenutting en beperkte reconstructiekwaliteit. In dit artikel introduceren we CODA (COntinuous-to-Discrete Adaptation), een raamwerk dat compressie en discretisatie ontkoppelt. In plaats van discrete tokenizers vanaf nul te trainen, past CODA bestaande continue VAEs — die al zijn geoptimaliseerd voor perceptuele compressie — aan tot discrete tokenizers via een zorgvuldig ontworpen discretisatieproces. Door zich voornamelijk te richten op discretisatie, zorgt CODA voor een stabiele en efficiënte training terwijl de sterke visuele kwaliteit van continue VAEs behouden blijft. Empirisch gezien bereikt onze aanpak, met een trainingsbudget dat 6 keer lager is dan dat van standaard VQGAN, een opmerkelijke codebookbenutting van 100% en een indrukwekkende reconstructie-FID (rFID) van 0,43 en 1,34 voor respectievelijk 8 keer en 16 keer compressie op de ImageNet 256×256 benchmark.
Onlangs is er grote vooruitgang geboekt in videogeneratietechnologie, wat de brede aandacht van wetenschappers heeft getrokken. Om deze technologie toe te passen in downstream-toepassingen onder omstandigheden met beperkte middelen, passen onderzoekers meestal vooraf getrainde modellen aan op basis van parameter-efficiënte afstemmingsmethoden zoals Adapter of Lora. Hoewel deze methoden kennis kunnen overbrengen van het brondomein naar het doeldomein, leiden minder trainingsparameters tot een slechte aanpassingscapaciteit, en kan de kennis uit het brondomein ervoor zorgen dat het inferentieproces afwijkt van het doeldomein. In dit artikel stellen we dat, onder beperkte middelen, het trainen van een kleiner videogeneratiemodel vanaf nul met slechts miljoenen samples beter presteert dan parameter-efficiënte afstemming op grotere modellen in downstream-toepassingen: de kern ligt in het effectieve gebruik van data en een curriculumstrategie. Neem als voorbeeld de generatie van geanimeerde stickers (ASG), we construeren eerst een discreet framegeneratienetwerk voor stickers met een lage framerate, waarbij we ervoor zorgen dat de parameters voldoen aan de eisen van modeltraining onder beperkte middelen. Om data-ondersteuning te bieden voor modellen die vanaf nul worden getraind, ontwikkelen we een op dubbele maskers gebaseerde data-utilisatiestrategie, die de beschikbaarheid verbetert en de diversiteit van beperkte data vergroot. Om convergentie te bevorderen onder de dubbele masker-situatie, stellen we een moeilijkheidsadaptieve curriculumleermethode voor, die de steekproefentropie ontleedt in statische en adaptieve componenten om zo steekproeven van makkelijk naar moeilijk te verkrijgen. Het experiment toont aan dat ons resource-efficiënte dubbele masker-trainingsframework kwantitatief en kwalitatief superieur is aan parameter-efficiënte afstemmingsmethoden zoals I2V-Adapter en SimDA, wat de haalbaarheid van onze methode op downstream-taken onder beperkte middelen bevestigt. Code zal beschikbaar worden gesteld.
De opkomst van grote taalmodellen en hun toepassingen als AI-agenten hebben de state-of-the-art benchmarks voor codegeneratie aanzienlijk vooruitgeholpen, waardoor moderne software-engineeringtaken zijn getransformeerd. Echter, zelfs met testtijd-berekende redeneermodellen worstelen deze systemen nog steeds met complexe software-engineeringuitdagingen. Dit werk introduceert CURA, een codebegrip- en redeneeragentsysteem versterkt met verbale procesbegeleiding (VPS), dat een verbetering van 3,65% behaalt ten opzichte van basismodellen op uitdagende benchmarks zoals BigCodeBench. Bovendien bereikt CURA, in combinatie met het o3-mini-model en VPS-technieken, state-of-the-art prestaties. Dit werk vertegenwoordigt een stap voorwaarts in de integratie van redeneringsgedreven architecturen met op LLM gebaseerde codegeneratie, waardoor taalmodellen in staat worden gesteld om via agentisch redeneren complexe software-engineeringtaken op te lossen.
We introduceren de taak van het afleren van menselijke bewegingen om de synthese van giftige animaties te voorkomen, terwijl de algemene tekst-naar-beweging generatieve prestaties behouden blijven. Het afleren van giftige bewegingen is uitdagend omdat deze kunnen worden gegenereerd uit expliciete tekstprompts en uit impliciete giftige combinaties van veilige bewegingen (bijvoorbeeld "schoppen" is "een been laden en zwaaien"). We stellen de eerste benchmark voor het afleren van bewegingen voor door giftige bewegingen te filteren uit de grote en recente tekst-naar-beweging datasets van HumanML3D en Motion-X. We stellen baseline methoden voor, door state-of-the-art technieken voor het afleren van afbeeldingen aan te passen om spatio-temporele signalen te verwerken. Ten slotte introduceren we een nieuw model voor het afleren van bewegingen, gebaseerd op Latent Code Replacement, dat we LCR noemen. LCR is trainingsvrij en geschikt voor de discrete latente ruimtes van state-of-the-art tekst-naar-beweging diffusiemodellen. LCR is eenvoudig en presteert consistent beter dan de baseline methoden, zowel kwalitatief als kwantitatief. Projectpagina: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
Witbalanscorrectie (WB) in scènes met meerdere lichtbronnen blijft een hardnekkige uitdaging in computervisie. Recente methoden hebben fusiegebaseerde benaderingen onderzocht, waarbij een neuraal netwerk meerdere sRGB-versies van een invoerbeeld lineair combineert, elk verwerkt met vooraf gedefinieerde WB-instellingen. Wij tonen echter aan dat deze methoden suboptimaal zijn voor veelvoorkomende scenario's met meerdere lichtbronnen. Bovendien vertrouwen bestaande fusiegebaseerde methoden op sRGB WB-datasets die geen specifieke afbeeldingen met meerdere lichtbronnen bevatten, wat zowel de training als de evaluatie beperkt. Om deze uitdagingen aan te pakken, introduceren we twee belangrijke bijdragen. Ten eerste stellen we een efficiënt transformermodel voor dat ruimtelijke afhankelijkheden tussen sRGB WB-instellingen effectief vastlegt, wat een aanzienlijke verbetering biedt ten opzichte van lineaire fusietechnieken. Ten tweede introduceren we een grootschalige dataset met meerdere lichtbronnen, bestaande uit meer dan 16.000 sRGB-afbeeldingen gerenderd met vijf verschillende WB-instellingen, samen met WB-gecorrigeerde afbeeldingen. Onze methode behaalt tot 100% verbetering ten opzichte van bestaande technieken op onze nieuwe dataset voor beeldfusie met meerdere lichtbronnen.
Hoewel recente ontwikkelingen in beeld-superresolutie (SR) technieken voortdurend de perceptuele kwaliteit van hun uitvoer verbeteren, falen ze vaak in kwantitatieve evaluaties. Deze inconsistentie leidt tot een groeiend wantrouwen in bestaande beeldmetrieken voor SR-evaluaties. Hoewel beeldbeoordeling afhankelijk is van zowel de metriek als de referentie grondwaarheid (GT), onderzoeken onderzoekers doorgaans niet de rol van GT's, omdat deze algemeen worden geaccepteerd als 'perfecte' referenties. Echter, vanwege de gegevens die in de beginjaren zijn verzameld en het gebrek aan controle op andere soorten vervormingen, wijzen we erop dat GT's in bestaande SR-datasets relatief slechte kwaliteit kunnen vertonen, wat leidt tot bevooroordeelde evaluaties. Naar aanleiding van deze observatie zijn we in dit artikel geïnteresseerd in de volgende vragen: Zijn GT-beelden in bestaande SR-datasets 100% betrouwbaar voor model evaluaties? Hoe beïnvloedt GT-kwaliteit deze evaluatie? En hoe kunnen we eerlijke evaluaties maken als er onvolmaakte GT's bestaan? Om deze vragen te beantwoorden, presenteert dit artikel twee belangrijke bijdragen. Ten eerste tonen we, door systematisch zeven state-of-the-art SR-modellen te analyseren over drie real-world SR-datasets, aan dat SR-prestaties consistent kunnen worden beïnvloed door GT's van lage kwaliteit, en dat modellen heel anders kunnen presteren wanneer de GT-kwaliteit wordt gecontroleerd. Ten tweede stellen we een nieuwe perceptuele kwaliteitsmetriek voor, de Relative Quality Index (RQI), die de relatieve kwaliteitsdiscrepantie van beeldparen meet, waardoor de bevooroordeelde evaluaties veroorzaakt door onbetrouwbare GT's worden gecorrigeerd. Ons voorgestelde model bereikt een aanzienlijk betere consistentie met menselijke meningen. We verwachten dat ons werk inzichten biedt voor de SR-gemeenschap over hoe toekomstige datasets, modellen en metrieken moeten worden ontwikkeld.
Grote Vision-Taalmodellen (VLMs), zoals GPT-4, hebben opmerkelijke successen geboekt in verschillende domeinen. Er zijn echter weinig studies gedaan naar 3D binnenscènegeneratie met VLMs. Dit artikel beschouwt deze taak als een planningsprobleem dat onderhevig is aan ruimtelijke en lay-out gezond verstand beperkingen. Om het probleem op te lossen met een VLM, stellen we een nieuw globaal-lokaal boomzoekalgoritme voor. Globaal plaatst de methode elk object sequentieel en verkent meerdere plaatsingen tijdens elk plaatsingsproces, waarbij de probleemruimte wordt weergegeven als een boom. Om de diepte van de boom te verminderen, ontleden we de scènestructuur hiërarchisch, d.w.z. op kamerniveau, regioniveau, vloerobjectniveau en ondersteund objectniveau. Het algoritme genereert onafhankelijk de vloerobjecten in verschillende regio's en ondersteunde objecten die op verschillende vloerobjecten zijn geplaatst. Lokaal ontleden we ook de subtask, de plaatsing van elk object, in meerdere stappen. Het algoritme doorzoekt de boom van de probleemruimte. Om het VLM-model te benutten voor het produceren van objectposities, discretiseren we de bovenaanzichtruimte als een dicht rooster en vullen we elke cel met diverse emoji's om de cellen onderscheidend te maken. We geven het VLM de emoji-rooster als prompt, en het VLM produceert een redelijke locatie voor het object door de positie te beschrijven met de naam van de emoji's. De kwantitatieve en kwalitatieve experimentele resultaten tonen aan dat onze aanpak plausibelere 3D-scènes genereert dan state-of-the-art benaderingen. Onze broncode is beschikbaar op https://github.com/dw-dengwei/TreeSearchGen.
Monoculaire diepteschatting (MDE) is uitgegroeid tot een cruciale taak in computervisie, die talrijke real-world toepassingen ondersteunt. Het implementeren van nauwkeurige diepteschattingsmodellen op resourcebeperkte edge-apparaten, met name Application-Specific Integrated Circuits (ASICs), is echter uitdagend vanwege de hoge reken- en geheugeneisen. Recente vooruitgang in fundamentele diepteschatting levert indrukwekkende resultaten op, maar vergroot de moeilijkheid van implementatie op ASICs verder. Om dit aan te pakken, stellen we QuartDepth voor, dat post-training kwantisatie gebruikt om MDE-modellen te kwantiseren met hardwareversnellingen voor ASICs. Onze aanpak omvat het kwantiseren van zowel gewichten als activaties naar 4-bit precisie, waardoor de modelgrootte en rekenkosten worden verminderd. Om de prestatievermindering te beperken, introduceren we een activatiepolijst- en compensatiealgoritme dat wordt toegepast voor en na activatiekwantisatie, evenals een gewichtsreconstructiemethode om fouten in gewichtskwantisatie te minimaliseren. Bovendien ontwerpen we een flexibele en programmeerbare hardwareversneller door kernel-fusie en aangepaste instructieprogrammeerbaarheid te ondersteunen, waardoor de doorvoer en efficiëntie worden verbeterd. Experimentele resultaten tonen aan dat ons framework competitieve nauwkeurigheid bereikt terwijl het snelle inferentie en hogere energie-efficiëntie op ASICs mogelijk maakt, waardoor de kloof tussen hoogwaardige diepteschatting en praktische toepasbaarheid op edge-apparaten wordt overbrugd. Code: https://github.com/shawnricecake/quart-depth
De vooruitgang in remote sensing-technologie heeft de ruimtelijke resolutie van satellietbeelden verbeterd, waardoor gedetailleerdere visuele representaties mogelijk zijn voor diverse interpretaties. Bestaande methoden vertonen echter beperkte generalisatiecapaciteiten over verschillende toepassingen. Hoewel sommige hedendaagse foundation models potentie tonen, worden ze gehinderd door onvoldoende aanpassingsvermogen tussen taken en verwerken ze voornamelijk laagresolutiebeelden van beperkte afmetingen, waardoor ze niet volledig profiteren van hoogresolutiedata of uitgebreide semantiek van grote scènes. Cruciaal is dat remote sensing-beelden fundamenteel verschillen van natuurlijke afbeeldingen, aangezien belangrijke voorgronddoelen (bijv. maritieme objecten, kunstmatige structuren) vaak minimale ruimtelijke proporties (~1%) innemen en een schaarse verdeling vertonen. Het efficiënt modelleren van kruistask-generalisatiekennis uit lange 2D-tokens (~100.000) vormt een aanzienlijke uitdaging, maar blijft essentieel voor het begrijpen van remote sensing-beelden. Geïnspireerd door de selectieve aandachtmechanismen van het menselijk visuele systeem, stellen we DynamicVis voor, een dynamisch visueel perceptie-foundation model voor remote sensing-beelden. Het framework integreert een nieuwe dynamische regio-perceptie-backbone gebaseerd op het selectieve toestandsruimtemodel, dat strategisch een balans vindt tussen lokale detailextractie en globale contextuele integratie, waardoor het mogelijk wordt om grootschalige data op een rekenkundig efficiënte manier te coderen terwijl de architectuur schaalbaar blijft. Om de overdracht van kruistask-kennis te verbeteren, introduceren we een multi-instance learning-paradigma dat gebruikmaakt van meta-embeddingrepresentaties, getraind op miljoenen regio-annotaties. Evaluaties over negen downstream taken demonstreren de veelzijdigheid van het model. DynamicVis bereikt modellering van meerdere niveaus van kenmerken met uitzonderlijke efficiëntie, waarbij het (2048x2048) pixels verwerkt met een latentie van 97 ms (6% van ViT) en 833 MB GPU-geheugen (3% van ViT).