Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) genereren vaak reacties met inherente vooroordelen, wat hun betrouwbaarheid in praktische toepassingen ondermijnt. Bestaande evaluatiemethoden negeren vaak vooroordelen in langere reacties en de intrinsieke variabiliteit van LLM-uitvoer. Om deze uitdagingen aan te pakken, stellen we FiSCo (Fine-grained Semantic Computation) voor, een nieuw statistisch raamwerk om groepsniveau eerlijkheid in LLMs te evalueren door subtiele semantische verschillen in langere reacties over demografische groepen te detecteren. In tegenstelling tot eerder werk dat zich richt op sentiment of token-niveau vergelijkingen, gaat FiSCo verder dan oppervlakkige analyse door op claimniveau te werken en entailment checks te gebruiken om de consistentie van betekenis over reacties te beoordelen. We ontleden modeluitvoer in semantisch verschillende claims en passen statistische hypothesetoetsen toe om inter- en intra-groepsovereenkomsten te vergelijken, waardoor robuuste detectie van subtiele vooroordelen mogelijk wordt. We formaliseren een nieuwe definitie van groep counterfactual fairness en valideren FiSCo op zowel synthetische als door mensen geannoteerde datasets die gender, ras en leeftijd omvatten. Experimenten tonen aan dat FiSCo genuanceerde vooroordelen betrouwbaarder identificeert terwijl de impact van stochastische LLM-variabiliteit wordt verminderd, en het overtreft verschillende evaluatiemetrics.
Robuste inzet van grote multimodale modellen (LMMs) in real-world scenario's vereist toegang tot externe kennisbronnen, gezien de complexiteit en dynamische aard van real-world informatie. Bestaande benaderingen zoals retrieval-augmented generation (RAG) en prompt-engineered zoekagentschappen vertrouwen op rigide pijplijnen, wat vaak leidt tot inefficiënt of excessief zoekgedrag. Wij presenteren MMSearch-R1, het eerste end-to-end reinforcement learning-framework dat LMMs in staat stelt om on-demand, multi-turn zoekopdrachten uit te voeren in real-world internetomgevingen. Ons framework integreert zowel beeld- als tekstzoektools, waardoor het model kan redeneren over wanneer en hoe deze aan te roepen, geleid door een uitkomstgebaseerde beloning met een zoekstraf. Om de training te ondersteunen, verzamelen we een multimodaal zoek-VQA-dataset via een semi-geautomatiseerde pijplijn die diverse visuele en tekstuele kennisbehoeften dekt, en cureren we een zoek-gebalanceerde subset met zowel zoek-vereiste als zoekvrije samples, wat essentieel blijkt voor het vormen van efficiënt en on-demand zoekgedrag. Uitgebreide experimenten op kennisintensieve en informatiezoekende VQA-taken tonen aan dat ons model niet alleen RAG-gebaseerde baselines van dezelfde modelgrootte overtreft, maar ook de prestaties van een groter RAG-gebaseerd model evenaart terwijl het zoekopdrachten met meer dan 30% vermindert. We analyseren verder belangrijke empirische bevindingen om actiegerichte inzichten te bieden voor het bevorderen van onderzoek in multimodaal zoeken.
Fotoretoucheren is een integraal onderdeel geworden van hedendaags visueel verhalen vertellen, waardoor gebruikers esthetiek kunnen vastleggen en creativiteit kunnen uiten. Hoewel professionele tools zoals Adobe Lightroom krachtige mogelijkheden bieden, vereisen ze aanzienlijke expertise en handmatige inspanning. Bestaande AI-gebaseerde oplossingen bieden daarentegen automatisering, maar lijden vaak onder beperkte aanpasbaarheid en slechte generalisatie, waardoor ze niet voldoen aan diverse en gepersonaliseerde bewerkingsbehoeften. Om deze kloof te overbruggen, introduceren we JarvisArt, een multi-modale large language model (MLLM)-gestuurde agent die gebruikersintentie begrijpt, het redeneerproces van professionele artiesten nabootst en intelligent meer dan 200 retoucheertools binnen Lightroom coördineert. JarvisArt ondergaat een tweefasig trainingsproces: een initiële Chain-of-Thought supervised fine-tuning om basisredenering en toolgebruikvaardigheden te ontwikkelen, gevolgd door Group Relative Policy Optimization for Retouching (GRPO-R) om de besluitvorming en toolvaardigheid verder te verbeteren. We stellen ook het Agent-to-Lightroom Protocol voor om naadloze integratie met Lightroom te vergemakkelijken. Om de prestaties te evalueren, ontwikkelen we MMArt-Bench, een nieuwe benchmark gebaseerd op real-world gebruikersbewerkingen. JarvisArt toont gebruiksvriendelijke interactie, superieure generalisatie en fijnmazige controle over zowel globale als lokale aanpassingen, wat een nieuwe weg opent voor intelligente fotoretouche. Opmerkelijk is dat het GPT-4o overtreft met een verbetering van 60% in gemiddelde pixelgebaseerde metrieken op MMArt-Bench voor inhoudstrouw, terwijl het vergelijkbare instructievolgcapaciteiten behoudt. Projectpagina: https://jarvisart.vercel.app/.
We introduceren Matrix-Game, een interactief wereldmodel voor het gecontroleerd genereren van gamewerelden. Matrix-Game wordt getraind via een tweestappenpijplijn die eerst grootschalige, ongelabelde voorpretraining uitvoert voor omgevingsbegrip, gevolgd door actie-gelabelde training voor het genereren van interactieve video’s. Om dit te ondersteunen, hebben we Matrix-Game-MC samengesteld, een uitgebreide Minecraft-dataset bestaande uit meer dan 2.700 uur aan ongelabelde gameplay-videoclips en meer dan 1.000 uur aan hoogwaardige gelabelde clips met gedetailleerde toetsenbord- en muisactieannotaties. Ons model hanteert een gecontroleerd beeld-naar-wereld-generatieparadigma, gebaseerd op een referentiebeeld, bewegingscontext en gebruikersacties. Met meer dan 17 miljard parameters maakt Matrix-Game nauwkeurige controle over karakteracties en camerabewegingen mogelijk, terwijl het hoge visuele kwaliteit en temporele samenhang behoudt. Om de prestaties te evalueren, ontwikkelen we GameWorld Score, een uniforme benchmark die visuele kwaliteit, temporele kwaliteit, actiecontroleerbaarheid en begrip van fysieke regels meet voor Minecraft-wereldgeneratie. Uitgebreide experimenten tonen aan dat Matrix-Game consistent beter presteert dan eerdere open-source Minecraft-wereldmodellen (waaronder Oasis en MineWorld) op alle metrieken, met name sterke verbeteringen in controleerbaarheid en fysieke consistentie. Dubbelblinde menselijke evaluaties bevestigen verder de superioriteit van Matrix-Game, waarbij het vermogen wordt benadrukt om perceptueel realistische en nauwkeurig controleerbare video’s te genereren in diverse game-scenario’s. Om toekomstig onderzoek naar interactieve beeld-naar-wereldgeneratie te faciliteren, zullen we de Matrix-Game-modelgewichten en de GameWorld Score-benchmark openbaar maken op https://github.com/SkyworkAI/Matrix-Game.
We presenteren AnimaX, een feed-forward 3D-animatieframework dat de bewegingsprioriteiten van videodiffusiemodellen verbindt met de bestuurbare structuur van skeletgebaseerde animatie. Traditionele methoden voor bewegingssynthese zijn beperkt tot vaste skeletale topologieën of vereisen kostbare optimalisatie in hoogdimensionale vervormingsruimtes. In tegenstelling hiermee brengt AnimaX op effectieve wijze videogebaseerde bewegingskennis over naar het 3D-domein, waarbij het diverse gearticuleerde meshes met willekeurige skeletten ondersteunt. Onze methode representeert 3D-beweging als multi-view, multi-frame 2D-positiemappen en maakt gezamenlijke video-pose diffusie mogelijk, geconditioneerd op sjabloonweergaven en een tekstuele bewegingsprompt. We introduceren gedeelde positionele coderingen en modaliteitsbewuste embeddings om ruimtelijk-temporele uitlijning tussen video- en positiereeksen te waarborgen, waardoor videoprioriteiten effectief worden overgedragen naar de bewegingsgeneratietaak. De resulterende multi-view positiereeksen worden getrianguleerd naar 3D-gewrichtsposities en omgezet in mesh-animatie via inverse kinematica. Getraind op een nieuw samengestelde dataset van 160.000 gerigde sequenties, behaalt AnimaX state-of-the-art resultaten op VBench op het gebied van generalisatie, bewegingsgetrouwheid en efficiëntie, en biedt een schaalbare oplossing voor categorie-agnostische 3D-animatie. Projectpagina: https://anima-x.github.io/{https://anima-x.github.io/}.
Software engineering (SWE) is recentelijk naar voren gekomen als een cruciaal testgebied voor de volgende generatie LLM-agents, waarbij inherente capaciteiten vereist zijn op twee kritieke dimensies: aanhoudend iteratief probleemoplossen (bijv. >50 interactierondes) en het oplossen van lange-context afhankelijkheden (bijv. >32k tokens). Het datacuratieproces in SWE blijft echter berucht tijdrovend, omdat het sterk afhankelijk is van handmatige annotatie voor het filteren van codebestanden en het opzetten van specifieke runtime-omgevingen om unittests uit te voeren en te valideren. Als gevolg hiervan zijn de meeste bestaande datasets beperkt tot slechts enkele duizenden GitHub-gebaseerde instanties. Daarom stellen we een incrementele, geautomatiseerde datacuratiepijplijn voor die zowel het volume als de diversiteit van SWE-datasets systematisch opschaalt. Onze dataset bestaat uit 10.169 real-world Python-taakinstanties afkomstig van 2.531 verschillende GitHub-repositories, elk vergezeld van een taak die in natuurlijke taal is gespecificeerd en een specifieke runtime-omgevingsimage voor geautomatiseerde unittest-validatie. We hebben zorgvuldig meer dan 8.000 succesvol runtime-gevalideerde trainingspaden gecureerd uit onze voorgestelde SWE-dataset. Bij het finetunen van het Skywork-SWE-model op deze paden, ontdekken we een opvallend dataschaalverschijnsel: de prestaties van het getrainde model voor software engineering-capaciteiten in LLMs blijven verbeteren naarmate de dataschaal toeneemt, zonder tekenen van verzadiging. Opmerkelijk is dat ons Skywork-SWE-model een nauwkeurigheid van 38,0% pass@1 behaalt op de SWE-bench Verified benchmark, zonder gebruik te maken van verifiers of meerdere rollouts, waarmee het een nieuwe state-of-the-art (SOTA) vestigt onder de Qwen2.5-Coder-32B-gebaseerde LLMs die zijn gebouwd op het OpenHands agent-framework. Bovendien verbetert de prestaties verder tot 47,0% nauwkeurigheid met de integratie van test-time schaaltechnieken, waarmee het de vorige SOTA-resultaten voor sub-32B parameter modellen overtreft. We maken het Skywork-SWE-32B modelcheckpoint beschikbaar om toekomstig onderzoek te versnellen.
Wij stellen Chain-of-Experts (CoE) voor, een nieuwe Mixture-of-Experts (MoE)-architectuur die sequentiële communicatie tussen experts binnen elke laag introduceert. In tegenstelling tot traditionele MoE-modellen, waar experts onafhankelijk en parallel werken, verwerkt CoE tokens iteratief via een keten van experts binnen een laag. Om dynamische expertselectie over iteraties heen te ondersteunen, maakt CoE gebruik van een toegewijde router bij elke iteratiestap binnen een laag. Dit ontwerp stelt tokens in staat om tijdens elke iteratie opnieuw te evalueren en verschillende experts te selecteren, in plaats van statisch toegewezen te worden. Hierdoor introduceert CoE een flexibel routeringsmechanisme dat de diversiteit van expertcombinaties vergroot en het representatievermogen van het model verrijkt. CoE toont verbeterde prestaties onder vaste rekenkracht: bij wiskundige redeneertaken reduceert het de validatiefout van 1.20 naar 1.12 in vergelijking met een standaard MoE. Naast prestaties biedt CoE een nieuwe schaalingsas: diepte door expertiteratie, wat conventionele breedte/diepte-schaling aanvult. Bijvoorbeeld, het gebruik van 2x iteraties komt overeen met de prestaties van 3x expertselecties (in breedte), terwijl het geheugengebruik met 17.6-42% wordt verminderd in vergelijking met andere schaalingsstrategieën. Onze analyse toont aan dat de voordelen van CoE voortkomen uit de iteratieve reststructuur en de verbeterde expertspecialisatie die mogelijk wordt gemaakt door iteratieve routering, wat samen meer expressieve representaties mogelijk maakt. De code is beschikbaar op https://github.com/ZihanWang314/coe.
Recente benaderingen van reinforcement learning, zoals outcome-supervised GRPO, hebben Chain-of-Thought redenering in grote taalmodellen (LLMs) vooruitgebracht, maar hun toepassing op multimodale LLMs (MLLMs) is nog onontgonnen. Om het gebrek aan rigoureuze evaluatie van post-trainingsmethoden voor MLLMs aan te pakken, introduceren we SEED-Bench-R1, een benchmark met complexe real-world video's die een evenwichtige perceptie en redenering vereisen. Het biedt een grote trainingsset en evalueert generalisatie over drie toenemende uitdagingen: in-distributie, cross-omgeving en cross-omgeving-taak scenario's. Met SEED-Bench-R1 ontdekken we dat standaard GRPO, hoewel het de antwoordnauwkeurigheid verbetert, vaak de logische samenhang tussen redeneerstappen en antwoorden vermindert, met slechts een consistentiepercentage van 57,9%. Dit komt doordat beloningssignalen zich uitsluitend richten op eindantwoorden, wat shortcuts aanmoedigt, en strikte KL-straffen die exploratie beperken. Om dit aan te pakken, stellen we GRPO-CARE voor, een consistentiebewust RL-framework dat zowel antwoordcorrectheid als redeneersamenhang optimaliseert zonder expliciete supervisie. GRPO-CARE introduceert een tweelaagse beloning: (1) een basisbeloning voor antwoordcorrectheid, en (2) een adaptieve consistentiebonus, berekend door de redenering-naar-antwoord waarschijnlijkheid van het model (via een langzaam evoluerend referentiemodel) te vergelijken met groepsgenoten. Dit dubbele mechanisme versterkt beloningen voor redeneerpaden die zowel correct als logisch consistent zijn. Door KL-straffen te vervangen door deze adaptieve bonus, presteert GRPO-CARE beter dan standaard GRPO op SEED-Bench-R1, met een prestatieverbetering van 6,7% op het moeilijkste evaluatieniveau en een verbetering van 24,5% in consistentie. Het toont ook sterke overdraagbaarheid, waardoor de modelprestaties op diverse video-begrip benchmarks verbeteren. Ons werk draagt bij met een systematisch ontworpen benchmark en een generaliseerbaar post-trainingsframework, wat de ontwikkeling van meer interpreteerbare en robuuste MLLMs bevordert.
Dit artikel presenteert ScaleCap, een schaalbare strategie voor het genereren van beeldbeschrijvingen tijdens de inferentiefase, die uitgebreide en gedetailleerde beeldbeschrijvingen produceert. De belangrijkste uitdagingen bij het maken van hoogwaardige beeldbeschrijvingen liggen in de inherente vooroordelen van LVLM's (Large Vision-Language Models): multimodale vooroordelen die resulteren in een ongelijke beschrijvingsgranulariteit, waarbij sommige elementen gedetailleerd worden beschreven terwijl andere slechts oppervlakkig worden behandeld; en linguïstische vooroordelen die leiden tot gehallucineerde beschrijvingen van niet-bestaande objecten. Om deze problemen aan te pakken, stellen we een schaalbare strategie voor het debiasing van beeldbeschrijvingen voor, waarbij de beschrijving continu wordt verrijkt en gekalibreerd met een toenemend inferentiebudget. Specifiek introduceren we twee nieuwe componenten: heuristische vraagbeantwoording en contrastieve zinsbeoordeling. De eerste genereert inhoudsspecifieke vragen op basis van de afbeelding en beantwoordt deze om geleidelijk relevante informatie in de beschrijving te injecteren. De tweede maakt gebruik van offline contrastief decoderen op zinsniveau om hallucinaties veroorzaakt door linguïstische vooroordelen effectief te identificeren en te elimineren. Met een hogere inferentiekosten worden er meer heuristische vragen gesteld door ScaleCap om geleidelijk aanvullende visuele details vast te leggen, waardoor beschrijvingen worden gegenereerd die nauwkeuriger, evenwichtiger en informatiever zijn. Uitgebreide experimenten met modaliteitsalignering demonstreren de effectiviteit van ScaleCap. Het annoteren van 450K afbeeldingen met ScaleCap en het gebruik ervan voor LVLM-pretraining leidt tot consistente prestatieverbeteringen op 11 veelgebruikte benchmarks. Bovendien toont ScaleCap een uitstekende rijkdom en betrouwbaarheid van gegenereerde beschrijvingen met twee aanvullende taken: het vervangen van afbeeldingen door beschrijvingen in VQA-taken, en het reconstrueren van afbeeldingen uit beschrijvingen om de semantische dekking te beoordelen. De code is beschikbaar op https://github.com/Cooperx521/ScaleCap.
Vision-language-action-modellen (VLA's) hebben aanzienlijke aandacht gekregen vanwege hun potentieel om robotmanipulatie te bevorderen. Eerdere benaderingen vertrouwen echter voornamelijk op de algemene begripsvaardigheden van vision-language-modellen (VLM's) om actiesignalen te genereren, waarbij vaak de rijke temporele en causale structuur in visuele observaties over het hoofd wordt gezien. In dit artikel presenteren we UniVLA, een uniform en native multimodaal VLA-model dat visuele, taal- en actiesignalen autoregressief modelleert als discrete tokenreeksen. Deze formulering maakt flexibel leren van multimodale taken mogelijk, met name op basis van grootschalige videodata. Door wereldmodellering toe te voegen tijdens het post-training, vangt UniVLA causale dynamiek op uit video's, wat een effectieve overdracht naar downstream beleidsleren vergemakkelijkt—met name voor taken met een lange horizon. Onze aanpak behaalt nieuwe state-of-the-art resultaten op verschillende veelgebruikte simulatiebenchmarks, waaronder CALVIN, LIBERO en Simplenv-Bridge, en overtreft eerdere methoden aanzienlijk. UniVLA behaalt bijvoorbeeld een gemiddeld slagingspercentage van 95,5% op de LIBERO-benchmark, wat pi0-FAST's 85,5% overstijgt. We demonstreren verder de brede toepasbaarheid ervan op real-world ALOHA-manipulatie en autonoom rijden.
Het oplossen van complexe SQL-problemen blijft een belangrijk knelpunt in praktische databasetoepassingen. Huidige Large Language Models (LLM's), hoewel bedreven in tekst-naar-SQL-vertaling, zijn nog niet grondig geëvalueerd op de uitdagendere taak van het debuggen van SQL-problemen. Om deze leemte aan te pakken, introduceren we BIRD-CRITIC, een nieuwe benchmark voor het debuggen van SQL-problemen, bestaande uit 530 PostgreSQL-taken (BIRD-CRITIC-PG) en 570 taken met meerdere dialecten (BIRD-CRITIC-Multi), gedistilleerd uit authentieke gebruikersproblemen en opnieuw afgespeeld in nieuwe omgevingen om een rigoureuze evaluatie mogelijk te maken. Baseline-evaluaties benadrukken de complexiteit van de taak, waarbij het toonaangevende redeneermodel O3-Mini slechts een slagingspercentage van 38,87% behaalt op BIRD-CRITIC-PG en 33,33% op BIRD-CRITIC-Multi. Tegelijkertijd is het bevorderen van open-source modellen voor databasetaken cruciaal om lokale ontwikkeling te stimuleren en tegelijkertijd gegevensprivacy te waarborgen. Daarom presenteren we Six-Gym (Sql-fIX-Gym), een trainingsomgeving voor het verbeteren van de mogelijkheden van open-source modellen voor het debuggen van SQL-problemen. Deze omgeving maakt gebruik van de SQL-Rewind-strategie, die automatisch uitvoerbare datasets met problemen en oplossingen genereert door problemen te reverse-engineeren vanuit geverifieerde SQL's. Populaire trajectgebaseerde fine-tuningmethoden verkennen echter geen substantiële superviserende signalen. We stellen verder f-Plan Boosting voor, dat hoogwaardige debugplannen extraheert uit SQL-oplossingen, waardoor leraar-LLM's 73,7% meer succesvolle trajecten kunnen produceren voor training. We integreren deze componenten in een open-source agent, Bird-Fixer. Gebaseerd op Qwen-2.5-Coder-14B, behaalt Bird-Fixer een slagingspercentage van 38,11% op BIRD-CRITIC-PG en 29,65% op BIRD-CRITIC-Multi, waarmee het toonaangevende propriëtaire modellen zoals Claude-3.7-Sonnet en GPT-4.1 overtreft, wat een belangrijke stap markeert in de democratisering van geavanceerde SQL-debugmogelijkheden. De leaderboard en broncode zijn beschikbaar op: https://bird-critic.github.io/
Variatie in menselijke annotaties (d.w.z. annotatieonenigheid) komt vaak voor in NLP en weerspiegelt vaak belangrijke informatie zoals de subjectiviteit van de taak en de ambiguïteit van de voorbeelden. Hoewel grote taalmmodellen (LLMs) steeds vaker worden gebruikt voor automatische annotatie om menselijke inspanning te verminderen, richt hun evaluatie zich vaak op het voorspellen van de meerderheidsgestemde "grondwaarheid"-labels. Het is echter nog onduidelijk of deze modellen ook de informatieve variatie in menselijke annotaties vastleggen. Ons werk behandelt deze leemte door uitgebreid te evalueren in hoeverre LLMs annotatieonenigheid kunnen voorspellen zonder toegang tot herhaalde menselijke labels. Onze resultaten laten zien dat LLMs moeite hebben met het modelleren van onenigheid, wat over het hoofd kan worden gezien bij evaluaties op basis van meerderheidslabels. Opvallend is dat, hoewel RLVR-stijl (Reinforcement learning met verifieerbare beloningen) redeneren over het algemeen de prestaties van LLMs verbetert, het de prestaties bij het voorspellen van onenigheid verslechtert. Onze bevindingen benadrukken de cruciale noodzaak om LLM-annotators te evalueren en te verbeteren in het modelleren van onenigheid. Code en gegevens zijn beschikbaar op https://github.com/EdisonNi-hku/Disagreement_Prediction.
Classifier-free guidance (CFG) is een essentieel onderdeel geworden van moderne conditionele diffusiemodellen. Hoewel het in de praktijk zeer effectief is, zijn de onderliggende mechanismen waarmee CFG kwaliteit, detail en promptafstemming verbetert, nog niet volledig begrepen. Wij presenteren een nieuw perspectief op CFG door de effecten ervan in het frequentiedomein te analyseren, waarbij we aantonen dat lage en hoge frequenties verschillende invloeden hebben op de generatiekwaliteit. Specifiek bepaalt lage-frequentiebegeleiding de globale structuur en conditieafstemming, terwijl hoge-frequentiebegeleiding voornamelijk de visuele kwaliteit verbetert. Het toepassen van een uniforme schaal over alle frequenties – zoals gebeurt in standaard CFG – leidt echter tot oververzadiging en verminderde diversiteit bij hoge schalen en verslechterde visuele kwaliteit bij lage schalen. Op basis van deze inzichten stellen we frequency-decoupled guidance (FDG) voor, een effectieve aanpak die CFG ontbindt in lage- en hoge-frequentiecomponenten en afzonderlijke begeleidingssterktes toepast op elke component. FDG verbetert de beeldkwaliteit bij lage begeleidingsschalen en vermijdt door ontwerp de nadelen van hoge CFG-schalen. Door uitgebreide experimenten over meerdere datasets en modellen tonen we aan dat FDG consistent de steekproefkwaliteit verbetert terwijl diversiteit behouden blijft, wat leidt tot verbeterde FID en recall in vergelijking met CFG, waardoor onze methode zich vestigt als een plug-and-play alternatief voor standaard classifier-free guidance.
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in redeneertaken, maar de optimale integratie van Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) blijft een fundamentele uitdaging. Door middel van een uitgebreide analyse van tokenverdelingen, leer dynamieken en integratiemechanismen vanuit entropie-gebaseerde perspectieven, onthullen we belangrijke verschillen tussen deze paradigma's: SFT induceert grofkorrelige globale veranderingen in de beleidsverdelingen van LLM's, terwijl RL fijnkorrelige selectieve optimalisaties uitvoert, waarbij entropie een cruciale indicator is van de effectiviteit van de training. Op basis van deze observaties stellen we Supervised Reinforcement Fine-Tuning (SRFT) voor, een eenstapsmethode die beide fine-tuning paradigma's verenigt via entropie-bewuste wegingmechanismen. Onze benadering past SFT en RL gelijktijdig toe om het LLM direct te optimaliseren met behulp van demonstraties en zelfverkennende rollouts, in plaats van via tweestaps sequentiële methoden. Uitgebreide experimenten tonen aan dat SRFT een gemiddelde nauwkeurigheid van 59,1% bereikt, wat zero-RL-methoden met 9,0% overtreft op vijf wiskundige redeneerbenchmarks en met 10,9% op drie out-of-distribution benchmarks.
Latente diffusiemodellen zijn naar voren gekomen als een toonaangevend paradigma voor efficiënte videogeneratie. Echter, naarmate gebruikersverwachtingen verschuiven naar hogere-resolutie-uitvoer, blijkt alleen vertrouwen op latente berekeningen ontoereikend. Een veelbelovende aanpak omvat het ontkoppelen van het proces in twee fasen: semantische inhoudsgeneratie en detailsynthese. De eerste fase maakt gebruik van een rekenintensief basismodel bij lagere resoluties, terwijl de tweede fase een lichtgewicht cascaded video super-resolutie (VSR)-model benut om een hoge-resolutie-uitvoer te bereiken. In dit werk richten we ons op het bestuderen van belangrijke ontwerp principes voor deze cascaded VSR-modellen, die momenteel onderbelicht zijn. Ten eerste stellen we twee degradatiestrategieën voor om trainingsparen te genereren die de uitvoerkenmerken van het basismodel beter nabootsen, waardoor de afstemming tussen het VSR-model en de upstream generator wordt gewaarborgd. Ten tweede bieden we kritische inzichten in het gedrag van VSR-modellen door systematische analyse van (1) timestep-bemonsteringsstrategieën, (2) ruisaugmentatie-effecten op lage-resolutie (LR)-invoer. Deze bevindingen informeren direct onze architectonische en trainingsinnovaties. Tot slot introduceren we interleaving temporale eenheden en sparse lokale aandacht om efficiënte training en inferentie te bereiken, waardoor de rekenoverhead aanzienlijk wordt verminderd. Uitgebreide experimenten tonen de superioriteit van ons framework aan ten opzichte van bestaande methoden, waarbij ablatiestudies de effectiviteit van elke ontwerpkeuze bevestigen. Ons werk stelt een eenvoudig maar effectief uitgangspunt vast voor cascaded video super-resolutiegeneratie, en biedt praktische inzichten om toekomstige vooruitgang in efficiënte cascaded synthesesystemen te begeleiden.
Redeneermodellen blinken uit door lange ketens van gedachten te genereren, maar het decoderen van de resulterende duizenden tokens is traag. Token-level speculatief decoderen (SD) helpt, maar het voordeel is beperkt, omdat de kans dat een volledige gamma-token gok correct is, exponentieel afneemt naarmate gamma groeit. Dit betekent dat het toewijzen van meer rekenkracht voor langere tokenconcepten een algoritmisch plafond tegenkomt – waardoor de snelheidswinst bescheiden en hardware-onafhankelijk blijft. Wij verhogen dit plafond met Lookahead Reasoning, dat een tweede, stapniveau laag van parallellisme benut. Onze belangrijkste inzicht is dat redeneermodellen stap-voor-stap genereren, en elke stap alleen semantisch correct hoeft te zijn, niet exact token-matching. In Lookahead Reasoning stelt een lichtgewicht conceptmodel meerdere toekomstige stappen voor; het doelmodel breidt elk voorstel uit in één gebatchte doorloop, en een verifier behoudt semantisch correcte stappen terwijl het doelmodel eventuele mislukte stappen opnieuw genereert. Token-level SD werkt nog steeds binnen elke redeneerstap, waardoor de twee lagen van parallellisme zich vermenigvuldigen. We tonen aan dat Lookahead Reasoning de pieksnelheidswinst van SD zowel theoretisch als empirisch verhoogt. Over GSM8K, AIME en andere benchmarks verbetert Lookahead Reasoning de snelheidswinst van SD van 1,4x naar 2,1x terwijl de antwoordkwaliteit behouden blijft, en de snelheidswinst schaalt beter met extra GPU-doorvoer. Onze code is beschikbaar op https://github.com/hao-ai-lab/LookaheadReasoning.
Zelfgesuperviseerd leren (SSL) heeft een revolutie teweeggebracht in audio-representaties, maar modellen blijven vaak domeinspecifiek, gericht op spraak- of niet-spraaktaken. In dit werk presenteren we Universal Speech and Audio Distillation (USAD), een geïntegreerde aanpak voor het leren van audio-representaties die diverse audiotypen - spraak, geluid en muziek - verenigt in één model. USAD maakt gebruik van efficiënte laag-voor-laag-distillatie van domeinspecifieke SSL-modellen om een studentmodel te trainen op een uitgebreide audiodataset. USAD biedt competitieve prestaties op verschillende benchmarks en datasets, inclusief frame- en instantieniveau spraakverwerkingstaken, audiolabeling en geluidsclassificatie, en behaalt bijna state-of-the-art resultaten met een enkele encoder op de SUPERB- en HEAR-benchmarks.
Codewisseling (CSW) is het afwisselen van twee of meer talen binnen een enkel discours. Dit fenomeen komt veel voor in meertalige gemeenschappen en wordt steeds gebruikelijker in online content, waar gebruikers talen van nature mengen in alledaagse communicatie. Als gevolg hiervan worden Large Language Models (LLM's), die nu centraal staan in contentverwerking en -generatie, vaak blootgesteld aan invoer met codewisseling. Gezien hun brede toepassing is het cruciaal om te begrijpen hoe LLM's dergelijke gemengd-talige tekst verwerken en interpreteren. Dit artikel presenteert een systematische evaluatie van het begrip van LLM's onder codewisseling door CSW-varianten te genereren van gevestigde benchmarks voor redeneren en begrip. Hoewel achteruitgang duidelijk is wanneer vreemde tokens Engelse tekst verstoren—zelfs onder linguïstische beperkingen—verbetert het inbedden van Engels in andere talen vaak het begrip. Hoewel prompting gemengde resultaten oplevert, biedt fine-tuning een stabielere weg om achteruitgang te verminderen.
Grote Taalmodellen (LLMs) bieden veelbelovende mogelijkheden voor het automatiseren van data-analyse taken, maar open-source modellen kampen met aanzienlijke beperkingen in dit soort redeneringsintensieve scenario's. In dit onderzoek verkennen we strategieën om de data-analyse capaciteiten van open-source LLMs te verbeteren. Door een startdataset samen te stellen van diverse, realistische scenario's, evalueren we modellen op drie dimensies: data-begrip, codegeneratie en strategische planning. Onze analyse onthult drie belangrijke bevindingen: (1) De kwaliteit van strategische planning is de belangrijkste bepalende factor voor modelprestaties; (2) Interactieontwerp en taakcomplexiteit hebben een aanzienlijke invloed op redeneervaardigheden; (3) Data-kwaliteit heeft een grotere impact dan diversiteit bij het bereiken van optimale prestaties. We benutten deze inzichten om een data-synthesemethodologie te ontwikkelen, wat leidt tot aanzienlijke verbeteringen in de analytische redeneervaardigheden van open-source LLMs.
Orthogonale finetuning (OFT) biedt een zeer parameter-efficiënte aanpassing terwijl catastrofaal vergeten wordt voorkomen, maar de hoge rekentijd en geheugenvraag beperken de praktische inzetbaarheid. Wij identificeren het kerncomputatieknelpunt in OFT als de gewichtsgerichte implementatie, die berust op kostbare matrix-matrixvermenigvuldigingen met kubische complexiteit. Om dit te overwinnen, stellen we OFTv2 voor, een invoergerichte herformulering die in plaats daarvan matrix-vectorvermenigvuldigingen gebruikt (d.w.z. matrixvrije berekening), waardoor de rekenkosten worden teruggebracht tot kwadratisch. We introduceren verder de Cayley-Neumann-parameterisatie, een efficiënte orthogonale parameterisatie die de matrixinversie in de Cayley-transformatie benadert via een afgekapte Neumann-reeks. Deze aanpassingen zorgen ervoor dat OFTv2 tot 10x snellere training en 3x lager GPU-geheugengebruik kan bereiken zonder in te leveren op prestaties. Daarnaast breiden we OFTv2 uit om het finetunen van gekwantiseerde foundation-modellen te ondersteunen en laten we zien dat het de populaire QLoRA overtreft in trainingsstabiliteit, efficiëntie en geheugengebruik.
Het genereren van hoogdimensionale visuele modaliteiten is een rekenintensieve taak. Een veelgebruikte oplossing is progressieve generatie, waarbij de uitvoer wordt gesynthetiseerd in een grof-naar-fijn spectrale autoregressieve manier. Hoewel diffusiemodellen profiteren van de grof-naar-fijn aard van denoising, worden expliciete meerfasige architecturen zelden toegepast. Deze architecturen hebben de complexiteit van de algehele aanpak vergroot, wat de noodzaak introduceerde voor een aangepaste diffusieformulering, decompositie-afhankelijke faseovergangen, ad-hoc samplers of een modelcascade. Onze bijdrage, Decomposable Flow Matching (DFM), is een eenvoudig en effectief raamwerk voor de progressieve generatie van visuele media. DFM past Flow Matching onafhankelijk toe op elk niveau van een door de gebruiker gedefinieerde multi-schaal representatie (zoals een Laplaciaanse piramide). Zoals onze experimenten aantonen, verbetert onze aanpak de visuele kwaliteit voor zowel afbeeldingen als video's, met superieure resultaten in vergelijking met eerdere meerfasige raamwerken. Op Imagenet-1k 512px behaalt DFM 35,2% verbeteringen in FDD-scores ten opzichte van de basisarchitectuur en 26,4% ten opzichte van de best presterende baseline, onder dezelfde trainingsrekencapaciteit. Bij toepassing op het finetunen van grote modellen, zoals FLUX, toont DFM een snellere convergentiesnelheid naar de trainingsdistributie. Cruciaal is dat al deze voordelen worden bereikt met een enkel model, architecturale eenvoud en minimale aanpassingen aan bestaande trainingspijplijnen.
Grote Taalmodellen (LLM's), met name langzaam denkende modellen, vertonen vaak ernstige hallucinaties, waarbij ze incorrecte inhoud produceren vanwege het onvermogen om kennisgrenzen tijdens het redeneren nauwkeurig te herkennen. Hoewel Reinforcement Learning (RL) complexe redeneervaardigheden kan verbeteren, ontbreekt het vaak aan feitelijke supervisie over het denkproces in de uitkomstgerichte beloningsmechanismen, wat het hallucinatieprobleem verder verergert. Om het hoge hallucinatiegehalte in langzaam denkende modellen aan te pakken, stellen we Knowledge-enhanced RL voor, genaamd KnowRL. KnowRL begeleidt modellen bij het uitvoeren van feitelijk onderbouwd langzaam denken door een feitelijkheidsbeloning, gebaseerd op kennisverificatie, te integreren in het RL-trainingsproces, waardoor ze hun kennisgrenzen beter kunnen herkennen. Deze gerichte feitelijke input tijdens de RL-training stelt het model in staat om feitelijk onderbouwde redeneerstrategieën te leren en te internaliseren. Door directe beloning voor het naleven van feiten binnen de redeneerstappen, bevordert KnowRL een betrouwbaarder denkproces. Experimentele resultaten op drie hallucinatie-evaluatiedatasets en twee redeneer-evaluatiedatasets tonen aan dat KnowRL hallucinaties in langzaam denkende modellen effectief vermindert, terwijl hun oorspronkelijke sterke redeneercapaciteiten behouden blijven. Onze code is beschikbaar op https://github.com/zjunlp/KnowRL.
Dit onderzoek verkent de effectiviteit van voorspellende onderhoudsmodellen en de optimalisatie van intelligente Operationele en Onderhoudssystemen (O&M) bij het verbeteren van de efficiëntie van windenergieopwekking. Door middel van kwalitatief onderzoek werden gestructureerde interviews afgenomen met vijf windmolenparkingenieurs en onderhoudsmanagers, elk met uitgebreide ervaring in turbineoperaties. Met behulp van thematische analyse toonde het onderzoek aan dat voorspellende onderhoudsmodellen effectief downtime verminderen door grote fouten te identificeren, maar vaak moeite hebben met het detecteren van kleinere, geleidelijke storingen. Belangrijke uitdagingen die werden geïdentificeerd, zijn onder meer valse positieven, sensormanufacturen en moeilijkheden bij het integreren van nieuwe modellen met oudere turbinesystemen. Geavanceerde technologieën zoals digitale tweelingen, SCADA-systemen en conditiemonitoring hebben de onderhoudspraktijken van turbines aanzienlijk verbeterd. Deze technologieën vereisen echter nog verbeteringen, met name op het gebied van AI-verfijning en real-time dataintegratie. De bevindingen benadrukken de noodzaak van continue ontwikkeling om de prestaties van windturbines volledig te optimaliseren en de bredere adoptie van hernieuwbare energie te ondersteunen.
Vision-and-Language Navigation (VLN) in grootschalige stedelijke omgevingen vereist dat belichaamde agents linguïstische instructies kunnen verankeren in complexe scènes en relevante ervaringen kunnen herinneren over langere tijdsperioden. Eerdere modulaire pipelines bieden interpreteerbaarheid maar missen een verenigd geheugen, terwijl end-to-end (M)LLM-agents uitblinken in het integreren van visie en taal, maar beperkt blijven door vaste contextvensters en impliciete ruimtelijke redenering. Wij introduceren Mem4Nav, een hiërarchisch ruimtelijk-cognitief lang-kort geheugensysteem dat elke VLN-backbone kan versterken. Mem4Nav combineert een sparse octree voor fijnmazige voxelindexering met een semantische topologiegrafiek voor connectiviteit op hoog niveau van herkenningspunten, waarbij beide worden opgeslagen in trainbare geheugentokens die zijn ingebed via een omkeerbare Transformer. Langetermijngeheugen (LTM) comprimeert en behoudt historische observaties op zowel octree- als grafiekniveau, terwijl kortetermijngeheugen (STM) recente multimodale invoer opslaat in relatieve coördinaten voor realtime obstakelvermijding en lokale planning. Bij elke stap verscherpt STM-retrieval de dynamische context, en wanneer diepere geschiedenis nodig is, worden LTM-tokens verliesvrij gedecodeerd om eerdere inbeddingen te reconstrueren. Geëvalueerd op Touchdown en Map2Seq over drie backbones (modulair, state-of-the-art VLN met prompt-gebaseerde LLM, en state-of-the-art VLN met gestreepte-attentie MLLM), levert Mem4Nav 7-13 procentpunt winst op in Taakvoltooiing, voldoende SPD-reductie en >10 procentpunt nDTW-verbetering. Ablaties bevestigen de onmisbaarheid van zowel de hiërarchische kaart als de dubbele geheugenmodules. Onze code is open-source via https://github.com/tsinghua-fib-lab/Mem4Nav.