Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De redeneervaardigheden van grote taalmmodellen (LLMs) zijn al lang een belangrijk onderzoeksfocus. Recente studies hebben deze vaardigheden verder verbeterd door gebruik te maken van reinforcement learning (RL), waarbij veel nieuwe methoden aanzienlijke verbeteringen claimen met minimale of geen externe begeleiding. Verrassend genoeg suggereren sommige onderzoeken zelfs dat willekeurige of incorrecte beloningssignalen de redeneerprestaties kunnen verbeteren. Deze doorbraken worden echter voornamelijk gerapporteerd op de Qwen2.5-modelfamilie en geëvalueerd op bekende benchmarks zoals MATH-500, AMC en AIME, terwijl vergelijkbare resultaten uitblijven bij andere modellen zoals Llama, wat verder onderzoek rechtvaardigt. Onze analyse toont aan dat hoewel Qwen2.5 sterke wiskundige redeneerprestaties behaalt, de pretraining op grootschalige webcorpora het kwetsbaar maakt voor datacontaminatie in populaire benchmarks. Hierdoor kunnen resultaten afgeleid van deze benchmarks onbetrouwbaar zijn. Om dit aan te pakken, introduceren we een generator die volledig synthetische rekenproblemen van willekeurige lengte en moeilijkheidsgraad produceert, wat resulteert in een schone dataset die we RandomCalculation noemen. Met behulp van deze lekvrije datasets tonen we aan dat alleen accurate beloningssignalen consistent tot prestatieverbeteringen leiden, terwijl ruisachtige of incorrecte signalen dit niet doen. Wij pleiten voor de evaluatie van RL-methoden op niet-gecontamineerde benchmarks en over diverse modelfamilies om betrouwbare conclusies te waarborgen.
Het opschalen van taalmodelen ontgrendelt indrukwekkende mogelijkheden, maar de bijbehorende reken- en geheugeneisen maken zowel training als implementatie kostbaar. Bestaande efficiëntie-inspanningen richten zich doorgaans op het delen van parameters of adaptieve berekening, waardoor de vraag open blijft hoe beide tegelijkertijd kunnen worden bereikt. Wij introduceren Mixture-of-Recursions (MoR), een uniform raamwerk dat de twee assen van efficiëntie combineert binnen een enkele Recursive Transformer. MoR hergebruikt een gedeelde stapel lagen over recursiestappen om parameter-efficiëntie te bereiken, terwijl lichtgewicht routers adaptief denken op tokenniveau mogelijk maken door dynamisch verschillende recursiediepten toe te wijzen aan individuele tokens. Hierdoor kan MoR de kwadratische aandachtberekening concentreren op alleen de tokens die nog actief zijn op een gegeven recursiediepte, wat de efficiëntie van geheugentoegang verder verbetert door selectief alleen hun sleutel-waardeparen in cache op te slaan. Naast deze kernmechanismen stellen we ook een KV-delingvariant voor die KV-paren van de eerste recursie hergebruikt, specifiek ontworpen om de prefill-latentie en geheugenvoetafdruk te verkleinen. Over modelschalen variërend van 135M tot 1,7B parameters vormt MoR een nieuwe Pareto-grens: bij gelijke trainings-FLOPs en kleinere modelgroottes verlaagt het significant de validatieperplexiteit en verbetert het few-shot-nauwkeurigheid, terwijl het een hogere doorvoersnelheid biedt in vergelijking met standaard- en bestaande recursieve basislijnen. Deze winsten tonen aan dat MoR een effectieve weg is naar kwaliteit van grote modellen zonder de kosten van grote modellen te maken.
De snelle ontwikkeling van grootschalige modellen heeft aanzienlijke doorbraken in het domein van digitale mensen versneld. Deze geavanceerde methodologieën bieden hoogwaardige oplossingen voor avatarsturing en -rendering, waardoor de academische wereld zich richt op de volgende grote uitdaging: audio-visuele dyadische interactieve virtuele mensen. Om onderzoek in dit opkomende gebied te faciliteren, presenteren we de SpeakerVid-5M dataset, de eerste grootschalige, hoogwaardige dataset die is ontworpen voor het genereren van audio-visuele dyadische interactieve virtuele mensen. Met in totaal meer dan 8.743 uur bevat SpeakerVid-5M meer dan 5,2 miljoen videoclips van menselijke portretten. Het bestrijkt diverse schalen en interactietypen, waaronder monadisch praten, luisteren en dyadische gesprekken. Cruciaal is dat de dataset is gestructureerd langs twee belangrijke dimensies: interactietype en datakwaliteit. Ten eerste is het gecategoriseerd in vier typen (dialoogtak, enkele tak, luistertak en multi-turn tak) op basis van het interactiescenario. Ten tweede is het gestratificeerd in een grootschalige voorafgaande trainingssubset en een gecureerde, hoogwaardige subset voor Supervised Fine-Tuning (SFT). Deze dubbele structuur accommodeert een breed scala aan 2D virtuele mensentaken. Daarnaast bieden we een autoregressieve (AR)-gebaseerde videochat-baseline die op deze data is getraind, vergezeld van een toegewijd set metriek en testdata om te dienen als een benchmark VidChatBench voor toekomstig werk. Zowel de dataset als de bijbehorende dataverwerkingscode zullen openbaar worden vrijgegeven. Projectpagina: https://dorniwang.github.io/SpeakerVid-5M/
Recente geavanceerde visie-taalmodellen (VLMs) hebben sterke prestaties laten zien bij passieve, offline beeld- en videobegriptaken. Hun effectiviteit in belichaamde omgevingen, die online interactie en actieve scènebegrip vereisen, blijft echter beperkt. In dergelijke scenario's neemt een agent de omgeving waar vanuit een first-person perspectief, waarbij elke actie de daaropvolgende waarnemingen dynamisch vormgeeft. Zelfs state-of-the-art modellen zoals GPT-4o, Claude 3.5 Sonnet en Gemini 2.5 Pro worstelen in open-omgeving interacties, waarbij duidelijke beperkingen in ruimtelijk redeneren en langetermijnplanning naar voren komen. Om deze kloof te overbruggen, introduceren we EmRACE-3K, een dataset van meer dan 3.000 taalgestuurde taken gesitueerd in diverse, fotorealistische omgevingen geconstrueerd met Unreal Engine en het UnrealCV-Zoo framework. De taken omvatten een breed scala aan belichaamde uitdagingen, waaronder navigatie, objectmanipulatie en uitvoering van meerfasige doelen. Elke taak ontvouwt zich als een meerstaps traject, waarbij first-person visuele waarnemingen worden gekoppeld aan hoogwaardige instructies, gegronde acties en natuurlijke taalredeneringen die de intentie van de agent bij elke stap uitdrukken. Met EmRACE-3K stellen we een benchmark op om de belichaamde redeneervaardigheden van VLMs te evalueren op drie belangrijke dimensies: Verkenning, Dynamisch Ruimtelijk-Semantisch Redeneren en Meerfasige Doeluitvoering. In zero-shot settings behalen alle modellen slagingspercentages onder de 20%, wat de uitdaging van onze benchmark en de huidige beperkingen van VLMs in interactieve omgevingen onderstreept. Om het nut van EmRACE-3K aan te tonen, fine-tunen we verder Qwen2.5-VL-7B met behulp van supervised learning gevolgd door reinforcement learning. Deze aanpak leidt aanzienlijke verbeteringen op in alle drie de uitdagingscategorieën, wat de effectiviteit van de dataset benadrukt bij het mogelijk maken van de ontwikkeling van belichaamde redeneervaardigheden.
Recente Large Reasoning Models (LRMs) hebben opmerkelijke vooruitgang geboekt op taakspecifieke benchmarks, maar hun evaluatiemethoden blijven beperkt door geïsoleerde probleemoplossingsparadigma's. Bestaande benchmarks beoordelen voornamelijk enkelvoudige vraagredenering via sequentiële tests, wat resulteert in kritieke beperkingen: (1) kwetsbaarheid voor datacontaminatie en minder uitdagende taken (bijvoorbeeld DeepSeek-R1 behaalt 97,0% op MATH500), wat leidt tot kostbare en voortdurende creatie van nieuwe vragen met grote menselijke inspanningen, (2) het onvermogen om modellen te evalueren onder druk van meerdere contexten, een essentiële vereiste voor inzet in de echte wereld. Om deze kloof te overbruggen, presenteren we REST (Reasoning Evaluation through Simultaneous Testing), een stresstestframework dat LRMs gelijktijdig blootstelt aan meerdere problemen. Naast basisredenering evalueert REST specifiek verschillende onderbelichte capaciteiten: contextuele prioriteitstoewijzing, weerstand tegen kruisprobleeminterferentie en dynamisch cognitief belastingsbeheer. Onze evaluatie onthult enkele opvallende bevindingen: zelfs state-of-the-art (SOTA) modellen zoals DeepSeek-R1 vertonen aanzienlijke prestatievermindering onder stresstests. Cruciaal toont REST een sterkere onderscheidende kracht dan bestaande benchmarks, waarbij duidelijke prestatieverschillen worden onthuld tussen modellen die vergelijkbare, bijna maximale prestaties vertonen onder enkelvoudige vraagbeoordelingen. Enkele belangrijke mechanistische inzichten komen naar voren uit onze analyse: (1) de "overthinking trap" is een kritieke factor die bijdraagt aan de prestatievermindering; (2) modellen die zijn getraind met de "long2short"-techniek behouden meer nauwkeurigheid van hun enkelvoudige probleemprestaties onder REST en presteren beter dan standaard getrainde tegenhangers. Deze resultaten vestigen REST als een kostenefficiënt, toekomstbestendig evaluatieparadigma dat beter aansluit bij de redeneereisen van de echte wereld en tegelijkertijd de afhankelijkheid van continue menselijke annotatie vermindert.
We presenteren MoVieS, een nieuw feed-forward model dat in één seconde 4D dynamische nieuwe aanzichten synthetiseert uit monovideo's. MoVieS representeert dynamische 3D-scènes met behulp van pixel-uitgelijnde roosters van Gaussische primitieven, waarbij hun tijdvariërende beweging expliciet wordt gesuperviseerd. Dit maakt voor het eerst de geïntegreerde modellering van uiterlijk, geometrie en beweging mogelijk, en biedt de mogelijkheid tot aanzichtsynthese, reconstructie en 3D-puntvolging binnen een enkel op leren gebaseerd raamwerk. Door het synthetiseren van nieuwe aanzichten te combineren met dynamische geometriereconstructie, maakt MoVieS grootschalige training op diverse datasets mogelijk met minimale afhankelijkheid van taakspecifieke supervisie. Hierdoor ondersteunt het ook van nature een breed scala aan zero-shot toepassingen, zoals schatting van scèneflow en segmentatie van bewegende objecten. Uitgebreide experimenten valideren de effectiviteit en efficiëntie van MoVieS over meerdere taken, waarbij het competitieve prestaties behaalt en tegelijkertijd een versnelling van meerdere ordes van grootte biedt.
Grote taalmodellen (LLMs) blinken uit in natuurlijke taalverwerking en -generatie, maar blijven kwetsbaar voor feitelijke fouten, wat hun betrouwbaarheid beperkt in kennisintensieve taken. Hoewel strategieën tijdens het decoderen een veelbelovende efficiënte oplossing bieden zonder training, behandelen bestaande methoden doorgaans token-niveau en laag-niveau signalen afzonderlijk, waarbij de gezamenlijke dynamiek tussen hen over het hoofd wordt gezien. In dit werk introduceren we een token-bewuste, laag-gelokaliseerde contrastieve decoderingmethode die specifieke tokentypes uitlijnt met hun meest invloedrijke transformer-lagen om feitelijke generatie te verbeteren. Door empirische aandachtanalyse identificeren we twee belangrijke patronen: interpunctietokens krijgen dominante aandacht in vroege lagen, terwijl conceptuele tokens semantische redenering beheersen in tussenliggende lagen. Door selectief aandacht voor deze tokentypes op hun respectievelijke dieptes te onderdrukken, bereiken we de inductie van gecontroleerde feitelijke degradatie en leiden we contrastieve signalen af om de uiteindelijke feitelijke decodering te sturen. Onze methode vereist geen aanvullende training of modelaanpassing, en experimenten tonen aan dat onze methode consistent de feitelijkheid verbetert over meerdere LLMs en diverse benchmarks.
De ontwikkeling van Large Language Models (LLMs) vereist robuuste benchmarks die niet alleen academische domeinen omvatten, maar ook industriële velden om hun toepasbaarheid in realistische scenario's effectief te evalueren. In dit artikel introduceren we twee Koreaanse expertniveau-benchmarks. KMMLU-Redux, gereconstrueerd vanuit de bestaande KMMLU, bestaat uit vragen uit de Koreaanse Nationale Technische Kwalificatie-examens, waarbij kritieke fouten zijn verwijderd om de betrouwbaarheid te vergroten. KMMLU-Pro is gebaseerd op Koreaanse Nationale Professionele Licentie-examens om professionele kennis in Korea te weerspiegelen. Onze experimenten tonen aan dat deze benchmarks de industriële kennis in Korea uitgebreid vertegenwoordigen. We stellen onze dataset publiekelijk beschikbaar.
Recentelijk heeft de rol van LLM-as-judge bij het evalueren van grote taalmodelleen aanzienlijke aandacht gekregen. Huidige beoordelingsmodellen kampen echter met een beperkte specialisatie en robuustheid, wat hun vermogen om uitgebreide evaluaties uit te voeren ondermijnt. In dit werk presenteren we CompassJudger-2, een nieuw generalistisch beoordelingsmodel dat deze beperkingen overwint via een taakgestuurde, multidisciplinaire datacuratiestrategie. Centraal in onze aanpak staat het toezicht houden op beoordelingstaken met verifieerbare beloningen, waarbij intrinsieke kritische redenering wordt gestuurd door middel van rejection sampling om robuuste, generaliseerbare beoordelingsvaardigheden te bevorderen. We introduceren een verfijnd leerdoel met margin policy gradient loss om de prestaties te verbeteren. Empirisch gezien behaalt CompassJudger-2 superieure resultaten op meerdere beoordelings- en beloningsbenchmarks, en toont ons 7B-model competitieve beoordelingsnauwkeurigheid in vergelijking met aanzienlijk grotere modellen zoals DeepSeek-V3 en Qwen3-235B-A22B. Daarnaast stellen we JudgerBenchV2 voor, een uitgebreide benchmark die cross-domein beoordelingsnauwkeurigheid en rangconsistentie evalueert om de evaluatie van beoordelingsmodellen te standaardiseren. Deze bijdragen bevorderen robuuste, schaalbare LLM-beoordeling en stellen nieuwe prestatienormen en evaluatiestandaarden vast.
Onderwerp-consistente generatie (SCG) - gericht op het behouden van een consistente onderwerpidentiteit in diverse scènes - blijft een uitdaging voor tekst-naar-beeld (T2I) modellen. Bestaande trainingsvrije SCG-methoden bereiken vaak consistentie ten koste van lay-out en pose-diversiteit, wat expressief visueel verhalen vertellen belemmert. Om deze beperking aan te pakken, stellen we een onderwerp-consistente en pose-diverse T2I-framework voor, genaamd CoDi, dat consistente onderwerpgeneratie mogelijk maakt met diverse poses en lay-outs. Geïnspireerd door het progressieve karakter van diffusie, waarbij grove structuren vroeg ontstaan en fijne details later worden verfijnd, hanteert CoDi een tweestapsstrategie: Identiteit Transport (IT) en Identiteit Verfijning (IR). IT werkt in de vroege denoising-stappen en gebruikt optimaal transport om identiteitskenmerken op een pose-bewuste manier naar elk doelbeeld over te dragen. Dit bevordert onderwerpconsistentie terwijl pose-diversiteit behouden blijft. IR wordt toegepast in de latere denoising-stappen, waarbij de meest opvallende identiteitskenmerken worden geselecteerd om onderwerpdetails verder te verfijnen. Uitgebreide kwalitatieve en kwantitatieve resultaten op het gebied van onderwerpconsistentie, pose-diversiteit en prompt-trouw tonen aan dat CoDi zowel een betere visuele perceptie als een sterkere prestaties op alle metrieken bereikt. De code is beschikbaar op https://github.com/NJU-PCALab/CoDi.
We presenteren DreamPoster, een Text-to-Image-generatieframework dat op intelligente wijze hoogwaardige posters synthetiseert uit door gebruikers aangeleverde afbeeldingen en tekstprompts, waarbij de inhoudelijke trouw wordt behouden en flexibele resolutie- en lay-outuitvoer wordt ondersteund. Specifiek is DreamPoster gebouwd op ons T2I-model, Seedream3.0, om verschillende soorten postergeneratie uniform te verwerken. Voor de datasetconstructie stellen we een systematische data-annotatiepijplijn voor die tekstuele inhoud en typografische hiërarchie-informatie binnen posterafbeeldingen nauwkeurig annoteert, terwijl uitgebreide methodologieën worden ingezet om gepaarde datasets te construeren die bronmaterialen (bijv. ruwe afbeeldingen/tekst) en hun bijbehorende definitieve posteruitvoer omvatten. Daarnaast implementeren we een progressieve trainingsstrategie die het model in staat stelt om hiërarchisch multi-taskgeneratiecapaciteiten te verwerven terwijl hoogwaardige generatie wordt behouden. Evaluaties op onze testbenchmarks tonen de superioriteit van DreamPoster aan ten opzichte van bestaande methoden, met een hoge bruikbaarheidsgraad van 88,55\%, vergeleken met GPT-4o (47,56\%) en SeedEdit3.0 (25,96\%). DreamPoster zal online beschikbaar zijn in Jimeng en andere Bytedance-apps.
Het verbeteren van het wiskundig redeneervermogen van Large Language Models (LLM's) is een cruciale uitdaging bij het bevorderen van AI-mogelijkheden. Hoewel Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) de dominante trainingsparadigma's zijn, blijft een systematische methodologie om ze te combineren om zowel nauwkeurigheid als efficiëntie te maximaliseren grotendeels onontgonnen. Dit artikel introduceert een praktisch en effectief trainingsrecept dat strategisch uitgebreide SFT integreert met RL vanuit online inferentie (GRPO). Wij stellen dat deze methoden complementaire, niet concurrerende, rollen spelen: een verlengde SFT-fase duwt eerst de nauwkeurigheid van het model tot zijn limieten, waarna een GRPO-fase de token-efficiëntie aanzienlijk verbetert terwijl deze piekprestatie behouden blijft. Onze experimenten tonen aan dat het verlengen van SFT tot wel 10 epochs cruciaal is voor prestatie doorbraken, en dat de primaire rol van GRPO in dit framework het optimaliseren van de oplossingslengte is. De effectiviteit van ons recept wordt rigoureus gevalideerd door topprestaties op uitdagende benchmarks, inclusief een hoge rang onder meer dan 2.200 teams in de strikt lekvrije AI Mathematical Olympiad (AIMO). Dit werk biedt de gemeenschap een beproefd blauwdruk voor het ontwikkelen van state-of-the-art wiskundige redeneerders die zowel uitzonderlijk nauwkeurig als praktisch efficiënt zijn. Om volledige reproduceerbaarheid te garanderen en toekomstig onderzoek te ondersteunen, zullen we ons volledige framework open source maken, inclusief alle code, modelcheckpoints en trainingsconfiguraties op https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
Dit artikel presenteert een nieuwe methode van uitvoerbare steganografie door gebruik te maken van de alfa-transparantielaag van ICO-afbeeldingsbestanden om zelfuitpakkende JavaScript-payloads in te bedden en af te leveren binnen webbrowsers. Door zich te richten op de minst significante bit (LSB) van niet-transparante alfa-laagbeeldwaarden, slaagt de voorgestelde methode erin gecomprimeerde JavaScript-code te verbergen in een favicon-afbeelding zonder de visuele kwaliteit aan te tasten. Wereldwijd laden webbrowsers dagelijks 294 miljard favicons en verbruiken ze 0,9 petabyte aan netwerkbandbreedte. Een proof-of-concept implementatie toont aan dat een 64x64 ICO-afbeelding tot 512 bytes ongecomprimeerd, of 0,8 kilobyte bij gebruik van lichte tweevoudige compressie, kan bevatten. Bij het laden van een pagina haalt een browser het favicon op als onderdeel van het standaardgedrag, waardoor een ingebed laadscript de payload volledig in het geheugen kan extraheren en uitvoeren met behulp van native JavaScript-API's en canvas-pixeltoegang. Dit creëert een tweefasen covert channel dat geen extra netwerk- of gebruikersverzoeken vereist. Testen in meerdere browsers, zowel op desktop- als mobiele omgevingen, bevestigen de succesvolle en geruisloze uitvoering van het ingebedde script. We evalueren het dreigingsmodel, relateren het aan polymorfe phishingaanvallen die favicon-gebaseerde detectie omzeilen, en analyseren het ontwijken van content security policies en antivirusscanners. We koppelen negen voorbeelddoelen van het MITRE ATT&CK Framework aan één regel JavaScript die willekeurig kan worden uitgevoerd in ICO-bestanden. Bestaande steganalyse- en saneringsverdedigingen worden besproken, waarbij beperkingen in het detecteren of neutraliseren van alfa-kanaalexploits worden belicht. De resultaten tonen een stille en herbruikbare aanvalsoppervlakte die traditionele grenzen tussen statische afbeeldingen en uitvoerbare content vervaagt. Omdat moderne browsers stille fouten rapporteren wanneer ontwikkelaars specifiek falen om ICO-bestanden te laden, biedt dit aanvalsoppervlak een interessant voorbeeld van vereist webgedrag dat op zijn beurt de beveiliging in gevaar brengt.
Grote taalmodellen (LLMs) hebben indrukwekkende capaciteiten getoond op het gebied van natuurlijke taalverwerking en -generatie, maar ze vertonen problemen met logische consistentie in de output die ze genereren. Hoe kunnen we het brede parametrische kennisbereik van LLMs benutten voor formeel redeneren ondanks hun inconsistentie? We presenteren een methode om een LLM rechtstreeks te integreren in de interpretatiefunctie van de formele semantiek voor een paraconsistente logica. We leveren experimenteel bewijs voor de haalbaarheid van de methode door de functie te evalueren met behulp van datasets die zijn gemaakt op basis van verschillende kortlopende feitelijkheidsbenchmarks. In tegenstelling tot eerder werk biedt onze methode een theoretisch kader voor neuro-symbolisch redeneren dat gebruikmaakt van de kennis van een LLM, terwijl de correctheid en volledigheid van de onderliggende logica behouden blijven.
Als waardevolle digitale activa vereisen diepe neurale netwerken robuuste eigendomsbescherming, waardoor neurale netwerk-watermerktechnologie (NNW) een veelbelovende oplossing vormt. Onder de verschillende NNW-benaderingen worden gewichtsgebaseerde methoden gewaardeerd vanwege hun eenvoud en praktische bruikbaarheid; ze blijven echter kwetsbaar voor vervalsings- en overschrijvingsaanvallen. Om deze uitdagingen aan te pakken, stellen we NeuralMark voor, een robuuste methode gebouwd rond een gehasht watermerkfilter. Specifiek gebruiken we een hashfunctie om een onomkeerbaar binair watermerk te genereren vanuit een geheime sleutel, dat vervolgens wordt gebruikt als filter om de modelparameters voor inbedding te selecteren. Dit ontwerp verweeft op ingenieuze wijze de inbeddingsparameters met het gehashte watermerk, wat een robuuste verdediging biedt tegen zowel vervalsings- als overschrijvingsaanvallen. Een gemiddelde pooling wordt ook geïntegreerd om aanvallen door fine-tuning en pruning te weerstaan. Bovendien kan het naadloos worden geïntegreerd in verschillende neurale netwerkarchitecturen, wat een brede toepasbaarheid garandeert. Theoretisch analyseren we de beveiligingsgrens. Empirisch verifiëren we de effectiviteit en robuustheid over 13 verschillende Convolutional- en Transformer-architecturen, waarbij vijf beeldclassificatietaken en één tekstgeneratietaak worden bestreken. De broncodes zijn beschikbaar op https://github.com/AIResearch-Group/NeuralMark.