Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Webagents zoals Deep Research hebben bovenmenselijke cognitieve vaardigheden gedemonstreerd, in staat om zeer uitdagende informatiezoekproblemen op te lossen. Het meeste onderzoek blijft echter voornamelijk tekstgericht, waarbij visuele informatie in de echte wereld over het hoofd wordt gezien. Dit maakt multimodale Deep Research zeer uitdagend, aangezien dergelijke agents veel sterkere redeneervaardigheden vereisen op het gebied van perceptie, logica, kennis en het gebruik van geavanceerdere tools in vergelijking met tekstgebaseerde agents. Om deze beperking aan te pakken, introduceren we WebWatcher, een multimodale Agent voor Deep Research uitgerust met verbeterde visueel-taalkundige redeneervaardigheden. Het maakt gebruik van hoogwaardige synthetische multimodale trajecten voor efficiënte cold start-training, benut diverse tools voor diepgaand redeneren en verbetert de generalisatie verder door middel van reinforcement learning. Om de capaciteiten van multimodale agents beter te evalueren, stellen we BrowseComp-VL voor, een benchmark met BrowseComp-stijl die complexe informatie retrieval vereist waarbij zowel visuele als tekstuele informatie betrokken is. Experimentele resultaten tonen aan dat WebWatcher aanzienlijk beter presteert dan de propriëtaire baseline, RAG-workflow en open-source agents in vier uitdagende VQA-benchmarks, wat de weg vrijmaakt voor het oplossen van complexe multimodale informatiezoektaken.
Het genereren van verkennbare 3D-werelden vanuit een enkele afbeelding of tekstprompt vormt een hoeksteen van ruimtelijke intelligentie. Recente werken maken gebruik van videomodellen om brede en generaliseerbare 3D-wereldgeneratie te bereiken. Bestaande benaderingen kampen echter vaak met een beperkte reikwijdte in de gegenereerde scènes. In dit werk stellen we Matrix-3D voor, een raamwerk dat panoramische representatie benut voor brede, alomvattende verkennbare 3D-wereldgeneratie, waarbij conditionele videogeneratie en panoramische 3D-reconstructie worden gecombineerd. We trainen eerst een trajectgeguideerd panoramisch videodiffusiemodel dat scènemesh-renders als conditie gebruikt, om hoogwaardige en geometrisch consistente scènevideogeneratie mogelijk te maken. Om de panoramische scènevideo naar een 3D-wereld te tillen, stellen we twee afzonderlijke methoden voor: (1) een feed-forward groot panoramisch reconstructiemodel voor snelle 3D-scènereconstructie en (2) een op optimalisatie gebaseerde pijplijn voor nauwkeurige en gedetailleerde 3D-scènereconstructie. Om effectieve training te faciliteren, introduceren we ook de Matrix-Pano-dataset, de eerste grootschalige synthetische collectie bestaande uit 116K hoogwaardige statische panoramische videosequenties met diepte- en trajectannotaties. Uitgebreide experimenten tonen aan dat ons voorgestelde raamwerk state-of-the-art prestaties bereikt in panoramische videogeneratie en 3D-wereldgeneratie. Zie meer op https://matrix-3d.github.io.
Recente vooruitgang in LLM-gebaseerde agents heeft opmerkelijke capaciteiten getoond bij het uitvoeren van complexe, kennisintensieve taken door het integreren van externe tools. Onder de diverse keuzes van tools spelen zoektools een cruciale rol bij het toegang krijgen tot uitgebreide externe kennis. Open-source agents schieten echter nog tekort in het bereiken van expertniveau Zoekintelligentie, het vermogen om ambiguïteit in queries op te lossen, precieze zoekopdrachten te genereren, resultaten te analyseren en grondige verkenning uit te voeren. Bestaande benaderingen schieten tekort in schaalbaarheid, efficiëntie en datakwaliteit. Kleine beurtlimieten in bestaande online RL-methoden, bijvoorbeeld <=10, beperken bijvoorbeeld het leren van complexe strategieën. Dit artikel introduceert ASearcher, een open-source project voor grootschalige RL-training van zoekagents. Onze belangrijkste bijdragen omvatten: (1) Schaalbare volledig asynchrone RL-training die langetermijnzoeken mogelijk maakt terwijl een hoge trainings efficiëntie behouden blijft. (2) Een prompt-gebaseerde LLM-agent die autonoom hoogwaardige en uitdagende QA's synthetiseert, waardoor een grootschalige QA-dataset wordt gecreëerd. Door RL-training behaalt onze prompt-gebaseerde QwQ-32B-agent aanzienlijke verbeteringen, met 46,7% en 20,8% Avg@4 winst op respectievelijk xBench en GAIA. Opmerkelijk is dat onze agent extreem langetermijnzoeken vertoont, met toolaanroepen die meer dan 40 beurten overschrijden en uitvoertokens die meer dan 150k bedragen tijdens de trainingstijd. Met een eenvoudig agentontwerp en zonder externe LLM's behaalt ASearcher-Web-QwQ Avg@4-scores van 42,1 op xBench en 52,8 op GAIA, wat bestaande open-source 32B-agents overtreft. We maken onze modellen, trainingsdata en codes openbaar op https://github.com/inclusionAI/ASearcher.
Het volgen van instructies heeft het recente tijdperk van Large Language Models (LLM's) gekatalyseerd en is de fundamentele vaardigheid die meer geavanceerde mogelijkheden ondersteunt, zoals redeneren en agent-achtig gedrag. Naarmate taken uitdagender worden, worden de logische structuren die in natuurlijke taal-instructies zijn ingebed steeds complexer. Hoe goed LLM's presteren op dergelijke logica-rijke instructies blijft echter onderbelicht. Wij stellen LogicIFGen en LogicIFEval voor. LogicIFGen is een schaalbaar, geautomatiseerd raamwerk voor het genereren van verifieerbare instructies uit codefuncties, die op natuurlijke wijze rijke logica kunnen uitdrukken, zoals conditionele statements, nesting, recursie en functie-aanroepen. We hebben verder een verzameling complexe codefuncties samengesteld en LogicIFGen gebruikt om LogicIFEval te construeren, een benchmark bestaande uit 426 verifieerbare logica-rijke instructies. Onze experimenten tonen aan dat de huidige state-of-the-art LLM's nog steeds moeite hebben om de instructies in LogicIFEval correct te volgen. De meeste LLM's kunnen slechts minder dan 60% van de instructies correct volgen, wat significante tekortkomingen in het instructie-volgende vermogen blootlegt. Code en Benchmark: https://github.com/mianzhang/LogicIF
In dit artikel presenteren we CharacterShot, een controleerbaar en consistent 4D-karakteranimatieraamwerk waarmee elke individuele ontwerper dynamische 3D-karakters (d.w.z. 4D-karakteranimatie) kan creëren vanuit een enkele referentie-karakterafbeelding en een 2D-posesequentie. We beginnen met het vooraf trainen van een krachtig 2D-karakteranimatiemodel gebaseerd op een geavanceerd DiT-gebaseerd beeld-naar-video model, dat elke 2D-posesequentie als controleerbaar signaal mogelijk maakt. Vervolgens tillen we het animatiemodel van 2D naar 3D door een dual-attention module samen met een cameraprior te introduceren om multi-view video's te genereren met ruimtelijk-temporele en ruimtelijk-view consistentie. Ten slotte passen we een nieuwe nabuurgestuurde 4D Gaussische splatting-optimalisatie toe op deze multi-view video's, wat resulteert in continue en stabiele 4D-karakterrepresentaties. Bovendien hebben we, om de karaktergerichte prestaties te verbeteren, een grootschalige dataset Character4D samengesteld, die 13.115 unieke karakters bevat met diverse uiterlijkheden en bewegingen, gerenderd vanuit meerdere gezichtspunten. Uitgebreide experimenten op onze nieuw geconstrueerde benchmark, CharacterBench, tonen aan dat onze aanpak de huidige state-of-the-art methoden overtreft. Code, modellen en datasets zullen publiekelijk beschikbaar zijn op https://github.com/Jeoyal/CharacterShot.
We introduceren VertexRegen, een innovatief framework voor mesh-generatie dat generatie op een continu niveau van detail mogelijk maakt. Bestaande autoregressieve methoden genereren meshes op een gedeeltelijk-naar-complete manier, waardoor tussenliggende stappen van de generatie onvolledige structuren vertegenwoordigen. VertexRegen haalt inspiratie uit progressieve meshes en herformuleert het proces als de omkering van edge collapse, d.w.z. vertex split, geleerd via een generatief model. Experimentele resultaten tonen aan dat VertexRegen meshes produceert van vergelijkbare kwaliteit als state-of-the-art methoden, terwijl het uniek anytime-generatie biedt met de flexibiliteit om op elk moment te stoppen en geldige meshes met verschillende niveaus van detail op te leveren.
Diffusie grote taalmodellen (dLLMs) genereren tekst door middel van iteratieve ruisverwijdering, maar huidige decodeerstrategieën negeren rijke tussenvoorspellingen ten gunste van de uiteindelijke uitvoer. Ons werk onthult een kritiek fenomeen, tijdelijke oscillatie, waarbij correcte antwoorden vaak in het midden van het proces ontstaan, maar worden overschreven in latere ruisverwijderingsstappen. Om dit probleem aan te pakken, introduceren we twee complementaire methoden die gebruikmaken van temporele consistentie: 1) Temporele Zelfconsistentie Stemming, een train-vrije, test-tijd decodeerstrategie die voorspellingen over ruisverwijderingsstappen aggregeert om de meest consistente uitvoer te selecteren; en 2) een post-trainingsmethode genaamd Temporele Consistentie Versterking, die Temporele Semantische Entropie (TSE), een maat voor semantische stabiliteit over tussenvoorspellingen, gebruikt als beloningssignaal om stabiele generaties aan te moedigen. Empirische resultaten over meerdere benchmarks demonstreren de effectiviteit van onze aanpak. Door alleen de negatieve TSE-beloning te gebruiken, observeren we een opmerkelijke gemiddelde verbetering van 24,7% op de Countdown-dataset ten opzichte van een bestaand dLLM. Gecombineerd met de nauwkeurigheidsbeloning behalen we absolute winsten van 2,0% op GSM8K, 4,3% op MATH500, 6,6% op SVAMP en 25,3% op Countdown. Onze bevindingen onderstrepen het onbenutte potentieel van temporele dynamiek in dLLMs en bieden twee eenvoudige maar effectieve tools om deze te benutten.
Vision-language modellen hebben indrukwekkende capaciteiten getoond als computer-use agents (CUA's) die in staat zijn diverse computertaken te automatiseren. Naarmate hun commerciële potentieel groeit, blijven kritieke details van de meest capabele CUA-systemen gesloten. Omdat deze agents steeds meer digitale interacties zullen bemiddelen en belangrijke beslissingen namens ons zullen uitvoeren, heeft de onderzoeksgemeenschap toegang nodig tot open CUA-frameworks om hun capaciteiten, beperkingen en risico's te bestuderen. Om deze kloof te overbruggen, stellen we OpenCUA voor, een uitgebreid open-source framework voor het schalen van CUA-data en foundation modellen. Ons framework bestaat uit: (1) een annotatie-infrastructuur die naadloos menselijke computer-use demonstraties vastlegt; (2) AgentNet, de eerste grootschalige dataset voor computer-use taken die 3 besturingssystemen en 200+ applicaties en websites omvat; (3) een schaalbare pipeline die demonstraties omzet in staat-actie-paren met reflectieve lange Chain-of-Thought redeneringen die robuuste prestatieverbeteringen ondersteunen naarmate de data schaalt. Onze end-to-end agentmodellen tonen sterke prestaties op CUA-benchmarks. In het bijzonder behaalt OpenCUA-32B een gemiddeld slagingspercentage van 34,8% op OSWorld-Verified, wat een nieuwe state-of-the-art (SOTA) vestigt onder open-source modellen en OpenAI CUA (GPT-4o) overtreft. Verdere analyse bevestigt dat onze aanpak goed generaliseert over domeinen en aanzienlijk profiteert van verhoogde testtijdberekening. We geven onze annotatietool, datasets, code en modellen vrij om open fundamenten te bouwen voor verder CUA-onderzoek.
Onlangs hebben grote redeneermodellen sterke wiskundige en programmeervaardigheden getoond, en diepe zoekopdrachten benutten hun redeneervermogen bij uitdagende informatiezoektaken. Bestaande werken op het gebied van diepe zoekopdrachten zijn over het algemeen beperkt tot één kennisbron, lokaal of het web. Bedrijven hebben echter vaak behoefte aan privésystemen voor diepe zoekopdrachten die zoekinstrumenten kunnen benutten over zowel lokale als webcorpora. Het simpelweg trainen van een agent uitgerust met meerdere zoekinstrumenten met behulp van vlakke reinforcement learning (RL) is een eenvoudig idee, maar het heeft problemen zoals lage efficiëntie van trainingsgegevens en slechte beheersing van complexe instrumenten. Om het bovenstaande probleem aan te pakken, stellen we een hiërarchisch agent-gebaseerd diep zoekraamwerk voor, HierSearch, getraind met hiërarchische RL. Op het lagere niveau worden een lokale diepe zoekagent en een web diepe zoekagent getraind om bewijs te halen uit hun respectievelijke domeinen. Op het hogere niveau coördineert een planner-agent de lagere agents en geeft het uiteindelijke antwoord. Bovendien, om direct kopiëren van antwoorden en foutpropagatie te voorkomen, ontwerpen we een kennisverfijner die hallucinaties en irrelevant bewijs gefilterd door de lagere agents verwijdert. Experimenten tonen aan dat HierSearch betere prestaties bereikt in vergelijking met vlakke RL, en verschillende diepe zoek- en multi-bron retrieval-augmented generation-baselines overtreft in zes benchmarks in algemene, financiële en medische domeinen.
Huidige diffusiemodellen voor audio-gestuurde avatarvideogeneratie hebben moeite met het synthetiseren van lange video's met natuurlijke audiosynchronisatie en identiteitsconsistentie. Dit artikel introduceert StableAvatar, de eerste end-to-end videodiffusie-transformer die oneindig lange hoogwaardige video's synthetiseert zonder nabewerking. Geconditioneerd op een referentieafbeelding en audio, integreert StableAvatar op maat gemaakte trainings- en inferentiemodules om oneindig lange videogeneratie mogelijk te maken. We observeren dat de belangrijkste reden waarom bestaande modellen geen lange video's kunnen genereren, ligt in hun audiomodellering. Ze vertrouwen doorgaans op externe extractors om audio-embeddings te verkrijgen, die vervolgens direct in het diffusiemodel worden geïnjecteerd via cross-attention. Omdat huidige diffusie-backbones geen audio-gerelateerde priors bevatten, veroorzaakt deze aanpak een ernstige accumulatie van latente distributiefouten over videoclips, waardoor de latente distributie van opeenvolgende segmenten geleidelijk afdrijft van de optimale distributie. Om dit aan te pakken, introduceert StableAvatar een nieuwe Time-step-aware Audio Adapter die foutaccumulatie voorkomt via time-step-aware modulatie. Tijdens inferentie stellen we een nieuw Audio Native Guidance Mechanism voor om de audiosynchronisatie verder te verbeteren door gebruik te maken van de eigen evoluerende gezamenlijke audio-latente voorspelling van de diffusie als een dynamisch begeleidingssignaal. Om de vloeiendheid van de oneindig lange video's te verbeteren, introduceren we een Dynamic Weighted Sliding-window Strategy die latenten over tijd fuseert. Experimenten op benchmarks tonen de effectiviteit van StableAvatar zowel kwalitatief als kwantitatief aan.
Recent werk over het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) heeft expliciete lengtecontrole geïntroduceerd als een manier om de rekencosten te beperken terwijl de nauwkeurigheid behouden blijft. Bestaande benaderingen vertrouwen echter op vaste-lengte trainingsbudgetten, die geen gebruik maken van de natuurlijke progressie van exploratie naar compressie tijdens het leren. In dit werk stellen we een curriculumleerstrategie voor voor lengte-gecontroleerd redeneren met behulp van Group Relative Policy Optimization (GRPO). Onze methode begint met royale tokenbudgetten en verstrakt deze geleidelijk tijdens de training, waardoor modellen eerst effectieve oplossingsstrategieën ontdekken en deze vervolgens destilleren tot meer beknopte redeneersporen. We verrijken GRPO met een beloningsfunctie die drie signalen in balans brengt: taakcorrectheid (via verificatorfeedback), lengte-efficiëntie en opmaaknaleving (via structurele tags). Experimenten op GSM8K, MATH500, SVAMP, College Math en GSM+ tonen aan dat curriculumgebaseerde training consistent beter presteert dan vaste-budget baseline-modellen bij hetzelfde uiteindelijke budget, met hogere nauwkeurigheid en aanzienlijk verbeterde token-efficiëntie. We onderzoeken verder de impact van beloningsweging en het ontwerp van het vervalschema, en laten zien dat progressieve beperking een krachtige inductieve bias vormt voor het trainen van efficiënte redeneermodellen. Onze code en checkpoints zijn vrijgegeven op: https://github.com/hammoudhasan/curriculum_grpo.
Graphical User Interface (GUI) grounding, de taak om natuurlijke taal instructies te koppelen aan precieze schermcoördinaten, is fundamenteel voor autonome GUI-agents. Hoewel bestaande methoden sterke prestaties behalen door middel van uitgebreide begeleide training of reinforcement learning met gelabelde beloningen, blijven ze beperkt door de kosten en beschikbaarheid van pixelniveau annotaties. We observeren dat wanneer modellen meerdere voorspellingen genereren voor hetzelfde GUI-element, de ruimtelijke overlappatronen impliciete betrouwbaarheidssignalen onthullen die een nauwkeurigere lokalisatie kunnen begeleiden. Gebruikmakend van dit inzicht, stellen we GUI-RC (Region Consistency) voor, een test-time schaalingsmethode die ruimtelijke stemraster construeert uit meerdere bemonsterde voorspellingen om consensusregio's te identificeren waar modellen de hoogste overeenstemming tonen. Zonder enige training verbetert GUI-RC de nauwkeurigheid met 2-3% over verschillende architecturen op ScreenSpot benchmarks. We introduceren verder GUI-RCPO (Region Consistency Policy Optimization), dat deze consistentiepatronen omzet in beloningen voor test-time reinforcement learning. Door te berekenen hoe goed elke voorspelling overeenkomt met het collectieve consensus, stelt GUI-RCPO modellen in staat om hun uitvoer iteratief te verfijnen op ongelabelde gegevens tijdens inferentie. Uitgebreide experimenten tonen de algemeenheid van onze aanpak aan: GUI-RC verbetert Qwen2.5-VL-3B-Instruct van 80.11% naar 83.57% op ScreenSpot-v2, terwijl GUI-RCPO het verder verbetert naar 85.14% door middel van zelfbegeleide optimalisatie. Onze aanpak onthult het onbenutte potentieel van test-time schaling en test-time reinforcement learning voor GUI grounding, en biedt een veelbelovend pad naar robuustere en data-efficiëntere GUI-agents.
Text-to-image (T2I)-generatie is actief bestudeerd met behulp van Diffusion Models en Autoregressive Models. Onlangs hebben Masked Generative Transformers aandacht gekregen als een alternatief voor Autoregressive Models om de inherente beperkingen van causale aandacht en autoregressieve decodering te overwinnen door middel van bidirectionele aandacht en parallelle decodering, wat efficiënte en hoogwaardige beeldgeneratie mogelijk maakt. Compositionele T2I-generatie blijft echter een uitdaging, aangezien zelfs state-of-the-art Diffusion Models vaak niet in staat zijn om attributen nauwkeurig te binden en een juiste tekst-beeldafstemming te bereiken. Hoewel Diffusion Models uitgebreid zijn bestudeerd voor dit probleem, vertonen Masked Generative Transformers vergelijkbare beperkingen, maar zijn ze in deze context nog niet onderzocht. Om dit aan te pakken, stellen we Unmasking with Contrastive Attention Guidance (UNCAGE) voor, een nieuwe trainingsvrije methode die de compositionele trouw verbetert door aandachtkaarten te gebruiken om het ontmaskeren van tokens die individuele objecten duidelijk vertegenwoordigen te prioriteren. UNCAGE verbetert consistent de prestaties in zowel kwantitatieve als kwalitatieve evaluaties over meerdere benchmarks en metrieken, met verwaarloosbare inferentie-overhead. Onze code is beschikbaar op https://github.com/furiosa-ai/uncage.
Effectief gebruik van tools is essentieel voor grote taalmodelen (LLMs) om betekenisvol te interacteren met hun omgeving. Vooruitgang wordt echter beperkt door het ontbreken van efficiënte reinforcement learning (RL) frameworks die specifiek zijn ontworpen voor toolgebruik, vanwege uitdagingen bij het opzetten van stabiele trainingsomgevingen en het ontwerpen van verifieerbare beloningsmechanismen. Om dit aan te pakken, stellen we een geautomatiseerde pijplijn voor omgevingconstructie voor, die scenario-decompositie, documentgeneratie, functie-integratie, complexiteitsschaalbaarheid en gelokaliseerde implementatie omvat. Dit maakt het mogelijk om hoogwaardige trainingsomgevingen te creëren die gedetailleerde en meetbare feedback bieden zonder afhankelijk te zijn van externe tools. Daarnaast introduceren we een verifieerbaar beloningsmechanisme dat zowel de precisie van toolgebruik als de volledigheid van taakuitvoering evalueert. Wanneer dit wordt gecombineerd met trajectgegevens die zijn verzameld uit de geconstrueerde omgevingen, integreert dit mechanisme naadloos met standaard RL-algoritmen om feedback-gestuurde modeltraining te faciliteren. Experimenten met LLMs van verschillende schalen tonen aan dat onze aanpak de toolgebruikprestaties van de modellen aanzienlijk verbetert zonder hun algemene capaciteiten aan te tasten, ongeacht de inferentiemodi of trainingsalgoritmen. Onze analyse suggereert dat deze verbeteringen het gevolg zijn van een beter begrip van context en redenering, gedreven door updates aan de MLP-parameters in de onderste lagen van de modellen.
We presenteren Aryabhata 1.0, een compact model voor wiskundig redeneren met 7B parameters, geoptimaliseerd voor het Indiase academische examen, het Joint Entrance Examination (JEE). Ondanks snelle vooruitgang in grote taalmodellen (LLMs), zijn huidige modellen vaak nog niet geschikt voor educatief gebruik. Aryabhata 1.0 is gebouwd door sterke open-weight redeneermodellen samen te voegen, gevolgd door supervised fine-tuning (SFT) met curriculum learning op geverifieerde chain-of-thought (CoT) sporen die zijn samengesteld via best-of-n rejection sampling. Om de prestaties verder te verbeteren, passen we reinforcement learning met verifieerbare beloningen (RLVR) toe met behulp van het A2C-doel met groep-relatieve voordeelschatting, samen met nieuwe exploratiestrategieën zoals Adaptive Group Resizing en Temperature Scaling. Geëvalueerd op zowel in-distributie (JEE Main 2025) als out-of-distributie (MATH, GSM8K) benchmarks, overtreft Aryabhata bestaande modellen in nauwkeurigheid en efficiëntie, terwijl het pedagogisch nuttige stapsgewijze redenering biedt. We geven Aryabhata vrij als een foundation model om examengerichte, open-source kleine taalmodellen te bevorderen. Dit markeert onze eerste open release voor gemeenschapsfeedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 op Hugging Face}); PW is actief bezig met het trainen van toekomstige modellen om de leerresultaten voor studenten verder te verbeteren.
Effectieve multi-shot generatie vereist doelgerichte, filmachtige overgangen en strikte cinematografische continuïteit. Huidige methoden leggen echter vaak de nadruk op basisvisuele consistentie, waarbij cruciale montagepatronen (bijvoorbeeld shot/reverse shot, cutaways) die de narratieve stroom voor boeiend verhalen aansturen, worden verwaarloosd. Dit resulteert in uitvoer die visueel coherent kan zijn, maar narratieve verfijning en echte cinematografische integriteit mist. Om dit te overbruggen, introduceren we Next Shot Generation (NSG): het synthetiseren van een daaropvolgend, hoogwaardig shot dat kritisch voldoet aan professionele montagepatronen en tegelijkertijd strikte cinematografische continuïteit handhaaft. Ons framework, Cut2Next, maakt gebruik van een Diffusion Transformer (DiT). Het past in-context tuning toe, geleid door een nieuwe Hiërarchische Multi-Prompting-strategie. Deze strategie gebruikt Relationele Prompts om de algehele context en inter-shot montagestijlen te definiëren. Individuele Prompts specificeren vervolgens de inhoud per shot en cinematografische attributen. Samen leiden deze Cut2Next om cinematografisch passende volgende shots te genereren. Architectonische innovaties, Context-Aware Condition Injection (CACI) en Hiërarchische Attention Mask (HAM), integreren deze diverse signalen verder zonder nieuwe parameters te introduceren. We construeren RawCuts (grootschalig) en CuratedCuts (verfijnd) datasets, beide met hiërarchische prompts, en introduceren CutBench voor evaluatie. Experimenten tonen aan dat Cut2Next uitblinkt in visuele consistentie en tekstgetrouwheid. Cruciaal is dat gebruikersstudies een sterke voorkeur voor Cut2Next onthullen, met name vanwege de naleving van beoogde montagepatronen en algehele cinematografische continuïteit, wat het vermogen om hoogwaardige, narratief expressieve en cinematografisch coherente daaropvolgende shots te genereren valideert.
In dit artikel introduceren we AimBot, een lichtgewicht visuele augmentatietechniek die expliciete ruimtelijke aanwijzingen biedt om het leren van visuomotorische beleidsregels in robotmanipulatie te verbeteren. AimBot plaatst schietlijnen en vizierreticules over multi-view RGB-beelden, waardoor aanvullende visuele begeleiding wordt geboden die de toestand van de eindeffector codeert. De overlays worden berekend op basis van diepteafbeeldingen, camera-extrinsieken en de huidige pose van de eindeffector, waardoor de ruimtelijke relaties tussen de grijper en objecten in de scène expliciet worden overgebracht. AimBot veroorzaakt minimale rekenkundige overhead (minder dan 1 ms) en vereist geen wijzigingen aan modelarchitecturen, aangezien het simpelweg de originele RGB-beelden vervangt door geaugmenteerde versies. Ondanks zijn eenvoud tonen onze resultaten aan dat AimBot consistent de prestaties van verschillende visuomotorische beleidsregels verbetert, zowel in simulatie als in real-world omgevingen, wat de voordelen van ruimtelijk verankerde visuele feedback benadrukt.
Dit artikel presenteert een eenvoudige maar effectieve regularisatie voor het interne taalmodel dat wordt geïnduceerd door de decoder in encoder-decoder ASR-modellen, waardoor de robuustheid en generalisatie in zowel in- als out-of-domain situaties wordt verbeterd. De voorgestelde methode, Decoder-Centric Regularization in Encoder-Decoder (DeCRED), voegt aanvullende classificatoren toe aan de decoder, waardoor voorspelling van het volgende token mogelijk wordt gemaakt via tussenliggende logits. Empirisch gezien reduceert DeCRED de gemiddelde interne LM BPE-perplexiteit met 36,6% ten opzichte van 11 testverzamelingen. Bovendien vertaalt dit zich in daadwerkelijke WER-verbeteringen ten opzichte van de baseline in 5 van de 7 in-domain en 3 van de 4 out-of-domain testverzamelingen, waarbij de macro WER wordt gereduceerd van 6,4% naar 6,3% en van 18,2% naar 16,2%, respectievelijk. Op TEDLIUM3 behaalt DeCRED een WER van 7,0%, wat de baseline en de encoder-centrische InterCTC-regularisatie met respectievelijk 0,6% en 0,5% overtreft. Tot slot vergelijken we DeCRED met OWSM v3.1 en Whisper-medium, waarbij competitieve WERs worden getoond ondanks training met veel minder data en minder parameters.
Een behendige hand die in staat is tot generaliseerbaar grijpen van objecten is fundamenteel voor de ontwikkeling van algemeen toepasbare embodied AI. Eerdere methoden richten zich echter nauw op metrische gegevens op laag niveau voor grijpstabiliteit, waarbij affordance-bewuste positionering en mensachtige houdingen, die cruciaal zijn voor downstream-manipulatie, worden verwaarloosd. Om deze beperkingen aan te pakken, stellen we AffordDex voor, een nieuw raamwerk met tweefasige training dat een universeel grijpbeleid leert met een inherent begrip van zowel bewegingspriors als objectaffordances. In de eerste fase wordt een trajectimitator voorgetraind op een grote corpus van menselijke handbewegingen om een sterke prior voor natuurlijke beweging in te prenten. In de tweede fase wordt een residumodule getraind om deze algemene mensachtige bewegingen aan te passen aan specifieke objectinstanties. Deze verfijning wordt kritisch begeleid door twee componenten: onze Negative Affordance-aware Segmentation (NAA)-module, die functioneel ongeschikte contactgebieden identificeert, en een geprivilegieerd teacher-student distillatieproces dat ervoor zorgt dat het uiteindelijke visiegebaseerde beleid zeer succesvol is. Uitgebreide experimenten tonen aan dat AffordDex niet alleen universeel behendig grijpen bereikt, maar ook opmerkelijk mensachtig blijft in houding en functioneel geschikt in contactlocatie. Als gevolg hiervan presteert AffordDex aanzienlijk beter dan state-of-the-art baselines voor bekende objecten, onbekende instanties en zelfs volledig nieuwe categorieën.
We presenteren het eerste evaluatiekader dat het mogelijk maakt om out-of-the-box, lokale Large Language Models (LLMs) volledige partijen Diplomacy te laten spelen zonder fine-tuning of gespecialiseerde training. Eerder werk vereiste state-of-the-art LLMs of fine-tuning vanwege de hoge complexiteit en informatiedichtheid van de spelstatus in Diplomacy. Gecombineerd met de grote variatie tussen partijen maakten deze factoren Diplomacy moeilijk te bestuderen. In dit werk hebben we data-gedreven iteratie gebruikt om een tekstuele representatie van de spelstatus te optimaliseren, zodat een 24B-model betrouwbaar partijen kan voltooien zonder enige fine-tuning. We ontwikkelen tools om hypothesetoetsing en statistische analyse te vergemakkelijken, en we presenteren casestudies over overtuiging, agressieve speelstijlen en prestaties over een reeks modellen. We voeren diverse experimenten uit met veel populaire LLMs, waarbij we vaststellen dat de grotere modellen het beste presteren, maar de kleinere modellen nog steeds adequaat spelen. We introduceren ook Critical State Analysis: een experimenteel protocol voor het snel itereren en diepgaand analyseren van cruciale momenten in een spel. Ons evaluatiekader democratiseert de evaluatie van strategisch redeneren in LLMs door de noodzaak van fine-tuning te elimineren, en het biedt inzichten in hoe deze capaciteiten natuurlijk ontstaan uit veelgebruikte LLMs. Onze code is beschikbaar in de supplementen en zal open source worden gemaakt.
Dankzij de ontwikkeling van cross-modale modellen maakt tekst-naar-video-retrieval (T2VR) een snelle vooruitgang, maar de robuustheid ervan blijft grotendeels ononderzocht. Bestaande aanvallen tegen T2VR zijn ontworpen om video's weg te duwen van zoekopdrachten, d.w.z. het onderdrukken van de rangschikking van video's, terwijl aanvallen die video's naar geselecteerde zoekopdrachten trekken, d.w.z. het bevorderen van de rangschikking van video's, grotendeels onontgonnen blijven. Deze aanvallen kunnen impactvoller zijn omdat aanvallers meer views/klikken kunnen verkrijgen voor financiële voordelen en wijdverspreide (mis)informatie. Daarom introduceren wij de eerste aanval tegen T2VR om video's op een adversariale manier te promoten, genaamd de Video Promotion-aanval (ViPro). We stellen verder Modal Refinement (MoRe) voor om de fijnmazige, ingewikkelde interactie tussen visuele en tekstuele modaliteiten vast te leggen om de black-box overdraagbaarheid te verbeteren. Uitgebreide experimenten omvatten 2 bestaande baselines, 3 toonaangevende T2VR-modellen, 3 gangbare datasets met meer dan 10k video's, geëvalueerd onder 3 scenario's. Alle experimenten worden uitgevoerd in een multi-target setting om realistische scenario's weer te geven waarin aanvallers ernaar streven de video te promoten met betrekking tot meerdere zoekopdrachten tegelijkertijd. We hebben onze aanvallen ook geëvalueerd voor verdedigingen en onmerkbaarheid. Over het algemeen overtreft ViPro andere baselines met meer dan 30/10/4% voor white/grey/black-box settings gemiddeld. Ons werk belicht een over het hoofd gezien kwetsbaarheid, biedt een kwalitatieve analyse van de boven/ondergrens van onze aanvallen, en geeft inzicht in mogelijke tegenmaatregelen. Code zal publiekelijk beschikbaar zijn op https://github.com/michaeltian108/ViPro.
AI-codeerassistenten zoals GitHub Copilot transformeren softwareontwikkeling in rap tempo, maar hun veiligheid blijft zeer onzeker, vooral in hoogrisicodomeinen zoals cybersecurity. Huidige red-teamingtools vertrouwen vaak op vaste benchmarks of onrealistische prompts, waardoor veel real-world kwetsbaarheden over het hoofd worden gezien. Wij presenteren ASTRA, een geautomatiseerd agentsysteem dat is ontworpen om systematisch veiligheidsfouten in AI-gestuurde codegeneratie en beveiligingsadviesystemen bloot te leggen. ASTRA werkt in drie fasen: (1) het bouwt gestructureerde domeinspecifieke kennisgrafieken die complexe softwaretaken en bekende zwakheden modelleren; (2) het voert online kwetsbaarheidsverkenning uit van elk doelmodel door adaptief zowel de invoerruimte, d.w.z. de ruimtelijke verkenning, als de redeneerprocessen, d.w.z. de temporele verkenning, te onderzoeken, geleid door de kennisgrafieken; en (3) het genereert hoogwaardige gevallen die overtredingen veroorzaken om de modelafstemming te verbeteren. In tegenstelling tot eerdere methoden richt ASTRA zich op realistische invoer—verzoeken die ontwikkelaars daadwerkelijk zouden kunnen stellen—en gebruikt zowel offline abstractie-geleide domeinmodellering als online aanpassing van domeinkennisgrafieken om hoekgevalkwetsbaarheden aan het licht te brengen. In twee grote evaluatiedomeinen vindt ASTRA 11-66% meer problemen dan bestaande technieken en produceert het testgevallen die leiden tot 17% effectievere afstemmingstraining, wat het praktische nut ervan aantoont voor het bouwen van veiligere AI-systemen.
Large Language Models (LLMs) hebben opmerkelijke capaciteiten getoond in verschillende domeinen, waarbij codegeneratie een belangrijk aandachtspunt is geworden. Hoewel er tal van benchmarks zijn voorgesteld om hun codegeneratievaardigheden te evalueren, kampen deze benchmarks met verschillende kritieke beperkingen. Ten eerste vertrouwen ze vaak op handmatige annotaties, wat tijdrovend is en moeilijk schaalbaar is over verschillende programmeertalen en probleemcomplexiteiten. Ten tweede richten de meeste bestaande benchmarks zich voornamelijk op Python, terwijl de weinige meertalige benchmarks te kampen hebben met beperkte moeilijkheidsgraad en ongelijke taalverdeling. Om deze uitdagingen aan te pakken, stellen we AutoCodeGen voor, een geautomatiseerde methode voor het genereren van meertalige codegeneratiedatasets met een hoge moeilijkheidsgraad zonder handmatige annotaties. AutoCodeGen zorgt voor de correctheid en volledigheid van testgevallen door testinputs te genereren met LLMs en testoutputs te verkrijgen via een meertalige sandbox, terwijl een hoge data kwaliteit wordt bereikt door omgekeerde probleemgeneratie en meerdere filterstappen. Met behulp van deze nieuwe methode introduceren we AutoCodeBench, een grootschalige codegeneratiebenchmark bestaande uit 3.920 problemen die gelijkmatig zijn verdeeld over 20 programmeertalen. Het is specifiek ontworpen om LLMs te evalueren op uitdagende, diverse en praktische meertalige taken. We evalueren meer dan 30 toonaangevende open-source en propriëtaire LLMs op AutoCodeBench en de vereenvoudigde versie AutoCodeBench-Lite. De resultaten laten zien dat zelfs de meest geavanceerde LLMs moeite hebben met de complexiteit, diversiteit en meertaligheid van deze taken. Daarnaast introduceren we AutoCodeBench-Complete, specifiek ontworpen voor basismodellen om hun few-shot codegeneratiecapaciteiten te beoordelen. We hopen dat de AutoCodeBench-serie een waardevolle bron zal zijn en de gemeenschap zal inspireren om zich te richten op meer uitdagende en praktische meertalige codegeneratiescenario's.
Hoewel grote taalmodellen steeds capabeler worden, is het nog steeds onredelijk om te verwachten dat ze uitblinken in taken die ondervertegenwoordigd zijn op het internet. Het benutten van LLM's voor gespecialiseerde toepassingen, met name in niche-programmeertalen en privédomeinen, blijft uitdagend en grotendeels onopgelost. In dit werk pakken we deze kloof aan door een uitgebreide, open-source aanpak te presenteren voor het aanpassen van LLM's aan de Q-programmeertaal, een populair hulpmiddel in kwantitatieve financiën dat veel minder aanwezig is op het internet vergeleken met Python, C, Java en andere "mainstream" talen, en daarom geen sterk punt is van algemene AI-modellen. We introduceren een nieuwe Leetcode-stijl evaluatiedataset voor Q, benchmarken belangrijke frontier-modellen op de dataset, en doen vervolgens pretraining, supervised fine-tuning en reinforcement learning om een reeks redenerende en niet-redenerende modellen te trainen op basis van de Qwen-2.5-serie, die vijf parameterschalen omvat (1.5B, 3B, 7B, 14B, 32B). Ons beste model behaalt een pass@1-nauwkeurigheid van 59 procent op onze Q-benchmark, wat het best presterende frontier-model, Claude Opus-4, met 29,5 procent overtreft. Bovendien presteren alle modellen, zelfs ons 1.5B-model, beter dan GPT-4.1 bij deze taak. Naast het uitbrengen van modellen, code en data, bieden we een gedetailleerd stappenplan voor datasetconstructie, modelpretraining, supervised fine-tuning en reinforcement learning. Onze methodologie is breed toepasbaar, en we bespreken hoe deze technieken kunnen worden uitgebreid naar andere taken, inclusief die waarbij evaluatie mogelijk afhankelijk is van zachte of subjectieve signalen.
Het vermogen tot voortdurend leren van grote taalmmodellen (LLMs) is cruciaal voor de vooruitgang van kunstmatige algemene intelligentie. Echter, het voortdurend finetunen van LLMs over verschillende domeinen lijdt vaak aan catastrofaal vergeten, gekenmerkt door: 1) aanzienlijk verlies van hun algemene capaciteiten, en 2) scherpe prestatieverminderingen in eerder geleerde taken. Om beide problemen tegelijkertijd op een eenvoudige doch stabiele manier aan te pakken, stellen wij General Sample Replay (GeRe) voor, een raamwerk dat gebruikmaakt van gebruikelijke pretrainingsteksten voor efficiënte anti-vergeten. Naast het opnieuw bekijken van de meest voorkomende replay-gebaseerde praktijken onder GeRe, benutten wij verder neurale staten om een verbeterde optimalisatiemethode met beperkte activatiestaten te introduceren, gebruikmakend van threshold-based margin (TM) verlies, wat consistentie van activatiestaten behoudt tijdens replay-leren. Wij zijn de eersten die valideren dat een kleine, vaste set van vooraf verzamelde algemene replay-monsters voldoende is om beide zorgen op te lossen—het behouden van algemene capaciteiten terwijl de algehele prestaties over sequentiële taken worden bevorderd. Inderdaad kan het eerste het laatste inherent faciliteren. Door middel van gecontroleerde experimenten vergelijken wij systematisch TM met verschillende replay-strategieën onder het GeRe-raamwerk, waaronder vanilla label fitting, logit-imitaties via KL-divergentie en feature-imitaties via L1/L2-verliezen. Resultaten tonen aan dat TM consistent de prestaties verbetert en betere robuustheid vertoont. Ons werk effent de weg voor efficiënte replay van LLMs in de toekomst. Onze code en data zijn beschikbaar op https://github.com/Qznan/GeRe.
De taak van stijloverdracht voor 3D Gaussische splats is in veel eerdere werken onderzocht, maar deze vereisen het reconstrueren of finetunen van de splat terwijl stijlinformatie wordt geïntegreerd of een netwerk voor feature-extractie wordt geoptimaliseerd op de splat-representatie. Wij stellen een reconstructie- en optimalisatievrije aanpak voor om 3D Gaussische splats te stileren. Dit wordt gedaan door een grafiekstructuur te genereren over het impliciete oppervlak van de splat-representatie. Vervolgens wordt een feed-forward, oppervlaktegebaseerde stileringsmethode gebruikt en geïnterpoleerd terug naar de individuele splats in de scène. Hierdoor kunnen elke stijlafbeelding en 3D Gaussische splat worden gebruikt zonder aanvullende training of optimalisatie. Dit maakt ook snelle stilisering van splats mogelijk, met snelheden van minder dan 2 minuten, zelfs op consumentenhardware. We demonstreren de kwaliteitsresultaten die deze aanpak bereikt en vergelijken deze met andere methoden voor stijloverdracht van 3D Gaussische splats. De code is publiekelijk beschikbaar op https://github.com/davidmhart/FastSplatStyler.
LLM's hebben bewezen goed te presteren in machinaal vertalen (MT) door gebruik te maken van in-context learning (ICL), waarbij ze zelfs supervisie-gebaseerde modellen evenaren bij het vertalen naar hoog-resource talen (HRL's). Echter, blijven ze achter bij het vertalen naar laag-resource talen (LRL's). Voorbeeldselectie via gelijkeniszoeken en supervisie-gebaseerde fine-tuning helpen, maar de verbeteringen die ze bieden worden beperkt door de omvang, kwaliteit en diversiteit van bestaande parallelle datasets. Een veelgebruikte techniek in laag-resource MT is het creëren van synthetische parallelle data, waarvan backtranslation de meest voorkomende is, waarbij bestaande teksten aan de doelzijde automatisch worden vertaald naar de brontaal. Dit veronderstelt echter het bestaan van hoogwaardige en relevante teksten aan de doelzijde, die niet gemakkelijk beschikbaar zijn voor veel LRL's. In dit artikel presenteren we TopXGen, een LLM-gebaseerde aanpak voor het genereren van hoogwaardige en thematisch diverse data in meerdere LRL's, die vervolgens kunnen worden terugvertaald om nuttige en diverse parallelle teksten te produceren voor ICL en fine-tuning. Onze intuïtie is dat hoewel LLM's moeite hebben met vertalen naar LRL's, hun vermogen om goed te vertalen naar HRL's en hun meertaligheid hen in staat stellen hoogwaardige, natuurlijk klinkende teksten aan de doelzijde te genereren, die goed kunnen worden vertaald naar een hoog-resource brontaal. We tonen aan dat TopXGen de vertaalprestaties van LLM's verbetert tijdens fine-tuning en in-context learning. Code en uitvoer zijn beschikbaar op https://github.com/ArmelRandy/topxgen.
Rode bloedcellen (RBC's) zijn essentieel voor de menselijke gezondheid, en hun precieze morfologische analyse is belangrijk voor het diagnosticeren van hematologische aandoeningen. Ondanks de belofte van foundation-modellen in medische diagnostiek, zijn uitgebreide AI-oplossingen voor RBC-analyse nog steeds schaars. Wij presenteren RedDino, een zelfgesuperviseerd foundation-model ontworpen voor RBC-beeldanalyse. RedDino maakt gebruik van een RBC-specifieke aanpassing van het DINOv2 zelfgesuperviseerde leerframework en is getraind op een gecureerde dataset van 1,25 miljoen RBC-beelden uit diverse acquisitiemodaliteiten en bronnen. Uitgebreide evaluaties tonen aan dat RedDino de bestaande state-of-the-art modellen overtreft op het gebied van RBC-vormclassificatie. Door beoordelingen, waaronder lineair sonderen en nearest neighbor-classificatie, bevestigen we de sterke kenmerkrepresentaties en generalisatiecapaciteit ervan. Onze belangrijkste bijdragen zijn: (1) een foundation-model op maat voor RBC-analyse, (2) ablatiestudies die DINOv2-configuraties voor RBC-modellering onderzoeken, en (3) een gedetailleerde evaluatie van de generalisatieprestaties. RedDino adresseert belangrijke uitdagingen in computationele hematologie door genuanceerde morfologische kenmerken vast te leggen, waardoor de ontwikkeling van betrouwbare diagnostische hulpmiddelen wordt bevorderd. De broncode en voorgetrainde modellen voor RedDino zijn beschikbaar op https://github.com/Snarci/RedDino, en de voorgetrainde modellen kunnen worden gedownload van onze Hugging Face-collectie op https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
Het implementeren van kwantumspeltheorie op echte hardware is uitdagend vanwege ruis, decoherentie en beperkte qubit-connectiviteit, maar dergelijke demonstraties zijn essentieel om theoretische voorspellingen te valideren. We presenteren een van de eerste volledige experimentele realisaties van het Battle of the Sexes-spel binnen het Eisert-Wilkens-Lewenstein (EWL) raamwerk op IBM Quantum's ibm sherbrooke supergeleidende processor. Vier kwantumstrategieën (I, H, R(pi/4), R(pi)) werden geëvalueerd over 31 verstrengelingswaarden gamma in [0, pi] met 2048 shots per configuratie, wat een directe vergelijking tussen analytische voorspellingen en hardware-uitvoering mogelijk maakt. Om ruis en variabiliteit te verminderen, introduceren we een Guided Circuit Mapping (GCM) methode die dynamisch qubit-paren selecteert en routering optimaliseert op basis van real-time topologie en kalibratiedata. Het analytische model voorspelt een verbetering van de uitbetaling tot 108% ten opzichte van het klassieke evenwicht, en ondanks afwijkingen door de hardware behouden de experimentele resultaten met GCM de verwachte uitbetalingspatronen binnen een relatieve fout van 3,5%-12%. Deze bevindingen tonen aan dat kwantumvoordelen in strategische coördinatie kunnen standhouden onder realistische NISQ-omstandigheden, wat een pad biedt naar praktische toepassingen van kwantumspeltheorie in multi-agent, economische en gedistribueerde besluitvormingssystemen.
Het begrijpen van vooroordelen en stereotypen die zijn gecodeerd in de gewichten van Large Language Models (LLMs) is cruciaal voor het ontwikkelen van effectieve mitigatiestrategieën. Bevooroordeeld gedrag is vaak subtiel en niet triviaal te isoleren, zelfs wanneer het opzettelijk wordt uitgelokt, wat systematische analyse en debiasing bijzonder uitdagend maakt. Om dit aan te pakken, introduceren we BiasGym, een eenvoudig, kosteneffectief en generaliseerbaar framework voor het betrouwbaar injecteren, analyseren en mitigeren van conceptuele associaties binnen LLMs. BiasGym bestaat uit twee componenten: BiasInject, dat specifieke vooroordelen in het model injecteert via token-gebaseerde fine-tuning terwijl het model bevroren blijft, en BiasScope, dat gebruikmaakt van deze geïnjecteerde signalen om de componenten die verantwoordelijk zijn voor bevooroordeeld gedrag te identificeren en bij te sturen. Onze methode maakt consistente bias-uitlokking mogelijk voor mechanistische analyse, ondersteunt gerichte debiasing zonder de prestaties op downstream taken te verslechteren, en generaliseert naar vooroordelen die niet tijdens de training zijn gezien. We demonstreren de effectiviteit van BiasGym in het verminderen van real-world stereotypen (bijvoorbeeld mensen uit een land die 'roekeloze chauffeurs' zijn) en in het onderzoeken van fictieve associaties (bijvoorbeeld mensen uit een land met 'blauwe huid'), wat het nut ervan aantoont voor zowel veiligheidsinterventies als interpretatieonderzoek.
Huidige benchmarks voor wiskundig redeneren voor grote taalmodellen (LLMs) naderen verzadiging, waarbij sommige een nauwkeurigheid van > 90% behalen, en worden steeds meer aangetast door contaminatie van de trainingsset. Wij introduceren Putnam-AXIOM, een benchmark van 522 universitaire competitieproblemen afkomstig uit de prestigieuze William Lowell Putnam Mathematical Competition, en Putnam-AXIOM Variation, een onbekende begeleidende set van 100 functionele varianten gegenereerd door het programmatisch verstoren van variabelen en constanten. Het variatieprotocol produceert een onbeperkte stroom van even moeilijke, onbekende instanties – wat resulteert in een contaminatiebestendige testomgeving. Op de Originalset scoort OpenAI's o1-preview – het sterkste geëvalueerde model – 41,9%, maar de nauwkeurigheid daalt met 19,6% (een relatieve afname van 46,8%) op de gepaarde Variaties. De overige achttien modellen vertonen dezelfde neerwaartse trend, waarvan tien met niet-overlappende 95% betrouwbaarheidsintervallen. Deze verschillen suggereren memorisatie en benadrukken de noodzaak van dynamische benchmarks. Wij vullen "boxed" nauwkeurigheid aan met Teacher-Forced Accuracy (TFA), een lichtgewicht metriek die redeneersporen direct beoordeelt en evaluaties van natuurlijketaalbewijzen automatiseert. Putnam-AXIOM biedt daarom een rigoureus, contaminatiebestendig evaluatiekader voor het beoordelen van geavanceerd wiskundig redeneren van LLMs. Data en evaluatiecode zijn openbaar beschikbaar op https://github.com/brando90/putnam-axiom.
Paralinguïstische vocalisaties - inclusief non-verbale geluiden zoals gelach en ademhaling, evenals gelexicaliseerde tussenwerpsels zoals "uhm" en "oh" - zijn essentieel voor natuurlijke gesproken communicatie. Ondanks hun belang bij het overbrengen van emoties, intenties en interactieve signalen, worden dergelijke signalen grotendeels over het hoofd gezien in conventionele automatische spraakherkenning (ASR) en tekst-naar-spraak (TTS) systemen. Wij presenteren NVSpeech, een geïntegreerde en schaalbare pijplijn die de herkenning en synthese van paralinguïstische vocalisaties overbrugt, met inbegrip van datasetconstructie, ASR-modellering en controleerbare TTS. (1) We introduceren een handmatig geannoteerde dataset van 48.430 door mensen gesproken uitingen met 18 woordniveau paralinguïstische categorieën. (2) We ontwikkelen het paralinguïstisch bewuste ASR-model, dat paralinguïstische signalen behandelt als inline decodeerbare tokens (bijv. "Je bent zo grappig [Gelach]"), waardoor gezamenlijke lexicale en non-verbale transcriptie mogelijk wordt. Dit model wordt vervolgens gebruikt om automatisch een grote corpus te annoteren, de eerste grootschalige Chinese dataset van 174.179 uitingen (573 uur) met woordniveau uitlijning en paralinguïstische signalen. (3) We finetunen zero-shot TTS-modellen op zowel handmatig als automatisch gelabelde data om expliciete controle over paralinguïstische vocalisaties mogelijk te maken, waardoor contextbewuste invoeging op willekeurige tokenposities voor mensachtige spraaksynthese wordt toegestaan. Door de herkenning en generatie van paralinguïstische vocalisaties te verenigen, biedt NVSpeech de eerste open, grootschalige, woordniveau geannoteerde pijplijn voor expressieve spraakmodellering in het Mandarijn, waarbij herkenning en synthese op een schaalbare en controleerbare manier worden geïntegreerd. Dataset en audio demo's zijn beschikbaar op https://nvspeech170k.github.io/.
Verstedelijking, klimaatverandering en landbouwstress vergroten de vraag naar nauwkeurige en tijdige milieumonitoring. Landoppervlaktetemperatuur (LST) is een cruciale variabele in deze context en wordt verkregen via remote sensing-satellieten. Deze systemen staan echter voor een afweging tussen ruimtelijke en temporele resolutie. Hoewel spatio-temporele fusiemethoden veelbelovende oplossingen bieden, hebben slechts weinige zich gericht op de schatting van dagelijkse LST met een resolutie van 10 m. In deze studie presenteren we WGAST, een Weakly-Supervised Generative Network voor de schatting van dagelijkse 10 m LST via spatio-temporele fusie van Terra MODIS, Landsat 8 en Sentinel-2. WGAST is het eerste end-to-end deep learning-framework dat voor deze taak is ontworpen. Het maakt gebruik van een conditionele generatieve adversariële architectuur, waarbij een generator bestaat uit vier fasen: feature-extractie, fusie, LST-reconstructie en ruisonderdrukking. De eerste fase gebruikt een set encoders om multi-level latente representaties uit de invoer te extraheren, die vervolgens in de tweede fase worden gefuseerd met behulp van cosinusgelijkenis, normalisatie en temporele aandachtmechanismen. De derde fase decodeert de gefuseerde features naar hoogresolutie LST, gevolgd door een Gauss-filter om hoogfrequente ruis te onderdrukken. De training volgt een zwak begeleide strategie gebaseerd op fysische gemiddelde principes en wordt versterkt door een PatchGAN-discriminator. Experimenten tonen aan dat WGAST bestaande methoden overtreft in zowel kwantitatieve als kwalitatieve evaluaties. Vergeleken met de best presterende baseline, reduceert WGAST gemiddeld de RMSE met 17,18% en verbetert het de SSIM met 11,00%. Bovendien is WGAST robuust tegen door wolken veroorzaakte LST en vangt het effectief fijnschalige thermische patronen op, zoals gevalideerd tegen 33 grondgebaseerde sensoren. De code is beschikbaar op https://github.com/Sofianebouaziz1/WGAST.git.
Artistieke stijloverdracht is al lang mogelijk dankzij de vooruitgang in convolution- en transformer-gebaseerde neurale netwerken. De meeste algoritmen passen de artistieke stijloverdracht toe op de hele afbeelding, maar individuele gebruikers hebben mogelijk alleen behoefte aan stijloverdracht in een specifiek gebied van de afbeelding. De standaardpraktijk is om de afbeelding eenvoudigweg te maskeren na de stilisering. Dit werk toont aan dat deze aanpak de stijlkenmerken in het interessegebied vaak onjuist vastlegt. Wij stellen een op partiële convolutie gebaseerd stijloverdrachtsnetwerk voor dat de stijlkenmerken nauwkeurig toepast uitsluitend op het interessegebied. Daarnaast presenteren we netwerkinterne blendingtechnieken die rekening houden met imperfecties in de gebiedsselectie. We tonen aan dat dit visueel en kwantitatief betere stilisering oplevert aan de hand van voorbeelden uit de SA-1B dataset. De code is publiekelijk beschikbaar op https://github.com/davidmhart/StyleTransferMasked.
Het aardoppervlak verandert voortdurend, en het detecteren van deze veranderingen biedt waardevolle inzichten die ten goede komen aan verschillende aspecten van de menselijke samenleving. Hoewel traditionele methoden voor veranderingsdetectie zijn gebruikt om veranderingen in bi-temporele beelden te detecteren, vereisen deze benaderingen doorgaans expertkennis voor een nauwkeurige interpretatie. Om bredere en flexibelere toegang tot veranderingsinformatie mogelijk te maken voor niet-experts, is de taak van Change Detection Visual Question Answering (CDVQA) geïntroduceerd. Bestaande CDVQA-methoden zijn echter ontwikkeld onder de aanname dat trainings- en testdatasets vergelijkbare verdelingen hebben. Deze aanname gaat niet op in real-world toepassingen, waar domeinverschuivingen vaak voorkomen. In dit artikel wordt de CDVQA-taak opnieuw bekeken met de focus op het aanpakken van domeinverschuiving. Hiertoe wordt een nieuwe multimodale en multidomein dataset, BrightVQA, geïntroduceerd om domeingeneralistatieonderzoek in CDVQA te faciliteren. Verder wordt een nieuw state space model, genaamd Text-Conditioned State Space Model (TCSSM), voorgesteld. Het TCSSM-framework is ontworpen om zowel bi-temporele beelden als geo-rampgerelateerde tekstuele informatie op een geïntegreerde manier te benutten om domeinonafhankelijke kenmerken over domeinen heen te extraheren. Invoerafhankelijke parameters in TCSSM worden dynamisch voorspeld door zowel bi-temporele beelden als geo-rampgerelateerde beschrijvingen te gebruiken, waardoor de afstemming tussen bi-temporele visuele data en de bijbehorende tekstuele beschrijvingen wordt gefaciliteerd. Uitgebreide experimenten worden uitgevoerd om de voorgestelde methode te evalueren tegen state-of-the-art modellen, en superieure prestaties worden consistent aangetoond. De code en dataset zullen na acceptatie openbaar gemaakt worden op https://github.com/Elman295/TCSSM.