Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In grote taalmodellen neemt de vraag naar het modelleren van lange contexten voortdurend toe, maar de kwadratische complexiteit van het standaard self-attention-mechanisme vormt vaak een knelpunt. Hoewel bestaande sparse attention-mechanismen de efficiëntie hebben verbeterd, kunnen ze nog steeds problemen ondervinden zoals statische patronen of informatieverlies. Wij introduceren een trainbaar dynamisch masker sparse attention-mechanisme, Dynamic Mask Attention (DMA), dat effectief gebruikmaakt van inhoudsbewuste en positiebewuste sparsity. DMA bereikt dit door twee belangrijke innovaties: Ten eerste genereert het dynamisch inhoudsbewuste sparse maskers uit waarderepresentaties, waardoor het model kritieke informatie adaptief kan identificeren en erop kan focussen. Ten tweede implementeert het positiebewuste sparse attention-berekeningen die effectief onnodige berekeningsregio's overslaan. Dit dual-sparsity-ontwerp stelt het model in staat om de rekencomplexiteit van belangrijke informatie aanzienlijk te verminderen, terwijl volledige informatie behouden blijft, waardoor een uitstekende balans wordt bereikt tussen informatiegetrouwheid en rekenkundige efficiëntie. We hebben de prestaties van DMA geverifieerd door middel van uitgebreide experimenten. Vergelijkende studies tonen aan dat DMA multi-head attention, sliding window attention, multi-head latent attention en native sparse attention overtreft wat betreft perplexiteit onder Chinchilla Scaling Law-instellingen. Bovendien toont DMA in uitdagende multi-query associatieve herinneringstaken ook superieure prestaties en efficiëntie vergeleken met deze methoden. Cruciaal is dat in de evaluatie van een model met 1,7 miljard parameters, DMA multi-head attention significant overtreft in zowel standaard benchmarkprestaties als de uitdagende needle-in-a-haystack-taak. Deze experimentele resultaten benadrukken het vermogen om model efficiëntie en lange-context modelleringsvermogen effectief in balans te brengen.
We presenteren Qwen-Image, een fundamenteel model voor beeldgeneratie in de Qwen-serie dat aanzienlijke vooruitgang boekt in complexe tekstweergave en precieze beeldbewerking. Om de uitdagingen van complexe tekstweergave aan te pakken, hebben we een uitgebreide datapijplijn ontworpen die grootschalige gegevensverzameling, filtering, annotatie, synthese en balancering omvat. Bovendien hanteren we een progressieve trainingsstrategie die begint met niet-tekst-naar-tekst weergave, evolueert van eenvoudige naar complexe tekstuele invoer, en geleidelijk opschaalt naar beschrijvingen op paragraafniveau. Deze curriculumleerbenadering verbetert aanzienlijk de inherente tekstweergavecapaciteiten van het model. Als resultaat presteert Qwen-Image niet alleen uitstekend in alfabetische talen zoals Engels, maar boekt het ook opmerkelijke vooruitgang op uitdagendere logografische talen zoals Chinees. Om de consistentie van beeldbewerking te verbeteren, introduceren we een verbeterd multi-task trainingsparadigma dat niet alleen traditionele tekst-naar-beeld (T2I) en tekst-beeld-naar-beeld (TI2I) taken omvat, maar ook beeld-naar-beeld (I2I) reconstructie, waardoor de latente representaties tussen Qwen2.5-VL en MMDiT effectief worden uitgelijnd. Verder voeden we het originele beeld afzonderlijk in Qwen2.5-VL en de VAE-encoder in om respectievelijk semantische en reconstructieve representaties te verkrijgen. Dit duale coderingsmechanisme stelt de bewerkingsmodule in staat een balans te vinden tussen het behouden van semantische consistentie en het handhaven van visuele trouw. Qwen-Image behaalt state-of-the-art prestaties, wat zijn sterke capaciteiten aantoont in zowel beeldgeneratie als -bewerking over meerdere benchmarks.
Retrieval-augmented generation (RAG) over lange documenten omvat doorgaans het opsplitsen van de tekst in kleinere segmenten, die dienen als de basiseenheden voor retrieval. Vanwege afhankelijkheden in het oorspronkelijke document is contextuele informatie echter vaak essentieel voor een nauwkeurige interpretatie van elk segment. Om dit aan te pakken, heeft eerder onderzoek het coderen van langere contextvensters verkend om embeddings voor langere segmenten te produceren. Ondanks deze inspanningen blijven de verbeteringen in retrieval en downstream taken beperkt. Dit komt omdat (1) langere segmenten de capaciteit van embeddingmodellen belasten door de grotere hoeveelheid informatie die ze moeten coderen, en (2) veel real-world toepassingen nog steeds gelokaliseerd bewijs vereisen vanwege beperkingen in model- of menselijke bandbreedte. Wij stellen een alternatieve aanpak voor deze uitdaging voor door korte segmenten op een manier te representeren die is geconditioneerd op een breder contextvenster om de retrievalprestaties te verbeteren — dat wil zeggen, de betekenis van een segment binnen zijn context te situeren. We laten verder zien dat bestaande embeddingmodellen niet goed uitgerust zijn om dergelijke gesitueerde context effectief te coderen, en introduceren daarom een nieuw trainingsparadigma en ontwikkelen de gesitueerde embeddingmodellen (SitEmb). Om onze methode te evalueren, hebben we een boekplot-retrievaldataset samengesteld die specifiek is ontworpen om gesitueerde retrievalcapaciteiten te beoordelen. Op deze benchmark presteert ons SitEmb-v1-model, gebaseerd op BGE-M3, aanzienlijk beter dan state-of-the-art embeddingmodellen, waaronder verschillende met tot 7-8B parameters, met slechts 1B parameters. Ons 8B SitEmb-v1.5-model verbetert de prestaties verder met meer dan 10% en laat sterke resultaten zien in verschillende talen en diverse downstream toepassingen.
Het modelleren van virtuele cellen vertegenwoordigt een opkomend onderzoeksgebied op het snijvlak van kunstmatige intelligentie en biologie, met als doel om grootheden zoals reacties op diverse verstoringen kwantitatief te voorspellen. Het autonoom bouwen van computationele modellen voor virtuele cellen is echter uitdagend vanwege de complexiteit van biologische systemen, de heterogeniteit van datamodaliteiten en de behoefte aan domeinspecifieke expertise over meerdere disciplines. Hier introduceren we CellForge, een agent-gebaseerd systeem dat gebruikmaakt van een multi-agent framework om gepresenteerde biologische datasets en onderzoeksdoelstellingen direct om te zetten in geoptimaliseerde computationele modellen voor virtuele cellen. Meer specifiek produceert CellForge, met alleen ruwe single-cell multi-omics data en taakbeschrijvingen als input, zowel een geoptimaliseerde modelarchitectuur als uitvoerbare code voor het trainen van virtuele celmodellen en inferentie. Het framework integreert drie kernmodules: Taakanalyse voor de karakterisering van gepresenteerde datasets en het ophalen van relevante literatuur, Methodeontwerp, waar gespecialiseerde agents gezamenlijk geoptimaliseerde modelleringsstrategieën ontwikkelen, en Experimentuitvoering voor de geautomatiseerde generatie van code. De agents in de Ontwerpmodule zijn gescheiden in experts met verschillende perspectieven en een centrale moderator, en moeten gezamenlijk oplossingen uitwisselen totdat ze een redelijke consensus bereiken. We demonstreren de mogelijkheden van CellForge in single-cell verstoringsvoorspelling, met behulp van zes diverse datasets die genknockouts, medicijnbehandelingen en cytokine-stimulaties over meerdere modaliteiten omvatten. CellForge presteert consistent beter dan taakspecifieke state-of-the-art methoden. Over het algemeen toont CellForge aan hoe iteratieve interactie tussen LLM-agents met verschillende perspectieven betere oplossingen biedt dan het direct aanpakken van een modelleringsuitdaging. Onze code is publiekelijk beschikbaar op https://github.com/gersteinlab/CellForge.
Redeneermodellen blinken uit in complexe probleemoplossing, maar vertonen een zorgwekkende afweging tussen redeneervaardigheden en het vermogen om instructies op te volgen. Bestaande benaderingen om het volgen van instructies te verbeteren, zijn afhankelijk van sterkere externe modellen, wat methodologische knelpunten en praktische beperkingen met zich meebrengt, waaronder hogere kosten en toegankelijkheidsbeperkingen. Wij stellen een zelfgesuperviseerd RL-raamwerk voor dat gebruikmaakt van de interne signalen van redeneermodellen zelf om het vermogen om instructies op te volgen te verbeteren zonder externe supervisie. Uitgebreide experimenten tonen aan dat ons raamwerk het vermogen om instructies op te volgen aanzienlijk verbetert, terwijl de redeneerprestaties behouden blijven. Dit biedt een schaalbare en kosteneffectieve benadering om het volgen van instructies in redeneermodellen te versterken. De data en code zijn openbaar beschikbaar op https://github.com/Rainier-rq/verl-if.
Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt in vele domeinen, maar hun integratie in cybersecuritytoepassingen blijft beperkt vanwege een gebrek aan algemene cybersecuritygegevens, representatieve complexiteit, en zorgen over veiligheid en regelgeving. Om deze kloof te overbruggen, hebben we eerder Foundation-Sec-8B geïntroduceerd, een op cybersecurity gericht LLM dat geschikt is voor fine-tuning op downstream taken. Dat model was echter niet ontworpen voor chat-achtige interacties of het volgen van instructies. In dit rapport presenteren we Foundation-Sec-8B-Instruct: een model dat specifiek is getraind voor algemene cybersecuritydialogen. Gebouwd op Foundation-Sec-8B, combineert het domeinspecifieke kennis met het volgen van instructies, conversatievaardigheden en afstemming op menselijke voorkeuren om hoogwaardige, relevante antwoorden te produceren. Uitgebreide evaluaties tonen aan dat Foundation-Sec-8B-Instruct Llama 3.1-8B-Instruct overtreft op een reeks cybersecuritytaken, terwijl het de prestaties op het gebied van instructievolgen evenaart. Het is ook concurrerend met GPT-4o-mini op taken gerelateerd aan cyberdreigingsinformatie en het volgen van instructies. Wij voorzien dat Foundation-Sec-8B-Instruct een onmisbare assistent zal worden in de dagelijkse workflows van cybersecurityprofessionals. We maken het model publiekelijk beschikbaar op https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
De meeste menselijke eiwitten blijven ongebruikt als medicijndoelwit, waarbij meer dan 96% van de menselijke eiwitten niet worden benut door goedgekeurde therapeutica. Hoewel virtuele screening op basis van structuur de mogelijkheid biedt om het beïnvloedbare proteoom uit te breiden, ontbreekt het bestaande methoden aan atomaire precisie en slagen ze er niet in om bindingsgeschiktheid te voorspellen, wat de vertaalslag naar praktische toepassingen beperkt. Wij presenteren AuroBind, een schaalbaar raamwerk voor virtuele screening dat een aangepast atomaire structuurmodel verfijnt op basis van chemogenomische data op miljoenschaal. AuroBind integreert directe voorkeursoptimalisatie, zelfdistillatie vanuit hoogvertrouwenscomplexen en een leraar-leerling versnellingsstrategie om gezamenlijk ligand-gebonden structuren en bindingsgeschiktheid te voorspellen. De voorgestelde modellen overtreffen state-of-the-art modellen op structurele en functionele benchmarks, terwijl ze een 100.000 keer snellere screening mogelijk maken over ultra-grote verbindingsbibliotheken. In een prospectieve screening over tien ziekte-relevante doelen behaalde AuroBind experimentele trefkansen van 7-69%, waarbij de beste verbindingen sub-nanomolaire tot picomolaire potentie bereikten. Voor de wees-GPCR's GPR151 en GPR160 identificeerde AuroBind zowel agonisten als antagonisten met succespercentages van 16-30%, en functionele assays bevestigden modulatie van GPR160 in lever- en prostaatkankermodellen. AuroBind biedt een generaliseerbaar raamwerk voor structuur-functie leren en hoogdoorvoermoleculaire screening, waardoor de kloof tussen structuurvoorspelling en therapeutische ontdekking wordt overbrugd.
Om effectief te kunnen functioneren in de echte wereld, moeten robots multimodale redenering integreren met precieze actiegeneratie. Bestaande vision-language-action (VLA)-modellen offeren echter vaak het een op voor het ander, beperken hun mogelijkheden tot taakspecifieke manipulatiedata en lijden aan catastrofaal vergeten van vooraf getrainde vision-language-vaardigheden. Om deze kloof te overbruggen, introduceren we InstructVLA, een end-to-end VLA-model dat de flexibele redenering van grote vision-language-modellen (VLMs) behoudt terwijl het toonaangevende manipulatieresultaten levert. InstructVLA introduceert een nieuwe trainingsparadigma, Vision-Language-Action Instruction Tuning (VLA-IT), dat multimodale training gebruikt met een mixture-of-experts-aanpassing om tekstuele redenering en actiegeneratie gezamenlijk te optimaliseren op zowel standaard VLM-corpora als een samengestelde 650K-sample VLA-IT-dataset. Op in-domain SimplerEnv-taken behaalt InstructVLA een verbetering van 30,5% ten opzichte van SpatialVLA. Om generalisatie te evalueren, introduceren we SimplerEnv-Instruct, een benchmark van 80 taken die gesloten-luscontrole en begrip van hoogwaardige instructies vereist, waar het een fijn afgestelde OpenVLA met 92% overtreft en een actie-expert ondersteund door GPT-4o met 29%. Daarnaast overtreft InstructVLA baseline-VLM's op multimodale taken en vertoont het inference-time-schaling door tekstuele redenering te benutten om de manipulatieresultaten te verbeteren in zowel gesimuleerde als real-world-omgevingen. Deze resultaten demonstreren het potentieel van InstructVLA voor het overbruggen van intuïtieve en stuurbare mens-robotinteractie met efficiënt beleidsleren.
Recente vooruitgang in grote taalmodellen (LLMs) heeft indrukwekkende voortgang geboekt in omnimodale begrip en generatie. Het trainen van omnimodale LLMs blijft echter een aanzienlijke uitdaging vanwege de heterogene modelarchitecturen die nodig zijn om diverse modaliteiten te verwerken, wat geavanceerd systeemontwerp vereist voor efficiënte training op grote schaal. Bestaande frameworks verstrengelen doorgaans modeldefinitie met parallelle logica, wat leidt tot beperkte schaalbaarheid en aanzienlijke technische overhead voor end-to-end omnimodale training. % Wij presenteren \veomni, een modulair en efficiënt trainingsframework om de ontwikkeling van omnimodale LLMs te versnellen. \veomni introduceert modelgerichte gedistribueerde recepten die communicatie ontkoppelen van berekening, waardoor efficiënte 3D-parallelisatie op omnimodale LLMs mogelijk wordt. \veomni beschikt ook over een flexibele configuratie-interface die naadloze integratie van nieuwe modaliteiten ondersteunt met minimale codeverandering. % Met \veomni kan een omnimodaal mixture-of-experts (MoE)-model met 30B parameters getraind worden met een doorvoer van meer dan 2.800 tokens/sec/GPU en geschaald worden naar contextlengtes van 160K via 3D-parallelisatie op 128 GPU's, wat de superieure efficiëntie en schaalbaarheid aantoont voor het trainen van grote omnimodale LLMs.
Grootschalige datasets vormen de basis voor onderzoek en ontwikkeling in natuurlijke taalverwerking. Huidige benaderingen worden echter geconfronteerd met drie belangrijke uitdagingen: (1) afhankelijkheid van bronnen met onduidelijke licenties die gebruik, delen en afgeleide werken beperken; (2) statische datasetreleases die bijdragen van de gemeenschap verhinderen en de levensduur verminderen; en (3) kwaliteitsborgingsprocessen die beperkt zijn tot publicatieteams in plaats van gebruik te maken van de expertise van de gemeenschap. Om deze beperkingen aan te pakken, introduceren we twee bijdragen: de Dynaword-benadering en Danish Dynaword. De Dynaword-benadering is een raamwerk voor het creëren van grootschalige, open datasets die continu kunnen worden bijgewerkt door middel van gemeenschapssamenwerking. Danish Dynaword is een concrete implementatie die deze benadering valideert en het potentieel ervan aantoont. Danish Dynaword bevat meer dan vier keer zoveel tokens als vergelijkbare releases, is uitsluitend open gelicentieerd en heeft meerdere bijdragen ontvangen uit zowel de industrie als het onderzoek. De repository omvat lichtgewicht tests om de gegevensopmaak, kwaliteit en documentatie te waarborgen, waardoor een duurzaam raamwerk wordt gecreëerd voor voortdurende bijdragen van de gemeenschap en de evolutie van de dataset.
Visuele tokencompressie is cruciaal voor Large Vision-Language Models (LVLMs) om hoogwaardige invoer efficiënt te verwerken. Bestaande methoden die doorgaans vaste compressieverhoudingen hanteren, kunnen zich niet aanpassen aan scènes van variërende complexiteit, wat vaak leidt tot onnauwkeurige snoei die informatieve visuele tokens verwijdert en resulteert in verminderde modelprestaties. Om dit probleem aan te pakken, introduceren we een dynamisch snoeikader, GlimpsePrune, geïnspireerd door menselijke cognitie. Het neemt een data-gedreven 'glimp' en snoeit irrelevante visuele tokens in één enkele voorwaartse passage voordat het antwoord wordt gegenereerd. Deze aanpak snoeit 92,6% van de visuele tokens terwijl de baselineprestaties voor taken met vrije-vorm VQA gemiddeld volledig behouden blijven. De verminderde rekenkosten maken ook effectievere fine-tuning mogelijk: een verbeterde GlimpsePrune+ bereikt 110% van de baselineprestaties terwijl een even hoge snoeiratio behouden blijft. Ons werk baant een nieuwe weg voor het bouwen van krachtigere en efficiëntere LVLMs.
We presenteren Voxlect, een nieuwe benchmark voor het modelleren van dialecten en regionale talen wereldwijd met behulp van spraakfundamentmodellen. Specifiek rapporteren we uitgebreide benchmarkevaluaties van dialecten en regionale taalvarianten in het Engels, Arabisch, Mandarijn en Kantonees, Tibetaans, Indische talen, Thai, Spaans, Frans, Duits, Braziliaans Portugees en Italiaans. Onze studie maakte gebruik van meer dan 2 miljoen trainingsuitingen uit 30 openbaar beschikbare spraakcorpora die voorzien zijn van dialectinformatie. We evalueren de prestaties van verschillende veelgebruikte spraakfundamentmodellen bij het classificeren van spraakdialecten. We beoordelen de robuustheid van de dialectmodellen onder rumoerige omstandigheden en presenteren een foutenanalyse die modelresultaten benadrukt die overeenkomen met geografische continuïteit. Naast het benchmarken van dialectclassificatie demonstreren we verschillende downstreamtoepassingen die mogelijk worden gemaakt door Voxlect. Specifiek tonen we aan dat Voxlect kan worden toegepast om bestaande spraakherkenningsdatasets aan te vullen met dialectinformatie, waardoor een gedetailleerdere analyse van ASR-prestaties over dialectvariatie mogelijk wordt. Voxlect wordt ook gebruikt als een hulpmiddel om de prestaties van spraakgeneratiesystemen te evalueren. Voxlect is publiekelijk beschikbaar onder de licentie van de RAIL-familie op: https://github.com/tiantiaf0627/voxlect.
Diffusion Large Language Models (dLLMs) maken doorbraken mogelijk in redeneren en parallel decoderen, maar lijden onder een verbiedende kwadratische rekencomplexiteit en geheugenoverhead tijdens inferentie. Huidige cachingtechnieken versnellen het decoderen door volledige laagstatussen op te slaan, maar leggen een aanzienlijk geheugengebruik op dat langetermijntoepassingen beperkt. Onze analyse van aandachtspatronen in dLLMs onthult aanhoudende sparsiteit tussen lagen, waarbij cruciale tokens prominent blijven over decoderingstappen en tokens met lage relevantie onbelangrijk blijven, wat selectieve cacheverwijdering motiveert. Wij stellen Sparse-dLLM voor, het eerste trainingsvrije framework dat dynamische cacheverwijdering integreert met sparse aandacht via vertraagde bidirectionele sparse caching. Door gebruik te maken van de stabiliteit van tokensalientie over stappen, behoudt het kritieke tokens en verwijdert het dynamisch onbelangrijke prefix-/suffix-vermeldingen met behulp van een aandacht-gestuurde strategie. Uitgebreide experimenten op de LLaDA- en Dream-series tonen aan dat Sparse-dLLM tot 10 keer hogere doorvoer bereikt dan standaard dLLMs, met vergelijkbare prestaties en vergelijkbare piekgeheugenkosten, en overtreft eerdere methoden in efficiëntie en effectiviteit.
Text-to-image diffusiemodellen hebben een revolutie teweeggebracht in visuele contentgeneratie, maar de huidige veiligheidsmechanismen hanteren uniforme standaarden die vaak geen rekening houden met individuele gebruikersvoorkeuren. Deze modellen negeren de diverse veiligheidsgrenzen die worden gevormd door factoren zoals leeftijd, mentale gezondheid en persoonlijke overtuigingen. Om dit aan te pakken, stellen we Personalized Safety Alignment (PSA) voor, een raamwerk dat gebruikerspecifieke controle over veiligheidsgedrag in generatieve modellen mogelijk maakt. PSA integreert gepersonaliseerde gebruikersprofielen in het diffusieproces, waarbij het gedrag van het model wordt aangepast om aan te sluiten bij individuele veiligheidsvoorkeuren, terwijl de beeldkwaliteit behouden blijft. We introduceren een nieuwe dataset, Sage, die gebruikerspecifieke veiligheidsvoorkeuren vastlegt en deze profielen incorporeert via een cross-attention-mechanisme. Experimenten tonen aan dat PSA bestaande methoden overtreft in het onderdrukken van schadelijke content en gegenereerde content beter afstemt op gebruikersbeperkingen, met hogere Win Rate- en Pass Rate-scores. Onze code, data en modellen zijn publiekelijk beschikbaar op https://torpedo2648.github.io/PSAlign/.
We presenteren RoboMemory, een brein-geïnspireerd multi-geheugen framework voor levenslang leren in fysieke, belichaamde systemen, dat kritieke uitdagingen in real-world omgevingen aanpakt: continu leren, latentie van multi-module geheugen, het vastleggen van taakcorrelaties, en het mitigeren van oneindige lussen in gesloten-lus planning. Geworteld in cognitieve neurowetenschappen, integreert het vier kernmodules: de Informatie Preprocessor (thalamus-achtig), het Levenslang Belichaamd Geheugen Systeem (hippocampus-achtig), de Gesloten-Lus Planning Module (prefrontale kwab-achtig), en de Laag-Niveau Uitvoerder (cerebellum-achtig) om langetermijnplanning en cumulatief leren mogelijk te maken. Het Levenslang Belichaamd Geheugen Systeem, centraal in het framework, verlicht snelheidsproblemen bij inferentie in complexe geheugen frameworks via parallelle updates/retrieval over Ruimtelijke, Temporele, Episodische en Semantische submodules. Het bevat een dynamische Kennisgrafiek (KG) en een consistente architectonische ontwerp om geheugenconsistentie en schaalbaarheid te verbeteren. Evaluaties op EmbodiedBench tonen aan dat RoboMemory de open-source baseline (Qwen2.5-VL-72B-Ins) met 25% overtreft in gemiddeld succespercentage en de closed-source State-of-the-Art (SOTA) (Claude3.5-Sonnet) met 5% overstijgt, waarmee het een nieuwe SOTA vestigt. Ablatiestudies valideren sleutelcomponenten (critic, ruimtelijk geheugen, langetermijngeheugen), terwijl implementatie in de echte wereld het levenslang leervermogen bevestigt met aanzienlijk verbeterde succespercentages bij herhaalde taken. RoboMemory verlicht uitdagingen met hoge latentie door schaalbaarheid, en dient als een fundamentele referentie voor de integratie van multi-modale geheugensystemen in fysieke robots.
De toeschrijving van kunstwerken in het algemeen en van schilderijen in het bijzonder is altijd een uitdaging geweest in de kunst. De opkomst van krachtige kunstmatige intelligentie-modellen die afbeeldingen kunnen genereren en analyseren, brengt nieuwe uitdagingen met zich mee voor de toeschrijving van schilderijen. Enerzijds kunnen AI-modellen afbeeldingen creëren die de stijl van een schilder imiteren, wat bijvoorbeeld door andere AI-modellen onterecht kan worden toegeschreven. Anderzijds kunnen AI-modellen mogelijk niet correct de kunstenaar identificeren voor echte schilderijen, wat gebruikers kan aanzetten tot onjuiste toeschrijvingen. In dit artikel worden beide problemen experimenteel onderzocht met behulp van state-of-the-art AI-modellen voor beeldgeneratie en -analyse op een grote dataset met bijna 40.000 schilderijen van 128 kunstenaars. De resultaten tonen aan dat vision-language-modellen beperkte mogelijkheden hebben om: 1) canvas-toeschrijving uit te voeren en 2) AI-gegenereerde afbeeldingen te identificeren. Aangezien gebruikers steeds meer vertrouwen op vragen aan AI-modellen om informatie te verkrijgen, tonen deze resultaten de noodzaak aan om de mogelijkheden van VLMs te verbeteren om betrouwbaar kunstenaarstoeschrijving en detectie van AI-gegenereerde afbeeldingen uit te voeren, om de verspreiding van onjuiste informatie te voorkomen.
Het waarborgen van voldoende exploratie is een centrale uitdaging bij het trainen van meta-reinforcement learning (meta-RL) agents om nieuwe omgevingen op te lossen. Conventionele oplossingen voor het exploratie-exploitatie dilemma voegen expliciete prikkels toe, zoals randomisatie, onzekerheidsbonussen of intrinsieke beloningen, om exploratie te stimuleren. In dit werk stellen we de hypothese dat een agent die uitsluitend is getraind om een hebzuchtig (alleen exploitatie) doel te maximaliseren, toch emergent exploratief gedrag kan vertonen, mits aan drie voorwaarden wordt voldaan: (1) Terugkerende Omgevingsstructuur, waarbij de omgeving herhaalbare regelmatigheden bevat die ervaringen uit het verleden kunnen gebruiken om toekomstige keuzes te informeren; (2) Agentgeheugen, waardoor de agent historische interactiegegevens kan behouden en benutten; en (3) Langetermijn Krediettoewijzing, waarbij het leren rendementen verspreidt over een tijdsbestek dat voldoende is om de vertraagde voordelen van exploratie te laten informeren over huidige beslissingen. Door experimenten in stochastische multi-armed bandits en temporeel uitgebreide gridwerelden, observeren we dat, wanneer zowel structuur als geheugen aanwezig zijn, een beleid dat is getraind op een strikt hebzuchtig doel informatiezoekend exploratief gedrag vertoont. We tonen verder aan, door middel van gecontroleerde ablatie-experimenten, dat emergent exploratie verdwijnt als ofwel de omgevingsstructuur ofwel het agentgeheugen ontbreekt (Voorwaarden 1 & 2). Verrassend genoeg voorkomt het verwijderen van langetermijn krediettoewijzing (Voorwaarde 3) niet altijd emergent exploratie – een resultaat dat we toeschrijven aan het pseudo-Thompson Sampling-effect. Deze bevindingen suggereren dat, onder de juiste voorwaarden, exploratie en exploitatie niet noodzakelijkerwijs als orthogonale doelen hoeven te worden behandeld, maar kunnen voortkomen uit een uniform beloningsmaximalisatieproces.
Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald in software-engineeringtaken wanneer ze getraind zijn met uitvoerbare runtime-omgevingen, met name bij het oplossen van GitHub-problemen. Dergelijke runtime-omgevingen zijn echter vaak niet beschikbaar in andere domeinen, vooral in cybersecurity, waar uitdagingsconfiguraties en uitvoeringscontexten vluchtig of beperkt zijn. Wij presenteren Cyber-Zero, het eerste runtime-vrije raamwerk voor het synthetiseren van hoogwaardige agenttrajecten om cybersecurity-LLMs te trainen. Cyber-Zero maakt gebruik van publiek beschikbare CTF-writeups en past persona-gestuurde LLM-simulatie toe om runtime-gedrag te reverse-engineeren en realistische, langetermijninteractiesequenties te genereren zonder daadwerkelijke omgevingen. Met behulp van door Cyber-Zero gesynthetiseerde trajecten trainen we LLM-gebaseerde agents die tot 13,1% absolute prestatieverbeteringen behalen ten opzichte van basismodellen op drie prominente CTF-benchmarks: InterCode-CTF, NYU CTF Bench en Cybench. Ons beste model, Cyber-Zero-32B, vestigt nieuwe state-of-the-art prestaties onder open-weight modellen, waarbij het de mogelijkheden evenaart van propriëtaire systemen zoals DeepSeek-V3-0324 en Claude-3.5-Sonnet, terwijl het superieure kosteneffectiviteit biedt. Dit toont aan dat runtime-vrije trajectensynthese de ontwikkeling van state-of-the-art cybersecurity agents effectief kan democratiseren.
Test-time scaling (TTS) verbetert de prestaties van grote taalmodellen (LLMs) door extra rekenbronnen toe te wijzen tijdens de inferentie. Bestaand onderzoek richt zich echter voornamelijk op TTS in taken met één fase, terwijl veel real-world problemen complexe taken met meerdere fasen zijn, bestaande uit een reeks heterogene subtaken waarbij elke subtask een LLM met specifieke capaciteiten vereist. Daarom bestuderen we een nieuw probleem: de test-time compute-optimale schaling in complexe taken met meerdere fasen, met als doel geschikte modellen te selecteren en budgetten per subtask toe te wijzen om de algehele prestaties te maximaliseren. TTS in taken met meerdere fasen introduceert twee fundamentele uitdagingen: (i) De combinatorische zoekruimte van model- en budgettoewijzingen, gecombineerd met de hoge kosten van inferentie, maakt brute-force zoeken onpraktisch. (ii) De optimale model- en budgettoewijzingen over subtaken zijn onderling afhankelijk, wat de complexiteit van de compute-optimale zoekopdracht vergroot. Om deze kloof te overbruggen, voeren we uitgebreide pilootexperimenten uit op vier taken over zes datasets, waarbij we drie empirische inzichten afleiden die het gedrag van LLMs in complexe taken met meerdere fasen karakteriseren. Geïnformeerd door deze inzichten stellen we AgentTTS voor, een LLM-agent-gebaseerd framework dat autonoom zoekt naar compute-optimale toewijzingen via iteratieve feedback-gestuurde interacties met de uitvoeringsomgeving. Experimentele resultaten tonen aan dat AgentTTS traditionele en andere LLM-gebaseerde baseline-methoden significant overtreft in zoekefficiëntie, en verbeterde robuustheid toont bij variërende trainingssetgroottes en een verhoogde interpreteerbaarheid.
Recente vooruitgang in dichte 3D-reconstructie heeft tot aanzienlijke vooruitgang geleid, maar het bereiken van nauwkeurige, verenigde geometrische voorspelling blijft een grote uitdaging. De meeste bestaande methoden zijn beperkt tot het voorspellen van een enkele geometrische grootheid uit invoerbeelden. Echter, geometrische grootheden zoals diepte, oppervlaktenormalen en puntkaarten zijn inherent gecorreleerd, en het afzonderlijk schatten ervan zorgt vaak niet voor consistentie, wat zowel de nauwkeurigheid als de praktische toepasbaarheid beperkt. Dit motiveert ons om een verenigd raamwerk te verkennen dat expliciet de structurele koppeling tussen verschillende geometrische eigenschappen modelleert om gezamenlijke regressie mogelijk te maken. In dit artikel presenteren we Dens3R, een 3D-fundamentmodel ontworpen voor gezamenlijke geometrische dichte voorspelling en aanpasbaar aan een breed scala aan downstreamtaken. Dens3R neemt een tweestaps trainingsraamwerk aan om progressief een puntkaartrepresentatie op te bouwen die zowel generaliseerbaar als intrinsiek invariant is. Specifiek ontwerpen we een lichtgewicht gedeelde encoder-decoder-backbone en introduceren we position-interpolated rotary positional encoding om de expressieve kracht te behouden terwijl de robuustheid tegen hoogresolutie-invoer wordt verbeterd. Door beeldpaar-matchingkenmerken te integreren met intrinsieke invariantiemodellering, regresseert Dens3R nauwkeurig meerdere geometrische grootheden zoals oppervlaktenormalen en diepte, waardoor consistente geometrische waarneming van enkelvoudige naar meervoudige invoer wordt bereikt. Daarnaast stellen we een post-processingpijplijn voor die geometrisch consistente meervoudige inferentie ondersteunt. Uitgebreide experimenten demonstreren de superieure prestaties van Dens3R in verschillende dichte 3D-voorspellingstaken en benadrukken het potentieel voor bredere toepassingen.
Quantum Support Vector Machines kampen met schaalbaarheidsuitdagingen vanwege hoogdimensionale kwantumtoestanden en hardwarebeperkingen. Wij stellen een embedding-aware kwantum-klassieke pipeline voor die klasse-gebalanceerde k-means distillatie combineert met voorgetrainde Vision Transformer embeddings. Onze belangrijkste bevinding: ViT-embeddings maken uniek kwantumvoordeel mogelijk, met nauwkeurigheidsverbeteringen tot 8,02% ten opzichte van klassieke SVM's op Fashion-MNIST en 4,42% op MNIST, terwijl CNN-features prestatieverlies laten zien. Met behulp van 16-qubit tensor netwerk simulatie via cuTensorNet, leveren we het eerste systematische bewijs dat kwantumkernelvoordeel kritisch afhangt van de keuze van de embedding, wat een fundamentele synergie onthult tussen transformer attention en kwantum feature spaces. Dit biedt een praktische weg naar schaalbare kwantum machine learning die moderne neurale architecturen benut.
Text-to-Motion (T2M) generatie heeft als doel realistische en semantisch afgestemde menselijke bewegingssequenties te synthetiseren op basis van natuurlijke taal beschrijvingen. Huidige benaderingen worden echter geconfronteerd met dubbele uitdagingen: generatieve modellen (bijvoorbeeld diffusiemodellen) lijden onder beperkte diversiteit, foutaccumulatie en fysieke onwaarschijnlijkheid, terwijl Retrieval-Augmented Generation (RAG) methoden last hebben van diffusie-inertie, gedeeltelijke mode-collaps en asynchrone artefacten. Om deze beperkingen aan te pakken, stellen we ReMoMask voor, een uniform raamwerk dat drie belangrijke innovaties integreert: 1) Een Bidirectioneel Momentum Text-Motion Model ontkoppelt de schaal van negatieve voorbeelden van de batchgrootte via momentum-wachtrijen, wat de precisie van cross-modale retrievals aanzienlijk verbetert; 2) Een Semantisch Spatio-temporeel Attention mechanisme dwingt biomechanische beperkingen af tijdens fusie op deel-niveau om asynchrone artefacten te elimineren; 3) RAG-Classier-Free Guidance incorporeert minimale onvoorwaardelijke generatie om de generalisatie te verbeteren. Gebouwd op MoMask's RVQ-VAE, genereert ReMoMask efficiënt temporeel coherente bewegingen in minimale stappen. Uitgebreide experimenten op standaard benchmarks demonstreren de state-of-the-art prestaties van ReMoMask, met een verbetering van 3,88% en 10,97% in FID-scores op respectievelijk HumanML3D en KIT-ML, vergeleken met de vorige SOTA-methode RAG-T2M. Code: https://github.com/AIGeeksGroup/ReMoMask. Website: https://aigeeksgroup.github.io/ReMoMask.
Het rijke taallandschap van de Arabische wereld wordt gekenmerkt door een aanzienlijke kloof tussen Modern Standaard Arabisch (MSA), de taal van formele communicatie, en de diverse regionale dialecten die in het dagelijks leven worden gebruikt. Deze diglossie vormt een aanzienlijke uitdaging voor natuurlijke taalverwerking, met name voor machinaal vertalen. Dit artikel introduceert SHAMI-MT, een bidirectioneel machinevertaalsysteem dat specifiek is ontwikkeld om de communicatiekloof tussen MSA en het Syrische dialect te overbruggen. We presenteren twee gespecialiseerde modellen, één voor MSA-naar-Shami en een ander voor Shami-naar-MSA vertaling, beide gebouwd op de state-of-the-art AraT5v2-base-1024 architectuur. De modellen zijn verfijnd op de uitgebreide Nabra dataset en rigoureus geëvalueerd op onbekende gegevens uit het MADAR corpus. Ons MSA-naar-Shami model behaalde een uitstekende gemiddelde kwaliteitsscore van 4.01 uit 5.0 bij beoordeling door het OPENAI model GPT-4.1, wat aantoont dat het niet alleen nauwkeurige maar ook dialectaal authentieke vertalingen kan produceren. Dit werk biedt een cruciaal, hoogwaardig hulpmiddel voor een eerder onderbelichte taalcombinatie, waardoor het vakgebied van dialectaal Arabisch vertalen wordt bevorderd en belangrijke toepassingen worden geboden in contentlocalisatie, cultureel erfgoed en interculturele communicatie.
We onderzoeken of sociaal-economische indicatoren zoals huishoudelijk vermogen herkenbare sporen achterlaten in satellietbeelden (die fysieke kenmerken vastleggen) en internet-gebaseerde tekst (die historische/economische narratieven weerspiegelt). Met behulp van gegevens uit de Demographic and Health Survey (DHS) van Afrikaanse buurten combineren we Landsat-beelden met door een LLM gegenereerde tekstuele beschrijvingen die zijn geconditioneerd op locatie/jaar en tekst die door een AI-zoekagent is opgehaald uit web bronnen. We ontwikkelen een multimodaal raamwerk dat huishoudelijk vermogen (International Wealth Index) voorspelt via vijf pijplijnen: (i) een vision-model op satellietbeelden, (ii) een LLM die alleen locatie/jaar gebruikt, (iii) een AI-agent die webtekst zoekt en synthetiseert, (iv) een gezamenlijke beeld-tekst encoder, (v) een ensemble van alle signalen. Ons raamwerk levert drie bijdragen. Ten eerste presteert het combineren van vision en agent/LLM-tekst beter dan vision-only baselines in het voorspellen van vermogen (bijvoorbeeld een R-kwadraat van 0.77 vs. 0.63 op out-of-sample splits), waarbij interne kennis van de LLM effectiever blijkt dan door de agent opgehaalde tekst, wat de robuustheid verbetert voor generalisatie buiten het land en buiten de tijd. Ten tweede vinden we gedeeltelijke representatieconvergentie: gefuseerde embeddings van vision/taal modaliteiten correleren matig (mediaan cosinusgelijkenis van 0.60 na uitlijning), wat suggereert dat er een gedeelde latente code van materieel welzijn is terwijl complementaire details behouden blijven, in lijn met de Platonische Representatie Hypothese. Hoewel LLM-only tekst beter presteert dan door de agent opgehaalde data, wat onze Agent-Induced Novelty Hypothese uitdaagt, ondersteunen bescheiden winsten door het combineren van agent-data in sommige splits zwakjes het idee dat door de agent verzamelde informatie unieke representatiestructuren introduceert die niet volledig worden vastgelegd door statische LLM-kennis. Ten derde publiceren we een grootschalige multimodale dataset bestaande uit meer dan 60.000 DHS-clusters gekoppeld aan satellietbeelden, LLM-gegenereerde beschrijvingen en door agenten opgehaalde teksten.
Grote taalmodellen hebben opmerkelijke capaciteiten getoond in complexe wiskundige redeneertaken, maar ze maken onvermijdelijk fouten tijdens meerstapsoplossingen. Procesniveau Beloningsmodellen (PRMs) hebben veelbelovende resultaten laten zien door toezicht en evaluatie te bieden bij elke tussenliggende stap, waardoor de redeneervaardigheden van de modellen effectief worden verbeterd. Het trainen van effectieve PRMs vereist echter hoogwaardige procesbeloningsdata, en bestaande methoden voor het construeren van dergelijke data zijn vaak arbeidsintensief of inefficiënt. In dit artikel stellen we een onzekerheidsgestuurd framework voor voor de geautomatiseerde constructie van procesbeloningsdata, dat zowel de datageneratie als de annotatieprocessen voor PRMs omvat. Daarnaast identificeren we de beperkingen van zowel de meerderheidsstemming als PRMs, en introduceren we twee generieke onzekerheidsbewuste uitvoeraggregatiemethoden: Hybride Meerderheidsbeloningsstemming en Gewogen Beloningsfrequentie Stemming, die de sterke punten van meerderheidsstemming combineren met PRMs. Uitgebreide experimenten op ProcessBench, MATH en GSMPlus tonen de effectiviteit en efficiëntie van het voorgestelde PRM-data constructieframework aan, en laten zien dat de twee uitvoeraggregatiemethoden de wiskundige redeneervaardigheden verder verbeteren over diverse PRMs. De code en data zullen publiekelijk beschikbaar zijn op https://github.com/Jiuzhouh/UnPRM.