Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grootschalige reinforcement learning met verifieerbare beloningen (RLVR) heeft zijn effectiviteit aangetoond bij het benutten van het potentieel van grote taalmmodellen (LLMs) voor enkelvoudige redeneertaken. In realistische redeneerscenario's kunnen LLMs vaak externe hulpmiddelen gebruiken om het takenoplossingsproces te ondersteunen. Huidige RL-algoritmen slagen er echter onvoldoende in om de intrinsieke langetermijnredeneercapaciteiten van de modellen en hun vaardigheid in meervoudige interacties met hulpmiddelen in balans te brengen. Om deze kloof te overbruggen, stellen we Agentic Reinforced Policy Optimization (ARPO) voor, een nieuw agentisch RL-algoritme dat is afgestemd op het trainen van meervoudige LLM-gebaseerde agents. Uit voorlopige experimenten blijkt dat LLMs vaak zeer onzeker gedrag vertonen, gekenmerkt door een toename in de entropieverdeling van gegenereerde tokens, direct na interacties met externe hulpmiddelen. Gemotiveerd door deze observatie, integreert ARPO een entropie-gebaseerd adaptief rollout-mechanisme, dat dynamisch globale trajectbemonstering en stapgewijze bemonstering in balans brengt, waardoor exploratie wordt bevorderd bij stappen met hoge onzekerheid na het gebruik van hulpmiddelen. Door een voordeelattributie-estimatie te integreren, stelt ARPO LLMs in staat om voordeelverschillen te internaliseren in stapsgewijze interacties met hulpmiddelen. Onze experimenten over 13 uitdagende benchmarks in computationeel redeneren, kennisredeneren en diepzoekdomeinen demonstreren de superioriteit van ARPO ten opzichte van trajectniveau RL-algoritmen. Opmerkelijk is dat ARPO verbeterde prestaties bereikt met slechts de helft van het hulpmiddelgebruiksbudget dat bestaande methoden vereisen, en biedt zo een schaalbare oplossing voor het afstemmen van LLM-gebaseerde agents op real-time dynamische omgevingen. Onze code en datasets zijn vrijgegeven op https://github.com/dongguanting/ARPO.
Grote Taalmodellen (LLM's) hebben sterke capaciteiten getoond, maar blijven fundamenteel statisch, niet in staat om hun interne parameters aan te passen aan nieuwe taken, evoluerende kennisgebieden of dynamische interactiecontexten. Naarmate LLM's steeds vaker worden ingezet in open, interactieve omgevingen, is deze statische aard een kritieke beperking geworden, wat de noodzaak creëert voor agents die adaptief kunnen redeneren, handelen en evolueren in realtime. Deze paradigmaverschuiving – van het schalen van statische modellen naar het ontwikkelen van zelf-evoluerende agents – heeft een groeiende interesse gewekt in architecturen en methoden die continu leren en aanpassen mogelijk maken op basis van data, interacties en ervaringen. Dit overzicht biedt de eerste systematische en uitgebreide review van zelf-evoluerende agents, georganiseerd rond drie fundamentele dimensies – wat te evolueren, wanneer te evolueren en hoe te evolueren. We onderzoeken evolutionaire mechanismen in agentcomponenten (bijv. modellen, geheugen, tools, architectuur), categoriseren aanpassingsmethoden op basis van fasen (bijv. intra-testtijd, inter-testtijd) en analyseren de algoritmische en architectonische ontwerpen die evolutionaire aanpassing sturen (bijv. scalaire beloningen, tekstuele feedback, single-agent en multi-agent systemen). Daarnaast analyseren we evaluatiemetrics en benchmarks die zijn toegesneden op zelf-evoluerende agents, belichten toepassingen in domeinen zoals coderen, onderwijs en gezondheidszorg, en identificeren kritieke uitdagingen en onderzoeksrichtingen op het gebied van veiligheid, schaalbaarheid en co-evolutionaire dynamiek. Door een gestructureerd kader te bieden voor het begrijpen en ontwerpen van zelf-evoluerende agents, legt dit overzicht een roadmap vast voor het bevorderen van adaptieve agentische systemen in zowel onderzoek als real-world implementaties, en werpt het uiteindelijk licht op de weg naar de realisatie van Kunstmatige Superintelligentie (ASI), waar agents autonoom evolueren en presteren op of boven menselijk niveau in een breed scala aan taken.
Hoewel grensverleggende grote taalmodellen (LLMs) de mogelijkheden blijven uitbreiden, blijft hun inzet beperkt tot GPU-aangedreven cloudinfrastructuur. Wij dagen dit paradigma uit met SmallThinker, een familie van LLMs die van nature zijn ontworpen - niet aangepast - voor de unieke beperkingen van lokale apparaten: zwakke rekenkracht, beperkt geheugen en trage opslag. In tegenstelling tot traditionele benaderingen die voornamelijk bestaande modellen voor de cloud comprimeren, ontwerpen wij SmallThinker vanaf de grond om binnen deze beperkingen te gedijen. Onze innovatie ligt in een implementatiebewuste architectuur die beperkingen omzet in ontwerp principes. Ten eerste introduceren we een tweelaagse sparse structuur die fijnmazige Mixture-of-Experts (MoE) combineert met sparse feed-forward netwerken, waardoor de rekenkundige eisen drastisch worden verminderd zonder in te leveren op modelcapaciteit. Ten tweede, om de I/O-knelpunt van trage opslag te overwinnen, ontwerpen we een pre-attention router die onze mede-ontworpen inferentie-engine in staat stelt om expertparameters uit de opslag te prefetchen terwijl aandacht wordt berekend, waardoor de opslaglatentie effectief wordt verborgen die anders de on-device inferentie zou verlammen. Ten derde, voor geheugenefficiëntie, maken we gebruik van het NoPE-RoPE hybride sparse aandachtmechanisme om de KV-cache vereisten te verminderen. We brengen SmallThinker-4B-A0.6B en SmallThinker-21B-A3B uit, die state-of-the-art prestatiescores behalen en zelfs grotere LLMs overtreffen. Opmerkelijk is dat ons mede-ontworpen systeem grotendeels de behoefte aan dure GPU-hardware elimineert: met Q4_0 kwantisering overschrijden beide modellen 20 tokens/s op gewone consumenten-CPU's, terwijl ze slechts 1GB en 8GB geheugen verbruiken. SmallThinker is publiekelijk beschikbaar op hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct en hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Door gebruikers gegenereerde korte video's uit de echte wereld, vooral die welke worden verspreid op platforms zoals WeChat Channel en TikTok, domineren het mobiele internet. Huidige grote multimodale modellen missen echter essentiële, tijdelijk gestructureerde, gedetailleerde en diepgaande video-begripscapaciteiten, die de hoeksteen vormen van effectieve videozoekopdrachten en -aanbevelingen, evenals van opkomende videotoepassingen. Het begrijpen van real-world shorts is eigenlijk uitdagend vanwege hun complexe visuele elementen, hoge informatiedichtheid in zowel beeld als geluid, en het snelle tempo dat gericht is op emotionele expressie en het overbrengen van standpunten. Dit vereist geavanceerd redeneren om multimodale informatie, waaronder visuele, auditieve en tekstuele informatie, effectief te integreren. In dit werk introduceren we ARC-Hunyuan-Video, een multimodaal model dat visuele, auditieve en tekstuele signalen van ruwe video-invoer end-to-end verwerkt voor gestructureerd begrip. Het model is in staat tot multi-granulariteit tijdgestempelde videobeschrijving en -samenvatting, open-einde video-vraagbeantwoording, tijdelijk videogebondenheid en videoredenering. Door gebruik te maken van hoogwaardige gegevens uit een geautomatiseerde annotatiepijplijn, wordt ons compacte 7B-parameter model getraind via een uitgebreid regime: pre-training, instructie-finetuning, koude start, reinforcement learning (RL) post-training en uiteindelijke instructie-finetuning. Kwantitatieve evaluaties op onze geïntroduceerde benchmark ShortVid-Bench en kwalitatieve vergelijkingen tonen de sterke prestaties aan in het begrijpen van real-world video's, en het ondersteunt zero-shot of finetuning met enkele voorbeelden voor diverse downstream-toepassingen. De real-world productie-implementatie van ons model heeft tastbare en meetbare verbeteringen opgeleverd in gebruikersbetrokkenheid en -tevredenheid, een succes dat wordt ondersteund door zijn opmerkelijke efficiëntie, met stresstests die een inferentietijd van slechts 10 seconden voor een één minuut durende video op H20 GPU aangeven.
Ondanks de belofte van Multi-Task Learning om complementaire kennis over taken te benutten, blijven bestaande technieken voor multi-task optimalisatie (MTO) gefocust op het oplossen van conflicten via optimizer-gerichte schaling van verliezen en manipulatie van gradienten, maar slagen ze er niet in om consistente verbeteringen te leveren. In dit artikel stellen we dat de gedeelde representatieruimte, waar taakinteracties van nature plaatsvinden, rijke informatie en potentieel biedt voor operaties die complementair zijn aan bestaande optimalisatoren, met name voor het faciliteren van inter-taak complementariteit, wat zelden wordt onderzocht in MTO. Deze intuïtie leidt tot Rep-MTL, dat de taaksalientie op representatieniveau benut om interacties tussen taakspecifieke optimalisatie en gedeeld representatie leren te kwantificeren. Door deze salienties te sturen via entropie-gebaseerde penalisatie en steekproefgewijze kruistaak-uitlijning, streeft Rep-MTL ernaar negatieve overdracht te verminderen door de effectieve training van individuele taken te behouden in plaats van puur conflictoplossing, terwijl het expliciet complementaire informatie-uitwisseling bevordert. Experimenten worden uitgevoerd op vier uitdagende MTL-benchmarks die zowel taakverschuiving als domeinverschuiving scenario's omvatten. De resultaten tonen aan dat Rep-MTL, zelfs in combinatie met het basisbeleid van gelijke weging, competitieve prestatieverbeteringen bereikt met gunstige efficiëntie. Naast standaard prestatiemetingen toont een analyse van de Power Law-exponent de effectiviteit van Rep-MTL aan in het balanceren van taakspecifiek leren en kruistaak-deling. De projectpagina is beschikbaar op HIER.
Het reconstrueren van 4D ruimtelijke intelligentie uit visuele observaties is al lang een centrale maar uitdagende taak in computervisie, met brede toepassingen in de praktijk. Deze variëren van entertainmentdomeinen zoals films, waar de focus vaak ligt op het reconstrueren van fundamentele visuele elementen, tot embodied AI, dat de nadruk legt op interactiemodellering en fysieke realisme. Aangewakkerd door snelle vooruitgang in 3D-representaties en deep learning-architecturen, heeft het veld zich snel ontwikkeld, waardoor het de reikwijdte van eerdere overzichten heeft overtroffen. Bovendien bieden bestaande overzichten zelden een uitgebreide analyse van de hiërarchische structuur van 4D-scènereconstructie. Om dit gat te dichten, presenteren we een nieuw perspectief dat bestaande methoden organiseert in vijf progressieve niveaus van 4D ruimtelijke intelligentie: (1) Niveau 1 – reconstructie van laag-niveau 3D-attributen (bijv. diepte, pose en puntenkaarten); (2) Niveau 2 – reconstructie van 3D-scènecomponenten (bijv. objecten, mensen, structuren); (3) Niveau 3 – reconstructie van 4D-dynamische scènes; (4) Niveau 4 – modellering van interacties tussen scènecomponenten; en (5) Niveau 5 – integratie van fysische wetten en beperkingen. We sluiten het overzicht af door de belangrijkste uitdagingen op elk niveau te bespreken en veelbelovende richtingen te benadrukken voor het bereiken van nog rijkere niveaus van 4D ruimtelijke intelligentie. Om de lopende ontwikkelingen bij te houden, onderhouden we een actuele projectpagina: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Recente vooruitgang, zoals Group Relative Policy Optimization (GRPO), heeft de redeneervaardigheden van grote taalmodellen verbeterd door het optimaliseren van het rekenkundig gemiddelde van token-level beloningen. GRPO heeft echter last van onstabiele beleidsupdates bij het verwerken van tokens met uitschieters in de belangrijkheidsgewogen beloningen, wat zich manifesteert als extreme importance sampling-ratio's tijdens de training, d.w.z. de verhouding tussen de steekproefkansen die aan een token worden toegekend door het huidige en het oude beleid. In dit werk stellen we Geometric-Mean Policy Optimization (GMPO) voor, een gestabiliseerde variant van GRPO. In plaats van het rekenkundig gemiddelde te optimaliseren, maximaliseert GMPO het meetkundig gemiddelde van token-level beloningen, wat inherent minder gevoelig is voor uitschieters en een stabieler bereik van importance sampling-ratio's behoudt. Daarnaast bieden we een uitgebreide theoretische en experimentele analyse om het ontwerp en de stabiliteitsvoordelen van GMPO te rechtvaardigen. Naast verbeterde stabiliteit presteert GMPO-7B gemiddeld 4,1% beter dan GRPO op meerdere wiskundige benchmarks en 1,4% beter op de multimodale redeneerbenchmark, waaronder AIME24, AMC, MATH500, OlympiadBench, Minerva en Geometry3K. De code is beschikbaar op https://github.com/callsys/GMPO.
Grote redeneermodellen (LRM) met uitgebreide keten-van-gedachten (CoT) mogelijkheden hebben sterke prestaties getoond op objectieve taken, zoals wiskundig redeneren en coderen. Hun effectiviteit op subjectieve vragen die verschillende antwoorden kunnen hebben afhankelijk van het perspectief, blijft echter beperkt door een neiging tot homogeen redeneren, veroorzaakt door de afhankelijkheid van een enkele grondwaarheid bij supervised fine-tuning en verifieerbare beloningen bij reinforcement learning. Gemotiveerd door de bevinding dat het toevoegen van rolperspectieven consistent de prestaties verbetert, stellen we MultiRole-R1 voor, een diversiteit-versterkt raamwerk met meerdere rolperspectieven, om de nauwkeurigheid en diversiteit in subjectieve redeneertaken te verbeteren. MultiRole-R1 beschikt over een onbewaakte dataconstructiepijplijn die redeneerketens genereert die diverse rolperspectieven incorporeren. We passen verder reinforcement learning toe via Group Relative Policy Optimization (GRPO) met beloningsvorming, waarbij diversiteit als een beloningssignaal wordt gebruikt naast de verifieerbare beloning. Met speciaal ontworpen beloningsfuncties bevorderen we succesvol perspectiefdiversiteit en lexicale diversiteit, waarbij een positieve relatie tussen redeneerdiversiteit en nauwkeurigheid wordt blootgelegd. Ons experiment op zes benchmarks toont de effectiviteit en generaliseerbaarheid van MultiRole-R1 in het verbeteren van zowel subjectief als objectief redeneren, wat het potentieel van diversiteit-versterkte training in LRM's aantoont.
Recente ontwikkelingen in grote multimodale modellen zoals GPT-4o hebben een nieuwe standaard gezet voor hoogwaardige, instructiegestuurde beeldbewerking. Het propriëtaire karakter van deze modellen en hun trainingsdata vormt echter een aanzienlijke barrière voor open-source onderzoek. Om deze kloof te overbruggen, introduceren we GPT-IMAGE-EDIT-1.5M, een openbaar beschikbare, grootschalige beeldbewerkingscorpus met meer dan 1,5 miljoen hoogwaardige tripletten (instructie, bronafbeelding, bewerkte afbeelding). We construeren deze dataset systematisch door de veelzijdige mogelijkheden van GPT-4o te benutten om drie populaire beeldbewerkingsdatasets te verenigen en te verfijnen: OmniEdit, HQ-Edit en UltraEdit. Onze methodologie omvat specifiek 1) het opnieuw genereren van uitvoerafbeeldingen om de visuele kwaliteit en instructie-uitlijning te verbeteren, en 2) het selectief herschrijven van prompts om de semantische duidelijkheid te vergroten. Om de effectiviteit van onze dataset te valideren, fine-tunen we geavanceerde open-source modellen op GPT-IMAGE-EDIT-1.5M. De empirische resultaten zijn veelbelovend; bijvoorbeeld, de fine-tuned FluxKontext behaalt zeer competitieve prestaties over een uitgebreide reeks benchmarks, waaronder 7.24 op GEdit-EN, 3.80 op ImgEdit-Full en 8.78 op Complex-Edit, wat een sterkere instructievolging en hogere perceptuele kwaliteit laat zien terwijl de identiteit behouden blijft. Deze scores overtreffen duidelijk alle eerder gepubliceerde open-source methoden en verkleinen de kloof met toonaangevende propriëtaire modellen aanzienlijk. We hopen dat de volledige release van GPT-IMAGE-EDIT-1.5M verdere open onderzoeken in instructiegestuurde beeldbewerking kan stimuleren.
Het leren van visuele representaties is fundamenteel voor een breed scala aan downstream taken. Hoewel recente vision-language contrastieve modellen, zoals CLIP en SigLIP, indrukwekkende zero-shot prestaties hebben bereikt via grootschalige vision-language alignering, beperkt hun afhankelijkheid van globale representaties hun effectiviteit voor dense prediction taken, zoals grounding, OCR en segmentatie. Om deze kloof te overbruggen, introduceren we Region-Aware Cluster Discrimination (RICE), een nieuwe methode die regionale visuele en OCR-capaciteiten verbetert. We construeren eerst een dataset met miljarden kandidaat-regio's en stellen een Region Transformer-laag voor om rijke regionale semantiek te extraheren. Verder ontwerpen we een uniforme regionale cluster discriminatieverliesfunctie die gezamenlijk object- en OCR-leren ondersteunt binnen een enkel classificatiekader, waardoor efficiënte en schaalbare gedistribueerde training op grootschalige data mogelijk wordt. Uitgebreide experimenten tonen aan dat RICE consistent beter presteert dan eerdere methoden bij taken, waaronder segmentatie, dense detectie en visuele perceptie voor Multimodale Grote Taalmodellen (MLLMs). De vooraf getrainde modellen zijn vrijgegeven op https://github.com/deepglint/MVT.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben het potentieel van reinforcement learning met verifieerbare beloningen (RLVR) benadrukt om redeneervaardigheden te verbeteren door middel van uitgebreide uitvoersequenties. Traditionele RL-frameworks kampen echter met inefficiënties bij het verwerken van ultra-lange uitvoeren vanwege long-tail sequentiedistributies en entropie-instorting tijdens de training. Om deze uitdagingen aan te pakken, stellen we een Ultra-Lange Uitvoer Reinforcement Learning (UloRL) benadering voor om de redeneervaardigheden van grote taalmodellen te bevorderen. Specifiek verdelen we het decoderen van ultra-lange uitvoeren in korte segmenten, waardoor efficiënte training mogelijk wordt door vertragingen veroorzaakt door long-tail voorbeelden te verminderen. Daarnaast introduceren we dynamische maskering van goed beheerste positieve tokens (MPTs) om entropie-instorting te voorkomen. Experimentele resultaten tonen de effectiviteit van onze aanpak aan. Op het Qwen3-30B-A3B model bereikte RL met segment-rollout een 2,06x toename in trainingssnelheid, terwijl RL-training met 128k-token uitvoeren de prestaties van het model op AIME2025 verbeterde van 70,9\% naar 85,1\% en op BeyondAIME van 50,7\% naar 61,9\%, zelfs Qwen3-235B-A22B overtreffend met opmerkelijke winsten. Deze bevindingen onderstrepen het potentieel van onze methoden om de redeneervaardigheden van LLMs te bevorderen met ultra-lange sequentiegeneratie. We zullen onze code en model vrijgeven voor verder gebruik door de gemeenschap.
Perpetuele 3D-scènegeneratie heeft als doel om lange en coherente 3D-beeldsequenties te produceren, wat toepasbaar is voor langdurige videosynthese en 3D-scènereconstructie. Bestaande methoden volgen een "navigeer-en-verbeeld"-aanpak en vertrouwen op uitbreiding via outpainten voor opeenvolgende beelduitbreiding. Echter, de gegenereerde beeldsequenties lijden onder het probleem van semantische drift, veroorzaakt door de opgestapelde afwijking van het outpainten-module. Om deze uitdaging aan te pakken, stellen we ScenePainter voor, een nieuw framework voor semantisch consistente 3D-scènegeneratie, dat de scènespecifieke prior van de outpainter afstemt op het begrip van de huidige scène. Specifiek introduceren we een hiërarchische grafiekstructuur genaamd SceneConceptGraph om relaties tussen meerdere niveaus van scèneconcepten te construeren, wat de outpainter leidt naar consistente nieuwe beelden en dynamisch kan worden verfijnd om diversiteit te vergroten. Uitgebreide experimenten tonen aan dat ons framework het probleem van semantische drift overwint en meer consistente en meeslepende 3D-beeldsequenties genereert. Projectpagina: https://xiac20.github.io/ScenePainter/.
De toenemende frequentie van extreme weersomstandigheden als gevolg van wereldwijde klimaatverandering benadrukt de noodzaak van nauwkeurige weersvoorspellingen. Recentelijk zijn grote vooruitgangen geboekt door end-to-end methoden, dankzij deep learning-technieken, maar deze methoden kampen met beperkingen in representatie-inconsistentie bij multivariabele integratie en hebben moeite om de afhankelijkheid tussen variabelen effectief vast te leggen, wat essentieel is in complexe weersystemen. Door verschillende variabelen als afzonderlijke modaliteiten te behandelen en een tweefasige trainingsaanpak uit multimodale modellen toe te passen, kan dit probleem gedeeltelijk worden verlicht, maar door de inconsistentie in trainings taken tussen de twee fasen zijn de resultaten vaak suboptimaal. Om deze uitdagingen aan te pakken, stellen we een impliciete tweefasige trainingsmethode voor, waarbij afzonderlijke encoders en decoders voor elke variabele worden geconfigureerd. In detail: in de eerste fase wordt de Translator bevroren terwijl de Encoders en Decoders een gedeelde latente ruimte leren, in de tweede fase worden de Encoders en Decoders bevroren en legt de Translator de interacties tussen variabelen vast voor voorspellingen. Daarnaast wordt door de introductie van een self-attention-mechanisme voor multivariabele fusie in de latente ruimte de prestaties verder verbeterd. Empirisch tonen uitgebreide experimenten de state-of-the-art prestaties van onze methode aan. Specifiek reduceert het de MSE voor voorspellingen van de nabije oppervlakteluchttemperatuur en relatieve luchtvochtigheid met respectievelijk 28,82% en 23,39%. De broncode is beschikbaar op https://github.com/ShremG/Met2Net.
Document image rectificatie heeft als doel geometrische vervormingen in gefotografeerde documenten te elimineren om tekstherkenning te vergemakkelijken. Bestaande methoden negeren echter vaak het belang van voorgrond elementen, die essentiële geometrische referenties en lay-outinformatie bieden voor documentbeeldcorrectie. In dit artikel introduceren we het Foreground-Centric Network (ForCenNet) om geometrische vervormingen in documentbeelden te elimineren. Specifiek stellen we eerst een voorgrond-centrische labelgeneratiemethode voor, die gedetailleerde voorgrond elementen uit een onvervormd beeld extraheert. Vervolgens introduceren we een voorgrond-centrisch maskermechanisme om het onderscheid tussen leesbare en achtergrondregio's te versterken. Bovendien ontwerpen we een krommingsconsistentieverlies om de gedetailleerde voorgrondlabels te benutten, zodat het model de vervormde geometrische verdeling beter kan begrijpen. Uitgebreide experimenten tonen aan dat ForCenNet nieuwe state-of-the-art resultaten behaalt op vier real-world benchmarks, zoals DocUNet, DIR300, WarpDoc en DocReal. Kwantitatieve analyse laat zien dat de voorgestelde methode lay-out elementen, zoals tekstregels en tabelranden, effectief onvervormt. De bronnen voor verdere vergelijking zijn beschikbaar op https://github.com/caipeng328/ForCenNet.
Diffusie- en flow-matchingmodellen hebben de afgelopen tijd een revolutie teweeggebracht in automatische tekst-naar-audiogeneratie. Deze modellen zijn steeds beter in staat om hoogwaardige en nauwkeurige audio-uitvoer te genereren die spraak en akoestische gebeurtenissen vastleggen. Er is echter nog veel ruimte voor verbetering in creatieve audiogeneratie die voornamelijk muziek en liedjes omvat. Recente open lyrics-to-song-modellen, zoals DiffRhythm, ACE-Step en LeVo, hebben een acceptabele standaard gezet in automatische liedjesgeneratie voor recreatief gebruik. Deze modellen missen echter de fijnmazige woordniveau-controleerbaarheid die muzikanten vaak wensen in hun workflows. Voor zover wij weten, is ons op flow-matching gebaseerde JAM de eerste poging om woordniveau-timing en -duurcontrole toe te voegen in liedjesgeneratie, waardoor fijnmazige vocale controle mogelijk wordt. Om de kwaliteit van gegenereerde liedjes te verbeteren en beter af te stemmen op menselijke voorkeuren, implementeren we esthetische afstemming via Direct Preference Optimization, waarbij het model iteratief wordt verfijnd met behulp van een synthetische dataset, waardoor handmatige data-annotaties overbodig worden. Bovendien streven we ernaar om de evaluatie van dergelijke lyrics-to-song-modellen te standaardiseren via ons openbare evaluatiedataset JAME. We tonen aan dat JAM de bestaande modellen overtreft wat betreft de muziekspecifieke attributen.
We presenteren Music Arena, een open platform voor schaalbare evaluatie van menselijke voorkeuren voor tekst-naar-muziek (TTM) modellen. Het verzamelen van menselijke voorkeuren via luisterstudies is de gouden standaard voor evaluatie in TTM, maar deze studies zijn kostbaar om uit te voeren en moeilijk te vergelijken, omdat studieprotocollen kunnen verschillen tussen systemen. Bovendien kunnen menselijke voorkeuren onderzoekers helpen hun TTM-systemen af te stemmen of automatische evaluatiemetrics te verbeteren, maar een open en hernieuwbare bron van voorkeuren bestaat momenteel niet. Wij streven ernaar deze lacunes op te vullen door *live* evaluatie aan te bieden voor TTM. In Music Arena voeren gebruikers uit de praktijk zelfgekozen tekstprompts in en vergelijken ze uitvoer van twee TTM-systemen, waarna hun voorkeuren worden gebruikt om een leaderboard samen te stellen. Hoewel Music Arena recente evaluatietrends in andere AI-domeinen volgt, hebben we het ook ontworpen met belangrijke functies die specifiek op muziek zijn afgestemd: een op LLM gebaseerd routersysteem om de heterogene typesignaturen van TTM-systemen te navigeren, en het verzamelen van *gedetailleerde* voorkeuren, inclusief luisterdata en feedback in natuurlijke taal. We stellen ook een doorlopend datareleasebeleid voor met garanties voor gebruikersprivacy, waardoor een hernieuwbare bron van voorkeursdata wordt geboden en de transparantie van het platform wordt vergroot. Door zijn gestandaardiseerde evaluatieprotocol, transparante data-toegangsbeleid en muziekspecifieke functies, adresseert Music Arena niet alleen belangrijke uitdagingen in het TTM-ecosysteem, maar demonstreert het ook hoe live evaluatie zorgvuldig kan worden aangepast aan de unieke kenmerken van specifieke AI-domeinen. Music Arena is beschikbaar op: https://music-arena.org
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in het verbeteren van stapsgewijs redeneren door middel van reinforcement learning. Het Group Relative Policy Optimization (GRPO) algoritme, dat vertrouwt op spaarzame beloningsregels, stuit echter vaak op het probleem van identieke beloningen binnen groepen, wat leidt tot het voordeelcollapsprobleem. Bestaande werken pakken deze uitdaging doorgaans vanuit twee perspectieven aan: het afdwingen van modelreflectie om de diversiteit van reacties te vergroten, en het introduceren van interne feedback om het trainingssignaal (voordeel) te versterken. In dit werk beginnen we met het analyseren van de beperkingen van modelreflectie en onderzoeken we de beleidsentropie van reacties op het fijnmazige steekproefniveau. Op basis van onze experimentele bevindingen stellen we het EDGE-GRPO algoritme voor, dat Entropy-Driven Advantage en Guided Error Correction gebruikt om het probleem van voordeelcollaps effectief te verminderen. Uitgebreide experimenten op verschillende belangrijke redeneerbenchmarks tonen de effectiviteit en superioriteit van onze aanpak aan. Het is beschikbaar op https://github.com/ZhangXJ199/EDGE-GRPO.
Wanneer taalmodelen (LMs) worden getraind via reinforcement learning (RL) om natuurlijke taal "redeneerketens" te genereren, verbetert hun prestaties op een verscheidenheid aan moeilijke vraag-antwoordtaken. Tegenwoordig gebruiken bijna alle succesvolle toepassingen van RL voor redeneren binaire beloningsfuncties die de correctheid van LM-uitvoer evalueren. Omdat dergelijke beloningsfuncties niet straffen voor gokken of uitvoer met weinig vertrouwen, hebben ze vaak het onbedoelde bijeffect dat ze de kalibratie verslechteren en de snelheid waarmee LMs onjuiste antwoorden genereren (of "hallucineren") in andere probleemdomeinen verhogen. Dit artikel beschrijft RLCR (Reinforcement Learning with Calibration Rewards), een benadering voor het trainen van redeneermodellen die zowel de nauwkeurigheid als de gekalibreerde betrouwbaarheidsschatting verbeteren. Tijdens RLCR genereren LMs zowel voorspellingen als numerieke betrouwbaarheidsschattingen na het redeneren. Ze worden getraind om een beloningsfunctie te optimaliseren die een binaire correctheidsscore aanvult met een Brier-score -- een scoringsregel voor betrouwbaarheidsschattingen die gekalibreerde voorspellingen stimuleert. We bewijzen eerst dat deze beloningsfunctie (of een analoge beloningsfunctie die een begrensde, juiste scoringsregel gebruikt) modellen oplevert waarvan de voorspellingen zowel nauwkeurig als goed gekalibreerd zijn. Vervolgens laten we zien dat RLCR over diverse datasets de kalibratie aanzienlijk verbetert zonder verlies van nauwkeurigheid, zowel bij in-domein als out-of-domein evaluaties -- en daarbij zowel gewone RL-training als classificatoren die getraind zijn om achteraf betrouwbaarheidsscores toe te kennen, overtreft. Terwijl gewone RL de kalibratie schaadt, verbetert RLCR deze. Tot slot demonstreren we dat verbaal uitgedrukt vertrouwen tijdens de testfase kan worden benut om de nauwkeurigheid en kalibratie te verbeteren via methoden voor gewogen schaling op basis van betrouwbaarheid. Onze resultaten tonen aan dat expliciet optimaliseren voor kalibratie meer algemeen betrouwbare redeneermodellen kan opleveren.
De vraag naar Large Language Models (LLMs) die geavanceerd wiskundig redeneren aankunnen, groeit in verschillende sectoren. De ontwikkeling van performante wiskundige LLMs wordt echter ernstig belemmerd door het gebrek aan uitdagende, nieuwe trainingsdata. Wij introduceren SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions), een pijplijn die dit probleem aanpakt door eerst hoogwaardige problemen van scratch te genereren en vervolgens hun complexiteit systematisch te verhogen via een nieuwe stap genaamd Difficulty Hiking. Wij demonstreren de effectiviteit van onze aanpak door twee belangrijke bevindingen. Ten eerste verbetert het versterken van een sterke baseline met SAND-Math data de prestaties aanzienlijk, waarbij het de op één na beste synthetische dataset overtreft met een stijging van 17,85 absolute punten op de AIME25 benchmark. Ten tweede tonen we in een toegewijde ablatiestudie aan dat ons Difficulty Hiking-proces zeer effectief is: door de gemiddelde probleem moeilijkheid te verhogen van 5,02 naar 5,98, verhoogt deze stap de AIME25-prestatie van 46,38% naar 49,23%. De volledige generatiepijplijn, de uiteindelijke dataset en een fijn afgestemd model vormen een praktische en schaalbare toolkit voor het bouwen van krachtigere en efficiëntere wiskundige redeneer-LLMs. De SAND-Math dataset is hier vrijgegeven: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
Gebruikerssimulatoren zijn essentieel voor conversationele AI, omdat ze schaalbare ontwikkeling en evaluatie van agents mogelijk maken via gesimuleerde interacties. Hoewel huidige Large Language Models (LLM's) geavanceerde mogelijkheden voor gebruikerssimulatie bieden, laten we zien dat ze moeite hebben om consistent doelgericht gedrag te tonen in meerzijdige gesprekken—een kritische beperking die hun betrouwbaarheid in downstream toepassingen ondermijnt. We introduceren User Goal State Tracking (UGST), een nieuw framework dat de voortgang van gebruikersdoelen gedurende gesprekken bijhoudt. Door gebruik te maken van UGST presenteren we een driestappenmethodologie voor het ontwikkelen van gebruikerssimulatoren die autonoom doelvoortgang kunnen volgen en redeneren om doelgerichte reacties te genereren. Bovendien stellen we uitgebreide evaluatiemetrics vast voor het meten van doelgerichtheid in gebruikerssimulatoren, en demonstreren we dat onze aanpak aanzienlijke verbeteringen oplevert op twee benchmarks (MultiWOZ 2.4 en {\tau}-Bench). Onze bijdragen adresseren een kritische leemte in conversationele AI en vestigen UGST als een essentieel framework voor het ontwikkelen van doelgerichte gebruikerssimulatoren.
Genexpressieanalyse is cruciaal voor veel biomedische ontdekkingen, maar het verkrijgen van inzichten uit ruwe transcriptoomgegevens blijft een uitdaging vanwege de complexiteit van meerdere grote, semi-gestructureerde bestanden en de noodzaak van uitgebreide domeinkennis. Huidige automatiseringsbenaderingen worden vaak beperkt door inflexibele workflows die falen in randgevallen of door volledig autonome agents die de benodigde precisie missen voor rigoureus wetenschappelijk onderzoek. GenoMAS kiest een andere aanpak door een team van LLM-gebaseerde wetenschappers te presenteren dat de betrouwbaarheid van gestructureerde workflows combineert met de aanpassingsvermogen van autonome agents. GenoMAS coördineert zes gespecialiseerde LLM-agents via getypeerde berichtuitwisselingsprotocollen, waarbij elk complementaire sterktes bijdraagt aan een gedeeld analytisch canvas. De kern van GenoMAS bestaat uit een begeleid planningsraamwerk: programmeeragents ontvouwen hoog-niveau taakrichtlijnen in Actie-eenheden en kiezen bij elk kruispunt om door te gaan, te herzien, over te slaan of terug te keren, waardoor logische samenhang wordt behouden terwijl soepel wordt omgegaan met de eigenaardigheden van genomische gegevens. Op de GenoTEX-benchmark bereikt GenoMAS een Samengestelde Gelijkeniscorrelatie van 89,13% voor gegevensvoorbewerking en een F_1 van 60,48% voor genidentificatie, wat respectievelijk 10,61% en 16,85% hoger is dan de beste bestaande methoden. Naast metrische resultaten brengt GenoMAS biologisch plausibele gen-fenotype associaties aan het licht die worden ondersteund door de literatuur, terwijl tegelijkertijd rekening wordt gehouden met latente verstorende factoren. De code is beschikbaar op https://github.com/Liu-Hy/GenoMAS.
Naarmate grote taalmodellen (LLMs) steeds vaker native code-interpreters integreren, bieden ze krachtige mogelijkheden voor real-time uitvoering, wat hun bruikbaarheid aanzienlijk vergroot. Dergelijke integraties brengen echter potentiële systeemniveau cybersecurity-bedreigingen met zich mee, die fundamenteel verschillen van prompt-gebaseerde kwetsbaarheden. Om deze interpreter-specifieke risico's systematisch te evalueren, stellen we CIRCLE voor (Code-Interpreter Resilience Check for LLM Exploits), een eenvoudige benchmark bestaande uit 1.260 prompts die gericht zijn op het uitputten van CPU-, geheugen- en schijfbronnen. Elke risicocategorie omvat expliciet kwaadaardige ("directe") en ogenschijnlijk onschuldige ("indirecte") promptvarianten. Ons geautomatiseerde evaluatieraamwerk beoordeelt niet alleen of LLMs risicovolle code weigeren of genereren, maar voert de gegenereerde code ook uit binnen de interpreter-omgeving om de correctheid van de code, vereenvoudigingen door het LLM om de code veilig te maken, of time-outs tijdens de uitvoering te evalueren. Door 7 commercieel beschikbare modellen van OpenAI en Google te evalueren, ontdekken we significante en inconsistente kwetsbaarheden. Zo tonen evaluaties aanzienlijke verschillen zelfs binnen providers - OpenAI's o4-mini weigert risicovolle verzoeken correct in 7,1% van de gevallen, wat aanzienlijk hoger is vergeleken met GPT-4.1 op 0,5%. De resultaten benadrukken vooral dat indirecte, sociaal geconstrueerde prompts de verdediging van modellen aanzienlijk verzwakken. Dit onderstreept de dringende behoefte aan interpreter-specifieke cybersecurity-benchmarks, toegewijde mitigatietools (bijv. guardrails) en duidelijke industriestandaarden om de veilige en verantwoorde inzet van LLM-interpreterintegraties te begeleiden. De benchmarkdataset en evaluatiecode worden openbaar vrijgegeven om verder onderzoek te bevorderen.