Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In Diffusion Transformer (DiT)-modellen, met name voor videogeneratie, vormt de latentie van aandacht een belangrijke bottleneck vanwege de lange sequentielengte en de kwadratische complexiteit. We ontdekken dat aandachtswaarden kunnen worden gescheiden in twee delen: een kleine fractie van grote waarden met een hoge rang en de overige waarden met een zeer lage rang. Dit suggereert natuurlijk het toepassen van versnelde sparse berekeningen op het eerste deel en versnelde low-rank berekeningen op het tweede. Op basis van deze bevinding stellen we SLA (Sparse-Linear Attention) voor, een trainbare aandachtmethode die sparse en lineaire aandacht combineert om diffusiemodellen te versnellen. SLA classificeert aandachtswaarden in kritieke, marginale en verwaarloosbare categorieën, waarbij O(N^2) aandacht wordt toegepast op kritieke waarden, O(N) aandacht op marginale waarden, en verwaarloosbare waarden worden overgeslagen. SLA combineert deze berekeningen in een enkele GPU-kernel en ondersteunt zowel voorwaartse als achterwaartse passes. Met slechts enkele fine-tuningstappen met SLA bereiken DiT-modellen een 20-voudige reductie in aandachtberekeningen, wat resulteert in een aanzienlijke versnelling zonder verlies van generatiekwaliteit. Experimenten tonen aan dat SLA de aandachtberekeningen met 95% vermindert zonder de end-to-end generatiekwaliteit te verslechteren, wat beter presteert dan baseline-methoden. Daarnaast implementeren we een efficiënte GPU-kernel voor SLA, wat een 13,7-voudige versnelling in aandachtberekeningen en een 2,2-voudige end-to-end versnelling in videogeneratie oplevert op Wan2.1-1.3B.
Gangbare semantische spraaktokenizers, ontworpen om linguïstische inhoud vast te leggen, blijken verrassend kwetsbaar. We constateren dat ze niet robuust zijn tegen betekenisirrelevante akoestische verstoringen; zelfs bij hoge Signaal-Ruisverhoudingen (SNR's) waar spraak perfect verstaanbaar is, kunnen hun uitvoertokenreeksen drastisch veranderen, wat de leerlast voor downstream LLM's verhoogt. Deze instabiliteit komt voort uit twee tekortkomingen: een broze single-path kwantiseringsarchitectuur en een ver trainingssignaal dat onverschillig is voor de stabiliteit van tussenliggende tokens. Om dit aan te pakken, introduceren we StableToken, een tokenizer die stabiliteit bereikt via een consensusgestuurd mechanisme. De multi-branch architectuur verwerkt audio parallel, en deze representaties worden samengevoegd via een krachtig bit-wise stemmechanisme om een enkele, stabiele tokenreeks te vormen. StableToken vestigt een nieuwe state-of-the-art in tokenstabiliteit, waardoor de Unit Edit Distance (UED) onder diverse ruisomstandigheden aanzienlijk wordt verminderd. Deze fundamentele stabiliteit vertaalt zich direct naar downstream voordelen, wat de robuustheid van SpeechLLM's bij een verscheidenheid aan taken aanzienlijk verbetert.
Reinforcement learning from human feedback (RLHF) is uitgegroeid tot het standaardparadigma voor het afstemmen van grote taalmodelen (LLMs) op menselijke voorkeuren. Beloningsgebaseerde methoden die zijn gebouwd op de Bradley-Terry-aanname hebben echter moeite om de niet-transitieve en heterogene aard van real-world voorkeuren vast te leggen. Om dit aan te pakken, hebben recente studies alignment herformuleerd als een Nash-spel voor twee spelers, wat heeft geleid tot Nash learning from human feedback (NLHF). Hoewel dit perspectief algoritmen zoals INPO, ONPO en EGPO heeft geïnspireerd met sterke theoretische en empirische garanties, blijven ze fundamenteel beperkt tot interacties tussen twee spelers, wat een single-opponent bias creëert die niet in staat is de volledige complexiteit van realistische voorkeursstructuren vast te leggen. In dit werk introduceren we Multiplayer Nash Preference Optimization (MNPO), een nieuw framework dat NLHF generaliseert naar het multiplayer-regime. Het formuleert alignment als een n-speler spel, waarbij elk beleid concurreert tegen een populatie van tegenstanders terwijl het wordt geregulariseerd naar een referentiemodel. Ons framework stelt goed gedefinieerde Nash-evenwichten vast in multiplayer-instellingen en breidt het concept van de dualiteitskloof uit om de benaderingskwaliteit te kwantificeren. We tonen aan dat MNPO de evenwichtsgaranties van methoden voor twee spelers behoudt, terwijl het rijkere competitieve dynamieken en een verbeterde dekking van diverse voorkeursstructuren mogelijk maakt. Door middel van uitgebreide empirische evaluatie laten we zien dat MNPO consistent beter presteert dan bestaande NLHF-baselines op benchmarks voor instructievolging, waarbij het superieure alignmentkwaliteit bereikt onder heterogene annotatorcondities en gemengde beleidsevaluatiescenario's. Samen stellen deze resultaten MNPO vast als een principieel en schaalbaar framework voor het afstemmen van LLMs op complexe, niet-transitieve menselijke voorkeuren. Code is beschikbaar op https://github.com/smiles724/MNPO.
De prestaties van geünificeerde multimodale modellen voor beeldgeneratie en -bewerking worden fundamenteel beperkt door de kwaliteit en volledigheid van hun trainingsdata. Hoewel bestaande datasets basistaken zoals stijloverdracht en eenvoudige objectmanipulatie hebben gedekt, ontbreekt het hen vaak aan de systematische structuur en uitdagende scenario's die nodig zijn voor real-world toepassingen. Om dit knelpunt aan te pakken, introduceren we OpenGPT-4o-Image, een grootschalige dataset die is opgebouwd met een nieuwe methodologie die een hiërarchische taaktaxonomie combineert met geautomatiseerde datageneratie. Onze taxonomie omvat niet alleen fundamentele vaardigheden zoals tekstweergave en stijlcontrole, maar introduceert ook zeer praktische maar uitdagende categorieën zoals wetenschappelijke beeldvorming voor chemische illustraties en complexe instructiebewerking die de gelijktijdige uitvoering van meerdere bewerkingen vereisen. Via een geautomatiseerde pijplijn die gebruikmaakt van gestructureerde bronnenpools en GPT-4o, genereren we 80k hoogwaardige instructie-beeldparen met gecontroleerde diversiteit, die 11 grote domeinen en 51 subtaken bestrijken. Uitgebreide experimenten tonen aan dat het finetunen van toonaangevende modellen op onze dataset aanzienlijke prestatieverbeteringen oplevert over meerdere benchmarks, met verbeteringen tot 18\% op bewerkingstaken (UniWorld-V1 op ImgEdit-Bench) en 13% op generatietaken (Harmon op GenEval). Ons werk toont aan dat systematische dataconstructie essentieel is voor het bevorderen van multimodale AI-capaciteiten.
Een overheersende visie in Reinforcement Learning for Verifiable Rewards (RLVR) interpreteert recente vooruitgang door de lens van een afweging tussen exploratie en exploitatie, een perspectief dat grotendeels wordt gevormd door token-level metrieken. Wij herzien dit perspectief en stellen voor dat deze waargenomen afweging mogelijk geen fundamentele beperking is, maar eerder een artefact van het meetniveau. Om dit te onderzoeken, verschuiven we de analyse naar de semantisch rijke verborgen-toestandsruimte, waarbij we Effective Rank (ER) gebruiken om exploratie te kwantificeren en de nieuwe eerste- en tweede-orde afgeleiden, genaamd Effective Rank Velocity (ERV) en Effective Rank Acceleration (ERA), voorstellen om exploitatie-dynamieken vast te leggen. Onze analyse onthult dat op het niveau van de verborgen toestand, exploratie en exploitatie ontkoppeld kunnen worden (Sectie 4). Deze bevinding onthult een mogelijkheid om beide capaciteiten gelijktijdig te verbeteren. Dit inzicht motiveert onze methode, Velocity-Exploiting Rank-Learning (VERL), de eerste die het principe van synergetische exploratie-exploitatie-verbetering operationaliseert door direct de RL-voordelenfunctie vorm te geven. De belangrijkste innovatie is het benutten van de theoretisch stabiele ERA als een voorspellende meta-controller om een synergetische, dual-channel prikkelstructuur te creëren. In plaats van een afweging af te dwingen, versterkt VERL prospectief beloningen voor exploratie om overmoed te voorkomen en consolideert exploitatieve winsten om redenering te versterken. Experimenten over diverse LLM's en redeneerbenchmarks tonen consistente verbeteringen, waaronder een absolute nauwkeurigheidsverbetering van tot 21,4% op de uitdagende Gaokao 2024 dataset.
De integratie van visueel begrip en generatie in geünificeerde multimodale modellen vertegenwoordigt een belangrijke stap in de richting van algemeen toepasbare AI. Een fundamentele vraag blijft echter onbeantwoord door bestaande benchmarks: maakt deze architectonische unificatie daadwerkelijk synergetische interactie mogelijk tussen de samenstellende capaciteiten? Bestaande evaluatieparadigma's, die voornamelijk begrip en generatie afzonderlijk beoordelen, zijn onvoldoende om te bepalen of een geünificeerd model zijn begrip kan benutten om zijn generatie te verbeteren, of generatieve simulatie kan gebruiken om een dieper inzicht te vergemakkelijken. Om dit kritieke gat te dichten, introduceren we RealUnify, een benchmark die specifiek is ontworpen om bidirectionele capaciteitssynergie te evalueren. RealUnify bestaat uit 1.000 zorgvuldig door mensen geannoteerde instanties, verdeeld over 10 categorieën en 32 subtaken. Het is gestructureerd rond twee kernassen: 1) Begrip Verbetert Generatie, wat redenering vereist (bijv. gezond verstand, logica) om beeldgeneratie te sturen, en 2) Generatie Verbetert Begrip, wat mentale simulatie of reconstructie vereist (bijv. van getransformeerde of verstoorde visuele inputs) om redeneertaken op te lossen. Een belangrijke bijdrage is ons dubbele evaluatieprotocol, dat directe end-to-end beoordeling combineert met een diagnostische stapsgewijze evaluatie die taken ontleedt in afzonderlijke begrips- en generatiefasen. Dit protocol stelt ons in staat om precies te bepalen of prestatieknelpunten voortkomen uit tekortkomingen in kerncapaciteiten of uit een gebrek aan integratie daarvan. Door grootschalige evaluaties van 12 toonaangevende geünificeerde modellen en 6 gespecialiseerde baselines, constateren we dat huidige geünificeerde modellen nog steeds moeite hebben om effectieve synergie te bereiken, wat aangeeft dat architectonische unificatie alleen niet voldoende is. Deze resultaten benadrukken de noodzaak van nieuwe trainingsstrategieën en inductieve biases om het potentieel van geünificeerd modelleren volledig te ontsluiten.
We introduceren SANA-Video, een klein diffusiemodel dat efficiënt video's kan genereren met een resolutie tot 720x1280 en een duur van minutenlengte. SANA-Video synthetiseert hoogwaardige, hoogresolutie en lange video's met een sterke tekst-video-uitlijning op een opmerkelijk hoge snelheid, inzetbaar op een RTX 5090 GPU. Twee kernontwerpen zorgen voor onze efficiënte, effectieve en lange videogeneratie: (1) Lineaire DiT: We maken gebruik van lineaire aandacht als kernoperatie, wat efficiënter is dan standaard aandacht gezien het grote aantal tokens dat wordt verwerkt bij videogeneratie. (2) Constant-Memory KV-cache voor Block Lineaire Aandacht: we ontwerpen een bloksgewijze autoregressieve aanpak voor lange videogeneratie door een constant-geheugenstatus te gebruiken, afgeleid van de cumulatieve eigenschappen van lineaire aandacht. Deze KV-cache biedt de Lineaire DiT een globale context tegen vaste geheugenkosten, waardoor de behoefte aan een traditionele KV-cache wordt geëlimineerd en efficiënte, minutenlange videogeneratie mogelijk wordt. Daarnaast onderzoeken we effectieve datafilters en modeltrainingsstrategieën, waardoor de trainingskosten worden beperkt tot 12 dagen op 64 H100 GPU's, wat slechts 1% is van de kosten van MovieGen. Gezien de lage kosten behaalt SANA-Video een competitieve prestaties vergeleken met moderne state-of-the-art kleine diffusiemodellen (bijv. Wan 2.1-1.3B en SkyReel-V2-1.3B) terwijl het 16x sneller is in gemeten latentie. Bovendien kan SANA-Video worden ingezet op RTX 5090 GPU's met NVFP4-precisie, waardoor de inferentiesnelheid voor het genereren van een 5 seconden durende 720p-video wordt versneld van 71s naar 29s (2,4x versnelling). Kortom, SANA-Video maakt kosteneffectieve, hoogwaardige videogeneratie mogelijk.
Diffusie-taalmmodellen (DLM's) hebben een sterke theoretische efficiëntie, maar worden beperkt door vaste-lengte-decodering en incompatibiliteit met key-value (KV)-caches. Block-diffusie vermindert deze problemen, maar handhaaft nog steeds een vaste blokgrootte en vereist kostbare training. Wij introduceren Next Sequence Prediction (NSP), dat next-token- en next-block-predictie verenigt, waardoor het model adaptief de generatielengte bij elke stap kan bepalen. Wanneer de lengte vastgesteld is op 1, reduceert NSP tot standaard next-token-predictie. Gebaseerd op NSP, stellen wij het Sequential Diffusion Language Model (SDLM) voor, dat vooraf getrainde autoregressieve taalmmodellen (ALM's) tegen minimale kosten kan aanpassen. Specifiek voert SDLM diffusie-inferentie uit binnen maskerblokken van vaste grootte, maar decodeert dynamisch opeenvolgende subreeksen op basis van modelvertrouwen, waardoor KV-cache-compatibiliteit behouden blijft en de robuustheid tegen variërende onzekerheid en semantiek over de reeks verbetert. Experimenten tonen aan dat SDLM sterke autoregressieve basislijnen evenaart of overtreft met slechts 3,5M trainingsvoorbeelden, terwijl het een 2,1 keer hogere doorvoersnelheid bereikt dan Qwen-2.5. Opmerkelijk is dat het SDLM-32B-model nog meer uitgesproken efficiëntiewinsten oplevert, wat het sterke schaalbaarheidspotentieel van ons modelleerparadigma aantoont. Projectpagina en codes: https://github.com/OpenGVLab/SDLM
AI-wetenschappers ontwikkelen computationele systemen die dienen als collaboratieve partners in ontdekkingen. Deze systemen blijven moeilijk te bouwen omdat ze op maat gemaakt zijn, gebonden zijn aan rigide workflows en ontbreken in gedeelde omgevingen die tools, data en analyses integreren in een gemeenschappelijk ecosysteem. In de omics-wetenschap hebben verenigde ecosystemen onderzoek getransformeerd door interoperabiliteit, hergebruik en gemeenschapsgedreven ontwikkeling mogelijk te maken; AI-wetenschappers hebben vergelijkbare infrastructuur nodig. Wij presenteren ToolUniverse, een ecosysteem voor het bouwen van AI-wetenschappers vanuit elke taal of redeneermodel, open of gesloten. TOOLUNIVERSE standaardiseert hoe AI-wetenschappers tools identificeren en aanroepen, en integreert meer dan 600 machine learning-modellen, datasets, API's en wetenschappelijke pakketten voor data-analyse, kennisopvraging en experimenteel ontwerp. Het verfijnt automatisch tool-interfaces voor correct gebruik door AI-wetenschappers, creëert nieuwe tools vanuit natuurlijke taal beschrijvingen, optimaliseert iteratief tool-specificaties en combineert tools tot agent-gebaseerde workflows. In een casestudy over hypercholesterolemie werd ToolUniverse gebruikt om een AI-wetenschapper te creëren die een krachtig analoog van een medicijn identificeerde met gunstige voorspelde eigenschappen. De open-source ToolUniverse is beschikbaar op https://aiscientist.tools.
Grote Taalmodellen (LLMs) met redeneervermogen hebben state-of-the-art prestaties behaald op een breed scala aan taken. Ondanks het empirische succes blijven de taken en modelschalen waarop redeneren effectief wordt, evenals de trainings- en inferentiekosten, onderbelicht. In dit werk vertrouwen we op een raamwerk voor synthetische datadistillatie om een grootschalige, begeleide studie uit te voeren. We vergelijken Instructie Fine-Tuning (IFT) en redeneermodellen van verschillende groottes op een breed scala aan wiskundige en algemene taken, waarbij we zowel meerkeuze- als open-eindformats evalueren. Onze analyse toont aan dat redeneren de modelprestaties consistent verbetert, vaak evenaart of zelfs overtreft aanzienlijk grotere IFT-systemen. Opmerkelijk is dat, hoewel IFT Pareto-optimaal blijft wat betreft trainings- en inferentiekosten, redeneermodellen steeds waardevoller worden naarmate de modelschaal toeneemt, waardoor ze de prestatiegrenzen van IFT overstijgen op redeneringsintensieve en open-eindtaken.
Reinforcement learning gebaseerd op post-training is recentelijk naar voren gekomen als een krachtig paradigma voor het verbeteren van de uitlijning en redeneervaardigheden van multimodale grote taalmodellen (MLLMs). Hoewel visie-gerichte post-training cruciaal is voor het versterken van het intrinsieke begrip van visuele signalen door MLLMs, zijn de huidige post-trainingsparadigma's voornamelijk tekst-gericht, waarbij dichte visuele inputs alleen worden gebruikt om schaarse aanwijzingen te extraheren voor tekstgebaseerd redeneren. Er bestaan enkele benaderingen in deze richting, maar deze vertrouwen vaak nog steeds op tekst als een tussenliggende bemiddelaar of introduceren aanvullende visuele generatieve ontwerpen. In dit werk introduceren we Visual Jigsaw, een generiek zelf-gesuperviseerd post-trainingsraamwerk ontworpen om het visuele begrip in MLLMs te versterken. Visual Jigsaw is geformuleerd als een algemene ordeningstaak: visuele inputs worden opgedeeld, geschud, en het model moet de visuele informatie reconstrueren door de juiste permutatie in natuurlijke taal te produceren. Dit sluit natuurlijk aan bij reinforcement learning vanuit verifieerbare beloningen (RLVR), vereist geen aanvullende visuele generatieve componenten, en haalt zijn superviserende signaal automatisch op zonder enige annotaties. We concretiseren Visual Jigsaw over drie visuele modaliteiten, waaronder afbeeldingen, video's en 3D-data. Uitgebreide experimenten tonen substantiële verbeteringen in fijnmazige perceptie, temporeel redeneren en 3D-ruimtelijk begrip. Onze bevindingen benadrukken het potentieel van zelf-gesuperviseerde visie-gerichte taken in post-training van MLLMs en streven ernaar om verder onderzoek naar visie-gerichte pretext-ontwerpen te inspireren. Projectpagina: https://penghao-wu.github.io/visual_jigsaw/
Hoewel diffusie-taalmmodellen (DLMs) een veelbelovend alternatief bieden voor autoregressieve modellen (ARs), lijden bestaande open-source DLMs onder hoge inferentielatentie. Dit knelpunt wordt voornamelijk veroorzaakt door de kwadratische complexiteit van de aandacht (attention) ten opzichte van de contextlengte bij het berekenen van alle query-key paren. Intuïtief is een natuurlijke strategie om deze complexiteit te verminderen, het beperken van de aandacht tot sparse patronen die alleen de meest relevante verbindingen behouden. Dergelijke benaderingen zijn goed ingeburgerd in ARs, waar de aandacht vaste en duidelijk gedefinieerde sparse patronen volgt. In DLMs observeren we echter verschillende sparse gedragingen: (1) aandachtspatronen variëren tussen heads, (2) aandachtspatronen in elke head blijven sterk vergelijkbaar over de denoising-stappen heen, en (3) vroege denoising-stappen zijn cruciaal voor de generatie. Deze bevindingen maken sparse aandachtmethoden die zijn ontworpen voor ARs grotendeels ongeschikt voor DLMs, omdat ze head-specifieke structuren niet vastleggen en het risico lopen de generatie te verslechteren wanneer ze worden toegepast in vroege denoising-stappen. Om deze uitdagingen aan te pakken, stellen we SparseD voor, een nieuwe sparse aandachtmethode voor DLMs. Gebruikmakend van de observaties, vereist SparseD slechts eenmalig het vooraf berekenen van head-specifieke sparse patronen, en hergebruikt deze over alle stappen heen. Dit voorkomt het opnieuw berekenen van sparse patronen bij elke denoising-stap. Tegelijkertijd gebruikt SparseD volledige aandacht in de vroege stappen, en schakelt later over naar sparse aandacht om de generatiekwaliteit te behouden. Samen maken deze SparseD tot een praktische en efficiënte oplossing voor het inzetten van DLMs in lang-context toepassingen. Experimentele resultaten tonen aan dat SparseD versnelling zonder verlies bereikt, met een snelheidsverbetering tot 1,50 keer ten opzichte van FlashAttention bij een contextlengte van 64k met 1.024 denoising-stappen.
Vision language models (VLMs) bereiken een geïntegreerd model van afbeeldingen en tekst, waardoor ze complexe taken in de echte wereld kunnen uitvoeren door middel van waarneming, planning en redeneren. Onder deze taken is redeneren bijzonder representatief, waarbij wiskundig redeneren als een prominent voorbeeld dient. Het benadrukt het hoogwaardige vermogen van VLMs om wiskundige informatie in afbeeldingen te begrijpen en geavanceerd redeneren uit te voeren. Recentelijk zijn er tal van visuele wiskundige redeneerbenchmarks voorgesteld, maar deze zijn vaak beperkt tot geometrie, missen dekking van wiskundige woordproblemen en beoordelen zelden redeneren over meerdere afbeeldingen. Om deze lacunes aan te pakken, introduceren we GSM8K-V, een puur visuele multi-image wiskundige redeneerbenchmark. GSM8K-V is opgebouwd door elk voorbeeld uit de veelgebruikte tekstgebaseerde GSM8K systematisch om te zetten in visuele vorm. Door middel van een zorgvuldig ontworpen geautomatiseerde afbeeldingsgeneratiepijplijn gecombineerd met nauwgezette menselijke annotatie, hebben we 1.319 hoogwaardige voorbeelden samengesteld. We evalueren een breed scala aan open-source en closed-source modellen op GSM8K-V. De resultaten tonen aan dat hoewel bestaande VLMs bijna verzadigde prestaties hebben op tekstgebaseerde GSM8K, er nog aanzienlijke ruimte voor verbetering is op GSM8K-V. Het best presterende model, Gemini-2.5-Pro, behaalt bijvoorbeeld 95,22% nauwkeurigheid op GSM8K, maar slechts 46,93% op GSM8K-V. We voeren een uitgebreide analyse uit van GSM8K-V, waarbij we de beperkingen van huidige modellen onderzoeken, evenals mogelijke richtingen voor verbetering. GSM8K-V biedt een nieuw perspectief op visueel wiskundig redeneren en stelt een benchmark vast om de ontwikkeling van robuustere en generaliseerbaardere VLMs te begeleiden.
RL met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLM's). Huidige methoden vertrouwen voornamelijk op beleidsoptimalisatiekaders zoals PPO en GRPO, die een gegeneraliseerde beleidsiteratie volgen die afwisselt tussen het evalueren van de waarde van het huidige beleid en het verbeteren van het beleid op basis van evaluatie. Hoewel effectief, lijden ze vaak aan trainingsinstabiliteit en diversiteitsverval, wat complexe heuristische trucs en zorgvuldige afstemming vereist. We observeren dat standaard RLVR in wiskundig redeneren kan worden geformaliseerd als een gespecialiseerd eindig-horizon Markov Beslissingsproces met deterministische toestandsovergangen, boomstructuur-dynamiek en binaire terminale beloningen. Hoewel grootschalig, is de onderliggende structuur eenvoudiger dan algemene besturingsinstellingen waarvoor populaire RL-algoritmen (bijv. PPO) zijn ontwikkeld, wat suggereert dat verschillende geavanceerde technieken in bestaande methoden kunnen worden verminderd of zelfs weggelaten. Op basis van dit inzicht bewijzen we een verrassend resultaat: de optimale actie kan worden hersteld uit de Q-functie van een vast uniform willekeurig beleid, waardoor de gegeneraliseerde beleidsiteratielus en de bijbehorende heuristieken worden omzeild. We introduceren Random Policy Valuation for Diverse Reasoning (ROVER) om dit principe om te zetten in een praktisch en schaalbaar algoritme voor LLM-wiskundig redeneren, een minimalistisch maar zeer effectief RL-methode die acties bemonstert vanuit een softmax over deze uniform-beleid Q-waarden. ROVER behoudt diversiteit gedurende de training, waardoor een voortdurende verkenning van meerdere geldige paden mogelijk is. Over meerdere basismodellen en standaard wiskundige redeneerbenchmarks heen toont ROVER superieure prestaties in zowel kwaliteit (+8,2 op pass@1, +16,8 op pass@256) als diversiteit (+17,6\%), ondanks de radicale vereenvoudiging vergeleken met sterke, gecompliceerde bestaande methoden.
Instructiegestuurd beeldbewerken heeft opmerkelijke vooruitgang geboekt, maar huidige modellen kampen nog steeds met uitdagingen bij complexe instructies en vereisen vaak meerdere voorbeelden om een gewenst resultaat te bereiken. Reinforcement Learning (RL) biedt een veelbelovende oplossing, maar de adoptie ervan in beeldbewerking is ernstig belemmerd door het ontbreken van een hoogwaardig, efficiënt beloningssignaal. In dit werk presenteren we een uitgebreide methodologie om deze barrière te overwinnen, gericht op de ontwikkeling van een state-of-the-art, gespecialiseerd beloningsmodel. We introduceren eerst EditReward-Bench, een uitgebreide benchmark om beloningsmodellen systematisch te evalueren op bewerkingskwaliteit. Op basis van deze benchmark ontwikkelen we EditScore, een reeks beloningsmodellen (7B-72B) voor het evalueren van de kwaliteit van instructiegestuurde beeldbewerking. Door zorgvuldige datacuratie en filtering komt EditScore effectief overeen met de prestaties van het leren van propriëtaire VLMs. Bovendien overtreft, in combinatie met een effectieve zelf-ensemble strategie die is afgestemd op de generatieve aard van EditScore, onze grootste variant zelfs GPT-5 in de benchmark. We tonen vervolgens aan dat een hoogwaardig beloningsmodel de sleutel is om online RL voor beeldbewerking mogelijk te maken. Onze experimenten laten zien dat, terwijl zelfs de grootste open-source VLMs niet in staat zijn een effectief leersignaal te bieden, EditScore efficiënte en robuuste beleidsoptimalisatie mogelijk maakt. Door ons framework toe te passen op een sterk basismodel, OmniGen2, resulteert dit in een uiteindelijk model dat een aanzienlijke en consistente prestatieverbetering laat zien. Over het algemeen biedt dit werk het eerste systematische pad van benchmarking naar beloningsmodellering naar RL-training in beeldbewerking, en toont het aan dat een hoogwaardig, domeingespecialiseerd beloningsmodel de sleutel is om het volledige potentieel van RL in dit domein te ontsluiten.
Deep Research Agents (DRA's) kunnen autonoom complexe onderzoeken uitvoeren en uitgebreide rapporten genereren, wat hun sterke potentieel in de praktijk aantoont. Bestaande evaluaties zijn echter voornamelijk gebaseerd op gesloten benchmarks, terwijl open-ended deep research benchmarks schaars blijven en doorgaans gepersonaliseerde scenario's verwaarlozen. Om deze kloof te overbruggen, introduceren we Personalized Deep Research Bench, de eerste benchmark voor het evalueren van personalisatie in DRA's. Deze koppelt 50 diverse onderzoeks taken uit 10 domeinen aan 25 authentieke gebruikersprofielen die gestructureerde persona-kenmerken combineren met dynamische, real-world contexten, wat resulteert in 250 realistische gebruiker-taakvragen. Om de systeemprestaties te beoordelen, stellen we het PQR Evaluatie Framework voor, dat gezamenlijk (P) Personalisatie Afstemming, (Q) Inhoudskwaliteit en (R) Feitelijke Betrouwbaarheid meet. Onze experimenten met een reeks systemen belichten de huidige mogelijkheden en beperkingen bij het omgaan met gepersonaliseerd diepgaand onderzoek. Dit werk legt een rigoureuze basis voor de ontwikkeling en evaluatie van de volgende generatie echt gepersonaliseerde AI-onderzoeksassistenten.
Het sturen van grote taalmodellen (LLM) is naar voren gekomen als een veelbelovend paradigma voor het beheersen van modelgedrag tijdens inferentie door gerichte manipulatie van verborgen toestanden, wat een lichtgewicht alternatief biedt voor kostbare hertraining. Bestaande stuurframeworks kampen echter met kritieke beperkingen: computationele inefficiëntie, beperkte uitbreidbaarheid en beperkte functionaliteit die zowel de onderzoeksvooruitgang als de praktische implementatie belemmeren. Wij presenteren EasySteer, een uniform framework voor hoogwaardig, uitbreidbaar LLM-sturen, gebouwd op vLLM. Ons systeem beschikt over een modulaire architectuur met plug-and-play interfaces voor zowel analyse- als leergebaseerde methoden, fijnmazige parametercontrole, vooraf berekende stuurvectoren voor acht toepassingsdomeinen en een interactief demonstratiesysteem. Door diepe integratie met de geoptimaliseerde inferentie-engine van vLLM behaalt EasySteer een snelheidsverbetering van 5,5 tot 11,4 keer ten opzichte van bestaande frameworks. Uitgebreide experimenten tonen de effectiviteit aan bij het verminderen van overdenken, het terugdringen van hallucinaties en andere belangrijke toepassingen. EasySteer transformeert sturen van een onderzoeksmethode naar een productieklare functionaliteit, en legt daarmee de cruciale infrastructuur voor inzetbare, beheersbare taalmodellen.
Recente vooruitgang in tekst-naar-video-generatie heeft steeds realistischer en diverser materiaal opgeleverd, maar het evalueren van dergelijke video's blijft een fundamentele uitdaging vanwege hun veelzijdige aard, die visuele kwaliteit, semantische uitlijning en fysieke consistentie omvat. Bestaande evaluatoren en beloningsmodellen zijn beperkt tot enkele ondoorzichtige scores, missen interpreteerbaarheid of bieden alleen grove analyses, waardoor ze onvoldoende zijn om de uitgebreide aard van videokwaliteitsbeoordeling vast te leggen. Wij presenteren VideoScore2, een multidimensionaal, interpreteerbaar en mensgericht raamwerk dat expliciet visuele kwaliteit, tekst-naar-video-uitlijning en fysieke/gezond-verstand-consistentie evalueert, terwijl het gedetailleerde redeneersporen produceert. Ons model is getraind op een grootschalige dataset VideoFeedback2, die 27.168 door mensen geannoteerde video's bevat met zowel scores als redeneersporen over drie dimensies, met behulp van een tweestaps pijplijn van supervised fine-tuning gevolgd door reinforcement learning met Group Relative Policy Optimization (GRPO) om de analytische robuustheid te vergroten. Uitgebreide experimenten tonen aan dat VideoScore2 superieure prestaties bereikt met een nauwkeurigheid van 44,35 (+5,94) op onze domeinspecifieke benchmark VideoScore-Bench-v2 en een gemiddelde prestatie van 50,37 (+4,32) over vier domeinoverstijgende benchmarks (VideoGenReward-Bench, VideoPhy2, etc.), terwijl het interpreteerbare beoordelingen biedt die de kloof tussen evaluatie en beheerbare generatie overbruggen door effectieve beloningsmodellering voor Best-of-N sampling. Projectpagina: https://tiger-ai-lab.github.io/VideoScore2/
Streaming video-generatie, als een fundamenteel onderdeel van interactieve wereldmodellen en neurale game-engines, heeft als doel hoogwaardige, low-latency en temporeel coherente lange videostreams te genereren. De meeste bestaande methoden kampen echter met ernstige foutaccumulatie, wat vaak leidt tot een aanzienlijke verslechtering van de gegenereerde videostreams over langere tijdsperioden. Wij ontwerpen Rolling Forcing, een nieuwe techniek voor videogeneratie die het mogelijk maakt om lange videostreams te genereren met minimale foutaccumulatie. Rolling Forcing omvat drie nieuwe ontwerpen. Ten eerste, in plaats van iteratief individuele frames te bemonsteren, wat de foutpropagatie versnelt, ontwerpen we een gezamenlijk denoisingschema dat meerdere frames tegelijkertijd denoiseert met progressief toenemende ruisniveaus. Dit ontwerp versoepelt de strikte causaliteit tussen aangrenzende frames, waardoor foutgroei effectief wordt onderdrukt. Ten tweede introduceren we het attention sink-mechanisme in de taak van lange-termijn videostreamgeneratie, waardoor het model de sleutelwaardestatus van initiële frames kan behouden als een globaal contextanker, wat de langetermijn globale consistentie versterkt. Ten derde ontwerpen we een efficiënt trainingsalgoritme dat few-step distillatie mogelijk maakt over sterk uitgebreide denoisingvensters. Dit algoritme werkt op niet-overlappende vensters en vermindert exposure bias die is geconditioneerd op zelf-gegenereerde geschiedenissen. Uitgebreide experimenten tonen aan dat Rolling Forcing real-time streaminggeneratie van video’s van meerdere minuten mogelijk maakt op een enkele GPU, met aanzienlijk verminderde foutaccumulatie.
We presenteren HunyuanImage 3.0, een native multimodale model dat multimodale begrip en generatie verenigt binnen een autoregressief raamwerk, waarbij de beeldgeneratiemodule publiekelijk beschikbaar is. De realisatie van HunyuanImage 3.0 berust op verschillende cruciale componenten, waaronder zorgvuldige datacuratie, geavanceerde architectuurontwerpen, een native Chain-of-Thoughts-schema, progressieve modelpretraining, agressieve modelposttraining en een efficiënte infrastructuur die grootschalige training en inferentie mogelijk maakt. Met deze vooruitgang hebben we succesvol een Mixture-of-Experts (MoE)-model getraind dat in totaal meer dan 80 miljard parameters omvat, waarbij 13 miljard parameters per token worden geactiveerd tijdens inferentie, wat het tot het grootste en krachtigste open-source beeldgeneratieve model tot op heden maakt. We hebben uitgebreide experimenten uitgevoerd en de resultaten van automatische en menselijke evaluatie van tekst-beeld-alignment en visuele kwaliteit tonen aan dat HunyuanImage 3.0 wedijvert met eerdere state-of-the-art modellen. Door de code en gewichten van HunyuanImage 3.0 vrij te geven, streven we ernaar de gemeenschap in staat te stellen nieuwe ideeën te verkennen met een state-of-the-art foundationmodel, wat een dynamisch en levendig multimodaal ecosysteem bevordert. Alle open source-assets zijn publiekelijk beschikbaar op https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
Reinforcement Learning (RL) is uitgegroeid tot een populair trainingsparadigma, vooral in combinatie met redeneermodellen. Hoewel effectief, richt het zich voornamelijk op het genereren van antwoorden en ontbreekt het mechanismen om kritiek of reflectie expliciet te bevorderen. Verschillende recente studies, zoals Critique-Fine-Tuning (CFT) en Critique-Guided-Distillation (CGD), hebben de voordelen aangetoond van het expliciet aanleren van kritiek aan LLM's. Geïnspireerd door deze studies stellen we Critique Reinforcement Learning (CRL) voor, waarbij het model de taak krijgt om een kritiek te genereren voor een gegeven (vraag, oplossing)-paar. De beloning wordt uitsluitend bepaald door of het uiteindelijke oordeellabel c in {Waar, Onwaar} van de gegenereerde kritiek overeenkomt met het grondwaarheidsoordeel c^*. Op basis hiervan introduceren we Critique-Coder, dat wordt getraind op een combinatie van RL en CRL door 20% van de standaard RL-data te vervangen door CRL-data. We fine-tunen meerdere modellen (Critique-Coder) en evalueren ze op verschillende benchmarks om hun voordelen ten opzichte van RL-only modellen aan te tonen. We laten zien dat Critique-Coder consistent beter presteert dan RL-only baselines op alle geëvalueerde benchmarks. Opmerkelijk is dat onze Critique-Coder-8B meer dan 60% kan bereiken op LiveCodeBench (v5), wat beter is dan andere redeneermodellen zoals DeepCoder-14B en GPT-o1. Naast codegeneratie toont Critique-Coder ook verbeterde algemene redeneervaardigheden, zoals blijkt uit de betere prestaties op logische redeneertaken uit de BBEH-dataset. Dit geeft aan dat de toepassing van CRL op coderingsdatasets de algemene redeneer- en kritiekvaardigheden versterkt, die overdraagbaar zijn naar een breed scala aan taken. Daarom geloven we dat CRL een uitstekende aanvulling is op standaard RL voor LLM-redenering.
Wij stellen dat toekomstige modellen moeten leren van natuurlijke menselijke interactie om voortdurende modelverbetering en veelzijdige afstemming te bereiken. Huidige conversatiemodellen worden afgestemd met behulp van vooraf geannoteerde, door experts gegenereerde menselijke feedback. In dit werk introduceren we Reinforcement Learning from Human Interaction (RLHI), een paradigma dat rechtstreeks leert uit gebruikersgesprekken in de praktijk. We ontwikkelen twee complementaire methoden: (1) RLHI met gebruikersgestuurde herschrijvingen, die onbevredigende modeluitvoer herziet op basis van natuurlijketaal vervolgreacties van gebruikers, en (2) RLHI met gebruikersgebaseerde beloningen, dat leert via een beloningsmodel dat is afgestemd op kennis van de langetermijninteractiegeschiedenis van de gebruiker (ook wel persona genoemd). Samen koppelen deze methoden langetermijngebruikerspersona's aan voorkeuren op gespreksniveau via persona-geconditioneerde voorkeursoptimalisatie. Getraind op gesprekken afkomstig uit WildChat, presteren beide RLHI-varianten beter dan sterke baseline-modellen in personalisatie en instructievolging, en vergelijkbare feedback verbetert de prestaties op redeneerbenchmarks. Deze resultaten suggereren dat organische menselijke interactie schaalbare en effectieve supervisie biedt voor gepersonaliseerde afstemming.
We bestuderen het probleem van het toepassen van 3D Foundation Models (3DFMs) op dichte Novel View Synthesis (NVS). Ondanks aanzienlijke vooruitgang in Novel View Synthesis, aangedreven door NeRF en 3DGS, blijven huidige benaderingen afhankelijk van nauwkeurige 3D-attributen (bijv. cameraposities en puntenwolken) verkregen via Structure-from-Motion (SfM), wat vaak traag en kwetsbaar is bij opnames met weinig textuur of weinig overlap. Recente 3DFMs tonen een versnelling van meerdere ordes van grootte ten opzichte van de traditionele pijplijn en groot potentieel voor online NVS. Maar het meeste van de validatie en conclusies is beperkt tot sparse-view instellingen. Ons onderzoek toont aan dat het naïef opschalen van 3DFMs naar dichte views twee fundamentele barrières tegenkomt: een dramatisch toenemende VRAM-belasting en onvolmaakte uitvoer die de initialisatiegevoelige 3D-training verslechtert. Om deze barrières aan te pakken, introduceren we VGGT-X, dat een geheugenefficiënte VGGT-implementatie omvat die schaalt naar 1.000+ afbeeldingen, een adaptieve globale uitlijning voor VGGT-uitvoerverbetering en robuuste 3DGS-trainingspraktijken. Uitgebreide experimenten tonen aan dat deze maatregelen de kwaliteitskloof met COLMAP-geïnitialiseerde pijplijnen aanzienlijk verkleinen, wat resulteert in state-of-the-art resultaten in dichte COLMAP-vrije NVS en pose-estimatie. Daarnaast analyseren we de oorzaken van de resterende kloof met COLMAP-geïnitialiseerde rendering, wat inzichten biedt voor de toekomstige ontwikkeling van 3D foundation models en dichte NVS. Onze projectpagina is beschikbaar op https://dekuliutesla.github.io/vggt-x.github.io/.
Grote taalmodellen (LLMs) blinken uit in algemeen wiskundig redeneren, maar falen catastrofaal op gespecialiseerde technische wiskunde. In draadloze communicatie, waar problemen een precieze manipulatie vereisen van informatie-theoretische grenzen, optimalisatiebeperkingen en signaalverwerkingsformuleringen, hebben zelfs de meest geavanceerde modellen moeite om competente prestaties te leveren. Wij presenteren WirelessMathLM, dat aantoont dat compacte modellen (0,5B-7B parameters) veel grotere modellen kunnen evenaren of overtreffen door domeinspecifieke reinforcement learning met verifieerbare beloningen. Onze belangrijkste inzicht is dat problemen in draadloze wiskunde een unieke eigenschap hebben—verifieerbare correctheid—die effectieve reinforcement learning mogelijk maakt zonder menselijke feedback. We construeren WirelessMathBench-XL, een uitgebreide benchmark van 4.027 problemen uit 970 papers. Met behulp van Group Relative Policy Optimization (GRPO) met binaire verificatiebeloningen trainen we modellen direct vanuit basischeckpoints zonder gesuperviseerde warm-start. Ons 7B-model behaalt 39,5% nauwkeurigheid op WirelessMathBench-XL, wat GPT-4o (40,4%) benadert terwijl het ongeveer 100 keer minder parameters gebruikt dan DeepSeek-R1 (671B, 57,4%). Opmerkelijk is dat GRPO-training de prestaties bijna verdubbelt over alle modelschalen (0,5B +11%, 3B +103%, 7B +81%), met positieve transfer naar algemene wiskundige benchmarks—onze modellen winnen gemiddeld +8,4 punten op MATH, Minerva-Math, OlympiadBench, AMC en AIME zonder enige training op deze taken.
Leert RL LLMs echt nieuwe vaardigheden aan, of activeert het slechts bestaande? Deze vraag ligt aan de kern van de lopende debatten over de rol van RL in de post-training van LLMs. Aan de ene kant kunnen sterke empirische resultaten worden behaald met RL, zelfs zonder voorafgaande supervised finetuning; aan de andere kant beweren critici dat RL weinig bijdraagt behalve het herwegen van bestaande redeneerstrategieën. Dit werk levert concreet bewijs dat LLMs tijdens RL echt nieuwe vaardigheden kunnen verwerven door bestaande vaardigheden te combineren, wat een van de centrale mechanismen weerspiegelt waarmee mensen nieuwe cognitieve vaardigheden verwerven. Om datavervuiling en andere verstorende factoren te beperken, en om precieze controle over de taakcomplexiteit mogelijk te maken, ontwikkelen we een synthetisch kader voor ons onderzoek. Specifiek definiëren we een vaardigheid als het vermogen om de uitvoer van een stringtransformatiefunctie f(x) af te leiden gegeven x. Wanneer een LLM f en g al heeft geleerd vóór RL, tonen onze experimenten aan dat RL het in staat stelt om onbekende composities ervan te leren, zoals h(x)=g(f(x)). Bovendien generaliseert dit compositieve vermogen naar moeilijkere problemen, zoals composities van >2 functies die niet zijn gezien tijdens de RL-training. Verrassend genoeg laten onze experimenten zien dat de compositieve vaardigheid die is verworven op een bron-taak, wordt overgedragen naar een ander doel-taak. Deze overdracht vindt plaats zelfs zonder compositieve training op het doel, waarbij alleen voorkennis van de atomische vaardigheden van het doel vereist is. Onze kwalitatieve analyse toont aan dat RL fundamenteel de redeneergedragingen van de modellen verandert. In tegenstelling hiermee levert next-token training met dezelfde data geen van deze bevindingen op. Onze systematische experimenten bieden nieuwe inzichten in het leren van LLMs, wat suggereert dat het waardevol is om eerst basismodellen te bouwen met basisvaardigheden, en vervolgens RL te gebruiken om geavanceerde, generaliseerbare vaardigheden aan te moedigen voor complexe problemen.
Recente doorbraken in grote taalmodellen (LLMs) voor redeneertaken zijn sterk afhankelijk van enorme, hoogwaardige datasets—meestal door mensen geannoteerd en daardoor moeilijk op te schalen. Hoewel datasynthese of -distillatie een veelbelovend alternatief biedt, kampen bestaande methoden met inconsistente data-kwaliteit en een onvermogen om dynamisch aan te passen aan de evoluerende capaciteiten van het model, wat leidt tot suboptimale trainingssignalen. Om deze beperkingen aan te pakken, introduceren we Socratic-Zero, een volledig autonoom framework dat hoogwaardige trainingsdata genereert uit minimale seed-voorbeelden via de co-evolutie van drie agents: de Leraar, de Oplosser en de Generator. De Oplosser verfijnt continu zijn redenering door te leren van voorkeursfeedback op zowel succesvolle als mislukte trajecten; de Leraar ontwerpt adaptief steeds uitdagendere vragen op basis van de zwaktes van de Oplosser; en de Generator destilleert de vraagontwerpstrategie van de Leraar om schaalbare, hoogwaardige curriculumgeneratie mogelijk te maken. Dit gesloten systeem produceert een zelfverbeterend curriculum—zonder dat bestaande taken of labels nodig zijn. Opmerkelijk is dat, startend met slechts 100 seed-vragen, onze Socratic-Solver-8B een gemiddelde winst van +20,2 procentpunten behaalt ten opzichte van eerdere datasynthesemethoden over zeven wiskundige redeneerbenchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva en GSM8K), met consistente verbeteringen op zowel Qwen3- als GLM4-serie modellen. Nog verrassender is dat synthetische data van Socratic-Generator-32B student-LLMs in staat stelt om superieure prestaties te behalen vergeleken met andere state-of-the-art (SOTA) commerciële LLMs op deze benchmarks, waaronder Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 en Claude-4.1-Opus.
Data-analytische agents komen naar voren als een belangrijke katalysator voor geautomatiseerde wetenschappelijke ontdekking en voor de visie van Innovating AI. Huidige benaderingen vertrouwen echter sterk op prompt engineering over propriëtaire modellen, terwijl open-source modellen moeite hebben om om te gaan met diverse-formaat, grootschalige gegevensbestanden en langetermijn, meerstaps redenering die real-world analytics vereist. Dit artikel introduceert DataMind, een schaalbare gegevenssynthese en agent-trainingsmethode ontworpen om generalistische data-analytische agents te bouwen. DataMind adresseert drie belangrijke uitdagingen bij het bouwen van open-source data-analytische agents, waaronder onvoldoende gegevensbronnen, onjuiste trainingsstrategie en onstabiele code-gebaseerde meerronduitvoering. Concreet past DataMind 1) een fijnmazige taaktaxonomie en een recursieve makkelijk-naar-moeilijk taaksamenstellingsmechanisme toe om de diversiteit en moeilijkheidsgraad van gesynthetiseerde queries te vergroten; 2) een kennis-augmented trajectbemonsteringsstrategie gevolgd door modelgebaseerde en regelgebaseerde filtering; 3) een dynamisch aanpasbaar trainingsdoel dat zowel SFT- als RL-verliezen combineert; 4) een geheugenzuinig en stabiel code-gebaseerd meerronduitvoeringsframework. Gebaseerd op DataMind, hebben we DataMind-12K samengesteld, een hoogwaardige trajectset die diverse domeinen, taakcategorieën en gegevensbestandsformats omvat voor data-analytische taken. Getraind op DataMind-12K, behaalt onze DataMind-14B state-of-the-art met een gemiddelde score van 71.16% op meerdere data-analysebenchmarks, wat beter is dan de sterkste propriëtaire baselines DeepSeek-V3.1 en GPT-5. Onze DataMind-7B presteert ook het beste onder alle open-source modellen met een score van 68.10%. We nemen ook enkele empirische inzichten op die we hebben opgedaan tijdens onze verkennende proeven in de analyse-experimenten, met als doel bruikbare inzichten te bieden over agent-training voor de gemeenschap. We zullen DataMind-12K en DataMind-7B,14B vrijgeven voor toekomstig onderzoek door de gemeenschap.
Ruimtelijke intelligentie omvat een rijk scala aan vaardigheden, waaronder het visualiseren en transformeren van vormen, het mentaal roteren van objecten, het beoordelen van relatieve posities en containment, en het schatten van numerositeit. Het blijft echter een kritieke en onopgeloste uitdaging voor Multimodale Grote Taalmodellen (MLLMs). Om deze kloof te overbruggen, stellen we voor om het oplossen van Euclidische meetkundeproblemen als een surrogaattaak te behandelen. Specifiek hebben we zorgvuldig een gecureerde multimodale dataset samengesteld, genaamd Euclid30K, die ongeveer 30K vlakke en ruimtelijke meetkundeproblemen bevat. Om het model in staat te stellen Euclidische principes uit deze meetkundeproblemen te verwerven en toe te passen, hebben we Group Relative Policy Optimization (GRPO) gebruikt om de Qwen2.5VL-familie en RoboBrain2.0-familie te finetunen, waardoor de modellen worden geïnspireerd om vormen te identificeren, te tellen, entiteiten te relateren en meerstaps deductief redeneren uit te voeren met behulp van Euclidische principes. Onze experimenten tonen aan dat de resulterende modellen aanzienlijke zero-shot verbeteringen behalen op vier ruimtelijke redeneerbenchmarks (Super-CLEVR, Omni3DBench, VSI-Bench en MindCube) zonder enige taakspecifieke aanpassingen. Opmerkelijk is dat na training op Euclid30K de gemiddelde VSI-Bench nauwkeurigheid van alle geëvalueerde modellen steeg van 34,5% naar 40,5%, een verbetering van 5,5 procentpunten. Onder hen behaalt RoboBrain2.0-Euclid-7B een nauwkeurigheid van 49,6%, waarmee het het vorige state-of-the-art model, Spatial-MLLM, overtreft. Voor zover wij weten, is dit de eerste systematische studie die aantoont dat geometrie-gerichte finetuning vision-language modellen breed overdraagbare ruimtelijke vaardigheden kan bieden. Code en de Euclid30K dataset zijn te vinden op https://zgca-ai4edu.github.io/Euclids_Gift.
Visuele personalisatie is essentieel in gebruikersgerichte AI-systemen zoals slimme huizen en gezondheidszorg, waar het afstemmen van modelgedrag op gebruikersgerichte concepten van cruciaal belang is. Recente grote Vision-Language Models (VLMs), ondanks hun brede toepasbaarheid, blijven echter onderbelicht in hun vermogen om zich aan te passen aan individuele gebruikers. In dit artikel introduceren we MMPB, de eerste uitgebreide benchmark voor het evalueren van VLMs op personalisatie. MMPB bestaat uit 10k afbeelding-queryparen en omvat 111 personaliseerbare concepten in vier categorieën: mensen, dieren, objecten en personages, waarbij de mensencategorie is verrijkt met voorkeurgestuurde queries. We structureren personalisatie in drie hoofdtaaktypen, elk gericht op een ander sleuteleigenschap van VLMs. Met behulp van 23 veelgebruikte VLMs, waaronder zowel open- als closed-source modellen, evalueren we de personalisatieprestaties via een driestappenprotocol: conceptinjectie, meerzijdige dialoog en gepersonaliseerd bevragen. Onze bevindingen tonen aan dat de meeste VLMs (inclusief enkele closed-source modellen) moeite hebben met personalisatie, met name in het handhaven van consistentie tijdens dialogen, het omgaan met gebruikersvoorkeuren en het aanpassen aan visuele signalen. Onze analyse laat zien dat de uitdagingen in VLM-personalisatie (zoals weigeringsgedrag en langetermijncontextvergetelheid) aanzienlijke ruimte voor verbetering blootleggen. Door deze beperkingen te identificeren en een schaalbare benchmark aan te bieden, biedt MMPB waardevolle inzichten en een solide basis voor toekomstig onderzoek naar echt gepersonaliseerde multimodale AI. Projectpagina: aidaslab.github.io/MMPB
We presenteren MGM-Omni, een verenigde Omni LLM voor omnimodale interpretatie en expressieve, langetermijn spraakgeneratie. In tegenstelling tot gecascadeerde pijplijnen die spraaksynthese isoleren, neemt MGM-Omni een "brein-mond" ontwerp aan met een dual-track, token-gebaseerde architectuur die multimodale redenering netjes ontkoppelt van real-time spraakgeneratie. Dit ontwerp maakt efficiënte cross-modale interactie en low-latency, streaming spraakgeneratie mogelijk. Voor interpretatie maakt een verenigde trainingsstrategie in combinatie met een dual audio encoder-ontwerp langdurige audioperceptie mogelijk onder diverse akoestische omstandigheden. Voor generatie verkleint een chunk-gebaseerd parallel decodering schema de kloof tussen tekst- en spraaktokens, wat de inferentie versnelt en streaming zero-shot stemklonen ondersteunt met een stabiele klankkleur over langere periodes. In vergelijking met gelijktijdig werk bereikt MGM-Omni deze mogelijkheden met opmerkelijk data-efficiënte training. Uitgebreide experimenten tonen aan dat MGM-Omni bestaande open source modellen overtreft in het behouden van klankkleuridentiteit over langere sequenties, het produceren van natuurlijke en contextbewuste spraak, en het bereiken van superieure langdurige audio- en omnimodale interpretatie. MGM-Omni stelt een efficiënt, end-to-end paradigma in voor omnimodale interpretatie en controleerbare, gepersonaliseerde langetermijn spraakgeneratie.
Monoculaire Diepte Schatting (MDE) is een fundamentele taak binnen computervisie. Traditionele methoden worden beperkt door schaarste en kwaliteit van data, wat hun robuustheid belemmert. Om dit te overwinnen, stellen we BRIDGE voor, een RL-geoptimaliseerd diepte-naar-beeld (D2I) generatiekader dat meer dan 20M realistische en geometrisch nauwkeurige RGB-beelden synthetiseert, elk intrinsiek gekoppeld aan zijn grondwaarheid diepte, vanuit diverse bron dieptekaarten. Vervolgens trainen we ons diepteschattingsmodel op deze dataset, waarbij we een hybride supervisiestrategie toepassen die leraar pseudo-labels integreert met grondwaarheid diepte voor uitgebreide en robuuste training. Dit innovatieve data generatie- en trainingsparadigma stelt BRIDGE in staat om doorbraken te bereiken in schaal en domeindiversiteit, waarbij het consistent beter presteert dan bestaande state-of-the-art benaderingen, zowel kwantitatief als in het vastleggen van complexe scènedetails, waardoor algemene en robuuste dieptekenmerken worden bevorderd. Code en modellen zijn beschikbaar op https://dingning-liu.github.io/bridge.github.io/.
Tool-Integrated Reasoning (TIR) stelt grote taalmodellen (LLMs) in staat om hun interne redeneervermogen te verbeteren door externe tools te integreren. Modellen die TIR toepassen, vertonen echter vaak suboptimale gedragingen, zoals onvoldoende of excessief toolgebruik en overdenken na toolaanroepen. De uitdaging om LLMs aan te moedigen TIR efficiënt en accuraat uit te voeren, terwijl het redeneerproces wordt gestabiliseerd, blijft een open vraag. In dit artikel beginnen we met het onderzoeken van de impact van toolaanroepen op modelredenering vanuit het perspectief van informatie-entropie. Onze bevindingen geven aan dat de resultaten van toolaanroepen leiden tot een duidelijke verandering in de informatie-entropie van de daaropvolgende redenering, waarbij de totale entropie van de redeneerketen varieert op basis van het aantal toolaanroepen. Op basis van deze inzichten stellen we Tool-Light voor, een framework ontworpen om LLMs aan te moedigen TIR efficiënt en accuraat uit te voeren. Ons framework omvat datasetconstructie en meerfasige fine-tuning. Voor datasetconstructie gebruiken we continue zelfontwikkelde steekproeven met het gefinetunede model, waarbij zowel standaardsteekproeven als entropie-gestuurde steekproeven worden geïntegreerd. Daarnaast stellen we strikte criteria vast voor het selecteren van positief-negatieve paren tijdens de steekproefname. Het trainingsproces omvat een tweefasenbenadering, bestaande uit Supervised Fine-Tuning (SFT) en Self-Evolved Direct Preference Optimization (DPO). Experimentele resultaten op 10 datasets tonen de effectiviteit van Tool-Light aan, waarbij de efficiëntie van het model bij het uitvoeren van TIR-taken aanzienlijk wordt verbeterd.
Grote visueel-taalmodelen (LVLMs) behalen sterke prestaties op multimodale taken, maar vertrouwen vaak op hun taalprior (LP) — gememoriseerde tekstuele patronen uit de voorafgaande training — terwijl ze visueel bewijs onderbenutten. Eerdere analyses van LP baseren zich voornamelijk op input-output-probing, wat niet in staat is om de interne mechanismen te onthullen die bepalen wanneer en hoe visuele informatie het modelgedrag beïnvloedt. Om deze kloof te overbruggen, presenteren we de eerste systematische analyse van taalprior door de lens van chain-of-embedding, waarbij de laag-voor-laag representatiedynamiek binnen LVLMs wordt onderzocht. Onze analyse onthult een universeel fenomeen: elk model vertoont een Visueel Integratiepunt (VIP), een kritieke laag waarop visuele informatie betekenisvol de verborgen representaties begint te hervormen en het decoderen beïnvloedt. Op basis van deze observatie introduceren we de Total Visual Integration (TVI) schatter, die de representatieafstand voorbij het VIP aggregeert om te kwantificeren hoe sterk de visuele query de responsgeneratie beïnvloedt. Over 54 model-datasetcombinaties, verspreid over 9 hedendaagse LVLMs en 6 benchmarks, tonen we aan dat het VIP consistent naar voren komt en dat TVI betrouwbaar de sterkte van de taalprior voorspelt. Dit biedt een principieel toolkit voor het diagnosticeren en begrijpen van taalprior in LVLMs.
Langereeksverwerking is een cruciale capaciteit voor moderne grote taalmodellen. Het zelf-attentiemechanisme in de standaard Transformer-architectuur ondervindt echter ernstige computationele en geheugenknelpunten bij het verwerken van lange reeksen. Hoewel trainbare sparse-attentiemethoden een veelbelovende oplossing bieden, introduceren bestaande benaderingen zoals NSA overmatige extra parameters en verstoren ze het conventionele workflow van vooraf trainen op korte reeksen en finetunen op lange reeksen, wat resulteert in trage convergentie en moeilijkheden bij versnelling. Om deze beperkingen te overwinnen, introduceren we een dense-sparse switchable attention-framework, genaamd InfLLM-V2. InfLLM-V2 is een trainbare sparse-attentie die modellen naadloos aanpast van korte naar lange reeksen. Specifiek hergebruikt InfLLM-V2 dense-attentieparameters via parameterloze architectuurmodificatie, waardoor consistentie tussen korte en lange reeksverwerking wordt behouden. Daarnaast zorgt InfLLM-V2 voor computationele efficiëntie over alle reekslengtes, door dense-attentie te gebruiken voor korte invoer en soepel over te schakelen naar sparse-attentie voor lange reeksen. Om praktische versnelling te bereiken, introduceren we verder een efficiënte implementatie van InfLLM-V2 die de computationele overhead aanzienlijk vermindert. Onze experimenten op het gebied van lang-contextbegrip en chain-of-thought redeneren tonen aan dat InfLLM-V2 4 keer sneller is dan dense-attentie terwijl het respectievelijk 98,1% en 99,7% van de prestaties behoudt. Op basis van het InfLLM-V2-framework hebben we MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B) getraind en open-source gemaakt, een hybride redeneermodel, dat een reproduceerbare implementatie biedt voor de onderzoeksgemeenschap.
Vision-language model (VLM)-gebaseerde GUI-agenten tonen potentie voor het automatiseren van complexe desktop- en mobiele taken, maar worden geconfronteerd met aanzienlijke uitdagingen bij het toepassen van reinforcement learning (RL): (1) trage multi-turn interacties met GUI-omgevingen voor policy rollout, en (2) onvoldoende hoogwaardige agent-omgeving interacties voor policy learning. Om deze uitdagingen aan te pakken, stellen we DART voor, een Decoupled Agentic RL Training-framework voor GUI-agenten, dat heterogene modules op een sterk ontkoppelde manier coördineert. DART scheidt het trainingssysteem in vier asynchrone modules: omgevingscluster, rollout-service, data manager en trainer. Dit ontwerp maakt niet-blokkerende communicatie, asynchrone training, rollout-wise trajectoriesteekproeven en per-worker modelsynchronisatie mogelijk, wat de systeemefficiëntie aanzienlijk verbetert: 1,6* GPU-gebruik voor rollout, 1,9* trainingsdoorvoer en 5,5* omgevingsgebruik. Om effectief te leren uit overvloedige steekproeven, introduceren we een adaptief data-curatieschema: (1) het vooraf verzamelen van succesvolle trajecten voor uitdagende taken om het schaarse succes in online steekproeven aan te vullen; (2) dynamisch aanpassen van het aantal rollouts en de trajectlengtes op basis van de taakmoeilijkheid; (3) selectief trainen op stappen met hoge entropie om kritieke beslissingen te prioriteren; (4) stabiliseren van het leren via afgekapte importance sampling voor policy mismatch tussen policy rollout en -updating. Op de OSWorld-benchmark behaalt DART-GUI-7B een taaksuccespercentage van 42,13%, een absolute verbetering van 14,61% ten opzichte van het basismodel, en 7,34% hoger dan open-source SOTA. We zullen ons trainingsframework, de data en modelcheckpoints volledig open-source maken via computer-use-agents.github.io/dart-gui, wat naar onze mening een tijdige bijdrage is aan de open-source gemeenschap van agentic RL-training.
Grote Taalmodellen (LLMs) zijn tegenwoordig krachtige probleemoplossers in vele domeinen, en ze worden steeds sterker naarmate ze schalen in modelgrootte, trainingsetgrootte en trainingsetkwaliteit, zoals blijkt uit uitgebreid onderzoek en experimenten in de industrie. Het trainen van een grensverleggend model vereist tegenwoordig in de orde van tientallen tot honderden yottaflops, wat een enorme investering van tijd, rekenkracht en energie betekent. Het verbeteren van de efficiëntie van voorafgaande training is daarom essentieel om de volgende generatie van nog krachtigere LLMs mogelijk te maken. Hoewel 8-bit floating point (FP8) training nu breed wordt toegepast, zou de overgang naar nog smallere precisie, zoals 4-bit floating point (FP4), extra verbeteringen in rekensnelheid en resourcegebruik kunnen ontgrendelen. Kwantisatie op dit niveau brengt echter uitdagingen met zich mee voor trainingsstabiliteit, convergentie en implementatie, met name voor grootschalige modellen die getraind worden op lange tokenhorizons. In deze studie introduceren we een nieuwe aanpak voor stabiele en nauwkeurige training van grote taalmodellen (LLMs) met behulp van het NVFP4-formaat. Onze methode integreert Random Hadamard-transformaties (RHT) om blokniveau-uitbijters te begrenzen, maakt gebruik van een tweedimensionaal kwantisatieschema voor consistente representaties in zowel de voorwaartse als de achterwaartse passes, benut stochastische afronding voor onbevooroordeelde gradientenschatting, en omvat selectieve lagen met hoge precisie. We valideren onze aanpak door een model met 12 miljard parameters te trainen op 10 biljoen tokens — de langste openbaar gedocumenteerde training in 4-bit precisie tot nu toe. Onze resultaten laten zien dat het model dat getraind is met onze NVFP4-gebaseerde voorafgaande trainingstechniek een trainingsverlies en nauwkeurigheid op downstream-taken bereikt die vergelijkbaar zijn met een FP8-baseline. Deze bevindingen benadrukken dat NVFP4, in combinatie met onze trainingsaanpak, een grote stap voorwaarts vertegenwoordigt in smalle-precisie LLM-trainingsalgoritmen.
We introduceren SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, een eenvoudige maar effectieve Reinforcement Learning (RL)-aanpak voor Large Reasoning Models (LRMs) die efficiënter en nauwkeuriger redeneren mogelijk maakt. Bestaande studies hebben repetitieve denkpatronen in LRMs waargenomen, en pogingen om deze te verminderen gaan vaak ten koste van de prestaties. In dit artikel laten we zien dat deze afweging overwonnen kan worden door een trainingsregime dat iteratief afwisselt tussen het comprimeren en uitbreiden van het redeneerbudget, door dynamisch de maximale rollout-lengte tijdens de training aan te passen. De compressiefase verkort de rollout-lengte, waardoor het model gedwongen wordt om precieze en waardevolle beslissingen te nemen binnen een beperkte context, wat effectief redundante tokens vermindert en de redeneerdichtheid verhoogt. De expansiefase versoepelt vervolgens de lengtebeperking, waardoor het model ruimte krijgt om te verkennen en te plannen in langetermijnscenario’s. Opmerkelijk genoeg ontdekken we dat na elke compressie-expansiecyclus de prestaties van het model verbeteren, zelfs terwijl de uitvoerlengte afneemt, waardoor het gestaag dichter bij de Pareto-grens in de prestatie-efficiëntie-afweging komt. Bij training op DeepSeek-R1-Distill-Qwen-1.5B verbetert SIRI-low de prestaties op AIME24 met 43,2% terwijl het tokengebruik met 46,9% wordt verminderd na drie iteraties, en SIRI-high behaalt de hoogste nauwkeurigheid in vergelijking met alle andere methoden (Figuur 1). Onze bevindingen werpen licht op het potentieel van het periodiek laten oscilleren van de uitvoertruncatielengte van een LRM tijdens de training om dynamisch een balans te vinden tussen exploratie en efficiëntie in redeneren, wat convergeert naar een optimaal "sweet spot" tussen de twee. Onze modellen zijn publiekelijk beschikbaar.
Test-Time Scaling (TTS) verbetert het redeneervermogen van grote taalmodelen (LLMs) door extra rekenkracht toe te wijzen tijdens inferentie. Bestaande benaderingen vertrouwen echter voornamelijk op output-level sampling en negeren de rol van modelarchitectuur. In mainstream Mixture-of-Experts (MoE) LLMs observeren we dat het variëren van het aantal geactiveerde experts complementaire oplossingssets oplevert met stabiele nauwkeurigheid, wat een nieuwe en onderbelichte bron van diversiteit onthult. Gemotiveerd door deze observatie stellen we Dynamic Experts Search (DES) voor, een TTS-strategie die expertactivatie verheft tot een controleerbare dimensie van de zoekruimte. DES integreert twee belangrijke componenten: (1) Dynamic MoE, dat directe controle over het aantal experts mogelijk maakt tijdens inferentie om diverse redeneertrajecten te genereren zonder extra kosten; en (2) Expert Configuration Inheritance, dat consistente expertaantallen binnen een redeneerpad behoudt terwijl ze tussen runs variëren, waardoor stabiliteit en diversiteit in balans blijven tijdens het zoeken. Uitgebreide experimenten over MoE-architecturen, verifiers en redeneerbenchmarks (d.w.z. wiskunde, code en kennis) tonen aan dat DES consistent beter presteert dan TTS-baselines, waarbij nauwkeurigheid en stabiliteit worden verbeterd zonder extra kosten. Deze resultaten benadrukken DES als een praktische en schaalbare vorm van architectuurbewuste TTS, en illustreren hoe structurele flexibiliteit in moderne LLMs redeneren kan bevorderen.
Large Language Model (LLM)-agenten, die planning, geheugen, reflectie en tool-gebruikmodules integreren, hebben potentie getoond in het oplossen van complexe, meerstaps taken. Hun geavanceerde architecturen vergroten echter ook de kwetsbaarheid voor cascade-fouten, waarbij een enkele oorzaak van een fout zich verspreidt door opeenvolgende beslissingen, wat leidt tot taakfalen. Huidige systemen missen een raamwerk dat agentfouten op een modulaire en systemische manier volledig kan begrijpen, en slagen er daarom niet in deze fouten adequaat te detecteren. Wij vullen deze leemte met drie bijdragen. Ten eerste introduceren we de AgentErrorTaxonomy, een modulaire classificatie van faalmodi die geheugen, reflectie, planning, actie en systeemniveau-operaties omvat. Ten tweede construeren we AgentErrorBench, de eerste dataset van systematisch geannoteerde faaltrajecten uit ALFWorld, GAIA en WebShop, die foutenanalyse verankert in real-world agent-rollouts. Ten derde stellen we AgentDebug voor, een debugraamwerk dat oorzaakfouten isoleert en corrigerende feedback biedt, waardoor agenten kunnen herstellen en iteratief kunnen verbeteren. Experimenten op AgentErrorBench tonen aan dat AgentDebug een 24% hogere all-correct nauwkeurigheid en een 17% hogere stapnauwkeurigheid bereikt in vergelijking met de sterkste baseline. Naast detectie stelt de gerichte feedback gegenereerd door AgentDebug LLM-agenten in staat om iteratief te herstellen van fouten, wat resulteert in relatieve verbeteringen van tot 26% in taaksucces over ALFWorld, GAIA en WebShop. Deze resultaten vestigen principieel debuggen als een pad naar betrouwbaardere en adaptievere LLM-agenten. De code en data zullen beschikbaar zijn op https://github.com/ulab-uiuc/AgentDebug.
We introduceren een nieuwe aanpak voor distillatie van grote taalmodellen (LLM) door het te formuleren als een geoptimaliseerd reinforcement learning-probleem met beperkingen. Hoewel recent werk begonnen is met het integreren van taakspecifieke beloningen in distillatieprocessen, vertrouwen bestaande methoden doorgaans op ad-hoc gewichtstoekenning van beloningen. Wij stellen een principieel optimalisatiekader voor dat taakspecifieke beloningen maximaliseert, terwijl de afwijking van het leraarmodel onder een gespecificeerde drempel wordt gehouden. Onze aanpast past constrained state augmented reinforcement learning aan voor de distillatie-instelling, waarbij een aangepaste beloningsfunctie wordt geïntroduceerd die theoretische garanties biedt voor het voldoen aan de beperkingen, zonder dat toegang tot het leraarmodel of state augmentation nodig is tijdens de implementatie, en zonder de rekenkundige overhead van duale Lagrangiaanse methoden. Door uitgebreide experimenten op wiskundige redeneertaken tonen we aan dat onze methode betere beperkingsvoldoening en beter redeneren bereikt in vergelijking met de soft Lagrangiaanse relaxatie-baselines, terwijl het competitieve taakprestaties behoudt. Ons kader biedt een theoretisch onderbouwde en praktisch efficiënte oplossing voor beloningsbewuste distillatie in omgevingen met beperkte middelen.
Recente vooruitgang, zoals DeepSeek-R1, heeft aangetoond dat het GRPO-algoritme, een Reinforcement Learning (RL)-benadering, effectief Chain-of-Thought (CoT)-redenering kan trainen in Large Language Models (LLMs) en Vision-Language Models (VLMs). In dit artikel analyseren we drie uitdagingen van GRPO: gradientkoppeling tussen gedachten en antwoorden, schaarse beloningssignalen veroorzaakt door beperkte parallelle sampling, en onstabiele voorsprongschatting. Om deze uitdagingen te verminderen, stellen we GRPO-MA voor, een eenvoudige maar theoretisch onderbouwde methode die gebruikmaakt van multi-antwoordgeneratie vanuit elk denkproces, waardoor robuustere en efficiëntere optimalisatie mogelijk wordt. Theoretisch laten we zien dat de variantie van de gedachtenvoorsprong afneemt naarmate het aantal antwoorden per gedachte toeneemt. Empirisch bevestigt onze gradientanalyse dit effect, waarbij wordt aangetoond dat GRPO-MA gradientpieken vermindert in vergelijking met GRPO. Experimenten op het gebied van wiskunde, code en diverse multimodale taken tonen aan dat GRPO-MA de prestaties en trainings efficiëntie aanzienlijk verbetert. Onze ablatiestudies onthullen verder dat het verhogen van het aantal antwoorden per gedachte consistent de modelprestaties verbetert.
Recente redeneer-LLM's (RLM's), met name die getraind zijn met verifier-gebaseerde reinforcement learning, presteren vaak slechter met few-shot CoT dan met direct beantwoorden. We herzien deze paradox met behulp van hoogwaardige redeneersporen van DeepSeek-R1 als demonstraties en ontdekken dat het toevoegen van meer voorbeelden de nauwkeurigheid consistent vermindert, zelfs wanneer de demonstraties optimaal zijn. Een gedetailleerde analyse onthult twee mechanismen achter deze achteruitgang: (i) semantische misleiding, waarbij hoge tekstuele gelijkenis het model ertoe brengt het doel als hetzelfde te behandelen als het voorbeeld en tussenstappen letterlijk te kopiëren; en (ii) strategieoverdrachtfalen, waarbij het model moeite heeft om nuttige redeneerstrategieën te extraheren en toe te passen op doelvragen. Geleid door deze inzichten introduceren we Insight-to-Solve (I2S), een sequentiële test-time procedure die demonstraties omzet in expliciete, herbruikbare inzichten en een doelspecifiek redeneerspoor afleidt; optioneel wordt het redeneren zelf verfijnd voor samenhang en correctheid (I2S+). Uitgebreide experimenten op diverse benchmarks tonen aan dat I2S en I2S+ consistent beter presteren dan zowel direct beantwoorden als test-time schaalbaarheidsbaselines, zowel voor open- als closed-source modellen. Zelfs voor GPT-modellen helpt onze methode: op AIME'25 stijgt GPT-4.1 met +14,0%, en o1-mini verbetert met +2,7% op AIME en +1,7% op GPQA, wat aangeeft dat in-context demonstraties effectief kunnen worden benut via het insight-refine-solve raamwerk.
Retrieval-Augmented Generation (RAG) heeft als doel hallucinaties in grote taalmodellen (LLMs) te verminderen door antwoorden te verankeren in opgehaalde documenten. Toch hallucineren RAG-gebaseerde LLMs nog steeds, zelfs wanneer ze correcte en voldoende context krijgen. Een groeiende onderzoekslijn suggereert dat dit voortkomt uit een onbalans tussen hoe modellen externe context gebruiken en hun interne kennis, en verschillende benaderingen hebben geprobeerd deze signalen te kwantificeren voor hallucinatiedetectie. Bestaande methoden vereisen echter uitgebreide hyperparameterafstemming, wat hun generaliseerbaarheid beperkt. Wij stellen LUMINA voor, een nieuw framework dat hallucinaties in RAG-systemen detecteert via context-kennissignalen: het gebruik van externe context wordt gekwantificeerd via distributieafstand, terwijl het gebruik van interne kennis wordt gemeten door te volgen hoe voorspelde tokens evolueren over transformer-lagen. We introduceren verder een framework voor het statistisch valideren van deze metingen. Experimenten op veelgebruikte RAG-hallucinatiebenchmarks en vier open-source LLMs laten zien dat LUMINA consistent hoge AUROC- en AUPRC-scores behaalt, en eerdere gebruik-gebaseerde methoden met tot wel +13% AUROC overtreft op HalluRAG. Bovendien blijft LUMINA robuust onder versoepelde aannames over ophaalkwaliteit en modelmatching, wat zowel effectiviteit als praktische bruikbaarheid biedt.
Video Joint Embedding Predictive Architectures (V-JEPA) leren algemeen toepasbare, kant-en-klare videorepresentaties door gemaskeerde regio's in de latente ruimte te voorspellen met een leraar die wordt bijgewerkt via een exponentieel voortschrijdend gemiddelde (EMA). Hoewel EMA representatiecollaps voorkomt, bemoeilijkt het schaalbare modelselectie en koppelt het de architecturen van leraar en student. Wij herzien de voorspelling van gemaskeerde latente ruimtes en tonen aan dat een bevroren leraar voldoende is. Concreet (i) trainen we een doelencoder met een eenvoudig pixelreconstructiedoel onder V-JEPA-masking, en (ii) bevriezen we deze en trainen we een student om de latente ruimtes van de leraar op gemaskeerde regio's te voorspellen. Dit leidt tot een tweestaps, ongereguleerd schema dat we SALT noemen (Static-teacher Asymmetric Latent Training). SALT ontkoppelt optimalisatie in pixelreconstructie (leraar) en gemaskeerde latente voorspelling (student), wat transparantie, efficiëntie en schaalbaarheid verhoogt terwijl het vermogen van de representatie om te generaliseren onder bevroren evaluatie behouden blijft. Empirisch presteren onze studentmodellen beter dan recent voorgestelde V-JEPA 2-encoders onder bevroren backbone-evaluatie op diverse benchmarks. Ze zijn ook rekenoptimaler: bij gelijke pretrainings-FLOPs behaalt onze methode een hogere probingnauwkeurigheid, en domineren de schaalcurves de nauwkeurigheid-FLOPs Pareto-grens van V-JEPA. Tot slot ontdekken we dat de kwaliteit van de student opmerkelijk robuust is ten opzichte van de kwaliteit van de leraar: hoogpresterende studenten ontstaan zelfs met kleine, suboptimale leraren. Dit wijst op een rekenbudgetallocatie die overweldigend in het voordeel van de student moet zijn. Deze resultaten positioneren SALT als een eenvoudig, schaalbaar en reken-efficiënt alternatief voor EMA-gebaseerde zelfdistillatie voor videorepresentatieleren.
Het finetunen van vooraf getrainde grote taalmodellen (LLMs) voor downstream taken is een cruciale stap in de AI-implementatiepijplijn. Reinforcement learning (RL) is ongetwijfeld de meest prominente finetuningmethode, wat heeft bijgedragen aan de ontwikkeling van veel state-of-the-art LLMs. Daarentegen werden evolutionaire strategieën (ES), die ooit vergelijkbare prestaties lieten zien als RL bij modellen met enkele miljoenen parameters, verwaarloosd vanwege de pessimistische inschatting van hun schaalbaarheid naar grotere modellen. In dit werk melden we de eerste succesvolle poging om ES op te schalen voor het finetunen van alle parameters van LLMs, waarbij we het verrassende feit aantonen dat ES efficiënt kan zoeken over miljarden parameters en bestaande RL-finetuningmethoden op meerdere vlakken overtreft, waaronder sample-efficiëntie, tolerantie voor lange-termijn beloningen, robuustheid tegen verschillende basis-LLMs, minder neiging tot reward hacking en meer stabiele prestaties over meerdere runs. Het dient daarom als basis om een nieuwe richting in LLM-finetuning te ontsluiten die verder gaat dan wat huidige RL-technieken bieden. De broncodes zijn beschikbaar op: https://github.com/VsonicV/es-fine-tuning-paper.
Naarmate grote taalmodellen (LLMs) steeds vaker worden toegepast op wetenschappelijk redeneren, maken de complexiteit van antwoordformaten en de diversiteit aan equivalente uitdrukkingen het verifiëren van antwoorden een cruciale maar uitdagende taak. Bestaande verificatiestudies in wetenschappelijke domeinen kampen met twee belangrijke beperkingen: (a) het ontbreken van systematische evaluatiestandaarden en onvoldoende disciplinaire dekking, wat een uitgebreide beoordeling belemmert; en (b) een sterke afhankelijkheid van omslachtige regels of prompt engineering, wat hun effectiviteit in complexe redeneerscenario's vermindert of hun interdisciplinaire generalisatie beperkt. Om deze uitdagingen aan te pakken, stellen we oplossingen voor op zowel het data- als het modelniveau. Aan de datazijde construeren we SCI-VerifyBench, een interdisciplinaire benchmark die wiskunde, natuurkunde, biologie, scheikunde en algemene wetenschappelijke vraag-antwoordparen omvat. De benchmark is opgebouwd uit echte LLM-reacties en verrijkt met domeinspecifieke equivalentietransformaties die uitdagende en realistische data genereren. Modelgebaseerde en expertannotaties zorgen voor zowel kwaliteit als diversiteit, wat een rigoureuze evaluatie van de verificatiecapaciteit mogelijk maakt. Aan de modelzijde benadrukken we het belang van redeneren voor verificatie en introduceren we SCI-Verifier, een uniforme, op redenering gebaseerde verifier voor wetenschappelijke domeinen. Door post-training toont SCI-Verifier sterke logische redeneer- en equivalentiebeoordelingscapaciteiten, terwijl het beknopte en stabiele uitvoer behoudt. Samen bieden SCI-VerifyBench en SCI-Verifier een principieel kader voor wetenschappelijke verificatie, met zowel systematische evaluatie als praktische wegen om de betrouwbaarheid en toepasbaarheid van LLMs in wetenschappelijke domeinen te verbeteren.
Menselijke feedback speelt een cruciale rol bij het afstemmen van grote taalmmodellen (LLMs) op menselijke voorkeuren. Echter, dergelijke feedback is vaak onnauwkeurig of inconsistent, wat de kwaliteit van beloningsmodellen kan aantasten en de afstemming kan belemmeren. Hoewel verschillende geautomatiseerde methoden voor datareiniging zijn voorgesteld om dit probleem te verlichten, ontbreekt een systematische evaluatie van hun effectiviteit en generaliseerbaarheid. Om deze kloof te overbruggen, introduceren we de eerste uitgebreide benchmark voor het evalueren van 13 methoden voor het reinigen van voorkeursgegevens in de context van LLM-afstemming. PrefCleanBench biedt een gestandaardiseerd protocol om reinigingsstrategieën te beoordelen op basis van afstemmingsprestaties en generaliseerbaarheid over diverse datasets, modelarchitecturen en optimalisatiealgoritmen. Door verschillende methoden te verenigen en rigoureus te vergelijken, onthullen we belangrijke factoren die het succes van datareiniging in afstemmingstaken bepalen. Deze benchmark legt de basis voor principiële en reproduceerbare benaderingen om LLM-afstemming te verbeteren door betere datakwaliteit, wat de cruciale maar onderbelichte rol van datavoorbewerking in verantwoorde AI-ontwikkeling benadrukt. We geven modulaire implementaties van alle methoden vrij om verder onderzoek te stimuleren: https://github.com/deeplearning-wisc/PrefCleanBench.
Gemaskerde diffusie-taalmodelen (MDLM's) zijn recent naar voren gekomen als een veelbelovend alternatief voor autoregressieve (AR) taalmodelen, met eigenschappen zoals parallel decoderen, flexibele generatievolgordes en het potentieel voor minder inferentiestappen. Ondanks deze voordelen blijven decodeerstrategieën en reinforcement learning (RL)-algoritmen die specifiek zijn afgestemd op MDLM's onderbelicht. Een naïeve aanpak is om technieken die goed zijn ingeburgerd voor AR-modellen direct over te dragen naar MDLM's. Dit roept echter een directe vraag op: Is zo'n naïeve overdracht wel echt optimaal? Bijvoorbeeld: 1) Bloksgewijze en semi-AR-decodeerstrategieën worden niet gebruikt tijdens de training van MDLM's, dus waarom presteren ze beter dan volledige diffusie-stijl decodering tijdens inferentie? 2) Het direct toepassen van RL-algoritmen die zijn ontworpen voor AR-modellen op MDLM's vertoont een inconsistentie tussen training en inferentie, aangezien MDLM-decodering niet-causaal (parallel) is. Dit resulteert in inconsistenties tussen de rollout-trajectorie en de optimalisatietrajectorie. Om deze uitdagingen aan te pakken, stellen we EOS Early Rejection (EOSER) en Ascending Step-Size (ASS) decodeerscheduler voor, die het potentieel van MDLM's ontsluiten om volledige diffusie-stijl decodering uit te voeren, met competitieve prestaties en minder decodeerstappen. Daarnaast introduceren we Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) voor het temmen van MDLM's, wat de consistentie tussen rollout-trajectorie en optimalisatietrajectorie benadrukt en de optimalisatiefouten veroorzaakt door skip-step optimalisatie vermindert. We voeren uitgebreide experimenten uit op redeneertaken, zoals wiskundige en planningsbenchmarks, met behulp van LLaDA-8B-Instruct. De resultaten tonen aan dat de voorgestelde EOSER- en ASS-mechanismen, samen met CJ-GRPO, veelbelovend zijn voor het effectief en efficiënt temmen van MDLM's. Code: https://github.com/yjyddq/EOSER-ASS-RL.
We introduceren DafnyCOMP, een benchmark voor het evalueren van grote taalmodellen (LLM's) op het gebied van compositionele specificatiegeneratie in Dafny. In tegenstelling tot eerdere benchmarks die zich richten op taken met één functie, richt DafnyCOMP zich op programma's die bestaan uit meerdere interactieve functies met data-afhankelijkheden, wat redenering over componentgrenzen vereist. De benchmark bestaat uit 300 automatisch gesynthetiseerde multifunctionele programma's. We evalueren verschillende state-of-the-art LLM-families en constateren dat, hoewel ze goed presteren op verificatie van één functie, hun prestaties sterk dalen bij compositionele taken. Analyse onthult systematische fouten in cross-functioneel redeneren, waaronder fragiele specificaties, misalignering tussen implementaties en bewijzen, en instabiel redeneren. DafnyCOMP biedt zo een diagnostisch hulpmiddel voor het meten van voortgang richting betrouwbare, verifieerbare en compositionele codegeneratie met LLM's.
Vision language models (VLMs) kunnen flexibel diverse visuele taken aanpakken via tekstinteracties. Hoewel ze succesvol zijn in semantisch begrip, hebben state-of-the-art VLMs, waaronder GPT-5, nog steeds moeite met het begrijpen van 3D vanuit 2D-invoer. Aan de andere kant bereiken expert pure vision models een bovenmenselijke nauwkeurigheid in metrische diepteschatting, een cruciale 3D-begriptaak. Ze vereisen echter taakspecifieke architecturen en verliesfuncties. Dit verschil motiveert ons om de vraag te stellen: Kunnen VLMs expertniveau-nauwkeurigheid bereiken zonder aanpassingen aan de architectuur of verliesfunctie? We nemen per-pixel metrische diepteschatting als de representatieve taak en laten zien dat het antwoord ja is! Verrassend genoeg toont een uitgebreide analyse aan dat tekstgebaseerde supervised-finetuning met spaarzame labels voldoende is voor VLMs om sterk 3D-begrip te ontgrendelen; er is geen dichte voorspellingskop of complexe regressie/regularisatie-verliesfunctie nodig. De bottleneck voor VLMs ligt eigenlijk in pixelreferentie en cross-dataset camera-ambiguïteit, die we aanpakken via visuele prompting en intrinsiek-geconditioneerde augmentatie. Met veel kleinere modellen overtreft onze methode DepthLM de nauwkeurigheid van de meest geavanceerde VLMs met meer dan 2x, waardoor VLMs voor het eerst vergelijkbaar worden met pure vision models. Interessant is dat VLMs getraind met DepthLM, zonder expliciete handhaving tijdens de training, van nature overmatige gladheid vermijden en veel minder zwevende punten hebben in grenszones dan pure vision models. De eenvoud van DepthLM maakt het ook mogelijk dat een enkele VLM diverse 3D-taken kan bestrijken die verder gaan dan metrische diepte. Onze code en model zullen worden vrijgegeven via de onderstaande link.
Multi-subject beeldgeneratie heeft als doel om door de gebruiker opgegeven onderwerpen in één afbeelding te synthetiseren, waarbij de trouw aan het onderwerp behouden blijft, consistentie met de prompt wordt gegarandeerd en wordt voldaan aan menselijke esthetische voorkeuren. Bestaande methoden, met name die gebaseerd op het In-Context-Learning paradigma, worden echter beperkt door hun afhankelijkheid van eenvoudige reconstructie-gebaseerde doelstellingen, wat leidt tot ernstige attribuutlekkage die de trouw aan het onderwerp aantast en niet voldoet aan subtiele menselijke voorkeuren. Om dit aan te pakken, stellen we MultiCrafter voor, een raamwerk dat zorgt voor generatie met hoge trouw en afstemming op voorkeuren. Ten eerste constateren we dat de oorzaak van attribuutlekkage een significante verstrengeling van aandacht tussen verschillende onderwerpen is tijdens het generatieproces. Daarom introduceren we expliciete positionele supervisie om de aandachtregio's voor elk onderwerp expliciet te scheiden, waardoor attribuutlekkage effectief wordt verminderd. Om het model in staat te stellen de aandachtregio van verschillende onderwerpen in diverse scenario's nauwkeurig te plannen, gebruiken we een Mixture-of-Experts architectuur om de capaciteit van het model te vergroten, waardoor verschillende experts zich kunnen richten op verschillende scenario's. Ten slotte ontwerpen we een nieuw online reinforcement learning raamwerk om het model af te stemmen op menselijke voorkeuren, met een scoringsmechanisme om de trouw aan meerdere onderwerpen nauwkeurig te beoordelen en een stabielere trainingsstrategie die is afgestemd op de MoE-architectuur. Experimenten valideren dat ons raamwerk de trouw aan het onderwerp aanzienlijk verbetert en beter aansluit bij menselijke voorkeuren.
Bestaande tekst-naar-beeld diffusiemodellen blinken uit in het genereren van hoogwaardige afbeeldingen, maar kampen met aanzienlijke efficiëntieproblemen wanneer ze worden opgeschaald naar hoge resoluties, zoals 4K-beeldgeneratie. Hoewel eerder onderzoek diffusiemodellen op verschillende aspecten versnelt, wordt de inherente redundantie binnen de latente ruimte zelden aangepakt. Om deze kloof te overbruggen, introduceert dit artikel DC-Gen, een algemeen framework dat tekst-naar-beeld diffusiemodellen versnelt door gebruik te maken van een diep gecomprimeerde latente ruimte. In plaats van een kostbare training-vanaf-nul benadering, gebruikt DC-Gen een efficiënte post-training pijplijn om de kwaliteit van het basismodel te behouden. Een belangrijke uitdaging in dit paradigma is de representatiekloof tussen de latente ruimte van het basismodel en een diep gecomprimeerde latente ruimte, wat kan leiden tot instabiliteit tijdens directe fine-tuning. Om dit te overwinnen, overbrugt DC-Gen eerst de representatiekloof met een lichtgewicht embedding alignment training. Zodra de latente embeddings zijn uitgelijnd, is slechts een kleine hoeveelheid LoRA fine-tuning nodig om de inherente generatiekwaliteit van het basismodel te ontgrendelen. We verifiëren de effectiviteit van DC-Gen op SANA en FLUX.1-Krea. De resulterende DC-Gen-SANA en DC-Gen-FLUX modellen bereiken een kwaliteit die vergelijkbaar is met hun basismodellen, maar met een aanzienlijke snelheidswinst. Specifiek reduceert DC-Gen-FLUX de latentie van 4K-beeldgeneratie met 53x op de NVIDIA H100 GPU. In combinatie met NVFP4 SVDQuant genereert DC-Gen-FLUX een 4K-afbeelding in slechts 3,5 seconden op een enkele NVIDIA 5090 GPU, wat een totale latentiereductie van 138x oplevert in vergelijking met het basis FLUX.1-Krea model. Code: https://github.com/dc-ai-projects/DC-Gen.
Search-augmented LLMs hebben vaak moeite met complexe redeneertaken vanwege ineffectieve multi-hop retrieval en beperkte redeneervaardigheid. Wij stellen AceSearcher voor, een coöperatief zelfspel-framework dat één groot taalmodel (LLM) traint om af te wisselen tussen twee rollen: een decomposer die complexe queries opsplitst en een solver die opgehaalde contexten integreert voor antwoordgeneratie. AceSearcher combineert supervised fine-tuning op een diverse mix van zoek-, redeneer- en decompositietaken met reinforcement fine-tuning die is geoptimaliseerd voor de nauwkeurigheid van het eindantwoord, waardoor tussenliggende annotaties overbodig worden. Uitgebreide experimenten op drie redeneerintensieve taken over 10 datasets laten zien dat AceSearcher de state-of-the-art baselines overtreft, met een gemiddelde exacte match-verbetering van 7,6%. Opmerkelijk is dat AceSearcher-32B op documentniveau financiële redeneertaken de prestaties van het DeepSeek-V3-model evenaart met minder dan 5% van zijn parameters. Zelfs op kleinere schaal (1,5B en 8B) overtreft AceSearcher vaak bestaande search-augmented LLMs met tot wel 9x meer parameters, wat zijn uitzonderlijke efficiëntie en effectiviteit bij het aanpakken van complexe redeneertaken benadrukt. Onze code zal worden gepubliceerd op https://github.com/ritaranx/AceSearcher en https://huggingface.co/AceSearcher.
Autoregressieve (AR) modellen zijn veelbelovend voor beeldgeneratie, maar continue-token AR-varianten blijven vaak achter bij latente diffusie- en maskergeneratiemodellen. Het kernprobleem is de heterogene variantie in VAE-latenten, die wordt versterkt tijdens AR-decodering, vooral onder classifier-free guidance (CFG), en kan leiden tot variantie-instorting. Wij stellen SphereAR voor om dit probleem aan te pakken. De kern van het ontwerp is om alle AR-invoer en -uitvoer — inclusief na CFG — te beperken tot een hypersfeer met vaste straal (constante ell_2-norm), waarbij gebruik wordt gemaakt van hypersferische VAEs. Onze theoretische analyse toont aan dat de hypersferische beperking de schaalcomponent (de primaire oorzaak van variantie-instorting) verwijdert, waardoor AR-decodering wordt gestabiliseerd. Empirisch gezien stelt SphereAR-H (943M) een nieuwe standaard voor AR-modellen bij beeldgeneratie op ImageNet, met een FID van 1,34. Zelfs op kleinere schaal bereikt SphereAR-L (479M) een FID van 1,54 en SphereAR-B (208M) een FID van 1,92, waarmee het vergelijkbare of grotere baselines zoals MAR-H (943M, 1,55) en VAR-d30 (2B, 1,92) evenaart of overtreft. Voor zover wij weten, is dit de eerste keer dat een pure next-token AR-beeldgenerator met rastervolgorde diffusie- en maskergeneratiemodellen overtreft bij vergelijkbare parameterschalen.
Het begrijpen van lange video's blijft een uitdaging voor recente Large Video-Language Models (LVLMs) vanwege het conflict tussen langdurig temporeel begrip en gedetailleerde ruimtelijke waarneming. LVLMs met een uniform frame-samplingmechanisme, dat frames met een gelijke frame-grootte en vaste samplingfrequentie bemonstert, offeren onvermijdelijk ofwel temporele aanwijzingen ofwel ruimtelijke details op, wat resulteert in suboptimale oplossingen. Om dit dilemma te verlichten, stellen we LOVE-R1 voor, een model dat adaptief kan inzoomen op een videoclip. Het model krijgt eerst dicht bemonsterde frames aangeboden, maar in een kleine resolutie. Als er ruimtelijke details nodig zijn, kan het model inzoomen op een clip van interesse met een hoge frameresolutie op basis van zijn redenering, totdat belangrijke visuele informatie is verkregen. Het hele proces wordt geïmplementeerd als een meerstaps redeneerproces. Om het redeneervermogen te trainen, finetunen we eerst het model op onze verzamelde 38k hoogwaardige CoT-data en versterken het met ontkoppelde reinforcement finetuning. Omdat uitkomstbeloningen geen fijnmazige procesbegeleiding kunnen bieden, ontkoppelen we meerstaps redeneren in meerdere enkelstaps redeneringen en optimaliseren we het interne inzoomvermogen expliciet. Experimenten op benchmarks voor het begrijpen van lange video's tonen aan dat ons model met het slow-fast adaptieve frame-samplingmechanisme een goede balans bereikt tussen samplingdichtheid en frameresoluties, en dat LOVE-R1 onze baseline Qwen2.5-VL gemiddeld met 3,1 procentpunt overtreft op 4 veelgebruikte benchmarks voor het begrijpen van lange video's.
Preferentie-optimalisatie is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden en intenties. Een belangrijke uitdaging in dit proces is de distributiemismatch tussen vooraf verzamelde offline preferentiedata en het evoluerende modelbeleid. Bestaande methoden proberen deze kloof te verkleinen met behulp van statische heuristieken of ontkoppelde online samplingstrategieën, maar slagen er vaak niet in zich aan te passen aan de dynamische leerstatus van het model. Om deze kloof te overbruggen, stellen we Meta-Weighted Adaptive Preference Optimization (MetaAPO) voor, een nieuw raamwerk dat datageneratie dynamisch koppelt aan modeltraining. MetaAPO maakt gebruik van een lichtgewicht meta-leerder, die fungeert als een "alignment gap estimator", om de potentiële voordelen van on-policy sampling in relatie tot offline data te evalueren. Dit leidt tot gerichte online generatie en wijst sample-wise meta-gewichten toe aan het optimalisatiedoel, waardoor de kwaliteit en distributie van online en offline data dynamisch in balans worden gebracht. Experimenten op AlpacaEval 2, Arena-Hard en MT-Bench tonen aan dat MetaAPO consistent beter presteert dan bestaande preferentie-optimalisatiebenaderingen in diverse instellingen, terwijl het de online annotatiekosten met 42% reduceert.
De webpagina-naar-code-taak vereist dat modellen visuele representaties van webpagina's begrijpen en de bijbehorende code genereren. Bestaande benchmarks richten zich echter voornamelijk op statische screenshot-naar-code-taken, waardoor de dynamische interacties die fundamenteel zijn voor real-world webapplicaties over het hoofd worden gezien. Om deze beperking aan te pakken, introduceert dit artikel IWR-Bench, een nieuwe benchmark voor het evalueren van de mogelijkheden van Large Vision-Language Models (LVLMs) bij het reconstrueren van interactieve webpagina's vanuit video. IWR-Bench bestaat uit 113 zorgvuldig samengestelde taken van 100 real-world websites, met 1.001 acties en diverse interactiecomplexiteiten (bijv. webgames), visuele stijlen en domeinen. In lijn met standaard webontwikkelingspraktijken bevat elke taak niet alleen gebruikersinteractievideo's, maar ook alle gecrawlde statische assets (bijv. afbeeldingen, video's). Deze benchmark evalueert modellen op twee fundamentele uitdagingen: uitgebreide multimodale redenering om interactielogica uit video en assets af te leiden, en geavanceerde codegeneratie om deze logica om te zetten in functionele code. Een agent-as-a-judge-framework met een uitgebreid metriekensysteem beoordeelt automatisch de functionele correctheid en visuele getrouwheid van gegenereerde webpagina's. Uitgebreide experimenten met 28 LVLMs onthullen een aanzienlijke uitdaging: het beste model behaalt een totaalscore van slechts 36,35%, waarbij functionele correctheid (24,39% IFS) aanzienlijk achterblijft bij visuele getrouwheid (64,25% VFS). Deze resultaten benadrukken kritieke beperkingen in het vermogen van huidige modellen om te redeneren over temporele dynamiek en event-driven logica te synthetiseren, waardoor IWR-Bench zich vestigt als een uitdagend onderzoeksgebied voor vision-language-onderzoek. De benchmark en evaluatiecode zullen publiekelijk beschikbaar worden gesteld. Code is beschikbaar op https://github.com/L-O-I/IWR-Bench.
Reinforcement Learning (RL) is naar voren gekomen als een centraal paradigma voor het bevorderen van Large Language Models (LLMs), waarbij pre-training en RL post-training dezelfde log-likelihood-formulering delen. In tegenstelling hiermee optimaliseren recente RL-benaderingen voor diffusiemodellen, met name Denoising Diffusion Policy Optimization (DDPO), een doelstelling die verschilt van de pre-trainingsdoelstellingen—de score/flow matching loss. In dit werk presenteren we een nieuwe theoretische analyse: DDPO is een impliciete vorm van score/flow matching met ruisdoelen, wat de variantie verhoogt en de convergentie vertraagt. Op basis van deze analyse introduceren we Advantage Weighted Matching (AWM), een policy-gradient methode voor diffusie. Deze gebruikt dezelfde score/flow-matching loss als pre-training om een doelstelling met lagere variantie te verkrijgen en herweegt elk monster op basis van zijn voordeel. In feite verhoogt AWM de invloed van monsters met hoge beloning en onderdrukt die met lage beloning, terwijl de modelleerdoelstelling identiek blijft aan pre-training. Dit verenigt pre-training en RL zowel conceptueel als praktisch, is consistent met policy-gradient theorie, vermindert variantie en resulteert in snellere convergentie. Dit eenvoudige maar effectieve ontwerp levert aanzienlijke voordelen op: op de GenEval, OCR en PickScore benchmarks biedt AWM een versnelling tot 24 keer ten opzichte van Flow-GRPO (dat voortbouwt op DDPO), wanneer toegepast op Stable Diffusion 3.5 Medium en FLUX, zonder in te leveren op generatiekwaliteit. Code is beschikbaar op https://github.com/scxue/advantage_weighted_matching.
Gestructureerde afbeeldingen (bijv. grafieken en geometrische diagrammen) blijven een uitdaging vormen voor multimodale grote taalmodellen (MLLMs), aangezien perceptuele fouten kunnen leiden tot onjuiste conclusies. Tussenliggende visuele aanwijzingen kunnen het redeneren sturen; bestaande methoden op basis van aanwijzingen worden echter beperkt door beeldverwerking van lage kwaliteit en lineaire, rigide redeneerpatronen, wat hun effectiviteit bij complexe gestructureerde beeldtaken beperkt. In dit artikel stellen we PixelCraft voor, een nieuw multi-agent systeem voor beeldverwerking van hoge kwaliteit en flexibele visuele redenering op gestructureerde afbeeldingen. Het systeem bestaat uit een dispatcher, een planner, een redeneerder, critici en een set visuele toolagents. Om beeldverwerking van hoge kwaliteit te bereiken, construeren we een hoogwaardig corpus en fine-tunen we een MLLM tot een grondingsmodel, waarvan pixelniveau-localisaties worden geïntegreerd met traditionele computer vision (CV)-algoritmen in toolagents. Op deze basis faciliteert PixelCraft flexibele visuele redenering via een dynamische driedelige workflow van toolselectie, agentdiscussie en zelfkritiek. Bovendien, in tegenstelling tot eerdere lineaire redeneerpatronen die eenvoudigweg historische afbeeldingen toevoegen, onderhoudt PixelCraft een beeldgeheugen, waardoor de planner eerder genomen visuele stappen adaptief kan herzien, alternatieve redeneertakken kan verkennen en de redeneertrajecten dynamisch kan aanpassen tijdens discussies. Uitgebreide experimenten op uitdagende grafiek- en geometriebenchmarks tonen aan dat PixelCraft de visuele redeneerprestaties van geavanceerde MLLMs aanzienlijk verbetert, en zo een nieuwe standaard zet voor gestructureerde beeldredenering. Onze code zal beschikbaar zijn op https://github.com/microsoft/PixelCraft.
De zoektocht naar kunstmatige agenten die kunnen leren om complexe omgevingen te beheersen, heeft tot opmerkelijke successen geleid, maar de heersende methoden voor diepe reinforcement learning vertrouwen vaak op een enorme hoeveelheid ervaring, waarbij hun kennis ondoorzichtig wordt gecodeerd in de gewichten van neurale netwerken. Wij stellen een ander paradigma voor, waarin een agent leert te spelen door te redeneren en te plannen. We introduceren Cogito, ergo ludo (CEL), een nieuwe agentarchitectuur die gebruikmaakt van een Large Language Model (LLM) om een expliciet, taalgebaseerd begrip te ontwikkelen van de mechanica van zijn omgeving en zijn eigen strategie. Beginnend vanuit een tabula rasa-toestand zonder voorkennis (behalve de actieset), opereert CEL in een cyclus van interactie en reflectie. Na elke aflevering analyseert de agent zijn volledige traject om twee gelijktijdige leerprocessen uit te voeren: Regelinductie, waarbij het zijn expliciete model van de dynamiek van de omgeving verfijnt, en Strategie- en Playbook-samenvatting, waarbij het ervaringen destilleert tot een uitvoerbaar strategisch playbook. We evalueren CEL op diverse grid-world taken (zoals Minesweeper, Frozen Lake en Sokoban), en laten zien dat de CEL-agent met succes leert deze spellen te beheersen door autonoom de regels te ontdekken en effectieve beleidsregels te ontwikkelen op basis van schaarse beloningen. Ablatiestudies bevestigen dat het iteratieve proces cruciaal is voor blijvend leren. Ons werk toont een pad naar meer algemene en interpreteerbare agenten die niet alleen effectief handelen, maar ook een transparant en verbeterend model van hun wereld opbouwen door expliciete redenering op basis van ruwe ervaring.
De toenemende inzet van agents gebaseerd op grote taalmodellen (LLM) die interacteren met externe omgevingen heeft nieuwe aanvalsoppervlakken gecreëerd voor vijandige manipulatie. Een grote bedreiging is indirecte prompt-injectie, waarbij aanvallers kwaadaardige instructies in de uitvoer van externe omgevingen inbedden, waardoor agents deze interpreteren en uitvoeren alsof het legitieme prompts zijn. Terwijl eerder onderzoek zich vooral richtte op plain-text injectie-aanvallen, ontdekken we een significante maar onderbelichte kwetsbaarheid: de afhankelijkheid van LLM's van gestructureerde chat-sjablonen en hun vatbaarheid voor contextuele manipulatie via overtuigende meerronde dialogen. Hiertoe introduceren we ChatInject, een aanval die kwaadaardige payloads formatteert om native chat-sjablonen na te bootsen, waardoor de inherente neiging van het model om instructies te volgen wordt misbruikt. Op deze basis ontwikkelen we een overtuigingsgedreven meerronde variant die de agent gedurende conversatieronden voorbereidt om anders verdachte acties te accepteren en uit te voeren. Door uitgebreide experimenten met vooraanstaande LLM's demonstreren we drie kritieke bevindingen: (1) ChatInject behaalt aanzienlijk hogere gemiddelde aanvalssuccespercentages dan traditionele prompt-injectiemethoden, met een verbetering van 5,18% naar 32,05% op AgentDojo en van 15,13% naar 45,90% op InjecAgent, waarbij meerronde dialogen met name sterk presteren met een gemiddeld succespercentage van 52,33% op InjecAgent, (2) chat-sjabloongebaseerde payloads tonen sterke overdraagbaarheid tussen modellen en blijven effectief zelfs tegen gesloten LLM's, ondanks hun onbekende sjabloonstructuren, en (3) bestaande prompt-gebaseerde verdedigingen zijn grotendeels ineffectief tegen deze aanvalsmethode, vooral tegen meerronde varianten. Deze bevindingen benadrukken kwetsbaarheden in huidige agentsystemen.
Grote taalmmodellen (LLM's) hebben een toenemende effectiviteit getoond in Text-to-SQL-taken. Een ander nauw verwant probleem, Cross-System SQL-vertaling (ook wel SQL-to-SQL genoemd), waarbij een query geschreven voor één databasesysteem (bijv. MySQL) wordt aangepast naar een equivalente query voor een ander systeem (bijv. ClickHouse), is van groot praktisch belang maar blijft onderbelicht. Bestaande SQL-benchmarks zijn niet goed geschikt voor SQL-to-SQL-evaluatie, omdat ze (1) zich richten op een beperkte set databasesystemen (vaak alleen SQLite) en (2) veel systeemspecifieke SQL-dialecten niet kunnen vastleggen (bijv. aangepaste functies, gegevenstypen en syntaxisregels). Daarom introduceren we in dit artikel PARROT, een Praktische en Realistische BenchmaRk voor CrOss-System SQL-vertaling. PARROT bestaat uit 598 vertaalparen afkomstig uit 38 open-source benchmarks en real-world bedrijfsservices, specifiek samengesteld om het begrip van systeemspecifieke SQL uit te dagen (bijv. LLM's behalen gemiddeld minder dan 38,53% nauwkeurigheid). We bieden ook meerdere benchmarkvarianten, waaronder PARROT-Diverse met 28.003 vertalingen (voor uitgebreide syntaxtesten) en PARROT-Simple met 5.306 representatieve voorbeelden (voor gerichte stresstesten), die 22 productieklasse databasesystemen bestrijken. Om toekomstig onderzoek te bevorderen, hebben we een openbaar leaderboard en broncode vrijgegeven op: https://code4db.github.io/parrot-bench/.
Dit artikel introduceert MathBode, een dynamische diagnostische tool voor wiskundig redeneren in grote taalmodellen (LLMs). In plaats van éénmalige nauwkeurigheid behandelt MathBode elk parametrisch probleem als een systeem: we variëren één parameter sinusvormig en passen de eerste-harmonische responsen van modeluitvoer en exacte oplossingen aan. Dit levert interpreteerbare, frequentie-gespecificeerde metrieken op -- versterking (amplitudetracking) en fase (vertraging) -- die Bode-stijl vingerafdrukken vormen. Over vijf gesloten-vormfamilies (lineaire oplossing, ratio/verzadiging, samengestelde interest, 2x2 lineaire systemen, gelijkvormige driehoeken) onthult de diagnostiek systematisch laagdoorlaatgedrag en toenemende fasevertraging die nauwkeurigheid alleen verhult. We vergelijken verschillende modellen met een symbolische referentie die het instrument kalibreert (G ≈ 1, phi ≈ 0). De resultaten onderscheiden topmodellen van middenklassemodellen op dynamiek, en bieden een compact, reproduceerbaar protocol dat standaardbenchmarks aanvult met bruikbare metingen van redeneerbetrouwbaarheid en consistentie. We stellen de dataset en code openbaar om verder onderzoek en adoptie mogelijk te maken.
Unified video modeling dat generatie- en begripsmogelijkheden combineert, wordt steeds belangrijker maar wordt geconfronteerd met twee belangrijke uitdagingen: het behouden van semantische trouwheid tijdens flow-gebaseerde generatie vanwege een onbalans tussen tekstuele en visuele tokens en de beperkingen van uniforme cross-modale aandacht over de flowtrajectorie, en het efficiënt uitbreiden van beeldgerichte MLLM's naar video zonder kostbare hertraining. Wij presenteren UniVid, een uniforme architectuur die een MLLM koppelt aan een diffusiedecoder via een lichtgewicht adapter, waardoor zowel videobegrip als -generatie mogelijk wordt. We introduceren Temperature Modality Alignment om de promptnaleving te verbeteren en Pyramid Reflection voor efficiënte temporele redenering via dynamische keyframe-selectie. Uitgebreide experimenten op standaard benchmarks tonen state-of-the-art prestaties, met een verbetering van 2,2% op de VBench-Long totale score in vergelijking met EasyAnimateV5.1, en nauwkeurigheidsverbeteringen van 1,0% en 3,3% op respectievelijk MSVD-QA en ActivityNet-QA, vergeleken met de beste eerdere 7B-baselines.
Grote Redeneermodellen (LRMs) hebben opmerkelijke capaciteiten getoond in complexe probleemoplossing door middel van Chain-of-Thought (CoT) redenering. De meerstaps aard van CoT introduceert echter nieuwe veiligheidsuitdagingen die verder gaan dan conventionele uitlijning van taalmodel. We identificeren een faalmodus in huidige veiligheids CoT afstemmingsmethoden: het sneeuwbaleffect, waarbij kleine redeneerafwijkingen zich geleidelijk versterken gedurende het denkproces, wat leidt tot schadelijke naleving of overmatige weigering. Dit effect ontstaat doordat modellen worden getraind om perfecte redeneerscripten te imiteren zonder te leren om zichzelf te corrigeren. Om deze beperking aan te pakken, stellen we AdvChain voor, een uitlijningsparadigma dat modellen dynamische zelfcorrectie leert door middel van adversariële CoT afstemming. Onze methode omvat het construeren van een dataset met Verleiding-Correctie en Aarzeling-Correctie voorbeelden, waar modellen leren om te herstellen van schadelijke redeneerafwijkingen en onnodige voorzichtigheid. Uitgebreide experimenten tonen aan dat AdvChain de robuustheid tegen jailbreak-aanvallen en CoT-kaping aanzienlijk verbetert, terwijl het overmatige weigering op goedaardige prompts aanzienlijk vermindert, waardoor een superieure balans tussen veiligheid en bruikbaarheid wordt bereikt zonder de redeneercapaciteiten aan te tasten. Ons werk legt een nieuwe richting vast voor het bouwen van robuustere en betrouwbaardere redeneermodellen.
De snelle vooruitgang van Grote Multimodale Modellen (LMMs) en cloudgebaseerde AI-agenten transformeert mens-AI-samenwerking in bidirectionele, multimodale interactie. Bestaande codecs blijven echter geoptimaliseerd voor unidirectionele, eenrichtingscommunicatie, wat resulteert in herhaalde degradatie onder conventionele compressie-transmissie-reconstructiepijplijnen. Om deze beperking aan te pakken, stellen we UniMIC voor, een Unified token-based Multimodal Interactive Coding-framework dat randapparaten en cloud-AI-agenten verbindt. In plaats van ruwe pixels of platte tekst te verzenden, gebruikt UniMIC compacte getokeniseerde representaties als communicatiemedium, waardoor efficiënte transmissie met lage bitrate mogelijk wordt, terwijl compatibiliteit met LMMs behouden blijft. Om compressie verder te verbeteren, minimaliseren lichtgewicht Transformer-gebaseerde entropiemodellen met scenario-specifieke ontwerpen—generiek, gemaskeerd en tekst-geconditioneerd—effectief de redundantie tussen tokens. Uitgebreide experimenten op tekst-naar-beeldgeneratie, tekstgeleid inpainting, outpainting en visuele vraagbeantwoording tonen aan dat UniMIC aanzienlijke bitratebesparingen realiseert en robuust blijft, zelfs bij ultra-lage bitrates (<0.05bpp), zonder de prestaties van downstream taken in gevaar te brengen. Deze resultaten vestigen UniMIC als een praktisch en vooruitstrevend paradigma voor de volgende generatie multimodale interactieve communicatie.
Schaalbaarheid heeft recente vooruitgang in generatieve modellering gestimuleerd, maar de principes ervan blijven onderbelicht voor adversariële leerprocessen. Wij onderzoeken de schaalbaarheid van Generative Adversarial Networks (GANs) aan de hand van twee ontwerpkeuzes die effectief zijn gebleken in andere soorten generatieve modellen: trainen in een compacte latent space van Variational Autoencoders en het gebruik van puur transformer-gebaseerde generators en discriminators. Trainen in de latent space maakt efficiënte berekeningen mogelijk terwijl de perceptuele kwaliteit behouden blijft, en deze efficiëntie past natuurlijk bij plain transformers, waarvan de prestaties schalen met het rekenbudget. Op basis van deze keuzes analyseren we faalmodi die ontstaan bij het naïef opschalen van GANs. Specifiek vinden we problemen zoals onderbenutting van vroege lagen in de generator en instabiliteit in de optimalisatie naarmate het netwerk schaalt. Daarom bieden we eenvoudige en schaalvriendelijke oplossingen, zoals lichtgewicht tussentijdse supervisie en breedtebewuste aanpassing van de leerfrequentie. Onze experimenten tonen aan dat GAT, een puur transformer-gebaseerde en latent-space GAN, betrouwbaar en eenvoudig getraind kan worden over een breed scala aan capaciteiten (S tot XL). Bovendien behaalt GAT-XL/2 state-of-the-art prestaties voor single-step, klasse-conditionele generatie (FID van 2,96) op ImageNet-256 in slechts 40 epochs, wat 6x minder epochs is dan sterke baselines.
Doelgericht taalgestuurd navigeren vereist robuuste verkenningscapaciteiten voor agents om naar gespecificeerde doelen te navigeren in onbekende omgevingen zonder stap-voor-stap instructies. Bestaande methoden neigen ernaar uitsluitend kortste-pad trajecten te gebruiken, waarbij effectieve verkenningsprioriteiten ontbreken voor het trainen van navigatieagents. Om deze uitdagingen aan te pakken, presenteren we SID, een doelgericht taalgestuurd navigatieleerbenadering met Zelf-Verbeterende Demonstraties. Specifiek leert SID een initieel agent op de kortste-pad data die uit omgevingen is bemonsterd en gebruikt vervolgens dit agent om nieuwe verkenningspaden te genereren. De nieuwe rollouts bieden demonstraties met sterkere verkenningsstrategieën om een beter agent te trainen, dat op zijn beurt weer demonstraties van hogere kwaliteit produceert voor de volgende trainingsronde. We laten zien dat deze iteratieve zelfverbeterende pipeline gemakkelijk schaalt naar nieuwe omgevingen, en dat de resulterende demonstraties kunnen worden overgedragen naar een verscheidenheid aan taalgestuurde navigatietaken, waardoor de prestatiegrens in diverse doelgerichte navigatietaken wordt verhoogd. Uitgebreide experimenten tonen aan dat SID de verkenningscapaciteiten en generalisatie van navigatieagents aanzienlijk verbetert. Het resulterende agent behaalt nieuwe state-of-the-art prestaties op doelgerichte taalgestuurde navigatietaken, waaronder REVERIE, SOON, met name een slagingspercentage van 50,9% op de onbekende validatiesplits van SOON, waarmee het de voorgaande leidende benaderingen met een marge van 13,9% overtreft.
Test-Driven Development (TDD) is een veelgebruikte software-engineeringpraktijk waarbij ontwikkelaars tests moeten maken en uitvoeren naast de code-implementatie, om ervoor te zorgen dat het gedrag van de software continu wordt gevalideerd en verfijnd. In het tijdperk van 'vibe coding', waarbij ontwikkelaars steeds vaker het schrijven van code delegeren aan grote taalmodelen (LLMs) door hoogwaardige intenties te specificeren, wordt TDD nog belangrijker, omdat testgevallen dienen als uitvoerbare specificaties die de beoogde functionaliteit expliciet definiëren en verifiëren, verdergaand dan wat natuurlijke-taalbeschrijvingen en codecontext kunnen overbrengen. Hoewel 'vibe coding' onder TDD veelbelovend is, zijn er drie belangrijke uitdagingen: (1) het selecteren van een kleine maar effectieve testsuite om de generatienauwkeurigheid te verbeteren en de uitvoeringsbelasting te beheersen, (2) het effectief ophalen van context, zoals relevante code, en (3) het systematisch gebruiken van testfeedback voor effectieve coderefinering. Om deze uitdagingen aan te pakken, introduceren we TENET, een LLM-agent voor het genereren van functies in complexe real-world repositories onder de TDD-instelling. TENET beschikt over drie componenten: (1) een nieuw testharness-mechanisme dat een beknopte testsuite selecteert om de diversiteit van doelgebruiksscenario's te maximaliseren; (2) een op maat gemaakte agent-toolset die efficiënt relevante code ophaalt met interactieve debugging; en (3) een reflectiegebaseerde verfijningsworkflow die iteratief fouten analyseert, context aanvult en coderefinering toepast. TENET behaalt 69,08% en 81,77% Pass@1 op de RepoCod- en RepoEval-benchmarks, wat respectievelijk 9,49 en 2,17 procentpunt beter is dan de beste agentische baselines. Bovendien is dit de eerste studie naar testgedreven codegeneratie met repository-niveau context, waarbij wordt onderzocht hoe verschillende aspecten van testsuites de prestaties van LLM-agents onder de TDD-instelling beïnvloeden.
Het begrijpen van hoe Large Language Models (LLMs) complexe redeneringen uitvoeren en hun faalmechanismen is een uitdaging in interpretatieonderzoek. Om een meetbaar geometrisch analyseperspectief te bieden, definiëren we het concept van het Redeneermanifold, een latente laagdimensionale geometrische structuur gevormd door de interne representaties die corresponderen met alle correct geredeneerde generaties. Deze structuur kan worden gezien als de belichaming van de effectieve denkpaden die het model heeft geleerd om een bepaalde taak succesvol op te lossen. Op basis van dit concept bouwen we REMA, een raamwerk dat de oorsprong van fouten verklaart door de ruimtelijke relaties van interne modelrepresentaties die corresponderen met zowel foutieve als correcte redeneervoorbeelden kwantitatief te vergelijken. Specifiek kwantificeert REMA eerst de geometrische afwijking van elke foutieve representatie door de k-nearest neighbors afstand te berekenen tot het benaderde manifold gevormd door correcte representaties, waardoor een uniform faalsignaal wordt geboden. Vervolgens lokaliseert het de divergentiepunten waar deze afwijkingen voor het eerst significant worden door deze afwijkingsmetriek te volgen over de lagen van het model en deze te vergelijken met een basislijn van interne fluctuaties van correcte representaties, waardoor wordt geïdentificeerd waar de redeneerketen begint af te wijken. Onze uitgebreide experimenten op diverse taal- en multimodale modellen en taken demonstreren de laagdimensionale aard van het redeneermanifold en de hoge scheidbaarheid tussen foutieve en correcte redeneerrepresentaties. De resultaten valideren ook de effectiviteit van het REMA-raamwerk bij het analyseren van de oorsprong van redeneerfouten. Dit onderzoek verbindt abstracte redeneerfouten met meetbare geometrische afwijkingen in representaties, wat nieuwe mogelijkheden biedt voor een diepgaand begrip en diagnose van de interne rekenprocessen van black-box modellen.
Gepaarde RGB-thermische gegevens zijn cruciaal voor visueel-thermische sensorfusie en cross-modaliteitstaken, waaronder belangrijke toepassingen zoals multi-modale beelduitlijning en -retrieval. De schaarste aan gesynchroniseerde en gekalibreerde RGB-thermische beeldparen vormt echter een grote belemmering voor vooruitgang in deze gebieden. Om deze uitdaging te overwinnen, is RGB-naar-Thermisch (RGB-T) beeldvertaling naar voren gekomen als een veelbelovende oplossing, waardoor de synthese van thermische beelden uit overvloedige RGB-datasets voor trainingsdoeleinden mogelijk wordt gemaakt. In deze studie stellen we ThermalGen voor, een adaptief op stroming gebaseerd generatief model voor RGB-T beeldvertaling, dat een RGB-beeldconditioneringsarchitectuur en een stijl-ontwarringsmechanisme omvat. Om grootschalige training te ondersteunen, hebben we acht publieke satelliet-lucht-, lucht- en grond-RGB-T gepaarde datasets samengesteld, en hebben we drie nieuwe grootschalige satelliet-lucht-RGB-T datasets geïntroduceerd--DJI-day, Bosonplus-day, en Bosonplus-night--die zijn vastgelegd over diverse tijden, sensortypes, en geografische regio's. Uitgebreide evaluaties over meerdere RGB-T benchmarks tonen aan dat ThermalGen vergelijkbare of superieure vertaalprestaties bereikt in vergelijking met bestaande GAN-gebaseerde en diffusie-gebaseerde methoden. Voor zover wij weten, is ThermalGen het eerste RGB-T beeldvertaalmodel dat in staat is om thermische beelden te synthetiseren die significante variaties in gezichtspunten, sensorkenmerken en omgevingsomstandigheden weerspiegelen. Projectpagina: http://xjh19971.github.io/ThermalGen
Kunstmatige intelligentie (AI) systemen, en met name Large Language Models (LLM's), worden steeds vaker ingezet voor creatieve taken zoals het genereren van wetenschappelijke ideeën, wat een vorm van generalisatie van trainingsdata vormt die niet wordt behandeld door bestaande conceptuele kaders. Ondanks de overeenkomsten met compositionele generalisatie (CG), is combinatorische creativiteit (CC) een open-eindig vermogen. In plaats van te evalueren op nauwkeurigheid of correctheid tegenover vaste doelen, wat in tegenspraak zou zijn met het open-eindige karakter van CC, stellen we een theoretisch kader en een algoritmische taak voor om outputs te beoordelen op basis van hun mate van nieuwheid en nut. Vanuit hier leveren we verschillende belangrijke empirische bijdragen: (1) We verkrijgen de eerste inzichten in het schaalgedrag van creativiteit voor LLM's. (2) We ontdekken dat er, voor vaste rekenbudgetten, optimale modeldieptes en -breedtes bestaan voor creatief vermogen. (3) We constateren dat de kloof tussen ideeënvorming en uitvoering, waarbij LLM's uitblinken in het genereren van nieuwe wetenschappelijke ideeën maar moeite hebben om hun praktische haalbaarheid te waarborgen, verklaard kan worden door een meer fundamentele afweging tussen nieuwheid en nut die kenmerkend is voor creativiteitsalgoritmen in het algemeen. Belangrijk is dat deze afweging zelfs op schaal persistent blijft, wat twijfel zaait over het langetermijncreatieve potentieel van LLM's in hun huidige vorm. Samen bieden ons conceptuele kader en empirische bevindingen een basis voor het begrijpen en verbeteren van creativiteit in moderne AI-modellen, waardoor de kloof tussen menselijke en machine-intelligentie wordt overbrugd.
Wikipedia is het grootste open kennisbestand, wereldwijd veelgebruikt en een belangrijke bron voor het trainen van grote taalmodellen (LLM's) en retrieval-augmented generation (RAG)-systemen. Het waarborgen van de nauwkeurigheid ervan is daarom cruciaal. Maar hoe accuraat is Wikipedia, en hoe kunnen we het verbeteren? We richten ons op inconsistenties, een specifiek type feitelijke onnauwkeurigheid, en introduceren de taak van corpusniveau inconsistentiedetectie. We presenteren CLAIRE, een agent-gebaseerd systeem dat LLM-redeneringen combineert met retrieval om potentieel inconsistente beweringen te identificeren, samen met contextueel bewijsmateriaal voor menselijke beoordeling. In een gebruikersstudie met ervaren Wikipedia-redacteurs gaf 87,5% aan meer vertrouwen te hebben bij het gebruik van CLAIRE, en deelnemers identificeerden 64,7% meer inconsistenties in dezelfde tijdsduur. Door CLAIRE te combineren met menselijke annotatie, dragen we WIKICOLLIDE bij, de eerste benchmark van echte Wikipedia-inconsistenties. Met behulp van willekeurige steekproeven en CLAIRE-ondersteunde analyse vinden we dat ten minste 3,3% van de feiten op de Engelstalige Wikipedia een ander feit tegenspreekt, waarbij inconsistenties doorwerken in 7,3% van de FEVEROUS- en 4,0% van de AmbigQA-voorbeelden. Het benchmarken van sterke baselines op deze dataset laat aanzienlijke ruimte voor verbetering zien: het beste volledig geautomatiseerde systeem behaalt slechts een AUROC van 75,1%. Onze resultaten tonen aan dat tegenstrijdigheden een meetbaar onderdeel zijn van Wikipedia en dat LLM-gebaseerde systemen zoals CLAIRE een praktisch hulpmiddel kunnen bieden om redacteurs te helpen kennisconsistentie op grote schaal te verbeteren.
Het voorspellen van menselijke mobiliteit is inherent uitdagend vanwege complexe langeafstandsafhankelijkheden en multischalige periodieke gedragingen. Om dit aan te pakken, introduceren we RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility), een uniform raamwerk dat grote taalmodelen (LLM's) benut als algemene ruimtelijk-temporele voorspellers en trajectredeneerders. Methodologisch gezien gebruikt RHYTHM temporele tokenisatie om elk traject op te delen in dagelijkse segmenten en deze te coderen als discrete tokens met hiërarchische aandacht die zowel dagelijkse als wekelijkse afhankelijkheden vastlegt, waardoor de sequentielengte aanzienlijk wordt verminderd terwijl cyclische informatie behouden blijft. Daarnaast verrijken we de tokenrepresentaties door vooraf berekende prompt-embeddings toe te voegen voor trajectsegmenten en voorspeldoelen via een bevroren LLM, en voeden we deze gecombineerde embeddings terug in de LLM-backbone om complexe onderlinge afhankelijkheden vast te leggen. Computationeel bevriest RHYTHM de vooraf getrainde LLM-backbone om de aandachtcomplexiteit en geheugenkosten te verminderen. We evalueren ons model tegen state-of-the-art methoden met behulp van drie real-world datasets. Opmerkelijk is dat RHYTHM een verbetering van 2,4% in algehele nauwkeurigheid, een toename van 5,0% in weekenden en een reductie van 24,6% in trainings tijd bereikt. De code is publiekelijk beschikbaar op https://github.com/he-h/rhythm.
Bij het direct bewerken vanuit het leven hebben fotografen het te moeilijk gevonden om tegelijkertijd zowel het blauw als de lucht te zien. Fotograaf en curator Szarkowski onthulde op inzichtelijke wijze een van de opmerkelijke verschillen tussen algemeen en esthetisch visueel begrip: terwijl het eerste zich richt op het identificeren van het feitelijke element in een beeld (de lucht), gaat het laatste verder dan dergelijke objectidentificatie en ziet het in plaats daarvan een esthetisch component – een zuiver kleurvlak (blauw). Dergelijke fundamentele verschillen tussen algemeen (detectie, lokalisatie, etc.) en esthetisch (kleur, belichting, compositie, etc.) visueel begrip vormen een aanzienlijke uitdaging voor Multimodale Large Language Models (MLLMs). Hoewel sommige recente werken eerste verkenningen hebben gedaan, zijn ze vaak beperkt tot algemeen en basis esthetisch gezond verstand. Als gevolg schieten ze vaak tekort in realistische scenario’s (Fig. 1), die uitgebreide expertise vereisen – inclusief fotografische technieken, kennis van foto voor- en nabewerking, en meer, om een gedetailleerde analyse en beschrijving te kunnen geven. Om het esthetisch begrip van MLLMs fundamenteel te verbeteren, introduceren we eerst een nieuwe dataset, PhotoCritique, afgeleid van uitgebreide discussies onder professionele fotografen en enthousiastelingen, en gekenmerkt door de grote schaal, expertise en diversiteit. Vervolgens stellen we, om visuele esthetiek beter te leren uit PhotoCritique, een nieuw model voor, PhotoEye, dat beschikt over een taalgeleid multi-view visie fusiemechanisme om beeldesthetiek vanuit meerdere perspectieven te begrijpen. Tot slot presenteren we een nieuwe benchmark, PhotoBench, een uitgebreide en professionele benchmark voor esthetisch visueel begrip. Op bestaande benchmarks en PhotoBench toont ons model duidelijke voordelen ten opzichte van bestaande modellen.
Het vermogen om lange documenten beknopt samen te vatten wordt steeds belangrijker in het dagelijks leven vanwege informatie-overload, maar er is een opvallend gebrek aan dergelijke samenvattingen voor Spaanse documenten in het algemeen, en in het juridische domein in het bijzonder. In dit werk presenteren we BOE-XSUM, een gecureerde dataset bestaande uit 3.648 beknopte, eenvoudige samenvattingen van documenten afkomstig uit Spanje's ``Boletín Oficial del Estado'' (BOE), het Staatsblad. Elke vermelding in de dataset bevat een korte samenvatting, de originele tekst en het label van het documenttype. We evalueren de prestaties van middelgrote grote taalmodellen (LLM's) die zijn afgestemd op BOE-XSUM, en vergelijken deze met algemene generatieve modellen in een zero-shot setting. De resultaten laten zien dat afgestemde modellen aanzienlijk beter presteren dan hun niet-gespecialiseerde tegenhangers. Opmerkelijk is dat het best presterende model -- BERTIN GPT-J 6B (32-bit precisie) -- een prestatieverbetering van 24% behaalt ten opzichte van het beste zero-shot model, DeepSeek-R1 (nauwkeurigheden van 41,6% vs. 33,5%).
Dit artikel presenteert BPMN Assistant, een tool die gebruikmaakt van Large Language Models (LLMs) voor het maken en bewerken van BPMN-diagrammen op basis van natuurlijke taal. Een gespecialiseerde JSON-gebaseerde representatie wordt geïntroduceerd als een gestructureerd alternatief voor de directe verwerking van XML, om de nauwkeurigheid van proceswijzigingen te verbeteren. De kwaliteit van procesgeneratie wordt geëvalueerd met behulp van Graph Edit Distance (GED) en Relative Graph Edit Distance (RGED), terwijl de bewerkingsprestatie wordt beoordeeld met een binaire succescriterium. De resultaten tonen aan dat JSON en XML vergelijkbare gelijkenisscores behalen bij generatie, maar JSON biedt grotere betrouwbaarheid, snellere verwerking en aanzienlijk hogere succespercentages bij bewerkingen. We bespreken belangrijke afwegingen, beperkingen en toekomstige verbeteringen. De implementatie is beschikbaar op https://github.com/jtlicardo/bpmn-assistant.
We introduceren ADAM (A Diverse Archive of Mankind), een raamwerk voor het evalueren en verbeteren van multimodale grote taalmodellen (MLLMs) in biografisch redeneren. Voor zover wij weten, is dit het eerste werk dat systematisch de mogelijkheden van LLMs in biografieën onderzoekt, een cruciaal maar onderbelicht aspect van feitelijke kennis. De kern van ADAM bestaat uit AdamDB, een meertalige en multimodale dataset die meer dan 4 miljoen individuen omvat, verspreid over geografie, tijd en beroep, terwijl AdamBench cognitief gestructureerde evaluaties biedt op basis van de taxonomie van Bloom, die zes redeneerniveaus omvat in zowel het Engels als in moedertalen. Om hallucinaties aan te pakken, vooral voor minder bekende individuen, stellen we AdamRAG voor, een retrieval-augmented generatiesysteem dat is toegespitst op biografische contexten. Experimenten tonen aan dat AdamRAG opensource-modellen aanzienlijk verbetert en bescheiden voordelen biedt voor closed-source modellen, met de grootste vooruitgang op lagere redeneerniveaus. Populariteit heeft een sterke invloed op de nauwkeurigheid, en multimodale invoer via gezichtsafbeeldingen biedt kleinere, minder consistente verbeteringen dan retrieval. ADAM stelt de eerste benchmark en het eerste raamwerk vast voor cognitief, cultureel en multimodaal onderbouwde biografische evaluatie, wat de ontwikkeling bevordert van meertalige, nauwkeurige en hallucinatiebestendige MLLMs.
Het genereren van nauwkeurige en gekalibreerde betrouwbaarheidsschattingen is cruciaal voor het inzetten van LLM's in hoogrisico- of gebruikersgerichte toepassingen, en blijft een open uitdaging. Eerder onderzoek heeft betrouwbaarheid vaak benaderd als een probleem van het oproepen van het "zelfbewustzijn" van een model, d.w.z. het vermogen van een LLM om te beoordelen of zijn eigen antwoorden correct zijn; deze benadering gaat er impliciet van uit dat er bepaalde geprivilegieerde informatie over de juistheid van het antwoord beschikbaar is voor het model zelf. Onze experimenten laten echter zien dat een LLM die probeert de juistheid van zijn eigen uitvoer te voorspellen, over het algemeen niet beter presteert dan een ongerelateerde LLM. Bovendien stellen we de hypothese dat een sleutelfactor bij het bouwen van een "Correctheidsmodel" (CM) blootstelling aan de historische voorspellingen van een doelmodel is. We stellen meerdere methoden voor om deze historische correctheidsinformatie in te brengen, waardoor een Gegeneraliseerd Correctheidsmodel (GCM) ontstaat. We tonen eerst aan dat GCM's kunnen worden getraind op de correctheidsgegevens van veel LLM's en patronen kunnen leren voor correctheidsvoorspelling die toepasbaar zijn over verschillende datasets en modellen. Vervolgens gebruiken we CM's als een lens om de bron van het correctheidsvoorspellingsvermogen en de generalisatie ervan te bestuderen, waarbij we systematisch hun trainingsdata controleren en vaststellen dat de formulering van het antwoord een sterke voorspeller is voor correctheid. We onderzoeken verder alternatieve methoden om geschiedenis in te brengen zonder een LLM te trainen, en ontdekken dat het opnemen van geschiedenis als in-context voorbeelden kan helpen bij het verbeteren van correctheidsvoorspelling, en dat post-hoc kalibratie aanvullende verminderingen in kalibratiefouten kan bieden. We evalueren GCM's gebaseerd op Qwen3-8B over 5 modelfamilies en de MMLU- en TriviaQA-datasets, evenals op een downstream selectieve voorspellingstaak, en concluderen dat betrouwbare LLM-betrouwbaarheidsschatting een generaliseerbare en model-agnostische vaardigheid is die wordt geleerd door systematisch correctheidsgeschiedenis te coderen, in plaats van een modelspecifieke vaardigheid die afhankelijk is van zelfintrospectie.
Reinforcement learning met stochastische optimale controle biedt een veelbelovend raamwerk voor diffusie-finetuning, waarbij een vooraf getraind diffusiemodel wordt geoptimaliseerd om paden te genereren die leiden naar een beloning-georiënteerde verdeling. Hoewel deze benaderingen optimalisatie mogelijk maken zonder expliciete voorbeelden van de optimale verdeling, vereisen ze training op rollouts onder het huidige gefinetunede model, waardoor ze vatbaar zijn voor het versterken van suboptimale trajecten die slechte beloningen opleveren. Om deze uitdaging te overwinnen, introduceren we TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), een nieuw raamwerk dat beloning-gestuurde discrete diffusietrajecten optimaliseert met behulp van boomzoeken om replay-buffers te construeren voor trajectbewuste finetuning. Deze buffers worden gegenereerd met behulp van Monte Carlo Tree Search (MCTS) en vervolgens gebruikt om een vooraf getraind discreet diffusiemodel te finetunen onder een stochastisch optimaal controle-doel. We valideren ons raamwerk op enkelvoudige en meervoudige doelstellingen voor finetuning van biologische sequentiediffusiemodellen, waarbij de algehele effectiviteit van TR2-D2 voor betrouwbare beloning-gestuurde finetuning in discrete sequentiegeneratie wordt benadrukt.
Video-ondertitels bieden beknopte momentopnamen van acteurs, objecten en acties binnen een video, en zijn waardevolle hulpmiddelen voor toepassingen zoals vraagbeantwoording en gebeurtenislokalisatie. Het verkrijgen van menselijke annotaties voor video-ondertitels is echter kostbaar of zelfs onpraktisch, vooral bij het omgaan met diverse videodomeinen. Bestaande modellen die getraind zijn op begeleide datasets, ondervinden uitdagingen bij het evalueren van prestaties over verschillende domeinen vanwege de afhankelijkheid van referentiegebaseerde evaluatieprotocollen, die grondwaarheid-ondertitels vereisen. Deze aanname is onrealistisch voor het evalueren van video's in het wild. Om deze beperkingen aan te pakken, stellen we een referentievrij evaluatiekader voor dat geen grondwaarheid-ondertitels vereist, met een focus op feitelijke onderbouwing om een nauwkeurige beoordeling van de ondertitelkwaliteit te waarborgen. We introduceren VC-Inspector, een innovatieve ondertitelkwaliteitsevaluator die zowel referentievrij als feitelijk onderbouwd is. Door gebruik te maken van grote taalmodellen, genereren we pseudo-ondertitels van variërende kwaliteit op basis van begeleide data, die vervolgens worden gebruikt om een multimodaal model (d.w.z. Qwen2.5-VL) te trainen als evaluator. Onze aanpak toont een superieure afstemming met menselijke oordelen op de VATEX-Eval dataset, en overtreft bestaande methoden. De prestaties generaliseren ook naar beeldondertitel-datasets, Flickr8K-Expert en Flickr8K-CF, wanneer afbeeldingen worden gezien als 1-frame video's. Over het algemeen biedt VC-Inspector een schaalbare en generaliseerbare oplossing voor het evalueren van de feitelijke nauwkeurigheid van video-ondertitels, en baant zo de weg voor effectievere en objectievere beoordelingsmethodologieën in diverse videodomeinen.
In het afgelopen decennium hebben Computationele Linguïstiek (CL) en Natural Language Processing (NLP) een snelle ontwikkeling doorgemaakt, vooral met de opkomst van Transformer-gebaseerde Large Language Models (LLMs). Deze verschuiving heeft de onderzoeksdoelen en -prioriteiten getransformeerd, van Lexicale en Semantische Bronnen naar Taalmodellering en Multimodaliteit. In deze studie volgen we de onderzoeksontwikkelingen van de Italiaanse CL- en NLP-gemeenschap door een analyse van de bijdragen aan CLiC-it, ongetwijfeld de belangrijkste Italiaanse conferentie op dit gebied. We hebben de proceedings van de eerste 10 edities van de CLiC-it conferentie (van 2014 tot 2024) samengebracht in het CLiC-it Corpus, waarbij we een uitgebreide analyse bieden van zowel de metadata, waaronder herkomst, geslacht en affiliaties van auteurs, als de inhoud van de papers zelf, die verschillende onderwerpen behandelen. Ons doel is om de Italiaanse en internationale onderzoeksgemeenschappen waardevolle inzichten te bieden in opkomende trends en belangrijke ontwikkelingen door de tijd heen, om zo geïnformeerde beslissingen en toekomstige richtingen in het veld te ondersteunen.