Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We stellen QeRL voor, een Quantization-enhanced Reinforcement Learning-framework voor grote taalmodellen (LLMs). Hoewel RL essentieel is voor de redeneervaardigheden van LLMs, is het resource-intensief en vereist het aanzienlijk GPU-geheugen en lange rollout-duur. QeRL lost deze problemen op door NVFP4-kwantisatie te combineren met Low-Rank Adaptation (LoRA), waardoor de rollout-fase van RL wordt versneld en de geheugenoverhead wordt verminderd. Naast efficiëntie tonen onze bevindingen aan dat kwantisatieruis de beleidsentropie verhoogt, wat de exploratie verbetert en het mogelijk maakt om betere strategieën te ontdekken tijdens RL. Om de exploratie verder te optimaliseren, introduceert QeRL een Adaptief Kwantisatieruis (AQN)-mechanisme, dat het ruis dynamisch aanpast tijdens de training. Experimenten tonen aan dat QeRL een versnelling van meer dan 1,5 keer oplevert in de rollout-fase. Bovendien is dit het eerste framework dat RL-training van een 32B LLM op een enkele H100 80GB GPU mogelijk maakt, terwijl het algemene versnellingen biedt voor RL-training. Het bereikt ook een snellere beloningsgroei en een hogere eindnauwkeurigheid dan 16-bit LoRA en QLoRA, terwijl het de prestaties evenaart van volledige-parameter fine-tuning op wiskundige benchmarks zoals GSM8K (90,8%) en MATH 500 (77,4%) in het 7B-model. Deze resultaten vestigen QeRL als een efficiënt en effectief framework voor RL-training in LLMs.
Latente generatieve modellering, waarbij een vooraf getrainde autoencoder pixels afbeeldt naar een latente ruimte voor het diffusieproces, is de standaardstrategie geworden voor Diffusion Transformers (DiT); de autoencoder-component is echter nauwelijks geëvolueerd. De meeste DiT's blijven vertrouwen op de originele VAE-encoder, wat verschillende beperkingen met zich meebrengt: verouderde backbones die architectonische eenvoud in gevaar brengen, laagdimensionale latente ruimtes die de informatiecapaciteit beperken, en zwakke representaties die voortkomen uit puur op reconstructie gebaseerde training en uiteindelijk de generatieve kwaliteit beperken. In dit werk onderzoeken we het vervangen van de VAE door vooraf getrainde representatie-encoders (bijv. DINO, SigLIP, MAE) in combinatie met getrainde decoders, wat we Representation Autoencoders (RAE's) noemen. Deze modellen bieden zowel hoogwaardige reconstructies als semantisch rijke latente ruimtes, terwijl ze een schaalbare transformer-gebaseerde architectuur mogelijk maken. Omdat deze latente ruimtes doorgaans hoogdimensionaal zijn, is een belangrijke uitdaging om diffusie-transformers effectief te laten werken binnen deze ruimtes. We analyseren de bronnen van deze moeilijkheid, stellen theoretisch onderbouwde oplossingen voor en valideren deze empirisch. Onze aanpak bereikt snellere convergentie zonder aanvullende representatie-uitlijningsverliezen. Met een DiT-variant uitgerust met een lichtgewicht, brede DDT-head behalen we sterke beeldgeneratieresultaten op ImageNet: 1.51 FID bij 256x256 (zonder begeleiding) en 1.13 bij zowel 256x256 als 512x512 (met begeleiding). RAE biedt duidelijke voordelen en zou de nieuwe standaard moeten zijn voor het trainen van diffusie-transformers.
Autoregressieve (AR) modellen blijven de standaard voor natuurlijke taalgeneratie, maar lijden nog steeds onder hoge latentie vanwege strikt sequentiële decodering. Recente, door diffusie geïnspireerde benaderingen, zoals LlaDA en Dream, verminderen dit door parallel te genereren, maar ze hebben twee kernbeperkingen: informatieverlies, omdat voorspellende distributies voor niet-afgeronde tokens bij elke stap worden weggegooid, en voortijdige vastlegging, waarbij lokale beslissingen worden genomen zonder voldoende globale coördinatie. Wij introduceren Latent Refinement Decoding (LRD), een tweestaps raamwerk met Latent Refinement en een Predictive Feedback Loop. De eerste fase houdt gemaskeerde posities als distributiemengsels van voorspelde tokens en de masker-embedding in stand, waardoor het model meer globaal consistente overtuigingen kan vormen. De tweede fase finaliseert geleidelijk zelfverzekerde tokens terwijl onzekere tokens behouden blijven voor iteratieve feedback. KL-divergentie dynamiek biedt een principieel en betrouwbaar criterium voor convergentie en vroegtijdig stoppen. Experimenten op het gebied van codering (HumanEval +6.3, MBPP +2.6) en redeneren (GSM8K +2.9, MATH500 +3.8) tonen aan dat LRD de nauwkeurigheid verbetert terwijl het snelheidsverbeteringen tot 10.6x levert, waardoor het een sterke en veelzijdige alternatief is voor parallelle sequentiegeneratie.
Recente vooruitgang in multimodale grote taalmodellen (MLLMs) heeft aanzienlijk potentieel getoond in videobegrip. Bestaande benchmarks slagen er echter niet in om synergetische redeneervaardigheden over audio- en visuele modaliteiten uitgebreid te evalueren, waarbij vaak één van de modaliteiten wordt verwaarloosd of ze op een logisch inconsistente manier worden geïntegreerd. Om deze kloof te overbruggen, introduceren we OmniVideoBench, een grootschalige en zorgvuldig ontworpen benchmark die is gewijd aan het beoordelen van synergetisch audio-visueel begrip, met een sterke nadruk op modaliteitscomplementariteit en logische consistentie. Specifiek bestaat OmniVideoBench uit 1000 hoogwaardige vraag-antwoordparen (QA), elk geannoteerd met stapsgewijze redeneersporen, afgeleid van 628 diverse video's variërend van enkele seconden tot 30 minuten, en handmatig geverifieerd om volledige correctheid en uniciteit te garanderen. Bovendien omvat OmniVideoBench 13 zorgvuldig ontworpen vraagtypen, die temporeel redeneren, ruimtelijke lokalisatie, tellen, causale inferentie, samenvatting en meer bestrijken, waardoor de essentiële uitdagingen van videobegrip worden vastgelegd. Evaluatie van meerdere MLLMs op OmniVideoBench onthult een opvallend gat tussen modelprestaties en menselijk redeneren, waarbij open-source modellen aanzienlijk achterblijven bij hun closed-source tegenhangers, wat de inherente moeilijkheid van echt audio-visueel redeneren onderstreept. We zullen OmniVideoBench vrijgeven om de ontwikkeling van MLLMs met sterkere en meer generaliseerbare redeneervaardigheden te bevorderen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is recent naar voren gekomen als een veelbelovend raamwerk voor het verbeteren van redeneervaardigheden in Grote Taalmodellen (LLMs). Echter, een beleid dat geoptimaliseerd is met binaire verificatie heeft de neiging om waardevolle verkenning in het redeneertraject over het hoofd te zien. Gezien de hoge annotatiekosten van gouden Proces Beloningsmodellen (PRMs), hebben recente werken geprobeerd om hulpsignalen te gebruiken voor het vormen van beloningen voor proces tokens, waarbij entropie en waarschijnlijkheid verzameld uit de logit-ruimte betrokken zijn. In dit werk bieden we een nieuw perspectief op het vormen van RLVR met stroombeloningen afgeleid uit de latente ruimte, en stellen we RLFR voor, waarbij de stroomvelden van model latents worden geconstrueerd uit off-policy hoogwaardige data en on-policy afwijzingssteekproefdata, en de snelheidsafwijkingen van beleids latents daarin worden gekwantificeerd om als beloningssignaal te dienen. RLFR toont eerst aan dat een goed gevestigd stroomveld een geschikte omgeving kan zijn voor het verzamelen van beloningssignalen, wat benadrukt dat de expressieve latente ruimte sterk onderbenut is. Bovendien is RLFR in staat om off-policy expertdata te comprimeren als referentie voor het vormen van beloningssignalen, en we laten zien dat de efficiënte contextafhankelijkheid die in de verborgen toestanden is gecomprimeerd, wordt benut, in plaats van individuele token-level aanduidingen voor contextbegrip. Experimenten op zowel taal- als multimodale redeneerbenchmarks demonstreren de betrouwbaarheid van stroombeloningen, en suggereren een veelbelovend paradigma voor het vormen van beloningen met hulpsignalen.
Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) de redeneervaardigheden van Grote Visueel-Taalmodellen (LVLMs) heeft verbeterd, negeren de meeste bestaande methoden in multimodale redenering de cruciale rol van visuele perceptie binnen het RLVR-optimalisatieproces. In dit artikel ondernemen we een baanbrekende verkenning van multimodale RLVR vanuit het nieuwe perspectief van tokenperceptie, die de visuele afhankelijkheid van elke gegenereerde token meet. Met een gedetailleerde analyse van Chain-of-Thought (CoT)-processen ontdekken we twee belangrijke inzichten: ten eerste is tokenperceptie in een rollout-trajectory spaarzaam verdeeld, waarbij slechts een klein deel van de tokens een hoge visuele afhankelijkheid heeft voor visueel onderbouwde redenering; ten tweede vertonen verschillende trajectories een aanzienlijke divergentie in hun algehele visuele afhankelijkheid. Op basis van deze observaties stellen we Visually-Perceptive Policy Optimization (VPPO) voor, een nieuw policy gradient-algoritme dat expliciet gebruikmaakt van tokenperceptie om het leersignaal te verfijnen. Specifiek bereikt VPPO dit via een dubbel mechanisme: het herweegt het voordeel van een trajectory op basis van de algehele visuele afhankelijkheid, en richt policy-updates uitsluitend op perceptueel cruciale tokens. Op een uitgebreide set van acht perceptie- en redeneerbenchmarks toont VPPO aanzienlijke verbeteringen ten opzichte van toonaangevende open-source RL-getunede modellen, waarbij de effectiviteit consistent wordt gevalideerd op zowel 7B- als 32B-modelschalen. Onze bevindingen vestigen niet alleen een nieuw tokenniveau perceptueel perspectief voor het analyseren van multimodale RLVR, maar presenteren ook een nieuwe en effectieve optimalisatiestrategie om de multimodale redeneervaardigheden van LVLMs aanzienlijk te verbeteren.
Algemene SVG-modellering blijft een uitdaging vanwege gefragmenteerde datasets, beperkte overdraagbaarheid van methoden tussen taken en de moeilijkheid om structurele complexiteit te hanteren. Als reactie hierop benutten we de sterke overdracht- en generalisatiecapaciteiten van multimodale grote taalmodellen (MLLMs) om een geünificeerde modellering te bereiken voor SVG-begrip, -bewerking en -generatie. We presenteren de InternSVG-familie, een geïntegreerde data-benchmark-model suite. De kern hiervan is SAgoge, de grootste en meest uitgebreide multimodale dataset voor SVG-taken, die zowel statische afbeeldingen als dynamische animaties omvat. Het bestrijkt iconen, lange-sequentie illustraties, wetenschappelijke diagrammen en dynamische animaties, ondersteunt taken van verschillende moeilijkheidsgraden en biedt diepere hiërarchieën met rijkere attributen in vergelijking met eerdere datasets. Op basis van deze bron introduceren we SArena, een begeleidende benchmark met uitgebreide taakdefinities en gestandaardiseerde evaluatie die aansluit bij de domeinen en het moeilijkheidsspectrum dat door SAgoge wordt bestreken. Op deze fundamenten voortbouwend, stellen we InternSVG voor, een geünificeerd MLLM voor SVG-begrip, -bewerking en -generatie met SVG-specifieke speciale tokens, subwoord-gebaseerde embedding-initialisatie en een tweefasige trainingsstrategie die evolueert van korte statische SVG's naar lange-sequentie illustraties en complexe animaties. Deze geünificeerde formulering induceert positieve overdracht en verbetert de algehele prestaties. Experimenten op SArena en eerdere benchmarks bevestigen dat InternSVG aanzienlijke winsten behaalt en consistent beter presteert dan toonaangevende open en propriëtaire tegenhangers.
Recentelijk heeft de opkomst van agentische RL aangetoond dat RL ook effectief het agentische redeneervermogen van LLM's kan verbeteren, hoewel de belangrijkste ontwerpprincipes en optimale praktijken nog onduidelijk blijven. In dit werk voeren we een uitgebreid en systematisch onderzoek uit om reinforcement learning in agentisch redeneren te ontrafelen vanuit drie sleutelperspectieven: data, algoritme en redeneermodus. We benadrukken onze belangrijkste inzichten: (i) Het vervangen van samengestelde synthetische trajecten door echte end-to-end tool-use trajecten resulteert in een veel sterkere SFT-initialisatie; datasets met hoge diversiteit en modelbewustzijn ondersteunen exploratie en verbeteren de RL-prestaties aanzienlijk. (ii) Exploratievriendelijke technieken zijn cruciaal voor agentische RL, zoals het beperken van hogere waarden, het vormen van overmatige beloningen en het behouden van voldoende beleidsentropie, wat de trainings efficiëntie kan verbeteren. (iii) Een weloverwogen strategie met minder tool-aanroepen presteert beter dan frequente tool-aanroepen of uitgebreid zelfredeneren, wat de tool-efficiëntie en uiteindelijke nauwkeurigheid verbetert. Samen zorgen deze eenvoudige praktijken voor een consistente verbetering van het agentische redeneervermogen en de trainings efficiëntie, wat sterke resultaten oplevert op uitdagende benchmarks met kleinere modellen en een praktische basis legt voor toekomstig agentisch RL-onderzoek. Naast deze empirische inzichten dragen we verder bij met een hoogwaardige, echte end-to-end agentische SFT-dataset, samen met een hoogwaardige RL-dataset, en demonstreren we de effectiviteit van onze inzichten in het verbeteren van het agentische redeneervermogen van LLM's over vier uitdagende benchmarks, waaronder AIME2024/AIME2025, GPQA-Diamond en LiveCodeBench-v6. Met onze aanpak kunnen zelfs modellen van 4B grootte superieur agentisch redeneervermogen bereiken in vergelijking met modellen van 32B grootte. Code en modellen: https://github.com/Gen-Verse/Open-AgentRL
In dit werk stellen we DiT360 voor, een op DiT gebaseerd framework dat hybride training uitvoert op perspectief- en panoramische data voor het genereren van panoramische beelden. Voor de problemen van het behouden van geometrische nauwkeurigheid en fotorealisme in de generatiekwaliteit, schrijven we de belangrijkste reden toe aan het gebrek aan grootschalige, hoogwaardige, real-world panoramische data, waarbij deze data-gerichte benadering verschilt van eerdere methoden die zich richten op modelontwerp. In essentie heeft DiT360 verschillende sleutelmodules voor inter-domein transformatie en intra-domein augmentatie, toegepast op zowel het pre-VAE beeldniveau als het post-VAE tokenniveau. Op beeldniveau integreren we cross-domein kennis door middel van perspectiefbeeldbegeleiding en panoramische verfijning, wat de perceptuele kwaliteit verbetert terwijl diversiteit en fotorealisme worden gereguleerd. Op tokenniveau wordt hybride supervisie toegepast over meerdere modules, waaronder circulaire padding voor grenscontinuïteit, yaw-verlies voor rotatierobustheid en kubusverlies voor bewustzijn van vervorming. Uitgebreide experimenten op tekst-naar-panorama, inpainting en outpainting taken tonen aan dat onze methode betere grensconsistentie en beeldnauwkeurigheid bereikt over elf kwantitatieve metrieken. Onze code is beschikbaar op https://github.com/Insta360-Research-Team/DiT360.
Audiovisuele videobijschriftgeving heeft als doel semantisch rijke beschrijvingen te genereren met temporele afstemming tussen visuele en auditieve gebeurtenissen, waardoor zowel videobegrip als -generatie worden bevorderd. In dit artikel presenteren we AVoCaDO, een krachtige audiovisuele videobijschrijver die wordt aangedreven door de temporele orkestratie tussen audio- en visuele modaliteiten. We stellen een tweestaps na-trainingspijplijn voor: (1) AVoCaDO SFT, dat het model fine-tunt op een nieuw samengestelde dataset van 107K hoogwaardige, temporeel afgestemde audiovisuele bijschriften; en (2) AVoCaDO GRPO, dat gebruikmaakt van op maat gemaakte beloningsfuncties om de temporele samenhang en dialoognauwkeurigheid verder te verbeteren, terwijl de bijschriftlengte wordt gereguleerd en ineenstorting wordt verminderd. Experimentele resultaten tonen aan dat AVoCaDO aanzienlijk beter presteert dan bestaande open-source modellen op vier audiovisuele videobijschriftingsbenchmarks, en ook competitieve prestaties behaalt op de VDC- en DREAM-1K-benchmark onder visueel-alleen instellingen.
Het efficiënt oplossen van real-world problemen met LLM's hangt steeds meer af van hun vermogen om te interacteren met dynamische webomgevingen en autonoom externe informatie te verwerven. Hoewel recent onderzoek zoals Search-R1 en WebDancer sterke prestaties laat zien bij het oplossen van webtaken, zijn ze sterk afhankelijk van aanvullende tools om de interactieve webomgeving om te zetten in statische tekstinhoud. Dit staat in contrast met menselijk surfgedrag, dat diverse interacties met de browser omvat, zoals scrollen, klikken en typen. In dit artikel stellen we BrowserAgent voor, een meer interactieve agent die complexe taken oplost via menselijk geïnspireerde browseracties. BrowserAgent opereert direct op onbewerkte webpagina's via Playwright door middel van een set vooraf gedefinieerde browseracties. We passen een tweefasige training toe (Supervised Fine-Tuning (SFT) en Rejection Fine-Tuning (RFT)) om de generalisatievaardigheden van het model te verbeteren. Ondanks het gebruik van aanzienlijk minder trainingsdata dan Search-R1, behaalt BrowserAgent meer competitieve resultaten bij verschillende Open-QA-taken. Daarnaast introduceren we een expliciet geheugenmechanisme om belangrijke conclusies tussen stappen op te slaan, wat de redeneervaardigheden van het model voor langetermijntaken verder verbetert. Opmerkelijk is dat BrowserAgent-7B een verbetering van ongeveer 20% kan bereiken ten opzichte van Search-R1 bij multi-hop QA-taken zoals HotpotQA, 2Wiki en Bamboogle. Deze resultaten geven aan dat BrowserAgent kan dienen als een geavanceerder raamwerk voor meer interactieve en schaalbare webagents.
Large Language Model (LLM)-agents tonen veelbelovende resultaten voor complexe, meervoudige toolgebruikstaken, maar hun ontwikkeling wordt vaak belemmerd door de extreme schaarste aan hoogwaardige trainingsdata. Supervised fine-tuning (SFT) op synthetische data leidt tot overfitting, terwijl standaard reinforcement learning (RL) worstelt met een kritiek cold-start-probleem en trainingsinstabiliteit. Om deze uitdagingen aan te pakken, introduceren we Environment Tuning, een nieuw trainingsparadigma dat agents in staat stelt complex gedrag direct te leren vanuit probleeminstanties zonder te vertrouwen op vooraf verzamelde expert-trajecten. Environment Tuning regisseert dit leerproces via een gestructureerd curriculum, uitvoerbare omgevingsaugmentatie die corrigerende feedback biedt, en fijnmazige voortgangsbeloningen om stabiele en efficiënte exploratie te garanderen. Met slechts 400 probleeminstanties van de Berkeley Function-Calling Leaderboard (BFCL)-benchmark bereikt onze methode niet alleen competitieve in-distributieprestaties tegenover sterke baselines, maar demonstreert ook superieure out-of-distributiegeneralizatie, waardoor de prestatie-inzakking die vaak voorkomt bij SFT-gebaseerde benaderingen wordt overwonnen. Ons werk markeert een paradigmaverschuiving van supervised fine-tuning op statische trajecten naar dynamische, omgevingsgebaseerde exploratie, wat de weg vrijmaakt voor het trainen van robuustere en data-efficiëntere agents.
Recente ontwikkelingen in agent-gebaseerde workflows hebben de automatisering van taken zoals het genereren van professionele documenten mogelijk gemaakt. Deze workflows richten zich echter voornamelijk op tekstuele kwaliteit, waarbij visuele structuur en stijl, die cruciaal zijn voor leesbaarheid en betrokkenheid, worden verwaarloosd. Deze kloof ontstaat vooral door het ontbreken van geschikte beloningsmodellen om agent-gebaseerde workflows te begeleiden bij het produceren van documenten met een betere structurele en stilistische kwaliteit. Om dit aan te pakken, stellen we DocReward voor, een documentbeloningsmodel dat documenten beoordeelt op basis van hun structuur en stijl. We hebben een multi-domein dataset DocPair samengesteld van 117K gepaarde documenten, die 32 domeinen en 267 documenttypen omvat, elk met een document van hoge en lage professionaliteit met identieke inhoud maar verschillende structuur en stijl. Hierdoor kan het model professionaliteit uitgebreid en op een tekstkwaliteit-onafhankelijke manier evalueren. DocReward wordt getraind met behulp van het Bradley-Terry verlies om documenten te scoren, waarbij voorspellingen die in tegenspraak zijn met de geannoteerde rangschikking worden bestraft. Om de prestaties van beloningsmodellen te beoordelen, hebben we een testdataset gemaakt met documentbundels die zijn gerangschikt door goed opgeleide menselijke beoordelaars. Opmerkelijk is dat DocReward GPT-4o en GPT-5 in nauwkeurigheid overtreft met respectievelijk 30,6 en 19,4 procentpunten, wat zijn superioriteit ten opzichte van de basislijnen aantoont. In een extrinsieke evaluatie van documentgeneratie behaalt DocReward een aanzienlijk hogere winratio van 60,8%, vergeleken met de winratio van 37,7% van GPT-5, wat het nut ervan aantoont bij het begeleiden van generatie-agents bij het produceren van door mensen geprefereerde documenten.
Hoewel LLM-agenten multi-staps taken kunnen plannen, is ingrijpen tijdens de planningsfase - voordat enige actie wordt uitgevoerd - vaak de veiligste manier om schade te voorkomen, aangezien bepaalde risico's tot ernstige gevolgen kunnen leiden zodra ze worden uitgevoerd. Bestaande beveiligingsmaatregelen werken echter meestal post-executie, wat moeilijk schaalbaar is en weinig ruimte laat voor controleerbaar toezicht op planniveau. Om deze uitdaging aan te pakken, belichten we drie kritieke hiaten in het huidige onderzoek: de datakloof, de modelkloof en de evaluatiekloof. Om de datakloof te dichten, introduceren we AuraGen, een controleerbare engine die (i) goedaardige trajecten synthetiseert, (ii) categorie-gelabelde risico's injecteert met gekalibreerde moeilijkheidsgraad, en (iii) outputs filtert via een automatisch beloningsmodel, waardoor grote en betrouwbare corpora worden geproduceerd voor pre-executie veiligheid. Om de bewakingsmodelkloof te dichten, stellen we een fundamentele beveiligingsmaatregel Safiron voor, die een cross-planner adapter combineert met een compact bewakingsmodel. De adapter verenigt verschillende invoerformaten, terwijl Safiron risicovolle gevallen signaleert, risicotypen toekent en rationale genereert; getraind in twee fasen met een breed verkend datarecept, bereikt Safiron robuuste overdraagbaarheid over verschillende instellingen. Om de evaluatiekloof te dichten, brengen we Pre-Exec Bench uit, een realistische benchmark die diverse tools en vertakkende trajecten omvat, die detectie, fijnmazige categorisatie, uitleg en cross-planner generalisatie meet in door mensen geverifieerde scenario's. Uitgebreide experimenten tonen consistente verbeteringen van de voorgestelde beveiligingsmaatregel ten opzichte van sterke baselines op Pre-Exec Bench, en ablatie-experimenten destilleren verder bruikbare praktijken, waardoor een praktische sjabloon wordt geboden voor veiliger agent-systemen.
In de afgelopen jaren is de onderzoeksfocus van grote taalmodellen (LLM's) en agents steeds meer verschoven van het demonstreren van nieuwe mogelijkheden naar complex redeneren en het aanpakken van uitdagende taken. Bestaande evaluaties richten zich echter voornamelijk op wiskunde-/codewedstrijden of algemene taken, terwijl bestaande academische benchmarks voor meerdere domeinen onvoldoende redeneerdiepte bieden, waardoor het veld geen rigoureuze benchmark heeft voor hoogwaardig redeneren. Om deze leemte op te vullen, introduceren we de Acadreason-benchmark, die is ontworpen om het vermogen van LLM's en agents om academische kennis te verwerven en daarover te redeneren te evalueren. Deze bestaat uit 50 door experts geannoteerde academische problemen uit vijf domeinen die veel redeneervaardigheid vereisen, waaronder informatica, economie, recht, wiskunde en filosofie. Alle vragen zijn afkomstig uit toonaangevende publicaties van de afgelopen jaren en ondergaan een rigoureuze annotatie en kwaliteitscontrole om ervoor te zorgen dat ze zowel uitdagend als beantwoordbaar zijn. We voeren systematische evaluaties uit van meer dan 10 mainstream LLM's en agents. De resultaten laten zien dat de meeste LLM's minder dan 20 punten scoorden, waarbij zelfs de geavanceerde GPT-5 slechts 16 punten behaalde. Hoewel agents hogere scores behaalden, overschreed geen van hen de 40 punten. Dit toont de huidige kloof in capaciteit tussen LLM's en agents bij superintelligente academische onderzoektaken aan en benadrukt de uitdagingen van Acadreason.
Het oplossen van wiskundige problemen via verifieerbare talen zoals Lean heeft een aanzienlijke impact gehad op zowel de wiskundige als de informatica-gemeenschappen. State-of-the-art modellen worden vaak getraind met kostbare online Reinforcement Learning (RL) of expertiteratie. Deze benaderingen zijn echter afhankelijk van vaste problemensets, wat leidt tot inefficiënte training en beperkt het model in het aanpakken van complexe problemen. Om deze beperkingen te overwinnen, stellen we GAR voor: Generative Adversarial Reinforcement Learning, een uitgebreid RL-trainingsraamwerk dat de probleemcomponist en -oplosser gezamenlijk traint in een adversariaal proces. GAR introduceert een impliciet curriculumlerenmechanisme, dat de moeilijkheidsgraad van taken afstemt op de evoluerende capaciteit van de bewijzer. Hierdoor verbetert het de trainings efficiëntie en maakt het betere prestaties mogelijk bij het bewijzen van geavanceerde stellingen. Experimenten tonen aan dat met GAR-training Goedel-Prover-V2-8B en DeepSeek-Prover-V2-7B een gemiddelde relatieve verbetering in pass@32 van 4,20% behalen op de MiniF2F-Test benchmark, terwijl DeepSeek-Prover-V2's pass@32 op ProofNet-Test stijgt van 22,58% naar 25,81%. Naast formeel bewijzen, vestigt GAR een algemeen RL-paradigma voor de co-evolutie van probleemgeneratie en -oplossing in verifieerbare omgevingen.
Wiskundig redeneren is een primaire indicator van de intelligentie van grote taalmodellen (LLMs). Echter, bestaande LLMs vertonen gebreken op het gebied van robuustheid en generalisatie. Dit artikel schrijft deze tekortkomingen toe aan oppervlakkig redeneren, waarbij antwoorden worden gegenereerd op basis van oppervlakkige kenmerken. Om deze uitdaging aan te pakken, stellen we het AdaR-framework voor om adaptief redeneren mogelijk te maken, waarbij modellen vertrouwen op probleemoplossende logica om antwoorden te produceren. AdaR synthetiseert logisch equivalente vragen door variabele waarden te variëren en traint modellen met RLVR op deze gegevens om oppervlakkige logica te bestraffen terwijl adaptieve logica wordt aangemoedigd. Om de kwaliteit van de gegevens te verbeteren, extraheren we de probleemoplossende logica uit de oorspronkelijke vraag en genereren we het bijbehorende antwoord door middel van code-uitvoering, waarna we een sanity check toepassen. Experimentele resultaten tonen aan dat AdaR de robuustheid en generalisatie verbetert, met aanzienlijke vooruitgang in wiskundig redeneren terwijl een hoge gegevensefficiëntie wordt behouden. Analyse geeft aan dat gegevenssynthese en RLVR op een gecoördineerde manier functioneren om adaptief redeneren in LLMs mogelijk te maken. Vervolganalyses leiden tot belangrijke ontwerpinzichten over het effect van kritische factoren en de toepasbaarheid om LLMs te instrueren. Ons project is beschikbaar op https://github.com/LaiZhejian/AdaR.
De complexiteit van de Generally Accepted Accounting Principles (GAAP) en de hiërarchische structuur van eXtensible Business Reporting Language (XBRL)-rapportages maken financiële auditing steeds moeilijker te automatiseren en te verifiëren. Hoewel grote taalmmodellen (LLMs) sterke capaciteiten hebben getoond in het begrijpen van ongestructureerde tekst, blijft hun vermogen om te redeneren over gestructureerde, onderling afhankelijke en taxonomie-gestuurde financiële documenten grotendeels onontgonnen. Om deze leemte op te vullen, introduceren we FinAuditing, de eerste taxonomie-afgestemde, structuurbewuste, multi-document benchmark voor het evalueren van LLMs op financiële auditingtaken. Gebouwd op basis van echte US-GAAP-conforme XBRL-rapportages, definieert FinAuditing drie complementaire subtaken: FinSM voor semantische consistentie, FinRE voor relationele consistentie en FinMR voor numerieke consistentie, elk gericht op een specifiek aspect van gestructureerd auditredeneren. We stellen verder een geïntegreerd evaluatieraamwerk voor dat retrieval-, classificatie- en redeneermetrieken combineert over deze subtaken. Uitgebreide zero-shot experimenten op 13 state-of-the-art LLMs laten zien dat huidige modellen inconsistente prestaties leveren over semantische, relationele en wiskundige dimensies, met nauwkeurigheidsdalingen tot wel 60-90% bij het redeneren over hiërarchische multi-documentstructuren. Onze bevindingen onthullen de systematische beperkingen van moderne LLMs in taxonomie-gebaseerd financieel redeneren en vestigen FinAuditing als een basis voor het ontwikkelen van betrouwbare, structuurbewuste en regelgeving-afgestemde financiële intelligentiesystemen. De benchmarkdataset is beschikbaar op Hugging Face.
Hoewel aanzienlijk onderzoek zich heeft gericht op het ontwikkelen van belichaamde redeneervaardigheden met behulp van Vision-Language Models (VLMs) of het integreren van geavanceerde VLMs in Vision-Language-Action (VLA) modellen voor end-to-end robotbesturing, behandelen weinig studies direct de kritieke kloof tussen upstream VLM-gebaseerd redeneren en downstream VLA-beleidsleren. In dit werk zetten we een eerste stap naar het overbruggen van belichaamd redeneren met VLA-beleidsleren door Vlaser te introduceren - een Vision-Language-Action Model met synergetische belichaamde redeneervaardigheid, wat een fundamenteel vision-language model is dat ontworpen is om hoogwaardig redeneren te integreren met laagwaardige besturing voor belichaamde agents. Gebouwd op basis van de hoogwaardige Vlaser-6M dataset, behaalt Vlaser state-of-the-art prestaties op een reeks belichaamde redeneerbenchmarks - inclusief ruimtelijk redeneren, belichaamde gronding, belichaamde QA en taakplanning. Bovendien onderzoeken we systematisch hoe verschillende VLM-initialisaties supervised VLA-finetuning beïnvloeden, wat nieuwe inzichten biedt in het verminderen van de domeinverschuiving tussen internet-schaal pre-trainingsdata en belichaamde-specifieke beleidslerendata. Op basis van deze inzichten behaalt onze aanpak state-of-the-art resultaten op de WidowX benchmark en competitieve prestaties op de Google Robot benchmark.
Unified multimodale modellen integreren het redeneervermogen van grote taalmodellen met zowel beeldbegrip als -generatie, wat veelbelovend is voor geavanceerde multimodale intelligentie. De gemeenschap beschikt echter nog steeds niet over een rigoureus, op redeneren gericht benchmark om de afstemming tussen begrip en generatie, en hun generalisatiepotentieel in complexe visuele taken, systematisch te evalueren. Daarom introduceren we GIR-Bench, een uitgebreide benchmark die unified modellen evalueert vanuit drie complementaire perspectieven. Ten eerste onderzoeken we de consistentie tussen begrip en generatie (GIR-Bench-UGC), waarbij we nagaan of modellen dezelfde kennis consistent kunnen toepassen in zowel begrip- als generatietaken. Ten tweede onderzoeken we of modellen redeneringsgerichte tekst-naar-beeldgeneratie kunnen uitvoeren die het toepassen van logische beperkingen en impliciete kennis vereist om getrouwe visuele inhoud te genereren (GIR-Bench-T2I). Ten derde evalueren we of modellen multi-staps redeneren kunnen hanteren bij bewerkingen (GIR-Bench-Edit). Voor elke subset hebben we zorgvuldig verschillende taakspecifieke evaluatiepijplijnen ontworpen die zijn afgestemd op elke taak. Dit maakt een fijnmazige en interpreteerbare evaluatie mogelijk, terwijl vooroordelen van het veelgebruikte MLLM-as-a-Judge-paradigma worden geminimaliseerd. Uitgebreide ablatie-experimenten met verschillende unified modellen en generatie-alleen systemen hebben aangetoond dat: Hoewel unified modellen beter in staat zijn tot redeneringsgedreven visuele taken, vertonen ze nog steeds een aanhoudende kloof tussen begrip en generatie. De data en code voor GIR-Bench zijn beschikbaar op https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
Recente Text-to-Video (T2V) modellen hebben een krachtig vermogen getoond in de visuele simulatie van real-world geometrie en natuurkundige wetten, wat hun potentieel als impliciete wereldmodellen aangeeft. Geïnspireerd door dit onderzoek, verkennen we de haalbaarheid van het benutten van de video-generatieprior voor viewpoint planning vanuit gegeven 4D-scènes, aangezien video’s intern dynamische scènes vergezellen met natuurlijke viewpoints. Hiertoe stellen we een tweestaps paradigma voor om vooraf getrainde T2V-modellen aan te passen voor viewpoint-voorspelling, op een compatibele manier. Eerst injecteren we de 4D-scène-representatie in het vooraf getrainde T2V-model via een adaptieve leerbranch, waarbij de 4D-scène viewpoint-agnostisch is en de conditioneel gegenereerde video de viewpoints visueel inbedt. Vervolgens formuleren we viewpoint-extractie als een hybride-conditie-gestuurd camera-extrinsic denoising-proces. Specifiek wordt een camera-extrinsic diffusiebranch verder geïntroduceerd op het vooraf getrainde T2V-model, waarbij de gegenereerde video en de 4D-scène als invoer worden genomen. Experimentele resultaten tonen de superioriteit van onze voorgestelde methode ten opzichte van bestaande concurrenten, en ablatiestudies valideren de effectiviteit van onze belangrijkste technische ontwerpen. Tot op zekere hoogte bewijst dit werk het potentieel van video-generatiemodellen voor 4D-interactie in de echte wereld.
Diffusion large language models (dLLMs) doen zich gelden als een efficiënt alternatief voor autoregressieve modellen vanwege hun vermogen om meerdere tokens parallel te decoderen. Het afstemmen van dLLMs op menselijke voorkeuren of taakspecifieke beloningen via reinforcement learning (RL) is echter uitdagend, omdat hun onberekenbare log-waarschijnlijkheid de directe toepassing van standaard policy gradient-methoden verhindert. Hoewel eerder werk surrogaten zoals de evidence lower bound (ELBO) gebruikt, kunnen deze eenzijdige benaderingen aanzienlijke policy gradient-bias introduceren. Om dit aan te pakken, stellen we de Sandwiched Policy Gradient (SPG) voor, die zowel een boven- als een ondergrens van de werkelijke log-waarschijnlijkheid benut. Experimenten tonen aan dat SPG aanzienlijk beter presteert dan baseline-methoden gebaseerd op ELBO of éénstapschatting. Specifiek verbetert SPG de nauwkeurigheid ten opzichte van state-of-the-art RL-methoden voor dLLMs met 3,6% in GSM8K, 2,6% in MATH500, 18,4% in Countdown en 27,0% in Sudoku.
Grote visueel-taalmodelen (LVLMs), die een visuele encoder (VE) integreren met een groot taalmodel, hebben opmerkelijke successen behaald in diverse taken. Er zijn echter nog steeds cruciale uitdagingen in LVLMs, zoals objecthallucinatie, waarbij beschrijvingen van objecten worden gegenereerd die niet in de invoerafbeelding aanwezig zijn. Hier stellen wij dat onzekere visuele tokens binnen de VE een belangrijke factor zijn die bijdraagt aan objecthallucinatie. Onze statistische analyse toonde aan dat er positieve correlaties bestaan tussen visuele tokens met een hoge epistemische onzekerheid en het optreden van hallucinaties. Bovendien tonen wij zowel theoretisch als empirisch aan dat visuele tokens in de vroege lagen van de VE die grote representatieafwijkingen vertonen onder kleine adversariële verstoringen, wijzen op een hoge epistemische onzekerheid. Op basis van deze bevindingen stellen wij een eenvoudige maar effectieve strategie voor om objecthallucinatie te verminderen door alleen de VE aan te passen. Onze methode omvat een proxymethode met adversariële verstoringen om onzekere visuele tokens efficiënt te identificeren en een methode om deze onzekere visuele tokens te maskeren tijdens het self-attentionproces in de middelste lagen van de VE, waardoor hun invloed op de visuele codering wordt onderdrukt en hallucinaties worden verminderd. Uitgebreide experimenten tonen aan dat onze methode objecthallucinaties in LVLMs aanzienlijk vermindert en synergetisch kan werken met andere bestaande technieken.
Recente vooruitgang in Large Language Models (LLMs) en Vision Language Models (VLMs) heeft aanzienlijke vooruitgang laten zien in wiskundig redeneren, maar ze kampen nog steeds met een kritieke beperking bij problemen die visuele ondersteuning vereisen, zoals het tekenen van hulplijnen of het plotten van functies om de problemen op te lossen. De meeste LLMs en VLMs zijn beperkt tot tekstuele redeneerketens, terwijl multimodale geünificeerde modellen die interleaved tekst en afbeeldingen kunnen genereren, de nodige precisie en beheersbaarheid missen voor dergelijke taken. Om dit aan te pakken, stellen we CodePlot-CoT voor, een code-gedreven Chain-of-Thought-paradigma voor "denken met afbeeldingen" in de wiskunde. Onze aanpak maakt gebruik van de VLM om tekstueel redeneren te genereren, evenals uitvoerbare plotcode, die vervolgens wordt weergegeven als afbeeldingen als "visuele gedachten", om wiskundige problemen op te lossen. Om dit te bereiken, construeren we eerst Math-VR, de eerste grootschalige, tweetalige dataset en benchmark voor wiskundige problemen met visueel redeneren, bestaande uit 178K voorbeelden. Ten tweede ontwikkelen we, om hoogwaardige trainingsdata te creëren, een state-of-the-art afbeelding-naar-code-converter die gespecialiseerd is in het parsen van complexe wiskundige figuren naar code. Tot slot trainen we, met behulp van deze trainingsdata, het CodePlot-CoT-model voor het oplossen van wiskundige problemen. Experimentele resultaten tonen aan dat ons model een verbetering van tot 21% behaalt ten opzichte van het basismodel op onze nieuwe benchmark, wat de effectiviteit van ons voorgestelde code-gedreven redeneerparadigma volledig valideert. Ons werk opent een nieuwe richting voor multimodaal wiskundig redeneren en biedt de gemeenschap de eerste grootschalige dataset, uitgebreide benchmark en sterke aanpak voor dergelijke problemen. Om toekomstig onderzoek te vergemakkelijken, maken we onze datasets, code en voorgetrainde modellen publiekelijk beschikbaar op https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
Grote taalmodellen (LLM) agents hebben opmerkelijke redeneervaardigheden getoond. Bestaande multi-agent frameworks vertrouwen echter vaak op vaste rollen of gecentraliseerde controle, wat de schaalbaarheid en aanpasbaarheid in langetermijnredenering beperkt. Wij introduceren SwarmSys, een gesloten-lus framework voor gedistribueerde multi-agent redenering geïnspireerd door zwermintelligentie. Coördinatie in SwarmSys ontstaat door iteratieve interacties tussen drie gespecialiseerde rollen, Verkenners, Werkers en Validators, die continu cycli doorlopen van exploratie, exploitatie en validatie. Om schaalbare en adaptieve samenwerking mogelijk te maken, integreren we adaptieve agent- en gebeurtenisprofielen, op embeddings gebaseerde probabilistische matching, en een op feromonen geïnspireerd versterkingsmechanisme, wat dynamische taaktoewijzing en zelforganiserende convergentie ondersteunt zonder globale supervisie. Over symbolische redenering, onderzoekssynthese en wetenschappelijke programmeertaken heen presteert SwarmSys consistent beter dan de referentiemodellen, waarbij zowel de nauwkeurigheid als de redeneerstabiliteit verbetert. Deze bevindingen benadrukken zwermgeïnspireerde coördinatie als een veelbelovend paradigma voor schaalbare, robuuste en adaptieve multi-agent redenering, wat suggereert dat coördinatieschaling kan wedijveren met modelschaling in het bevorderen van LLM-intelligentie.
We stellen Stable Video Infinity (SVI) voor, dat in staat is om video's van oneindige lengte te genereren met een hoge temporele consistentie, geloofwaardige scènewisselingen en controleerbare streaming verhaallijnen. Terwijl bestaande methoden voor lange video's geprobeerd hebben om opgestapelde fouten te verminderen via handmatige anti-drifttechnieken (bijvoorbeeld aangepaste ruisschedulers, frame-ankering), blijven ze beperkt tot extrapolatie met één enkele prompt, wat homogene scènes met repetitieve bewegingen oplevert. Wij identificeren dat de fundamentele uitdaging verder gaat dan foutaccumulatie, naar een kritisch verschil tussen de trainingsaanname (het zien van schone data) en de autoregressieve realiteit tijdens testtijd (conditionering op zelf gegenereerde, foutgevoelige uitvoer). Om deze hypothesekloof te overbruggen, integreert SVI Error-Recycling Fine-Tuning, een nieuw type efficiënte training die de zelf gegenereerde fouten van de Diffusion Transformer (DiT) recycleert in superviserende prompts, waardoor DiT wordt aangemoedigd om actief zijn eigen fouten te identificeren en te corrigeren. Dit wordt bereikt door fouten te injecteren, te verzamelen en op te slaan via gesloten-lus recycling, waarbij autoregressief wordt geleerd van feedback met geïnjecteerde fouten. Specifiek doen we (i) historische fouten van DiT injecteren om schone inputs te beïnvloeden, waardoor foutgeaccumuleerde trajecten in flow matching worden gesimuleerd; (ii) voorspellingen efficiënt benaderen met éénstaps bidirectionele integratie en fouten berekenen met residuen; (iii) fouten dynamisch opslaan in replay-geheugen over gediscretiseerde tijdstappen, die worden herbemonsterd voor nieuwe input. SVI is in staat om video's te schalen van seconden naar oneindige duur zonder extra inferentiekosten, terwijl het compatibel blijft met diverse condities (bijvoorbeeld audio, skelet en tekststromen). We evalueren SVI op drie benchmarks, waaronder consistente, creatieve en conditionele instellingen, en verifiëren grondig zijn veelzijdigheid en state-of-the-art rol.
De schaalbaarheid van robotisch leren wordt fundamenteel beperkt door de aanzienlijke kosten en arbeid die gepaard gaan met het verzamelen van gegevens in de echte wereld. Hoewel gesimuleerde gegevens een schaalbare alternatieve bieden, slagen ze er vaak niet in om te generaliseren naar de echte wereld vanwege aanzienlijke verschillen in visuele verschijning, fysieke eigenschappen en objectinteracties. Om dit aan te pakken, stellen we RoboSimGS voor, een nieuw Real2Sim2Real-framework dat multi-view beelden uit de echte wereld omzet in schaalbare, hoogwaardige en fysiek interactieve simulatieomgevingen voor robotmanipulatie. Onze aanpak reconstrueert scènes met behulp van een hybride representatie: 3D Gaussian Splatting (3DGS) vangt de fotorealistische verschijning van de omgeving, terwijl mesh-primitieven voor interactieve objecten een nauwkeurige fysicasimulatie garanderen. Cruciaal is dat we pionieren met het gebruik van een Multi-modale Large Language Model (MLLM) om de creatie van fysiek plausibele, gearticuleerde assets te automatiseren. De MLLM analyseert visuele gegevens om niet alleen fysieke eigenschappen (bijv. dichtheid, stijfheid) maar ook complexe kinematische structuren (bijv. scharnieren, glijrails) van objecten af te leiden. We demonstreren dat beleidsmodellen die volledig zijn getraind op gegevens gegenereerd door RoboSimGS succesvolle zero-shot sim-to-real transfer bereiken over een diverse set van real-world manipulatietaken. Bovendien verbeteren gegevens van RoboSimGS de prestaties en generalisatiecapaciteiten van state-of-the-art methoden aanzienlijk. Onze resultaten valideren RoboSimGS als een krachtige en schaalbare oplossing voor het overbruggen van de sim-to-real kloof.
Recente transformer-gebaseerde modellen voor 3D Human Mesh Recovery (HMR) hebben sterke prestaties behaald, maar lijden vaak onder hoge rekenkosten en complexiteit vanwege diepe transformer-architecturen en redundante tokens. In dit artikel introduceren we twee HMR-specifieke samenvoegstrategieën: Error-Constrained Layer Merging (ECLM) en Mask-guided Token Merging (Mask-ToMe). ECLM voegt selectief transformer-lagen samen die een minimaal effect hebben op de Mean Per Joint Position Error (MPJPE), terwijl Mask-ToMe zich richt op het samenvoegen van achtergrondtokens die weinig bijdragen aan de uiteindelijke voorspelling. Om de mogelijke prestatievermindering door samenvoeging verder aan te pakken, stellen we een op diffusie gebaseerde decoder voor die temporele context incorporeren en gebruikmaakt van positieprioriteiten die zijn geleerd uit grootschalige motion capture-datasets. Experimenten over meerdere benchmarks tonen aan dat onze methode een versnelling tot 2,3x bereikt terwijl de prestaties lichtelijk verbeteren ten opzichte van de baseline.
Hoewel grote taalmodellen (LLMs) uitblinken in het genereren van algoritmische code, hebben ze moeite met front-end ontwikkeling, waar correctheid wordt beoordeeld op gerenderde pixels en interactie. Wij presenteren ReLook, een agent-gebaseerd, visueel verankerd reinforcement learning-framework dat een agent in staat stelt om een robuuste genereren-diagnosticeren-verfijnen-lus te sluiten door een multimodaal LLM (MLLM) als hulpmiddel in te zetten. Tijdens de training gebruikt de agent de MLLM-in-the-loop zowel als visuele criticus—die code beoordeelt met schermafbeeldingen—als als bron van actiegerichte, visueel verankerde feedback; een strikte nul-beloningsregel voor ongeldige renders waarborgt renderbaarheid en voorkomt beloningsmanipulatie. Om gedragsinstorting te voorkomen, introduceren we Forced Optimization, een strikte acceptatieregel die alleen verbeterende revisies toelaat, wat resulteert in monotoon betere trajecten. Tijdens inferentie ontkoppelen we de criticus en voeren we een lichtgewicht, criticus-vrije zelfbewerkingscyclus uit, waardoor de latentie vergelijkbaar blijft met basisdecodering terwijl het grootste deel van de winst behouden blijft. Over drie veelgebruikte benchmarks heen presteert ReLook consistent beter dan sterke baselines in visueel verankerde front-end codegeneratie, wat de voordelen benadrukt van agent-gebaseerde perceptie, visuele beloningen en training-inferentie-ontkoppeling.
Een paradigma voor het finetunen van taalmodelen (LM) is gebaseerd op het creëren van grote trainingsdatasets, onder de aanname dat hoge kwantiteit en diversiteit modellen in staat zullen stellen om te generaliseren naar nieuwe taken na de training. In de praktijk is het verzamelen van grote datasets inefficiënt, en het trainen ervan is buitensporig duur; erger nog, er is geen garantie dat het resulterende model complexe scenario’s aankan of beter generaliseert. Bovendien evalueren bestaande technieken zelden of een trainingsvoorbeeld nieuwe informatie biedt of redundant is met de kennis die het model al heeft verworven, wat leidt tot onnodige kosten. In dit werk onderzoeken we een nieuwe methode voor zelfverbetering tijdens de testfase om effectievere en beter generaliseerbare agentische LM’s on-the-fly te creëren. Het voorgestelde algoritme kan worden samengevat in drie stappen: (i) eerst identificeert het de voorbeelden waar het model moeite mee heeft (zelfbewustzijn), (ii) genereert vervolgens vergelijkbare voorbeelden vanuit de gedetecteerde onzekere samples (zelfdata-augmentatie), en (iii) gebruikt deze nieuw gegenereerde voorbeelden tijdens het finetunen in de testfase (zelfverbetering). We bestuderen twee varianten van deze aanpak: Test-Time Self-Improvement (TT-SI), waarbij hetzelfde model aanvullende trainingsvoorbeelden genereert vanuit zijn eigen onzekere gevallen en daar vervolgens van leert, en vergelijken deze aanpak met Test-Time Distillation (TT-D), waarbij een sterker model vergelijkbare voorbeelden genereert voor onzekere gevallen, waardoor de student zich kan aanpassen met behulp van gedistilleerde supervisie. Empirische evaluaties over verschillende agentbenchmarks tonen aan dat TT-SI de prestaties verbetert met een gemiddelde absolute nauwkeurigheidstoename van +5,48% over alle benchmarks en andere standaard leermethoden overtreft, terwijl het 68x minder trainingsvoorbeelden gebruikt. Onze bevindingen benadrukken de belofte van TT-SI en demonstreren het potentieel van zelfverbeteringsalgoritmen tijdens de testfase als een nieuw paradigma voor het bouwen van capabelere agenten richting zelfevolutie.
Taalmodellen vertonen vaak weinig tot geen verbetering (d.w.z. "verzadiging") wanneer ze worden getraind via standaard supervised fine-tuning (SFT) op gegevens die vergelijkbaar zijn met wat ze in hun trainingsset hebben gezien (bijv. MATH). We introduceren een nieuwe fine-tuningstrategie, STAT, om zo'n studentmodel te trainen door gebruik te maken van het metacognitieve vermogen van een sterker groot taalmodel (LLM) als leraar. De leraar gebruikt de taakdataset om een lijst van benodigde vaardigheden voor de taak te creëren en labelt vervolgens elk datapunt met de vereiste vaardigheden (Didolkar et al., 2024). Door de antwoorden van de student te monitoren, creëert de leraar een Missing-Skill-Profile voor de student, waarbij wordt bijgehouden hoe vaak ze elke vaardigheid niet hebben toegepast in hun antwoorden. We gebruiken dit idee om een aangepaste trainingsset op te bouwen op een van de twee manieren. In STAT-Sel gebruikt de leraar een bestaande set van trainingsvoorbeelden maar past deze adaptief aan op basis van het Missing-Skill-Profile. In STAT-Syn synthetiseert de leraar aanvullende voorbeelden die ontbrekende vaardigheden bevatten. Uit uitgebreide experimenten met Llama- en Qwen-modellen blijkt dat onze methoden verbeteringen opleveren van tot wel 7,5% op MATH, terwijl SFT slechts beperkte vooruitgang biedt. Bovendien verbetert STAT de prestaties op out-of-distribution benchmarks (bijv. AIME24/25, AMC23, etc.) gemiddeld met 4,6%. Cruciaal is dat we vaststellen dat STAT complementair is aan RL via GRPO (Shao et al., 2024): nadat het model is verbeterd met STAT om vaardigheidslacunes aan te pakken, voegt GRPO verdere verbeteringen toe. We concluderen dat vaardigheidsgericht adaptief trainen de huidige trainingspijplijnen breeduit zou moeten verbeteren. Onze code is beschikbaar op: https://github.com/princeton-pli/STAT.
Hoe moeten we de robuustheid van verdedigingsmechanismen voor taalmodellen evalueren? Huidige verdedigingen tegen jailbreaks en prompt-injecties (die respectievelijk beogen te voorkomen dat een aanvaller schadelijke kennis ontlokt of op afstand kwaadaardige acties activeert) worden doorgaans geëvalueerd tegen een statische set van schadelijke aanvalsreeksen, of tegen computationeel zwakke optimalisatiemethoden die niet zijn ontworpen met de verdediging in gedachten. Wij stellen dat dit evaluatieproces gebrekkig is. In plaats daarvan moeten we verdedigingen evalueren tegen adaptieve aanvallers die hun aanvalsstrategie expliciet aanpassen om het ontwerp van de verdediging te counteren, terwijl ze aanzienlijke middelen inzetten om hun doelstelling te optimaliseren. Door algemene optimalisatietechnieken systematisch af te stemmen en op te schalen—gradiëntdaling, reinforcement learning, willekeurige zoektochten en door mensen geleide exploratie—omzeilen we 12 recente verdedigingen (gebaseerd op een diverse set van technieken) met een aanvalssuccespercentage van boven de 90% voor de meeste; belangrijk is dat de meerderheid van de verdedigingen oorspronkelijk aanvalssuccespercentages rapporteerden die bijna nul waren. Wij geloven dat toekomstig verdedigingswerk sterkere aanvallen, zoals de door ons beschreven, moet overwegen om betrouwbare en overtuigende claims van robuustheid te kunnen maken.
Het vergelijken van menselijke en modelprestaties biedt een waardevol perspectief voor het begrijpen van de sterke punten en beperkingen van embeddingmodellen, en benadrukt waar ze slagen en waar ze falen in het vastleggen van betekenis en nuance. Dergelijke vergelijkingen worden echter zelden gemaakt, omdat menselijke prestaties op embeddingtaken moeilijk te meten zijn. Om deze leemte op te vullen, introduceren we HUME: Human Evaluation Framework for Text Embeddings. Terwijl frameworks zoals MTEB brede model evaluatie bieden, ontbreekt het hen aan betrouwbare schattingen van menselijke prestaties, wat de interpreteerbaarheid van modelscores beperkt. We meten menselijke prestaties op 16 MTEB-datasets die reranking, classificatie, clustering en semantische tekstuele gelijkenis omvatten, over taalkundig diverse hoog- en laag-resource talen. Mensen behalen een gemiddelde prestatie van 77,6% vergeleken met 80,1% voor het beste embeddingmodel, hoewel de variatie aanzienlijk is: modellen bereiken bijna maximale prestaties op sommige datasets terwijl ze op andere moeite hebben, wat wijst op datasetproblemen en tekortkomingen in laag-resource talen aan het licht brengt. We bieden menselijke prestatie-baselines, inzicht in patronen van taakmoeilijkheid en een uitbreidbaar evaluatieframework dat een betekenisvollere interpretatie van het model mogelijk maakt en de ontwikkeling van zowel modellen als benchmarks informeert. Onze code, dataset en leaderboard zijn publiekelijk beschikbaar op https://github.com/embeddings-benchmark/mteb.
Grote Redeneermodellen (LRMs) hebben indrukwekkende prestaties geleverd op complexe redeneertaken door gedetailleerde keten-van-gedachten (CoT) verklaringen te genereren. Deze reacties zijn echter vaak buitensporig lang en bevatten overbodige redeneerstappen die de inferentiekosten verhogen en de bruikbaarheid verminderen. Het beheersen van de lengte van gegenereerd redeneren zonder de nauwkeurigheid op te offeren, blijft een uitdaging. Door een systematische empirische analyse onthullen we een consistente positieve correlatie tussen modelentropie en reactielengte in verschillende redeneerfasen bij diverse LRMs: de denkfase vertoont een hogere entropie, wat wijst op verkennend gedrag met langere reacties, terwijl de eindantwoordfase een lagere entropie laat zien, wat duidt op een meer deterministische oplossing. Deze observatie suggereert dat entropie in verschillende redeneerfasen kan dienen als een regelknop voor het balanceren van beknoptheid en prestaties. Gebaseerd op dit inzicht introduceert dit artikel Phase Entropy Aware Reward (PEAR), een beloningsmechanisme dat faseafhankelijke entropie integreert in het beloningsontwerp. In plaats van alle tokens uniform te behandelen, bestraft PEAR overmatige entropie tijdens de denkfase en staat gematigd verkennen toe in de eindantwoordfase, wat modellen aanmoedigt om beknopte redeneersporen te genereren die voldoende flexibiliteit behouden om de taak correct op te lossen. Dit maakt adaptieve controle van de reactielengte mogelijk zonder te vertrouwen op expliciete lengtedoelen of rigide afkappingsregels. Uitgebreide experimenten op vier benchmarks tonen aan dat PEAR consistent de reactielengte vermindert terwijl het concurrerende nauwkeurigheid behoudt over verschillende modelschalen. Daarnaast toont PEAR sterke robuustheid buiten de trainingsdistributie (OOD). Onze code is beschikbaar op: https://github.com/iNLP-Lab/PEAR.
Wanneer een AI-assistent zich herinnert dat Sarah een alleenstaande moeder is met twee banen, interpreteert het haar stress dan anders dan wanneer ze een welgestelde topmanager zou zijn? Naarmate gepersonaliseerde AI-systemen steeds vaker langetermijngebruikersgeheugen integreren, is het cruciaal om te begrijpen hoe dit geheugen emotioneel redeneren beïnvloedt. Wij onderzoeken hoe gebruikersgeheugen de emotionele intelligentie van grote taalmodelen (LLM's) beïnvloedt door 15 modellen te evalueren op door mensen gevalideerde emotionele intelligentietests. We ontdekken dat identieke scenario’s gekoppeld aan verschillende gebruikersprofielen systematisch uiteenlopende emotionele interpretaties opleveren. In gevalideerde, gebruikersonafhankelijke emotionele scenario’s en diverse gebruikersprofielen kwamen systematische vooroordelen naar voren in verschillende hoogpresterende LLM's, waarbij bevoorrechte profielen nauwkeurigere emotionele interpretaties kregen. Bovendien tonen LLM's aanzienlijke verschillen in emotiebegrip en ondersteunende aanbevelingen bij taken, wat aangeeft dat personalisatiemechanismen sociale hiërarchieën kunnen inbedden in het emotionele redeneren van modellen. Deze resultaten benadrukken een belangrijke uitdaging voor AI met geheugenversterking: systemen die zijn ontworpen voor personalisatie kunnen onbedoeld sociale ongelijkheden versterken.
Intuïtief begrip van fysica in videodiffusiemodellen speelt een essentiële rol bij het bouwen van algemene, fysisch plausibele wereld-simulatoren. Het nauwkeurig evalueren van dergelijk vermogen blijft echter een uitdagende taak vanwege de moeilijkheid om fysische correctheid te onderscheiden van visuele verschijning in generatie. Daarom introduceren we LikePhys, een trainingsvrije methode die intuïtieve fysica in videodiffusiemodellen evalueert door fysisch geldige en onmogelijke video's te onderscheiden met behulp van het denoiseringsdoel als een ELBO-gebaseerde waarschijnlijkheidssurrogaat op een gecureerde dataset van geldig-ongeldig paren. Door te testen op onze geconstrueerde benchmark van twaalf scenario's die vier fysicadomeinen beslaan, laten we zien dat onze evaluatiemetriek, Plausibility Preference Error (PPE), een sterke overeenkomst vertoont met menselijke voorkeur en state-of-the-art evaluator-baselines overtreft. We benchmarken vervolgens systematisch het intuïtieve fysicabegrip in huidige videodiffusiemodellen. Onze studie analyseert verder hoe modelontwerp en inferentie-instellingen het intuïtieve fysicabegrip beïnvloeden en benadrukt domeinspecifieke capaciteitsvariaties over fysische wetten. Empirische resultaten tonen aan dat, hoewel huidige modellen moeite hebben met complexe en chaotische dynamiek, er een duidelijke trend van verbetering is in fysicabegrip naarmate modelcapaciteit en inferentie-instellingen schalen.
Het genereren van realistische en controleerbare 3D-menselijke avatars is een lang bestaande uitdaging, vooral wanneer brede attribuutbereiken zoals etniciteit, leeftijd, kledingstijlen en gedetailleerde lichaamsvormen moeten worden afgedekt. Het vastleggen en annoteren van grootschalige menselijke datasets voor het trainen van generatieve modellen is buitensporig duur en beperkt in schaal en diversiteit. De centrale vraag die wij in dit artikel behandelen is: Kunnen bestaande foundation-modellen worden gedistilleerd om theoretisch onbeperkte, rijk geannoteerde 3D-menselijke data te genereren? Wij introduceren InfiniHuman, een raamwerk dat deze modellen synergetisch distilleert om rijk geannoteerde menselijke data te produceren tegen minimale kosten en met theoretisch onbeperkte schaalbaarheid. Wij stellen InfiniHumanData voor, een volledig automatische pijplijn die vision-language- en beeldgeneratiemodellen benut om een grootschalige multimodale dataset te creëren. Een gebruikersstudie toont aan dat onze automatisch gegenereerde identiteiten niet te onderscheiden zijn van scanweergaven. InfiniHumanData bevat 111K identiteiten met een ongekende diversiteit. Elke identiteit is geannoteerd met multigranulaire tekstbeschrijvingen, multi-view RGB-beelden, gedetailleerde kledingbeelden en SMPL-lichaamsvormparameters. Op basis van deze dataset stellen wij InfiniHumanGen voor, een op diffusie gebaseerde generatieve pijplijn die wordt geconditioneerd op tekst, lichaamsvorm en kledingassets. InfiniHumanGen maakt snelle, realistische en precies controleerbare avatar-generatie mogelijk. Uitgebreide experimenten tonen significante verbeteringen aan ten opzichte van state-of-the-art methoden in visuele kwaliteit, generatiesnelheid en controleerbaarheid. Onze aanpak maakt hoogwaardige avatar-generatie mogelijk met fijnmazige controle op effectief onbeperkte schaal door middel van een praktische en betaalbare oplossing. Wij zullen de automatische datageneratiepijplijn, de uitgebreide InfiniHumanData-dataset en de InfiniHumanGen-modellen openbaar beschikbaar stellen op https://yuxuan-xue.com/infini-human.
Generatieve modellen vormen de ruggengraat van modern machinaal leren en ondersteunen state-of-the-art systemen in tekst-, beeld- en multimodale toepassingen. Hoewel Maximum Likelihood Estimation traditioneel het dominante trainingsparadigma is geweest, hebben recente studies de beperkingen ervan benadrukt, met name op het gebied van generalisatie en gevoeligheid voor catastrofaal vergeten in vergelijking met Reinforcement Learning-technieken, zoals Policy Gradient-methoden. Deze benaderingen zijn echter afhankelijk van expliciete beloningssignalen, die in de praktijk vaak niet beschikbaar zijn, waardoor het fundamentele probleem open blijft van hoe generatieve modellen af te stemmen wanneer alleen hoogwaardige datasets toegankelijk zijn. In dit werk pakken we deze uitdaging aan via een Bilevel Optimalisatie-raamwerk, waarbij de beloningsfunctie wordt behandeld als de optimalisatievariabele van een extern probleem, terwijl een Policy Gradient-doelstelling het interne niveau definieert. Vervolgens voeren we een theoretische analyse uit van dit optimalisatieprobleem in een behapbare setting en halen we inzichten die, zoals we aantonen, generaliseren naar toepassingen zoals tabulaire classificatie en modelgebaseerd reinforcement learning. We geven de code vrij op https://github.com/abenechehab/nll_to_po.
Voorgetrainde visuele basis modellen (VFMs) bevorderen robotisch leren via rijke visuele representaties, maar individuele VFMs blinken doorgaans alleen uit in specifieke domeinen, wat de algemene toepasbaarheid over taken beperkt. Het destilleren van meerdere VFMs in een uniforme representatie voor beleid kan deze beperking verminderen, maar resulteert vaak in inflexibele, taakspecifieke feature selectie en vereist kostbare volledige hertraining om robot-domeinkennis te integreren. Wij stellen VER voor, een Vision Expert transformer voor Robotisch leren. Tijdens het vooraf trainen destilleert VER meerdere VFMs in een visuele expertbibliotheek. Vervolgens wordt alleen een lichtgewicht routeringsnetwerk (minder dan 0,4% van de parameters) gefinetuned om dynamisch taakrelevante experts te selecteren uit de vooraf getrainde bibliotheek voor downstream robot taken. We introduceren verder Patchwise Expert Routing met Curriculum Top-K Annealing om zowel de flexibiliteit als de precisie van dynamische expertselectie te verbeteren. Bovendien ondersteunt VER parameter-efficiënt finetunen voor schaalbare expertbenutting en adaptieve integratie van robot-domeinkennis. Over 17 diverse robot taken en meerdere beleidskoppen behaalt VER state-of-the-art prestaties. We ontdekken dat VER grote-norm uitbijters in taakirrelevante regio's (bijv. achtergrond) vermindert en zich concentreert op taakkritische regio's. Visualisaties en codes zijn te vinden op https://yixiaowang7.github.io/ver_page/.
Hoogwaardige pretrainingsdata is de fossiele brandstof van grote taalmodel- len (LLM's), maar de reserves ervan raken uitgeput voor de meest geavanceerde modellen. In dit artikel introduceren we RePro, een nieuwe web-recyclingmethode die een relatief klein taalmodel traint met reinforcement learning om effectieve en betrouwbare herformuleringen van pretrainingsdata te genereren. Specifiek ontwerpen we één kwaliteitsbeloning en drie betrouwbaarheidsbeloningen, waarbij we het taalmodel optimaliseren om organische data om te zetten in hoogwaardige herformuleringen terwijl de kernsemantiek en structuur behouden blijven. In ons experiment trainen we een 4B-herformuleringsmodel om 72B tokens te recyclen die zijn bemonsterd uit DCLM-RefinedWeb. Pretrainingsresultaten op 400M en 1.4B modellen laten zien dat RePro een relatieve nauwkeurigheidsverbetering van 4,7%-14,0% oplevert ten opzichte van een baseline met alleen organische data op 22 downstream taken. RePro presteert ook beter dan ReWire, de state-of-the-art web-recyclingmethode die een 70B-herformuleringsmodel aanstuurt, evenals de organische baseline met een 4x grotere datapool. Experimenten met verschillende hoeveelheden gerecyclede data benadrukken dat RePro de efficiëntie van organische data met 2-3x verbetert. Individuele en distributieanalyses valideren dat RePro meer kritieke informatie behoudt en de kenmerken van organische data betrouwbaarder weerspiegelt in vergelijking met op prompting gebaseerde methoden. Samen tonen deze resultaten aan dat RePro een efficiënte en controleerbare weg biedt om de fossiele brandstof van LLM-pretraining effectief te benutten. We maken onze code, het herformuleringsmodel en de gerecyclede data openbaar op https://github.com/cxcscmu/RePro.
Organische reactiemechanismen zijn de stapsgewijze elementaire reacties waarmee reactanten intermediairen en producten vormen, en zijn fundamenteel voor het begrijpen van chemische reactiviteit en het ontwerpen van nieuwe moleculen en reacties. Hoewel grote taalmodellen (LLM's) veelbelovend zijn gebleken in het begrijpen van chemische taken zoals synthesedesign, is het onduidelijk in hoeverre dit echte chemische redeneervaardigheden weerspiegelt, zoals het vermogen om geldige intermediairen te genereren, chemische consistentie te behouden en logisch samenhangende meerstapsroutes te volgen. Wij pakken dit aan door oMeBench te introduceren, de eerste grootschalige, door experts samengestelde benchmark voor organisch mechanismeredeneren in de organische chemie. Het omvat meer dan 10.000 geannoteerde mechanismestappen met intermediairen, typelabels en moeilijkheidsgradaties. Bovendien stellen we, om de LLM-capaciteit nauwkeuriger te evalueren en fijnmazige scoring mogelijk te maken, oMeS voor, een dynamisch evaluatiekader dat stapniveau-logica en chemische gelijkenis combineert. Wij analyseren de prestaties van state-of-the-art LLM's, en onze resultaten tonen aan dat hoewel huidige modellen veelbelovende chemische intuïtie vertonen, ze moeite hebben met correct en consistent meerstapsredeneren. Opmerkelijk is dat we vaststellen dat het gebruik van een promptingstrategie en het finetunen van een specialistisch model op onze voorgestelde dataset de prestaties met 50% verhoogt ten opzichte van het toonaangevende closed-source model. Wij hopen dat oMeBench zal dienen als een rigoureuze basis voor het bevorderen van AI-systemen naar echt chemisch redeneren.
Hoewel tekst-naar-beeld (T2I) modellen hoogwaardige afbeeldingen kunnen genereren, verslechtert hun prestaties aanzienlijk wanneer ze worden aangestuurd met nieuwe of buiten-de-distributie (OOD) entiteiten vanwege inherente kennisbeperkingen. Wij introduceren World-To-Image, een nieuw raamwerk dat deze kloof overbrugt door T2I-generatie te verrijken met agent-gestuurde wereldkennis. We ontwerpen een agent die dynamisch het web doorzoekt om afbeeldingen te vinden voor concepten die onbekend zijn voor het basismodel. Deze informatie wordt vervolgens gebruikt om multimodale promptoptimalisatie uit te voeren, waardoor krachtige generatieve backbones worden gestuurd naar een nauwkeurige synthese. Cruciaal is dat onze evaluatie verder gaat dan traditionele metrieken, door moderne beoordelingen zoals LLMGrader en ImageReward te gebruiken om echte semantische trouw te meten. Onze experimenten tonen aan dat World-To-Image aanzienlijk beter presteert dan state-of-the-art methoden in zowel semantische uitlijning als visuele esthetiek, met een verbetering van +8,1% in nauwkeurigheid-naar-prompt op onze samengestelde NICE-benchmark. Ons raamwerk bereikt deze resultaten met hoge efficiëntie in minder dan drie iteraties, wat de weg vrijmaakt voor T2I-systemen die de voortdurend veranderende echte wereld beter kunnen weerspiegelen. Onze democode is beschikbaar op https://github.com/mhson-kyle/World-To-Image.
Moderne gespreksagenten zoals ChatGPT en Alexa+ vertrouwen op vooraf gedefinieerde beleidsregels die metadata, antwoordstijlen en regels voor het gebruik van tools specificeren. Naarmate deze op grote taalmodellen (LLM) gebaseerde systemen zich uitbreiden om diverse zakelijke en gebruikersvragen te ondersteunen, worden dergelijke beleidsregels, vaak geïmplementeerd als in-context prompts, steeds complexer en uitgebreider. Dit maakt het moeilijk om ze nauwgezet te volgen en brengt hoge vaste rekenkosten met zich mee. Met de opkomst van multimodale agenten zijn beleidsregels die visueel en multimodaal gedrag sturen cruciaal, maar blijven ze onderbelicht. Eerder werk aan promptcompressie richtte zich voornamelijk op het verkorten van taaksjablonen en demonstraties, terwijl bestaande studies over beleidsafstemming zich alleen richten op tekstgebaseerde veiligheidsregels. Wij introduceren Multimodal Policy Internalization (MPI), een nieuwe taak die redeneerintensieve multimodale beleidsregels internaliseert in modelparameters, waardoor een sterkere naleving van beleid mogelijk wordt zonder het beleid tijdens de inferentie te includeren. MPI brengt unieke uitdagingen op het gebied van data en algoritmen met zich mee. We bouwen twee datasets die synthetische en real-world besluitvormings- en toolgebruikstaken omvatten en stellen TriMPI voor, een driestappen trainingsframework. TriMPI injecteert eerst beleidskennis via voortgezette pretraining, voert vervolgens supervised finetuning uit en past ten slotte PolicyRollout toe, een GRPO-achtige uitbreiding van reinforcement learning die rollouts verrijkt met beleidsbewuste reacties voor gegronde exploratie. TriMPI behaalt aanzienlijke verbeteringen in end-to-end nauwkeurigheid, generalisatie en robuustheid tegen vergeten. Als het eerste werk op het gebied van multimodale beleidsinternalisatie bieden we datasets, trainingsrecepten en uitgebreide evaluaties om toekomstig onderzoek te bevorderen. Projectpagina: https://mikewangwzhl.github.io/TriMPI.
Algemene Large Language Models (LLM's) blinken uit in redeneervaardigheden, maar modellen die zijn versterkt voor vertalingen hebben moeite met redeneertaken. Om dit aan te pakken, stellen we een nieuw vertaalversterkt recept voor dat begint met instructmodellen en alleen laagselectieve afstemming toepast op parallelle data. Volgens deze aanpak introduceren we de Qwen3-XPlus-modellen, die aanzienlijke verbeteringen laten zien in vertaalprestaties voor zowel hoog- als laagresource-talen, met scores van 15+ spBLEU en 40+ xComet voor laagresource-talen zoals Swahili. Opmerkelijk is dat Qwen3-XPlus, ondanks training met slechts kleine parallelle datasets, een gemiddelde verbetering van 1+ punten behaalt op 7 meertalige taken, terwijl het een vergelijkbaar vaardigheidsniveau behoudt als het Qwen3-instructmodel op 15 populaire redeneerdatasets. Dit werk biedt een veelbelovende aanpak voor meertalige verbetering, waarbij de complexiteit aanzienlijk wordt verminderd en de toegankelijkheid voor een breder scala aan talen wordt vergroot. De code en het model zijn publiekelijk beschikbaar.
De kern van Deep Research is kennisontginning, de taak om gestructureerde informatie te extraheren uit enorme hoeveelheden ongestructureerde tekst in reactie op gebruikersinstructies. Grote taalmodelen (LLM's) blinken uit in het interpreteren van dergelijke instructies, maar zijn onbetaalbaar om op grote schaal in te zetten, terwijl traditionele pijplijnen van classificatoren en extractoren weliswaar efficiënt blijven, maar broos zijn en niet kunnen generaliseren naar nieuwe taken. Wij introduceren Falconer, een collaboratief raamwerk dat het agentieve redeneren van LLM's combineert met lichtgewicht proxy-modellen voor schaalbare kennisontginning. In Falconer fungeren LLM's als planners die gebruikersinstructies opsplitsen in uitvoerbare pijplijnen, en als annotators die supervisie genereren om kleine proxy's te trainen. Het raamwerk verenigt classificatie en extractie in twee atomische operaties, get label en get span, waardoor een enkel instructievolgend model meerdere taakspecifieke componenten kan vervangen. Om de consistentie te evalueren tussen proxy-modellen die door Falconer zijn ontwikkeld en annotaties die door mensen en grote modellen zijn geleverd, construeren we nieuwe benchmarks die zowel planning als end-to-end uitvoering omvatten. Experimenten tonen aan dat Falconer nauw aansluit bij state-of-the-art LLM's in nauwkeurigheid van instructievolging, terwijl de inferentiekosten met tot wel 90% worden verlaagd en grootschalige kennisontginning met meer dan 20x wordt versneld, wat een efficiënte en schaalbare basis biedt voor Deep Research.
Creatieve generatie is de synthese van nieuwe, verrassende en waardevolle voorbeelden die de gebruikersintentie weerspiegelen, maar niet van tevoren kunnen worden bedacht. Deze taak heeft als doel de menselijke verbeeldingskracht uit te breiden, waardoor de ontdekking van visuele concepten mogelijk wordt die bestaan in de onontgonnen ruimtes tussen bekende domeinen. Hoewel tekst-naar-beeld diffusiemodellen uitblinken in het renderen van fotorealistische scènes die nauwkeurig aansluiten bij gebruikersprompts, hebben ze nog steeds moeite met het genereren van echt nieuw materiaal. Bestaande benaderingen om generatieve creativiteit te verbeteren, zijn ofwel gebaseerd op interpolatie van beeldkenmerken, wat de verkenning beperkt tot vooraf gedefinieerde categorieën, of vereisen tijdrovende procedures zoals embeddingoptimalisatie of modelafstemming. Wij stellen VLM-Guided Adaptive Negative-Prompting voor, een trainingsvrije, inferentie-tijd methode die creatieve beeldgeneratie bevordert terwijl de geldigheid van het gegenereerde object behouden blijft. Onze aanpak maakt gebruik van een vision-language model (VLM) dat tussenliggende uitkomsten van het generatieproces analyseert en het proces adaptief wegstuurt van conventionele visuele concepten, waardoor het ontstaan van nieuwe en verrassende uitkomsten wordt gestimuleerd. We evalueren creativiteit aan de hand van zowel nieuwigheid als geldigheid, met behulp van statistische metrieken in de CLIP-embeddingruimte. Door uitgebreide experimenten tonen we consistente verbeteringen in creatieve nieuwigheid aan met verwaarloosbare rekenkundige overhead. Bovendien, in tegenstelling tot bestaande methoden die voornamelijk enkele objecten genereren, breidt onze aanpak zich uit tot complexe scenario's, zoals het genereren van samenhangende sets van creatieve objecten en het behouden van creativiteit binnen uitgebreide compositorische prompts. Onze methode integreert naadloos in bestaande diffusiepijplijnen en biedt een praktische route naar het produceren van creatieve uitkomsten die verder gaan dan de beperkingen van tekstuele beschrijvingen.
In-context learning stelt grote modellen in staat zich aan te passen aan nieuwe taken op basis van enkele demonstraties, maar het heeft beperkt succes getoond in moleculair ontwerp. Bestaande databases zoals ChEMBL bevatten moleculaire eigenschappen die miljoenen biologische assays omvatten, toch blijven gelabelde gegevens voor elke eigenschap schaars. Om deze beperking aan te pakken, introduceren we demonstration-conditioned diffusion models (DemoDiff), die taakcontexten definiëren met behulp van een kleine set molecuul-scorevoorbeelden in plaats van tekstbeschrijvingen. Deze demonstraties leiden een denoising Transformer om moleculen te genereren die zijn afgestemd op doel eigenschappen. Voor schaalbare pretraining ontwikkelen we een nieuwe moleculaire tokenizer met Node Pair Encoding die moleculen op motiefniveau representeert, wat 5,5 keer minder nodes vereist. We hebben een dataset samengesteld met miljoenen contexttaken uit meerdere bronnen die zowel geneesmiddelen als materialen omvatten, en hebben daarop een model met 0,7 miljard parameters gepretraind. Over 33 ontwerptaken in zes categorieën presteert DemoDiff even goed of beter dan taalmodelen die 100-1000 keer groter zijn en behaalt het een gemiddelde rang van 3,63 vergeleken met 5,25-10,20 voor domeinspecifieke benaderingen. Deze resultaten positioneren DemoDiff als een moleculair foundation model voor in-context moleculair ontwerp. Onze code is beschikbaar op https://github.com/liugangcode/DemoDiff.
In de afgelopen jaren hebben cloudgebaseerde MLLM's zoals QwenVL, InternVL, GPT-4o, Gemini en Claude Sonnet uitstekende prestaties getoond met enorme modelgroottes die honderden miljarden parameters bereiken. Deze modellen overtreffen echter aanzienlijk de beperkingen in geheugen, stroomverbruik en rekenkracht van edge-apparaten zoals mobiele telefoons. Dit artikel introduceert AndesVL, een suite van mobiele MLLM's met 0,6 tot 4 miljard parameters, gebaseerd op Qwen3's LLM en verschillende visuele encoders. We geven een uitgebreid overzicht van de modelarchitecturen, de trainingspijplijn en de trainingsdata van AndesVL, dat toonaangevende prestaties behaalt op een breed scala aan open-source benchmarks, waaronder gebieden zoals tekstrijke beeldinterpretatie, redeneren en wiskunde, multi-beeldbegrip, algemene VQA, hallucinatiemitigatie, meertalig begrip en GUI-gerelateerde taken, vergeleken met state-of-the-art modellen van vergelijkbare schaal. Bovendien introduceren we een 1+N LoR
Typische post-trainingsparadigma's voor Grote Visueel-Taalmodellen (LVLMs) omvatten Supervised Fine-Tuning (SFT) en Reinforcement Learning met Verifieerbare Beloningen (RLVR). SFT maakt gebruik van externe begeleiding om nieuwe kennis toe te voegen, terwijl RLVR interne versterking benut om redeneervaardigheden en algehele prestaties te verbeteren. Uit onze analyse blijkt echter dat SFT vaak leidt tot suboptimale prestaties, terwijl RLVR moeite heeft met taken die de interne kennisbasis van het model overstijgen. Om deze beperkingen aan te pakken, stellen we ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning) voor, een geïntegreerd post-trainingsparadigma dat de sterke punten van zowel SFT als RLVR combineert in één fase. We analyseren de afleiding van de SFT- en RLVR-doelstellingen om de ViSurf-doelstelling vast te stellen, wat een verenigd perspectief biedt op deze twee paradigma's. De kern van ViSurf bestaat uit het injecteren van grondwaarheidslabels in de RLVR-rollouts, waardoor gelijktijdig externe supervisie en interne versterking wordt geboden. Bovendien introduceren we drie nieuwe beloningscontrolemethoden om het trainingsproces te stabiliseren en te optimaliseren. Uitgebreide experimenten over diverse benchmarks tonen de effectiviteit van ViSurf aan, waarbij het zowel individuele SFT, RLVR, als de tweefase SFT \textrightarrow RLVR overtreft. Diepgaande analyses bevestigen deze bevindingen en valideren de afleiding en ontwerp principes van ViSurf.
Instructiegestuurd video-editen is uitgegroeid tot een snel ontwikkelend onderzoeksgebied, dat nieuwe mogelijkheden biedt voor intuïtieve contenttransformatie, maar tegelijkertijd aanzienlijke uitdagingen met zich meebrengt voor systematische evaluatie. Bestaande benchmarks voor video-editen schieten tekort in het ondersteunen van de evaluatie van instructiegestuurd video-editen en hebben bovendien te kampen met beperkte bronnendiversiteit, smalle taakdekking en onvolledige evaluatiemetrics. Om deze beperkingen aan te pakken, introduceren we IVEBench, een moderne benchmark suite die specifiek is ontworpen voor de evaluatie van instructiegestuurd video-editen. IVEBench omvat een diverse database van 600 hoogwaardige bronvideo's, verdeeld over zeven semantische dimensies, en beslaat videolengtes variërend van 32 tot 1.024 frames. Daarnaast bevat het acht categorieën van edittaken met 35 subcategorieën, waarvan de prompts zijn gegenereerd en verfijnd met behulp van grote taalmmodellen en expertbeoordelingen. Cruciaal is dat IVEBench een driedimensionaal evaluatieprotocol vaststelt dat video kwaliteit, instructienaleving en videotrouw omvat, waarbij zowel traditionele metrics als op multimodale grote taalmmodellen gebaseerde beoordelingen worden geïntegreerd. Uitgebreide experimenten tonen de effectiviteit van IVEBench aan bij het benchmarken van state-of-the-art methoden voor instructiegestuurd video-editen, waarbij het vermogen wordt aangetoond om uitgebreide en mensgerichte evaluatieresultaten te bieden.
Nauwkeurige semantische segmentatie van terrestrische laserscanning (TLS) puntenwolken wordt beperkt door kostbare handmatige annotatie. Wij stellen een semi-geautomatiseerde, onzekerheidsbewuste pipeline voor die sferische projectie, feature-verrijking, ensemble learning en gerichte annotatie integreert om de labelinspanning te verminderen, terwijl een hoge nauwkeurigheid behouden blijft. Onze aanzicht projecteert 3D-punten naar een 2D-sferisch raster, verrijkt pixels met multi-source features, en traint een ensemble van segmentatienetwerken om pseudo-labels en onzekerheidskaarten te produceren, waarbij de laatste de annotatie van ambigue regio's begeleidt. De 2D-uitvoer wordt teruggeprojecteerd naar 3D, wat resulteert in dicht geannoteerde puntenwolken ondersteund door een driedelige visualisatiesuite (2D feature maps, 3D gekleurde puntenwolken en compacte virtuele sferen) voor snelle triage en begeleiding van beoordelaars. Met behulp van deze pipeline bouwen we Mangrove3D, een semantische segmentatie TLS-dataset voor mangrovebossen. We evalueren verder de data-efficiëntie en feature-importantie om twee belangrijke vragen te beantwoorden: (1) hoeveel geannoteerde data zijn nodig en (2) welke features zijn het belangrijkst. Resultaten tonen aan dat de prestaties verzadigen na ~12 geannoteerde scans, geometrische features het meest bijdragen, en compacte negen-kanaals stacks bijna alle onderscheidende kracht vastleggen, waarbij de gemiddelde Intersection over Union (mIoU) een plateau bereikt rond 0.76. Ten slotte bevestigen we de generalisatie van onze feature-verrijkingsstrategie door cross-dataset tests op ForestSemantic en Semantic3D. Onze bijdragen omvatten: (i) een robuuste, onzekerheidsbewuste TLS-annotatiepipeline met visualisatietools; (ii) de Mangrove3D dataset; en (iii) empirische richtlijnen over data-efficiëntie en feature-importantie, waardoor schaalbare, hoogwaardige segmentatie van TLS-puntenwolken mogelijk wordt voor ecologische monitoring en daarbuiten. De dataset en verwerkingsscripts zijn publiekelijk beschikbaar op https://fz-rit.github.io/through-the-lidars-eye/.
Verbeteringen in modelconstructie, waaronder versterkte veiligheidsbeperkingen, zorgen ervoor dat grote taalmmodellen (LLMs) steeds vaker standaard veiligheidscontroles doorstaan. Echter, LLMs vervallen soms in het vertonen van schadelijk gedrag, zoals het uiten van racistische standpunten, tijdens gesprekken. Om dit systematisch te analyseren, introduceren we CoBia, een reeks lichtgewicht adversariële aanvallen waarmee we de reeks voorwaarden kunnen verfijnen waaronder LLMs afwijken van normatief of ethisch gedrag in gesprekken. CoBia creëert een geconstrueerd gesprek waarin het model een bevooroordeelde uitspraak doet over een sociale groep. Vervolgens evalueren we of het model kan herstellen van de gefabriceerde bevooroordeelde uitspraak en bevooroordeelde vervolgvragen kan afwijzen. We evalueren 11 open-source en propriëtaire LLMs op hun uitvoer met betrekking tot zes sociaal-demografische categorieën die relevant zijn voor individuele veiligheid en eerlijke behandeling, namelijk geslacht, ras, religie, nationaliteit, seksuele geaardheid en andere. Onze evaluatie is gebaseerd op gevestigde LLM-gebaseerde biasmetrieken, en we vergelijken de resultaten met menselijke oordelen om de betrouwbaarheid en afstemming van de LLMs in kaart te brengen. De resultaten suggereren dat doelbewust geconstrueerde gesprekken betrouwbaar biasversterking onthullen en dat LLMs vaak falen in het afwijzen van bevooroordeelde vervolgvragen tijdens dialoog. Deze vorm van stresstesten benadrukt diepgewortelde vooroordelen die naar voren kunnen komen door interactie. Code en artefacten zijn beschikbaar op https://github.com/nafisenik/CoBia.
Large Reasoning Models (LRMs) blinken uit in complex redeneren, maar worden traditioneel geëvalueerd in statische, "bevroren wereld"-omgevingen: modelresponses worden verondersteld direct te zijn, en de context van een verzoek wordt geacht onveranderlijk te blijven gedurende de duur van de response. Hoewel dit over het algemeen geldt voor kortetermijntaken, valt de "bevroren wereld"-aanname uiteen in moderne redeneertaken zoals ondersteunend programmeren, waarbij modellen uren kunnen nemen om problemen te overdenken en code drastisch kan veranderen tussen het moment waarop het model begint na te denken en het uiteindelijke output van het model. In dit werk dagen we de bevroren wereld-aanname uit en evalueren we de robuustheid van LRMs onder twee realistische dynamische scenario's: onderbrekingen, die de kwaliteit van de gedeeltelijke outputs van het model testen met een beperkt budget, en dynamische context, die de aanpassing van het model test aan veranderingen tijdens het proces. Over wiskundige en programmeerbenchmarks die langdurig redeneren vereisen, overschatten statische evaluaties consistent de robuustheid: zelfs state-of-the-art LRMs, die hoge nauwkeurigheid behalen in statische omgevingen, kunnen onvoorspelbaar falen wanneer ze worden onderbroken of blootgesteld aan veranderende context, met prestaties die tot wel 60% dalen wanneer updates laat in het redeneerproces worden geïntroduceerd. Onze analyse onthult verder verschillende nieuwe faalmodi, waaronder redeneerlekkage, waarbij modellen het redeneren in hun eindantwoord opnemen wanneer ze worden onderbroken; paniek, waarbij modellen onder tijdsdruk het redeneren volledig opgeven en incorrecte antwoorden teruggeven; en zelf twijfel, waarbij de prestaties verslechteren bij het incorporeren van bijgewerkte informatie.
In dit artikel presenteren we de eerste grootschalige studie die onderzoekt of JavaScript-code gegenereerd door Large Language Models (LLMs) kan onthullen welk model deze heeft geproduceerd, waardoor betrouwbare auteurschapstoewijzing en model fingerprinting mogelijk wordt. Met de snelle opkomst van AI-gegenereerde code speelt toewijzing een cruciale rol bij het detecteren van kwetsbaarheden, het markeren van kwaadaardige inhoud en het waarborgen van verantwoordelijkheid. Terwijl AI-vs-mens detectie AI meestal als één categorie behandelt, tonen we aan dat individuele LLMs unieke stilistische handtekeningen achterlaten, zelfs onder modellen die tot dezelfde familie of parameteromvang behoren. Hiertoe introduceren we LLM-NodeJS, een dataset van 50.000 Node.js back-end programma's van 20 grote taalmodellen. Elk heeft vier getransformeerde varianten, wat resulteert in 250.000 unieke JavaScript-monsters en twee aanvullende representaties (JSIR en AST) voor diverse onderzoeksapplicaties. Met behulp van deze dataset vergelijken we traditionele machine learning-classificatiemodellen met fijn afgestemde Transformer-encoders en introduceren we CodeT5-JSA, een aangepaste architectuur afgeleid van het 770M-parameter CodeT5-model met de decoder verwijderd en een aangepaste classificatiekop. Het behaalt een nauwkeurigheid van 95,8% op vijfklassentoewijzing, 94,6% op tienklassen en 88,5% op twintigklassen taken, wat andere geteste modellen zoals BERT, CodeBERT en Longformer overtreft. We tonen aan dat classificatiemodellen diepere stilistische regelmatigheden in programmadatastroom en -structuur vastleggen, in plaats van te vertrouwen op oppervlakkige kenmerken. Als gevolg blijft toewijzing effectief, zelfs na mangling, verwijdering van commentaar en zware codetransformaties. Om open wetenschap en reproduceerbaarheid te ondersteunen, publiceren we de LLM-NodeJS dataset, Google Colab trainingsscripts en alle gerelateerde materialen op GitHub: https://github.com/LLM-NodeJS-dataset.
Het diagnosticeren van een whole-slide image is een interactief, meerfasig proces waarbij veranderingen in vergroting en beweging tussen velden betrokken zijn. Hoewel recente pathologie foundation models sterk zijn, ontbreken er nog praktische agentische systemen die beslissen welk veld vervolgens moet worden onderzocht, de vergroting aanpassen en uitlegbare diagnoses leveren. Het struikelblok is data: schaalbare, klinisch afgestemde supervisie van expertkijkgedrag dat impliciet en ervaringsgebonden is, niet in tekstboeken of online staat beschreven, en daarom afwezig is in de training van grote taalmodellen. We introduceren de AI Session Recorder, die samenwerkt met standaard WSI-viewers om routinematige navigatie onopvallend vast te leggen en de viewerlogs om te zetten in gestandaardiseerde gedragscommando's (inspecteren of gluren bij discrete vergrotingen) en begrenzingsvakken. Een lichtgewicht human-in-the-loop review zet AI-opgestelde redeneringen om in de Pathology-CoT dataset, een vorm van gepaarde supervisie "waar te kijken" en "waarom het ertoe doet" die met ongeveer zes keer minder labeltijd wordt geproduceerd. Met deze gedragsdata bouwen we Pathologist-o3, een tweefasen agent die eerst regio's van belang voorstelt en vervolgens gedragsgestuurde redeneringen uitvoert. Bij de detectie van gastro-intestinale lymfekliermetastasen behaalde het 84,5% precisie, 100,0% recall en 75,4% nauwkeurigheid, waarmee het het state-of-the-art OpenAI o3 model overtrof en generaliseerde over verschillende backbones. Voor zover wij weten, is dit een van de eerste gedragsgebaseerde agentische systemen in de pathologie. Door alledaagse viewerlogs om te zetten in schaalbare, expert-gevalideerde supervisie, maakt ons framework agentische pathologie praktisch en legt het een weg naar mensgericht, upgradebaar klinisch AI.
Grote taalmodellen (LLM's) kunnen correct antwoorden op de vraag "Wanneer is Einstein geboren?", maar slagen er niet in dezelfde datum te geven wanneer ze over Einsteins leven schrijven, wat een fundamentele inconsistentie onthult in hoe modellen feitelijke kennis benaderen bij verschillende taakcomplexiteiten. Hoewel modellen indrukwekkende nauwkeurigheid vertonen op benchmarks voor feitelijke vraag-antwoordtaken, blijft de betrouwbaarheidskloof tussen eenvoudige en complexe vragen slecht begrepen, wat hun vertrouwwaardigheid ondermijnt. In dit werk introduceren we Short-Long Form Alignment for Factual Question Answering (SLAQ), een gecontroleerd evaluatiekader dat de antwoorden van LLM's op dezelfde feitelijke vragen vergelijkt wanneer deze (a) geïsoleerd (kort) versus (b) geïntegreerd in complexe vragen (lang) worden gesteld. Door 16 LLM's te onderzoeken over 600 vragen, vinden we een systematische misalignering van antwoorden op de corresponderende korte en lange vragen. We ontdekken verder positie-afhankelijk nauwkeurigheidsverlies en momentum-effecten waarbij opeenvolgende correcte of incorrecte antwoorden zelfversterkende patronen creëren. Door mechanistische analyse vinden we dat gealigneerde feiten overlappende interne modelcomponenten activeren, en dat metriek gebaseerd op mechanistische gelijkenis de alignering van korte en lange antwoorden met een nauwkeurigheid van tot 78% kan voorspellen. Ons werk stelt feitelijke consistentie over vraagcomplexiteit vast als een belangrijk aspect van de vertrouwwaardigheid van LLM's en daagt huidige evaluatiepraktijken uit, die impliciet aannemen dat goede prestaties op eenvoudige feitelijke vragen ook betrouwbaarheid impliceert in complexere kenniszoektaken.
Video inbetweening creëert vloeiende en natuurlijke overgangen tussen twee beeldframes, waardoor het een onmisbaar hulpmiddel is voor videobewerking en de synthese van lange video's. Bestaande werken in dit domein zijn niet in staat om grote, complexe of ingewikkelde bewegingen te genereren. In het bijzonder kunnen ze niet omgaan met de veelzijdigheid van gebruikersintenties en missen ze over het algemeen fijne controle over de details van tussenliggende frames, wat leidt tot een gebrek aan afstemming met het creatieve denken. Om deze leemtes op te vullen, introduceren we MultiCOIN, een video inbetweening-framework dat multi-modale controles mogelijk maakt, waaronder diepteovergangen en lagen, bewegingsbanen, tekstprompts en doelgebieden voor bewegingslokalisatie, terwijl het een balans bereikt tussen flexibiliteit, gebruiksgemak en precisie voor fijnmazige video-interpolatie. Om dit te bereiken, gebruiken we de Diffusion Transformer (DiT)-architectuur als ons videogeneratieve model, vanwege zijn bewezen vermogen om hoogwaardige lange video's te genereren. Om de compatibiliteit tussen DiT en onze multi-modale controles te waarborgen, vertalen we alle bewegingscontroles naar een gemeenschappelijke, spaarzame en gebruiksvriendelijke puntgebaseerde representatie als de video/ruis-input. Verder, om rekening te houden met de verscheidenheid aan controles die op verschillende niveaus van granulariteit en invloed werken, scheiden we inhoudscontroles en bewegingscontroles in twee takken om de vereiste kenmerken te coderen voordat we het denoisingsproces begeleiden, wat resulteert in twee generatoren, één voor beweging en één voor inhoud. Ten slotte stellen we een gefaseerde trainingsstrategie voor om ervoor te zorgen dat ons model de multi-modale controles soepel leert. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat multi-modale controles een dynamischer, aanpasbaarder en contextueel nauwkeuriger visueel verhaal mogelijk maken.