Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Codegeneratie in lange contexten wordt steeds kritischer naarmate Large Language Models (LLMs) moeten redeneren over uitgebreide informatie in de codebase. Hoewel recente vooruitgang code-LLMs in staat stelt om lange invoeren te verwerken, blijven hoge API-kosten en generatielatentie aanzienlijke knelpunten. Bestaande technieken voor contextreductie, zoals LLMLingua, behalen veelbelovende resultaten voor algemene tekst, maar negeren code-specifieke structuren en afhankelijkheden, wat leidt tot suboptimale prestaties bij programmeertaken. In dit artikel stellen we LongCodeZip voor, een innovatief plug-and-play codecompressieframework dat specifiek is ontworpen voor code-LLMs. LongCodeZip maakt gebruik van een tweefasenstrategie: (1) grove compressie, waarbij functieniveau-chunks worden geïdentificeerd en gerangschikt op basis van conditionele perplexiteit ten opzichte van de instructie, waarbij alleen de meest relevante functies worden behouden; en (2) fijne compressie, waarbij behouden functies worden gesegmenteerd in blokken op basis van perplexiteit en een optimale subset wordt geselecteerd binnen een adaptief tokenbudget om de relevantie te maximaliseren. Evaluaties over meerdere taken, waaronder codecompletering, samenvatting en vraagbeantwoording, laten zien dat LongCodeZip consistent beter presteert dan baseline-methoden, met een compressieverhouding van tot wel 5,6x zonder de taakprestaties te verslechteren. Door effectief de contextgrootte te verkleinen terwijl essentiële informatie behouden blijft, maakt LongCodeZip het mogelijk dat LLMs beter kunnen schalen naar realistische, grootschalige code- scenario's, wat de efficiëntie en capaciteit van code-intelligentieapplicaties bevordert.
Diffusiemodellen hebben een revolutie teweeggebracht in beeld- en videogeneratie, waarbij ze een ongekende visuele kwaliteit bereiken. Hun afhankelijkheid van transformer-architecturen brengt echter extreem hoge rekenkosten met zich mee, vooral bij het uitbreiden van de generatie naar lange video's. Recent onderzoek heeft autoregressieve formuleringen verkend voor het genereren van lange video's, meestal door distillatie van kortetermijn bidirectionele leraren. Echter, aangezien leraarmodellen geen lange video's kunnen synthetiseren, leidt de extrapolatie van studentmodellen buiten hun trainingshorizon vaak tot een aanzienlijke kwaliteitsafname, veroorzaakt door de opeenstapeling van fouten in de continue latente ruimte. In dit artikel stellen we een eenvoudige maar effectieve aanpak voor om kwaliteitsafname bij het genereren van lange video's te verminderen, zonder toezicht van lange-video-leraren of hertraining op lange videodatasets. Onze aanpak richt zich op het benutten van de rijke kennis van leraarmodellen om begeleiding te bieden aan het studentmodel via bemonsterde segmenten uit zelf gegenereerde lange video's. Onze methode behoudt temporele consistentie terwijl de videolengte tot 20x wordt opgeschaald buiten het vermogen van de leraar, waarbij veelvoorkomende problemen zoals overbelichting en foutaccumulatie worden vermeden zonder overlappende frames opnieuw te berekenen zoals bij eerdere methoden. Bij het opschalen van de rekenkracht toont onze methode het vermogen om video's te genereren tot 4 minuten en 15 seconden, wat overeenkomt met 99,9% van de maximale duur die wordt ondersteund door de positie-embedding van ons basismodel en meer dan 50x langer dan die van ons basismodel. Experimenten op standaardbenchmarks en onze voorgestelde verbeterde benchmark tonen aan dat onze aanpak de baseline-methoden aanzienlijk overtreft in zowel getrouwheid als consistentie. Onze demo van lange video's is te vinden op https://self-forcing-plus-plus.github.io/.
Reinforcement learning from verifiable rewards (RLVR) is een opkomend paradigma voor het verbeteren van het redeneervermogen van grote taalmodelen. Echter, standaard on-policy training verwijdert rollout-ervaringen na een enkele update, wat leidt tot computationele inefficiëntie en instabiliteit. Hoewel eerder werk over RL de voordelen van het hergebruiken van eerdere ervaringen heeft benadrukt, blijft de rol van ervaringskenmerken in het vormgeven van de leer dynamiek van grote redeneermodellen onderbelicht. In dit artikel onderzoeken wij als eerste wat een redeneerervaring waardevol maakt en identificeren we rollout-correctheid en entropie als effectieve indicatoren van ervaringswaarde. Op basis van deze inzichten stellen wij ExGRPO (Experiential Group Relative Policy Optimization) voor, een raamwerk dat waardevolle ervaringen organiseert en prioriteert, en een mixed-policy doelstelling gebruikt om exploratie te balanceren met het benutten van ervaringen. Experimenten op vijf basismodellen (1,5B-8B parameters) laten zien dat ExGRPO consistent de redeneerprestaties verbetert op wiskundige/algemene benchmarks, met een gemiddelde winst van +3,5/7,6 punten ten opzichte van on-policy RLVR. Bovendien stabiliseert ExGRPO de training op zowel sterkere als zwakkere modellen waar on-policy methoden falen. Deze resultaten benadrukken principieel ervaringsmanagement als een cruciaal ingrediënt voor efficiënte en schaalbare RLVR.
3D-scène representatiemethoden zoals Neural Radiance Fields (NeRF) en 3D Gaussian Splatting (3DGS) hebben de synthese van nieuwe gezichtspunten aanzienlijk vooruitgebracht. Naarmate deze methoden steeds meer worden toegepast, wordt het aanpakken van hun kwetsbaarheden cruciaal. Wij analyseren de robuustheid van 3DGS tegen beeldniveau-vergiftigingsaanvallen en stellen een nieuwe dichtheidsgeleide vergiftigingsmethode voor. Onze methode injecteert strategisch Gaussische punten in regio's met lage dichtheid die worden geïdentificeerd via Kernel Density Estimation (KDE), waarbij gezichtspuntafhankelijke illusoire objecten worden ingebed die duidelijk zichtbaar zijn vanuit vergiftigde gezichtspunten, terwijl onschuldige gezichtspunten minimaal worden beïnvloed. Daarnaast introduceren we een adaptieve ruisstrategie om de multi-view consistentie te verstoren, wat de effectiviteit van de aanval verder versterkt. We stellen een KDE-gebaseerd evaluatieprotocol voor om de aanvalsmoeilijkheid systematisch te beoordelen, waardoor objectieve benchmarking voor toekomstig onderzoek mogelijk wordt. Uitgebreide experimenten tonen de superieure prestaties van onze methode aan in vergelijking met state-of-the-art technieken. Projectpagina: https://hentci.github.io/stealthattack/
Grote taalmmodellen (LLMs) hebben recentelijk sterke capaciteiten getoond als autonome agents, waarbij ze veelbelovend zijn op het gebied van redeneren, gereedschapsgebruik en sequentiële besluitvorming. Hoewel eerdere benchmarks LLM-agents hebben geëvalueerd in domeinen zoals software engineering en wetenschappelijke ontdekking, blijft het financiële domein onderbelicht, ondanks de directe relevantie voor economische waarde en besluitvorming met grote gevolgen. Bestaande financiële benchmarks testen voornamelijk statische kennis via vraag-antwoordtaken, maar ze schieten tekort in het vastleggen van de dynamische en iteratieve aard van handel. Om dit gat te dichten, introduceren we StockBench, een contaminatievrije benchmark ontworpen om LLM-agents te evalueren in realistische, meerdere maanden durende aandelenhandelomgevingen. Agents ontvangen dagelijkse marktsignalen – inclusief prijzen, fundamentele gegevens en nieuws – en moeten sequentiële koop-, verkoop- of houdbeslissingen nemen. Prestaties worden beoordeeld met behulp van financiële metrieken zoals cumulatief rendement, maximale daling en de Sortino-ratio. Onze evaluatie van state-of-the-art propriëtaire (bijv. GPT-5, Claude-4) en open-weight modellen (bijv. Qwen3, Kimi-K2, GLM-4.5) toont aan dat, hoewel de meeste LLM-agents moeite hebben om het eenvoudige buy-and-hold-baseline te overtreffen, verschillende modellen het potentieel tonen om hogere rendementen te behalen en risico effectiever te beheren. Deze bevindingen benadrukken zowel de uitdagingen als de kansen bij het ontwikkelen van LLM-gestuurde financiële agents, en laten zien dat uitblinken in statische financiële kennistaken niet noodzakelijkerwijs vertaalt naar succesvolle handelsstrategieën. We maken StockBench beschikbaar als een open-source bron om reproduceerbaarheid te ondersteunen en toekomstig onderzoek in dit domein te bevorderen.
We introduceren F2LLM - Foundation to Feature Large Language Models, een suite van state-of-the-art embeddingmodellen in drie formaten: 0.6B, 1.7B en 4B. In tegenstelling tot eerder toonaangevende embeddingmodellen die massale contrastieve voorpretraining, geavanceerde trainingspijplijnen en kostbare synthetische trainingsdata vereisen, wordt F2LLM direct gefinetuned vanuit foundationmodellen op 6 miljoen query-document-negatieve tuples die zijn samengesteld uit open-source, niet-synthetische datasets. Hiermee wordt een sterke balans gevonden tussen trainingskosten, modelgrootte en embeddingprestaties. Op de MTEB English leaderboard staat F2LLM-4B op de 2e plaats onder modellen met ongeveer 4B parameters en op de 7e plaats overall, terwijl F2LLM-1.7B op de 1e plaats staat onder modellen in het 1B-2B groottebereik. Om toekomstig onderzoek in het veld te faciliteren, maken we de modellen, de trainingsdataset en de code beschikbaar, waardoor F2LLM zich positioneert als een sterke, reproduceerbare en budgetvriendelijke basislijn voor toekomstig werk.
Traditionele training van neurale netwerken volgt doorgaans vaste, vooraf gedefinieerde optimalisatierecepten, wat de flexibiliteit mist om dynamisch te reageren op instabiliteiten of opkomende trainingsproblemen. In dit artikel introduceren we Interactive Training, een open-source framework dat real-time, feedback-gestuurde interventie mogelijk maakt tijdens de training van neurale netwerken door menselijke experts of geautomatiseerde AI-agents. De kern van Interactive Training bestaat uit een controlserver die de communicatie bemiddelt tussen gebruikers of agents en het lopende trainingsproces, waardoor gebruikers dynamisch optimalisatiehyperparameters, trainingsdata en modelcheckpoints kunnen aanpassen. Aan de hand van drie casestudies tonen we aan dat Interactive Training superieure trainingsstabiliteit, verminderde gevoeligheid voor initiële hyperparameters en verbeterde aanpassingsvermogen aan evoluerende gebruikersbehoeften bereikt, wat de weg vrijmaakt naar een toekomstig trainingsparadigma waarin AI-agents trainingslogboeken autonoom monitoren, proactief instabiliteiten oplossen en trainingsdynamieken optimaliseren.
Het dominante paradigma voor het trainen van grote redeneermodellen begint met voorafgaande training met behulp van een verliesfunctie voor volgende-token-voorspelling op enorme hoeveelheden data. Versterkend leren, hoewel krachtig in het schalen van redeneren, wordt pas geïntroduceerd als de allerlaatste fase van de na-training, voorafgegaan door begeleide fine-tuning. Hoewel dominant, is dit een optimale manier van trainen? In dit artikel presenteren we RLP, een informatie-gestuurd doel voor versterkende voorafgaande training, dat de kern van versterkend leren – exploratie – naar de laatste fase van de voorafgaande training brengt. Het sleutelidee is om keten-van-gedachten te behandelen als een verkennende actie, met beloningen berekend op basis van de informatieversterking die het biedt voor het voorspellen van toekomstige tokens. Dit trainingsdoel moedigt in wezen het model aan om zelf na te denken voordat het voorspelt wat er komt, waardoor het een onafhankelijk denkgedrag eerder in de voorafgaande training aanleert. Concreter meet het beloningssignaal de toename in log-waarschijnlijkheid van het volgende token wanneer geconditioneerd op zowel context als een bemonsterde redeneerketen, vergeleken met conditionering op context alleen. Deze aanpak levert een verificatievrij dicht beloningssignaal op, waardoor efficiënte training voor de volledige documentstroom tijdens de voorafgaande training mogelijk is. Specifiek herformuleert RLP versterkend leren voor redeneren als een doel voor voorafgaande training op gewone tekst, waardoor de kloof tussen volgende-token-voorspelling en het ontstaan van nuttige keten-van-gedachten redenering wordt overbrugd. Voorafgaande training met RLP op Qwen3-1.7B-Base verhoogt het algemene gemiddelde over een acht-benchmark wiskunde-en-wetenschap suite met 19%. Met identieke na-training stapelen de winsten zich op, met de grootste verbeteringen op redenering-zware taken zoals AIME25 en MMLU-Pro. Toepassing van RLP op de hybride Nemotron-Nano-12B-v2 verhoogt het algemene gemiddelde van 42,81% naar 61,32% en verhoogt het gemiddelde op wetenschappelijk redeneren met 23%, wat schaalbaarheid over architecturen en modelgroottes aantoont.
Multimodale inbeddingsmodellen worden steeds meer gebruikt, met name voor documentretrieval als efficiënte alternatieven voor tekstgebaseerde pijplijnen. Deze modellen worden doorgaans gebouwd door grote vision-language decoders (VLMs) te finetunen met contrastieve verliezen op tekst-beeldparen. In dit werk tonen we aan dat, hoewel kostenefficiënt, deze hergebruikaanpak vaak een knelpunt vormt voor de retrievalsprestaties. Door middel van gecontroleerde experimenten stellen we een principieel recept op voor het verbeteren van visuele documentretrievalmodellen. We meten met name de impact van aandachtmaskering, beeldresolutie, modaliteitsuitlijningsdataregimes en contrastieve doelen gericht op late interactie, die naar voren komen als centrale prestatiefactoren. Op basis van deze inzichten brengen we ModernVBERT uit, een compact vision-language encoder-model met 250 miljoen parameters dat, wanneer gefinetuned op documentretrievaltaken, modellen tot 10 keer groter overtreft. Modellen en code zijn beschikbaar op https://huggingface.co/ModernVBERT.
Audio-video-generatie heeft vaak vertrouwd op complexe, meerfasige architecturen of sequentiële synthese van geluid en beeld. Wij introduceren Ovi, een uniform paradigma voor audio-video-generatie dat de twee modaliteiten modelleert als een enkel generatief proces. Door gebruik te maken van bloksgewijze cross-modale fusie van twin-DiT-modules, bereikt Ovi natuurlijke synchronisatie en elimineert het de noodzaak voor afzonderlijke pijplijnen of post-hoc-uitlijning. Om fijnmazige multimodale fusiemodellering te faciliteren, initialiseren we een audiotoren met een architectuur die identiek is aan die van een sterk voorgetraind videomodel. Vanaf nul getraind op honderdduizenden uren aan ruwe audio, leert de audiotoren realistische geluidseffecten te genereren, evenals spraak die rijke sprekersidentiteit en emotie overbrengt. Fusie wordt bereikt door gezamenlijke training van de identieke video- en audiotoren via bloksgewijze uitwisseling van timing (via geschaalde RoPE-embeddings) en semantiek (door bidirectionele cross-attentie) op een enorme videocorpus. Ons model maakt cinematisch vertellen mogelijk met natuurlijke spraak en nauwkeurige, contextueel passende geluidseffecten, waardoor filmwaardige videoclips worden geproduceerd. Alle demo's, code en modelgewichten zijn gepubliceerd op https://aaxwaz.github.io/Ovi.
Ondanks de recente snelle vooruitgang in AI-veiligheid, blijven huidige grote taalmodellen kwetsbaar voor adversariële aanvallen in multi-turn interactieomgevingen, waar aanvallers hun prompts strategisch aanpassen over verschillende gespreksronden en een kritischer en realistischer uitdaging vormen. Bestaande benaderingen die veiligheidskwetsbaarheden ontdekken, zijn ofwel afhankelijk van handmatige red-teaming met menselijke experts, of gebruiken geautomatiseerde methoden met vooraf gedefinieerde sjablonen en door mensen samengestelde aanvalsgegevens, waarbij de meeste zich richten op single-turn aanvallen. Deze methoden hebben echter de uitgebreide ruimte van mogelijke multi-turn aanvallen niet verkend, en hebben geen rekening gehouden met nieuwe aanvalstrajecten die ontstaan uit complexe dialoogdynamiek en strategische gespreksplanning. Deze kloof is bijzonder kritisch gezien recente bevindingen dat LLM's aanzienlijk kwetsbaarder zijn voor multi-turn aanvallen in vergelijking met single-turn aanvallen. Wij stellen DialTree-RPO voor, een on-policy reinforcement learning framework geïntegreerd met boomzoeken, dat autonoom diverse multi-turn aanvalsstrategieën ontdekt door de dialoog te behandelen als een sequentieel beslissingsprobleem, waardoor systematische exploratie mogelijk is zonder handmatig samengestelde gegevens. Door uitgebreide experimenten bereikt onze benadering niet alleen meer dan 25,9% hogere ASR over 10 doelmodellen in vergelijking met eerdere state-of-the-art benaderingen, maar ontdekt het ook effectief nieuwe aanvalsstrategieën door optimale dialoogbeleidsregels te leren die het aanvalssucces over meerdere ronden maximaliseren.
Activatiesturing is een veelbelovende techniek voor het beheersen van LLM-gedrag door semantisch betekenisvolle vectoren direct toe te voegen aan de verborgen toestanden van een model tijdens inferentie. Het wordt vaak gezien als een precieze, interpreteerbare en potentieel veiligere alternatief voor fine-tuning. Wij tonen het tegenovergestelde aan: sturing breekt systematisch de veiligheidsmaatregelen van modelalignment, waardoor het schadelijke verzoeken gaat uitvoeren. Door uitgebreide experimenten op verschillende modelfamilies laten we zien dat zelfs sturing in een willekeurige richting de kans op schadelijke naleving kan verhogen van 0% naar 2-27%. Verontrustend is dat het sturen van goedaardige kenmerken vanuit een sparse autoencoder (SAE), een veelgebruikte bron van interpreteerbare richtingen, deze percentages verder verhoogt met 2-4%. Tot slot tonen we aan dat het combineren van 20 willekeurig gesampelde vectoren die een enkele prompt jailbreken, een universele aanval creëert die de schadelijke naleving op ongeziene verzoeken aanzienlijk verhoogt. Deze resultaten dagen het paradigma van veiligheid door interpreteerbaarheid uit, en laten zien dat precieze controle over modelinterne processen geen garantie biedt voor precieze controle over modelgedrag.
Het beoordelen van de kwaliteit van uitvoer van Large Language Models (LLM's) vormt een kritieke uitdaging. Bestaande methoden vertrouwen ofwel op tekstniveau-informatie (bijvoorbeeld beloningsmodellen, meerderheidsstemming), wat kan leiden tot overfitting aan oppervlakkige signalen, of op gekalibreerde betrouwbaarheid gebaseerd op tokenwaarschijnlijkheden, wat faalt bij minder goed gekalibreerde modellen. Beide signalen zijn echter slechts gedeeltelijke projecties van een rijker informatiebron: de interne verborgen toestanden van het model. Vroege lagen, dichter bij token-embeddings, behouden semantische en lexicale kenmerken die ten grondslag liggen aan tekstgebaseerde beoordelingen, terwijl latere lagen steeds meer aansluiten bij uitvoer-logits en betrouwbaarheidsgerelateerde informatie bevatten. Dit artikel onderzoekt verborgen toestanden direct als een uniforme basis voor verificatie. We tonen aan dat de correctheid van een oplossing gecodeerd is als een geometrisch scheidbaar signatuur binnen het traject van verborgen activeringen. Om dit te valideren, presenteren we Clue (Clustering and Experience-based Verification), een bewust minimalistisch, niet-parametrisch verificatiemodel. Zonder trainbare parameters vat CLUE elke redeneersporen samen door een delta van verborgen toestanden en classificeert correctheid via de dichtstbijzijnde-centroïde afstand tot "succes"- en "falen"-clusters gevormd uit eerdere ervaringen. De eenvoud van deze methode benadrukt de kracht van het onderliggende signaal. Empirisch presteert CLUE consistent beter dan LLM-as-a-judge-baselines en evenaart of overtreft moderne betrouwbaarheidsgebaseerde methoden bij het herrangschikken van kandidaten, waarbij zowel de top-1- als de meerderheidsstemmingsnauwkeurigheid verbetert op AIME 24/25 en GPQA. Als hoogtepunt verbetert CLUE op AIME 24 met een 1,5B-model de nauwkeurigheid van 56,7% (meerderheid@64) naar 70,0% (top-meerderheid@16).
Large Language Model (LLM)-agenten komen snel naar voren als krachtige systemen voor het automatiseren van taken in verschillende domeinen. Toch wordt de vooruitgang in de open-sourcegemeenschap beperkt door het gebrek aan hoogwaardige, vrij beschikbare trainingsdata voor tool-gebruikende agenten. Bestaande datasets zijn vaak beperkt in diversiteit, realisme en complexiteit, vooral wat betreft interacties met meerdere tools en meerdere stappen. Om dit gat te dichten, introduceren we Toucan, de grootste openbaar beschikbare tool-gebruikende dataset tot nu toe, met 1,5 miljoen trajecten gesynthetiseerd uit bijna 500 real-world Model Context Protocols (MCPs). In tegenstelling tot eerder werk, maakt Toucan gebruik van authentieke MCP-omgevingen om diverse, realistische en uitdagende taken te genereren met trajecten die echte tool-uitvoering omvatten. Onze pijplijn produceert eerst een breed scala aan tool-gebruikende queries met behulp van vijf verschillende modellen, past modelgebaseerde kwaliteitsfiltering toe, en genereert vervolgens agentische trajecten met drie leraarmodellen met behulp van twee agentische frameworks. Strenge regelgebaseerde en modelgebaseerde validatie zorgt voor hoogwaardige uitvoer. We introduceren ook drie uitbreidingsmechanismen om taken verder te diversifiëren en meerstapsgesprekken te simuleren. Modellen die zijn afgestemd op Toucan presteren beter dan grotere closed-source tegenhangers op de BFCL V3-benchmark en verleggen de Pareto-grens op de MCP-Universe Bench.
Computer-use agents (CUAs) bieden potentieel voor het automatiseren van alledaagse digitale taken, maar hun onbetrouwbaarheid en hoge variabiliteit belemmeren hun toepassing op langetermijn, complexe taken. We introduceren Behavior Best-of-N (bBoN), een methode die schaalt over agents door meerdere rollouts te genereren en daartussen te selecteren met behulp van gedragsnarratieven die de rollouts van de agents beschrijven. Het maakt zowel brede exploratie als principiële trajectselectie mogelijk, wat de robuustheid en slagingspercentages aanzienlijk verbetert. Op OSWorld vestigt onze bBoN-schalingmethode een nieuwe state of the art (SoTA) op 69,9%, wat aanzienlijk beter presteert dan eerdere methoden en het menselijk prestatieniveau van 72% benadert, met uitgebreide ablatiestudies die de belangrijkste ontwerpkeuzes valideren. We demonstreren verder sterke generalisatieresultaten naar verschillende besturingssystemen op WindowsAgentArena en AndroidWorld. Cruciaal is dat onze resultaten de onredelijke effectiviteit van het schalen van CUAs benadrukken, wanneer het goed wordt gedaan: effectief schalen vereist gestructureerd trajectbegrip en -selectie, en bBoN biedt een praktisch kader om dit te bereiken.
Reinforcement learning met verifieerbare beloningen (RLVR) verbetert het redeneren in grote taalmodellen (LLMs), maar worstelt met exploratie, een probleem dat nog steeds bestaat voor multimodale LLMs (MLLMs). Huidige methoden behandelen de visuele invoer als een vaste, deterministische voorwaarde, waarbij een kritische bron van ambiguïteit over het hoofd wordt gezien en moeite wordt gedaan om beleidsregels te ontwikkelen die robuust zijn tegen plausibele visuele variaties. We introduceren VOGUE (Visual Uncertainty Guided Exploration), een nieuwe methode die exploratie verschuift van de uitvoer (tekst) naar de invoer (visuele) ruimte. Door de afbeelding te behandelen als een stochastische context, kwantificeert VOGUE de gevoeligheid van het beleid voor visuele verstoringen met behulp van de symmetrische KL-divergentie tussen een "ruwe" en een "ruisachtige" tak, waardoor een direct signaal ontstaat voor onzekerheidsbewuste exploratie. Dit signaal vormt het leerdoel via een bonus die evenredig is met de onzekerheid, die, gecombineerd met een token-entropiebonus en een geannealeerd bemonsteringsschema, effectief een balans vindt tussen exploratie en exploitatie. Geïmplementeerd binnen GRPO op twee modelschalen (Qwen2.5-VL-3B/7B), verhoogt VOGUE de pass@1-nauwkeurigheid gemiddeld met 2,6% op drie visuele wiskundige benchmarks en met 3,7% op drie algemene redeneerbenchmarks, terwijl tegelijkertijd de pass@4-prestatie wordt verbeterd en de exploratieverval die vaak wordt waargenomen bij RL-finetuning wordt verminderd. Ons werk laat zien dat het verankeren van exploratie in de inherente onzekerheid van visuele invoer een effectieve strategie is om multimodaal redeneren te verbeteren.
Grote taalmodellen (LLMs) genereren vaak hallucinaties — niet-onderbouwde inhoud die de betrouwbaarheid ondermijnt. Hoewel de meeste eerdere werken hallucinatiedetectie als een binaire taak benaderen, vereisen veel real-world toepassingen het identificeren van gehallucineerde segmenten, wat een meerstaps besluitvormingsproces is. Dit roept van nature de vraag op of expliciet redeneren kan helpen bij de complexe taak van het detecteren van hallucinatiesegmenten. Om deze vraag te beantwoorden, evalueren we eerst vooraf getrainde modellen met en zonder Chain-of-Thought (CoT)-redenering, en laten we zien dat CoT-redenering het potentieel heeft om minstens één correct antwoord te genereren wanneer deze meerdere keren wordt bemonsterd. Gemotiveerd door dit resultaat, stellen we RL4HS voor, een reinforcement learning-framework dat redeneren aanmoedigt met een beloningsfunctie op segmentniveau. RL4HS bouwt voort op Group Relative Policy Optimization en introduceert Class-Aware Policy Optimization om het probleem van beloningsonbalans te mitigeren. Experimenten op de RAGTruth-benchmark (samenvatting, vraagbeantwoording, data-naar-tekst) laten zien dat RL4HS vooraf getrainde redeneermodellen en supervised fine-tuning overtreft, wat de noodzaak aantoont van reinforcement learning met beloningen op segmentniveau voor het detecteren van hallucinatiesegmenten.
Kunstmatige intelligentie ondergaat een paradigmaverschuiving van gesloten taalmodelen naar onderling verbonden agentsystemen die in staat zijn tot externe waarneming en informatie-integratie. Als representatieve belichaming tonen Deep Research Agents (DRA's) systematisch de capaciteiten voor taakdecompositie, kruisbronnenretrieval, meerfasenredenering en gestructureerde output, wat de prestaties aanzienlijk verbetert bij complexe en open-ended taken. Bestaande benchmarks blijven echter tekortschieten in evaluatiedimensies, responsformattering en scoringsmechanismen, wat hun vermogen beperkt om dergelijke systemen effectief te beoordelen. Dit artikel introduceert een rigoureuze benchmark en een multidimensionaal evaluatiekader, afgestemd op DRA's en rapportstijlresponsen. De benchmark omvat 214 uitdagende, door experts samengestelde vragen, verdeeld over 10 brede thematische domeinen, elk vergezeld van handmatig geconstrueerde referentiebundels om samengestelde evaluatie te ondersteunen. Het kader maakt een uitgebreide evaluatie mogelijk van langere rapporten gegenereerd door DRA's, waarbij geïntegreerde scoringsmetrieken worden opgenomen voor semantische kwaliteit, thematische focus en betrouwbaarheid van de retrieval. Uitgebreide experimenten bevestigen de superieure prestaties van mainstream DRA's ten opzichte van webzoektool-augmented redeneermodellen, maar onthullen ook aanzienlijke ruimte voor verdere verbetering. Deze studie biedt een robuuste basis voor capaciteitsbeoordeling, architectonische verfijning en paradigmavooruitgang in DRA-systemen.
Fijnmazig visueel redeneren blijft een kernuitdaging voor multimodale grote taalmodellen (MLLMs). Het recent geïntroduceerde ReasonMap benadrukt deze kloof door aan te tonen dat zelfs geavanceerde MLLMs moeite hebben met ruimtelijk redeneren in gestructureerde en informatie-rijke omgevingen zoals vervoerskaarten, een taak van duidelijk praktisch en wetenschappelijk belang. Echter, standaard reinforcement learning (RL) op dergelijke taken wordt belemmerd door schaarse beloningen en instabiele optimalisatie. Om dit aan te pakken, construeren we eerst ReasonMap-Plus, een uitgebreide dataset die dichte beloningssignalen introduceert via Visual Question Answering (VQA) taken, waardoor effectieve cold-start training van fijnmazige visuele begripsvaardigheden mogelijk wordt. Vervolgens stellen we RewardMap voor, een multi-stage RL-framework ontworpen om zowel het visuele begrip als de redeneervaardigheden van MLLMs te verbeteren. RewardMap bevat twee belangrijke ontwerpen. Ten eerste introduceren we een moeilijkheidsbewuste beloningsontwerp dat detailbeloningen incorporeert, waardoor schaarse beloningen direct worden aangepakt en rijkere supervisie wordt geboden. Ten tweede stellen we een multi-stage RL-schema voor dat de training bootstrapt van eenvoudige perceptie naar complexe redeneertaken, wat een effectievere cold-start strategie biedt dan conventionele Supervised Fine-Tuning (SFT). Experimenten op ReasonMap en ReasonMap-Plus tonen aan dat elk onderdeel van RewardMap bijdraagt aan consistente prestatieverbeteringen, terwijl hun combinatie de beste resultaten oplevert. Bovendien behalen modellen getraind met RewardMap een gemiddelde verbetering van 3,47% over 6 benchmarks die ruimtelijk redeneren, fijnmazig visueel redeneren en algemene taken buiten vervoerskaarten omvatten, wat het verbeterde visuele begrip en redeneervermogen onderstreept.
We introduceren Aristotle, een AI-systeem dat formele verificatie combineert met informeel redeneren, en daarmee een goudmedaille-equivalente prestatie behaalt op de problemen van de Internationale Wiskunde Olympiade van 2025. Aristotle integreert drie hoofdcomponenten: een Lean-bewijszoek systeem, een informeel redeneersysteem dat lemma's genereert en formaliseert, en een toegewijde geometrie-oplosser. Ons systeem demonstreert state-of-the-art prestaties met gunstige schaaleigenschappen voor geautomatiseerde stellingbewijzen.
De Transformer-architectuur, ondersteund door het Multi-Head Attention (MHA)-mechanisme, is de facto de standaard geworden voor state-of-the-art modellen in kunstmatige intelligentie. De kwadratische rekencomplexiteit van MHA ten opzichte van de sequentielengte vormt echter een aanzienlijke belemmering voor schaalbaarheid, met name voor toepassingen met lange contexten. Gangbare oplossingen, zoals Multi-Query Attention (MQA) en Grouped-Query Attention (GQA), hebben het geheugenbandbreedteknelpunt dat de latentie van autoregressieve inferentie domineert effectief aangepakt door Key- en Value-projecties te delen. Hoewel zeer succesvol, verminderen deze methoden niet het fundamentele aantal floating-point operations (FLOPs) dat nodig is voor de berekening van de attentiescore, wat een kritiek knelpunt blijft voor training en volledige sequentieverwerking. Dit artikel introduceert Sparse Query Attention (SQA), een nieuwe aandachtarchitectuur die een alternatief en complementair optimalisatiepad volgt. In plaats van het aantal Key/Value-heads te verminderen, vermindert SQA het aantal Query-heads. Deze architectuurwijziging verlaagt direct de rekencomplexiteit van het aandachtmechanisme met een factor die evenredig is aan de reductie in query-heads, waardoor het totale aantal FLOPs wordt verlaagd. Dit werk presenteert de theoretische basis van SQA, de wiskundige formulering ervan en een familie van architectuurvarianten. Empirische benchmarks op lange sequenties (32k-200k tokens) tonen aan dat SQA aanzienlijke doorvoerverbeteringen tot 3x kan bereiken in rekengebonden scenario's zoals modelpretraining, fine-tuning en encoder-gebaseerde taken, met slechts een minimale impact op de modelkwaliteit in voorlopige kleinschalige experimenten. SQA werd toevallig ontdekt tijdens de ontwikkeling van de aankomende Reactive Transformer-architectuur, wat suggereert dat het potentieel heeft als een krachtig hulpmiddel voor het bouwen van efficiëntere en schaalbare modellen.
Drag-gebaseerde beeldbewerking heeft lange tijd te lijden gehad onder vervormingen in het doelgebied, voornamelijk omdat de priors van eerdere basismodellen, zoals Stable Diffusion, onvoldoende waren om geoptimaliseerde latente representaties terug te projecteren op de natuurlijke beeldvariëteit. Met de overgang van UNet-gebaseerde DDPM's naar schaalbaardere DiT's met flow matching (bijv. SD3.5, FLUX), zijn generatieve priors aanzienlijk sterker geworden, wat vooruitgang mogelijk maakt in diverse bewerkingstaken. Drag-gebaseerde bewerking heeft echter nog niet kunnen profiteren van deze sterkere priors. Dit werk introduceert het eerste framework dat effectief gebruikmaakt van FLUX's rijke prior voor drag-gebaseerde bewerking, genaamd DragFlow, wat aanzienlijke verbeteringen oplevert ten opzichte van bestaande methoden. We tonen eerst aan dat het direct toepassen van puntgebaseerde drag-bewerking op DiT's slecht presteert: in tegenstelling tot de sterk gecomprimeerde kenmerken van UNets, zijn DiT-kenmerken onvoldoende gestructureerd om betrouwbare begeleiding te bieden voor puntgewijze bewegingssupervisie. Om deze beperking te overwinnen, introduceert DragFlow een regio-gebaseerd bewerkingsparadigma, waarbij affiene transformaties rijkere en consistentere kenmerksupervisie mogelijk maken. Daarnaast integreren we vooraf getrainde open-domain personalisatieadapters (bijv. IP-Adapter) om de consistentie van het onderwerp te verbeteren, terwijl de achtergrondgetrouwheid behouden blijft door middel van gradientmasker-gebaseerde harde beperkingen. Multimodale grote taalmodellen (MLLMs) worden verder ingezet om taakambiguïteiten op te lossen. Voor evaluatie hebben we een nieuwe Region-based Dragging benchmark (ReD Bench) samengesteld met regio-niveau drag-instructies. Uitgebreide experimenten op DragBench-DR en ReD Bench tonen aan dat DragFlow zowel puntgebaseerde als regio-gebaseerde baselines overtreft, wat een nieuwe state-of-the-art in drag-gebaseerde beeldbewerking vertegenwoordigt. Code en datasets zullen na publicatie openbaar beschikbaar worden gesteld.
Context-gebaseerde hallucinaties zijn gevallen waarin modeluitvoer informatie bevat die niet verifieerbaar is aan de hand van de brontekst. We onderzoeken de toepasbaarheid van LLM's voor het lokaliseren van dergelijke hallucinaties, als een praktischer alternatief voor bestaande complexe evaluatiepijplijnen. In afwezigheid van gevestigde benchmarks voor meta-evaluatie van hallucinatielokalisatie, construeren we er een die is toegesneden op LLM's, waarbij een uitdagende menselijke annotatie van meer dan 1.000 voorbeelden betrokken is. We vullen de benchmark aan met een op LLM's gebaseerd evaluatieprotocol en verifiëren de kwaliteit ervan in een menselijke evaluatie. Omdat bestaande representaties van hallucinaties de soorten fouten die kunnen worden uitgedrukt beperken, stellen we een nieuwe representatie voor op basis van vrije tekstuele beschrijvingen, die het volledige scala aan mogelijke fouten vastlegt. We voeren een uitgebreide studie uit, waarbij we vier grootschalige LLM's evalueren, wat de moeilijkheidsgraad van de benchmark benadrukt, aangezien het beste model slechts een F1-score van 0,67 behaalt. Door zorgvuldige analyse bieden we inzichten in optimale promptingstrategieën voor de taak en identificeren we de belangrijkste factoren die het uitdagend maken voor LLM's: (1) een neiging om ontbrekende details ten onrechte als inconsistent te markeren, ondanks instructies om alleen feiten in de uitvoer te controleren; en (2) moeilijkheden met uitvoer die feitelijk correcte informatie bevatten die afwezig is in de bron - en dus niet verifieerbaar - vanwege afstemming op de parametrische kennis van het model.
Hoewel huidige grote Vision-Language Models (VLMs) vooruitgang hebben geboekt in multimodale begrips- en redeneervaardigheden, blijven hun fundamentele perceptuele en redeneervermogen beperkt. Specifiek presteren bestaande VLMs zelfs op eenvoudige puzzeltaken bijna willekeurig, wat tekortkomingen in kernperceptie en redeneervermogen aan het licht brengt. Hoewel hoogwaardige visueel-taalkundige gegevens deze vaardigheden kunnen verbeteren, vormen de schaarste en beperkte schaalbaarheid ervan aanzienlijke beperkingen. Om dit aan te pakken, stellen we AGILE voor, een Agentic jiGsaw Interaction Learning voor het verbeteren van visuele perceptie en redeneervermogen in VLMs. AGILE formuleert het oplossen van puzzels als een interactief proces, waardoor het model geleidelijk kan interageren met de omgeving. Bij elke stap genereert het model uitvoerbare code om een actie uit te voeren op basis van de huidige staat, terwijl de omgeving fijnmazige visuele feedback biedt om de taak te voltooien. Door deze iteratieve cyclus van observatie en interactie verbetert het model stapsgewijs zijn perceptuele en redeneervermogen via exploratie en feedback. Experimentele resultaten tonen aan dat AGILE niet alleen de prestaties aanzienlijk verbetert op puzzeltaken van verschillende complexiteit (bijvoorbeeld een nauwkeurigheidsverhoging van 9,5% naar 82,8% onder de 2 keer 2 instelling), maar ook sterke generalisatie vertoont over 9 algemene visuele taken, met een gemiddelde verbetering van 3,1%. Deze resultaten duiden op aanzienlijke verbeteringen in zowel perceptuele als redeneervermogen. Dit werk opent een nieuwe weg voor het bevorderen van redenering en generalisatie in multimodale modellen en biedt een efficiënte, schaalbare oplossing voor de schaarste aan multimodale reinforcement learning-gegevens. De code en datasets zijn beschikbaar op https://github.com/yuzeng0-0/AGILE.
Tekstanonimisering is essentieel voor het verantwoord ontwikkelen en inzetten van AI in hoogrisicodomeinen zoals gezondheidszorg, sociale diensten en rechtspraak. In dit werk stellen we een nieuwe methodologie voor voor privacybeschermende synthetische tekstgeneratie die gebruikmaakt van de principes van de-identificatie en de Hiding In Plain Sight (HIPS)-theorie. Onze aanpak introduceert entiteitsbewuste controlecodes om stuurbaar genereren te begeleiden met behulp van in-context learning (ICL) of prefix tuning. De ICL-variant waarborgt privacy niveaus die consistent zijn met het onderliggende de-identificatiesysteem, terwijl de prefix tuning-variant een aangepaste maskeringsstrategie en verliesfunctie omvat om schaalbare, hoogwaardige generatie te ondersteunen. Experimenten op juridische en klinische datasets tonen aan dat onze methode een sterke balans bereikt tussen privacybescherming en bruikbaarheid, en biedt zo een praktische en effectieve oplossing voor synthetische tekstgeneratie in gevoelige domeinen.
Video-begrip in multimodale taalmodellen blijft beperkt door de contextlengte: modellen missen vaak cruciale overgangsframes en hebben moeite om samenhang te behouden over lange tijdschalen. Om dit aan te pakken, passen we Native Sparse Attention (NSA) aan voor video-taalmodellen. Onze methode, VideoNSA, past Qwen2.5-VL aan via end-to-end training op een dataset van 216K video-instructies. We gebruiken een hardwarebewuste hybride benadering voor aandacht, waarbij we dichte aandacht behouden voor tekst, terwijl we NSA toepassen voor video. Vergeleken met tokencompressie en trainingsvrije sparse basislijnen, behaalt VideoNSA verbeterde prestaties op het gebied van lang-video-begrip, temporeel redeneren en ruimtelijke benchmarks. Verdere ablatie-analyse onthult vier belangrijke bevindingen: (1) betrouwbare schaalbaarheid tot 128K tokens; (2) een optimale globale-lokale aandachtstoewijzing bij een vast budget; (3) taakafhankelijke gebruikspatronen van takken; en (4) de leerbare gecombineerde sparse aandacht helpt bij het induceren van dynamische aandachtspunten.
Multi-Agent System (MAS) aangedreven door Visual Language Models (VLMs) maakt uitdagende taken mogelijk, maar lijdt onder een nieuw falingsverschijnsel, multi-agent visuele hallucinatie-sneeuwbaleffect, waarbij hallucinaties worden geïnitieerd in een enkele agent en versterkt worden door volgende agents vanwege de overmatige afhankelijkheid van tekstuele flow om visuele informatie over te dragen. Door middel van aandachtanalyses op beurt-, laag- en tokenniveau bieden we gedetailleerde inzichten in de essentie van hallucinatie-sneeuwbaleffect met betrekking tot de vermindering van visuele aandachtstoewijzing. Dit leidt ons naar de identificatie van een subset van visuele tokens met een unimodale aandachtspiek in middelste lagen die het beste visueel bewijs behouden, maar geleidelijk afnemen in diepere agentbeurten, wat resulteert in het visuele hallucinatie-sneeuwbaleffect in MAS. Daarom stellen we ViF voor, een lichtgewicht, plug-and-play mitigatieparadigma dat inter-agent berichten overdraagt met Visual Flow aangedreven door de geselecteerde visuele relaytokens en aandachtstoewijzing toepast om dit patroon te versterken. De experimentele resultaten tonen aan dat onze methode het hallucinatie-sneeuwbaleffect aanzienlijk vermindert en consistent de prestaties verbetert over acht benchmarks gebaseerd op vier veelvoorkomende MAS-structuren en tien basismodellen. De broncode zal beschikbaar zijn op: https://github.com/YU-deep/ViF.git.
Test-time scaling (TTS) heeft opmerkelijke successen geboekt bij het verbeteren van grote taalmodel(len), maar de toepassing ervan op next-token prediction (NTP) autoregressieve (AR) beeldgeneratie blijft grotendeels onontgonnen. Bestaande TTS-benaderingen voor visuele AR (VAR), die afhankelijk zijn van frequente gedeeltelijke decodering en externe beloningsmodellen, zijn ongeschikt voor NTP-gebaseerde beeldgeneratie vanwege de inherente onvolledigheid van tussentijdse decoderingsresultaten. Om deze kloof te overbruggen, introduceren we ScalingAR, het eerste TTS-framework dat specifiek is ontworpen voor NTP-gebaseerde AR-beeldgeneratie en dat geen behoefte heeft aan vroege decodering of aanvullende beloningen. ScalingAR benut token-entropie als een nieuw signaal in visuele token-generatie en opereert op twee complementaire schaalniveaus: (i) Profielniveau, dat een gekalibreerde vertrouwensstatus streamt door intrinsieke en conditionele signalen te combineren; en (ii) Beleidsniveau, dat deze status gebruikt om trajecten met een laag vertrouwen adaptief te beëindigen en dynamisch begeleiding in te plannen voor fasegeschikte conditioneringssterkte. Experimenten op zowel algemene als compositorische benchmarks tonen aan dat ScalingAR (1) basismodellen verbetert met 12,5% op GenEval en 15,2% op TIIF-Bench, (2) het visuele tokenverbruik efficiënt vermindert met 62,0% terwijl het de baselineprestaties overtreft, en (3) robuustheid succesvol versterkt, waardoor prestatieverliezen met 26,0% worden verminderd in uitdagende scenario's.
Redeneren vereist meer dan patroonherkenning of het memoriseren van oplossingen om "algoritmische procedures" te identificeren en te implementeren die kunnen worden gebruikt om antwoorden op moeilijke problemen af te leiden. Dit vereist het herkennen van de meest relevante primitieven, tussenresultaten of gedeelde procedures, en daarop voort te bouwen. Hoewel RL na training op lange redeneerketens uiteindelijk streeft naar dit soort algoritmisch gedrag, slagen de meeste redeneersporen die door grote modellen worden geleerd er niet in om procedures consistent vast te leggen of te hergebruiken, en vervallen ze in uitgebreid en gedegenereerd onderzoek. Om effectiever redeneren aan te pakken, introduceren we redeneerabstracties: beknopte natuurlijke taal beschrijvingen van procedurele en feitelijke kennis die het model begeleiden bij het leren van succesvol redeneren. We trainen modellen om meerdere abstracties te kunnen voorstellen gegeven een probleem, gevolgd door RL die het opbouwen van een oplossing stimuleert terwijl gebruik wordt gemaakt van de informatie die door deze abstracties wordt geboden. Dit resulteert in een tweespeler RL-trainingsparadigma, afgekort als RLAD, dat gezamenlijk een abstractiegenerator en een oplossingsgenerator traint. Deze opzet maakt gestructureerde exploratie effectief mogelijk, ontkoppelt leer signalen van abstractievoorstel en oplossingsgeneratie, en verbetert de generalisatie naar moeilijkere problemen. We laten ook zien dat het toewijzen van meer rekentijd tijdens de testfase aan het genereren van abstracties meer voordelig is voor de prestaties dan het genereren van meer oplossingen bij grote testbudgetten, wat de rol van abstracties illustreert in het begeleiden van zinvolle exploratie.
Off-policy reinforcement learning (RL) voor grote taalmodellen (LLMs) trekt steeds meer aandacht, aangewakkerd door praktische beperkingen in real-world toepassingen, de complexiteit van LLM-RL-infrastructuur en de behoefte aan verdere innovaties van RL-methodologieën. Hoewel klassieke REINFORCE en zijn moderne varianten zoals Group Relative Policy Optimization (GRPO) doorgaans worden beschouwd als on-policy algoritmen met een beperkte tolerantie voor off-policyness, presenteren we in dit werk een eerste-principe afleiding voor group-relative REINFORCE zonder een specifieke trainingsdatadistributie aan te nemen, waaruit blijkt dat het een native off-policy interpretatie toelaat. Dit perspectief levert twee algemene principes op voor het aanpassen van REINFORCE aan off-policy instellingen: het regulariseren van policy-updates en het actief vormgeven van de datadistributie. Onze analyse ontkracht enkele mythes over de rollen van importance sampling en clipping in GRPO, verenigt en herinterpreteert twee recente algoritmen – Online Policy Mirror Descent (OPMD) en Asymmetric REINFORCE (AsymRE) – als geregulariseerde vormen van het REINFORCE-verlies, en biedt theoretische rechtvaardiging voor schijnbaar heuristische data-wegingstrategieën. Onze bevindingen leiden tot praktische inzichten die worden gevalideerd met uitgebreide empirische studies, en openen nieuwe mogelijkheden voor principieel algoritmeontwerp in off-policy RL voor LLMs. De broncode voor dit werk is beschikbaar op https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Vision-Language-Action (VLA)-modellen streven ernaar waarneming, taalbegrip en actiegeneratie te verenigen, wat sterke generalisatie over taken en scenario's biedt met een brede impact op embodied AI. Huidige VLA-modellen missen echter vaak expliciete stap-voor-stap redenering en produceren direct eindacties zonder rekening te houden met affordance-beperkingen of geometrische relaties. Hun post-trainingspijplijnen versterken ook zelden de kwaliteit van redenering, waarbij ze voornamelijk vertrouwen op supervised fine-tuning met zwakke beloningsontwerpen. Om deze uitdagingen aan te pakken, presenteren we VLA-R1, een redenering-versterkte VLA die Reinforcement Learning from Verifiable Rewards (RLVR) integreert met Group Relative Policy Optimization (GRPO) om zowel redenering als uitvoering systematisch te optimaliseren. Specifiek ontwerpen we een RLVR-gebaseerde post-trainingsstrategie met verifieerbare beloningen voor regio-uitlijning, trajectconsistentie en outputformattering, waardoor de robuustheid van redenering en uitvoeringsnauwkeurigheid worden versterkt. Daarnaast ontwikkelen we VLA-CoT-13K, een hoogwaardige dataset die chain-of-thought-supervisie biedt die expliciet is afgestemd op affordance- en trajectannotaties. Bovendien tonen uitgebreide evaluaties op in-domein, out-of-domein, simulatie- en echte robotplatforms aan dat VLA-R1 superieure generalisatie en real-world prestaties bereikt in vergelijking met eerdere VLA-methoden. We zijn van plan het model, de code en de dataset vrij te geven na publicatie van dit werk. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
Graph Neural Networks (GNNs) zijn de dominante architectuur voor moleculair machine learning, met name voor het voorspellen van moleculaire eigenschappen en machine learning interatomaire potentialen (MLIPs). GNNs voeren message passing uit op vooraf gedefinieerde grafieken, vaak gegenereerd door een vaste straal cutoff of een k-nearest neighbor schema. Hoewel dit ontwerp aansluit bij de localiteit die aanwezig is in veel moleculaire taken, kan een hardgecodeerde grafiek de expressiviteit beperken vanwege het vaste receptieve veld en de inferentie vertragen door sparse grafiekoperaties. In dit werk onderzoeken we of pure, ongemodificeerde Transformers die direct op Cartesiaanse coördinaten worden getraind—zonder vooraf gedefinieerde grafieken of fysische priors—moleculaire energieën en krachten kunnen benaderen. Als uitgangspunt voor onze analyse laten we zien hoe een Transformer kan worden getraind om competitieve gemiddelde absolute fouten in energie en krachten te bereiken onder een gelijkwaardig trainingsbudget, vergeleken met een state-of-the-art equivariante GNN op de OMol25 dataset. We ontdekken dat de Transformer fysisch consistente patronen leert—zoals aandachtgewichten die omgekeerd evenredig afnemen met de interatomaire afstand—en deze flexibel aanpast aan verschillende moleculaire omgevingen vanwege de afwezigheid van hardgecodeerde biases. Het gebruik van een standaard Transformer maakt ook voorspelbare verbeteringen mogelijk met betrekking tot het schalen van trainingsbronnen, consistent met empirische schaalwetten die in andere domeinen zijn waargenomen. Onze resultaten tonen aan dat veel gunstige eigenschappen van GNNs adaptief kunnen ontstaan in Transformers, wat de noodzaak van hardgecodeerde grafische inductieve biases uitdaagt en wijst naar gestandaardiseerde, schaalbare architecturen voor moleculaire modellering.
Geautomatiseerde gestructureerde radiologieverslaggeneratie (SRRG) vanuit thoraxfoto's biedt aanzienlijk potentieel om de werkdruk van radiologen te verminderen door verslagen te genereren in gestructureerde formaten die duidelijkheid, consistentie en naleving van klinische rapportagestandaarden waarborgen. Hoewel radiologen effectief gebruik maken van beschikbare klinische contexten in hun diagnostische redenering, negeren bestaande SRRG-systemen deze essentiële elementen. Dit fundamentele gat leidt tot kritieke problemen, waaronder temporele hallucinaties bij het verwijzen naar niet-bestaande klinische contexten. Om deze beperkingen aan te pakken, stellen wij gecontextualiseerde SRRG (C-SRRG) voor, die uitgebreid rijke klinische context integreert voor SRRG. Wij hebben een C-SRRG-dataset samengesteld door uitgebreide klinische context te integreren, waaronder 1) multi-view thoraxfoto's, 2) klinische indicatie, 3) beeldvormingstechnieken, en 4) eerdere onderzoeken met bijbehorende vergelijkingen op basis van patiëntgeschiedenissen. Door uitgebreide benchmarking met state-of-the-art multimodale grote taalmodellen, tonen wij aan dat het integreren van klinische context met de voorgestelde C-SRRG de kwaliteit van verslaggeneratie aanzienlijk verbetert. Wij maken de dataset, code en checkpoints publiekelijk beschikbaar om toekomstig onderzoek naar klinisch afgestemde geautomatiseerde RRG te faciliteren op https://github.com/vuno/contextualized-srrg.
Computer-Use Agents (CUAs) zijn een steeds vaker ingezette klasse van agents die acties uitvoeren op GUI's om gebruikersdoelen te bereiken. In dit artikel laten we zien dat CUAs consistent Blind Goal-Directedness (BGD) vertonen: een neiging om doelen na te streven ongeacht haalbaarheid, veiligheid, betrouwbaarheid of context. We karakteriseren drie veelvoorkomende patronen van BGD: (i) gebrek aan contextueel redeneren, (ii) aannames en beslissingen onder ambiguïteit, en (iii) tegenstrijdige of onhaalbare doelen. We ontwikkelen BLIND-ACT, een benchmark van 90 taken die deze drie patronen vastlegt. Gebouwd op OSWorld, biedt BLIND-ACT realistische omgevingen en maakt gebruik van LLM-gebaseerde beoordelaars om agentgedrag te evalueren, met een overeenstemming van 93,75% met menselijke annotaties. We gebruiken BLIND-ACT om negen frontier-modellen te evalueren, waaronder Claude Sonnet en Opus 4, Computer-Use-Preview, en GPT-5, en observeren hoge gemiddelde BGD-percentages (80,8%) onder hen. We laten zien dat BGD subtiele risico's blootlegt die ontstaan zelfs wanneer inputs niet direct schadelijk zijn. Hoewel op prompting gebaseerde interventies BGD-niveaus verlagen, blijft er aanzienlijk risico bestaan, wat de noodzaak benadrukt van sterkere training- of inferentie-tijd interventies. Kwalitatieve analyse onthult waargenomen faalmodi: execution-first bias (focus op hoe te handelen in plaats van of te handelen), thought-action disconnect (uitvoering die afwijkt van redenering), en request-primacy (acties rechtvaardigen vanwege gebruikersverzoek). Het identificeren van BGD en de introductie van BLIND-ACT leggen een basis voor toekomstig onderzoek naar het bestuderen en mitigeren van dit fundamentele risico en het waarborgen van veilige CUA-implementatie.
Multimodale representatieleermodellen hebben succesvolle werking aangetoond bij complexe taken, en de integratie van visie-taalmodelen (VLMs) heeft embedmodellen verder in staat gesteld met instructievolgcapaciteiten. Bestaande embedmodellen missen echter visueel-interactieve mogelijkheden om interessegebieden van gebruikers te specificeren (bijvoorbeeld punt, begrenzingskader, masker), wat in generatieve modellen is onderzocht om hun mens-interactieve toepasbaarheid te verbreden. Het uitrusten van embedmodellen met visuele interacties zou niet alleen nieuwe toepassingen mogelijk maken met gelokaliseerde verankering van gebruikersintentie, wat nog onontgonnen terrein is, maar zou de modellen ook in staat stellen om entiteitsniveau-informatie binnen afbeeldingen te leren om hun globale representaties aan te vullen voor conventionele embedtaken. In dit artikel stellen we een nieuwe Visual-InteRactive Text-Image Universal Embedder (VIRTUE) voor die de mogelijkheden van het segmentatiemodel en het visie-taalmodel uitbreidt naar het domein van representatieleren. In VIRTUE kan het segmentatiemodel visuele prompts verwerken die specifieke gebieden binnen een afbeelding aanwijzen, waardoor de embedder complexe en ambigue scenario's nauwkeuriger kan behandelen. Om de visueel-interactieve vaardigheid van VIRTUE te evalueren, introduceren we een grootschalige Segmentation-and-Scene Caption Retrieval (SCaR) benchmark bestaande uit 1M samples die als doel heeft de tekstbeschrijving te achterhalen door gezamenlijk rekening te houden met de entiteit met een specifiek object en de afbeeldingsscène. VIRTUE behaalt consistent state-of-the-art prestaties met significante verbeteringen over 36 universele MMEB (3,1%-8,5%) en vijf visueel-interactieve SCaR (15,2%-20,3%) taken.
Tijdreeksvoorspelling is van cruciaal belang voor besluitvorming in domeinen zo divers als energie, financiën, klimaat en volksgezondheid. In de praktijk worden voorspellers geconfronteerd met duizenden korte, ruisachtige reeksen die variëren in frequentie, kwaliteit en horizon, waarbij de dominante kosten niet liggen in het aanpassen van modellen, maar in de arbeidsintensieve preprocessing, validatie en ensembling die nodig zijn om betrouwbare voorspellingen te verkrijgen. Gangbare statistische en deep learning-modellen zijn afgestemd op specifieke datasets of domeinen en generaliseren slecht. Een algemeen, domein-agnostisch framework dat menselijke interventie minimaliseert, is dringend nodig. In dit artikel introduceren we TimeSeriesScientist (TSci), het eerste LLM-gestuurde agent-gebaseerde framework voor algemene tijdreeksvoorspelling. Het framework bestaat uit vier gespecialiseerde agents: Curator voert LLM-gestuurde diagnostiek uit, aangevuld met externe tools die redeneren over data-statistieken om gerichte preprocessing te kiezen; Planner verkleint de hypothese-ruimte van modelkeuze door gebruik te maken van multi-modale diagnostiek en zelfplanning over de input; Forecaster voert modelaanpassing en validatie uit en selecteert adaptief de beste modelconfiguratie en ensemble-strategie om uiteindelijke voorspellingen te maken; en Reporter synthetiseert het hele proces in een uitgebreid, transparant rapport. Met transparante, natuurlijke-taalredeneringen en uitgebreide rapporten transformeert TSci de voorspellingsworkflow in een white-box systeem dat zowel interpreteerbaar als uitbreidbaar is over taken heen. Empirische resultaten op acht gevestigde benchmarks tonen aan dat TSci consistent beter presteert dan zowel statistische als LLM-gebaseerde baseline-modellen, waarbij de voorspellingsfout gemiddeld met respectievelijk 10,4% en 38,2% wordt verminderd. Bovendien produceert TSci een duidelijk en rigoureus rapport dat de voorspellingsworkflow transparanter en interpreteerbaarder maakt.
Text-to-image (T2I)-modellen presteren uitstekend bij prompts met één entiteit, maar hebben moeite met beschrijvingen van meerdere onderwerpen, waarbij vaak sprake is van attribuutlekkage, identiteitsverstrengeling en het weglaten van onderwerpen. We introduceren het eerste theoretische kader met een principieel, optimaliseerbaar doel om de samplingdynamiek te sturen naar betrouwbaarheid bij meerdere onderwerpen. Door flow matching (FM) te bekijken via stochastische optimale controle (SOC), formuleren we het ontwarren van onderwerpen als controle over een getrainde FM-sampler. Dit resulteert in twee architectuuronafhankelijke algoritmen: (i) een trainingsvrije testtijdcontroller die de basisvelocity verstoort met een enkele update, en (ii) Adjoint Matching, een lichtgewicht fine-tuningregel die een controlesysteem regresseert naar een achterwaartse adjoint-signaal terwijl de mogelijkheden van het basismodel behouden blijven. Dezelfde formulering verenigt eerdere aandachtheuristieken, breidt uit naar diffusiemodellen via een flow-diffusiecorrespondentie, en biedt de eerste fine-tuningroute die expliciet is ontworpen voor betrouwbaarheid bij meerdere onderwerpen. Empirisch gezien verbeteren beide algoritmen op Stable Diffusion 3.5, FLUX en Stable Diffusion XL consistent de uitlijning van meerdere onderwerpen terwijl de stijl van het basismodel behouden blijft. Testtijdcontrole draait efficiënt op standaard GPU's, en fine-tuned controllers die getraind zijn op beperkte prompts generaliseren naar onbekende prompts. We benadrukken verder FOCUS (Flow Optimal Control for Unentangled Subjects), dat state-of-the-art betrouwbaarheid bij meerdere onderwerpen bereikt over verschillende modellen.
Redenatietraining stimuleert LLM's om lange gedachteketens (lange CoT) te produceren, wat hen onder andere in staat stelt om oplossingsstrategieën te verkennen met zelfcontrole. Dit resulteert in een hogere nauwkeurigheid, maar vergroot de contextlengte, token-/rekencosten en antwoordlatentie. Wij vragen: Kunnen huidige modellen hun metacognitie benutten om andere combinaties op dit Pareto-frontier te bieden, bijvoorbeeld betere nauwkeurigheid met een lagere contextlengte en/of latentie? Abstract gezien beschouwen we het model als een verbeteringsoperator op zijn eigen "gedachten" met een continuüm van mogelijke strategieën. We identificeren een interessante inferentiefamilie Parallel-Distill-Refine (PDR), die het volgende uitvoert: (i) genereer diverse concepten parallel; (ii) destilleer deze in een begrensde, tekstuele werkruimte; en (iii) verfijn op basis van deze werkruimte, waarbij een uitvoer wordt geproduceerd die de volgende ronde initieert. Belangrijk is dat de contextlengte (en dus de rekencosten) beheersbaar is via de mate van parallellisme, en niet langer verward wordt met het totale aantal gegenereerde tokens. We rapporteren PDR-instantiaties van huidige modellen die een betere nauwkeurigheid bieden dan lange CoT, terwijl ze lagere latentie veroorzaken. Het instellen van de mate van parallellisme op 1 levert een interessant subgeval op, Sequentiële Verfijning (SR) (iteratief verbeteren van een enkel kandidaatantwoord), wat prestaties biedt die superieur zijn aan lange CoT. Het succes van dergelijke modelorkestraties roept de vraag op of verdere training het Pareto-frontier zou kunnen verschuiven. Hiertoe trainen we een 8B denkmodel met Reinforcement Learning (RL) om het consistent te maken met PDR als de inferentiemethode. Bij wiskundetaken met verifieerbare antwoorden overtreffen iteratieve pijplijnen single-pass-baselines bij gelijke sequentiële budgetten, waarbij PDR de grootste winsten oplevert (bijvoorbeeld +11% op AIME 2024 en +9% op AIME 2025).
Parallelle LLM-inferentieschaling omvat het bemonsteren van een set van N>1 reacties voor een enkele invoerprompt. Deze N parallelle reacties worden echter meestal onafhankelijk van elkaar gegenereerd, waardoor rekenbronnen worden verdeeld en potentieel nuttige informatie in één generatie onbenut blijft voor andere. Dit staat in contrast met schaling van responslengte, waarbij eerdere berekeningen worden gebruikt in alle toekomstige stappen. Voor hogere kwaliteit van reacties en reactiesets stellen we Bridge voor om onderling afhankelijke reacties parallel te genereren door batchgewijze LLM-verborgen toestanden te herzien als holistische tensoren in plaats van onafhankelijke segmenten. Met slechts een kleine hoeveelheid (2,8%-5,1%) nieuwe parameters verbetert Bridge de relatieve gemiddelde nauwkeurigheidswinsten van reinforcement learning met verifieerbare beloningen met tot wel 50% en verhoogt het de consistentie van correcte reacties. Eenmaal getraind, schaalt Bridge naar elke generatiebreedte, allemaal met betere prestaties dan onafhankelijke generaties, waardoor een meer algemene modus van parallelle schaling wordt ontsloten die effectief informatie tussen sequenties benut, compatibel met elke post-generatie aggregatietechniek.
Hoewel grote visueel-taalkundige modellen (LVLMs) aanzienlijke vooruitgang hebben geboekt in videobegrip, wordt hun toepassing op langdurige videoredenering belemmerd door uniforme framesampling en statische tekstuele redenering, wat inefficiënt is en moeite heeft met visueel intensieve videotaken. Om deze uitdagingen te overwinnen, introduceren we in dit artikel het concept van denken met lange video's en stellen we een nieuw framework voor, genaamd FrameThinker. Binnen dit framework kunnen LVLMs iteratief videocontent bevragen. Het ontwikkelen van dergelijke videoredeneercapaciteiten in LVLMs brengt aanzienlijke uitdagingen met zich mee, met name in het aanpassen van het model aan nieuwe videoacties (bijv. frame selecteren) en het ontwerpen van beloningsfuncties om LVLMs te begeleiden bij het aannemen van de nieuw geïntroduceerde actie. Om deze uitdagingen op te lossen, stellen we een tweefasige trainingsstrategie voor, waarbij eerst Supervised Fine-Tuning (SFT) wordt gebruikt om fundamentele actiecapaciteiten in te prenten, gevolgd door Reinforcement Learning (RL) om een strategisch besluitvormingsbeleid te optimaliseren. Opmerkelijk is dat we in deze RL-fase een diepgaande en uitgebreide verkenning uitvoeren van het beloningsontwerp voor elke actie en het formaat van de beloning. Uitgebreide experimenten op redeneerbenchmarks zoals Video-Holmes, LongVideo-Reason, en langdurige videobegripbenchmarks zoals LongVideoBench, MLVU, VideoMME, en LVBench, tonen aan dat FrameThinker een significante gemiddelde verbetering van +10,4% behaalt ten opzichte van de basislijnen, terwijl het aantal verwerkte frames drastisch wordt verminderd. Het meest opvallend is dat ons 7B-model, FrameThinker, een nieuwe state-of-the-art vestigt op LongVideo-Reason, met een nauwkeurigheid van 76,1% met een gemiddeld gebruik van slechts 20,6 frames. Dit overtreft niet alleen de concurrerende LongVILA-R1 (72,0%), maar doet dit ook met meer dan 20x minder frames (vs. 512), wat een ongeëvenaarde efficiëntie en effectiviteit aantoont.
Supervised fine-tuning (SFT) is de dominante methode voor het aanpassen van grote taalmodel(len) (LLMs), maar het heeft vaak moeite met generalisatie in vergelijking met reinforcement learning (RL). In dit werk stellen we dat dit prestatieverschil niet alleen voortkomt uit de verliesfunctie, maar uit een fundamenteler verschil: SFT leert van een vast, vooraf verzameld dataset, terwijl RL gebruikmaakt van on-policy data die wordt gesamplet uit het huidige beleid. Op basis van deze hypothese introduceren we one-token rollout (OTR), een nieuw fine-tuning algoritme dat SFT begeleidt met de policy gradient-methode. OTR herformuleert het autoregressieve leerproces door elke token-generatie te behandelen als een single-step reinforcement learning traject. Bij elke stap voert het een Monte Carlo "rollout" uit door meerdere kandidaat-tokens te samplet uit de distributie van het huidige beleid. De ground-truth token uit de supervised data wordt vervolgens gebruikt om een beloningssignaal te geven aan deze samples. Geleid door policy gradient, hergebruikt ons algoritme statische, off-policy supervised data als een dynamisch, on-policy signaal op tokenniveau, waardoor het de generalisatievoordelen van on-policy leren behoudt terwijl het de kostbare overhead van volledige zinsgeneratie omzeilt. Door uitgebreide experimenten op een diverse reeks uitdagende benchmarks, variërend van wiskundig redeneren, codegeneratie en algemeen domeinredeneren, tonen we aan dat OTR consistent beter presteert dan standaard SFT. Onze bevindingen vestigen OTR als een krachtig en praktisch alternatief voor het fine-tunen van LLMs en leveren overtuigend bewijs dat de on-policy aard van data een cruciale drijver is van generalisatie, wat een veelbelovende nieuwe richting biedt voor het fine-tunen van LLMs.
Grote taalmodellen (LLMs) presteren nu sterk op veel openbare wiskundetests, maar de vooruitgang binnen de wiskunde lijdt steeds meer onder plafondeffecten. Wij presenteren twee complementaire benchmarks: SKYLENAGE-ReasoningMATH, een diagnostische set van 100 items met structuurbewustzijn en metadata per item over lengte, numerieke dichtheid en symbolische complexiteit; en SKYLENAGE-MATH, een wedstrijdachtige set van 150 items die vier niveaus bestrijkt, van middelbare school tot doctoraal, onder een taxonomie van zeven onderwerpen. We evalueren vijftien hedendaagse LLM-varianten onder een enkele opzet en analyseren de prestaties per onderwerp x model en per niveau x model. Op de wedstrijdset bereikt het sterkste model 44%, terwijl de nummer twee 37% haalt; de nauwkeurigheid neemt af van middelbare school tot doctoraal, en de topmodellen vertonen een retentie van doctoraal naar middelbare school van bijna 79%. Op de redeneerset behaalt het beste model 81% in totaal, en de resultaten van de moeilijkste subset onthullen duidelijke robuustheidskloof tussen de leiders en de middenmoot. Samenvattend brengen we SKYLENAGE-ReasoningMATH uit en rapporteren we de geaggregeerde resultaten voor SKYLENAGE-MATH; samen biedt SKYLENAGE een uitdagende, redeneringsgerichte en breed omvattende wiskundebenchmark met gekalibreerde moeilijkheidsgraad en rijke metadata, die dient als referentiebenchmark voor toekomstige evaluaties van wiskundig redeneren.
Recente vooruitgang in Reinforcement Post-Training (RPT) heeft de mogelijkheden van Large Reasoning Models (LRMs) aanzienlijk verbeterd, wat een groeiende interesse heeft gewekt in de generalisatie van RL-gebaseerd redeneren. Hoewel bestaand onderzoek zich voornamelijk heeft gericht op het onderzoeken van generalisatie over taken of modaliteiten, stelt deze studie een nieuw cross-linguïstisch perspectief voor om redeneergeneralisatie te onderzoeken. Dit roept een cruciale vraag op: Wordt de redeneervaardigheid die is bereikt met Engelse RPT effectief overgedragen naar andere talen? We benaderen dit door Engelse LRMs systematisch te evalueren op meertalige redeneerbenchmarks en een metriek te introduceren om cross-linguale overdraagbaarheid te kwantificeren. Onze bevindingen laten zien dat cross-linguale overdraagbaarheid aanzienlijk varieert afhankelijk van het initiële model, de doeltaal en het trainingsparadigma. Door interventiestudies ontdekken we dat modellen met sterkere initiële Engelse vaardigheden de neiging hebben om te veel te vertrouwen op Engels-specifieke patronen, wat leidt tot verminderde cross-linguale generalisatie. Om dit aan te pakken, voeren we een grondige parallelle trainingsstudie uit. Experimentele resultaten leveren drie belangrijke bevindingen op: First-Parallel Leap, een aanzienlijke sprong in prestaties bij de overgang van eentalig naar slechts één parallelle taal, en een voorspelbare Parallel Scaling Law, die onthult dat cross-lingueel redeneertransfer een machtswet volgt met het aantal trainingsparallelle talen. Bovendien identificeren we het verschil tussen de werkelijke eentalige prestaties en de machtswetvoorspelling als de Monolingual Generalization Gap, wat aangeeft dat Engelse LRMs niet volledig generaliseren over talen. Onze studie daagt de aanname uit dat LRM-redenering menselijke cognitie weerspiegelt, en biedt cruciale inzichten voor de ontwikkeling van meer taal-agnostische LRMs.
Multi-layer perceptrons (MLPs) volgen conventioneel een smal-breed-smal ontwerp waarbij skip-verbindingen werken op de in-/uitvoerdimensies terwijl verwerking plaatsvindt in uitgebreide verborgen ruimtes. Wij dagen deze conventie uit door brede-smal-brede (Hourglass) MLP-blokken voor te stellen waarbij skip-verbindingen werken op uitgebreide dimensies terwijl restberekeningen door smalle bottlenecks stromen. Deze omkering benut hogerdimensionale ruimtes voor incrementele verfijning terwijl rekenefficiëntie wordt behouden door parameter-afgestemde ontwerpen. Het implementeren van Hourglass MLPs vereist een initiële projectie om ingangssignalen naar uitgebreide dimensies te tillen. Wij stellen voor dat deze projectie vast kan blijven op willekeurige initialisatie gedurende de training, wat efficiënte trainings- en inferentie-implementaties mogelijk maakt. Wij evalueren beide architecturen op generatieve taken over populaire beelddatasets, waarbij we prestatie-parameter Pareto-fronten karakteriseren door systematische architectuurzoektochten. Resultaten tonen aan dat Hourglass-architecturen consistent superieure Pareto-fronten bereiken in vergelijking met conventionele ontwerpen. Naarmate parameterbudgetten toenemen, geven optimale Hourglass-configuraties de voorkeur aan diepere netwerken met bredere skip-verbindingen en smallere bottlenecks—een schaalpatroon dat verschilt van conventionele MLPs. Onze bevindingen suggereren een heroverweging van de plaatsing van skip-verbindingen in moderne architecturen, met mogelijke toepassingen die zich uitstrekken tot Transformers en andere restnetwerken.
Bij arena-stijl evaluatie van grote taalmodellen (LLM's) reageren twee LLM's op een gebruikersvraag, en de gebruiker kiest het winnende antwoord of beschouwt de "strijd" als een gelijkspel, wat resulteert in een aanpassing van de ratings van beide modellen. De gangbare aanpak om deze ratingdynamiek te modelleren, is om de strijden te beschouwen als wedstrijden tussen twee spelers, zoals bij schaken, en het Elo-ratingsysteem en zijn afgeleiden toe te passen. In dit artikel onderzoeken we dit paradigma kritisch. Specifiek vragen we ons af of een gelijkspel werkelijk betekent dat de twee modellen gelijk zijn en dus of hun ratings gelijkgesteld moeten worden. In plaats daarvan vermoeden we dat gelijke spelen meer een indicatie zijn van de moeilijkheidsgraad van de vraag: als de vraag te eenvoudig is, is de kans groter dat beide modellen even goed presteren. Op drie real-world arena-datasets laten we zien dat het negeren van ratingupdates bij gelijke spelen een relatieve toename van 1-3% oplevert in de nauwkeurigheid van het voorspellen van strijdresultaten (inclusief gelijke spelen) voor alle vier de onderzochte ratingsystemen. Verdere analyses suggereren dat gelijke spelen vaker voorkomen bij vragen die als zeer eenvoudig en als zeer objectief worden beoordeeld, met risicoratio's van respectievelijk 1,37 en 1,35. Wij bevelen aan dat toekomstige ratingsystemen de bestaande semantiek van gelijke spelen heroverwegen en rekening houden met de eigenschappen van de vraag bij het bijwerken van de ratings.
Medische Beeldkwaliteitsbeoordeling (IQA) fungeert als de eerste veiligheidsbarrière voor klinische AI, maar bestaande benaderingen blijven beperkt door scalaire, score-gebaseerde metrieken en slagen er niet in om het beschrijvende, mensachtige redeneerproces dat centraal staat bij expertbeoordeling weer te geven. Om deze kloof te overbruggen, introduceren we MedQ-Bench, een uitgebreide benchmark die een perceptie-redeneerparadigma vaststelt voor taalgebaseerde evaluatie van medische beeldkwaliteit met Multi-modale Grote Taalmodellen (MLLMs). MedQ-Bench definieert twee complementaire taken: (1) MedQ-Perceptie, dat het laagniveau perceptievermogen onderzoekt via door mensen samengestelde vragen over fundamentele visuele attributen; en (2) MedQ-Redenering, dat zowel no-reference als vergelijkende redeneertaken omvat, waardoor modelbeoordeling wordt afgestemd op mensachtig redeneren over beeldkwaliteit. De benchmark beslaat vijf beeldvormingsmodaliteiten en meer dan veertig kwaliteitsattributen, met in totaal 2.600 perceptuele vragen en 708 redeneerbeoordelingen, en bestrijkt diverse beeldbronnen, waaronder authentieke klinische opnames, beelden met gesimuleerde degradaties via fysica-gebaseerde reconstructies, en AI-gegenereerde beelden. Om het redeneervermogen te evalueren, stellen we een multidimensionaal beoordelingsprotocol voor dat modeluitvoer langs vier complementaire assen beoordeelt. We voeren verder een grondige validatie van mens-AI-afstemming uit door LLM-gebaseerde oordelen te vergelijken met radiologen. Onze evaluatie van 14 state-of-the-art MLLMs toont aan dat modellen voorlopige maar onstabiele perceptuele en redeneervaardigheden vertonen, met onvoldoende nauwkeurigheid voor betrouwbaar klinisch gebruik. Deze bevindingen benadrukken de noodzaak van gerichte optimalisatie van MLLMs in medische IQA. We hopen dat MedQ-Bench verdere verkenning zal stimuleren en het onbenutte potentieel van MLLMs voor medische beeldkwaliteitsevaluatie zal ontsluiten.
De integratie van Large Language Models (LLMs) met Internet-of-Things (IoT)-systemen kampt met aanzienlijke uitdagingen op het gebied van hardwareheterogeniteit en controlecomplexiteit. Het Model Context Protocol (MCP) komt naar voren als een cruciale enabler, die gestandaardiseerde communicatie tussen LLMs en fysieke apparaten mogelijk maakt. Wij stellen IoT-MCP voor, een nieuw framework dat MCP implementeert via edge-geïmplementeerde servers om LLMs en IoT-ecosystemen te verbinden. Om rigoureuze evaluatie te ondersteunen, introduceren we IoT-MCP Bench, de eerste benchmark die 114 Basistaken (bijv., "Wat is de huidige temperatuur?") en 1.140 Complexe Taken (bijv., "Ik heb het zo warm, heb je ideeën?") bevat voor IoT-geactiveerde LLMs. Experimentele validatie over 22 sensortypes en 6 microcontrollerunits toont aan dat IoT-MCP een taak-succespercentage van 100% behaalt om tool-aanroepen te genereren die volledig aan de verwachtingen voldoen en volledig accurate resultaten opleveren, met een gemiddelde responstijd van 205ms en een piekgeheugenverbruik van 74KB. Dit werk levert zowel een open-source integratieframework (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) als een gestandaardiseerde evaluatiemethodologie voor LLM-IoT-systemen.
Dual-encoder retrievers zijn gebaseerd op het principe dat relevante documenten een hogere score moeten krijgen dan irrelevante voor een gegeven zoekopdracht. Echter, het dominante Noise Contrastive Estimation (NCE)-doel, dat ten grondslag ligt aan Contrastive Loss, optimaliseert een verzachte rangschikkingssurrogaat waarvan we rigoureus aantonen dat het fundamenteel onverschillig is voor de kwaliteit van scorescheiding en geen verband houdt met AUC. Deze mismatch leidt tot slechte kalibratie en suboptimale prestaties in downstream taken zoals retrieval-augmented generation (RAG). Om deze fundamentele beperking aan te pakken, introduceren we de MW-loss, een nieuwe trainingsdoelstelling die de Mann-Whitney U-statistiek maximaliseert, wat wiskundig equivalent is aan het gebied onder de ROC-curve (AUC). MW-loss stimuleert dat elk positief-negatief paar correct wordt gerangschikt door de binaire kruisentropie over scoreverschillen te minimaliseren. We bieden theoretische garanties dat MW-loss direct een bovengrens vormt voor de AoC, waardoor de optimalisatie beter aansluit bij de doelstellingen van retrieval. We bevorderen verder ROC-curven en AUC als natuurlijke, drempelvrije diagnostische hulpmiddelen voor het evalueren van kalibratie en rangschikkingskwaliteit van retrievers. Empirisch presteren retrievers die zijn getraind met MW-loss consistent beter dan tegenhangers met contrastive loss in AUC en standaard retrieval-metrics. Onze experimenten tonen aan dat MW-loss een empirisch superieur alternatief is voor Contrastive Loss, wat resulteert in beter gekalibreerde en meer onderscheidende retrievers voor hoogwaardige toepassingen zoals RAG.
Naarmate grote taalmmodellen (LLMs) schalen, is de vraag niet alleen hoe groot ze worden, maar ook hoeveel van hun capaciteit effectief wordt benut. Bestaande schaalwetten relateren modelgrootte aan verlies, maar negeren hoe componenten hun latente ruimte benutten. Wij bestuderen feed-forward netwerken (FFNs) en herformuleren breedtekeuze als een spectrale benuttingsprobleem. Met behulp van een lichtgewicht diagnostische suite -- Hard Rank (participatieratio), Soft Rank (Shannon rank), Spectrale Concentratie, en de samengestelde Spectrale Benuttingsindex (SUI) -- kwantificeren we hoeveel latente richtingen betekenisvol worden geactiveerd in de LLaMA, GPT-2 en nGPT families. Onze belangrijkste bevinding is een asymmetrische spectrale schaalwet: soft rank volgt een bijna perfecte machtswet met FFN-breedte, terwijl hard rank slechts sublineair groeit en met hoge variantie. Deze asymmetrie suggereert dat het verbreden van FFNs vooral richtingen met lage energie toevoegt, terwijl dominante-modus deelruimtes vroeg verzadigen. Bovendien, bij grotere breedtes, stort de variantie verder ineen in een smalle deelruimte, waardoor veel van de latente ruimte onderbenut blijft. Deze resultaten herformuleren FFN-breedtekeuze als een principieel compromis tussen staartcapaciteit en dominante-modus capaciteit, wat concrete richtlijnen biedt voor inferentie-efficiënt LLM-ontwerp.
Composed Image Retrieval (CIR) heeft als doel om doelafbeeldingen op te halen die de visuele inhoud van een referentieafbeelding behouden, terwijl gebruikersspecifieke tekstuele aanpassingen worden geïntegreerd. Training-free zero-shot CIR (ZS-CIR) benaderingen, die geen taakspecifieke training of gelabelde gegevens vereisen, zijn zeer wenselijk, maar het nauwkeurig vastleggen van de gebruikersintentie blijft een uitdaging. In dit artikel presenteren we SQUARE, een nieuw tweestaps training-free raamwerk dat gebruikmaakt van Multimodale Large Language Models (MLLMs) om ZS-CIR te verbeteren. In de Semantic Query-Augmented Fusion (SQAF) fase verrijken we de query-embedding afgeleid van een vision-language model (VLM) zoals CLIP met MLLM-gegenereerde bijschriften van de doelafbeelding. Deze bijschriften bieden hoogwaardige semantische begeleiding, waardoor de query beter in staat is om de intentie van de gebruiker vast te leggen en de globale retrievalkwaliteit te verbeteren. In de Efficient Batch Reranking (EBR) fase worden de hoogst gerangschikte kandidaten gepresenteerd als een afbeeldingenrooster met visuele markeringen aan de MLLM, die gezamenlijke visueel-semantische redenering uitvoert over alle kandidaten. Onze herrangschikkingsstrategie werkt in één enkele stap en levert nauwkeurigere rangschikkingen op. Experimenten tonen aan dat SQUARE, met zijn eenvoud en effectiviteit, sterke prestaties levert op vier standaard CIR benchmarks. Opmerkelijk is dat het hoge prestaties behoudt, zelfs met lichtgewicht vooraf getrainde modellen, wat het potentieel voor toepasbaarheid aantoont.
Het ontwerpen van sequenties die aan meerdere, vaak conflicterende doelstellingen voldoen, is een centrale uitdaging in therapeutische en biomoleculaire engineering. Bestaande generatieve frameworks werken grotendeels in continue ruimtes met enkelvoudige doelstellingsbegeleiding, terwijl discrete benaderingen geen garanties bieden voor multi-objectieve Pareto-optimaliteit. Wij introduceren AReUReDi (Annealed Rectified Updates for Refining Discrete Flows), een discreet optimalisatie-algoritme met theoretische garanties voor convergentie naar het Pareto-front. Gebaseerd op Rectified Discrete Flows (ReDi), combineert AReUReDi Tchebycheff-scalarisatie, lokaal gebalanceerde voorstellen en geannealde Metropolis-Hastings-updates om de bemonstering te sturen naar Pareto-optimale toestanden, terwijl de distributie-invariantie behouden blijft. Toegepast op het ontwerpen van peptide- en SMILES-sequenties, optimaliseert AReUReDi gelijktijdig tot vijf therapeutische eigenschappen (waaronder affiniteit, oplosbaarheid, hemolyse, halveringstijd en niet-vervuiling) en presteert het beter dan zowel evolutionaire als op diffusie gebaseerde referentiemethoden. Deze resultaten vestigen AReUReDi als een krachtig, sequentiegebaseerd raamwerk voor de generatie van biomoleculen met meerdere eigenschappen.
Recente denkmodellen lossen complexe redeneertaken op door de rekentijd tijdens het testen te schalen, maar deze schaling moet worden toegewezen in overeenstemming met de taakmoeilijkheid. Enerzijds leidt kort redeneren (onderdenken) tot fouten bij moeilijkere problemen die uitgebreide redeneerstappen vereisen; anderzijds kan excessief lang redeneren (overdenken) token-inefficiënt zijn, waarbij onnodige stappen worden gegenereerd zelfs nadat een correcte tussenoplossing is bereikt. We verwijzen hiernaar als onder-adaptiviteit, waarbij het model er niet in slaagt de lengte van zijn reactie adequaat aan te passen aan problemen van uiteenlopende moeilijkheidsgraad. Om onder-adaptiviteit aan te pakken en een balans te vinden tussen onder- en overdenken, stellen we TRAAC voor (Think Right with Adaptive, Attentive Compression), een online post-training RL-methode die gebruikmaakt van de zelf-attentie van het model over een lange redeneertraject om belangrijke stappen te identificeren en overbodige stappen te verwijderen. TRAAC schat ook de moeilijkheidsgraad en integreert deze in de trainingsbeloningen, waardoor het leert om het redeneerbudget toe te wijzen in overeenstemming met de moeilijkheidsgraad van het voorbeeld. Onze aanpak verbetert de nauwkeurigheid, vermindert het aantal redeneerstappen en maakt adaptief denken mogelijk in vergelijking met basismodellen en andere RL-baselines. Over een verscheidenheid aan taken (AIME, AMC, GPQA-D, BBEH) behaalt TRAAC (Qwen3-4B) een gemiddelde absolute nauwkeurigheidswinst van 8,4% met een relatieve vermindering van de redeneerlengte van 36,8% in vergelijking met het basismodel, en een nauwkeurigheidswinst van 7,9% gepaard met een lengtereductie van 29,4% in vergelijking met de beste RL-baseline. TRAAC toont ook sterke generalisatie: hoewel onze modellen zijn getraind op wiskundige datasets, laten ze nauwkeurigheids- en efficiëntiewinsten zien op out-of-distribution niet-wiskundige datasets zoals GPQA-D, BBEH en OptimalThinkingBench. Onze analyse bevestigt verder dat TRAAC fijnmazige aanpassingen maakt aan het denkbudget op basis van moeilijkheid en dat een combinatie van taakmoeilijkheidskalibratie en aandacht-gebaseerde compressie winst oplevert over diverse taken.