Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het genereren van academische posters is een cruciale maar uitdagende taak in wetenschappelijke communicatie, waarbij lange, verweven documenten moeten worden samengevat in één visueel coherente pagina. Om deze uitdaging aan te gaan, introduceren we de eerste benchmark en metrische suite voor postergeneratie, die recente conferentiepapers koppelt aan door auteurs ontworpen posters en de resultaten evalueert op (i) Visuele Kwaliteit - semantische afstemming met door mensen gemaakte posters, (ii) Tekstuele Samenhang - taalvloeiendheid, (iii) Holistische Beoordeling - zes verfijnde esthetische en informatieve criteria gescoord door een VLM-als-rechter, en opmerkelijk (iv) PaperQuiz - het vermogen van de poster om de kerninhoud van het paper over te brengen, gemeten aan de hand van VLMs die gegenereerde quizzen beantwoorden. Op basis van deze benchmark stellen we PosterAgent voor, een top-down, visueel-in-de-loop multi-agent pijplijn: de (a) Parser destilleert het paper in een gestructureerde assetbibliotheek; de (b) Planner brengt tekst-visuele paren in lijn met een binaire-boom lay-out die de leesvolgorde en ruimtelijke balans behoudt; en de (c) Painter-Commenter-lus verfijnt elk paneel door renderingscode uit te voeren en VLM-feedback te gebruiken om overloop te elimineren en afstemming te waarborgen. In onze uitgebreide evaluatie ontdekken we dat GPT-4o-uitvoer - hoewel op het eerste gezicht visueel aantrekkelijk - vaak rommelige tekst en slechte PaperQuiz-scores vertoont, en we constateren dat lezersbetrokkenheid de primaire esthetische bottleneck is, aangezien door mensen ontworpen posters grotendeels vertrouwen op visuele semantiek om betekenis over te brengen. Onze volledig open-source varianten (bijv. gebaseerd op de Qwen-2.5-serie) presteren beter dan bestaande 4o-gestuurde multi-agent systemen op bijna alle metrieken, terwijl ze 87% minder tokens gebruiken. Het transformeert een paper van 22 pagina's naar een afgeronde maar bewerkbare .pptx-poster - alles voor slechts $0,005. Deze bevindingen wijzen duidelijke richtingen aan voor de volgende generatie volledig geautomatiseerde postergeneratiemodellen. De code en datasets zijn beschikbaar op https://github.com/Paper2Poster/Paper2Poster.
Grote Taalmodellen (LLMs) hebben hun invloed uitgebreid buiten Natuurlijke Taalverwerking, en dragen aanzienlijk bij aan de ontwikkeling van interdisciplinair onderzoek. Onlangs zijn verschillende LLM-gebaseerde agents ontwikkeld om de voortgang van wetenschappelijke ontdekkingen te ondersteunen op meerdere aspecten en domeinen. Onder deze agents bevinden zich computergebruikende agents, die in staat zijn om met besturingssystemen te interacteren zoals mensen dat doen, en zo de weg vrijmaken voor geautomatiseerde wetenschappelijke probleemoplossing en routinehandelingen in de workflows van onderzoekers. Erkennend het transformerende potentieel van deze agents, introduceren wij ScienceBoard, dat twee complementaire bijdragen omvat: (i) een realistische, multidomeinomgeving met dynamische en visueel rijke wetenschappelijke workflows met geïntegreerde professionele software, waar agents autonoom kunnen interacteren via verschillende interfaces om complexe onderzoektaken en experimenten te versnellen; en (ii) een uitdagende benchmark van 169 hoogwaardige, rigoureus gevalideerde real-world taken, samengesteld door mensen, die wetenschappelijke ontdekkingsworkflows omvatten in domeinen zoals biochemie, astronomie en geoinformatica. Uitgebreide evaluaties van agents met state-of-the-art backbones (bijv. GPT-4o, Claude 3.7, UI-TARS) tonen aan dat, ondanks enkele veelbelovende resultaten, ze nog steeds tekortschieten in het betrouwbaar ondersteunen van wetenschappers in complexe workflows, met slechts een algeheel succespercentage van 15%. Diepgaande analyse biedt verder waardevolle inzichten voor het aanpakken van de huidige beperkingen van agents en effectievere ontwerpprincipes, waardoor de weg wordt geëffend voor het bouwen van capabelere agents voor wetenschappelijke ontdekking. Onze code, omgeving en benchmark zijn te vinden op https://qiushisun.github.io/ScienceBoard-Home/.
Logisch redeneren is een fundamenteel aspect van menselijke intelligentie en een essentiële vaardigheid voor multimodale grote taalmodellen (MLLMs). Ondanks de aanzienlijke vooruitgang in multimodaal redeneren, slagen bestaande benchmarks er niet in om hun redeneervaardigheden uitgebreid te evalueren vanwege het ontbreken van een expliciete categorisering van logische redeneertypen en een onduidelijk begrip van redeneren. Om deze problemen aan te pakken, introduceren we MME-Reasoning, een uitgebreide benchmark die is ontworpen om de redeneervaardigheid van MLLMs te evalueren, waarbij alle drie de redeneertypen (d.w.z. inductief, deductief en abductief) in de vragen worden behandeld. We hebben de data zorgvuldig samengesteld om ervoor te zorgen dat elke vraag effectief de redeneervaardigheid evalueert in plaats van perceptuele vaardigheden of kennisbreedte, en hebben de evaluatieprotocollen uitgebreid om de evaluatie van diverse vragen te dekken. Onze evaluatie onthult aanzienlijke beperkingen van state-of-the-art MLLMs wanneer ze worden onderworpen aan holistische beoordelingen van logische redeneervaardigheden. Zelfs de meest geavanceerde MLLMs vertonen beperkte prestaties in uitgebreid logisch redeneren, met opvallende prestatieonevenwichtigheden tussen redeneertypen. Daarnaast hebben we een diepgaande analyse uitgevoerd van benaderingen zoals "denkmodus" en Rule-based RL, waarvan algemeen wordt aangenomen dat ze redeneervaardigheden verbeteren. Deze bevindingen benadrukken de kritieke beperkingen en prestatieonevenwichtigheden van huidige MLLMs in diverse logische redeneerscenario's, en bieden uitgebreide en systematische inzichten in het begrip en de evaluatie van redeneervaardigheden.
Recente ontwikkelingen zoals OpenAI-o1 en DeepSeek R1 hebben het potentieel van Reinforcement Learning (RL) aangetoond om de redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Hoewel open-source replicatie-inspanningen zich voornamelijk hebben gericht op wiskundige en programmeerdomeinen, blijven methoden en bronnen voor het ontwikkelen van algemene redeneervaardigheden onderbelicht. Deze kloof is deels te wijten aan de uitdaging om diverse en verifieerbare redeneergegevens te verzamelen die geschikt zijn voor RL. Wij veronderstellen dat logisch redeneren cruciaal is voor het ontwikkelen van algemene redeneervaardigheden, aangezien logica een fundamenteel bouwsteen van redeneren vormt. In dit werk presenteren we SynLogic, een data-syntheseframework en dataset die op grote schaal diverse logische redeneergegevens genereert, met 35 verschillende logische redeneertaken. De SynLogic-aanpak maakt gecontroleerde synthese van gegevens mogelijk met instelbare moeilijkheidsgraad en hoeveelheid. Belangrijk is dat alle voorbeelden kunnen worden geverifieerd door eenvoudige regels, waardoor ze ideaal geschikt zijn voor RL met verifieerbare beloningen. In onze experimenten valideren we de effectiviteit van RL-training op de SynLogic-dataset op basis van 7B- en 32B-modellen. SynLogic leidt tot state-of-the-art prestaties in logisch redeneren onder open-source datasets, waarbij DeepSeek-R1-Distill-Qwen-32B met 6 punten wordt overtroffen op BBEH. Bovendien verbetert het mengen van SynLogic-gegevens met wiskundige en programmeertaken de trainings efficiëntie van deze domeinen en versterkt het de redeneergeneralistatie aanzienlijk. Opmerkelijk is dat ons gemengde trainingsmodel DeepSeek-R1-Zero-Qwen-32B overtreft op meerdere benchmarks. Deze bevindingen positioneren SynLogic als een waardevolle bron voor het bevorderen van de bredere redeneervaardigheden van LLMs. We open-sourcen zowel de data-synthesepipeline als de SynLogic-dataset op https://github.com/MiniMax-AI/SynLogic.
Diffusiemodellen hebben beeldstilisering aanzienlijk vooruitgeholpen, maar twee kernuitdagingen blijven bestaan: (1) het behouden van consistente stilisering in complexe scènes, met name wat betreft identiteit, compositie en fijne details, en (2) het voorkomen van stijldegradatie in beeld-naar-beeldpijplijnen met stijl-LoRA's. De uitzonderlijke stiliseringconsistentie van GPT-4o benadrukt het prestatieverschil tussen open-source methoden en propriëtaire modellen. Om deze kloof te overbruggen, stellen we OmniConsistency voor, een universele consistentieplugin die gebruikmaakt van grootschalige Diffusion Transformers (DiTs). OmniConsistency draagt bij: (1) een in-context consistentie-leerkader getraind op uitgelijnde beeldparen voor robuuste generalisatie; (2) een tweefasige progressieve leerstrategie die stijlleren ontkoppelt van consistentiebehoud om stijldegradatie te verminderen; en (3) een volledig plug-and-play ontwerp dat compatibel is met willekeurige stijl-LoRA's onder het Flux-framework. Uitgebreide experimenten tonen aan dat OmniConsistency de visuele samenhang en esthetische kwaliteit aanzienlijk verbetert, waardoor prestaties worden bereikt die vergelijkbaar zijn met die van het commerciële state-of-the-art model GPT-4o.
Een recente studie toonde aan dat grote taalmodelen (LLM’s) verrassend lange teksten - tot duizenden tokens - kunnen reconstrueren via autoregressieve generatie vanuit slechts één speciaal getrainde invoerembedding. In dit werk onderzoeken we of een dergelijke reconstructie mogelijk is zonder autoregressie. We tonen aan dat bevroren LLM’s honderden nauwkeurige tokens kunnen genereren in slechts één voorwaartse doorloop, wanneer ze worden voorzien van slechts twee geleerde embeddings. Dit onthult een verrassende en onderbelichte capaciteit van LLM’s: multi-token generatie zonder iteratieve decodering. We onderzoeken het gedrag van deze embeddings en geven inzicht in het type informatie dat ze coderen. We tonen ook empirisch aan dat hoewel deze representaties niet uniek zijn voor een gegeven tekst, ze verbonden en lokale regio’s vormen in de embeddingruimte - een eigenschap die het potentieel suggereert van het leren van een toegewijde encoder in die ruimte.
Redenerende grote taalmodellen (LLMs) zijn sterk afhankelijk van het opschalen van rekentijd tijdens het testen om complexe redeneertaken uit te voeren door uitgebreide "denk"ketens te genereren. Hoewel deze aanpak indrukwekkende resultaten laat zien, brengt het aanzienlijke rekenkosten en inferentietijd met zich mee. In dit werk dagen we de aanname uit dat lange denkketens leiden tot betere redeneervaardigheden. We tonen eerst aan dat kortere redeneerketens binnen individuele vragen aanzienlijk vaker tot correcte antwoorden leiden – tot wel 34,5% nauwkeuriger dan de langste keten die voor dezelfde vraag is bemonsterd. Op basis van deze resultaten stellen we short-m@k voor, een nieuwe inferentiemethode voor redenerende LLMs. Onze methode voert k onafhankelijke generaties parallel uit en stopt de berekening zodra de eerste m denkprocessen zijn voltooid. Het uiteindelijke antwoord wordt gekozen door middel van meerderheidsstemming onder deze m ketens. De basisversie short-1@k vertoont vergelijkbare of zelfs superieure prestaties ten opzichte van standaard meerderheidsstemming in situaties met beperkte rekenkracht – waarbij tot 40% minder denktokens worden gebruikt. short-3@k, hoewel iets minder efficiënt dan short-1@k, overtreft consistent meerderheidsstemming over alle rekenbudgetten heen, terwijl het nog steeds aanzienlijk sneller is (tot 33% minder wandtijd). Geïnspireerd door onze resultaten finetunen we een LLM met behulp van korte, lange en willekeurig geselecteerde redeneerketens. We observeren vervolgens dat training op de kortere ketens tot betere prestaties leidt. Onze bevindingen suggereren een herziening van de huidige methoden voor rekentijd tijdens het testen in redenerende LLMs, waarbij wordt benadrukt dat langer "denken" niet noodzakelijkerwijs tot verbeterde prestaties leidt en, tegen intuïtie in, zelfs tot verslechterde resultaten kan leiden.
Subject-to-Video (S2V) generatie heeft als doel video's te creëren die referentie-inhoud nauwkeurig integreren, waardoor meer flexibiliteit wordt geboden in de productie van video's. Om de infrastructuur voor S2V-generatie te ontwikkelen, stellen we OpenS2V-Nexus voor, bestaande uit (i) OpenS2V-Eval, een gedetailleerde benchmark, en (ii) OpenS2V-5M, een dataset op miljoenen-schaal. In tegenstelling tot bestaande S2V-benchmarks die zijn overgenomen van VBench en zich richten op globale en grove beoordeling van gegenereerde video's, richt OpenS2V-Eval zich op het vermogen van het model om onderwerp-consistente video's te genereren met een natuurlijke onderwerpweergave en identiteitsgetrouwheid. Hiervoor introduceert OpenS2V-Eval 180 prompts uit zeven hoofdcategorieën van S2V, die zowel echte als synthetische testgegevens bevatten. Bovendien stellen we, om menselijke voorkeuren nauwkeurig af te stemmen op S2V-benchmarks, drie automatische metrieken voor: NexusScore, NaturalScore en GmeScore, om respectievelijk onderwerpconsistentie, natuurlijkheid en tekstrelevantie in gegenereerde video's te kwantificeren. Op basis hiervan voeren we een uitgebreide evaluatie uit van 16 representatieve S2V-modellen, waarbij hun sterke en zwakke punten over verschillende inhoud worden belicht. Daarnaast creëren we de eerste open-source grootschalige S2V-generatiedataset OpenS2V-5M, die bestaat uit vijf miljoen hoogwaardige 720P onderwerp-tekst-video triples. Specifiek zorgen we voor diversiteit in onderwerpinformatie in onze dataset door (1) onderwerpen te segmenteren en koppelingsinformatie op te bouwen via kruisvideo-associaties en (2) GPT-Image-1 aan te sturen op ruwe frames om multi-view representaties te synthetiseren. Met OpenS2V-Nexus leveren we een robuuste infrastructuur om toekomstig S2V-generatieonderzoek te versnellen.
Recente ontwikkelingen in Large Language Models (LLMs) laten veelbelovende resultaten zien op het gebied van functieniveau codegeneratie, maar repositoryniveau software-engineeringtaken blijven uitdagend. Huidige oplossingen zijn voornamelijk afhankelijk van propriëtaire LLM-agents, wat onvoorspelbaarheid introduceert en de toegankelijkheid beperkt, wat zorgen oproept over gegevensprivacy en modelaanpassing. Dit artikel onderzoekt of open-source LLMs effectief repositoryniveau taken kunnen aanpakken zonder gebruik te maken van agent-gebaseerde benaderingen. We tonen aan dat dit mogelijk is door LLMs in staat te stellen functies en bestanden binnen codebases te begrijpen via hun semantische informatie en structurele afhankelijkheden. Hiertoe introduceren we Code Graph Models (CGMs), die repository code-graafstructuren integreren in het aandachtmechanisme van de LLM en knooppuntattributen toewijzen aan de invoerruimte van de LLM met behulp van een gespecialiseerde adapter. In combinatie met een agentloos graph RAG-framework bereikt onze aanpak een oplossingspercentage van 43,00% op de SWE-bench Lite-benchmark met behulp van het open-source Qwen2.5-72B-model. Deze prestatie staat op de eerste plaats onder open weight-modellen, op de tweede plaats onder methoden met open-source systemen, en op de achtste plaats overall, wat de vorige beste open-source modelgebaseerde methode met 12,33% overtreft.
Recente ontwikkelingen in Multi-Modale Grote Taalmodellen (MLLMs) hebben een uniforme verwerking van taal, visuele informatie en gestructureerde invoer mogelijk gemaakt, wat de deur opent naar complexe taken zoals logische deductie, ruimtelijk redeneren en wetenschappelijke analyse. Ondanks hun potentieel blijven de redeneervaardigheden van MLLMs, met name die versterkt met tussenliggende denksporen (MLLMs-T), slecht begrepen en ontbreekt het aan gestandaardiseerde evaluatiebenchmarks. Bestaand onderzoek richt zich voornamelijk op perceptie of de correctheid van het eindantwoord, wat beperkt inzicht biedt in hoe modellen redeneren of falen over verschillende modaliteiten heen. Om deze kloof te dichten, introduceren we de MMMR, een nieuwe benchmark die ontworpen is om multi-modale redenering met expliciet denken rigoureus te evalueren. De MMMR bestaat uit 1) een dataset met hoge moeilijkheidsgraad van 1.083 vragen die zes diverse redeneertypes omvatten met symbolische diepte en multi-hop eisen, en 2) een modulaire Reasoning Trace Evaluation Pipeline (RTEP) voor het beoordelen van de kwaliteit van redenering verder dan alleen nauwkeurigheid, via metrieken zoals relevantie, consistentie en gestructureerde foutannotaties. Empirische resultaten tonen aan dat MLLMs-T over het algemeen beter presteren dan tegenhangers zonder denksporen, maar zelfs topmodellen zoals Claude-3.7-Sonnet en Gemini-2.5 Pro lijden aan redeneerpathologieën zoals inconsistentie en overdenken. Deze benchmark onthult aanhoudende kloof tussen nauwkeurigheid en redeneerkwaliteit en biedt een bruikbare evaluatiepipeline voor toekomstige modelontwikkeling. Over het algemeen biedt de MMMR een schaalbare basis voor het evalueren, vergelijken en verbeteren van de volgende generatie multi-modale redeneersystemen.
Test-Time Scaling (TTS)-methoden voor het verbeteren van het redeneervermogen van Large Language Models (LLM) brengen vaak aanzienlijke rekenkosten met zich mee, voornamelijk door de uitgebreide afhankelijkheid van externe Process Reward Models (PRM's) of steekproefmethoden zoals Best-of-N (BoN). Dit artikel introduceert Guided by Gut (GG), een efficiënt zelfgeleid TTS-raamwerk dat PRM-niveau prestaties bereikt zonder kostbare externe verificatiemodellen. Onze methode maakt gebruik van een lichtgewicht boomzoekactie die uitsluitend wordt geleid door intrinsieke LLM-signalen, token-niveau vertrouwen en stap-nieuwigheid. Een cruciale innovatie is het verbeteren van de betrouwbaarheid van interne vertrouwensschattingen via een gerichte fine-tuningfase met reinforcement learning. Empirische evaluaties op uitdagende wiskundige redeneerbenchmarks tonen aan dat GG kleinere modellen (bijv. 1,5B parameters) in staat stelt om nauwkeurigheid te bereiken die overeenkomt met of zelfs overtreft van aanzienlijk grotere modellen (bijv. 32B-70B parameters), terwijl het GPU-geheugengebruik tot 10x wordt verminderd. Vergeleken met PRM-gebaseerde methoden bereikt GG vergelijkbare nauwkeurigheid met 8x snellere inferentiesnelheden en 4-5x lager geheugengebruik. Bovendien vermindert GG het KV-cache-geheugengebruik met ongeveer 50% in vergelijking met de BoN-strategie, wat een efficiëntere en praktischere implementatie van TTS-technieken mogelijk maakt.
Het toepassen van Reinforcement Learning (RL) op Video Large Language Models (Video-LLMs) toont veelbelovende mogelijkheden voor complexe videoredenering. Populaire Reinforcement Fine-Tuning (RFT) methoden, zoals outcome-based Group Relative Policy Optimization (GRPO), worden echter beperkt door knelpunten in de dataverwerking (bijvoorbeeld ruis of hoge kosten) en vertonen onstabiele verbeteringen in de kwaliteit van lange ketens van gedachten (CoTs) en downstreamprestaties. Om deze beperkingen aan te pakken, stellen wij VerIPO voor, een Verifier-guided Iterative Policy Optimization-methode die is ontworpen om de capaciteit van video-LLMs voor het genereren van diepe, langetermijnredeneringsketens geleidelijk te verbeteren. De kerncomponent is de Rollout-Aware Verifier, die tussen de GRPO- en Direct Preference Optimization (DPO)-trainingsfasen wordt geplaatst om de GRPO-Verifier-DPO-trainingslus te vormen. Deze verifier maakt gebruik van kleine LLMs als beoordelaar om de redeneerlogica van rollouts te beoordelen, waardoor de constructie van hoogwaardige contrastieve data mogelijk wordt, inclusief reflectieve en contextueel consistente CoTs. Deze gecureerde voorkeursmonsters sturen de efficiënte DPO-fase aan (7x sneller dan GRPO), wat leidt tot aanzienlijke verbeteringen in de kwaliteit van redeneeringsketens, vooral wat betreft lengte en contextuele consistentie. Deze trainingslus profiteert van de uitgebreide zoekmogelijkheden van GRPO en de gerichte optimalisatie van DPO. Experimentele resultaten tonen aan: 1) Aanzienlijk snellere en effectievere optimalisatie in vergelijking met standaard GRPO-varianten, wat resulteert in superieure prestaties; 2) Onze getrainde modellen overtreffen de directe inferentie van grootschalige instructie-getunede Video-LLMs, waarbij lange en contextueel consistente CoTs worden geproduceerd voor diverse videoredeneertaken; en 3) Ons model met één iteratie presteert beter dan krachtige LMMs (bijvoorbeeld Kimi-VL) en lange redeneermodellen (bijvoorbeeld Video-R1), wat de effectiviteit en stabiliteit ervan benadrukt.
Diffusion Transformers (DiTs) zijn essentieel voor videogeneratie, maar lijden aan aanzienlijke latentie vanwege de kwadratische complexiteit van aandacht. Door alleen kritieke tokens te berekenen, vermindert sparse attention de rekenkosten en biedt het een veelbelovende versnellingsaanpak. Wij constateren echter dat bestaande methoden niet de optimale generatiekwaliteit bereiken binnen hetzelfde rekenbudget om twee redenen: (1) Onnauwkeurige identificatie van kritieke tokens: huidige methoden clusteren tokens op basis van positie in plaats van semantiek, wat leidt tot onnauwkeurige geaggregeerde representaties. (2) Overmatige rekenverspilling: kritieke tokens zijn verspreid tussen niet-kritieke tokens, wat leidt tot verspilling van rekenkracht op GPU's, die zijn geoptimaliseerd voor het verwerken van aaneengesloten tokens. In dit artikel stellen we SVG2 voor, een trainingsvrij raamwerk dat de identificatienauwkeurigheid maximaliseert en rekenverspilling minimaliseert, waardoor een Pareto-frontier trade-off tussen generatiekwaliteit en efficiëntie wordt bereikt. De kern van SVG2 is semantisch bewuste permutatie, die tokens clustert en herordent op basis van semantische gelijkenis met behulp van k-means. Deze aanpak zorgt zowel voor een nauwkeurige clusterrepresentatie, wat de identificatienauwkeurigheid verbetert, als voor een verdichte lay-out van kritieke tokens, waardoor efficiënte berekening zonder padding mogelijk wordt. Bovendien integreert SVG2 top-p dynamisch budgetbeheer en aangepaste kernelimplementaties, wat een versnelling tot 2.30x en 1.89x oplevert terwijl een PSNR van respectievelijk 30 en 26 wordt gehandhaafd op HunyuanVideo en Wan 2.1.
In dit artikel introduceren we UI-Genie, een zelfverbeterend raamwerk dat twee belangrijke uitdagingen bij GUI-agents aanpakt: het verifiëren van trajectresultaten is complex en hoogwaardige trainingsdata zijn niet schaalbaar. Deze uitdagingen worden respectievelijk aangepakt door een beloningsmodel en een zelfverbeterende pijplijn. Het beloningsmodel, UI-Genie-RM, beschikt over een afbeelding-tekst verweven architectuur die historische context efficiënt verwerkt en actieniveau- en takeniveau-beloningen verenigt. Om de training van UI-Genie-RM te ondersteunen, ontwikkelen we doelbewust ontworpen data-generatiestrategieën, waaronder op regels gebaseerde verificatie, gecontroleerde trajectcorruptie en harde negatieve mining. Om de tweede uitdaging aan te pakken, breidt een zelfverbeterende pijplijn geleidelijk oplosbare complexe GUI-taken uit door zowel de agent als de beloningsmodellen te verbeteren via beloning-gestuurde exploratie en resultaatverificatie in dynamische omgevingen. Voor het trainen van het model genereren we UI-Genie-RM-517k en UI-Genie-Agent-16k, waarmee de eerste beloningsspecifieke dataset voor GUI-agents wordt gevestigd, terwijl hoogwaardige synthetische trajectgeneratie zonder handmatige annotatie wordt gedemonstreerd. Experimentele resultaten laten zien dat UI-Genie state-of-the-art prestaties behaalt op meerdere GUI-agent benchmarks met drie generaties van data-model zelfverbetering. We maken onze volledige raamwerkimplementatie en gegenereerde datasets open source om verder onderzoek te faciliteren op https://github.com/Euphoria16/UI-Genie.
Multimodale Large Language Models (MLLMs) hebben aanzienlijke nauwkeurigheid bereikt in Optical Character Recognition (OCR) van statische afbeeldingen. Hun effectiviteit in video-OCR is echter aanzienlijk verminderd vanwege factoren zoals bewegingsonscherpte, temporele variaties en visuele effecten die inherent zijn aan videocontent. Om duidelijkere richtlijnen te bieden voor het trainen van praktische MLLMs, introduceren we de MME-VideoOCR-benchmark, die een uitgebreid scala aan video-OCR-toepassingsscenario's omvat. MME-VideoOCR bevat 10 taakcategorieën bestaande uit 25 individuele taken en beslaat 44 diverse scenario's. Deze taken gaan verder dan tekstherkenning en omvatten een dieper begrip en redeneren van tekstuele inhoud binnen video's. De benchmark bestaat uit 1.464 video's met variërende resoluties, beeldverhoudingen en duur, samen met 2.000 zorgvuldig samengestelde, handmatig geannoteerde vraag-antwoordparen. We evalueren 18 state-of-the-art MLLMs op MME-VideoOCR, waaruit blijkt dat zelfs het best presterende model (Gemini-2.5 Pro) een nauwkeurigheid van slechts 73,7% bereikt. Fijnmazige analyses tonen aan dat bestaande MLLMs weliswaar sterk presteren op taken waarbij relevante teksten in één of enkele frames zijn opgenomen, maar beperkte capaciteit vertonen in het effectief omgaan met taken die een holistisch videobegrip vereisen. Deze beperkingen zijn vooral zichtbaar in scenario's die spatio-temporeel redeneren, kruisframe-informatie-integratie of weerstand tegen taalprior bias vereisen. Onze bevindingen benadrukken ook het belang van hoogwaardige visuele invoer en voldoende temporele dekking voor betrouwbare OCR in dynamische videoscenario's.
Low-Rank Adaptation (LoRA) is een populaire methode voor parameter-efficiënte fine-tuning (PEFT) van generatieve modellen, gewaardeerd om zijn eenvoud en effectiviteit. Ondanks recente verbeteringen, kampt LoRA nog steeds met een fundamentele beperking: overfitting wanneer het bottleneck wordt verbreed. Het presteert het beste bij ranks 32-64, maar de nauwkeurigheid stagneert of daalt bij hogere ranks, en blijft nog steeds achter bij de prestaties van volledige fine-tuning (FFT). Wij identificeren de oorzaak als LoRA's structurele bottleneck, die gradientverstrengeling introduceert bij de niet-gerelateerde invoerkanalen en de gradientpropagatie vervormt. Om dit aan te pakken, introduceren we een nieuwe structuur, Granular Low-Rank Adaptation (GraLoRA), die gewichtsmatrices opdeelt in subblokken, elk met zijn eigen low-rank adapter. Met verwaarloosbare reken- of opslagkosten overkomt GraLoRA de beperkingen van LoRA, verhoogt het effectief de representatiecapaciteit en benadert het het gedrag van FFT beter. Experimenten op benchmarks voor codegeneratie en gezond verstand redeneren tonen aan dat GraLoRA consistent beter presteert dan LoRA en andere baselines, met een absolute winst tot +8,5% in Pass@1 op HumanEval+. Deze verbeteringen gelden voor verschillende modelgroottes en rankinstellingen, waardoor GraLoRA een schaalbare en robuuste oplossing is voor PEFT. Code, data en scripts zijn beschikbaar op https://github.com/SqueezeBits/GraLoRA.git.
Bedrijfsklanten nemen in toenemende mate Large Language Models (LLMs) in gebruik voor kritieke communicatietaken, zoals het opstellen van e-mails, het formuleren van verkoopargumenten en het schrijven van informele berichten. Het inzetten van dergelijke modellen in verschillende regio's vereist dat ze diverse culturele en taalkundige contexten begrijpen en veilige en respectvolle reacties genereren. Voor zakelijke toepassingen is het van cruciaal belang om reputatierisico's te beperken, vertrouwen te behouden en naleving te waarborgen door effectief onveilig of aanstootgevend taalgebruik te identificeren en af te handelen. Om dit aan te pakken, introduceren we SweEval, een benchmark die realistische scenario's simuleert met variaties in toon (positief of negatief) en context (formeel of informeel). De prompts geven expliciet de opdracht aan het model om specifieke scheldwoorden op te nemen bij het voltooien van de taak. Deze benchmark evalueert of LLMs dergelijke ongepaste instructies opvolgen of weerstaan en beoordeelt hun afstemming op ethische kaders, culturele nuances en taalbegrip. Om onderzoek naar het bouwen van ethisch afgestemde AI-systemen voor zakelijk gebruik en daarbuiten te bevorderen, maken we de dataset en code beschikbaar: https://github.com/amitbcp/multilingual_profanity.
Het bevorderen van coderedenering in grote taalmodellen (LLMs) wordt fundamenteel beperkt door de schaarste aan datasets met hoge moeilijkheidsgraad, vooral die met verifieerbare invoer-uitvoer testgevallen die nodig zijn voor rigoureuze validatie van oplossingen op grote schaal. Wij introduceren rStar-Coder, dat de coderingsredeneercapaciteiten van LLMs aanzienlijk verbetert door het construeren van een grootschalige, geverifieerde dataset van 418K wedstrijdniveau codeproblemen, 580K lange-redenering oplossingen samen met rijke testgevallen van variërende moeilijkheid. Dit wordt bereikt door drie kernbijdragen: (1) we selecteren competitieve programmeercodeproblemen en orakeloplossingen om nieuwe, oplosbare problemen te synthetiseren; (2) we introduceren een betrouwbare invoer-uitvoer testgeval synthesepijplijn die de generatie ontkoppelt in een driedelige invoergeneratiemethode en een wederzijdse verificatiemechanisme voor effectieve uitvoerlabeling; (3) we verrijken problemen met hoogwaardige, testgeval-geverifieerde lange-redenering oplossingen. Uitgebreide experimenten op Qwen-modellen (1.5B-14B) over verschillende coderingsredeneerbenchmarks tonen de superioriteit van de rStar-Coder dataset aan, waarbij toonaangevende prestaties worden bereikt die vergelijkbaar zijn met frontier redenering LLMs met veel kleinere modelgroottes. Op LiveCodeBench verbetert rStar-Coder Qwen2.5-7B van 17.4% naar een indrukwekkende 57.3%, en Qwen2.5-14B van 23.3% naar 62.5%, waarmee o3-mini (laag) met 3.1% wordt overtroffen. Op de meer uitdagende USA Computing Olympiad bereikt ons 7B-model een gemiddelde pass@1 nauwkeurigheid van 16.15%, waarmee het frontier-level QWQ-32B overtreft. Code en de dataset zullen worden vrijgegeven op https://github.com/microsoft/rStar.
Recente vooruitgang in CoT-redenering en RL-posttraining heeft naar verluidt de videoredeneervaardigheden van MLLM's verbeterd. Deze ontwikkeling roept vanzelfsprekend de vraag op: kunnen deze modellen complexe videoredenering uitvoeren op een manier die vergelijkbaar is met menselijke experts? Bestaande videobenchmarks evalueren echter voornamelijk visuele waarneming en grondingsvaardigheden, met vragen die kunnen worden beantwoord op basis van expliciete prompts of geïsoleerde visuele aanwijzingen. Dergelijke benchmarks vangen niet volledig de complexiteit van redenering in de echte wereld, waar mensen actief moeten zoeken naar, integreren en analyseren van meerdere aanwijzingen voordat ze tot een conclusie komen. Om dit probleem aan te pakken, presenteren we Video-Holmes, een benchmark geïnspireerd op het redeneerproces van Sherlock Holmes, ontworpen om de complexe videoredeneervaardigheden van MLLM's te evalueren. Video-Holmes bestaat uit 1.837 vragen afgeleid van 270 handmatig geannoteerde suspensekorte films, die zeven zorgvuldig ontworpen taken omvatten. Elke taak wordt geconstrueerd door eerst sleutelgebeurtenissen en causale relaties binnen films te identificeren, en vervolgens vragen te ontwerpen die vereisen dat modellen actief meerdere relevante visuele aanwijzingen, verspreid over verschillende videosegmenten, lokaliseren en verbinden. Onze uitgebreide evaluatie van state-of-the-art MLLM's onthult dat, hoewel deze modellen over het algemeen uitblinken in visuele waarneming, ze aanzienlijke moeilijkheden ondervinden bij het integreren van informatie en vaak kritieke aanwijzingen missen. Het best presterende model, Gemini-2.5-Pro, behaalt bijvoorbeeld een nauwkeurigheid van slechts 45%, waarbij de meeste modellen onder de 40% scoren. Wij streven ernaar dat Video-Holmes kan dienen als een "Holmes-test" voor multimodale redenering, waardoor modellen worden gemotiveerd om meer als mensen te redeneren en de voortdurende uitdagingen op dit gebied worden benadrukt. De benchmark is vrijgegeven op https://github.com/TencentARC/Video-Holmes.
De recente paradigmaverschuiving naar het trainen van grote taalmodelen (LLMs) met behulp van DeepSeek-R1-Zero-stijl reinforcement learning (RL) op verifieerbare beloningen heeft indrukwekkende vooruitgang geboekt in code- en wiskundig redeneren. Deze methodologie is echter beperkt tot taken waarbij op regels gebaseerde antwoordverificatie mogelijk is en breidt zich niet van nature uit naar real-world domeinen zoals chemie, gezondheidszorg, techniek, recht, biologie, bedrijfskunde en economie. Huidige praktische oplossingen gebruiken een extra LLM als modelgebaseerde verifier; dit introduceert echter problemen zoals afhankelijkheid van een sterke verifier-LLM, gevoeligheid voor reward hacking en de praktische last van het in het geheugen houden van het verifiermodel tijdens de training. Om dit aan te pakken en DeepSeek-R1-Zero-stijl training uit te breiden naar algemene redeneerdomeinen, stellen we een verifier-vrije methode (VeriFree) voor die antwoordverificatie omzeilt en in plaats daarvan RL gebruikt om direct de waarschijnlijkheid van het genereren van het referentieantwoord te maximaliseren. We vergelijken VeriFree met verifier-gebaseerde methoden en tonen aan dat, naast de aanzienlijke praktische voordelen en verminderde rekenvereisten, VeriFree verifier-gebaseerde methoden evenaart en zelfs overtreft in uitgebreide evaluaties over MMLU-Pro, GPQA, SuperGPQA en wiskundige benchmarks. Bovendien bieden we inzichten in deze methode vanuit meerdere perspectieven: als een elegante integratie van het trainen van zowel het beleid als de impliciete verifier in een verenigd model, en als een variatie-optimalisatiebenadering. Code is beschikbaar op https://github.com/sail-sg/VeriFree.
Menselijke sociale interacties zijn afhankelijk van het vermogen om de onuitgesproken intenties, emoties en overtuigingen van anderen te begrijpen - een cognitieve vaardigheid die geworteld is in het psychologische concept van Theory of Mind (ToM). Hoewel grote taalmodellen (LLMs) uitblinken in taken die semantisch begrip vereisen, hebben ze moeite met de ambiguïteit en contextuele nuances die inherent zijn aan menselijke communicatie. Om deze kloof te overbruggen, introduceren we MetaMind, een multi-agent framework geïnspireerd door psychologische theorieën over metacognitie, ontworpen om mensachtig sociaal redeneren na te bootsen. MetaMind verdeelt sociaal begrip in drie samenwerkende fasen: (1) een Theory-of-Mind Agent genereert hypothesen over de mentale toestand van de gebruiker (bijv. intentie, emotie), (2) een Domein Agent verfijnt deze hypothesen met behulp van culturele normen en ethische beperkingen, en (3) een Response Agent genereert contextueel passende reacties terwijl deze de afstemming met de afgeleide intentie valideert. Ons framework behaalt state-of-the-art prestaties op drie uitdagende benchmarks, met een verbetering van 35,7% in real-world sociale scenario's en een winst van 6,2% in ToM-redenering. Opmerkelijk is dat het LLMs voor het eerst in staat stelt om menselijk niveau te bereiken in cruciale ToM-taken. Ablatiestudies bevestigen de noodzaak van alle componenten, wat het vermogen van het framework aantoont om contextuele plausibiliteit, sociale geschiktheid en gebruikersaanpassing in balans te brengen. Dit werk brengt AI-systemen dichter bij mensachtige sociale intelligentie, met toepassingen in empathische dialoog en cultureel gevoelige interacties. Code is beschikbaar op https://github.com/XMZhangAI/MetaMind.
Video large language models (video LLMs) blinken uit in videobegrip, maar kampen met aanzienlijke computationele inefficiëntie door overbodige videotokens. Bestaande methoden voor token pruning bieden oplossingen. Echter, benaderingen die binnen de LLM werken (inner-LLM pruning), zoals FastV, veroorzaken intrinsieke computationele overhead in ondiepe lagen. Daarentegen richten methoden die token pruning uitvoeren vóór de LLM (outer-LLM pruning) zich voornamelijk op ruimtelijke redundantie binnen individuele frames of beperkte temporele vensters, waarbij de cruciale globale temporele dynamiek en correlaties over langere videosequenties worden verwaarloosd. Dit leidt tot suboptimale spatio-temporele reductie en benut de videocompressie niet volledig. Cruciaal is dat het synergetische potentieel en de wederzijdse invloed van het combineren van deze strategieën onontgonnen blijven. Om redundantie verder te verminderen, introduceren we HoliTom, een nieuw trainingsvrij holistisch token merging-framework. HoliTom past outer-LLM pruning toe via globale redundantiebewuste temporele segmentatie, gevolgd door ruimtelijk-temporele merging om visuele tokens met meer dan 90% te verminderen, waardoor de computationele belasting van de LLM aanzienlijk wordt verlicht. Als aanvulling hierop introduceren we een robuuste inner-LLM token similarity-based merging-benadering, ontworpen voor superieure prestaties en compatibiliteit met outer-LLM pruning. Evaluaties tonen de veelbelovende efficiëntie-prestatieverhouding van onze methode op LLaVA-OneVision-7B, waarbij de computationele kosten worden teruggebracht tot 6,9% van de FLOPs terwijl 99,1% van de oorspronkelijke prestaties behouden blijft. Bovendien bereiken we een 2,28x reductie in Time-To-First-Token (TTFT) en een 1,32x versnelling in decodeerdoorvoer, wat de praktische voordelen van onze geïntegreerde pruning-benadering voor efficiënte video LLM-inferentie benadrukt.
Het animeren van afbeeldingen met interactieve bewegingscontrole heeft populariteit gewonnen voor beeld-naar-video (I2V) generatie. Moderne benaderingen vertrouwen doorgaans op grote Gaussische kernen om bewegingsbanen als voorwaarde uit te breiden zonder het bewegingsgebied expliciet te definiëren, wat leidt tot grove bewegingscontrole en het niet kunnen onderscheiden van object- en camerabewegingen. Om deze problemen te verlichten, presenteren we MotionPro, een precieze bewegingscontroller die op een nieuwe manier gebruikmaakt van regiogewijs trajecten en bewegingsmaskers om respectievelijk fijnmazige bewegingssynthese te reguleren en de doelbewegingscategorie (d.w.z. object- of camerabeweging) te identificeren. Technisch gezien schat MotionPro eerst de stroomkaarten van elke trainingsvideo in via een trackingmodel en bemonstert vervolgens de regiogewijs trajecten om een inferentiescenario te simuleren. In plaats van de stroom uit te breiden via grote Gaussische kernen, maakt onze regiogewijs trajectbenadering preciezere controle mogelijk door direct gebruik te maken van trajecten binnen lokale regio's, waardoor fijnmazige bewegingen effectief worden gekarakteriseerd. Een bewegingsmasker wordt gelijktijdig afgeleid van de voorspelde stroomkaarten om de holistische bewegingsdynamiek van de bewegingsregio's vast te leggen. Om natuurlijke bewegingscontrole na te streven, versterkt MotionPro verder de videoruisonderdrukking door zowel regiogewijs trajecten als bewegingsmaskers te integreren via featuremodulatie. Opmerkelijker is dat we zorgvuldig een benchmark hebben geconstrueerd, namelijk MC-Bench, met 1.1K door gebruikers geannoteerde afbeelding-trajectparen, voor de evaluatie van zowel fijnmazige als objectniveau I2V-bewegingscontrole. Uitgebreide experimenten uitgevoerd op WebVid-10M en MC-Bench demonstreren de effectiviteit van MotionPro. Raadpleeg onze projectpagina voor meer resultaten: https://zhw-zhang.github.io/MotionPro-page/.
Het verbeteren van prestaties op complexe taken en het mogelijk maken van interpreteerbare besluitvorming in grote taalmodellen (LLMs), met name voor klinische toepassingen, vereist effectief redeneervermogen. Dit blijft echter een uitdaging zonder supervised fine-tuning (SFT) op kostbare chain-of-thought (CoT) data die is gedistilleerd uit gesloten bronmodellen (bijv. GPT-4o). In dit werk presenteren we AlphaMed, het eerste medische LLM dat aantoont dat redeneervermogen puur kan ontstaan door reinforcement learning (RL), met behulp van minimalistische regelgebaseerde beloningen op openbare multiple-choice QA-datasets, zonder te vertrouwen op SFT of gedistilleerde CoT-data. AlphaMed behaalt state-of-the-art resultaten op zes medische QA-benchmarks en overtreft modellen die zijn getraind met conventionele SFT+RL-pipelines. Op uitdagende benchmarks (bijv. MedXpert) overtreft AlphaMed zelfs grotere of gesloten bronmodellen zoals DeepSeek-V3-671B en Claude-3.5-Sonnet. Om de factoren achter dit succes te begrijpen, voeren we een uitgebreide data-gecentreerde analyse uit, geleid door drie vragen: (i) Kan minimalistische regelgebaseerde RL redeneren stimuleren zonder gedistilleerde CoT-supervisie? (ii) Hoe beïnvloeden datasetkwantiteit en -diversiteit het redeneervermogen? (iii) Hoe vormt vraagmoeilijkheid het ontstaan en de generalisatie van redeneervermogen? Onze bevindingen tonen aan dat de informatieve waarde van de dataset een cruciale drijver is van redeneerprestaties, en dat minimalistische RL op informatieve multiple-choice QA-data effectief is in het induceren van redeneervermogen zonder CoT-supervisie. We observeren ook uiteenlopende trends tussen benchmarks, wat de beperkingen in de huidige evaluatie benadrukt en de noodzaak voor meer uitdagende, op redeneren gerichte medische QA-benchmarks onderstreept.
Recente vooruitgang in generatieve modellen heeft hoogwaardige tekst-naar-beeldgeneratie mogelijk gemaakt. Open-source beeldbewerkingsmodellen blijven echter achter bij hun propriëtaire tegenhangers, voornamelijk vanwege beperkte hoogwaardige data en onvoldoende benchmarks. Om deze beperkingen te overwinnen, introduceren we ImgEdit, een grootschalige, hoogwaardige beeldbewerkingsdataset bestaande uit 1,2 miljoen zorgvuldig samengestelde bewerkingsparen, die zowel nieuwe en complexe eenmalige bewerkingen als uitdagende meerfasige taken bevatten. Om de datakwaliteit te waarborgen, gebruiken we een meerfasige pijplijn die een state-of-the-art vision-language model, een detectiemodel, een segmentatiemodel, samen met taakspecifieke inpainting-procedures en strikte nabewerking integreert. ImgEdit overtreft bestaande datasets in zowel taakvernieuwing als datakwaliteit. Met behulp van ImgEdit trainen we ImgEdit-E1, een bewerkingsmodel dat een Vision Language Model gebruikt om het referentiebeeld en de bewerkingsprompt te verwerken, dat bestaande open-source modellen op meerdere taken overtreft, wat de waarde van ImgEdit en het modelontwerp benadrukt. Voor een uitgebreide evaluatie introduceren we ImgEdit-Bench, een benchmark ontworpen om beeldbewerkingsprestaties te evalueren op het gebied van instructievolging, bewerkingskwaliteit en detailbehoud. Het omvat een basistestsuite, een uitdagende eenmalige suite en een toegewijde meerfasige suite. We evalueren zowel open-source als propriëtaire modellen, evenals ImgEdit-E1, en bieden diepgaande analyse en praktische inzichten in het huidige gedrag van beeldbewerkingsmodellen. De brondata zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/ImgEdit.
In veel real-world toepassingen komen geïmplementeerde modellen inputs tegen die verschillen van de gegevens die tijdens de training zijn gezien. Out-of-distribution detectie identificeert of een input afkomstig is van een onbekende verdeling, terwijl open-world herkenning dergelijke inputs markeert om ervoor te zorgen dat het systeem robuust blijft naarmate steeds nieuwe, voorheen onbekende categorieën verschijnen en moeten worden aangepakt zonder hertraining. Foundation- en vision-language modellen zijn vooraf getraind op grote en diverse datasets met de verwachting van brede generalisatie over domeinen, inclusief medische beeldvorming. Het benchmarken van deze modellen op test sets met slechts enkele veelvoorkomende uitbijtertypen verkleint de evaluatie echter stilzwijgend terug tot een gesloten-set probleem, waardoor falen op zeldzame of echt nieuwe aandoeningen die in klinisch gebruik worden aangetroffen, wordt gemaskeerd. Wij presenteren daarom NOVA, een uitdagende, real-life evaluatie-only benchmark van 900 hersen-MRI-scans die 281 zeldzame pathologieën en heterogene acquisitieprotocollen omvatten. Elk geval bevat uitgebreide klinische narratieven en dubbelblinde expertannotaties in de vorm van bounding boxes. Samen maken deze een gezamenlijke beoordeling mogelijk van anomalielokalisatie, visuele beschrijving en diagnostische redenering. Omdat NOVA nooit wordt gebruikt voor training, dient het als een extreme stresstest voor out-of-distribution generalisatie: modellen moeten een distributiekloof overbruggen zowel in het uiterlijk van de samples als in de semantische ruimte. Baseline-resultaten met toonaangevende vision-language modellen (GPT-4o, Gemini 2.0 Flash en Qwen2.5-VL-72B) laten aanzienlijke prestatieverliezen zien over alle taken, waarmee NOVA een rigoureus testbed wordt voor het bevorderen van modellen die echt onbekende anomalieën kunnen detecteren, lokaliseren en begrijpen.
Meertalige uitlijning is een effectief en representatief paradigma om de meertalige capaciteiten van grote taalmodellen (LLMs) te verbeteren, waarbij de capaciteiten van talen met veel bronnen worden overgedragen naar talen met weinig bronnen. Tegelijkertijd onthullen sommige onderzoeken naar taal-specifieke neuronen dat er taal-specifieke neuronen zijn die selectief worden geactiveerd in LLMs bij het verwerken van verschillende talen. Dit biedt een nieuw perspectief om de mechanismen van LLMs in meertalige scenario's specifieker te analyseren en te begrijpen. In dit werk stellen we een nieuw, fijnmaziger algoritme voor neuronidentificatie voor, dat taalneuronen (inclusief taal-specifieke neuronen en taal-gerelateerde neuronen) en taal-onafhankelijke neuronen detecteert. Verder verdelen we, gebaseerd op de distributiekenmerken van verschillende typen neuronen, het interne proces van LLMs voor meertalige inferentie in vier delen: (1) meertalig begrip, (2) gedeelde semantische ruimte redenering, (3) meertalige uitvoerruimte transformatie, en (4) vocabulaire ruimte uitvoer. Daarnaast analyseren we systematisch de modellen voor en na uitlijning, met een focus op verschillende typen neuronen. We analyseren ook het fenomeen van "Spontane Meertalige Uitlijning". Over het geheel genomen voert ons werk een uitgebreid onderzoek uit gebaseerd op verschillende typen neuronen, wat empirische resultaten en waardevolle inzichten biedt voor een beter begrip van meertalige uitlijning en de meertalige capaciteiten van LLMs.
We introduceren FinTagging, de eerste volledige, tabelbewuste XBRL-benchmark die is ontworpen om de gestructureerde informatie-extractie en semantische uitlijningscapaciteiten van grote taalmodellen (LLMs) te evalueren in de context van XBRL-gebaseerde financiële rapportage. In tegenstelling tot eerdere benchmarks die XBRL-tagging oversimplificeren als platte multiclass-classificatie en zich uitsluitend richten op narratieve tekst, ontleedt FinTagging het XBRL-taggingprobleem in twee subtaken: FinNI voor financiële entiteitsextractie en FinCL voor taxonomiegestuurde conceptuitlijning. Het vereist dat modellen feiten gezamenlijk extraheren en uitlijnen met de volledige 10k+ US-GAAP-taxonomie, zowel in ongestructureerde tekst als gestructureerde tabellen, waardoor een realistische, fijnmazige evaluatie mogelijk wordt. We beoordelen een diverse set LLMs onder zero-shot-instellingen, waarbij we hun prestaties systematisch analyseren op beide subtaken en de algehele taggingnauwkeurigheid. Onze resultaten laten zien dat, hoewel LLMs sterke generalisatie vertonen in informatie-extractie, ze moeite hebben met fijnmazige conceptuitlijning, met name bij het onderscheiden van nauw verwante taxonomievermeldingen. Deze bevindingen benadrukken de beperkingen van bestaande LLMs in het volledig automatiseren van XBRL-tagging en onderstrepen de noodzaak van verbeterde semantische redenering en schema-bewuste modellering om te voldoen aan de eisen van nauwkeurige financiële openbaarmaking. Code is beschikbaar in onze GitHub-repository en data is te vinden in onze Hugging Face-repository.
Beheersbaarheid, temporele coherentie en detailsynthese blijven de meest kritieke uitdagingen in videogeneratie. In dit artikel richten we ons op een veelgebruikte maar onderbelichte cinematische techniek, bekend als Frame In en Frame Out. Specifiek, uitgaande van beeld-naar-video-generatie, kunnen gebruikers de objecten in het beeld besturen om op natuurlijke wijze de scène te verlaten of nieuwe identiteitsreferenties te introduceren om de scène te betreden, geleid door een door de gebruiker gespecificeerde bewegingsbaan. Om deze taak te ondersteunen, introduceren we een nieuwe dataset die semi-automatisch is samengesteld, een uitgebreid evaluatieprotocol gericht op deze setting, en een efficiënte identiteitsbehoudende beweging-beheersbare video Diffusion Transformer-architectuur. Onze evaluatie toont aan dat onze voorgestelde aanpak de bestaande referentiemethoden aanzienlijk overtreft.
Dit artikel presenteert DetailFlow, een grof-naar-fijn 1D autoregressieve (AR) beeldgeneratiemethode die beelden modelleert via een nieuwe next-detail voorspellingsstrategie. Door een resolutiebewuste tokensequentie te leren die wordt gesuperviseerd met progressief gedegradeerde beelden, maakt DetailFlow het mogelijk dat het generatieproces start vanuit de globale structuur en geleidelijk details verfijnt. Deze grof-naar-fijn 1D tokensequentie sluit goed aan bij het autoregressieve inferentiemechanisme, wat een natuurlijkere en efficiëntere manier biedt voor het AR-model om complexe visuele inhoud te genereren. Ons compacte 1D AR-model bereikt hoogwaardige beeldsynthese met aanzienlijk minder tokens dan eerdere benaderingen, zoals VAR/VQGAN. We stellen verder een parallel inferentiemechanisme voor met zelfcorrectie dat de generatiesnelheid met ongeveer 8x versnelt, terwijl het de accumulatiesamplingerreur vermindert die inherent is aan teacher-forcing supervisie. Op de ImageNet 256x256 benchmark bereikt onze methode een gFID van 2.96 met 128 tokens, wat beter presteert dan VAR (3.3 FID) en FlexVAR (3.05 FID), die beide 680 tokens nodig hebben in hun AR-modellen. Bovendien, dankzij het aanzienlijk verminderde aantal tokens en het parallelle inferentiemechanisme, loopt onze methode bijna 2x sneller in inferentiesnelheid vergeleken met VAR en FlexVAR. Uitgebreide experimentele resultaten tonen de superieure generatiekwaliteit en efficiëntie van DetailFlow aan in vergelijking met bestaande state-of-the-art methoden.
Actief zien, ook wel bekend als actieve perceptie, verwijst naar het proces van actief selecteren waar en hoe te kijken om taakrelevante informatie te verzamelen. Het is een cruciaal onderdeel van efficiënte perceptie en besluitvorming bij mensen en geavanceerde belichaamde agents. Recentelijk heeft het gebruik van Multimodale Grote Taalmodellen (MLLMs) als centrale plannings- en besluitvormingsmodules in robotsystemen uitgebreide aandacht gekregen. Echter, ondanks het belang van actieve perceptie in belichaamde intelligentie, is er weinig tot geen onderzoek gedaan naar hoe MLLMs kunnen worden uitgerust met of actieve perceptievaardigheden kunnen leren. In dit artikel geven we eerst een systematische definitie van MLLM-gebaseerde actieve perceptietaken. We wijzen erop dat de recent voorgestelde zoom-in zoekstrategie van het GPT-o3 model kan worden beschouwd als een speciaal geval van actieve perceptie; het lijdt echter nog steeds aan lage zoekefficiëntie en onnauwkeurige regioselectie. Om deze problemen aan te pakken, stellen we ACTIVE-O3 voor, een puur op reinforcement learning gebaseerd trainingsframework gebouwd bovenop GRPO, ontworpen om MLLMs uit te rusten met actieve perceptievaardigheden. We stellen verder een uitgebreide benchmark suite op om ACTIVE-O3 te evalueren over zowel algemene open-wereldtaken, zoals kleine-object- en dichte objectverankering, als domeinspecifieke scenario's, waaronder kleine objectdetectie in remote sensing en autonoom rijden, evenals fijnmazige interactieve segmentatie. Daarnaast toont ACTIVE-O3 ook sterke zero-shot redeneervaardigheden op de V* Benchmark, zonder te vertrouwen op expliciete redeneergegevens. We hopen dat ons werk een eenvoudige codebase en evaluatieprotocol kan bieden om toekomstig onderzoek naar actieve perceptie in MLLMs te vergemakkelijken.
Precieze controle over de generatie van taalmodeluitvoer is essentieel om zowel veiligheid als betrouwbaarheid te waarborgen. Hoewel prompt engineering en sturing vaak worden gebruikt om in te grijpen in modelgedrag, resulteert het enorme aantal parameters in modellen vaak in sterk verweven interne representaties. Deze onderlinge afhankelijkheid kan de controleprecisie beperken en soms leiden tot onbedoelde neveneffecten. Recent onderzoek heeft het gebruik van sparse autoencoders (SAE) verkend om kennis in hoogdimensionale ruimten te ontwarren voor sturing. Deze toepassingen zijn echter beperkt gebleven tot speeltaken vanwege de niet-triviale uitdaging om atomische kenniscomponenten te lokaliseren. In dit artikel stellen we Steering Target Atoms (STA) voor, een nieuwe methode die ontwarde kenniscomponenten isoleert en manipuleert om de veiligheid te verbeteren. Uitgebreide experimenten demonstreren de effectiviteit van onze aanpak. Verdere analyse toont aan dat sturing superieure robuustheid en flexibiliteit vertoont, met name in adversariële scenario's. We passen de sturingsstrategie ook toe op het grote redeneermodel, wat de effectiviteit ervan bevestigt in precieze redeneercontrole.
Vision-language modellen (VLMs) hebben opmerkelijke capaciteiten getoond in het begrijpen en redeneren over visuele inhoud, maar aanzienlijke uitdagingen blijven bestaan bij taken die inzicht en ruimtelijk redeneren vanuit verschillende gezichtspunten vereisen. We identificeren een kritieke beperking: huidige VLMs blinken voornamelijk uit in egocentrisch ruimtelijk redeneren (vanuit het perspectief van de camera), maar slagen er niet in om te generaliseren naar allocentrische gezichtspunten wanneer ze het ruimtelijke referentiekader van een andere entiteit moeten aannemen. We introduceren ViewSpatial-Bench, de eerste uitgebreide benchmark die specifiek is ontworpen voor de evaluatie van ruimtelijke lokalisatieherkenning vanuit meerdere gezichtspunten, ondersteund door een geautomatiseerde 3D-annotatiepijplijn die precieze richtingslabels genereert. Een uitgebreide evaluatie van diverse VLMs op ViewSpatial-Bench onthult een aanzienlijk prestatieverschil: modellen tonen redelijke prestaties bij taken vanuit cameraperspectief, maar vertonen verminderde nauwkeurigheid bij het redeneren vanuit een menselijk gezichtspunt. Door VLMs te fine-tunen op onze multi-perspectieve ruimtelijke dataset, behalen we een algehele prestatieverbetering van 46,24% over verschillende taken, wat de effectiviteit van onze aanpak benadrukt. Ons werk stelt een cruciale benchmark vast voor ruimtelijke intelligentie in belichaamde AI-systemen en levert empirisch bewijs dat het modelleren van 3D-ruimtelijke relaties de corresponderende ruimtelijke begripscapaciteiten van VLMs verbetert.
Recente studies tonen aan dat de redeneervaardigheden van Large Language Models (LLMs) kunnen worden verbeterd door Reinforcement Learning (RL) toe te passen op vraag-antwoordtaken (QA) in domeinen zoals wiskunde en programmeren. Met een lange contextlengte kunnen LLMs leren om zoekgedrag uit te voeren, zoals blijkt uit het zelfcorrectiegedrag dat is waargenomen in DeepSeek R1. Dit zoekgedrag is echter vaak onnauwkeurig en vertrouwt op weinig zekerheid, wat resulteert in lange, redundante antwoorden en tekortkomingen in intuïtie en verificatie blootlegt. Geïnspireerd door de Dual Process Theory in de psychologie introduceren we een eenvoudige aanpassing aan de QA-taak die vier fasen omvat: Snel Denken, waarbij het LLM binnen een strikt tokenbudget moet antwoorden; Verificatie, waarbij het model zijn initiële antwoord evalueert; Langzaam Denken, waarbij het het initiële antwoord met meer bedachtzaamheid verfijnt; en Samenvatting, waarbij het de verfijning uit de vorige fase destilleert tot precieze stappen. Onze voorgestelde taak verbetert de gemiddelde nauwkeurigheid van 24,9% naar 27,9% voor Qwen2.5-1.5B, en van 45,9% naar 49,8% voor DeepSeek-R1-Qwen-1.5B. Opmerkelijk is dat voor Qwen2.5-1.5B de Snel Denken-modus alleen al een nauwkeurigheid van 26,8% bereikt met minder dan 1000 tokens, wat aanzienlijke efficiëntiewinsten in inferentie aantoont. Deze bevindingen suggereren dat intuïtie en beredeneerd denken afzonderlijke, complementaire systemen zijn die baat hebben bij gerichte training.
Scalable Vector Graphics (SVG) bieden een krachtig formaat voor het representeren van visuele ontwerpen als interpreteerbare code. Recente vooruitgang in vision-language modellen (VLMs) heeft hoogwaardige SVG-generatie mogelijk gemaakt door het probleem te formuleren als een codegeneratietaak en gebruik te maken van grootschalige voorafgaande training. VLMs zijn bijzonder geschikt voor deze taak omdat ze zowel globale semantiek als fijnmazige visuele patronen vastleggen, terwijl ze kennis overdragen tussen visie, natuurlijke taal en code-domeinen. Bestaande VLM-benaderingen hebben echter vaak moeite om getrouwe en efficiënte SVG's te produceren omdat ze tijdens de training nooit de gerenderde afbeeldingen observeren. Hoewel differentieerbaar renderen voor autoregressieve SVG-codegeneratie nog niet beschikbaar is, kunnen gerenderde uitvoer nog steeds worden vergeleken met de originele invoer, wat evaluatieve feedback mogelijk maakt die geschikt is voor reinforcement learning (RL). We introduceren RLRF (Reinforcement Learning from Rendering Feedback), een RL-methode die SVG-generatie in autoregressieve VLMs verbetert door feedback te gebruiken van gerenderde SVG-uitvoer. Gegeven een invoerafbeelding genereert het model SVG-roll-outs die worden gerenderd en vergeleken met de originele afbeelding om een beloning te berekenen. Deze visuele getrouwheidsfeedback leidt het model naar het produceren van nauwkeurigere, efficiëntere en semantisch coherentere SVG's. RLRF presteert aanzienlijk beter dan supervised fine-tuning, lost veelvoorkomende foutmodes op en maakt precieze, hoogwaardige SVG-generatie mogelijk met een sterk structureel begrip en generalisatie.
We introduceren VisTA, een nieuw reinforcement learning-framework dat visuele agents in staat stelt om dynamisch tools te verkennen, te selecteren en te combineren uit een diverse bibliotheek op basis van empirische prestaties. Bestaande methoden voor tool-augmented reasoning vertrouwen ofwel op training-vrije prompting of op grootschalige fine-tuning; beide ontberen actieve toolverkenning en gaan doorgaans uit van beperkte tooldiversiteit, en fine-tuning-methoden vereisen bovendien uitgebreide menselijke supervisie. In tegenstelling hiermee maakt VisTA gebruik van end-to-end reinforcement learning om iteratief verfijnde, queryspecifieke toolselectiestrategieën te ontwikkelen, waarbij taakresultaten als feedbacksignalen worden gebruikt. Via Group Relative Policy Optimization (GRPO) stelt ons framework een agent in staat om effectieve toolselectiepaden autonoom te ontdekken zonder expliciete redeneersupervisie nodig te hebben. Experimenten op de ChartQA, Geometry3K en BlindTest benchmarks tonen aan dat VisTA aanzienlijke prestatieverbeteringen behaalt ten opzichte van training-vrije baselines, vooral bij out-of-distribution voorbeelden. Deze resultaten onderstrepen het vermogen van VisTA om generalisatie te verbeteren, diverse tools adaptief te benutten en de weg te effenen voor flexibele, ervaringsgedreven visuele redeneersystemen.
Het automatisch evalueren van multimodale generatie vormt een aanzienlijke uitdaging, aangezien geautomatiseerde metrieken vaak moeite hebben om betrouwbaar overeen te stemmen met menselijke evaluatie, vooral voor complexe taken die meerdere modaliteiten omvatten. Om dit aan te pakken, presenteren we MMMG, een uitgebreide en op menselijke evaluatie afgestemde benchmark voor multimodale generatie over 4 modaliteitscombinaties (beeld, audio, interleaved tekst en beeld, interleaved tekst en audio), met een focus op taken die aanzienlijke uitdagingen vormen voor generatiemodellen, terwijl toch betrouwbare automatische evaluatie mogelijk wordt gemaakt door een combinatie van modellen en programma's. MMMG omvat 49 taken (waarvan 29 nieuw ontwikkelde), elk met een zorgvuldig ontworpen evaluatiepijplijn, en 937 instructies om systematisch redeneren, beheersbaarheid en andere belangrijke capaciteiten van multimodale generatiemodellen te beoordelen. Uitgebreide validatie toont aan dat MMMG sterk overeenstemt met menselijke evaluatie, met een gemiddelde overeenstemming van 94,3%. Benchmarkresultaten van 24 multimodale generatiemodellen onthullen dat hoewel het state-of-the-art model, GPT Image, een nauwkeurigheid van 78,3% behaalt voor beeldgeneratie, het tekortschiet op het gebied van multimodaal redeneren en interleaved generatie. Bovendien suggereren de resultaten aanzienlijke ruimte voor verbetering in audiogeneratie, wat een belangrijke richting voor toekomstig onderzoek benadrukt.
Multimodale grote taalmodellen (MLLMs) blijven kwetsbaar voor overdraagbare adversariële voorbeelden. Hoewel bestaande methoden doorgaans gerichte aanvallen bereiken door globale kenmerken—zoals het [CLS]-token van CLIP—tussen adversariële en doelmonsters uit te lijnen, negeren ze vaak de rijke lokale informatie die gecodeerd is in patch-tokens. Dit leidt tot suboptimale uitlijning en beperkte overdraagbaarheid, vooral voor closed-source modellen. Om deze beperking aan te pakken, stellen we een gerichte overdraagbare adversariële aanvalsmethode voor, gebaseerd op optimale kenmerkuitlijning, genaamd FOA-Attack, om de adversariële overdrachtbaarheid te verbeteren. Specifiek introduceren we op globaal niveau een globaal kenmerkverlies gebaseerd op cosinusgelijkenis om de grofkorrelige kenmerken van adversariële monsters uit te lijnen met die van doelmonsters. Op lokaal niveau, gezien de rijke lokale representaties binnen Transformers, maken we gebruik van clusteringtechnieken om compacte lokale patronen te extraheren om redundante lokale kenmerken te verminderen. Vervolgens formuleren we lokale kenmerkuitlijning tussen adversariële en doelmonsters als een optimaal transport (OT)-probleem en stellen we een lokaal clustering optimaal transportverlies voor om fijnkorrelige kenmerkuitlijning te verfijnen. Daarnaast stellen we een dynamische ensemblemodelwegingstrategie voor om adaptief de invloed van meerdere modellen tijdens de generatie van adversariële voorbeelden in evenwicht te brengen, waardoor de overdraagbaarheid verder wordt verbeterd. Uitgebreide experimenten over verschillende modellen demonstreren de superioriteit van de voorgestelde methode, die state-of-the-art methoden overtreft, vooral bij het overdragen naar closed-source MLLMs. De code is vrijgegeven op https://github.com/jiaxiaojunQAQ/FOA-Attack.
We presenteren SeePhys, een grootschalige multimodale benchmark voor redeneren met grote taalmodellen, gebaseerd op natuurkundevragen variërend van middelbare school tot PhD-kwalificatie-examens. De benchmark beslaat 7 fundamentele domeinen binnen de natuurkundediscipline en omvat 21 categorieën van zeer heterogene diagrammen. In tegenstelling tot eerdere werken waarin visuele elementen voornamelijk een ondersteunende rol spelen, bevat onze benchmark een aanzienlijk aandeel visueel essentiële problemen (75\%) die het extraheren van visuele informatie vereisen voor correcte oplossingen. Uit uitgebreide evaluatie blijkt dat zelfs de meest geavanceerde visuele redeneermodellen (bijv. Gemini-2.5-pro en o4-mini) een nauwkeurigheid van minder dan 60\% behalen op onze benchmark. Deze resultaten onthullen fundamentele uitdagingen in het huidige visuele begrip van grote taalmodellen, met name op het gebied van: (i) het tot stand brengen van een rigoureuze koppeling tussen diagraminterpretatie en natuurkundig redeneren, en (ii) het overwinnen van hun hardnekkige afhankelijkheid van tekstuele aanwijzingen als cognitieve shortcuts.
Grote taalmodellen hebben indrukwekkende redeneervaardigheden getoond, maar worden inherent beperkt door hun kennisreservoir. Retrieval-augmented reasoning verzacht deze beperking door LLM's in staat te stellen externe bronnen te raadplegen, maar bestaande methoden halen vaak irrelevante of rommelige informatie op, wat nauwkeurig redeneren belemmert. In dit artikel stellen we AutoRefine voor, een reinforcement learning-post-trainingsframework dat een nieuw "zoek-en-verfijn-tijdens-denken"-paradigma hanteert. AutoRefine introduceert expliciete kennisverfijningsstappen tussen opeenvolgende zoekopdrachten, waardoor het model bewijsmateriaal iteratief kan filteren, destilleren en organiseren voordat het een antwoord genereert. Bovendien integreren we op maat gemaakte retrieval-specifieke beloningen naast antwoordcorrectheidsbeloningen met behulp van groep-relatief beleidsoptimalisatie. Experimenten op single-hop en multi-hop QA-benchmarks tonen aan dat AutoRefine bestaande benaderingen aanzienlijk overtreft, met name in complexe, multi-hop redeneerscenario's. Gedetailleerde analyse laat zien dat AutoRefine frequente, hogere kwaliteit zoekopdrachten uitvoert en bewijsmateriaal effectief synthetiseert.
Het begrijpen van perspectief is fundamenteel voor de menselijke visuele waarneming, maar de mate waarin multimodale grote taalmodellen (MLLMs) perspectiefgeometrie internaliseren, blijft onduidelijk. Wij introduceren MMPerspective, de eerste benchmark die specifiek is ontworpen om het begrip van perspectief door MLLMs systematisch te evalueren via 10 zorgvuldig ontworpen taken over drie complementaire dimensies: Perspectiefwaarneming, Redeneren en Robuustheid. Onze benchmark omvat 2.711 real-world en synthetische beeldinstanties met 5.083 vraag-antwoordparen die sleutelvaardigheden onderzoeken, zoals het waarnemen van verdwijnpunten en tellen, redeneren over perspectieftypen, het begrijpen van lijnrelaties in 3D-ruimte, invariantie onder perspectiefbehoudende transformaties, enz. Door een uitgebreide evaluatie van 43 state-of-the-art MLLMs, ontdekken we significante beperkingen: hoewel modellen competentie tonen bij oppervlakkige waarnemingstaken, hebben ze moeite met compositioneel redeneren en het behouden van ruimtelijke consistentie onder verstoringen. Onze analyse onthult verder intrigerende patronen tussen modelarchitectuur, schaal en perspectiefvaardigheden, waarbij zowel robuustheidsknelpunten als de voordelen van chain-of-thought prompting worden belicht. MMPerspective biedt een waardevolle testomgeving voor het diagnosticeren en bevorderen van ruimtelijk begrip in visie-taalsystemen. Bronnen beschikbaar op: https://yunlong10.github.io/MMPerspective/
Diffusion Transformer (DiT)-gebaseerde videodiffusiemodellen genereren hoogwaardige video's op grote schaal, maar veroorzaken onaanvaardbare verwerkingslatentie en geheugenkosten voor lange video's. Om dit aan te pakken, stellen we een nieuwe gedistribueerde inferentiestrategie voor, genaamd DualParal. De kernidee is dat, in plaats van een volledige video op één GPU te genereren, we zowel temporele frames als modellagen paralleliseren over GPU's. Een naïeve implementatie van deze verdeling kampt echter met een belangrijke beperking: omdat diffusiemodellen gesynchroniseerde ruisniveaus over frames vereisen, leidt deze implementatie tot de serialisatie van oorspronkelijke parallelismen. We benutten een bloksgewijze ruisverwijderingsmethode om dit te hanteren. Namelijk, we verwerken een reeks frameblokken door de pijplijn met progressief afnemende ruisniveaus. Elke GPU verwerkt een specifiek blok en een subset van lagen terwijl eerdere resultaten worden doorgegeven aan de volgende GPU, waardoor asynchrone berekening en communicatie mogelijk worden. Om de prestaties verder te optimaliseren, incorporeren we twee belangrijke verbeteringen. Ten eerste wordt op elke GPU een functiecache geïmplementeerd om functies van het vorige blok als context op te slaan en te hergebruiken, waardoor inter-GPU-communicatie en redundante berekening worden geminimaliseerd. Ten tweede gebruiken we een gecoördineerde ruisinitialisatiestrategie, die wereldwijd consistente temporele dynamiek waarborgt door initiële ruispatronen over GPU's te delen zonder extra resourcekosten. Samen maken deze snelle, artefactvrije en oneindig lange videogeneratie mogelijk. Toegepast op de nieuwste diffusietransformer-videogenerator, produceert onze methode efficiënt video's van 1.025 frames met tot 6,54 keer lagere latentie en 1,48 keer lagere geheugenkosten op 8xRTX 4090 GPU's.
Grote Taalmodellen (LLMs) die zijn getraind via Reinforcement Learning (RL) hebben sterke redeneervaardigheden en emergent reflectief gedrag getoond, zoals terugspoelen en foutcorrectie. Echter beperkt conventionele Markoviaanse RL de exploratie tot de trainingsfase om een optimaal deterministisch beleid te leren en is het afhankelijk van historische contexten alleen via de huidige staat. Daarom blijft het onduidelijk of reflectief redeneren zal ontstaan tijdens Markoviaanse RL-training, of waarom dit nuttig is tijdens de testfase. Om dit te verhelpen, herformuleren we reflectieve exploratie binnen het Bayes-Adaptieve RL-raamwerk, dat expliciet het verwachte rendement optimaliseert onder een posteriorverdeling over Markov-beslissingsprocessen. Deze Bayesiaanse formulering stimuleert inherent zowel beloning-maximaliserende exploitatie als informatie-verzamelende exploratie via geloofsupdates. Ons resulterende algoritme, BARL, instrueert het LLM om strategieën te combineren en te wisselen op basis van de waargenomen resultaten, en biedt principiële richtlijnen over wanneer en hoe het model reflectief zou moeten exploreren. Empirische resultaten op zowel synthetische als wiskundige redeneertaken laten zien dat BARL standaard Markoviaanse RL-benaderingen overtreft tijdens de testfase, met superieure token-efficiëntie en verbeterde exploratie-effectiviteit. Onze code is beschikbaar op https://github.com/shenao-zhang/BARL.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben het mogelijk gemaakt dat agents autonoom complexe, open-einde taken kunnen uitvoeren. Veel bestaande frameworks zijn echter sterk afhankelijk van handmatig vooraf gedefinieerde tools en workflows, wat hun aanpasbaarheid, schaalbaarheid en generalisatie over domeinen belemmert. In dit werk introduceren we Alita—een generalistische agent ontworpen volgens het principe "Eenvoud is de ultieme verfijning," die schaalbare agentische redenering mogelijk maakt door minimale voorafdefinitie en maximale zelf-evolutie. Voor minimale voorafdefinitie is Alita uitgerust met slechts één component voor directe probleemoplossing, wat het veel eenvoudiger en overzichtelijker maakt dan eerdere benaderingen die sterk leunden op handgemaakte, uitgebreide tools en workflows. Dit schone ontwerp vergroot het potentieel om uitdagende vragen te generaliseren, zonder beperkt te worden door tools. Voor maximale zelf-evolutie stimuleren we de creativiteit van Alita door een reeks algemene componenten te bieden om autonoom externe capaciteiten te construeren, verfijnen en hergebruiken door taakgerelateerde model contextprotocollen (MCPs) te genereren uit open source, wat bijdraagt aan schaalbare agentische redenering. Opvallend is dat Alita een nauwkeurigheid van 75,15% pass@1 en 87,27% pass@3 behaalt, wat tot de top behoort onder generalistische agents, op de GAIA benchmark validatiedataset, en respectievelijk 74,00% en 52,00% pass@1 op Mathvista en PathVQA, waarmee het veel agentsystemen met aanzienlijk grotere complexiteit overtreft. Meer details zullen worden bijgewerkt op https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
Naarmate test-time scaling een cruciaal onderzoeksgebied wordt in de ontwikkeling van Large Language Models (LLMs), richten moderne en geavanceerde post-trainingsmethodologieën zich steeds meer op het verlengen van de generatielengte van lange Chain-of-Thought (CoT) reacties om de redeneervaardigheden te verbeteren richting DeepSeek R1-achtige prestaties. Recente studies onthullen echter een hardnekkig overdenkverschijnsel in state-of-the-art redeneermodellen, dat zich manifesteert als overmatige redundantie of repetitieve denkpatronen in lange CoT-reacties. Om dit probleem aan te pakken, stellen we in dit artikel een eenvoudig maar effectief tweestaps reinforcement learning framework voor om beknopt redeneren in LLMs te bereiken, genaamd ConciseR. Specifiek is het doel van de eerste fase, met meer trainingsstappen, om de redeneervaardigheden van het model te stimuleren via Group Relative Policy Optimization met clip-higher en dynamische sampling componenten (GRPO++), en de tweede fase, met minder trainingsstappen, dwingt expliciet beknoptheid af en verbetert de efficiëntie via Length-aware Group Relative Policy Optimization (L-GRPO). Belangrijk is dat ConciseR alleen de responslengte optimaliseert nadat alle rollouts van een voorbeeld correct zijn, volgens het "loop voordat je rent"-principe. Uitgebreide experimentele resultaten tonen aan dat ons ConciseR-model, dat meer beknopte CoT-redeneerreacties genereert, recente state-of-the-art redeneermodellen met het zero RL paradigma overtreft op de AIME 2024, MATH-500, AMC 2023, Minerva en Olympiad benchmarks.
Vision-language models (VLMs) hebben sterke resultaten behaald op coderings- en wiskundige benchmarks die uitdagend zijn voor mensen, maar hun vermogen om taken uit te voeren die voor mensen van nature komen—zoals waarneming, ruimtelijke navigatie en geheugenbeheer—blijft onderbelicht. Echte videogames zijn ontworpen om intuïtief te zijn voor mensen om te leren en te beheersen door gebruik te maken van aangeboren inductieve biases, wat ze tot een ideale testomgeving maakt voor het evalueren van dergelijke capaciteiten in VLMs. Hiertoe introduceren we VideoGameBench, een benchmark bestaande uit 10 populaire videogames uit de jaren 90 waarmee VLMs direct in realtime interacteren. VideoGameBench daagt modellen uit om volledige games te voltooien met alleen toegang tot ruwe visuele inputs en een hoogwaardige beschrijving van doelstellingen en besturingen, een significante afwijking van bestaande setups die vertrouwen op game-specifieke ondersteuning en aanvullende informatie. We houden drie van de games geheim om oplossingen aan te moedigen die generaliseren naar onbekende omgevingen. Onze experimenten tonen aan dat toonaangevende vision-language modellen moeite hebben om verder te komen dan het begin van elk spel. We constateren dat inferentielatentie een grote beperking is van toonaangevende modellen in de realtime setting; daarom introduceren we VideoGameBench Lite, een setting waarin het spel pauzeert terwijl het wacht op de volgende actie van het LM. Het best presterende model, Gemini 2.5 Pro, voltooit slechts 0,48% van VideoGameBench en 1,6% van VideoGameBench Lite. We hopen dat de formalisering van de bovengenoemde menselijke vaardigheden in deze benchmark vooruitgang in deze onderzoeksrichtingen motiveert.
Recente ontwikkelingen in Multimodale Grote Taalmodellen (MLLMs) hebben veelbelovende resultaten laten zien bij het integreren van diverse modaliteiten zoals tekst en afbeeldingen. MLLMs worden sterk beïnvloed door modaliteitsbias, waarbij ze vaak vertrouwen op taal terwijl andere modaliteiten zoals visuele input onderbenut blijven. Dit position paper betoogt dat MLLMs diepgaand worden beïnvloed door modaliteitsbias. Ten eerste diagnosticeren we de huidige staat van modaliteitsbias en belichten we de manifestaties ervan in verschillende taken. Ten tweede stellen we een systematische onderzoeksagenda voor die gerelateerd is aan modaliteitsbias in MLLMs. Ten derde identificeren we de belangrijkste factoren van modaliteitsbias in MLLMs en bieden we actiegerichte suggesties voor toekomstig onderzoek om deze te verminderen. Om deze bevindingen te onderbouwen, voeren we experimenten uit die de invloed van elke factor aantonen: 1. Data-eigenschappen: Taaldata is compact en abstract, terwijl visuele data redundant en complex is, wat een inherente onbalans creëert in de leer dynamiek. 2. Ongebalanceerde backbone-capaciteiten: De dominantie van vooraf getrainde taalmodel len in MLLMs leidt tot een overmatige afhankelijkheid van taal en verwaarlozing van visuele informatie. 3. Trainingsdoelstellingen: Huidige doelstellingen bevorderen vaak geen gebalanceerde kruismodale afstemming, wat resulteert in kortetermijnleren dat bevooroordeeld is naar taal. Deze bevindingen benadrukken de noodzaak van gebalanceerde trainingsstrategieën en modelarchitecturen om meerdere modaliteiten beter te integreren in MLLMs. We roepen op tot interdisciplinaire inspanningen om deze uitdagingen aan te pakken en innovatie in MLLM-onderzoek te stimuleren. Ons werk biedt een nieuw perspectief op modaliteitsbias in MLLMs en biedt inzichten voor het ontwikkelen van robuustere en generaliseerbaardere multimodale systemen, wat de vooruitgang richting Kunstmatige Algemene Intelligentie bevordert.
Biomedische onderzoekers vertrouwen steeds meer op grootschalige gestructureerde databases voor complexe analytische taken. Huidige tekst-naar-SQL-systemen hebben echter vaak moeite om kwalitatieve wetenschappelijke vragen om te zetten in uitvoerbare SQL, vooral wanneer impliciet domeinspecifiek redeneren vereist is. Wij introduceren BiomedSQL, de eerste benchmark die expliciet is ontworpen om wetenschappelijk redeneren te evalueren in tekst-naar-SQL-generatie over een real-world biomedische kennisbank. BiomedSQL bestaat uit 68.000 vraag/SQL-query/antwoord-triples, gebaseerd op een geharmoniseerde BigQuery-kennisbank die gen-ziekte-associaties, causale inferentie uit omics-data en goedkeuringsgegevens van medicijnen integreert. Elke vraag vereist dat modellen domeinspecifieke criteria afleiden, zoals genome-wide significantiedrempels, effectrichting of trial-fasefiltering, in plaats van alleen te vertrouwen op syntactische vertaling. We evalueren een reeks open- en closed-source LLM's over verschillende promptstrategieën en interactieparadigma's. Onze resultaten tonen een aanzienlijk prestatiegat: GPT-o3-mini behaalt 59,0% uitvoeringsnauwkeurigheid, terwijl onze aangepaste multi-step agent, BMSQL, 62,6% bereikt, beide ver onder de expertbaseline van 90,0%. BiomedSQL biedt een nieuwe basis voor het bevorderen van tekst-naar-SQL-systemen die wetenschappelijke ontdekking kunnen ondersteunen door robuust redeneren over gestructureerde biomedische kennisbanken. Onze dataset is publiekelijk beschikbaar op https://huggingface.co/datasets/NIH-CARD/BiomedSQL, en onze code is open-source op https://github.com/NIH-CARD/biomedsql.
Met de snelle vooruitgang van post-trainingsmethoden voor redeneren en informatiezoeken, kunnen grote taalmodelen (LLM's) een grote hoeveelheid opgehaalde kennis integreren om complexe taken op te lossen. Het beperkte contextvenster van LLM's belemmert echter het schalen van de hoeveelheid externe kennis die wordt ingevoerd, wat verdere verbetering in de weg staat, vooral voor taken die een aanzienlijke hoeveelheid externe kennis vereisen. Bestaande methoden voor het uitbreiden van het contextvenster leiden onvermijdelijk tot informatieverlies. LLM-gebaseerde multi-agentmethoden ontstaan als een nieuw paradigma om massale invoer op een distributieve manier te verwerken, waarbij we twee kernknelpunten identificeren in bestaande kennis synchronisatie- en redeneerprocessen. In dit werk ontwikkelen we een multi-agentframework, ExtAgents, om deze knelpunten te overwinnen en betere schaalbaarheid mogelijk te maken bij de integratie van kennis tijdens de inferentie, zonder langere-contexttraining. Getest met onze verbeterde multi-hop vraag-antwoordtest, $boldsymbol{inftyBench+}$, en andere openbare testen, waaronder het genereren van lange enquêtes, verbetert ExtAgents de prestaties aanzienlijk ten opzichte van bestaande niet-trainingsmethoden met dezelfde hoeveelheid externe kennisinvoer, ongeacht of deze binnen of buiten het contextvenster valt. Bovendien behoudt de methode een hoge efficiëntie dankzij een hoge mate van parallellisme. Verder onderzoek naar de coördinatie van LLM-agenten bij toenemende externe kennisinvoer kan voordelen opleveren voor real-world toepassingen.
Multimodale informatie-retrieval (MIR) wordt geconfronteerd met inherente uitdagingen vanwege de heterogeniteit van gegevensbronnen en de complexiteit van kruismodale uitlijning. Hoewel eerdere studies modale verschillen in kenmerkruimten hebben geïdentificeerd, blijft een systematische aanpak om deze uitdagingen aan te pakken onontgonnen. In dit werk introduceren we UNITE, een universeel raamwerk dat deze uitdagingen aanpakt via twee cruciale maar onderbelichte aspecten: gegevenscuratie en modaal-bewuste trainingsconfiguraties. Ons werk biedt de eerste uitgebreide analyse van hoe modaal-specifieke gegevenseigenschappen de prestaties van downstream taken beïnvloeden in diverse scenario's. Bovendien stellen we Modal-Aware Masked Contrastive Learning (MAMCL) voor om de competitieve relaties tussen instanties van verschillende modaliteiten te verminderen. Ons raamwerk behaalt state-of-the-art resultaten op meerdere multimodale retrieval benchmarks en overtreft bestaande methoden met aanzienlijke marges. Door uitgebreide experimenten tonen we aan dat strategische modale curatie en op maat gemaakte trainingsprotocollen cruciaal zijn voor robuuste kruismodale representatieleer. Dit werk verbetert niet alleen de MIR-prestaties, maar biedt ook een fundamentele blauwdruk voor toekomstig onderzoek in multimodale systemen. Ons project is beschikbaar op https://friedrichor.github.io/projects/UNITE.
Frame inbetweening heeft als doel tussenliggende videosequenties te synthetiseren, gebaseerd op de gegeven start- en eindframes. De huidige state-of-the-art methoden breiden voornamelijk grootschalige, vooraf getrainde Image-to-Video Diffusion-modellen (I2V-DMs) uit door eindframe-beperkingen te integreren via directe fine-tuning of door training over te slaan. Wij identificeren een kritieke beperking in hun ontwerp: hun injectie van de eindframe-beperking maakt meestal gebruik van hetzelfde mechanisme dat oorspronkelijk de startframe-beperking (enkele afbeelding) oplegde. Aangezien de oorspronkelijke I2V-DMs echter al voldoende getraind zijn voor de startframe-conditie, kan het naïef introduceren van de eindframe-beperking via hetzelfde mechanisme met veel minder (of zelfs geen) gespecialiseerde training waarschijnlijk niet zorgen voor een even sterke impact van het eindframe op de tussenliggende inhoud als het startframe. Deze asymmetrische controle van de twee frames over de tussenliggende inhoud leidt waarschijnlijk tot inconsistente beweging of uiterlijk in de gegenereerde frames. Om efficiënt symmetrische beperkingen van start- en eindframes te bereiken, stellen we een nieuw framework voor, genaamd Sci-Fi, dat een sterkere injectie toepast voor de beperking van een kleinere trainingsschaal. Specifiek behandelt het de startframe-beperking zoals voorheen, terwijl het de eindframe-beperking introduceert via een verbeterd mechanisme. Het nieuwe mechanisme is gebaseerd op een goed ontworpen lichtgewicht module, genaamd EF-Net, die alleen het eindframe codeert en uitbreidt naar temporeel adaptieve frame-gewijze kenmerken die worden geïnjecteerd in de I2V-DM. Hierdoor wordt de eindframe-beperking even sterk als de startframe-beperking, waardoor onze Sci-Fi harmonieuzere overgangen kan produceren in verschillende scenario's. Uitgebreide experimenten bewijzen de superioriteit van onze Sci-Fi in vergelijking met andere baselines.
Grote Taalmodellen (LLMs) zijn krachtig maar gevoelig voor hallucinaties vanwege statische kennis. Retrieval-Augmented Generation (RAG) helpt door externe informatie toe te voegen, maar huidige methoden zijn vaak kostbaar, generaliseren slecht of negeren de interne kennis van het model. In dit artikel introduceren we R1-Searcher++, een nieuw framework ontworpen om LLMs te trainen om zowel interne als externe kennisbronnen adaptief te benutten. R1-Searcher++ maakt gebruik van een tweefasige trainingsstrategie: een initiële SFT Cold-start fase voor het leren van een voorlopig formaat, gevolgd door RL voor Dynamische Kennisverwerving. De RL-fase gebruikt uitkomstsupervisie om exploratie aan te moedigen, integreert een beloningsmechanisme voor het gebruik van interne kennis en bevat een memorisatiemechanisme om continu opgehaalde informatie te assimileren, waardoor de interne kennis van het model wordt verrijkt. Door gebruik te maken van interne kennis en een externe zoekmachine, verbetert het model continu zijn capaciteiten, wat efficiënte retrieval-augmented reasoning mogelijk maakt. Onze experimenten tonen aan dat R1-Searcher++ eerdere RAG- en redeneermethoden overtreft en efficiënte retrieval bereikt. De code is beschikbaar op https://github.com/RUCAIBox/R1-Searcher-plus.
Post-training compressie vermindert de rekenkundige en geheugenkosten van grote taalmodellen (LLMs), waardoor een resource-efficiënte implementatie mogelijk wordt. Echter, bestaande compressiebenchmarks richten zich alleen op taalmodeling (bijv., perplexiteit) en taken voor natuurlijke taalbegrip (bijv., GLUE-nauwkeurigheid), en negeren de agentische capaciteiten - workflow, toolgebruik/functieaanroep, langetermijncontextbegrip en real-world toepassingen. Wij introduceren de Agent Compression Benchmark (ACBench), de eerste uitgebreide benchmark voor het evalueren van hoe compressie de agentische vermogens van LLMs beïnvloedt. ACBench omvat (1) 12 taken over 4 capaciteiten (bijv., WorfBench voor workflowgeneratie, Needle-in-Haystack voor langetermijncontextretrieval), (2) kwantisering (GPTQ, AWQ) en pruning (Wanda, SparseGPT), en (3) 15 modellen, waaronder kleine (Gemma-2B), standaard (Qwen2.5 7B-32B), en gedistilleerde redeneer-LLMs (DeepSeek-R1-Distill). Onze experimenten onthullen compressieafwegingen: 4-bit kwantisering behoudt workflowgeneratie en toolgebruik (1%-3% daling) maar verslechtert de nauwkeurigheid van real-world toepassingen met 10%-15%. Wij introduceren ERank, Top-k Ranking Correlation en Energy om de analyse te systematiseren. ACBench biedt praktische inzichten voor het optimaliseren van LLM-compressie in agentische scenario's. De code is te vinden op https://github.com/pprp/ACBench.
Naarmate grote taalmodelen in capaciteit en autonomie groeien, wordt het identificeren van kwetsbaarheden door middel van red-teaming essentieel voor een veilige inzet. Traditionele benaderingen van prompt-engineering kunnen echter ineffectief blijken zodra red-teaming verandert in een zwak-naar-sterk probleem, waarbij doelmodellen de red-teamers in capaciteit overtreffen. Om deze verschuiving te bestuderen, bekijken we red-teaming vanuit het perspectief van het capaciteitsverschil tussen aanvaller en doelwit. We evalueren meer dan 500 aanvaller-doelwit-paren met behulp van LLM-gebaseerde jailbreak-aanvallen die menselijke red-teamers nabootsen over diverse families, groottes en capaciteitsniveaus. Drie sterke trends komen naar voren: (i) krachtigere modellen zijn betere aanvallers, (ii) het aanvalsucces daalt sterk zodra de capaciteit van het doelwit die van de aanvaller overtreft, en (iii) aanvalsuccespercentages correleren met hoge prestaties op de sociale wetenschappen-splits van de MMLU-Pro benchmark. Op basis van deze trends leiden we een jailbreak-schalingwet af die het aanvalsucces voorspelt voor een vast doelwit op basis van het capaciteitsverschil tussen aanvaller en doelwit. Deze bevindingen suggereren dat aanvallers met vaste capaciteit (bijvoorbeeld mensen) ineffectief kunnen worden tegen toekomstige modellen, dat steeds krachtigere open-source modellen risico's vergroten voor bestaande systemen, en dat modelaanbieders nauwkeurig de overtuigende en manipulerende vaardigheden van modellen moeten meten en beheersen om hun effectiviteit als aanvallers te beperken.
Target Speech Extraction (TSE) heeft als doel de stem van een doelspreker te isoleren uit een mengsel van meerdere sprekers door gebruik te maken van sprekerspecifieke aanwijzingen, meestal geleverd als aanvullende audio (ook wel cue audio genoemd). Hoewel recente vooruitgang in TSE voornamelijk gebruikmaakt van discriminerende modellen die een hoge perceptuele kwaliteit bieden, introduceren deze modellen vaak ongewenste artefacten, verminderen ze de natuurlijkheid en zijn ze gevoelig voor verschillen tussen trainings- en testomgevingen. Aan de andere kant blijven generatieve modellen voor TSE achter in perceptuele kwaliteit en verstaanbaarheid. Om deze uitdagingen aan te pakken, presenteren we SoloSpeech, een nieuwe cascade-generatieve pijplijn die compressie, extractie, reconstructie en correctieprocessen integreert. SoloSpeech beschikt over een doelspreker-extractor zonder spreker-embedding die gebruikmaakt van conditionele informatie uit de latente ruimte van de cue audio, en deze afstemt op de latente ruimte van de mengaudio om mismatches te voorkomen. Geëvalueerd op de veelgebruikte Libri2Mix-dataset behaalt SoloSpeech de nieuwste state-of-the-art in verstaanbaarheid en kwaliteit voor doelspreker-extractie en spraakscheidings taken, terwijl het uitzonderlijke generalisatie vertoont op out-of-domain data en real-world scenario's.
De snelle vooruitgang van Grote Multimodale Modellen (LMMs) voor 2D-afbeeldingen en video's heeft de motivatie gecreëerd om deze modellen uit te breiden naar het begrijpen van 3D-scènes, met als doel mensachtige visueel-ruimtelijke intelligentie te bereiken. Het bereiken van een diepgaand ruimtelijk begrip dat vergelijkbaar is met menselijke capaciteiten, stelt echter aanzienlijke uitdagingen op het gebied van modelcodering en data-acquisitie. Bestaande methoden zijn vaak afhankelijk van externe dieptesensoren voor geometriecaptatie of gebruiken standaardalgoritmen voor het vooraf construeren van 3D-kaarten, wat hun schaalbaarheid beperkt, vooral bij veelvoorkomende monoculaire video-inputs en voor tijdgevoelige toepassingen. In dit werk introduceren we VLM-3R, een uniform raamwerk voor Vision-Language Models (VLMs) dat 3D Reconstructive instruction tuning integreert. VLM-3R verwerkt monoculaire videoframes door een geometrie-encoder te gebruiken om impliciete 3D-tokens af te leiden die ruimtelijk begrip representeren. Door gebruik te maken van onze Spatial-Visual-View Fusion en meer dan 200K gecureerde 3D reconstructieve instruction tuning vraag-antwoord (QA) paren, aligneert VLM-3R effectief real-world ruimtelijke context met taal-instructies. Dit maakt monoculaire 3D-ruimtelijke ondersteuning en belichaamde redenering mogelijk. Om de evaluatie van temporele redenering te vergemakkelijken, introduceren we de Vision-Spatial-Temporal Intelligence benchmark, met meer dan 138.6K QA-paren over vijf verschillende taken gericht op evoluerende ruimtelijke relaties. Uitgebreide experimenten tonen aan dat ons model, VLM-3R, niet alleen robuuste visueel-ruimtelijke redenering mogelijk maakt, maar ook het begrijpen van temporele 3D-contextveranderingen faciliteert, en uitblinkt in zowel nauwkeurigheid als schaalbaarheid.
Terwijl virtuele pas-systemen (VTON) gericht zijn op het weergeven van een kledingstuk op een doelpersoonafbeelding, behandelt dit artikel de nieuwe taak van virtueel afpassen (VTOFF), waarbij het omgekeerde probleem wordt aangepakt: het genereren van gestandaardiseerde productafbeeldingen van kledingstukken uit real-world foto's van geklede individuen. In tegenstelling tot VTON, dat diverse houdingen en stijlvariaties moet oplossen, profiteert VTOFF van een consistent en goed gedefinieerd uitvoerformaat — meestal een platte, liggende weergave van het kledingstuk — wat het een veelbelovend hulpmiddel maakt voor datageneratie en datasetverbetering. Bestaande VTOFF-benaderingen kampen echter met twee belangrijke beperkingen: (i) moeilijkheden bij het ontwarren van kledingkenmerken uit occlusies en complexe houdingen, wat vaak leidt tot visuele artefacten, en (ii) beperkte toepasbaarheid op kledingstukken van één categorie (bijv. alleen bovenlichaamkleding), wat de generalisatie beperkt. Om deze uitdagingen aan te pakken, presenteren we Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), een nieuwe architectuur met een dubbele DiT-gebaseerde backbone en een aangepast multimodaal aandachtmechanisme voor robuuste extractie van kledingkenmerken. Onze architectuur is ontworpen om kledinginformatie uit meerdere modaliteiten zoals afbeeldingen, tekst en maskers te ontvangen, zodat deze in een multi-categorie-instelling kan werken. Ten slotte stellen we een extra uitlijningsmodule voor om de gegenereerde visuele details verder te verfijnen. Experimenten op de VITON-HD en Dress Code-datasets tonen aan dat TEMU-VTOFF een nieuwe state-of-the-art bereikt voor de VTOFF-taak, waarbij zowel de visuele kwaliteit als de trouw aan de doelkledingstukken aanzienlijk worden verbeterd.
State-of-the-art modellen voor tekst-naar-beweging generatie vertrouwen op de kinematisch-bewuste, lokaal-relatieve bewegingsrepresentatie die populair is gemaakt door HumanML3D. Deze representatie codeert beweging relatief ten opzichte van het bekken en het vorige frame, met ingebouwde redundantie. Hoewel dit ontwerp het trainen van eerdere generatiemodellen vereenvoudigt, introduceert het kritieke beperkingen voor diffusiemodellen en belemmert het de toepasbaarheid voor downstream taken. In dit werk herzien we de bewegingsrepresentatie en stellen we een radicaal vereenvoudigd en lang verlaten alternatief voor voor tekst-naar-beweging generatie: absolute gewrichtscoördinaten in de globale ruimte. Door een systematische analyse van ontwerpkeuzes tonen we aan dat deze formulering aanzienlijk hogere bewegingsfideliteit, verbeterde tekstuitlijning en sterke schaalbaarheid bereikt, zelfs met een eenvoudige Transformer-architectuur en zonder aanvullende kinematisch-bewuste verliesfuncties. Bovendien ondersteunt onze formulering natuurlijk downstream taken zoals tekstgestuurde bewegingscontrole en temporele/spatiale bewerking zonder aanvullende taakspecifieke herontwikkeling en kostbare classifier-gestuurde generatie vanuit controlesignalen. Tot slot demonstreren we veelbelovende generalisatie om direct SMPL-H mesh vertices in beweging te genereren vanuit tekst, wat een sterke basis legt voor toekomstig onderzoek en bewegingsgerelateerde toepassingen.
Recente vooruitgang in multimodale grote taalmodellen (MLLMs) heeft hun mogelijkheden aanzienlijk verbeterd; echter, hun ruimtelijke waarnemingsvermogen blijft een opvallende beperking. Om deze uitdaging aan te pakken, biedt multimodale datasynthese een veelbelovende oplossing. Toch is het waarborgen dat gesynthetiseerde data voldoen aan ruimtelijk gezond verstand geen eenvoudige taak. In dit werk introduceren we SKG2Data, een nieuwe multimodale synthesebenadering die wordt geleid door ruimtelijke kennisgrafieken, gebaseerd op het concept van kennis-naar-data-generatie. SKG2Data construeert automatisch een Ruimtelijke Kennisgraaf (SKG) om de menselijke perceptie van ruimtelijke richtingen en afstanden na te bootsen, die vervolgens wordt gebruikt om multimodale datasynthese te sturen. Uitgebreide experimenten tonen aan dat data gesynthetiseerd uit diverse soorten ruimtelijke kennis, waaronder richting en afstand, niet alleen het ruimtelijk waarnemings- en redeneervermogen van MLLMs verbeteren, maar ook sterke generalisatiecapaciteiten vertonen. We hopen dat het idee van kennisgebaseerde datasynthese de ontwikkeling van ruimtelijke intelligentie kan bevorderen.
Digital Forensics en Incident Response (DFIR) omvat het analyseren van digitaal bewijsmateriaal om juridische onderzoeken te ondersteunen. Grote Taalmodellen (LLMs) bieden nieuwe mogelijkheden voor DFIR-taken zoals loganalyse en geheugenforensiek, maar hun gevoeligheid voor fouten en hallucinaties roept zorgen op in hoogrisicocontexten. Ondanks de groeiende interesse is er geen uitgebreide benchmark om LLMs te evalueren in zowel theoretische als praktische DFIR-domeinen. Om deze leemte te vullen, presenteren wij DFIR-Metric, een benchmark met drie componenten: (1) Kennisbeoordeling: een set van 700 meerkeuzevragen die door experts zijn beoordeeld en afkomstig zijn uit industrie-standaardcertificeringen en officiële documentatie; (2) Realistische Forensische Uitdagingen: 150 CTF-stijl taken die multi-staps redeneren en bewijscorrelatie testen; en (3) Praktische Analyse: 500 schijf- en geheugenforensiek gevallen uit het NIST Computer Forensics Tool Testing Program (CFTT). We hebben 14 LLMs geëvalueerd met DFIR-Metric, waarbij zowel hun nauwkeurigheid als consistentie over meerdere trials is geanalyseerd. We introduceren ook een nieuwe metriek, de Task Understanding Score (TUS), ontworpen om modellen effectiever te evalueren in scenario's waar ze bijna nul nauwkeurigheid behalen. Deze benchmark biedt een rigoureuze, reproduceerbare basis voor het bevorderen van AI in digitale forensiek. Alle scripts, artefacten en resultaten zijn beschikbaar op de projectwebsite op https://github.com/DFIR-Metric.
Vision-Language Models (VLMs) blinken uit in diverse taken, maar kampen met hoge inferentiekosten in tijd en geheugen. Token-sparsity vermindert inefficiënties in tokengebruik, terwijl neuron-sparsity hoogdimensionale berekeningen reduceert, beide bieden veelbelovende oplossingen om de efficiëntie te verbeteren. Recentelijk zijn deze twee sparsity-paradigma's grotendeels parallel geëvolueerd, wat de heersende aanname voedt dat ze onafhankelijk functioneren. Echter, een fundamentele maar onderbelichte vraag blijft: Opereren ze daadwerkelijk in isolatie, of is er een dieper onderliggend samenspel dat nog moet worden ontdekt? In dit artikel voeren we het eerste uitgebreide onderzoek naar deze vraag uit. Door het introduceren en analyseren van het matchingmechanisme tussen Core Neurons en Core Tokens, ontdekten we dat sleutelneuronen en -tokens voor inferentie elkaar wederzijds beïnvloeden en versterken. Op basis van dit inzicht stellen we CoreMatching voor, een co-adaptief sparse inferentiekader, dat gebruikmaakt van de synergie tussen token- en neuron-sparsity om de inferentie-efficiëntie te verbeteren. Door theoretische analyse en efficiëntie-evaluaties tonen we aan dat de voorgestelde methode state-of-the-art-baselines overtreft op tien beeldbegriptaken en drie hardwareapparaten. Opvallend is dat op de NVIDIA Titan Xp een reductie van 5x FLOPs en een algehele versnelling van 10x werd bereikt. De code is vrijgegeven op https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
Met de snelle vooruitgang van generatieve modellen heeft generatie voor algemene doeleinden steeds meer aandacht gekregen als een veelbelovende benadering om diverse taken over verschillende modaliteiten te verenigen binnen een enkel systeem. Ondanks deze vooruitgang blijven bestaande open-source frameworks vaak kwetsbaar en worstelen ze met het ondersteunen van complexe real-world toepassingen vanwege het ontbreken van gestructureerde workflowplanning en feedback op uitvoeringsniveau. Om deze beperkingen aan te pakken, presenteren we ComfyMind, een collaboratief AI-systeem ontworpen om robuuste en schaalbare generatie voor algemene doeleinden mogelijk te maken, gebouwd op het ComfyUI-platform. ComfyMind introduceert twee kerninnovaties: de Semantic Workflow Interface (SWI) die low-level node-grafieken abstraheert naar aanroepbare functionele modules die in natuurlijke taal worden beschreven, waardoor high-level compositie mogelijk wordt en structurele fouten worden verminderd; en het Search Tree Planning-mechanisme met gelokaliseerde feedbackuitvoering, dat generatie modelleert als een hiërarchisch beslissingsproces en adaptieve correctie op elk stadium mogelijk maakt. Samen verbeteren deze componenten de stabiliteit en flexibiliteit van complexe generatieve workflows. We evalueren ComfyMind op drie publieke benchmarks: ComfyBench, GenEval en Reason-Edit, die generatie-, bewerkings- en redeneertaken omvatten. De resultaten tonen aan dat ComfyMind consistent beter presteert dan bestaande open-source baselines en prestaties bereikt die vergelijkbaar zijn met GPT-Image-1. ComfyMind baant een veelbelovend pad voor de ontwikkeling van open-source generatieve AI-systemen voor algemene doeleinden. Projectpagina: https://github.com/LitaoGuo/ComfyMind
Vision-Language Model (VLM) gebaseerde Web Agents vormen een belangrijke stap richting het automatiseren van complexe taken door mensachtige interactie met websites te simuleren. Hun inzet in ongecontroleerde webomgevingen introduceert echter aanzienlijke beveiligingskwetsbaarheden. Bestaand onderzoek naar aanvallen via adversariële omgevingsinjectie berust vaak op onrealistische aannames, zoals directe HTML-manipulatie, kennis van gebruikersintentie of toegang tot modelparameters van de agent, wat de praktische toepasbaarheid beperkt. In dit artikel stellen we AdInject voor, een nieuwe en realistische black-box aanvalsmethode die gebruikmaakt van internetadvertentielevering om kwaadaardige inhoud in de omgeving van de Web Agent te injecteren. AdInject opereert onder een aanzienlijk realistischer bedreigingsmodel dan eerder werk, waarbij wordt uitgegaan van een black-box agent, statische beperkingen voor kwaadaardige inhoud en geen specifieke kennis van gebruikersintentie. AdInject omvat strategieën voor het ontwerpen van kwaadaardige advertentie-inhoud die gericht is op het misleiden van agents om te klikken, en een VLM-gebaseerde optimalisatietechniek voor advertentie-inhoud die potentiële gebruikersintenties afleidt uit de context van de doelwebsite en deze intenties integreert in de advertentie-inhoud om deze relevanter of kritischer te laten lijken voor de taak van de agent, waardoor de effectiviteit van de aanval wordt vergroot. Experimentele evaluaties tonen de effectiviteit van AdInject aan, met aanvalssuccespercentages van meer dan 60% in de meeste scenario's en oplopend tot bijna 100% in bepaalde gevallen. Dit toont sterk aan dat veelvoorkomende advertentielevering een krachtige en realistische vector vormt voor omgevingsinjectieaanvallen tegen Web Agents. Dit werk belicht een kritieke kwetsbaarheid in de beveiliging van Web Agents die voortkomt uit realistische kanalen voor omgevingsmanipulatie, en benadrukt de dringende noodzaak voor het ontwikkelen van robuuste verdedigingsmechanismen tegen dergelijke bedreigingen. Onze code is beschikbaar op https://github.com/NicerWang/AdInject.
DeepSeek-R1 heeft krachtige redeneervaardigheden in het tekstdomein aangetoond door middel van stabiele reinforcement learning (RL). Recentelijk zijn in het multimodale domein werken begonnen die RL direct toepassen om R1-achtig vrij vormgegeven redeneren te genereren voor Visual Question Answering (VQA)-taken. Multimodale taken hebben echter een intrinsiek andere aard dan tekstuele taken, die sterk afhankelijk zijn van het begrip van de invoerafbeelding om het probleem op te lossen. Daarom wordt dergelijk vrij vormgegeven redeneren in de VQA-taak geconfronteerd met twee kritieke beperkingen: (1) Uitgebreide redeneerketens leiden de visuele focus weg van taakkritieke regio's, wat de nauwkeurigheid van het antwoord vermindert. (2) Onverifieerbare tussenstappen versterken de variantie van het beleidsgradiënt en de overhead van de rekenkosten. Om deze problemen aan te pakken, introduceren we in dit artikel SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), dat VQA opsplitst in drie verifieerbare fasen, waaronder globale beeldbeschrijving, regiolokalisatie en antwoordvoorspelling, waarbij elke fase expliciete beloningssignalen levert. Bovendien introduceren we ook VQA-Verify, een dataset van 12k geannoteerd met antwoord-uitgelijnde beschrijvingen en begrenzingsvakken om de training te vergemakkelijken. Experimenten tonen consistente prestatieverbeteringen aan over zeven VQA-benchmarks, met een verbetering in nauwkeurigheid tot 15,7% vergeleken met de R1-achtige baseline. Onze analyse van de aandachtkaart bevestigt een verbeterde focus op kritieke regio's, wat leidt tot verbeteringen in nauwkeurigheid. Onze code is beschikbaar op https://github.com/justairr/SATORI-R1.
In dit werk streven we ernaar om het redeneervermogen van Multimodale Grote Taalmodellen (MLLMs) te stimuleren via reinforcement learning (RL) en ontwikkelen we een effectieve aanpak die de problemen van schaarse beloningen en verdwijnende voordelen tijdens RL vermindert. Hiertoe stellen we Share-GRPO voor, een nieuwe RL-benadering die deze problemen aanpakt door diverse redeneertrajecten te verkennen en te delen over een uitgebreide vraagruimte. Specifiek breidt Share-GRPO eerst de vraagruimte voor een gegeven vraag uit via datatransformatietechnieken, en moedigt vervolgens MLLM aan om effectief diverse redeneertrajecten te verkennen over de uitgebreide vraagruimte en de ontdekte redeneertrajecten te delen over de uitgebreide vragen tijdens RL. Daarnaast deelt Share-GRPO ook beloningsinformatie tijdens de voordeelberekening, waarbij oplossingsvoordelen hiërarchisch worden geschat over en binnen vraagvarianten, wat een nauwkeurigere schatting van relatieve voordelen mogelijk maakt en de stabiliteit van beleidstraining verbetert. Uitgebreide evaluaties over zes veelgebruikte redeneerbenchmarks tonen de superieure prestaties van onze methode aan. Code zal beschikbaar zijn op https://github.com/HJYao00/R1-ShareVL.
Mixture-of-experts (MoE)-architecturen maken het mogelijk om grote taalmodel(len) (LLMs) op te schalen naar enorme parameteraantallen zonder een proportionele stijging in rekencosten. De aanzienlijke geheugeneisen van grote MoE-modellen belemmeren echter hun implementatie in diverse rekenomgevingen, van cloudservers tot consumentenapparaten. Deze studie toont eerst een duidelijke taakspecifieke specialisatie aan in expertactiveringspatronen binnen MoE-lagen. Hierop voortbouwend introduceren we PreMoe, een nieuw framework dat efficiënte implementatie van massieve MoE-modellen in geheugenbeperkte omgevingen mogelijk maakt. PreMoe bevat twee hoofdcomponenten: probabilistische expertpruning (PEP) en taakadaptieve expertretrieval (TAER). PEP gebruikt een nieuwe metriek, de taakgeconditioneerde verwachte selectiescore (TCESS), afgeleid van router-logits om het belang van experts voor specifieke taken te kwantificeren, waardoor een minimale set kritieke experts wordt geïdentificeerd. TAER benut deze taakspecifieke expertbelangprofielen voor efficiënte inferentie. Het berekent en slaat compacte expertpatronen voor diverse taken vooraf op. Wanneer een gebruikersquery wordt ontvangen, identificeert TAER snel het meest relevante opgeslagen taakpatroon en reconstrueert het model door alleen de kleine subset van experts te laden die cruciaal zijn voor die taak. Deze aanpak vermindert het geheugengebruik aanzienlijk in alle implementatiescenario's. DeepSeek-R1 671B behoudt 97,2% nauwkeurigheid op MATH500 wanneer het wordt geprunt naar een 8/128-configuratie (50% expertreductie), en behaalt nog steeds 72,0% met agressieve 8/32-pruning (87,5% expertreductie). Pangu-Ultra-MoE 718B behaalt 97,15% op MATH500 en 81,3% op AIME24 met 8/128-pruning, terwijl zelfs nog agressievere pruning naar 4/64 (390GB geheugen) 96,95% nauwkeurigheid op MATH500 behoudt. We maken onze code publiekelijk beschikbaar op https://github.com/JarvisPei/PreMoe.
Retrieval Augmented Generation verbetert de nauwkeurigheid van LLM's door passages die zijn opgehaald uit een externe corpus toe te voegen aan de LLM-prompt. Dit artikel onderzoekt hoe positionele bias - de neiging van LLM's om informatie verschillend te wegen op basis van de positie in de prompt - niet alleen de mogelijkheid van de LLM beïnvloedt om relevante passages te benutten, maar ook de vatbaarheid voor afleidende passages. Door uitgebreide experimenten op drie benchmarks tonen we aan dat state-of-the-art retrieval-pipelines, terwijl ze proberen relevante passages op te halen, systematisch sterk afleidende passages naar de toprangen brengen, waarbij meer dan 60% van de queries ten minste één sterk afleidende passage bevat onder de top-10 opgehaalde passages. Als gevolg hiervan is de impact van de positionele bias van de LLM, die in gecontroleerde settings vaak als zeer prominent wordt gerapporteerd door gerelateerde werken, in realistische scenario's eigenlijk marginaal, omdat zowel relevante als afleidende passages op hun beurt worden benadeeld. Inderdaad, onze bevindingen onthullen dat geavanceerde strategieën die proberen de passages te herschikken op basis van de positionele voorkeuren van de LLM niet beter presteren dan willekeurig shuffelen.
Dynamisch programmeren (DP) algoritmen voor combinatorische optimalisatieproblemen werken met maximalisatie, minimalisatie en klassieke optelling in hun recursie-algoritmen. De bijbehorende waardefuncties corresponderen met convexe veelvlakken in de max-plus semiring. Bestaande Neural Algorithmic Reasoning modellen vertrouwen echter op softmax-genormaliseerde dot-product aandacht, waarbij de vloeiende exponentiële weging deze scherpe veelvlakstructuren vervaagt en ineenstort bij evaluatie in out-of-distribution (OOD) instellingen. We introduceren Tropische aandacht, een nieuwe aandachtfunctie die van nature opereert in de max-plus semiring van tropische meetkunde. We bewijzen dat Tropische aandacht tropische circuits van DP-type combinatorische algoritmen kan benaderen. We stellen vervolgens voor dat het gebruik van Tropische transformatoren de empirische OOD-prestaties verbetert, zowel in lengtegeneralizatie als waardegeneralizatie, bij algoritmische redeneertaken, waarbij softmax-baselines worden overtroffen terwijl ze stabiel blijven onder adversariële aanvallen. We presenteren ook adversariële-aanvalgeneralizatie als een derde as voor Neural Algorithmic Reasoning benchmarking. Onze resultaten tonen aan dat Tropische aandacht het scherpe, schaalinvariante redeneren herstelt dat afwezig is bij softmax.
Grote taalmmodellen (LLMs) worden steeds meer erkend als krachtige hulpmiddelen voor wetenschappelijke ontdekkingen, met name in de moleculaire wetenschap. Een fundamentele vereiste voor deze modellen is het vermogen om moleculaire structuren nauwkeurig te begrijpen, die doorgaans worden gecodeerd in de SMILES-representatie. Huidige LLMs hebben echter moeite met het interpreteren van SMILES, en slagen er zelfs niet in om basistaken uit te voeren, zoals het tellen van moleculaire ringen. Om deze beperking aan te pakken, introduceren we CLEANMOL, een nieuw raamwerk dat het parsen van SMILES formuleert als een reeks schone en deterministische taken die expliciet zijn ontworpen om begrip op grafenniveau van moleculen te bevorderen. Deze taken variëren van subgraafmatching tot globale graafmatching, en bieden gestructureerde begeleiding die is afgestemd op moleculaire structurele eigenschappen. We construeren een moleculair voor-trainingsdataset met adaptieve moeilijkheidsscores en trainen open-source LLMs voor op deze taken. Onze resultaten tonen aan dat CLEANMOL niet alleen het structurele begrip verbetert, maar ook de beste prestaties levert of concurreert met de baseline op de Mol-Instructions benchmark.
Het begrijpen van de bronnen van onzekerheid van een model ten aanzien van zijn voorspellingen is cruciaal voor effectieve mens-AI-samenwerking. Eerdere onderzoeken stellen het gebruik van numerieke onzekerheid of terughoudende formuleringen ("Ik weet het niet zeker, maar ...") voor, die echter geen verklaring bieden voor onzekerheid die voortkomt uit tegenstrijdig bewijs, waardoor gebruikers niet in staat zijn om meningsverschillen op te lossen of op de uitvoer te vertrouwen. Wij introduceren CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), het eerste framework dat natuurlijke taaluitleg genereert over modelonzekerheid door (i) relaties te identificeren tussen tekstfragmenten die claim-bewijs- of interbewijsconflicten en overeenkomsten blootleggen die de voorspellende onzekerheid van het model op een onbewaakte manier sturen, en (ii) uitleg te genereren via prompting en aandachtsturing die deze kritieke interacties verwoorden. Over drie taalmodelen en twee factcheck-datasets tonen we aan dat CLUE uitleg produceert die trouwer is aan de onzekerheid van het model en consistenter met factcheck-beslissingen dan het vragen naar onzekerheidsuitleg zonder begeleiding van fragmentinteracties. Menselijke beoordelaars vinden onze uitleg nuttiger, informatiever, minder redundant en logischer consistent met de invoer dan deze baseline. CLUE vereist geen fine-tuning of architectuurwijzigingen, waardoor het plug-and-play is voor elk white-box taalmodel. Door onzekerheid expliciet te koppelen aan bewijsconflicten, biedt het praktische ondersteuning voor factchecking en generaliseert het gemakkelijk naar andere taken die redeneren over complexe informatie vereisen.
Vision Transformers (ViTs) zijn naar voren gekomen als de dominante architectuur voor visuele verwerkingstaken, waarbij ze uitstekende schaalbaarheid demonstreren met toenemende trainingsdata en modelgrootte. Recent onderzoek heeft echter het ontstaan van artefacttokens in ViTs geïdentificeerd die niet overeenkomen met de lokale semantiek. Deze afwijkende tokens verminderen de prestaties van ViTs bij taken die fijnmazige lokalisatie of structurele samenhang vereisen. Een effectieve oplossing voor dit probleem is het toevoegen van registertokens aan ViTs, die tijdens de training impliciet de artefacttermen "absorberen". Gezien de beschikbaarheid van verschillende grootschalige vooraf getrainde ViTs, is het doel van dit artikel om deze uit te rusten met dergelijke registertokens zonder ze vanaf nul opnieuw te moeten trainen, wat gezien hun omvang onhaalbaar is. Specifiek stellen we Post Hoc Registers (PH-Reg) voor, een efficiënte zelfdistillatiemethode die registers integreert in een bestaande ViT zonder extra gelabelde data en volledige hertraining nodig te hebben. PH-Reg initialiseert zowel het leraren- als het studentennetwerk vanuit dezelfde vooraf getrainde ViT. De leraar blijft bevroren en ongemodificeerd, terwijl de student wordt uitgebreid met willekeurig geïnitialiseerde registertokens. Door test-time augmentatie toe te passen op de inputs van de leraar, genereren we gedenoiseerde dichte embeddings zonder artefacten, die vervolgens worden gebruikt om alleen een kleine subset van ontgrendelde studentgewichten te optimaliseren. We laten zien dat onze aanpak effectief het aantal artefacttokens kan verminderen, waardoor de segmentatie en dieptevoorspelling van de student-ViT verbetert onder zero-shot en lineaire probing.
Eiwit-taalmodellen (PLM's) zijn naar voren gekomen als krachtige hulpmiddelen om complexe patronen in eiwitsequenties te detecteren. Het vermogen van PLM's om informatie over eiwitsequenties volledig vast te leggen, kan echter beperkt worden door zich te richten op enkele voorafgaande trainings taken. Hoewel het toevoegen van datamodaliteiten of begeleide doelen de prestaties van PLM's kan verbeteren, blijft de voorafgaande training vaak gericht op het verwijderen van ruis uit beschadigde sequenties. Om de grenzen van PLM's te verleggen, heeft ons onderzoek een multi-task voorafgaande trainingsstrategie onderzocht. We ontwikkelden Ankh3, een model dat gezamenlijk is geoptimaliseerd voor twee doelen: gemaskeerde taalmodellering met meerdere maskeringskansen en het voltooien van eiwitsequenties, waarbij alleen eiwitsequenties als invoer worden gebruikt. Deze multi-task voorafgaande training toonde aan dat PLM's rijkere en meer generaliseerbare representaties kunnen leren, uitsluitend vanuit eiwitsequenties. De resultaten toonden verbeterde prestaties in downstream taken, zoals secundaire structuurvoorspelling, fluorescentie, GB1-fitness en contactvoorspelling. De integratie van meerdere taken gaf het model een uitgebreider begrip van eiwiteigenschappen, wat leidde tot robuustere en nauwkeurigere voorspellingen.
De differentiële diagnose van neurodegeneratieve dementieën is een uitdagende klinische taak, vooral vanwege de overlap in symptoompresentatie en de gelijkenis van patronen die worden waargenomen bij structurele neuroimaging. Om de diagnostische efficiëntie en nauwkeurigheid te verbeteren, zijn deep learning-methoden zoals Convolutionale Neurale Netwerken en Vision Transformers voorgesteld voor de automatische classificatie van hersen-MRI's. Desondanks vinden deze modellen, ondanks hun sterke voorspellende prestaties, beperkte klinische toepassing vanwege hun ondoorzichtige besluitvorming. In dit werk stellen we een raamwerk voor dat twee kerncomponenten integreert om de diagnostische transparantie te verbeteren. Ten eerste introduceren we een modulaire pijplijn voor het omzetten van 3D T1-gewogen hersen-MRI's in tekstuele radiologieverslagen. Ten tweede onderzoeken we het potentieel van moderne Large Language Models (LLMs) om clinici te ondersteunen bij de differentiële diagnose tussen subtypen van frontotemporale dementie, de ziekte van Alzheimer en normale veroudering op basis van de gegenereerde verslagen. Om de kloof tussen voorspellende nauwkeurigheid en verklaarbaarheid te overbruggen, gebruiken we reinforcement learning om diagnostische redenering in LLMs te stimuleren. Zonder dat er begeleide redeneersporen of distillatie van grotere modellen nodig is, maakt onze aanpak het mogelijk dat gestructureerde diagnostische redeneringen ontstaan die gebaseerd zijn op neuroimaging-bevindingen. In tegenstelling tot post-hoc verklaarbaarheidsmethoden die achteraf modelbeslissingen rechtvaardigen, genereert ons raamwerk diagnostische redeneringen als onderdeel van het inferentieproces, waardoor causale verklaringen worden geproduceerd die het besluitvormingsproces van het model informeren en sturen. Hierdoor evenaart ons raamwerk de diagnostische prestaties van bestaande deep learning-methoden, terwijl het redeneringen biedt die de diagnostische conclusies ondersteunen.
Eiwit-eiwitinteracties (PPI's) zijn fundamenteel voor tal van cellulaire processen, en hun karakterisering is essentieel voor het begrijpen van ziekte mechanismen en het begeleiden van medicijnontdekking. Hoewel eiwit-taalmodellen (PLM's) opmerkelijke successen hebben geboekt in het voorspellen van eiwitstructuur en -functie, blijft hun toepassing op sequentiegebaseerde voorspelling van PPI-bindingsaffiniteit relatief onderbelicht. Dit gat wordt vaak toegeschreven aan het gebrek aan hoogwaardige, rigoureus verfijnde datasets en de afhankelijkheid van eenvoudige strategieën voor het samenvoegen van eiwitrepresentaties. In dit werk gaan we deze beperkingen aanpakken. Ten eerste introduceren we een zorgvuldig samengestelde versie van de PPB-Affinity dataset met in totaal 8.207 unieke eiwit-eiwitinteractievermeldingen, door annotatie-inconsistenties en dubbele vermeldingen voor multi-keten eiwitinteracties op te lossen. Deze dataset bevat een strikte, minder dan of gelijk aan 30%, sequentie-identiteitsdrempel om een robuuste splitsing in trainings-, validatie- en test sets te garanderen, waardoor datalekken worden geminimaliseerd. Ten tweede stellen we vier architecturen voor en evalueren deze systematisch voor het aanpassen van PLM's aan PPI-bindingsaffiniteitsvoorspelling: concatenatie van embeddings (EC), concatenatie van sequenties (SC), hiërarchische pooling (HP), en pooled attention addition (PAD). Deze architecturen werden beoordeeld met behulp van twee trainingsmethoden: volledige fine-tuning en een lichtgewicht benadering die ConvBERT-heads gebruikt over bevroren PLM-kenmerken. Onze uitgebreide experimenten met meerdere toonaangevende PLM's (ProtT5, ESM2, Ankh, Ankh2 en ESM3) toonden aan dat de HP- en PAD-architecturen consequent beter presteren dan conventionele concatenatiemethoden, met een verbetering van tot 12% in termen van Spearman-correlatie. Deze resultaten benadrukken de noodzaak van geavanceerde architectonische ontwerpen om de mogelijkheden van PLM's volledig te benutten voor genuanceerde PPI-bindingsaffiniteitsvoorspelling.