Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk presenteren we Qwen3, de nieuwste versie van de Qwen-modelreeks. Qwen3 bestaat uit een reeks grote taalmodelen (LLM's) die zijn ontworpen om prestaties, efficiëntie en meertalige mogelijkheden te verbeteren. De Qwen3-reeks omvat modellen met zowel dense als Mixture-of-Expert (MoE) architecturen, met parameterschalen variërend van 0,6 tot 235 miljard. Een belangrijke innovatie in Qwen3 is de integratie van de denkmodus (voor complexe, meerstaps redenering) en de niet-denkmodus (voor snelle, contextgestuurde reacties) in een uniform raamwerk. Hierdoor is het niet langer nodig om te schakelen tussen verschillende modellen—zoals chat-geoptimaliseerde modellen (bijv. GPT-4o) en gespecialiseerde redeneermodellen (bijv. QwQ-32B)—en maakt het dynamische modusschakeling mogelijk op basis van gebruikersvragen of chatsjablonen. Tegelijkertijd introduceert Qwen3 een denkbudgetmechanisme, waarmee gebruikers rekenbronnen adaptief kunnen toewijzen tijdens inferentie, waardoor latentie en prestaties in balans worden gebracht op basis van de taakcomplexiteit. Bovendien verminderen we, door gebruik te maken van de kennis van de vlaggenschipmodellen, de benodigde rekenbronnen voor het bouwen van kleinschaligere modellen aanzienlijk, terwijl we hun zeer competitieve prestaties waarborgen. Empirische evaluaties tonen aan dat Qwen3 state-of-the-art resultaten behaalt op diverse benchmarks, inclusief taken in codegeneratie, wiskundige redenering, agenttaken, enz., en concurreert met grotere MoE-modellen en propriëtaire modellen. Vergeleken met zijn voorganger Qwen2.5 breidt Qwen3 de meertalige ondersteuning uit van 29 naar 119 talen en dialecten, waardoor de wereldwijde toegankelijkheid wordt vergroot door verbeterde cross-linguale begrips- en generatiecapaciteiten. Om reproduceerbaarheid en gemeenschapsgedreven onderzoek en ontwikkeling te faciliteren, zijn alle Qwen3-modellen publiekelijk toegankelijk onder Apache 2.0.
Om de veiligheid van VLMs te verbeteren, introduceert dit artikel een nieuw redeneergebaseerd VLM-beveiligingsmodel genaamd GuardReasoner-VL. De kernidee is om het beveiligingsmodel aan te moedigen om bewust te redeneren voordat het moderatiebeslissingen neemt via online RL. Eerst construeren we GuardReasoner-VLTrain, een redeneercorpus met 123K samples en 631K redeneerstappen, die tekst-, beeld- en tekst-beeldinputs omvat. Vervolgens starten we het redeneervermogen van ons model koud op via SFT. Daarnaast verbeteren we het redeneren over moderatie verder via online RL. Concreet voeren we, om de diversiteit en moeilijkheidsgraad van de samples te vergroten, afwijzingssteekproeven uit, gevolgd door data-augmentatie via de voorgestelde veiligheidsbewuste dataconcatenatie. Bovendien gebruiken we een dynamische afkapparameter om exploratie in de vroege fasen en exploitatie in de latere fasen aan te moedigen. Om prestaties en token-efficiëntie in balans te brengen, ontwerpen we een lengtebewuste veiligheidsbeloning die nauwkeurigheid, formaat en tokenkosten integreert. Uitgebreide experimenten tonen de superioriteit van ons model aan. Opmerkelijk is dat het de runner-up gemiddeld met 19,27% F1-score overtreft. We publiceren de data, code en modellen (3B/7B) van GuardReasoner-VL op https://github.com/yueliu1999/GuardReasoner-VL/.
Recente vooruitgang in Large Language Models (LLM's) en hun multimodale uitbreidingen (MLLM's) heeft de machine-redenering aanzienlijk verbeterd voor diverse taken. Deze modellen vertrouwen echter voornamelijk op pure tekst als medium voor zowel het uitdrukken als structureren van redeneringen, zelfs wanneer visuele informatie aanwezig is. In dit werk beargumenteren we dat taal niet altijd de meest natuurlijke of effectieve modaliteit is voor redeneringen, met name bij taken die ruimtelijke en geometrische informatie betreffen. Gemotiveerd door dit inzicht stellen we een nieuw paradigma voor, Visuele Planning, dat planning mogelijk maakt via puur visuele representaties, onafhankelijk van tekst. In dit paradigma wordt planning uitgevoerd via reeksen afbeeldingen die stap-voor-stap redeneringen in het visuele domein coderen, vergelijkbaar met hoe mensen toekomstige acties schetsen of visualiseren. We introduceren een nieuw reinforcement learning-framework, Visuele Planning via Reinforcement Learning (VPRL), ondersteund door GRPO voor het na-trainen van grote vision-modellen, wat leidt tot aanzienlijke verbeteringen in planning in een selectie van representatieve visuele navigatietaken: FrozenLake, Maze en MiniBehavior. Ons visuele planning-paradigma presteert beter dan alle andere planningvarianten die redeneringen in de tekstuele ruimte uitvoeren. Onze resultaten vestigen Visuele Planning als een levensvatbaar en veelbelovend alternatief voor taalgebaseerde redeneringen, wat nieuwe mogelijkheden opent voor taken die baat hebben bij intuïtieve, beeldgebaseerde inferentie.
De snelle uitbreiding van contextvensters in grote visueel-taalkundige modellen heeft geleid tot lang-context visueel-taalkundige modellen (LCVLMs), die in staat zijn om honderden afbeeldingen met afgewisselde teksttokens in één enkele voorwaartse doorloop te verwerken. In dit werk introduceren we MMLongBench, de eerste benchmark die een diverse set van lang-context visueel-taalkundige taken omvat, om LCVLMs effectief en grondig te evalueren. MMLongBench bestaat uit 13.331 voorbeelden die vijf verschillende categorieën van downstream taken beslaan, zoals Visual RAG en Many-Shot ICL. Het biedt ook een brede dekking van afbeeldingstypen, waaronder diverse natuurlijke en synthetische afbeeldingen. Om de robuustheid van de modellen voor verschillende invoerlengtes te beoordelen, worden alle voorbeelden geleverd op vijf gestandaardiseerde invoerlengtes (8K-128K tokens) via een cross-modale tokenisatieschema dat visuele patches en teksttokens combineert. Door een grondige benchmarking van 46 closed-source en open-source LCVLMs, bieden we een uitgebreide analyse van de huidige modellen in hun visueel-taalkundige lang-context vermogen. Onze resultaten tonen aan dat: i) prestaties op een enkele taak een zwakke proxy zijn voor het algehele lang-context vermogen; ii) zowel closed-source als open-source modellen uitdagingen ondervinden in lang-context visueel-taalkundige taken, wat wijst op aanzienlijke ruimte voor toekomstige verbetering; iii) modellen met een sterker redeneervermogen de neiging hebben om beter te presteren in lang-context taken. Door brede taakdekking, diverse afbeeldingstypen en rigoureuze lengtecontrole te bieden, biedt MMLongBench de ontbrekende basis voor het diagnosticeren en bevorderen van de volgende generatie LCVLMs.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de kracht aangetoond van redeneren via zelf gegenereerde gedachteketens. Meerdere redeneeragenten kunnen samenwerken om de gezamenlijke redeneerkwaliteit boven individuele resultaten uit te tillen. Dergelijke agenten interacteren echter meestal op een beurtgebaseerde manier, waarbij ze verhoogde latentie inruilen voor verbeterde kwaliteit. In dit artikel stellen we Group Think voor—een enkel LLM dat fungeert als meerdere gelijktijdige redeneeragenten, of denkers. Met gedeelde zichtbaarheid in elkaars gedeeltelijke voortgang bij het genereren, introduceert Group Think een nieuw gelijktijdig-redeneerparadigma waarin meerdere redeneertrajecten dynamisch op elkaar inspelen op tokenniveau. Een redeneerdraad kan bijvoorbeeld halverwege een zin zijn generatie aanpassen wanneer hij detecteert dat een andere draad beter gepositioneerd is om door te gaan. Deze fijnmazige, tokenniveau-samenwerking stelt Group Think in staat om redundante redenering te verminderen en de kwaliteit te verbeteren, terwijl het aanzienlijk lagere latentie bereikt. Bovendien maakt de gelijktijdige aard ervan efficiënt gebruik van inactieve rekenbronnen mogelijk, waardoor het bijzonder geschikt is voor edge-inferentie, waar zeer kleine batchgroottes vaak lokale GPU's onderbenutten. We geven een eenvoudige en generaliseerbare aanpassing die elk bestaand LLM in staat stelt om Group Think uit te voeren op een lokale GPU. We presenteren ook een evaluatiestrategie om redeneerlatentie te benchmarken en demonstreren empirisch latentieverbeteringen met open-source LLM's die niet expliciet zijn getraind voor Group Think. We hopen dat dit werk de weg effent voor toekomstige LLM's om meer verfijnd en efficiënter samenwerkingsgedrag te vertonen voor generatie van hogere kwaliteit.
Vision-language modellen (VLMs) hebben opmerkelijke successen behaald in diverse taken door gebruik te maken van rijke tekstuele informatie met minimale gelabelde data. Het inzetten van dergelijke grote modellen blijft echter een uitdaging, vooral in omgevingen met beperkte middelen. Knowledge distillation (KD) biedt een goed gevestigde oplossing voor dit probleem; recente KD-benaderingen vanuit VLMs omvatten echter vaak meertraps training of aanvullende afstemming, wat de rekenkosten en optimalisatiecomplexiteit verhoogt. In dit artikel stellen we \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (texttt{DHO}) voor -- een eenvoudig maar effectief KD-raamwerk dat kennis overdraagt van VLMs naar compacte, taakspecifieke modellen in semi-gesuperviseerde settings. Specifiek introduceren we dubbele voorspellingskoppen die onafhankelijk leren van gelabelde data en voorspellingen van de leraar, en stellen we voor om hun uitvoer lineair te combineren tijdens de inferentie. We observeren dat DHO gradientconflicten tussen gesuperviseerde en distillatiesignalen vermindert, waardoor effectievere feature learning mogelijk wordt dan bij single-head KD-baselines. Als resultaat tonen uitgebreide experimenten aan dat DHO consistent beter presteert dan baselines in meerdere domeinen en fijnmazige datasets. Opvallend is dat het op ImageNet state-of-the-art prestaties behaalt, met een nauwkeurigheidsverbetering van 3% en 0,1% bij respectievelijk 1% en 10% gelabelde data, terwijl het minder parameters gebruikt.
Model merging maakt het mogelijk om de capaciteiten van bestaande modellen te combineren in een nieuw model - achteraf, zonder aanvullende training. Dit heeft het steeds populairder gemaakt dankzij de lage kosten en de beschikbaarheid van bibliotheken die merging ondersteunen op consumenten-GPU's. Recent onderzoek toont aan dat het combineren van merging met evolutionaire algoritmen de prestaties kan verbeteren, maar er is momenteel geen framework dat flexibel experimenteren met dergelijke strategieën in taalmodellen ondersteunt. Wij introduceren Mergenetic, een open-source bibliotheek voor evolutionaire model merging. Mergenetic maakt het eenvoudig om merging-methoden en evolutionaire algoritmen te combineren, terwijl het lichtgewicht fitness-schatters integreert om de evaluatiekosten te verlagen. We beschrijven het ontwerp en demonstreren dat Mergenetic competitieve resultaten oplevert over verschillende taken en talen met bescheiden hardware.
Multi-token predictie is naar voren gekomen als een veelbelovend doel voor het verbeteren van het vooraf trainen van taalmodelen, maar de voordelen ervan zijn niet consistent gegeneraliseerd naar andere instellingen, zoals fine-tuning. In dit artikel stellen we MuToR voor, een eenvoudige en effectieve benadering van multi-token predictie die leerbare registertokens in de invoerreeks verweeft, elk belast met het voorspellen van toekomstige doelen. In vergelijking met bestaande methoden biedt MuToR verschillende belangrijke voordelen: het introduceert slechts een verwaarloosbaar aantal extra parameters, vereist geen architectuurwijzigingen—wat compatibiliteit met kant-en-klare vooraf getrainde taalmodelen garandeert—en blijft afgestemd op het next-token pretrainingsdoel, waardoor het bijzonder geschikt is voor supervised fine-tuning. Bovendien ondersteunt het op natuurlijke wijze schaalbare voorspellingshorizons. We demonstreren de effectiviteit en veelzijdigheid van MuToR in een reeks use cases, waaronder supervised fine-tuning, parameter-efficiënt fine-tuning (PEFT), en pretraining, op uitdagende generatieve taken in zowel taal- als visiedomeinen. Onze code zal beschikbaar zijn op: https://github.com/nasosger/MuToR.
Grote taalmodellen (LLMs) hebben sterke prestaties getoond in een breed scala aan programmeertaken, maar hun potentieel voor code-optimalisatie blijft onderbelicht. Dit onderzoek onderzoekt of LLMs de prestaties van assemblycode kunnen optimaliseren, waar fijnmazige controle over de uitvoering verbeteringen mogelijk maakt die moeilijk uit te drukken zijn in hogere programmeertalen. We presenteren een reinforcement learning-framework dat LLMs traint met Proximal Policy Optimization (PPO), geleid door een beloningsfunctie die zowel functionele correctheid, gevalideerd via testgevallen, als uitvoeringsprestaties ten opzichte van de industrienorm gcc -O3 in overweging neemt. Om deze studie te ondersteunen, introduceren we een benchmark van 8.072 real-world programma's. Ons model, Qwen2.5-Coder-7B-PPO, behaalt een testslaagpercentage van 96,0% en een gemiddelde snelheidswinst van 1,47x ten opzichte van de gcc -O3-basislijn, en overtreft alle 20 andere geëvalueerde modellen, waaronder Claude-3.7-sonnet. Deze resultaten geven aan dat reinforcement learning het potentieel van LLMs kan ontsluiten om effectieve optimalisatoren te zijn voor de prestaties van assemblycode.
Geautomatiseerd Bewijzen van Stellingen (Automated Theorem Proving, ATP) in formele talen blijft een formidabele uitdaging in AI, waarbij rigoureuze logische deductie en het navigeren door enorme zoekruimten vereist zijn. Hoewel grote taalmmodellen (Large Language Models, LLMs) veelbelovende prestaties hebben getoond, kampen bestaande stapsgewijze bewijssystemen vaak met bevooroordeelde zoekbegeleiding, wat leidt tot inefficiënties en suboptimale bewijsstrategieën. Dit artikel introduceert de Multi-Perspective Search Prover (MPS-Prover), een nieuw stapsgewijs ATP-systeem dat ontworpen is om deze beperkingen te overwinnen. MPS-Prover bevat twee belangrijke innovaties: een zeer effectieve strategie voor het cureren van post-trainingsdata die ongeveer 40% van de redundante trainingsdata verwijdert zonder prestaties te verliezen, en een multi-perspectief boomzoekmechanisme. Dit zoekmechanisme integreert een geleerd criticusmodel met strategisch ontworpen heuristische regels om de selectie van tactieken te diversifiëren, te voorkomen dat het systeem vastloopt in onproductieve staten, en de robuustheid van het zoeken te vergroten. Uitgebreide evaluaties tonen aan dat MPS-Prover state-of-the-art prestaties behaalt op meerdere uitdagende benchmarks, waaronder miniF2F en ProofNet, en daarbij eerdere modellen met 7B parameters overtreft. Bovendien laten onze analyses zien dat MPS-Prover aanzienlijk kortere en meer diverse bewijzen genereert in vergelijking met bestaande stapsgewijze en hele-bewijs methoden, wat de efficiëntie en effectiviteit ervan benadrukt. Ons werk bevordert de mogelijkheden van LLM-gebaseerd formeel redeneren en biedt een robuust raamwerk en een uitgebreide analyse voor het ontwikkelen van krachtigere bewijssystemen.
Ondanks de snelle vooruitgang in de mogelijkheden van generatieve modellen, hebben vooraf getrainde tekst-naar-beeldmodellen nog steeds moeite met het vastleggen van de semantiek die wordt overgebracht door complexe prompts die meerdere objecten en attributen op instanceniveau combineren. Als gevolg hiervan zien we een groeiende interesse in het integreren van extra structurele beperkingen, meestal in de vorm van ruwe begrenzingsvakken, om het generatieproces in dergelijke uitdagende gevallen beter te sturen. In dit werk nemen we het idee van structurele begeleiding een stap verder door de observatie te maken dat hedendaagse beeldgeneratiemodellen direct een plausibele fijnmazige structurele initialisatie kunnen bieden. We stellen een techniek voor die deze beeldgebaseerde structurele begeleiding koppelt aan LLM-gebaseerde instructies op instanceniveau, wat resulteert in uitvoerbeelden die voldoen aan alle delen van de tekstprompt, inclusief objectaantallen, attributen op instanceniveau en ruimtelijke relaties tussen instanties.
Recente studies over de redeneervaardigheden van grote taalmodellen (LLM's) hebben veelbelovende verbeteringen in modelprestaties aangetoond door gebruik te maken van een uitgebreid denkproces en extra rekenbronnen tijdens inferentie, voornamelijk bij taken die wiskundig redeneren betreffen (Muennighoff et al., 2025). Het blijft echter onzeker of langere redeneerketens inherent de feitelijke nauwkeurigheid verbeteren, vooral buiten wiskundige contexten. In dit werk onderzoeken we grondig het redeneren van LLM's binnen complexe open-domein vraag-antwoord (QA) scenario's. We destilleren eerst redeneersporen uit geavanceerde, grootschalige redeneermodellen (QwQ-32B en DeepSeek-R1-671B), en fine-tunen vervolgens een verscheidenheid aan modellen, variërend van kleinere, instructie-getunede varianten tot grotere architecturen gebaseerd op Qwen2.5. Om de redeneersporen te verrijken, introduceren we feitelijke informatie uit kennisgrafieken in de vorm van paden in onze redeneersporen. Onze experimentele opzet omvat vier baseline-benaderingen en zes verschillende instructie-getunede modellen die worden geëvalueerd op een benchmark van zes datasets, met meer dan 22.6K vragen. In totaal voeren we 168 experimentele runs uit en analyseren we ongeveer 1.7 miljoen redeneersporen. Onze bevindingen geven aan dat, binnen een enkele run, kleinere redeneermodellen aanzienlijke verbeteringen in feitelijke nauwkeurigheid bereiken in vergelijking met hun oorspronkelijke instructie-getunede tegenhangers. Bovendien toont onze analyse aan dat het toevoegen van rekenkracht en tokenbudgets tijdens de testfase de feitelijke nauwkeurigheid consistent verbetert met 2-8%, wat verder bevestigt dat test-time scaling effectief is voor het verbeteren van prestaties en daarmee de redeneernauwkeurigheid in open-domein QA-taken. We stellen alle experimentele artefacten beschikbaar voor verder onderzoek.
Grote taalmodellen (LLM's) worden steeds vaker toegepast op vragen binnen de materiaalkunde, waaronder literatuurinterpretatie, eigenschapsvoorspelling, materiaalontdekking en legeringsontwerp. Tegelijkertijd is er een breed scala aan fysica-gebaseerde computationele benaderingen ontwikkeld waarmee materiaaleigenschappen kunnen worden berekend. Hier stellen we een benchmarktoepassing voor om de vaardigheid van LLM's te evalueren bij het beantwoorden van materiaalkundevragen door het genereren en veilig uitvoeren van codes gebaseerd op dergelijke fysica-gebaseerde computationele materiaalkundepakketten. MatTools is gebouwd op twee complementaire componenten: een benchmark voor vraag-antwoord (QA) over materiaalsimulatietools en een benchmark voor het gebruik van tools in de praktijk. We hebben een geautomatiseerde methodologie ontworpen om efficiënt voorbeelden van het gebruik van materiaalkundetools in de praktijk te verzamelen. De QA-benchmark, afgeleid van de pymatgen (Python Materials Genomics) codebase en documentatie, omvat 69.225 QA-paren die het vermogen van een LLM om materiaalkundetools te begrijpen beoordelen. De benchmark voor de praktijk bevat 49 taken (138 subtaken) die het genereren van functionele Python-code vereisen voor het berekenen van materiaaleigenschappen. Onze evaluatie van diverse LLM's levert drie belangrijke inzichten op: (1) Generalisten overtreffen specialisten; (2) AI kent AI; en (3) Eenvoudiger is beter. MatTools biedt een gestandaardiseerd raamwerk voor het beoordelen en verbeteren van de mogelijkheden van LLM's voor toepassingen van materiaalkundetools, wat de ontwikkeling van effectievere AI-systemen voor materiaalkunde en algemeen wetenschappelijk onderzoek vergemakkelijkt.
Naarmate Large Language Models (LLM's) zich integreren in onze sociale en economische interacties, is het nodig om ons begrip te verdiepen van hoe mensen reageren op LLM's in strategische situaties. We presenteren de resultaten van het eerste gecontroleerde, monetair gestimuleerde laboratoriumexperiment dat kijkt naar verschillen in menselijk gedrag in een multi-player p-beauty contest tegen andere mensen en LLM's. We gebruiken een within-subject ontwerp om gedrag op individueel niveau te vergelijken. We laten zien dat, in deze omgeving, menselijke proefpersonen significant lagere getallen kiezen wanneer ze tegen LLM's spelen dan tegen mensen, wat voornamelijk wordt gedreven door de toegenomen prevalentie van 'nul' Nash-evenwichtkeuzes. Deze verschuiving wordt vooral veroorzaakt door proefpersonen met een hoog strategisch redeneervermogen. Proefpersonen die de nul Nash-evenwichtkeuze spelen, motiveren hun strategie door te verwijzen naar het waargenomen redeneervermogen van de LLM en, onverwacht, de neiging tot samenwerking. Onze bevindingen bieden fundamentele inzichten in de multi-player interactie tussen mens en LLM in simultane keuzespellen, onthullen heterogeniteiten in zowel het gedrag van proefpersonen als hun overtuigingen over het spel van LLM's wanneer ze tegen hen spelen, en suggereren belangrijke implicaties voor mechanismeontwerp in gemengde mens-LLM-systemen.
Het bewerken van afbeeldingen met behulp van natuurlijke taal instructies is een natuurlijke en expressieve manier geworden om visuele inhoud aan te passen; toch blijft het evalueren van de prestaties van dergelijke modellen een uitdaging. Bestaande evaluatiemethoden vertrouwen vaak op beeld-tekst gelijkenismetrieken zoals CLIP, die gebrek aan precisie hebben. In dit werk introduceren we een nieuwe benchmark die is ontworpen om tekstgestuurde beeldbewerkingsmodellen op een meer gefundeerde manier te evalueren, langs twee kritische dimensies: (i) functionele correctheid, beoordeeld via automatisch gegenereerde meerkeuzevragen die verifiëren of de beoogde wijziging succesvol is toegepast; en (ii) behoud van beeldinhoud, wat ervoor zorgt dat niet-doelgerichte regio's van de afbeelding visueel consistent blijven met behulp van een objectbewuste maskeringstechniek en behoudsscore. De benchmark omvat meer dan 1000 hoogwaardige bewerkingsvoorbeelden over 20 diverse inhoudscategorieën, elk geannoteerd met gedetailleerde bewerkingsinstructies, evaluatievragen en ruimtelijke objectmaskers. We voeren een grootschalige studie uit waarin GPT-Image-1, het nieuwste vlaggenschip in het tekstgestuurde beeldbewerkingsdomein, wordt vergeleken met verschillende state-of-the-art bewerkingsmodellen, en valideren onze automatische metrieken tegen menselijke beoordelingen. De resultaten tonen aan dat GPT-Image-1 leidt in nauwkeurigheid van instructievolging, maar vaak irrelevante beeldregio's overmatig wijzigt, wat een belangrijk afweging in het huidige modelgedrag benadrukt. GIE-Bench biedt een schaalbaar, reproduceerbaar raamwerk voor het bevorderen van nauwkeurigere evaluatie van tekstgestuurde beeldbewerking.
Handen zijn essentieel voor menselijke interactie, en het begrijpen van contact tussen handen en de wereld kan een uitgebreid begrip van hun functie bevorderen. Recentelijk is er een groeiend aantal datasets voor handinteractie beschikbaar gekomen die interactie met objecten, andere handen, scènes en het lichaam omvatten. Ondanks het belang van deze taak en de toenemende beschikbaarheid van hoogwaardige data, blijft de vraag hoe men effectief dichte handcontactschatting kan leren grotendeels onontgonnen. Er zijn twee grote uitdagingen bij het leren van dichte handcontactschatting. Ten eerste is er een klasse-onbalansprobleem in handcontactdatasets, waarbij de meerderheid van de samples geen contact vertoont. Ten tweede bevatten handcontactdatasets een ruimtelijk onbalansprobleem, waarbij het meeste handcontact zich voordoet bij de vingertoppen, wat uitdagingen oplevert voor generalisatie naar contact in andere handregio's. Om deze problemen aan te pakken, presenteren we een raamwerk dat dichte HAnd COntact-schatting (HACO) leert uit onbalansdata. Om het klasse-onbalansprobleem op te lossen, introduceren we gebalanceerde contactsteekproeven, waarbij meerdere steekproefgroepen worden opgebouwd en bemonsterd die diverse contactstatistieken eerlijk vertegenwoordigen voor zowel contact- als niet-contactmonsters. Bovendien stellen we, om het ruimtelijke onbalansprobleem aan te pakken, een vertex-level klasse-gebalanceerd (VCB) verlies voor, dat ruimtelijk variërende contactverdeling incorporeert door het verliesbijdrage van elke vertex afzonderlijk te herwegen op basis van zijn contactfrequentie in de dataset. Als resultaat leren we effectief dichte handcontactschatting te voorspellen met grootschalige handcontactdata zonder te lijden onder klasse- en ruimtelijke onbalansproblemen. De codes zullen worden vrijgegeven.
Nauwkeurige segmentatie van interessegebieden in biomedische afbeeldingen heeft aanzienlijke waarde in beeldanalyse. Hoewel verschillende basis modellen voor biomedische segmentatie momenteel uitstekende prestaties leveren op bepaalde datasets, vertonen ze doorgaans suboptimale prestaties op ongeziene domeindata. Wij schrijven dit tekort toe aan het gebrek aan visie-taal kennis voorafgaand aan de segmentatie. Multimodale Large Language Models (MLLMs) brengen uitstekende begrips- en redeneervermogens naar multimodale taken, wat ons inspireert om MLLMs te gebruiken om Vision-Language Knowledge (VLK) in te brengen, waardoor visie modellen superieure generalisatievermogens kunnen demonstreren op cross-domein datasets. In dit artikel stellen we voor om MLLMs te gebruiken om SAM te begeleiden bij het leren van microscopie cross-domein data, waarbij we Segment Anything in Microscopy verenigen, genaamd uLLSAM. Specifiek stellen we de Vision-Language Semantic Alignment (VLSA) module voor, die VLK injecteert in het Segment Anything Model (SAM). We ontdekken dat nadat SAM globale VLK prompts ontvangt, de prestaties aanzienlijk verbeteren, maar er tekortkomingen zijn in de waarneming van contourgrenzen. Daarom stellen we verder Semantic Boundary Regularization (SBR) voor om SAM te stimuleren. Onze methode behaalt prestatieverbeteringen van 7,71% in Dice en 12,10% in SA over 9 in-domein microscopie datasets, wat state-of-the-art prestaties oplevert. Onze methode toont ook verbeteringen van 6,79% in Dice en 10,08% in SA over 10 out-of-domain datasets, wat sterke generalisatievermogens aantoont. Code is beschikbaar op https://github.com/ieellee/uLLSAM.
We introduceren CheXGenBench, een rigoureus en veelzijdig evaluatiekader voor de generatie van synthetische thoraxfoto's dat tegelijkertijd de getrouwheid, privacyrisico's en klinische bruikbaarheid beoordeelt bij state-of-the-art tekst-naar-beeld generatieve modellen. Ondanks snelle vooruitgang in generatieve AI voor real-world beeldmateriaal, worden evaluaties in de medische sector belemmerd door methodologische inconsistenties, verouderde architectuurvergelijkingen en losstaande beoordelingscriteria die zelden de praktische klinische waarde van synthetische samples aanpakken. CheXGenBench overbrugt deze beperkingen door gestandaardiseerde data-partitionering en een uniform evaluatieprotocol dat meer dan 20 kwantitatieve metrieken omvat, die systematisch de generatiekwaliteit, potentiële privacykwetsbaarheden en downstream klinische toepasbaarheid analyseren over 11 toonaangevende tekst-naar-beeld architecturen. Onze resultaten onthullen kritieke inefficiënties in de bestaande evaluatieprotocollen, met name bij het beoordelen van generatieve getrouwheid, wat leidt tot inconsistente en weinig informatieve vergelijkingen. Ons kader stelt een gestandaardiseerde benchmark vast voor de medische AI-gemeenschap, waardoor objectieve en reproduceerbare vergelijkingen mogelijk worden en een naadloze integratie van zowel bestaande als toekomstige generatieve modellen wordt gefaciliteerd. Daarnaast publiceren we een hoogwaardige synthetische dataset, SynthCheX-75K, bestaande uit 75K radiografieën gegenereerd door het best presterende model (Sana 0.6B) in onze benchmark, om verder onderzoek in dit kritieke domein te ondersteunen. Met CheXGenBench vestigen we een nieuwe state-of-the-art en maken we ons kader, modellen en de SynthCheX-75K dataset beschikbaar op https://raman1121.github.io/CheXGenBench/.
De opkomst van Large Language Models (LLM's) heeft zorgen doen toenemen over het misbruik van AI-gegenereerde tekst, waardoor watermerken een veelbelovende oplossing zijn geworden. Mainstream watermerkingsschema's voor LLM's vallen in twee categorieën: logits-gebaseerd en sampling-gebaseerd. Huidige schema's brengen echter compromissen met zich mee op het gebied van robuustheid, tekstkwaliteit en beveiliging. Om dit te verlichten, integreren we logits-gebaseerde en sampling-gebaseerde schema's, waarbij we hun respectieve sterke punten benutten om synergie te bereiken. In dit artikel stellen we een veelzijdig symbiotisch watermerkingsframework voor met drie strategieën: serieel, parallel en hybride. Het hybride framework past watermerken adaptief in met behulp van token-entropie en semantische entropie, waardoor de balans tussen detecteerbaarheid, robuustheid, tekstkwaliteit en beveiliging wordt geoptimaliseerd. Bovendien valideren we onze aanpak door middel van uitgebreide experimenten op verschillende datasets en modellen. Experimentele resultaten geven aan dat onze methode de bestaande baseline-methoden overtreft en state-of-the-art (SOTA) prestaties bereikt. Wij geloven dat dit framework nieuwe inzichten biedt in diverse watermerkingsparadigma's. Onze code is beschikbaar op https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
Style Transfer met Inferentie-Tijd Optimalisatie (ST-ITO) is een recente aanpak voor het overbrengen van de toegepaste effecten van een referentie-audio naar een ruwe audiotrack. Het optimaliseert de effectparameters om de afstand tussen de stijl-embeddings van de bewerkte audio en de referentie te minimaliseren. Deze methode behandelt echter alle mogelijke configuraties gelijk en vertrouwt uitsluitend op de embeddingruimte, wat kan leiden tot onrealistische of bevooroordeelde resultaten. Wij pakken deze valkuil aan door een Gaussiaanse prior, afgeleid van een vocale presetdataset, DiffVox, in te voeren over de parameterruimte. De resulterende optimalisatie is equivalent aan maximum-a-posteriori-schatting. Evaluaties van vocale effectoverdracht op de MedleyDB-dataset laten significante verbeteringen zien in vergelijking met baseline-methoden, waaronder een blinde audio-effectenschatter, nearest-neighbour-benaderingen en ongekalibreerde ST-ITO. De voorgestelde kalibratie vermindert de gemiddelde kwadratische fout van de parameters met tot wel 33% en past de referentiestijl beter aan. Subjectieve evaluaties met 16 deelnemers bevestigen de superioriteit van onze methode, vooral in situaties met beperkte data. Dit werk toont aan hoe het integreren van voorkennis tijdens de inferentietijd de overdracht van audio-effecten verbetert, wat de weg vrijmaakt voor effectievere en realistischer audioverwerkingssystemen.