Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Depth Anything 3 (DA3), een model dat ruimtelijk consistente geometrie voorspelt uit een willekeurig aantal visuele invoeren, met of zonder bekende cameraposities. In de zoektocht naar minimale modellering levert DA3 twee cruciale inzichten op: een enkele standaard transformer (bijvoorbeeld een vanilla DINO-encoder) is voldoende als backbone zonder architecturale specialisatie, en een enkelvoudig diepte-straal voorspeldoel maakt complexe multi-task learning overbodig. Door ons teacher-student trainingsparadigma bereikt het model een niveau van detail en generalisatie dat gelijk is aan Depth Anything 2 (DA2). Wij stellen een nieuwe visuele geometriebenchmark op die camerapositie-schatting, geometrie vanuit willekeurige gezichtspunten en visueel renderen omvat. Op deze benchmark vestigt DA3 een nieuwe state-of-the-art voor alle taken, waarbij het de vorige SOTA VGGT gemiddeld met 44,3% overtrof in camerapositienauwkeurigheid en met 25,1% in geometrische nauwkeurigheid. Bovendien presteert het beter dan DA2 in monocular depth estimation. Alle modellen zijn uitsluitend getraind op openbare academische datasets.
Een wereldmodel stelt een intelligente agent in staat zich voor te stellen, te voorspellen en te redeneren over hoe de wereld evolueert als reactie op zijn acties, en dienovereenkomstig te plannen en strategieën te ontwikkelen. Hoewel recente videogeneratiemodellen realistische visuele sequenties produceren, werken ze doorgaans op een prompt-naar-volledige-video-manier zonder de causale controle, interactiviteit of consistentie op lange termijn die nodig is voor doelgericht redeneren. Bestaande inspanningen voor wereldmodellering richten zich daarentegen vaak op beperkte domeinen (bijv. fysieke, game- of 3D-scène-dynamiek) met beperkte diepgang en bestuurbaarheid, en hebben moeite om te generaliseren over diverse omgevingen en interactieformaten. In dit werk introduceren we PAN, een algemeen, interactief wereldmodel voor de lange termijn dat toekomstige wereldtoestanden voorspelt via hoogwaardige videosimulatie, geconditioneerd op historie en acties in natuurlijke taal. PAN gebruikt de Generative Latent Prediction (GLP)-architectuur die een autoregressieve latente dynamiek-backbone combineert, gebaseerd op een groot taalmodel (LLM) – wat simulatie verankert in uitgebreide op tekst gebaseerde kennis en conditionering op taalgespecificeerde acties mogelijk maakt – met een videodiffusie-decoder die perceptueel gedetailleerde en temporeel coherente visuele observaties reconstrueert, om een eenwording te bereiken tussen redeneren in de latente ruimte (verbeelding) en realiseerbare werelddynamiek (realiteit). Getraind op grootschalige video-actieparen uit diverse domeinen, ondersteunt PAN open-domein, actie-geconditioneerde simulatie met coherente, langetermijndynamiek. Uitgebreide experimenten tonen aan dat PAN sterke prestaties levert in actie-geconditioneerde wereldsimulatie, voorspelling op lange termijn en simulatief redeneren in vergelijking met andere videogeneratoren en wereldmodellen, waarmee een stap wordt gezet naar algemene wereldmodellen die voorspellende simulatie van toekomstige wereldtoestanden mogelijk maken voor redeneren en handelen.
Diffusiemodellen hebben moeite om te schalen buiten hun trainingsresoluties, aangezien directe hoogwaardige sampling traag en kostbaar is, terwijl post-hoc beeld-superresolutie (ISR) artefacten introduceert en extra latentie veroorzaakt door te opereren na het decoderen. Wij presenteren de Latent Upscaler Adapter (LUA), een lichtgewicht module die superresolutie direct uitvoert op de latente code van de generator vóór de laatste VAE-decoderingstap. LUA integreert als een drop-in component, vereist geen aanpassingen aan het basismodel of extra diffusiefasen, en maakt hoogwaardige synthese mogelijk via een enkele feed-forward pass in de latente ruimte. Een gedeelde Swin-stijl backbone met schaalspecifieke pixel-shuffle heads ondersteunt 2x en 4x factoren en blijft compatibel met beeldruimte SR-baselines, waarbij vergelijkbare perceptuele kwaliteit wordt bereikt met bijna 3x lagere decodering- en upscalingtijd (slechts +0,42 s toevoegend voor 1024 px generatie vanuit 512 px, vergeleken met 1,87 s voor pixelruimte SR met dezelfde SwinIR-architectuur). Bovendien toont LUA sterke generalisatie over de latente ruimtes van verschillende VAEs, waardoor het eenvoudig te implementeren is zonder hertraining vanaf nul voor elke nieuwe decoder. Uitgebreide experimenten tonen aan dat LUA de kwaliteit van native hoogwaardige generatie nauwkeurig benadert, terwijl het een praktische en efficiënte weg biedt naar schaalbare, hoogwaardige beeld synthese in moderne diffusiepijplijnen.
Black-box distillatie creëert student-large language models (LLM's) door uitsluitend te leren van de tekstoutputs van een propriëtaire leraar-model, zonder toegang tot diens interne logits of parameters. In dit werk introduceren we Generative Adversarial Distillation (GAD), wat on-policy en black-box distillatie mogelijk maakt. GAD positioneert de student-LLM als een generator en traint een discriminator om diens antwoorden te onderscheiden van die van de leraar-LLM, waardoor een minimax-spel ontstaat. De discriminator fungeert als een on-policy beloningsmodel dat co-evolueert met de student, waardoor stabiele, adaptieve feedback ontstaat. Experimentele resultaten tonen aan dat GAD consistent de veelgebruikte sequence-level knowledge distillation overtreft. In het bijzonder wordt Qwen2.5-14B-Instruct (student), getraind met GAD, vergelijkbaar met zijn leraar, GPT-5-Chat, in de LMSYS-Chat automatische evaluatie. De resultaten positioneren GAD als een veelbelovend en effectief paradigma voor black-box LLM-distillatie.
Hoewel gespecialiseerde AI-models uitblinken in geïsoleerde videotaken zoals generatie of begrip, vereisen real-world toepassingen complexe, iteratieve workflows die deze capaciteiten combineren. Om deze kloof te overbruggen, introduceren we UniVA, een open-source, veelzijdig multi-agent raamwerk voor de volgende generatie videogeneralisten, dat videobegrip, segmentatie, bewerking en generatie verenigt in samenhangende workflows. UniVA hanteert een Plan-and-Act dual-agent architectuur die een hoogst geautomatiseerde en proactieve workflow aandrijft: een planner-agent interpreteert gebruikersintenties en decomposeert deze in gestructureerde videoverwerkingsstappen, terwijl uitvoerder-agenten deze stappen uitvoeren via modulaire, MCP-gebaseerde toolservers (voor analyse, generatie, bewerking, tracking, etc.). Door middel van een hiërarchisch, multi-level geheugen (globale kennis, taakcontext en gebruikersspecifieke voorkeuren) handhaaft UniVA langetermijnredenering, contextuele continuïteit en inter-agent communicatie, waardoor interactieve en zelfreflecterende videocreatie met volledige traceerbaarheid mogelijk wordt. Dit ontwerp maakt iteratieve en voorwaardenvrije videoworkflows mogelijk (bijv. op tekst/afbeelding/video-geconditioneerde generatie → meerronde bewerking → objectsegmentatie → compositionele synthese) die voorheen omslachtig waren om te bereiken met enkelvoudige modellen of monolitische video-taalmodellen. We introduceren ook UniVA-Bench, een benchmark suite van meerstaps videotaken die begrip, bewerking, segmentatie en generatie omspant, om dergelijke agent-gebaseerde videosystemen rigoureus te evalueren. Zowel UniVA als UniVA-Bench zijn volledig open-source, met als doel onderzoek te katalyseren naar interactieve, agent-gebaseerde en algemene video-intelligentie voor de volgende generatie multimodale AI-systemen. (https://univa.online/)
Group Relative Policy Optimization (GRPO) heeft een grote bruikbaarheid aangetoond bij het na-trainen van Large Language Models (LLM's). In GRPO worden prompts door het model beantwoord en worden geprefereerde voltooiingen aangeleerd via reinforcement learning. Vanwege het kleine communicatievolume is GRPO inherent geschikt voor gedecentraliseerde training, aangezien de prompts gelijktijdig door meerdere nodes kunnen worden beantwoord en vervolgens kunnen worden uitgewisseld in de vorm van strings. In dit werk presenteren we de eerste adversariële aanval in gedecentraliseerde GRPO. We demonstreren dat kwaadwillende partijen dergelijke systemen kunnen vergiftigen door willekeurige kwaadaardige tokens te injecteren in goedaardige modellen, zowel in out-of-context als in-context aanvallen. Aan de hand van empirische voorbeelden van wiskundige en programmeertaken tonen we aan dat adversariële aanvallen eenvoudig de goedaardige nodes kunnen vergiftigen, waardoor hun lokale LLM na-training wordt vervuild, met een aanvalssuccespercentage van tot 100% in slechts 50 iteraties. We stellen twee manieren voor om zich tegen deze aanvallen te verdedigen, afhankelijk van of alle gebruikers hetzelfde model of verschillende modellen trainen. We tonen aan dat deze verdedigingsmaatregelen een stoppercentage van tot 100% kunnen bereiken, waardoor de aanval onmogelijk wordt.
LLM's hebben opmerkelijke doorbraken bereikt op het gebied van redeneren, inzicht en gereedschapsgebruik, maar het aaneenschakelen van deze vaardigheden tot uitgebreide processen op de schaal van wat routinematig wordt uitgevoerd door mensen, organisaties en samenlevingen, is tot nu toe onbereikbaar gebleven. De modellen hebben een hardnekkig foutenpercentage dat opschaling verhindert: recente experimenten in de benchmarkdomain 'Torens van Hanoi' toonden bijvoorbeeld aan dat het proces onvermijdelijk ontspoort na hooguit een paar honderd stappen. Hoewel LLM-onderzoek dus vaak nog wordt getoetst aan taken met relatief weinig afhankelijke logische stappen, is er toenemende aandacht voor het vermogen (of onvermogen) van LLM's om taken op de lange termijn uit te voeren. Dit artikel beschrijft MAKER, het eerste systeem dat een taak met meer dan een miljoen LLM-stappen foutloos oplost en in principe ver voorbij dit niveau kan opschalen. De aanpak berust op een extreme decompositie van een taak in subtaken, die elk kunnen worden aangepakt door gefocuste microagents. De hoge modulariteit die uit de decompositie voortvloeit, maakt foutcorrectie bij elke stap mogelijk via een efficiënt multi-agent stemsysteem. Deze combinatie van extreme decompositie en foutcorrectie maakt schaalvergroting mogelijk. De resultaten suggereren dus dat, in plaats van te vertrouwen op voortdurende verbetering van huidige LLM's, massaal gedecentraliseerde agentprocessen (MDAP's) een manier kunnen bieden om problemen op het niveau van organisaties en samenlevingen efficiënt op te lossen.
Grote taalmodellen hebben aanzienlijke vooruitgang geboekt bij complexe maar eenvoudig te verifiëren problemen, maar ze worstelen nog steeds met het ontdekken van het onbekende. In dit artikel presenteren we AlphaResearch, een autonome onderzoeksagent die is ontworpen om nieuwe algoritmen te ontdekken voor open-einde problemen. Om de haalbaarheid en innovatie van het ontdekkingstraject te versterken, construeren we een nieuwe duale onderzoeksomgeving door een op uitvoering gebaseerde verificatie te combineren met een gesimuleerde peer review-omgeving uit de echte wereld. AlphaResearch ontdekt nieuwe algoritmen door iteratief de volgende stappen uit te voeren: (1) nieuwe ideeën voorstellen, (2) de ideeën verifiëren in de duale onderzoeksomgeving, en (3) de onderzoeksvoorstellen optimaliseren voor betere prestaties. Om een transparant evaluatieproces te bevorderen, ontwikkelen we AlphaResearchComp, een nieuwe evaluatiestandaard die een wedstrijd omvat met acht open-einde algoritmische problemen. Elk probleem is zorgvuldig samengesteld en geverifieerd via uitvoerbare pijplijnen, objectieve metrieken en reproduceerbaarheidscontroles. AlphaResearch behaalt een winstratio van 2/8 in een rechtstreekse vergelijking met menselijke onderzoekers, wat de mogelijkheid aantoont om algoritme-ontdekking te versnellen met grote taalmodellen. Opmerkelijk is dat het door AlphaResearch ontdekte algoritme voor het "cirkels verpakken"-probleem de best-bekende prestatie bereikt, waarbij het de resultaten van menselijke onderzoekers en sterke baseline-methoden uit recent werk (zoals AlphaEvolve) overtreft. Daarnaast voeren we een uitgebreide analyse uit van de resterende uitdagingen in de 6/8 mislukte gevallen, wat waardevolle inzichten biedt voor toekomstig onderzoek.
Grote taalmodelen (LLM's) worden steeds vaker getraind met klassieke optimalisatietechnieken zoals AdamW om convergentie en generalisatie te verbeteren. De mechanismen waarmee kwantum-geïnspireerde methoden klassieke training verbeteren, blijven echter onderbelicht. Wij introduceren Superpositioneel Gradienten Dalen (SGD), een nieuwe optimalisatiemethode die gradientupdates verbindt met kwantumsuperpositie door perturbaties van kwantumcircuits in te brengen. Wij presenteren een wiskundig kader en implementeren hybride kwantum-klassieke circuits in PyTorch en Qiskit. Bij synthetische sequentieclassificatie en grootschalige LLM-finetuning convergeert SGD sneller en resulteert het in een lager finaal verlies dan AdamW. Ondanks veelbelovende resultaten beperken schaalbaarheid en hardwarebeperkingen de adoptie. Al met al biedt dit werk nieuwe inzichten in het snijvlak van kwantumcomputing en deep learning, en suggereert het praktische routes om kwantumprincipes te benutten om modelgedrag te sturen en verbeteren.
Wij introduceren Music Flamingo, een nieuw groot audio-taalmodel dat is ontworpen om muziek- (inclusief liedjes) begrip in fundamentele audiomodellen te bevorderen. Hoewel audio-taalonderzoek een snelle vooruitgang heeft geboekt, blijft muziek uitdagend vanwege zijn dynamische, gelaagde en informatie-intensieve aard. De vooruitgang wordt verder beperkt door de moeilijkheid om open audio-begripsmodellen op te schalen, voornamelijk door de schaarste aan hoogwaardige muziekdata en annotaties. Als gevolg daarvan zijn eerdere modellen beperkt tot het produceren van korte, hoogoverzichtelijke beschrijvingen, het beantwoorden van alleen oppervlakkige vragen, en vertonen ze beperkte generalisatie over diverse muzikale culturen. Om deze uitdagingen aan te pakken, stellen we MF-Skills samen, een grootschalige dataset die gelabeld is via een meerfasenpijplijn, wat rijke beschrijvingen en vraag-antwoordparen oplevert die harmonie, structuur, klankkleur, songteksten en culturele context beslaan. We fine-tunen een verbeterde Audio Flamingo 3-backbone op MF-Skills en versterken verder meerdere vaardigheden die relevant zijn voor muziekbegrip. Om de redeneervermogens van het model te verbeteren, introduceren we een post-training recept: we starten eerst *cold-start* met MF-Think, een nieuwe *chain-of-thought*-dataset gebaseerd op muziektheorie, gevolgd door GRPO-gebaseerde reinforcement learning met aangepaste beloningen. Music Flamingo behaalt state-of-the-art resultaten op meer dan 10 benchmarks voor muziekbegrip en redeneren, en vestigt zichzelf als een generalistisch en muzikaal intelligent audio-taalmodel. Naast sterke empirische resultaten zet Music Flamingo een nieuwe standaard voor geavanceerd muziekbegrip door te demonstreren hoe modellen kunnen verschuiven van oppervlakkige herkenning naar gelaagde, mensachtige perceptie van liedjes. Wij geloven dat dit werk zowel een ijkpunt als een fundament biedt voor de gemeenschap om de volgende generatie modellen te bouwen die even betekenisvol met muziek omgaan als mensen doen.
Deep Research (DR) is een opkomende agenttoepassing die gebruikmaakt van grote taalmmodellen (LLM's) om open vragen te beantwoorden. Het vereist de integratie van verschillende capaciteiten, waaronder multi-stap redeneren, synthese van informatie uit meerdere documenten en het genereren van uitgebreide, op bewijs gestoelde antwoorden. Het evalueren van DR blijft een uitdaging omdat de antwoorden lang en divers zijn, vele geldige oplossingen toelaten en vaak afhankelijk zijn van dynamische informatiebronnen. Wij introduceren ResearchRubrics, een gestandaardiseerde benchmark voor DR, opgebouwd met meer dan 2.800 uur menselijke arbeid. Deze benchmark koppelt realistische, domein-diverse prompts aan meer dan 2.500 expertgeschreven, gedetailleerde rubrics om de feitelijke onderbouwing, de degelijkheid van de redenering en de duidelijkheid te beoordelen. Wij stellen ook een nieuw complexiteitsraamwerk voor voor het categoriseren van DR-taken langs drie assen: conceptuele breedte, logische nesteling en verkenning. Daarnaast ontwikkelen wij op mens en model gebaseerde evaluatieprotocollen die de naleving van de rubrics door DR-agenten meten. Wij evalueren verschillende state-of-the-art DR-systemen en constateren dat zelfs toonaangevende agents zoals Gemini's DR en OpenAI's DR gemiddeld minder dan 68% naleving van onze rubrics bereiken, voornamelijk door het missen van impliciete context en ontoereikende redenering over opgehaalde informatie. Onze resultaten benadrukken de behoefte aan robuuste, schaalbare beoordeling van deep research-capaciteiten. Om hieraan bij te dragen, publiceren wij ResearchRubrics (inclusief alle prompts, rubrics en evaluatiecode) om de vooruitgang naar goed onderbouwde onderzoeksassistenten te vergemakkelijken.
Op instructies gebaseerde beeldbewerkingsmodellen hebben recent indrukwekkende prestaties geleverd, waardoor complexe bewerkingen aan een invoerbeeld mogelijk zijn vanuit een prompt met meerdere instructies. Deze modellen passen elke instructie in de prompt echter toe met een vaste intensiteit, wat de mogelijkheid van de gebruiker beperkt om de sterkte van individuele bewerkingen precies en continu te controleren. Wij introduceren SliderEdit, een raamwerk voor continue beeldbewerking met fijnmazige, interpreteerbare instructiecontrole. Gegeven een meerdelige bewerkinstructie ontwart SliderEdit de individuele instructies en stelt elke instructie bloot als een globaal getrainde schuifregelaar, waarmee de sterkte soepel kan worden aangepast. In tegenstelling tot eerdere werken die schuifregelaargebaseerde attribuutcontroles introduceerden in tekst-naar-beeld-generatie – wat doorgaans aparte training of fine-tuning voor elk attribuat of concept vereiste – leert onze methode een enkele set low-rank-aanpassingsmatrices die generaliseren over diverse bewerkingen, attributen en compositionele instructies. Dit maakt continue interpolatie langs individuele bewerkingsdimensies mogelijk, waarbij zowel ruimtelijke lokaliteit als globale semantische consistentie behouden blijft. We passen SliderEdit toe op state-of-the-art beeldbewerkingsmodellen, waaronder FLUX-Kontext en Qwen-Image-Edit, en observeren aanzienlijke verbeteringen in bewerkingsbestuurbaarheid, visuele consistentie en gebruikersstuurbaarheid. Voor zover ons bekend zijn wij de eersten die een raamwerk verkennen en voorstellen voor continue, fijnmazige instructiecontrole in op instructies gebaseerde beeldbewerkingsmodellen. Onze resultaten banen de weg voor interactieve, instructiegestuurde beeldmanipulatie met continue en compositionele controle.
Effectieve mens-agent samenwerking in fysieke omgevingen vereist niet alleen inzicht in wat er uitgevoerd moet worden, maar ook waar de uitvoerbare elementen zich bevinden en hoe ermee geïnterageerd moet worden. Bestaande benaderingen opereren vaak op objectniveau of behandelen fijnmazige affordantieredenering onsamenhangend, waarbij coherente, instructiegestuurde gronding en redenering ontbreekt. In dit werk introduceren we een nieuwe taak: Fijnmazige 3D Belichaamde Redenering, waarbij een agent voor elk gerefereerd affordantie-element in een 3D-scène een gestructureerd triplet moet voorspellen, bestaande uit de ruimtelijke locatie, het bewegingstype en de bewegingsas, op basis van een taakinstructie. Om deze taak op te lossen, stellen we AffordBot voor, een nieuw raamwerk dat Multimodale Grote Taalmodellen (MLLM's) integreert met een op maat gemaakt chain-of-thought (CoT) redeneerparadigma. Om de kloof tussen 3D-input en 2D-compatibele MLLM's te overbruggen, renderen we surround-beeldopnamen van de scène en projecteren we 3D-elementkandidaten in deze beelden, waardoor een rijke visuele representatie ontstaat die is afgestemd op de scènegeometrie. Onze CoT-pijplijn begint met een actieve perceptiefase, waarbij de MLLM wordt aangezet om het meest informatieve gezichtspunt te selecteren op basis van de instructie, alvorens over te gaan tot stapsgewijze redenering om affordantie-elementen te lokaliseren en plausibele interactiebewegingen af te leiden. Geëvalueerd op de SceneFun3D-dataset behaalt AffordBot state-of-the-art prestaties, wat sterke generalisatie en fysiek onderbouwde redenering aantoont met alleen 3D-puntwolkinput en MLLM's.
Recente vooruitgang in grote taalmodellen (LLM's) heeft tot indrukwekkende prestaties op een reeks taken geleid, maar geavanceerd instructie-opvolgen (IF) – vooral voor complexe, multi-turn en door systeemprompts gestuurde instructies – blijft een aanzienlijke uitdaging. Strenge evaluatie en effectieve training voor dergelijke capaciteiten worden belemmerd door een gebrek aan hoogwaardige, door mensen geannoteerde benchmarks en betrouwbare, interpreteerbare beloningssignalen. In dit werk introduceren we AdvancedIF (we zullen deze benchmark binnenkort vrijgeven), een uitgebreide benchmark met meer dan 1.600 prompts en door experts samengestelde rubrics die het vermogen van LLM's beoordelen om complexe, multi-turn en systeemniveau-instructies op te volgen. We stellen verder RIFL (Rubric-based Instruction-Following Learning) voor, een nieuwe post-training pijplijn die gebruikmaakt van rubricgeneratie, een fijn afgestelde rubricverifier en reward shaping om effectieve reinforcement learning voor instructie-opvolging mogelijk te maken. Uitgebreide experimenten tonen aan dat RIFL de instructie-opvolgingsvaardigheden van LLM's aanzienlijk verbetert, met een absolute winst van 6,7% op AdvancedIF en sterke resultaten op openbare benchmarks. Onze ablatiestudies bevestigen de effectiviteit van elke component in RIFL. Dit werk vestigt rubrics als een krachtig hulpmiddel voor zowel het trainen als evalueren van geavanceerd IF in LLM's, en baant zo de weg voor capabelere en betrouwbaardere AI-systemen.
Ondanks vooruitgang in generatiekwaliteit vertonen huidige tekst-naar-beeldmodellen (T2I) vaak een gebrek aan diversiteit, waarbij ze homogene output produceren. Dit werk introduceert een raamwerk om de behoefte aan robuuste diversiteitsevaluatie in T2I-modellen aan te pakken. Ons raamwerk beoordeelt diversiteit systematisch door individuele concepten en hun relevante variatiefactoren te evalueren. Belangrijke bijdragen omvatten: (1) een nieuwe sjabloon voor humane evaluatie voor genuanceerde diversiteitsbeoordeling; (2) een samengestelde promptset die diverse concepten dekt met hun geïdentificeerde variatiefactoren (bijv. prompt: Een afbeelding van een appel, variatiefactor: kleur); en (3) een methodologie voor het vergelijken van modellen op basis van humane annotaties via binomiale toetsen. Verder vergelijken we rigoureus verschillende beeld-embeddingen voor diversiteitsmeting. Onze principiële aanpak maakt het mogelijk T2I-modellen op diversiteit te rangschikken en categorieën te identificeren waarin ze bijzonder zwak presteren. Dit onderzoek biedt een robuuste methodologie en inzichten, waardoor de weg wordt geëffend voor verbeteringen in T2I-modeldiversiteit en de ontwikkeling van metrieken.
Het vermogen tot kritiek is essentieel voor modellen om zichzelf te verbeteren en als betrouwbare AI-assistenten te fungeren. Hoewel dit uitgebreid is bestudeerd in uitsluitend taalkundige settings, blijft multimodale kritiek op Grote Multimodale Modellen (LMM's) onderbelicht, ondanks hun toenemende capaciteiten in taken zoals beeldbeschrijving en visueel redeneren. In dit werk introduceren we MM-CRITIC, een holistische benchmark voor het evalueren van het kritiekvermogen van LMM's op meerdere dimensies: basis, correctie en vergelijking. MM-CRITIC bestrijkt 8 hoofdtaaktypen en meer dan 500 taken, verzamelt reacties van diverse LMM's met verschillende modelgroottes en bestaat uit 4471 samples. Om de betrouwbaarheid van de evaluatie te vergroten, integreren we door experts geïnformeerde grondantwoorden in beoordelingsrichtlijnen die GPT-4o begeleiden bij het annoteren van reacties en het genereren van referentiekritieken, die dienen als ankers voor betrouwbare beoordelingen. Uitgebreide experimenten valideren de effectiviteit van MM-CRITIC en bieden een uitgebreide beoordeling van de kritiekcapaciteiten van toonaangevende LMM's in meerdere dimensies. Verdere analyse onthult enkele belangrijke inzichten, waaronder de correlatie tussen reactiekwaliteit en kritiek, en variërende kritiekmoeilijkheid over evaluatiedimensies. Onze code is beschikbaar op https://github.com/MichealZeng0420/MM-Critic.
Sentimenten over de reproduceerbaarheid van geciteerde artikelen in downstream literatuur bieden gemeenschapsperspectieven en blijken een veelbelovende indicator voor de daadwerkelijke reproduceerbaarheid van gepubliceerde bevindingen. Om effectieve modellen te trainen die reproduceerbaarheidsgerichte sentimenten accuraat kunnen voorspellen en hun correlatie met reproduceerbaarheid systematisch te bestuderen, introduceren we de CC30k-dataset. Deze dataset omvat in totaal 30.734 citatiecontexten uit wetenschappelijke artikelen over machine learning. Elke citatiecontext is gelabeld met een van drie reproduceerbaarheidsgerichte sentimentlabels: Positief, Negatief of Neutraal, wat de waargenomen reproduceerbaarheid of repliceerbaarheid van het geciteerde artikel weerspiegelt. Hiervan zijn 25.829 gelabeld via crowdsourcing, aangevuld met negatieve voorbeelden gegenereerd via een gecontroleerde pijplijn om het tekort aan negatieve labels tegen te gaan. In tegenstelling tot traditionele sentimentanalyse-datasets richt CC30k zich specifiek op reproduceerbaarheidsgerichte sentimenten, waardoor een onderzoekslacune wordt opgevuld voor bronnen voor computationele reproduceerbaarheidsstudies. De dataset werd gecreëerd via een pijplijn die robuuste datareiniging, zorgvuldige selectie van crowdwerkers en grondige validatie omvat. De resulterende dataset bereikt een labelnauwkeurigheid van 94%. Vervolgens toonden we aan dat de prestaties van drie grote taalmodellen significant verbeteren voor de reproduceerbaarheidsgerichte sentimentclassificatie na fine-tuning met onze dataset. De dataset legt de basis voor grootschalige beoordelingen van de reproduceerbaarheid van machine learning-artikelen. De CC30k-dataset en de Jupyter notebooks die gebruikt zijn om de dataset te produceren en analyseren, zijn openbaar beschikbaar op https://github.com/lamps-lab/CC30k.
Zero-shot anomalieclassificatie (AC) en -segmentatie (AS) methoden hebben als doel defecten te identificeren en af te bakenen zonder gebruik te maken van gelabelde voorbeelden. In dit artikel belichten we een cruciale eigenschap die door bestaande methoden over het hoofd wordt gezien: normale beeldpatches in industriële producten vinden typisch veel andere gelijkaardige patches, niet alleen in 2D-uiterlijk maar ook in 3D-vormen, terwijl anomalieën divers en geïsoleerd blijven. Om deze onderscheidende eigenschap expliciet te benutten, stellen we een Mutual Scoring-framework (MuSc-V2) voor voor zero-shot AC/AS, dat flexibel ondersteuning biedt voor enkele 2D/3D of multimodaliteit. Concreet verbetert onze methode eerst de 3D-representatie via Iterative Point Grouping (IPG), wat false positives door discontinue oppervlakken reduceert. Vervolgens gebruiken we Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) om 2D/3D nabijheidsinformatie te fuseren tot meer onderscheidende multi-schaal patchkenmerken voor onderlinge scoring. De kern bestaat uit een Mutual Scoring Mechanism (MSM) dat samples binnen elke modaliteit elkaar laat scoren, en Cross-modal Anomaly Enhancement (CAE) dat 2D- en 3D-scores fuseert om modaliteit-specifieke ontbrekende anomalieën te herstellen. Ten slotte onderdrukt Re-scoring with Constrained Neighborhood (RsCon) false classificatie op basis van gelijkenis met meer representatieve samples. Ons framework werkt flexibel op zowel de volledige dataset als kleinere subsets met consistente robuuste prestaties, wat naadloze aanpasbaarheid over diverse productlijnen verzekert. Dankzij dit innovatieve framework behaalt MuSc-V2 significante prestatieverbeteringen: een +23.7% AP-toename op de MVTec 3D-AD dataset en een +19.3% stijging op de Eyecandies dataset, waarmee het eerdere zero-shot benchmarks overtreft en zelfs de meeste few-shot methoden overstijgt. De code zal beschikbaar zijn op https://github.com/HUST-SLOW/MuSc-V2.