AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Voorbij 'Aha!': Naar een Systematische Afstemming van Meta-Vaardigheden in Grote Redeneermodellen
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

May 15

ByZhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li

120

Grote redeneermodellen (LRMs) beschikken al over een latente capaciteit voor lange ketens van redeneringen. Eerder onderzoek heeft aangetoond dat uitkomstgebaseerd reinforcement learning (RL) incidenteel geavanceerde redeneergedragingen kan oproepen, zoals zelfcorrectie, terugspoelen en verificatieverschijnselen, vaak aangeduid als het "aha-moment" van het model. Het tijdstip en de consistentie van deze opkomende gedragingen blijven echter onvoorspelbaar en oncontroleerbaar, wat de schaalbaarheid en betrouwbaarheid van de redeneercapaciteiten van LRMs beperkt. Om deze beperkingen aan te pakken, gaan we verder dan afhankelijkheid van prompts en toevallige "aha-momenten". In plaats daarvan richten we modellen expliciet af op drie meta-vaardigheden: deductie, inductie en abductie, met behulp van automatisch gegenereerde, zelfverifieerbare taken. Onze pijplijn in drie fasen — individuele afstemming, parameterruimte-samenvoeging en domeinspecifiek reinforcement learning — verbetert de prestaties met meer dan 10% ten opzichte van instructie-afgestemde basislijnen. Bovendien levert domeinspecifiek RL vanaf het afgestemde checkpoint een extra gemiddelde winst van 2% op in het prestatieplafond over benchmarks voor wiskunde, programmeren en wetenschap, wat aantoont dat expliciete afstemming op meta-vaardigheden een schaalbare en betrouwbare basis biedt voor redeneren. Code is beschikbaar op: https://github.com/zhiyuanhubj/Meta-Ability-Alignment

Parallelle Schaalwet voor Taalmodellen
Parallel Scaling Law for Language Models

May 15

ByMouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu

Er wordt algemeen aangenomen dat het schalen van taalmodellen een aanzienlijke ruimte- of tijdsinvestering vereist, door het verhogen van het aantal parameters (parameterschaling) of uitvoertokens (inferentie-tijd schaling). Wij introduceren het derde en meer inferentie-efficiënte schaalparadigma: het vergroten van de parallelle berekening van het model tijdens zowel de training als de inferentie. We passen P diverse en leerbare transformaties toe op de invoer, voeren forward passes van het model parallel uit, en aggregeren de P uitvoerwaarden dynamisch. Deze methode, genaamd parallelle schaling (ParScale), schaalt de parallelle berekening door bestaande parameters te hergebruiken en kan worden toegepast op elke modelstructuur, optimalisatieprocedure, dataset of taak. We stellen theoretisch een nieuwe schaalwet voor en valideren deze door middel van grootschalige pre-training, wat aantoont dat een model met P parallelle streams vergelijkbaar is met het schalen van de parameters met O(log P), terwijl het superieure inferentie-efficiëntie vertoont. ParScale kan bijvoorbeeld tot 22 keer minder geheugentoename en 6 keer minder latentietoename gebruiken in vergelijking met parameterschaling die dezelfde prestatieverbetering bereikt. Het kan ook een kant-en-klaar voorgetraind model recyclen naar een parallel geschaald model door post-training op een kleine hoeveelheid tokens, wat het trainingsbudget verder verlaagt. De nieuwe schaalwet die we hebben ontdekt, vergemakkelijkt mogelijk de implementatie van krachtigere modellen in scenario's met beperkte middelen, en biedt een alternatief perspectief op de rol van berekening in machine learning.

Systeem Prompt Optimalisatie met Meta-Leren
System Prompt Optimization with Meta-Learning

May 14

ByYumin Choi, Jinheon Baek, Sung Ju Hwang

Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond, waarbij het optimaliseren van hun invoerprompts een cruciale rol speelt in het maximaliseren van hun prestaties. Echter, hoewel LLM-prompts bestaan uit zowel taakonafhankelijke systeemprompts als taakspecifieke gebruikersprompts, heeft bestaand onderzoek naar promptoptimalisatie zich gericht op gebruikersprompts die specifiek zijn voor individuele queries of taken, en grotendeels de systeemprompt over het hoofd gezien die, eenmaal geoptimaliseerd, toepasbaar is op verschillende taken en domeinen. Gemotiveerd door dit inzicht introduceren we het nieuwe probleem van bilevel systeempromptoptimalisatie, waarvan het doel is om systeemprompts te ontwerpen die robuust zijn tegen diverse gebruikersprompts en overdraagbaar naar onbekende taken. Om dit probleem aan te pakken, stellen we vervolgens een meta-leerframework voor, dat de systeemprompt meta-leert door deze te optimaliseren over verschillende gebruikersprompts in meerdere datasets, terwijl tegelijkertijd de gebruikersprompts op iteratieve wijze worden bijgewerkt om synergie tussen hen te waarborgen. We voeren experimenten uit op 14 onbekende datasets die vijf verschillende domeinen beslaan, waarop we aantonen dat onze aanpak systeemprompts oplevert die effectief generaliseren naar diverse gebruikersprompts. Bovendien tonen onze bevindingen aan dat de geoptimaliseerde systeemprompt snelle aanpassing mogelijk maakt, zelfs aan onbekende taken, waarbij minder optimalisatiestappen nodig zijn voor gebruikersprompts tijdens de testfase, terwijl tegelijkertijd verbeterde prestaties worden behaald.

OpenThinkIMG: Leren denken met beelden via visueel gereedschap Versterkend Leren
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13

ByZhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng

Terwijl mensen flexibel gebruik kunnen maken van interactieve visuele cognitie voor complexe probleemoplossing, blijft het een uitdaging om Large Vision-Language Models (LVLMs) op een vergelijkbare manier adaptief gedrag aan te leren met visuele tools. Een belangrijke hindernis is het huidige gebrek aan gestandaardiseerde infrastructuur, wat de integratie van diverse tools, het genereren van rijke interactiedata en het effectief trainen van robuuste agents belemmert. Om deze tekortkomingen aan te pakken, introduceren we OpenThinkIMG, het eerste open-source, uitgebreide end-to-end framework voor tool-augmented LVLMs. Het beschikt over gestandaardiseerde visuele tool-interfaces, schaalbare trajectgeneratie voor beleidsinitialisatie en een flexibele trainingsomgeving. Bovendien, gezien het feit dat supervised fine-tuning (SFT) op statische demonstraties beperkte beleidsgeneralizatie biedt voor dynamische tool-aanroeping, stellen we een nieuw reinforcement learning (RL) framework voor, genaamd V-ToolRL, om LVLMs te trainen in het leren van adaptieve beleidsregels voor het aanroepen van externe visuele tools. V-ToolRL stelt LVLMs in staat om autonoom optimale tool-gebruiksstrategieën te ontdekken door direct te optimaliseren voor taaksucces met behulp van feedback van tool-interacties. We valideren V-ToolRL empirisch op uitdagende grafiekredeneertaken. Onze RL-getrainde agent, gebouwd op een Qwen2-VL-2B, presteert aanzienlijk beter dan zijn SFT-geïnitialiseerde tegenhanger (+28,83 punten) en overtreft gevestigde supervised tool-learning baselines zoals Taco en CogCom gemiddeld met +12,7 punten. Opmerkelijk is dat het ook prominente closed-source modellen zoals GPT-4.1 overtreft met +8,68 nauwkeurigheidspunten. We hopen dat OpenThinkIMG kan dienen als een fundamenteel framework voor het bevorderen van dynamische, tool-augmented visuele redenering, en de gemeenschap kan helpen bij het ontwikkelen van AI-agents die daadwerkelijk "kunnen denken met beelden".

WorldPM: Schaalbaar modelleren van menselijke voorkeuren
WorldPM: Scaling Human Preference Modeling

May 15

ByBinghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin

Gemotiveerd door schaalwetten in taalmodellering die aantonen hoe de testverlies schaalt volgens een machtswet met model- en datasetgroottes, ontdekken we dat soortgelijke wetten bestaan in voorkeursmodellering. We stellen World Preference Modeling (WorldPM) voor om dit schaalpotentieel te benadrukken, waarbij World Preference een verenigde weergave van menselijke voorkeuren belichaamt. In dit artikel verzamelen we voorkeursgegevens van openbare forums die diverse gebruikersgemeenschappen bestrijken, en voeren we uitgebreide training uit met 15M-schaal gegevens over modellen variërend van 1,5B tot 72B parameters. We observeren duidelijke patronen in verschillende evaluatiemetrics: (1) Adversariële metrics (het vermogen om misleidende kenmerken te identificeren) schalen consistent op met meer trainingsgegevens en basismodelgrootte; (2) Objectieve metrics (objectieve kennis met goed gedefinieerde antwoorden) vertonen emergent gedrag in grotere taalmodellen, wat het schaalpotentieel van WorldPM benadrukt; (3) Subjectieve metrics (subjectieve voorkeuren van een beperkt aantal mensen of AI) vertonen geen schaaltrends. Verdere experimenten valideren de effectiviteit van WorldPM als basis voor voorkeursfine-tuning. Door evaluaties op 7 benchmarks met 20 subtaken, vinden we dat WorldPM de generalisatieprestaties breed verbetert over menselijke voorkeursdatasets van verschillende groottes (7K, 100K en 800K samples), met prestatieverbeteringen van meer dan 5% op veel belangrijke subtaken. Door WorldPM te integreren in onze interne RLHF-pijplijn, observeren we significante verbeteringen op zowel interne als openbare evaluatiesets, met opmerkelijke winsten van 4% tot 8% in onze interne evaluaties.

De CoT Encyclopedie: Analyseren, Voorspellen en Beheersen hoe een Redeneermodel zal Denken
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

May 15

BySeongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo

Lang kettingredeneren (CoT) is een essentieel ingrediënt voor het effectieve gebruik van moderne grote taalmodelen, maar ons begrip van de redeneerstrategieën die aan deze mogelijkheden ten grondslag liggen, blijft beperkt. Hoewel sommige eerdere werken hebben geprobeerd CoT's te categoriseren met behulp van vooraf gedefinieerde strategietypen, worden dergelijke benaderingen beperkt door menselijke intuïtie en slagen ze er niet in de volledige diversiteit van modelgedragingen vast te leggen. In dit werk introduceren we de CoT Encyclopedie, een bottom-up raamwerk voor het analyseren en sturen van modelredeneringen. Onze methode extraheert automatisch diverse redeneercriteria uit door modellen gegenereerde CoT's, embedt deze in een semantische ruimte, clustert ze in representatieve categorieën en leidt contrastieve rubrieken af om redeneergedrag te interpreteren. Menselijke evaluaties tonen aan dat dit raamwerk meer interpreteerbare en uitgebreide analyses oplevert dan bestaande methoden. Bovendien demonstreren we dat dit begrip prestatieverbeteringen mogelijk maakt: we kunnen voorspellen welke strategie een model waarschijnlijk zal gebruiken en het begeleiden naar effectievere alternatieven. Tot slot bieden we praktische inzichten, zoals dat de opmaak van trainingsdata (bijv. vrije vorm vs. meerkeuze) een veel grotere impact heeft op redeneergedrag dan het datadomein, wat het belang onderstreept van opmaakbewust modelontwerp.

J1: Het stimuleren van denken in LLM-als-rechter via reinforcement learning
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15

ByChenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha

De vooruitgang van AI wordt belemmerd door de kwaliteit van evaluatie, en krachtige LLM-as-a-Judge-modellen hebben zich bewezen als een kernoplossing. Verbeterd beoordelingsvermogen wordt mogelijk gemaakt door sterkere chain-of-thought-redenering, wat de noodzaak benadrukt om de beste methoden te vinden voor het trainen van dergelijke modellen om te denken. In dit werk introduceren we J1, een reinforcement learning-benadering voor het trainen van dergelijke modellen. Onze methode zet zowel verifieerbare als niet-verifieerbare prompts om in beoordelingstaken met verifieerbare beloningen die denken stimuleren en beoordelingsbias verminderen. In het bijzonder presteert onze aanpak beter dan alle andere bestaande 8B- of 70B-modellen wanneer deze op die grootte worden getraind, inclusief modellen die zijn gedistilleerd uit DeepSeek-R1. J1 presteert ook beter dan o1-mini, en zelfs dan R1 op sommige benchmarks, ondanks het trainen van een kleiner model. We bieden analyse en ablatie-onderzoeken die Pairwise-J1 versus Pointwise-J1-modellen vergelijken, offline versus online trainingsmethoden, beloningsstrategieën, seed-prompts, en variaties in gedachte-lengte en -inhoud. We constateren dat onze modellen betere beoordelingen maken door te leren evaluatiecriteria te schetsen, te vergelijken met zelf gegenereerde referentieantwoorden, en de juistheid van modelresponsen opnieuw te evalueren.

EnerVerse-AC: Het Visualiseren van Belichaamde Omgevingen met Actieconditie
EnerVerse-AC: Envisioning Embodied Environments with Action Condition

May 14

ByYuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

Robotisch imitatieleren is geëvolueerd van het oplossen van statische taken naar het aanpakken van dynamische interactiescenario's, maar het testen en evalueren blijven kostbaar en uitdagend vanwege de noodzaak voor real-time interactie met dynamische omgevingen. Wij stellen EnerVerse-AC (EVAC) voor, een actie-conditioneel wereldmodel dat toekomstige visuele observaties genereert op basis van de voorspelde acties van een agent, waardoor realistische en controleerbare robotische inferentie mogelijk wordt. Voortbouwend op eerdere architecturen introduceert EVAC een multi-level actie-conditioneringsmechanisme en ray map-codering voor dynamische multi-view beeldgeneratie, terwijl het trainingsdata uitbreidt met diverse fouttrajectorieën om de generalisatie te verbeteren. Als zowel een data-engine als evaluator verrijkt EVAC door mensen verzamelde trajecten tot diverse datasets en genereert het realistische, actie-geconditioneerde video-observaties voor beleidstesten, waardoor de noodzaak voor fysieke robots of complexe simulaties wordt geëlimineerd. Deze aanpak verlaagt de kosten aanzienlijk terwijl een hoge betrouwbaarheid in de evaluatie van robotische manipulatie behouden blijft. Uitgebreide experimenten valideren de effectiviteit van onze methode. Code, checkpoints en datasets zijn te vinden op <https://annaj2178.github.io/EnerverseAC.github.io>.

End-to-End Visuele Tokenizer Afstemming
End-to-End Vision Tokenizer Tuning

May 15

ByWenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang

Bestaande visuele tokenisatie isoleert de optimalisatie van visuele tokenizers van downstream training, waarbij impliciet wordt aangenomen dat de visuele tokens goed kunnen generaliseren over verschillende taken, zoals beeldgeneratie en visuele vraagbeantwoording. De visuele tokenizer die is geoptimaliseerd voor laag-niveau reconstructie is onbewust van downstream taken die uiteenlopende representaties en semantiek vereisen. Dit ontkoppelde paradigma introduceert een kritische misalignering: Het verlies van de visuele tokenisatie kan de representatiebottleneck vormen voor doeltaken. Bijvoorbeeld, fouten in het tokeniseren van tekst in een gegeven afbeelding leiden tot slechte resultaten bij het herkennen of genereren ervan. Om dit aan te pakken, stellen we ETT voor, een end-to-end visuele tokenizer afstemmingsbenadering die gezamenlijke optimalisatie mogelijk maakt tussen visuele tokenisatie en doel autoregressieve taken. In tegenstelling tot eerdere autoregressieve modellen die alleen discrete indices gebruiken van een bevroren visuele tokenizer, benut ETT de visuele embeddings van de tokenizer codebook, en optimaliseert de visuele tokenizers end-to-end met zowel reconstructie- als bijschriftdoelstellingen. ETT kan naadloos worden geïntegreerd in bestaande trainingspijplijnen met minimale architectuurwijzigingen. Onze ETT is eenvoudig te implementeren en te integreren, zonder dat de originele codebooks of architecturen van de gebruikte grote taalmodellen hoeven te worden aangepast. Uitgebreide experimenten tonen aan dat onze voorgestelde end-to-end visuele tokenizer afstemming aanzienlijke prestatieverbeteringen oplevert, d.w.z. 2-6% voor multimodale begrips- en visuele generatietaken in vergelijking met bevroren tokenizer baselines, terwijl de oorspronkelijke reconstructiecapaciteit behouden blijft. We hopen dat deze zeer eenvoudige en krachtige methode multimodale foundation modellen kan versterken naast beeldgeneratie en -begrip.

MLE-Dojo: Interactieve Omgevingen voor het Versterken van LLM-Agenten in Machine Learning Engineering
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12

ByRushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai

We introduceren MLE-Dojo, een Gym-stijl framework voor het systematisch versterken, evalueren en verbeteren van autonome large language model (LLM) agents in iteratieve machine learning engineering (MLE) workflows. In tegenstelling tot bestaande benchmarks die voornamelijk vertrouwen op statische datasets of evaluaties in één poging, biedt MLE-Dojo een interactieve omgeving die agents in staat stelt om iteratief te experimenteren, te debuggen en oplossingen te verfijnen via gestructureerde feedbackloops. Gebouwd op basis van 200+ real-world Kaggle-uitdagingen, omvat MLE-Dojo diverse, open-einde MLE-taken die zorgvuldig zijn samengesteld om realistische engineering scenario's weer te geven, zoals gegevensverwerking, architectuurzoektochten, hyperparameterafstemming en code-debugging. De volledig uitvoerbare omgeving ondersteunt uitgebreide agenttraining via zowel supervised fine-tuning als reinforcement learning, wat iteratief experimenteren, realistische gegevensbemonstering en real-time uitkomstverificatie mogelijk maakt. Uitgebreide evaluaties van acht frontier LLM's onthullen dat, hoewel huidige modellen betekenisvolle iteratieve verbeteringen bereiken, ze nog steeds aanzienlijke beperkingen vertonen in het autonoom genereren van lange-termijn oplossingen en het efficiënt oplossen van complexe fouten. Bovendien integreert de flexibele en uitbreidbare architectuur van MLE-Dojo naadloos diverse gegevensbronnen, tools en evaluatieprotocollen, wat uniek modelgebaseerde agentafstemming mogelijk maakt en interoperabiliteit, schaalbaarheid en reproduceerbaarheid bevordert. We maken ons framework en benchmarks open source om gemeenschapsgedreven innovatie naar de volgende generatie MLE-agents te bevorderen.

EWMBench: Evaluatie van scène-, beweging- en semantische kwaliteit in belichaamde wereldmodellen
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

May 14

ByHu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren

Recente vooruitgang in creatieve AI heeft de synthese van hoogwaardige afbeeldingen en video's mogelijk gemaakt, gebaseerd op taal instructies. Op basis van deze ontwikkelingen zijn tekst-naar-video diffusiemodellen geëvolueerd naar embodied world models (EWMs) die in staat zijn fysiek plausibele scènes te genereren vanuit taalcommando's, waardoor visie en actie in embodied AI-toepassingen effectief worden verbonden. Dit werk richt zich op de kritieke uitdaging om EWMs te evalueren voorbij algemene perceptuele metriek, om ervoor te zorgen dat fysiek onderbouwde en actie-consistente gedragingen worden gegenereerd. Wij stellen de Embodied World Model Benchmark (EWMBench) voor, een speciaal ontworpen framework om EWMs te evalueren op basis van drie belangrijke aspecten: visuele scèneconsistentie, bewegingcorrectheid en semantische uitlijning. Onze aanpak maakt gebruik van een zorgvuldig samengestelde dataset die diverse scènes en bewegingspatronen omvat, naast een uitgebreid multidimensionaal evaluatie-instrumentarium, om kandidaatmodellen te beoordelen en te vergelijken. De voorgestelde benchmark identificeert niet alleen de beperkingen van bestaande videogeneratiemodellen in het voldoen aan de unieke eisen van embodied taken, maar biedt ook waardevolle inzichten om toekomstige vooruitgang in het veld te begeleiden. De dataset en evaluatietools zijn publiekelijk beschikbaar op https://github.com/AgibotTech/EWMBench.

Unilogit: Robuust Machine Unleren voor LLM's met Uniform-Target Zelfdistillatie
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9

ByStefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz

Dit artikel introduceert Unilogit, een nieuwe zelfdistillatiemethode voor machine-unlearning in grote taalmmodellen. Unilogit richt zich op de uitdaging om specifieke informatie selectief te vergeten terwijl de algehele nuttigheid van het model behouden blijft, een cruciale taak in het kader van naleving van gegevensprivacyregels zoals de AVG. In tegenstelling tot eerdere methoden die vertrouwen op statische hyperparameters of uitgangsoutputs van het model, past Unilogit dynamisch de doel-logits aan om een uniforme waarschijnlijkheid voor het doel-token te bereiken, waarbij het de huidige outputs van het model benut voor nauwkeurigere zelfdistillatiedoelen. Deze aanpak elimineert niet alleen de behoefte aan extra hyperparameters, maar verbetert ook het vermogen van het model om de gouden doelen te benaderen. Uitgebreide experimenten op openbare benchmarks en een interne e-commercedataset tonen de superieure prestaties van Unilogit in het balanceren van vergeten en behouden doelen, waarbij het state-of-the-art methoden zoals NPO en UnDIAL overtreft. Onze analyse onthult verder de robuustheid van Unilogit in diverse scenario's, wat de praktische toepasbaarheid en effectiviteit ervan benadrukt bij het bereiken van efficiënt machine-unlearning.

Stijlaanpassing van tekst-naar-vector-generatie met beelddiffusieprioriteiten
Style Customization of Text-to-Vector Generation with Image Diffusion Priors

May 15

ByPeiying Zhang, Nanxuan Zhao, Jing Liao

Scalable Vector Graphics (SVG's) worden zeer gewaardeerd door ontwerpers vanwege hun resolutie-onafhankelijkheid en goed georganiseerde laagstructuur. Hoewel bestaande tekst-naar-vector (T2V) generatiemethoden SVG's kunnen creëren op basis van tekstprompts, negeren ze vaak een belangrijke behoefte in praktische toepassingen: stijlaanpassing, wat essentieel is voor het produceren van een verzameling vectorafbeeldingen met een consistent visueel uiterlijk en samenhangende esthetiek. Het uitbreiden van bestaande T2V-methoden voor stijlaanpassing brengt bepaalde uitdagingen met zich mee. Optimalisatiegebaseerde T2V-modellen kunnen de prioriteiten van tekst-naar-afbeelding (T2I) modellen gebruiken voor aanpassing, maar hebben moeite met het behouden van structurele regelmaat. Aan de andere kant kunnen feed-forward T2V-modellen structurele regelmaat garanderen, maar ze ondervinden moeilijkheden bij het ontwarren van inhoud en stijl vanwege beperkte SVG-trainingsdata. Om deze uitdagingen aan te pakken, stellen we een nieuwe tweefasen pijplijn voor stijlaanpassing voor SVG-generatie voor, waarbij we gebruikmaken van de voordelen van zowel feed-forward T2V-modellen als T2I-afbeeldingsprioriteiten. In de eerste fase trainen we een T2V-diffusiemodel met een padniveau-representatie om de structurele regelmaat van SVG's te waarborgen, terwijl diverse expressieve mogelijkheden behouden blijven. In de tweede fase passen we het T2V-diffusiemodel aan verschillende stijlen aan door aangepaste T2I-modellen te destilleren. Door deze technieken te integreren, kan onze pijplijn hoogwaardige en diverse SVG's in aangepaste stijlen genereren op basis van tekstprompts op een efficiënte feed-forward manier. De effectiviteit van onze methode is gevalideerd door uitgebreide experimenten. De projectpagina is te vinden op https://customsvg.github.io.

Depth Anything met Elke Prior
Depth Anything with Any Prior

May 15

ByZehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao

Dit werk presenteert Prior Depth Anything, een raamwerk dat onvolledige maar precieze metrische informatie in dieptemeting combineert met relatieve maar complete geometrische structuren in dieptevoorspelling, waardoor nauwkeurige, dichte en gedetailleerde metrische dieptekaarten voor elke scène worden gegenereerd. Hiertoe ontwerpen we een grof-naar-fijn pijplijn om de twee complementaire dieptebronnen geleidelijk te integreren. Eerst introduceren we pixel-niveau metrische uitlijning en afstandsbewuste weging om diverse metrische priors vooraf in te vullen door expliciet gebruik te maken van dieptevoorspelling. Dit verkleint effectief het domeingat tussen priorpatronen, wat de generalisatie over verschillende scenario's verbetert. Ten tweede ontwikkelen we een geconditioneerd monocular depth estimation (MDE)-model om het inherente ruisniveau van dieptepriors te verfijnen. Door te conditioneren op de genormaliseerde vooraf ingevulde prior en voorspelling, integreert het model de twee complementaire dieptebronnen verder impliciet. Ons model toont indrukwekkende zero-shot generalisatie over dieptecompletie, superresolutie en inpainting over 7 real-world datasets, waarbij het eerdere taakspecifieke methoden evenaart of zelfs overtreft. Belangrijker nog, het presteert goed op uitdagende, onbekende gemengde priors en maakt testtijdverbeteringen mogelijk door voorspellingsmodellen te wisselen, wat een flexibele nauwkeurigheid-efficiëntie afweging biedt terwijl het meegaat met de vooruitgang in MDE-modellen.

PointArena: Onderzoek naar Multimodale Verankering via Taalgestuurd Aanwijzen
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

May 15

ByLong Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna

Wijzen fungeert als een fundamenteel en intuïtief mechanisme om taal te verankeren in visuele contexten, met toepassingen die zich uitstrekken over robotica, ondersteunende technologieën en interactieve AI-systemen. Hoewel recente multimodale modellen begonnen zijn met het ondersteunen van wijsvaardigheden, richten bestaande benchmarks zich doorgaans alleen op referentiële objectlokalisatietaken. Wij introduceren PointArena, een uitgebreid platform voor het evalueren van multimodaal wijzen in diverse redeneerscenario's. PointArena bestaat uit drie componenten: (1) Point-Bench, een gecureerde dataset met ongeveer 1.000 wijstaken verdeeld over vijf redeneercategorieën; (2) Point-Battle, een interactieve, webgebaseerde arena die blinde, paarsgewijze modelvergelijkingen mogelijk maakt, waarin al meer dan 4.500 geanonimiseerde stemmen zijn verzameld; en (3) Point-Act, een real-world robotmanipulatiesysteem waarmee gebruikers de wijsvaardigheden van multimodale modellen direct kunnen evalueren in praktische settings. We hebben uitgebreide evaluaties uitgevoerd van zowel state-of-the-art open-source als propriëtaire multimodale modellen. De resultaten geven aan dat Molmo-72B consistent beter presteert dan andere modellen, hoewel propriëtaire modellen steeds vaker vergelijkbare prestaties laten zien. Daarnaast constateren we dat gesuperviseerde training die specifiek gericht is op wijstaken de modelprestaties aanzienlijk verbetert. In onze meerfasen-evaluatiepipeline observeren we ook sterke correlaties, wat het cruciale belang onderstreept van precieze wijsvaardigheden om multimodale modellen in staat te stellen abstract redeneren effectief te verbinden met concrete, real-world acties. Projectpagina: https://pointarena.github.io/

Het bereiken van tokenizerflexibiliteit in taalmodellen door middel van heuristische aanpassing en supertokenleren
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

May 14

ByShaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

Voorgetrainde taalmmodellen (LLMs) worden vaak beperkt door hun vaste tokenisatieschema's, wat leidt tot inefficiënties en prestatiebeperkingen, vooral voor meertalige of gespecialiseerde toepassingen. Deze tokenizer-lock-in vormt aanzienlijke uitdagingen. Standaardmethoden om dit te overwinnen vereisen vaak onhaalbaar veel rekenbronnen. Hoewel het vervangen van de tokenizer met heuristische initialisatie deze last probeert te verminderen, vereisen bestaande methoden vaak uitgebreide rest-finetuning en kunnen ze nog steeds niet volledig semantische nuances behouden of de onderliggende compressie-inefficiënties adequaat aanpakken. Ons framework introduceert twee innovaties: ten eerste, Tokenadapt, een model-agnostische methode voor tokenizer-transplantatie, en ten tweede, een nieuwe pre-tokenisatieleertechniek voor multi-woord Supertokens om compressie te verbeteren en fragmentatie te verminderen. Tokenadapt initialiseert nieuwe unieke token-embeddings via een hybride heuristiek die twee methoden combineert: een lokale schatting gebaseerd op subwoord-decompositie met behulp van de oude tokenizer, en een globale schatting die gebruikmaakt van de top-k semantisch vergelijkbare tokens uit de originele vocabulaire. Deze methodologie heeft als doel semantiek te behouden terwijl de hertrainingsvereisten aanzienlijk worden geminimaliseerd. Empirisch onderzoek valideert beide bijdragen: de transplantatieheuristiek initialiseert succesvol unieke tokens en presteert duidelijk beter dan conventionele baseline-methoden en geavanceerde methoden zoals Transtokenizer en ReTok, terwijl onze Supertokens aanzienlijke compressiewinsten behalen. Onze zero-shot perplexiteitsresultaten tonen aan dat de TokenAdapt hybride initialisatie consistent lagere perplexiteitsratio's oplevert in vergelijking met zowel ReTok als TransTokenizer baseline-methoden, over verschillende basismodellen en nieuw getrainde doel-tokenizers. TokenAdapt reduceerde typisch de algehele perplexiteitsratio aanzienlijk in vergelijking met ReTok, wat resulteerde in minstens een 2-voudige verbetering in deze geaggregeerde scores.

AI-agents versus Agentische AI: Een Conceptuele Taxonomie, Toepassingen en Uitdagingen
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge

May 15

ByRanjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee

Deze studie maakt een kritisch onderscheid tussen AI Agents en Agentic AI, en biedt een gestructureerde conceptuele taxonomie, toepassingsmapping en uitdagingenanalyse om hun uiteenlopende ontwerpfilosofieën en mogelijkheden te verduidelijken. We beginnen met het schetsen van de zoekstrategie en fundamentele definities, waarbij AI Agents worden gekarakteriseerd als modulaire systemen aangedreven door Large Language Models (LLMs) en Large Image Models (LIMs) voor specifieke, taakgerichte automatisering. Generatieve AI wordt gepositioneerd als een voorloper, waarbij AI Agents verdergaan door toolintegratie, prompt engineering en redeneerverbeteringen. Daarentegen vertegenwoordigen Agentic AI-systemen een paradigmatische verschuiving gekenmerkt door multi-agent samenwerking, dynamische taakdecompositie, persistent geheugen en georkestreerde autonomie. Door een sequentiële evaluatie van architecturale evolutie, operationele mechanismen, interactiestijlen en autonomieniveaus presenteren we een vergelijkende analyse van beide paradigma's. Toepassingsdomeinen zoals klantondersteuning, planning en datasamenvatting worden afgezet tegen Agentic AI-implementaties in onderzoeksautomatisering, robotcoördinatie en medische beslissingsondersteuning. We onderzoeken verder unieke uitdagingen in elk paradigma, waaronder hallucinatie, broosheid, emergent gedrag en coördinatiefalen, en stellen gerichte oplossingen voor zoals ReAct-lussen, RAG, orkestratielagen en causaal modelleren. Dit werk beoogt een definitieve routekaart te bieden voor het ontwikkelen van robuuste, schaalbare en uitlegbare AI agent- en Agentic AI-gedreven systemen. >AI Agents, Agent-gedreven, Vision-Language-Models, Agentic AI Beslissingsondersteuningssysteem, Agentic-AI Toepassingen

Het verkennen van de diepe integratie van grote taalmodellen en diffusie-transformatoren voor tekst-naar-beeld synthese
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

May 15

ByBingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie

Dit artikel beschrijft geen nieuwe methode; in plaats daarvan biedt het een grondige verkenning van een belangrijk maar onderbelicht ontwerpgebied dat verband houdt met recente vooruitgang in tekst-naar-beeldsynthese -- specifiek, de diepe integratie van grote taalmodellen (LLMs) en diffusie-transformers (DiTs) voor multimodale generatie. Eerdere studies richtten zich voornamelijk op de algehele systeemprestaties in plaats van gedetailleerde vergelijkingen met alternatieve methoden, en belangrijke ontwerpdetails en trainingsrecepten werden vaak niet vrijgegeven. Deze hiaten creëren onzekerheid over het werkelijke potentieel van deze aanpak. Om deze lacunes op te vullen, voeren we een empirische studie uit naar tekst-naar-beeldgeneratie, waarbij we gecontroleerde vergelijkingen maken met gevestigde baselines, belangrijke ontwerpkeuzes analyseren en een duidelijk, reproduceerbaar recept bieden voor training op grote schaal. We hopen dat dit werk zinvolle datapunten en praktische richtlijnen biedt voor toekomstig onderzoek in multimodale generatie.

ReSurgSAM2: Refereren naar Segment Anything in chirurgische video's via geloofwaardige langetermijntracking
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13

ByHaofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin

Segmentatie van chirurgische scènes is cruciaal in computerondersteunde chirurgie en is essentieel voor het verbeteren van de chirurgische kwaliteit en patiëntresultaten. Onlangs komt refererende chirurgische segmentatie op, vanwege het voordeel dat het chirurgen een interactieve ervaring biedt om het doelobject te segmenteren. Bestaande methoden worden echter beperkt door lage efficiëntie en kortetermijntracking, wat hun toepasbaarheid in complexe real-world chirurgische scenario's belemmert. In dit artikel introduceren we ReSurgSAM2, een tweestaps chirurgisch refererend segmentatieraamwerk dat gebruikmaakt van het Segment Anything Model 2 om tekstverwijzende doelobjectdetectie uit te voeren, gevolgd door tracking met betrouwbare initiële frame-identificatie en diversiteitgedreven langetermijngeheugen. Voor de detectiefase stellen we een cross-modale ruimtelijk-temporele Mamba voor om nauwkeurige detectie- en segmentatieresultaten te genereren. Op basis van deze resultaten identificeert onze betrouwbare initiële frameselectiestrategie het betrouwbare frame voor de daaropvolgende tracking. Na het selecteren van het initiële frame gaat onze methode over naar de trackingfase, waarin een diversiteitgedreven geheugenmechanisme wordt geïntegreerd dat een betrouwbaar en divers geheugenbank onderhoudt, wat consistente langetermijntracking garandeert. Uitgebreide experimenten tonen aan dat ReSurgSAM2 aanzienlijke verbeteringen in nauwkeurigheid en efficiëntie bereikt in vergelijking met bestaande methoden, en opereert in real-time met 61,2 FPS. Onze code en datasets zullen beschikbaar zijn op https://github.com/jinlab-imvr/ReSurgSAM2.

3D-Fixup: Vooruitgang in Fotobewerking met 3D-Priors
3D-Fixup: Advancing Photo Editing with 3D Priors

May 15

ByYen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao

Ondanks aanzienlijke vooruitgang in het modelleren van beeldprioriteiten via diffusiemodellen, blijft 3D-bewust beeldbewerken een uitdaging, deels omdat het object slechts via één afbeelding wordt gespecificeerd. Om deze uitdaging aan te pakken, stellen we 3D-Fixup voor, een nieuw raamwerk voor het bewerken van 2D-afbeeldingen geleid door geleerde 3D-prioriteiten. Het raamwerk ondersteunt moeilijke bewerkingssituaties zoals objecttranslatie en 3D-rotatie. Om dit te bereiken, benutten we een trainingsgebaseerde aanpak die de generatieve kracht van diffusiemodellen benut. Aangezien videodata van nature de fysieke dynamiek van de echte wereld vastlegt, wenden we ons tot videodata voor het genereren van trainingsdataparen, d.w.z. een bron- en een doelbeeld. In plaats van uitsluitend te vertrouwen op één getraind model om transformaties tussen bron- en doelbeelden af te leiden, integreren we 3D-begeleiding van een Image-to-3D-model, dat deze uitdagende taak overbrugt door expliciet 2D-informatie in 3D-ruimte te projecteren. We ontwerpen een datageneratiepijplijn om hoogwaardige 3D-begeleiding gedurende de training te waarborgen. Resultaten tonen aan dat door het integreren van deze 3D-prioriteiten, 3D-Fixup effectief complexe, identiteitscoherente 3D-bewuste bewerkingen ondersteunt, waardoor hoogwaardige resultaten worden bereikt en de toepassing van diffusiemodellen in realistische beeldmanipulatie wordt bevorderd. De code is beschikbaar op https://3dfixup.github.io/.

QuXAI: Uitlegmodules voor Hybride Kwantum Machine Learning Modellen
QuXAI: Explainers for Hybrid Quantum Machine Learning Models

May 15

BySaikat Barua, Mostafizur Rahman, Shehenaz Khaled, Md Jafor Sadek, Rafiul Islam, Shahnewaz Siddique

De opkomst van hybride quantum-klassieke machine learning (HQML) modellen opent nieuwe horizonnen van computationele intelligentie, maar hun fundamentele complexiteit leidt vaak tot black box-gedrag dat de transparantie en betrouwbaarheid van hun toepassing ondermijnt. Hoewel XAI voor quantumsystemen nog in de kinderschoenen staat, is er een groot onderzoeksgat zichtbaar in robuuste globale en lokale verklaarbaarheidsbenaderingen die zijn ontworpen voor HQML-architecturen die gebruikmaken van gekwantiseerde feature encoding gevolgd door klassiek leren. Dit gat is de focus van dit werk, dat QuXAI introduceert, een raamwerk gebaseerd op Q-MEDLEY, een verklarende tool voor het verklaren van feature-importantie in deze hybride systemen. Ons model omvat het creëren van HQML-modellen die quantum feature maps incorporeren, het gebruik van Q-MEDLEY, dat feature-gebaseerde inferenties combineert, de quantumtransformatiefase behoudt en de resulterende attributies visualiseert. Onze resultaten tonen aan dat Q-MEDLEY invloedrijke klassieke aspecten in HQML-modellen afbakent, evenals hun ruis scheidt, en goed concurreert met gevestigde XAI-technieken in klassieke validatieomgevingen. Ablatiestudies tonen nog duidelijker de voordelen van de samengestelde structuur die in Q-MEDLEY wordt gebruikt. De implicaties van dit werk zijn van cruciaal belang, omdat het een route biedt om de interpreteerbaarheid en betrouwbaarheid van HQML-modellen te verbeteren, waardoor meer vertrouwen wordt bevorderd en een veiliger en verantwoordelijker gebruik van quantum-verbeterde AI-technologie mogelijk wordt.

Real2Render2Real: Schaalbaarheid van Robotgegevens Zonder Dynamische Simulatie of Robotapparatuur
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14

ByJustin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg

Het schalen van robotleren vereist enorme en diverse datasets. Het huidige paradigma voor gegevensverzameling - menselijke teleoperatie - blijft echter kostbaar en beperkt door handmatige inspanning en fysieke toegang tot robots. Wij introduceren Real2Render2Real (R2R2R), een nieuwe aanpak voor het genereren van trainingsgegevens voor robots zonder te vertrouwen op simulaties van objectdynamica of teleoperatie van robotapparatuur. De input bestaat uit een met een smartphone vastgelegde scan van een of meer objecten en een enkele video van een menselijke demonstratie. R2R2R genereert duizenden visueel hoogwaardige, robot-onafhankelijke demonstraties door gedetailleerde 3D-objectgeometrie en -uiterlijk te reconstrueren en 6-DoF-objectbeweging te volgen. R2R2R gebruikt 3D Gaussian Splatting (3DGS) om flexibele assetgeneratie en trajectoriënthesis mogelijk te maken voor zowel rigide als gearticuleerde objecten, en zet deze representaties om in meshes om compatibiliteit te behouden met schaalbare rendering engines zoals IsaacLab, maar zonder botsingsmodellering. Demonstratiegegevens voor robots die door R2R2R zijn gegenereerd, integreren direct met modellen die werken op robotproprioceptieve toestanden en beeldobservaties, zoals vision-language-action modellen (VLA) en imitatieleerbeleidsregels. Fysieke experimenten suggereren dat modellen getraind op R2R2R-gegevens van een enkele menselijke demonstratie de prestaties kunnen evenaren van modellen getraind op 150 menselijke teleoperatiedemonstraties. Projectpagina: https://real2render2real.com

AdaptCLIP: Aanpassen van CLIP voor Universele Visuele Anomaliedetectie
AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15

ByBin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang

Universele visuele anomaliedetectie heeft als doel anomalieën te identificeren uit nieuwe of onbekende visuele domeinen zonder aanvullende fine-tuning, wat cruciaal is in open scenario's. Recente studies hebben aangetoond dat vooraf getrainde visueel-taalmodelen zoals CLIP sterke generalisatie vertonen met slechts nul of enkele normale afbeeldingen. Bestaande methoden hebben echter moeite met het ontwerpen van promptsjablonen, complexe tokeninteracties of vereisen aanvullende fine-tuning, wat resulteert in beperkte flexibiliteit. In dit werk presenteren we een eenvoudige maar effectieve methode genaamd AdaptCLIP, gebaseerd op twee belangrijke inzichten. Ten eerste moeten adaptieve visuele en tekstuele representaties afwisselend worden geleerd in plaats van gezamenlijk. Ten tweede moet vergelijkend leren tussen query- en normale afbeeldingsprompt zowel contextuele als uitgelijnde resterende kenmerken incorporeren, in plaats van uitsluitend te vertrouwen op resterende kenmerken. AdaptCLIP behandelt CLIP-modellen als een fundamentele service, waarbij slechts drie eenvoudige adapters worden toegevoegd: een visuele adapter, een tekstuele adapter en een prompt-query adapter, aan de invoer- of uitvoerzijden. AdaptCLIP ondersteunt zero-/few-shot generalisatie over domeinen en heeft een trainingsvrije aanpak op doeldomeinen zodra het is getraind op een basisdataset. AdaptCLIP behaalt state-of-the-art prestaties op 12 anomaliedetectiebenchmarks uit industriële en medische domeinen, en overtreft aanzienlijk bestaande competitieve methoden. We zullen de code en het model van AdaptCLIP beschikbaar stellen op https://github.com/gaobb/AdaptCLIP.

X-Sim: Cross-Embodiment Leren via Real-to-Sim-to-Real
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11

ByPrithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury

Menselijke video's bieden een schaalbare manier om robotmanipulatiebeleid te trainen, maar missen de actielabels die nodig zijn voor standaard imitatieleringsalgoritmen. Bestaande cross-embodiment benaderingen proberen menselijke bewegingen naar robotacties te vertalen, maar falen vaak wanneer de embodimenten significant verschillen. Wij stellen X-Sim voor, een real-to-sim-to-real raamwerk dat objectbeweging gebruikt als een dicht en overdraagbaar signaal voor het leren van robotbeleid. X-Sim begint met het reconstrueren van een fotorealistische simulatie vanuit een RGBD-menselijke video en het volgen van objecttrajectorieën om objectgerichte beloningen te definiëren. Deze beloningen worden gebruikt om een reinforcement learning (RL) beleid in de simulatie te trainen. Het geleerde beleid wordt vervolgens gedistilleerd in een beeld-geconditioneerd diffusiebeleid met behulp van synthetische rollouts gerenderd vanuit verschillende gezichtspunten en belichting. Om naar de echte wereld over te dragen, introduceert X-Sim een online domeinaanpassingstechniek die echte en gesimuleerde observaties uitlijnt tijdens de implementatie. Belangrijk is dat X-Sim geen robotteleoperatiegegevens vereist. We evalueren het over 5 manipulatietaken in 2 omgevingen en tonen aan dat het: (1) de taakvoortgang met gemiddeld 30% verbetert ten opzichte van handtracking en sim-to-real basislijnen, (2) gedragsklonering evenaart met 10x minder datacollectietijd, en (3) generaliseert naar nieuwe cameraperspectieven en testtijdwijzigingen. Code en video's zijn beschikbaar op https://portal-cornell.github.io/X-Sim/.

MetaUAS: Universele Anomaliesegmentatie met One-Prompt Meta-Leren
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

May 14

ByBin-Bin Gao

Zero- en few-shot visuele anomaliedetectie is afhankelijk van krachtige vision-language-modellen die onzichtbare anomalieën detecteren met behulp van handmatig ontworpen tekstuele prompts. Visuele representaties zijn echter inherent onafhankelijk van taal. In dit artikel onderzoeken we het potentieel van een puur visueel foundation-model als alternatief voor veelgebruikte vision-language-modellen voor universele visuele anomaliedetectie. We presenteren een nieuw paradigma dat anomaliedetectie verenigt met veranderingsdetectie. Dit paradigma stelt ons in staat om gebruik te maken van grootschalige synthetische beeldparen, met objectniveau en lokale regioveranderingen, afgeleid van bestaande beelddatasets, die onafhankelijk zijn van doel-anomaliedatasets. We stellen een one-prompt Meta-learning framework voor Universal Anomaly Segmentation (MetaUAS) voor, dat wordt getraind op deze synthetische dataset en vervolgens goed generaliseert om nieuwe of onzichtbare visuele anomalieën in de echte wereld te segmenteren. Om geometrische variaties tussen prompt- en query-afbeeldingen te hanteren, stellen we een soft feature alignment-module voor die gepaarde beeldveranderingsperceptie en enkelvoudige beeld semantische segmentatie verbindt. Dit is het eerste werk dat universele anomaliedetectie bereikt met een puur visueel model zonder afhankelijk te zijn van speciale anomaliedetectiedatasets en vooraf getrainde vision-language-modellen. Onze methode segmenteert effectief en efficiënt elke anomalie met slechts één normale beeldprompt en geniet van training-vrij zonder begeleiding van taal. Onze MetaUAS presteert aanzienlijk beter dan eerdere zero-shot, few-shot en zelfs full-shot anomaliedetectiemethoden. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/MetaUAS.

Leren om multi-klasse anomalieën te detecteren met slechts één normale afbeelding Prompt
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14

ByBin-Bin Gao

Zelfsupervisie reconstructienetwerken die gebruikmaken van self-attention transformers hebben state-of-the-art prestaties bereikt voor multi-klasse (geünificeerde) anomaliedetectie met een enkel model. Deze self-attention reconstructiemodellen werken echter voornamelijk op doelkenmerken, wat kan leiden tot perfecte reconstructie voor zowel normale als anomaliekenmerken vanwege een hoge consistentie met de context, wat resulteert in het falen van anomaliedetectie. Bovendien produceren deze modellen vaak onnauwkeurige anomaliesegmentatie door reconstructie uit te voeren in een latent ruimte met lage ruimtelijke resolutie. Om reconstructiemodellen een hoge efficiëntie te bieden en tegelijkertijd hun generalisatie voor geünificeerde anomaliedetectie te verbeteren, stellen we een eenvoudige maar effectieve methode voor die normale kenmerken reconstrueert en anomaliekenmerken herstelt met slechts één normale afbeeldingsprompt (OneNIP). In tegenstelling tot eerder werk maakt OneNIP het voor het eerst mogelijk om anomalieën te reconstrueren of te herstellen met slechts één normale afbeeldingsprompt, wat de prestaties van geünificeerde anomaliedetectie effectief verbetert. Daarnaast stellen we een gesuperviseerde verfijner voor die reconstructiefouten regresseert door gebruik te maken van zowel echte normale als gesynthetiseerde anomalieafbeeldingen, wat de pixelgewijze anomaliesegmentatie aanzienlijk verbetert. OneNIP overtreft eerdere methoden op drie industriële anomaliedetectiebenchmarks: MVTec, BTAD en VisA. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/OneNIP.

Weinig-Voorbeeld Generatie Aangedreven door Anomalieën voor Anomalieclassificatie en Segmentatie
Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

May 14

ByGuan Gui, Bin-Bin Gao, Jun Liu, Chengjie Wang, Yunsheng Wu

Anomaliedetectie is een praktische en uitdagende taak vanwege de schaarste aan anomalievoorbeelden in industriële inspectie. Sommige bestaande anomaliedetectiemethoden pakken dit probleem aan door anomalieën te synthetiseren met ruis of externe data. Er is echter altijd een grote semantische kloof tussen synthetische en real-world anomalieën, wat resulteert in zwakke prestaties bij anomaliedetectie. Om dit probleem op te lossen, stellen we een few-shot Anomaly-driven Generation (AnoGen) methode voor, die het diffusiemodel begeleidt om realistische en diverse anomalieën te genereren met slechts enkele echte anomalieën, waardoor het trainen van anomaliedetectiemodellen wordt bevorderd. Specifiek is ons werk verdeeld in drie fasen. In de eerste fase leren we de anomalieverdeling op basis van enkele gegeven echte anomalieën en injecteren we de geleerde kennis in een embedding. In de tweede fase gebruiken we de embedding en gegeven begrenzingsvakken om het diffusiemodel te begeleiden bij het genereren van realistische en diverse anomalieën op specifieke objecten (of texturen). In de laatste fase stellen we een zwak-gesuperviseerde anomaliedetectiemethode voor om een krachtiger model te trainen met gegenereerde anomalieën. Onze methode bouwt voort op DRAEM en DesTSeg als basismodel en voert experimenten uit op het veelgebruikte industriële anomaliedetectiedataset, MVTec. De experimenten tonen aan dat onze gegenereerde anomalieën de modelprestaties van zowel anomalieclassificatie- als segmentatietaken effectief verbeteren, bijvoorbeeld behaalden DRAEM en DseTSeg een verbetering van respectievelijk 5,8% en 1,5% in de AU-PR-metric voor de segmentatietaak. De code en gegenereerde anomaliedata zijn beschikbaar op https://github.com/gaobb/AnoGen.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Voorbij 'Aha!': Naar een Systematische Afstemming van Meta-Vaardigheden in Grote Redeneermodellen
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

May 15

ByZhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li

120

Parallelle Schaalwet voor Taalmodellen
Parallel Scaling Law for Language Models

May 15

ByMouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu

Systeem Prompt Optimalisatie met Meta-Leren
System Prompt Optimization with Meta-Learning

May 14

ByYumin Choi, Jinheon Baek, Sung Ju Hwang

OpenThinkIMG: Leren denken met beelden via visueel gereedschap Versterkend Leren
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13

ByZhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng

WorldPM: Schaalbaar modelleren van menselijke voorkeuren
WorldPM: Scaling Human Preference Modeling

May 15

De CoT Encyclopedie: Analyseren, Voorspellen en Beheersen hoe een Redeneermodel zal Denken
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

May 15

BySeongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo

J1: Het stimuleren van denken in LLM-als-rechter via reinforcement learning
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15

ByChenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha

EnerVerse-AC: Het Visualiseren van Belichaamde Omgevingen met Actieconditie
EnerVerse-AC: Envisioning Embodied Environments with Action Condition

May 14

ByYuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

End-to-End Visuele Tokenizer Afstemming
End-to-End Vision Tokenizer Tuning

May 15

ByWenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang

MLE-Dojo: Interactieve Omgevingen voor het Versterken van LLM-Agenten in Machine Learning Engineering
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12

ByRushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai

EWMBench: Evaluatie van scène-, beweging- en semantische kwaliteit in belichaamde wereldmodellen
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

May 14

ByHu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren

Unilogit: Robuust Machine Unleren voor LLM's met Uniform-Target Zelfdistillatie
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9

ByStefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz

Stijlaanpassing van tekst-naar-vector-generatie met beelddiffusieprioriteiten
Style Customization of Text-to-Vector Generation with Image Diffusion Priors

May 15

ByPeiying Zhang, Nanxuan Zhao, Jing Liao

Depth Anything met Elke Prior
Depth Anything with Any Prior

May 15

ByZehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao

PointArena: Onderzoek naar Multimodale Verankering via Taalgestuurd Aanwijzen
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

May 15

ByLong Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna

Het bereiken van tokenizerflexibiliteit in taalmodellen door middel van heuristische aanpassing en supertokenleren
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

May 14

ByShaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

AI-agents versus Agentische AI: Een Conceptuele Taxonomie, Toepassingen en Uitdagingen
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge

May 15

ByRanjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee

Het verkennen van de diepe integratie van grote taalmodellen en diffusie-transformatoren voor tekst-naar-beeld synthese
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

May 15

ByBingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie

ReSurgSAM2: Refereren naar Segment Anything in chirurgische video's via geloofwaardige langetermijntracking
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13

ByHaofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin

3D-Fixup: Vooruitgang in Fotobewerking met 3D-Priors
3D-Fixup: Advancing Photo Editing with 3D Priors

May 15

ByYen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao

QuXAI: Uitlegmodules voor Hybride Kwantum Machine Learning Modellen
QuXAI: Explainers for Hybrid Quantum Machine Learning Models

May 15

BySaikat Barua, Mostafizur Rahman, Shehenaz Khaled, Md Jafor Sadek, Rafiul Islam, Shahnewaz Siddique

Real2Render2Real: Schaalbaarheid van Robotgegevens Zonder Dynamische Simulatie of Robotapparatuur
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14

ByJustin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg

AdaptCLIP: Aanpassen van CLIP voor Universele Visuele Anomaliedetectie
AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15

ByBin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang

X-Sim: Cross-Embodiment Leren via Real-to-Sim-to-Real
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11

ByPrithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury

MetaUAS: Universele Anomaliesegmentatie met One-Prompt Meta-Leren
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

May 14

ByBin-Bin Gao

Leren om multi-klasse anomalieën te detecteren met slechts één normale afbeelding Prompt
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14

ByBin-Bin Gao

Weinig-Voorbeeld Generatie Aangedreven door Anomalieën voor Anomalieclassificatie en Segmentatie
Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

May 14

ByGuan Gui, Bin-Bin Gao, Jun Liu, Chengjie Wang, Yunsheng Wu