Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote redeneermodellen (LRMs) beschikken al over een latente capaciteit voor lange ketens van redeneringen. Eerder onderzoek heeft aangetoond dat uitkomstgebaseerd reinforcement learning (RL) incidenteel geavanceerde redeneergedragingen kan oproepen, zoals zelfcorrectie, terugspoelen en verificatieverschijnselen, vaak aangeduid als het "aha-moment" van het model. Het tijdstip en de consistentie van deze opkomende gedragingen blijven echter onvoorspelbaar en oncontroleerbaar, wat de schaalbaarheid en betrouwbaarheid van de redeneercapaciteiten van LRMs beperkt. Om deze beperkingen aan te pakken, gaan we verder dan afhankelijkheid van prompts en toevallige "aha-momenten". In plaats daarvan richten we modellen expliciet af op drie meta-vaardigheden: deductie, inductie en abductie, met behulp van automatisch gegenereerde, zelfverifieerbare taken. Onze pijplijn in drie fasen — individuele afstemming, parameterruimte-samenvoeging en domeinspecifiek reinforcement learning — verbetert de prestaties met meer dan 10% ten opzichte van instructie-afgestemde basislijnen. Bovendien levert domeinspecifiek RL vanaf het afgestemde checkpoint een extra gemiddelde winst van 2% op in het prestatieplafond over benchmarks voor wiskunde, programmeren en wetenschap, wat aantoont dat expliciete afstemming op meta-vaardigheden een schaalbare en betrouwbare basis biedt voor redeneren. Code is beschikbaar op: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
Er wordt algemeen aangenomen dat het schalen van taalmodellen een aanzienlijke ruimte- of tijdsinvestering vereist, door het verhogen van het aantal parameters (parameterschaling) of uitvoertokens (inferentie-tijd schaling). Wij introduceren het derde en meer inferentie-efficiënte schaalparadigma: het vergroten van de parallelle berekening van het model tijdens zowel de training als de inferentie. We passen P diverse en leerbare transformaties toe op de invoer, voeren forward passes van het model parallel uit, en aggregeren de P uitvoerwaarden dynamisch. Deze methode, genaamd parallelle schaling (ParScale), schaalt de parallelle berekening door bestaande parameters te hergebruiken en kan worden toegepast op elke modelstructuur, optimalisatieprocedure, dataset of taak. We stellen theoretisch een nieuwe schaalwet voor en valideren deze door middel van grootschalige pre-training, wat aantoont dat een model met P parallelle streams vergelijkbaar is met het schalen van de parameters met O(log P), terwijl het superieure inferentie-efficiëntie vertoont. ParScale kan bijvoorbeeld tot 22 keer minder geheugentoename en 6 keer minder latentietoename gebruiken in vergelijking met parameterschaling die dezelfde prestatieverbetering bereikt. Het kan ook een kant-en-klaar voorgetraind model recyclen naar een parallel geschaald model door post-training op een kleine hoeveelheid tokens, wat het trainingsbudget verder verlaagt. De nieuwe schaalwet die we hebben ontdekt, vergemakkelijkt mogelijk de implementatie van krachtigere modellen in scenario's met beperkte middelen, en biedt een alternatief perspectief op de rol van berekening in machine learning.
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond, waarbij het optimaliseren van hun invoerprompts een cruciale rol speelt in het maximaliseren van hun prestaties. Echter, hoewel LLM-prompts bestaan uit zowel taakonafhankelijke systeemprompts als taakspecifieke gebruikersprompts, heeft bestaand onderzoek naar promptoptimalisatie zich gericht op gebruikersprompts die specifiek zijn voor individuele queries of taken, en grotendeels de systeemprompt over het hoofd gezien die, eenmaal geoptimaliseerd, toepasbaar is op verschillende taken en domeinen. Gemotiveerd door dit inzicht introduceren we het nieuwe probleem van bilevel systeempromptoptimalisatie, waarvan het doel is om systeemprompts te ontwerpen die robuust zijn tegen diverse gebruikersprompts en overdraagbaar naar onbekende taken. Om dit probleem aan te pakken, stellen we vervolgens een meta-leerframework voor, dat de systeemprompt meta-leert door deze te optimaliseren over verschillende gebruikersprompts in meerdere datasets, terwijl tegelijkertijd de gebruikersprompts op iteratieve wijze worden bijgewerkt om synergie tussen hen te waarborgen. We voeren experimenten uit op 14 onbekende datasets die vijf verschillende domeinen beslaan, waarop we aantonen dat onze aanpak systeemprompts oplevert die effectief generaliseren naar diverse gebruikersprompts. Bovendien tonen onze bevindingen aan dat de geoptimaliseerde systeemprompt snelle aanpassing mogelijk maakt, zelfs aan onbekende taken, waarbij minder optimalisatiestappen nodig zijn voor gebruikersprompts tijdens de testfase, terwijl tegelijkertijd verbeterde prestaties worden behaald.
Terwijl mensen flexibel gebruik kunnen maken van interactieve visuele cognitie voor complexe probleemoplossing, blijft het een uitdaging om Large Vision-Language Models (LVLMs) op een vergelijkbare manier adaptief gedrag aan te leren met visuele tools. Een belangrijke hindernis is het huidige gebrek aan gestandaardiseerde infrastructuur, wat de integratie van diverse tools, het genereren van rijke interactiedata en het effectief trainen van robuuste agents belemmert. Om deze tekortkomingen aan te pakken, introduceren we OpenThinkIMG, het eerste open-source, uitgebreide end-to-end framework voor tool-augmented LVLMs. Het beschikt over gestandaardiseerde visuele tool-interfaces, schaalbare trajectgeneratie voor beleidsinitialisatie en een flexibele trainingsomgeving. Bovendien, gezien het feit dat supervised fine-tuning (SFT) op statische demonstraties beperkte beleidsgeneralizatie biedt voor dynamische tool-aanroeping, stellen we een nieuw reinforcement learning (RL) framework voor, genaamd V-ToolRL, om LVLMs te trainen in het leren van adaptieve beleidsregels voor het aanroepen van externe visuele tools. V-ToolRL stelt LVLMs in staat om autonoom optimale tool-gebruiksstrategieën te ontdekken door direct te optimaliseren voor taaksucces met behulp van feedback van tool-interacties. We valideren V-ToolRL empirisch op uitdagende grafiekredeneertaken. Onze RL-getrainde agent, gebouwd op een Qwen2-VL-2B, presteert aanzienlijk beter dan zijn SFT-geïnitialiseerde tegenhanger (+28,83 punten) en overtreft gevestigde supervised tool-learning baselines zoals Taco en CogCom gemiddeld met +12,7 punten. Opmerkelijk is dat het ook prominente closed-source modellen zoals GPT-4.1 overtreft met +8,68 nauwkeurigheidspunten. We hopen dat OpenThinkIMG kan dienen als een fundamenteel framework voor het bevorderen van dynamische, tool-augmented visuele redenering, en de gemeenschap kan helpen bij het ontwikkelen van AI-agents die daadwerkelijk "kunnen denken met beelden".
Gemotiveerd door schaalwetten in taalmodellering die aantonen hoe de testverlies schaalt volgens een machtswet met model- en datasetgroottes, ontdekken we dat soortgelijke wetten bestaan in voorkeursmodellering. We stellen World Preference Modeling (WorldPM) voor om dit schaalpotentieel te benadrukken, waarbij World Preference een verenigde weergave van menselijke voorkeuren belichaamt. In dit artikel verzamelen we voorkeursgegevens van openbare forums die diverse gebruikersgemeenschappen bestrijken, en voeren we uitgebreide training uit met 15M-schaal gegevens over modellen variërend van 1,5B tot 72B parameters. We observeren duidelijke patronen in verschillende evaluatiemetrics: (1) Adversariële metrics (het vermogen om misleidende kenmerken te identificeren) schalen consistent op met meer trainingsgegevens en basismodelgrootte; (2) Objectieve metrics (objectieve kennis met goed gedefinieerde antwoorden) vertonen emergent gedrag in grotere taalmodellen, wat het schaalpotentieel van WorldPM benadrukt; (3) Subjectieve metrics (subjectieve voorkeuren van een beperkt aantal mensen of AI) vertonen geen schaaltrends. Verdere experimenten valideren de effectiviteit van WorldPM als basis voor voorkeursfine-tuning. Door evaluaties op 7 benchmarks met 20 subtaken, vinden we dat WorldPM de generalisatieprestaties breed verbetert over menselijke voorkeursdatasets van verschillende groottes (7K, 100K en 800K samples), met prestatieverbeteringen van meer dan 5% op veel belangrijke subtaken. Door WorldPM te integreren in onze interne RLHF-pijplijn, observeren we significante verbeteringen op zowel interne als openbare evaluatiesets, met opmerkelijke winsten van 4% tot 8% in onze interne evaluaties.
Lang kettingredeneren (CoT) is een essentieel ingrediënt voor het effectieve gebruik van moderne grote taalmodelen, maar ons begrip van de redeneerstrategieën die aan deze mogelijkheden ten grondslag liggen, blijft beperkt. Hoewel sommige eerdere werken hebben geprobeerd CoT's te categoriseren met behulp van vooraf gedefinieerde strategietypen, worden dergelijke benaderingen beperkt door menselijke intuïtie en slagen ze er niet in de volledige diversiteit van modelgedragingen vast te leggen. In dit werk introduceren we de CoT Encyclopedie, een bottom-up raamwerk voor het analyseren en sturen van modelredeneringen. Onze methode extraheert automatisch diverse redeneercriteria uit door modellen gegenereerde CoT's, embedt deze in een semantische ruimte, clustert ze in representatieve categorieën en leidt contrastieve rubrieken af om redeneergedrag te interpreteren. Menselijke evaluaties tonen aan dat dit raamwerk meer interpreteerbare en uitgebreide analyses oplevert dan bestaande methoden. Bovendien demonstreren we dat dit begrip prestatieverbeteringen mogelijk maakt: we kunnen voorspellen welke strategie een model waarschijnlijk zal gebruiken en het begeleiden naar effectievere alternatieven. Tot slot bieden we praktische inzichten, zoals dat de opmaak van trainingsdata (bijv. vrije vorm vs. meerkeuze) een veel grotere impact heeft op redeneergedrag dan het datadomein, wat het belang onderstreept van opmaakbewust modelontwerp.
De vooruitgang van AI wordt belemmerd door de kwaliteit van evaluatie, en krachtige LLM-as-a-Judge-modellen hebben zich bewezen als een kernoplossing. Verbeterd beoordelingsvermogen wordt mogelijk gemaakt door sterkere chain-of-thought-redenering, wat de noodzaak benadrukt om de beste methoden te vinden voor het trainen van dergelijke modellen om te denken. In dit werk introduceren we J1, een reinforcement learning-benadering voor het trainen van dergelijke modellen. Onze methode zet zowel verifieerbare als niet-verifieerbare prompts om in beoordelingstaken met verifieerbare beloningen die denken stimuleren en beoordelingsbias verminderen. In het bijzonder presteert onze aanpak beter dan alle andere bestaande 8B- of 70B-modellen wanneer deze op die grootte worden getraind, inclusief modellen die zijn gedistilleerd uit DeepSeek-R1. J1 presteert ook beter dan o1-mini, en zelfs dan R1 op sommige benchmarks, ondanks het trainen van een kleiner model. We bieden analyse en ablatie-onderzoeken die Pairwise-J1 versus Pointwise-J1-modellen vergelijken, offline versus online trainingsmethoden, beloningsstrategieën, seed-prompts, en variaties in gedachte-lengte en -inhoud. We constateren dat onze modellen betere beoordelingen maken door te leren evaluatiecriteria te schetsen, te vergelijken met zelf gegenereerde referentieantwoorden, en de juistheid van modelresponsen opnieuw te evalueren.
Robotisch imitatieleren is geëvolueerd van het oplossen van statische taken naar het aanpakken van dynamische interactiescenario's, maar het testen en evalueren blijven kostbaar en uitdagend vanwege de noodzaak voor real-time interactie met dynamische omgevingen. Wij stellen EnerVerse-AC (EVAC) voor, een actie-conditioneel wereldmodel dat toekomstige visuele observaties genereert op basis van de voorspelde acties van een agent, waardoor realistische en controleerbare robotische inferentie mogelijk wordt. Voortbouwend op eerdere architecturen introduceert EVAC een multi-level actie-conditioneringsmechanisme en ray map-codering voor dynamische multi-view beeldgeneratie, terwijl het trainingsdata uitbreidt met diverse fouttrajectorieën om de generalisatie te verbeteren. Als zowel een data-engine als evaluator verrijkt EVAC door mensen verzamelde trajecten tot diverse datasets en genereert het realistische, actie-geconditioneerde video-observaties voor beleidstesten, waardoor de noodzaak voor fysieke robots of complexe simulaties wordt geëlimineerd. Deze aanpak verlaagt de kosten aanzienlijk terwijl een hoge betrouwbaarheid in de evaluatie van robotische manipulatie behouden blijft. Uitgebreide experimenten valideren de effectiviteit van onze methode. Code, checkpoints en datasets zijn te vinden op <https://annaj2178.github.io/EnerverseAC.github.io>.
Bestaande visuele tokenisatie isoleert de optimalisatie van visuele tokenizers van downstream training, waarbij impliciet wordt aangenomen dat de visuele tokens goed kunnen generaliseren over verschillende taken, zoals beeldgeneratie en visuele vraagbeantwoording. De visuele tokenizer die is geoptimaliseerd voor laag-niveau reconstructie is onbewust van downstream taken die uiteenlopende representaties en semantiek vereisen. Dit ontkoppelde paradigma introduceert een kritische misalignering: Het verlies van de visuele tokenisatie kan de representatiebottleneck vormen voor doeltaken. Bijvoorbeeld, fouten in het tokeniseren van tekst in een gegeven afbeelding leiden tot slechte resultaten bij het herkennen of genereren ervan. Om dit aan te pakken, stellen we ETT voor, een end-to-end visuele tokenizer afstemmingsbenadering die gezamenlijke optimalisatie mogelijk maakt tussen visuele tokenisatie en doel autoregressieve taken. In tegenstelling tot eerdere autoregressieve modellen die alleen discrete indices gebruiken van een bevroren visuele tokenizer, benut ETT de visuele embeddings van de tokenizer codebook, en optimaliseert de visuele tokenizers end-to-end met zowel reconstructie- als bijschriftdoelstellingen. ETT kan naadloos worden geïntegreerd in bestaande trainingspijplijnen met minimale architectuurwijzigingen. Onze ETT is eenvoudig te implementeren en te integreren, zonder dat de originele codebooks of architecturen van de gebruikte grote taalmodellen hoeven te worden aangepast. Uitgebreide experimenten tonen aan dat onze voorgestelde end-to-end visuele tokenizer afstemming aanzienlijke prestatieverbeteringen oplevert, d.w.z. 2-6% voor multimodale begrips- en visuele generatietaken in vergelijking met bevroren tokenizer baselines, terwijl de oorspronkelijke reconstructiecapaciteit behouden blijft. We hopen dat deze zeer eenvoudige en krachtige methode multimodale foundation modellen kan versterken naast beeldgeneratie en -begrip.
Recente vooruitgang in creatieve AI heeft de synthese van hoogwaardige afbeeldingen en video's mogelijk gemaakt, gebaseerd op taal instructies. Op basis van deze ontwikkelingen zijn tekst-naar-video diffusiemodellen geëvolueerd naar embodied world models (EWMs) die in staat zijn fysiek plausibele scènes te genereren vanuit taalcommando's, waardoor visie en actie in embodied AI-toepassingen effectief worden verbonden. Dit werk richt zich op de kritieke uitdaging om EWMs te evalueren voorbij algemene perceptuele metriek, om ervoor te zorgen dat fysiek onderbouwde en actie-consistente gedragingen worden gegenereerd. Wij stellen de Embodied World Model Benchmark (EWMBench) voor, een speciaal ontworpen framework om EWMs te evalueren op basis van drie belangrijke aspecten: visuele scèneconsistentie, bewegingcorrectheid en semantische uitlijning. Onze aanpak maakt gebruik van een zorgvuldig samengestelde dataset die diverse scènes en bewegingspatronen omvat, naast een uitgebreid multidimensionaal evaluatie-instrumentarium, om kandidaatmodellen te beoordelen en te vergelijken. De voorgestelde benchmark identificeert niet alleen de beperkingen van bestaande videogeneratiemodellen in het voldoen aan de unieke eisen van embodied taken, maar biedt ook waardevolle inzichten om toekomstige vooruitgang in het veld te begeleiden. De dataset en evaluatietools zijn publiekelijk beschikbaar op https://github.com/AgibotTech/EWMBench.
We introduceren MLE-Dojo, een Gym-stijl framework voor het systematisch versterken, evalueren en verbeteren van autonome large language model (LLM) agents in iteratieve machine learning engineering (MLE) workflows. In tegenstelling tot bestaande benchmarks die voornamelijk vertrouwen op statische datasets of evaluaties in één poging, biedt MLE-Dojo een interactieve omgeving die agents in staat stelt om iteratief te experimenteren, te debuggen en oplossingen te verfijnen via gestructureerde feedbackloops. Gebouwd op basis van 200+ real-world Kaggle-uitdagingen, omvat MLE-Dojo diverse, open-einde MLE-taken die zorgvuldig zijn samengesteld om realistische engineering scenario's weer te geven, zoals gegevensverwerking, architectuurzoektochten, hyperparameterafstemming en code-debugging. De volledig uitvoerbare omgeving ondersteunt uitgebreide agenttraining via zowel supervised fine-tuning als reinforcement learning, wat iteratief experimenteren, realistische gegevensbemonstering en real-time uitkomstverificatie mogelijk maakt. Uitgebreide evaluaties van acht frontier LLM's onthullen dat, hoewel huidige modellen betekenisvolle iteratieve verbeteringen bereiken, ze nog steeds aanzienlijke beperkingen vertonen in het autonoom genereren van lange-termijn oplossingen en het efficiënt oplossen van complexe fouten. Bovendien integreert de flexibele en uitbreidbare architectuur van MLE-Dojo naadloos diverse gegevensbronnen, tools en evaluatieprotocollen, wat uniek modelgebaseerde agentafstemming mogelijk maakt en interoperabiliteit, schaalbaarheid en reproduceerbaarheid bevordert. We maken ons framework en benchmarks open source om gemeenschapsgedreven innovatie naar de volgende generatie MLE-agents te bevorderen.
Dit artikel introduceert Unilogit, een nieuwe zelfdistillatiemethode voor machine-unlearning in grote taalmmodellen. Unilogit richt zich op de uitdaging om specifieke informatie selectief te vergeten terwijl de algehele nuttigheid van het model behouden blijft, een cruciale taak in het kader van naleving van gegevensprivacyregels zoals de AVG. In tegenstelling tot eerdere methoden die vertrouwen op statische hyperparameters of uitgangsoutputs van het model, past Unilogit dynamisch de doel-logits aan om een uniforme waarschijnlijkheid voor het doel-token te bereiken, waarbij het de huidige outputs van het model benut voor nauwkeurigere zelfdistillatiedoelen. Deze aanpak elimineert niet alleen de behoefte aan extra hyperparameters, maar verbetert ook het vermogen van het model om de gouden doelen te benaderen. Uitgebreide experimenten op openbare benchmarks en een interne e-commercedataset tonen de superieure prestaties van Unilogit in het balanceren van vergeten en behouden doelen, waarbij het state-of-the-art methoden zoals NPO en UnDIAL overtreft. Onze analyse onthult verder de robuustheid van Unilogit in diverse scenario's, wat de praktische toepasbaarheid en effectiviteit ervan benadrukt bij het bereiken van efficiënt machine-unlearning.
Scalable Vector Graphics (SVG's) worden zeer gewaardeerd door ontwerpers vanwege hun resolutie-onafhankelijkheid en goed georganiseerde laagstructuur. Hoewel bestaande tekst-naar-vector (T2V) generatiemethoden SVG's kunnen creëren op basis van tekstprompts, negeren ze vaak een belangrijke behoefte in praktische toepassingen: stijlaanpassing, wat essentieel is voor het produceren van een verzameling vectorafbeeldingen met een consistent visueel uiterlijk en samenhangende esthetiek. Het uitbreiden van bestaande T2V-methoden voor stijlaanpassing brengt bepaalde uitdagingen met zich mee. Optimalisatiegebaseerde T2V-modellen kunnen de prioriteiten van tekst-naar-afbeelding (T2I) modellen gebruiken voor aanpassing, maar hebben moeite met het behouden van structurele regelmaat. Aan de andere kant kunnen feed-forward T2V-modellen structurele regelmaat garanderen, maar ze ondervinden moeilijkheden bij het ontwarren van inhoud en stijl vanwege beperkte SVG-trainingsdata. Om deze uitdagingen aan te pakken, stellen we een nieuwe tweefasen pijplijn voor stijlaanpassing voor SVG-generatie voor, waarbij we gebruikmaken van de voordelen van zowel feed-forward T2V-modellen als T2I-afbeeldingsprioriteiten. In de eerste fase trainen we een T2V-diffusiemodel met een padniveau-representatie om de structurele regelmaat van SVG's te waarborgen, terwijl diverse expressieve mogelijkheden behouden blijven. In de tweede fase passen we het T2V-diffusiemodel aan verschillende stijlen aan door aangepaste T2I-modellen te destilleren. Door deze technieken te integreren, kan onze pijplijn hoogwaardige en diverse SVG's in aangepaste stijlen genereren op basis van tekstprompts op een efficiënte feed-forward manier. De effectiviteit van onze methode is gevalideerd door uitgebreide experimenten. De projectpagina is te vinden op https://customsvg.github.io.
Dit werk presenteert Prior Depth Anything, een raamwerk dat onvolledige maar precieze metrische informatie in dieptemeting combineert met relatieve maar complete geometrische structuren in dieptevoorspelling, waardoor nauwkeurige, dichte en gedetailleerde metrische dieptekaarten voor elke scène worden gegenereerd. Hiertoe ontwerpen we een grof-naar-fijn pijplijn om de twee complementaire dieptebronnen geleidelijk te integreren. Eerst introduceren we pixel-niveau metrische uitlijning en afstandsbewuste weging om diverse metrische priors vooraf in te vullen door expliciet gebruik te maken van dieptevoorspelling. Dit verkleint effectief het domeingat tussen priorpatronen, wat de generalisatie over verschillende scenario's verbetert. Ten tweede ontwikkelen we een geconditioneerd monocular depth estimation (MDE)-model om het inherente ruisniveau van dieptepriors te verfijnen. Door te conditioneren op de genormaliseerde vooraf ingevulde prior en voorspelling, integreert het model de twee complementaire dieptebronnen verder impliciet. Ons model toont indrukwekkende zero-shot generalisatie over dieptecompletie, superresolutie en inpainting over 7 real-world datasets, waarbij het eerdere taakspecifieke methoden evenaart of zelfs overtreft. Belangrijker nog, het presteert goed op uitdagende, onbekende gemengde priors en maakt testtijdverbeteringen mogelijk door voorspellingsmodellen te wisselen, wat een flexibele nauwkeurigheid-efficiëntie afweging biedt terwijl het meegaat met de vooruitgang in MDE-modellen.
Wijzen fungeert als een fundamenteel en intuïtief mechanisme om taal te verankeren in visuele contexten, met toepassingen die zich uitstrekken over robotica, ondersteunende technologieën en interactieve AI-systemen. Hoewel recente multimodale modellen begonnen zijn met het ondersteunen van wijsvaardigheden, richten bestaande benchmarks zich doorgaans alleen op referentiële objectlokalisatietaken. Wij introduceren PointArena, een uitgebreid platform voor het evalueren van multimodaal wijzen in diverse redeneerscenario's. PointArena bestaat uit drie componenten: (1) Point-Bench, een gecureerde dataset met ongeveer 1.000 wijstaken verdeeld over vijf redeneercategorieën; (2) Point-Battle, een interactieve, webgebaseerde arena die blinde, paarsgewijze modelvergelijkingen mogelijk maakt, waarin al meer dan 4.500 geanonimiseerde stemmen zijn verzameld; en (3) Point-Act, een real-world robotmanipulatiesysteem waarmee gebruikers de wijsvaardigheden van multimodale modellen direct kunnen evalueren in praktische settings. We hebben uitgebreide evaluaties uitgevoerd van zowel state-of-the-art open-source als propriëtaire multimodale modellen. De resultaten geven aan dat Molmo-72B consistent beter presteert dan andere modellen, hoewel propriëtaire modellen steeds vaker vergelijkbare prestaties laten zien. Daarnaast constateren we dat gesuperviseerde training die specifiek gericht is op wijstaken de modelprestaties aanzienlijk verbetert. In onze meerfasen-evaluatiepipeline observeren we ook sterke correlaties, wat het cruciale belang onderstreept van precieze wijsvaardigheden om multimodale modellen in staat te stellen abstract redeneren effectief te verbinden met concrete, real-world acties. Projectpagina: https://pointarena.github.io/
Deze studie maakt een kritisch onderscheid tussen AI Agents en Agentic AI, en biedt een gestructureerde conceptuele taxonomie, toepassingsmapping en uitdagingenanalyse om hun uiteenlopende ontwerpfilosofieën en mogelijkheden te verduidelijken. We beginnen met het schetsen van de zoekstrategie en fundamentele definities, waarbij AI Agents worden gekarakteriseerd als modulaire systemen aangedreven door Large Language Models (LLMs) en Large Image Models (LIMs) voor specifieke, taakgerichte automatisering. Generatieve AI wordt gepositioneerd als een voorloper, waarbij AI Agents verdergaan door toolintegratie, prompt engineering en redeneerverbeteringen. Daarentegen vertegenwoordigen Agentic AI-systemen een paradigmatische verschuiving gekenmerkt door multi-agent samenwerking, dynamische taakdecompositie, persistent geheugen en georkestreerde autonomie. Door een sequentiële evaluatie van architecturale evolutie, operationele mechanismen, interactiestijlen en autonomieniveaus presenteren we een vergelijkende analyse van beide paradigma's. Toepassingsdomeinen zoals klantondersteuning, planning en datasamenvatting worden afgezet tegen Agentic AI-implementaties in onderzoeksautomatisering, robotcoördinatie en medische beslissingsondersteuning. We onderzoeken verder unieke uitdagingen in elk paradigma, waaronder hallucinatie, broosheid, emergent gedrag en coördinatiefalen, en stellen gerichte oplossingen voor zoals ReAct-lussen, RAG, orkestratielagen en causaal modelleren. Dit werk beoogt een definitieve routekaart te bieden voor het ontwikkelen van robuuste, schaalbare en uitlegbare AI agent- en Agentic AI-gedreven systemen. >AI Agents, Agent-gedreven, Vision-Language-Models, Agentic AI Beslissingsondersteuningssysteem, Agentic-AI Toepassingen
Dit artikel beschrijft geen nieuwe methode; in plaats daarvan biedt het een grondige verkenning van een belangrijk maar onderbelicht ontwerpgebied dat verband houdt met recente vooruitgang in tekst-naar-beeldsynthese -- specifiek, de diepe integratie van grote taalmodellen (LLMs) en diffusie-transformers (DiTs) voor multimodale generatie. Eerdere studies richtten zich voornamelijk op de algehele systeemprestaties in plaats van gedetailleerde vergelijkingen met alternatieve methoden, en belangrijke ontwerpdetails en trainingsrecepten werden vaak niet vrijgegeven. Deze hiaten creëren onzekerheid over het werkelijke potentieel van deze aanpak. Om deze lacunes op te vullen, voeren we een empirische studie uit naar tekst-naar-beeldgeneratie, waarbij we gecontroleerde vergelijkingen maken met gevestigde baselines, belangrijke ontwerpkeuzes analyseren en een duidelijk, reproduceerbaar recept bieden voor training op grote schaal. We hopen dat dit werk zinvolle datapunten en praktische richtlijnen biedt voor toekomstig onderzoek in multimodale generatie.
Voorgetrainde taalmmodellen (LLMs) worden vaak beperkt door hun vaste tokenisatieschema's, wat leidt tot inefficiënties en prestatiebeperkingen, vooral voor meertalige of gespecialiseerde toepassingen. Deze tokenizer-lock-in vormt aanzienlijke uitdagingen. Standaardmethoden om dit te overwinnen vereisen vaak onhaalbaar veel rekenbronnen. Hoewel het vervangen van de tokenizer met heuristische initialisatie deze last probeert te verminderen, vereisen bestaande methoden vaak uitgebreide rest-finetuning en kunnen ze nog steeds niet volledig semantische nuances behouden of de onderliggende compressie-inefficiënties adequaat aanpakken. Ons framework introduceert twee innovaties: ten eerste, Tokenadapt, een model-agnostische methode voor tokenizer-transplantatie, en ten tweede, een nieuwe pre-tokenisatieleertechniek voor multi-woord Supertokens om compressie te verbeteren en fragmentatie te verminderen. Tokenadapt initialiseert nieuwe unieke token-embeddings via een hybride heuristiek die twee methoden combineert: een lokale schatting gebaseerd op subwoord-decompositie met behulp van de oude tokenizer, en een globale schatting die gebruikmaakt van de top-k semantisch vergelijkbare tokens uit de originele vocabulaire. Deze methodologie heeft als doel semantiek te behouden terwijl de hertrainingsvereisten aanzienlijk worden geminimaliseerd. Empirisch onderzoek valideert beide bijdragen: de transplantatieheuristiek initialiseert succesvol unieke tokens en presteert duidelijk beter dan conventionele baseline-methoden en geavanceerde methoden zoals Transtokenizer en ReTok, terwijl onze Supertokens aanzienlijke compressiewinsten behalen. Onze zero-shot perplexiteitsresultaten tonen aan dat de TokenAdapt hybride initialisatie consistent lagere perplexiteitsratio's oplevert in vergelijking met zowel ReTok als TransTokenizer baseline-methoden, over verschillende basismodellen en nieuw getrainde doel-tokenizers. TokenAdapt reduceerde typisch de algehele perplexiteitsratio aanzienlijk in vergelijking met ReTok, wat resulteerde in minstens een 2-voudige verbetering in deze geaggregeerde scores.
Segmentatie van chirurgische scènes is cruciaal in computerondersteunde chirurgie en is essentieel voor het verbeteren van de chirurgische kwaliteit en patiëntresultaten. Onlangs komt refererende chirurgische segmentatie op, vanwege het voordeel dat het chirurgen een interactieve ervaring biedt om het doelobject te segmenteren. Bestaande methoden worden echter beperkt door lage efficiëntie en kortetermijntracking, wat hun toepasbaarheid in complexe real-world chirurgische scenario's belemmert. In dit artikel introduceren we ReSurgSAM2, een tweestaps chirurgisch refererend segmentatieraamwerk dat gebruikmaakt van het Segment Anything Model 2 om tekstverwijzende doelobjectdetectie uit te voeren, gevolgd door tracking met betrouwbare initiële frame-identificatie en diversiteitgedreven langetermijngeheugen. Voor de detectiefase stellen we een cross-modale ruimtelijk-temporele Mamba voor om nauwkeurige detectie- en segmentatieresultaten te genereren. Op basis van deze resultaten identificeert onze betrouwbare initiële frameselectiestrategie het betrouwbare frame voor de daaropvolgende tracking. Na het selecteren van het initiële frame gaat onze methode over naar de trackingfase, waarin een diversiteitgedreven geheugenmechanisme wordt geïntegreerd dat een betrouwbaar en divers geheugenbank onderhoudt, wat consistente langetermijntracking garandeert. Uitgebreide experimenten tonen aan dat ReSurgSAM2 aanzienlijke verbeteringen in nauwkeurigheid en efficiëntie bereikt in vergelijking met bestaande methoden, en opereert in real-time met 61,2 FPS. Onze code en datasets zullen beschikbaar zijn op https://github.com/jinlab-imvr/ReSurgSAM2.
Ondanks aanzienlijke vooruitgang in het modelleren van beeldprioriteiten via diffusiemodellen, blijft 3D-bewust beeldbewerken een uitdaging, deels omdat het object slechts via één afbeelding wordt gespecificeerd. Om deze uitdaging aan te pakken, stellen we 3D-Fixup voor, een nieuw raamwerk voor het bewerken van 2D-afbeeldingen geleid door geleerde 3D-prioriteiten. Het raamwerk ondersteunt moeilijke bewerkingssituaties zoals objecttranslatie en 3D-rotatie. Om dit te bereiken, benutten we een trainingsgebaseerde aanpak die de generatieve kracht van diffusiemodellen benut. Aangezien videodata van nature de fysieke dynamiek van de echte wereld vastlegt, wenden we ons tot videodata voor het genereren van trainingsdataparen, d.w.z. een bron- en een doelbeeld. In plaats van uitsluitend te vertrouwen op één getraind model om transformaties tussen bron- en doelbeelden af te leiden, integreren we 3D-begeleiding van een Image-to-3D-model, dat deze uitdagende taak overbrugt door expliciet 2D-informatie in 3D-ruimte te projecteren. We ontwerpen een datageneratiepijplijn om hoogwaardige 3D-begeleiding gedurende de training te waarborgen. Resultaten tonen aan dat door het integreren van deze 3D-prioriteiten, 3D-Fixup effectief complexe, identiteitscoherente 3D-bewuste bewerkingen ondersteunt, waardoor hoogwaardige resultaten worden bereikt en de toepassing van diffusiemodellen in realistische beeldmanipulatie wordt bevorderd. De code is beschikbaar op https://3dfixup.github.io/.
De opkomst van hybride quantum-klassieke machine learning (HQML) modellen opent nieuwe horizonnen van computationele intelligentie, maar hun fundamentele complexiteit leidt vaak tot black box-gedrag dat de transparantie en betrouwbaarheid van hun toepassing ondermijnt. Hoewel XAI voor quantumsystemen nog in de kinderschoenen staat, is er een groot onderzoeksgat zichtbaar in robuuste globale en lokale verklaarbaarheidsbenaderingen die zijn ontworpen voor HQML-architecturen die gebruikmaken van gekwantiseerde feature encoding gevolgd door klassiek leren. Dit gat is de focus van dit werk, dat QuXAI introduceert, een raamwerk gebaseerd op Q-MEDLEY, een verklarende tool voor het verklaren van feature-importantie in deze hybride systemen. Ons model omvat het creëren van HQML-modellen die quantum feature maps incorporeren, het gebruik van Q-MEDLEY, dat feature-gebaseerde inferenties combineert, de quantumtransformatiefase behoudt en de resulterende attributies visualiseert. Onze resultaten tonen aan dat Q-MEDLEY invloedrijke klassieke aspecten in HQML-modellen afbakent, evenals hun ruis scheidt, en goed concurreert met gevestigde XAI-technieken in klassieke validatieomgevingen. Ablatiestudies tonen nog duidelijker de voordelen van de samengestelde structuur die in Q-MEDLEY wordt gebruikt. De implicaties van dit werk zijn van cruciaal belang, omdat het een route biedt om de interpreteerbaarheid en betrouwbaarheid van HQML-modellen te verbeteren, waardoor meer vertrouwen wordt bevorderd en een veiliger en verantwoordelijker gebruik van quantum-verbeterde AI-technologie mogelijk wordt.
Universele visuele anomaliedetectie heeft als doel anomalieën te identificeren uit nieuwe of onbekende visuele domeinen zonder aanvullende fine-tuning, wat cruciaal is in open scenario's. Recente studies hebben aangetoond dat vooraf getrainde visueel-taalmodelen zoals CLIP sterke generalisatie vertonen met slechts nul of enkele normale afbeeldingen. Bestaande methoden hebben echter moeite met het ontwerpen van promptsjablonen, complexe tokeninteracties of vereisen aanvullende fine-tuning, wat resulteert in beperkte flexibiliteit. In dit werk presenteren we een eenvoudige maar effectieve methode genaamd AdaptCLIP, gebaseerd op twee belangrijke inzichten. Ten eerste moeten adaptieve visuele en tekstuele representaties afwisselend worden geleerd in plaats van gezamenlijk. Ten tweede moet vergelijkend leren tussen query- en normale afbeeldingsprompt zowel contextuele als uitgelijnde resterende kenmerken incorporeren, in plaats van uitsluitend te vertrouwen op resterende kenmerken. AdaptCLIP behandelt CLIP-modellen als een fundamentele service, waarbij slechts drie eenvoudige adapters worden toegevoegd: een visuele adapter, een tekstuele adapter en een prompt-query adapter, aan de invoer- of uitvoerzijden. AdaptCLIP ondersteunt zero-/few-shot generalisatie over domeinen en heeft een trainingsvrije aanpak op doeldomeinen zodra het is getraind op een basisdataset. AdaptCLIP behaalt state-of-the-art prestaties op 12 anomaliedetectiebenchmarks uit industriële en medische domeinen, en overtreft aanzienlijk bestaande competitieve methoden. We zullen de code en het model van AdaptCLIP beschikbaar stellen op https://github.com/gaobb/AdaptCLIP.
Het schalen van robotleren vereist enorme en diverse datasets. Het huidige paradigma voor gegevensverzameling - menselijke teleoperatie - blijft echter kostbaar en beperkt door handmatige inspanning en fysieke toegang tot robots. Wij introduceren Real2Render2Real (R2R2R), een nieuwe aanpak voor het genereren van trainingsgegevens voor robots zonder te vertrouwen op simulaties van objectdynamica of teleoperatie van robotapparatuur. De input bestaat uit een met een smartphone vastgelegde scan van een of meer objecten en een enkele video van een menselijke demonstratie. R2R2R genereert duizenden visueel hoogwaardige, robot-onafhankelijke demonstraties door gedetailleerde 3D-objectgeometrie en -uiterlijk te reconstrueren en 6-DoF-objectbeweging te volgen. R2R2R gebruikt 3D Gaussian Splatting (3DGS) om flexibele assetgeneratie en trajectoriënthesis mogelijk te maken voor zowel rigide als gearticuleerde objecten, en zet deze representaties om in meshes om compatibiliteit te behouden met schaalbare rendering engines zoals IsaacLab, maar zonder botsingsmodellering. Demonstratiegegevens voor robots die door R2R2R zijn gegenereerd, integreren direct met modellen die werken op robotproprioceptieve toestanden en beeldobservaties, zoals vision-language-action modellen (VLA) en imitatieleerbeleidsregels. Fysieke experimenten suggereren dat modellen getraind op R2R2R-gegevens van een enkele menselijke demonstratie de prestaties kunnen evenaren van modellen getraind op 150 menselijke teleoperatiedemonstraties. Projectpagina: https://real2render2real.com
Zelfsupervisie reconstructienetwerken die gebruikmaken van self-attention transformers hebben state-of-the-art prestaties bereikt voor multi-klasse (geünificeerde) anomaliedetectie met een enkel model. Deze self-attention reconstructiemodellen werken echter voornamelijk op doelkenmerken, wat kan leiden tot perfecte reconstructie voor zowel normale als anomaliekenmerken vanwege een hoge consistentie met de context, wat resulteert in het falen van anomaliedetectie. Bovendien produceren deze modellen vaak onnauwkeurige anomaliesegmentatie door reconstructie uit te voeren in een latent ruimte met lage ruimtelijke resolutie. Om reconstructiemodellen een hoge efficiëntie te bieden en tegelijkertijd hun generalisatie voor geünificeerde anomaliedetectie te verbeteren, stellen we een eenvoudige maar effectieve methode voor die normale kenmerken reconstrueert en anomaliekenmerken herstelt met slechts één normale afbeeldingsprompt (OneNIP). In tegenstelling tot eerder werk maakt OneNIP het voor het eerst mogelijk om anomalieën te reconstrueren of te herstellen met slechts één normale afbeeldingsprompt, wat de prestaties van geünificeerde anomaliedetectie effectief verbetert. Daarnaast stellen we een gesuperviseerde verfijner voor die reconstructiefouten regresseert door gebruik te maken van zowel echte normale als gesynthetiseerde anomalieafbeeldingen, wat de pixelgewijze anomaliesegmentatie aanzienlijk verbetert. OneNIP overtreft eerdere methoden op drie industriële anomaliedetectiebenchmarks: MVTec, BTAD en VisA. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/OneNIP.
Zero- en few-shot visuele anomaliedetectie is afhankelijk van krachtige vision-language-modellen die onzichtbare anomalieën detecteren met behulp van handmatig ontworpen tekstuele prompts. Visuele representaties zijn echter inherent onafhankelijk van taal. In dit artikel onderzoeken we het potentieel van een puur visueel foundation-model als alternatief voor veelgebruikte vision-language-modellen voor universele visuele anomaliedetectie. We presenteren een nieuw paradigma dat anomaliedetectie verenigt met veranderingsdetectie. Dit paradigma stelt ons in staat om gebruik te maken van grootschalige synthetische beeldparen, met objectniveau en lokale regioveranderingen, afgeleid van bestaande beelddatasets, die onafhankelijk zijn van doel-anomaliedatasets. We stellen een one-prompt Meta-learning framework voor Universal Anomaly Segmentation (MetaUAS) voor, dat wordt getraind op deze synthetische dataset en vervolgens goed generaliseert om nieuwe of onzichtbare visuele anomalieën in de echte wereld te segmenteren. Om geometrische variaties tussen prompt- en query-afbeeldingen te hanteren, stellen we een soft feature alignment-module voor die gepaarde beeldveranderingsperceptie en enkelvoudige beeld semantische segmentatie verbindt. Dit is het eerste werk dat universele anomaliedetectie bereikt met een puur visueel model zonder afhankelijk te zijn van speciale anomaliedetectiedatasets en vooraf getrainde vision-language-modellen. Onze methode segmenteert effectief en efficiënt elke anomalie met slechts één normale beeldprompt en geniet van training-vrij zonder begeleiding van taal. Onze MetaUAS presteert aanzienlijk beter dan eerdere zero-shot, few-shot en zelfs full-shot anomaliedetectiemethoden. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/MetaUAS.
Anomaliedetectie is een praktische en uitdagende taak vanwege de schaarste aan anomalievoorbeelden in industriële inspectie. Sommige bestaande anomaliedetectiemethoden pakken dit probleem aan door anomalieën te synthetiseren met ruis of externe data. Er is echter altijd een grote semantische kloof tussen synthetische en real-world anomalieën, wat resulteert in zwakke prestaties bij anomaliedetectie. Om dit probleem op te lossen, stellen we een few-shot Anomaly-driven Generation (AnoGen) methode voor, die het diffusiemodel begeleidt om realistische en diverse anomalieën te genereren met slechts enkele echte anomalieën, waardoor het trainen van anomaliedetectiemodellen wordt bevorderd. Specifiek is ons werk verdeeld in drie fasen. In de eerste fase leren we de anomalieverdeling op basis van enkele gegeven echte anomalieën en injecteren we de geleerde kennis in een embedding. In de tweede fase gebruiken we de embedding en gegeven begrenzingsvakken om het diffusiemodel te begeleiden bij het genereren van realistische en diverse anomalieën op specifieke objecten (of texturen). In de laatste fase stellen we een zwak-gesuperviseerde anomaliedetectiemethode voor om een krachtiger model te trainen met gegenereerde anomalieën. Onze methode bouwt voort op DRAEM en DesTSeg als basismodel en voert experimenten uit op het veelgebruikte industriële anomaliedetectiedataset, MVTec. De experimenten tonen aan dat onze gegenereerde anomalieën de modelprestaties van zowel anomalieclassificatie- als segmentatietaken effectief verbeteren, bijvoorbeeld behaalden DRAEM en DseTSeg een verbetering van respectievelijk 5,8% en 1,5% in de AU-PR-metric voor de segmentatietaak. De code en gegenereerde anomaliedata zijn beschikbaar op https://github.com/gaobb/AnoGen.
Menselijke video's bieden een schaalbare manier om robotmanipulatiebeleid te trainen, maar missen de actielabels die nodig zijn voor standaard imitatieleringsalgoritmen. Bestaande cross-embodiment benaderingen proberen menselijke bewegingen naar robotacties te vertalen, maar falen vaak wanneer de embodimenten significant verschillen. Wij stellen X-Sim voor, een real-to-sim-to-real raamwerk dat objectbeweging gebruikt als een dicht en overdraagbaar signaal voor het leren van robotbeleid. X-Sim begint met het reconstrueren van een fotorealistische simulatie vanuit een RGBD-menselijke video en het volgen van objecttrajectorieën om objectgerichte beloningen te definiëren. Deze beloningen worden gebruikt om een reinforcement learning (RL) beleid in de simulatie te trainen. Het geleerde beleid wordt vervolgens gedistilleerd in een beeld-geconditioneerd diffusiebeleid met behulp van synthetische rollouts gerenderd vanuit verschillende gezichtspunten en belichting. Om naar de echte wereld over te dragen, introduceert X-Sim een online domeinaanpassingstechniek die echte en gesimuleerde observaties uitlijnt tijdens de implementatie. Belangrijk is dat X-Sim geen robotteleoperatiegegevens vereist. We evalueren het over 5 manipulatietaken in 2 omgevingen en tonen aan dat het: (1) de taakvoortgang met gemiddeld 30% verbetert ten opzichte van handtracking en sim-to-real basislijnen, (2) gedragsklonering evenaart met 10x minder datacollectietijd, en (3) generaliseert naar nieuwe cameraperspectieven en testtijdwijzigingen. Code en video's zijn beschikbaar op https://portal-cornell.github.io/X-Sim/.