Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Om te overleven en te gedijen in complexe omgevingen, hebben mensen geavanceerde zelfverbeteringsmechanismen ontwikkeld door middel van omgevingsverkenning, hiërarchische abstractie van ervaringen in herbruikbare vaardigheden, en de gezamenlijke opbouw van een steeds groeiend vaardigheidsrepertoire. Ondanks recente vooruitgang ontbreekt het autonome webagentschappen nog steeds aan cruciale zelfverbeteringsmogelijkheden, waarbij ze worstelen met de abstractie van procedurele kennis, het verfijnen van vaardigheden, en het samenstellen van vaardigheden. In dit werk introduceren we SkillWeaver, een vaardigheidsgericht framework dat agentschappen in staat stelt om zichzelf te verbeteren door autonoom herbruikbare vaardigheden te synthetiseren als API's. Gegeven een nieuwe website, ontdekt het agentschap autonoom vaardigheden, voert ze uit om te oefenen, en destilleert oefenervaringen in robuuste API's. Iteratieve verkenning breidt continu een bibliotheek uit van lichtgewicht, plug-and-play API's, wat de mogelijkheden van het agentschap aanzienlijk verbetert. Experimenten op WebArena en echte websites demonstreren de effectiviteit van SkillWeaver, met relatieve verbeteringen in succespercentages van respectievelijk 31,8% en 39,8%. Bovendien verbeteren API's die zijn gesynthetiseerd door sterke agentschappen zwakkere agentschappen aanzienlijk door overdraagbare vaardigheden, wat verbeteringen oplevert van tot wel 54,3% op WebArena. Deze resultaten tonen de effectiviteit aan van het verfijnen van diverse website-interacties tot API's, die naadloos kunnen worden gedeeld tussen verschillende webagentschappen.
Diffusie-transformers hebben een opmerkelijke generatiekwaliteit aangetoond, hoewel ze langere trainingsiteraties en talrijke inferentiestappen vereisen. Bij elke denoiseringsstap coderen diffusie-transformers de ruisige invoer om de lagere-frequentie semantische component te extraheren en decoderen vervolgens de hogere frequentie met identieke modules. Dit schema creëert een inherent optimalisatiedilemma: het coderen van lage-frequentie semantiek vereist het verminderen van hoge-frequentie componenten, wat spanning creëert tussen semantische codering en hoge-frequentie decodering. Om deze uitdaging op te lossen, stellen we een nieuwe \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}) voor, met een ontkoppeld ontwerp van een toegewijde conditie-encoder voor semantische extractie naast een gespecialiseerde snelheidsdecoder. Onze experimenten tonen aan dat een robuustere encoder prestatieverbeteringen oplevert naarmate de modelgrootte toeneemt. Voor ImageNet 256x256 bereikt onze DDT-XL/2 een nieuwe state-of-the-art prestatie van {1.31 FID}~(bijna 4x snellere trainingsconvergentie vergeleken met eerdere diffusie-transformers). Voor ImageNet 512x512 bereikt onze DDT-XL/2 een nieuwe state-of-the-art FID van 1.28. Daarnaast verbetert onze ontkoppelde architectuur, als een gunstig bijproduct, de inferentiesnelheid door het delen van zelfcondities tussen aangrenzende denoiseringsstappen mogelijk te maken. Om prestatieverlies te minimaliseren, stellen we een nieuwe statistische dynamische programmeerbenadering voor om optimale delingsstrategieën te identificeren.
We presenteren OLMoTrace, het eerste systeem dat de uitvoer van taalmodel- len in realtime terugvoert naar hun volledige, multi-trillion-token trainingsdata. OLMoTrace vindt en toont letterlijke overeenkomsten tussen segmenten van taal- modeluitvoer en documenten in de trainingscorpora. Aangedreven door een uitge- breide versie van infini-gram (Liu et al., 2024), levert ons systeem tracerings- resultaten binnen enkele seconden op. OLMoTrace kan gebruikers helpen het ge- drag van taalmodel-len te begrijpen door de lens van hun trainingsdata. We laten zien hoe het kan worden gebruikt om feitencontrole, hallucinatie en de creativi- teit van taalmodel-len te verkennen. OLMoTrace is publiekelijk beschikbaar en volledig open-source.
We ontdekken dat de responslengte van redenerende LLM's, ongeacht of ze getraind zijn door middel van reinforcement learning of supervised learning, drastisch toeneemt bij slecht geformuleerde vragen met ontbrekende premissen (MiP), wat resulteert in redundante en inefficiënte denkprocessen. Dit nieuw geïntroduceerde scenario verergert het algemene overdenkprobleem in grote mate, wat we MiP-Overthinking noemen. Dergelijke mislukkingen gaan in tegen de "test-time scaling law", maar zijn op grote schaal waargenomen op meerdere datasets die we hebben samengesteld met MiP, wat wijst op de schade van goedkoop overdenken en een gebrek aan kritisch denken. Verrassend genoeg presteren LLM's die niet specifiek zijn getraind voor redenering veel beter in het MiP-scenario, waarbij ze veel kortere reacties produceren die snel slecht geformuleerde vragen identificeren. Dit wijst op een kritiek gebrek in het huidige trainingsrecept voor redenerende LLM's, dat efficiënt denken onvoldoende aanmoedigt, wat leidt tot misbruik van denkpatronen. Om de redenen achter dergelijke mislukkingen verder te onderzoeken, voeren we gedetailleerde analyses uit van de redeneringslengte, overdenkpatronen en de locatie van kritisch denken bij verschillende soorten LLM's. Bovendien onthult onze uitgebreide ablatiestudie dat overdenken besmettelijk is door de distillatie van de reacties van redeneringsmodellen. Deze resultaten verbeteren het begrip van overdenken en bieden nieuwe inzichten om het probleem te mitigeren.
Het creëren van een realistisch animeerbaar avatar vanuit een enkel statisch portret blijft een uitdaging. Bestaande methoden hebben vaak moeite met het vastleggen van subtiele gezichtsuitdrukkingen, de bijbehorende globale lichaamsbewegingen en de dynamische achtergrond. Om deze beperkingen aan te pakken, stellen we een nieuw framework voor dat gebruikmaakt van een vooraf getraind video-diffusie transformermodel om hoogwaardige, samenhangende pratende portretten te genereren met controleerbare bewegingsdynamiek. De kern van ons werk bestaat uit een tweestaps audio-visuele uitlijningsstrategie. In de eerste fase gebruiken we een clip-niveau trainingsschema om samenhangende globale beweging te creëren door audio-gestuurde dynamiek over de hele scène uit te lijnen, inclusief het referentieportret, contextuele objecten en de achtergrond. In de tweede fase verfijnen we lipbewegingen op frameniveau met behulp van een lip-tracing masker, waardoor precieze synchronisatie met audiosignalen wordt gegarandeerd. Om identiteit te behouden zonder de bewegingsflexibiliteit aan te tasten, vervangen we het veelgebruikte referentienetwerk door een gezichtsgerichte cross-attention module die effectief gezichtsconsistentie gedurende de video behoudt. Bovendien integreren we een bewegingsintensiteitsmodulatiemodule die expliciet de intensiteit van expressie en lichaamsbeweging controleert, waardoor controleerbare manipulatie van portretbewegingen mogelijk wordt die verder gaat dan alleen lipbeweging. Uitgebreide experimentele resultaten tonen aan dat onze voorgestelde aanpak een hogere kwaliteit bereikt met betere realisme, samenhang, bewegingsintensiteit en identiteitsbehoud. Onze projectpagina: https://fantasy-amap.github.io/fantasy-talking/.
Conditionele beeldgeneratie heeft aanzienlijke aandacht gekregen vanwege het vermogen om inhoud te personaliseren. Het veld wordt echter geconfronteerd met uitdagingen bij het ontwikkelen van taak-agnostische, betrouwbare en verklaarbare evaluatiemetrics. Dit artikel introduceert CIGEval, een uniform agent-gebaseerd raamwerk voor uitgebreide evaluatie van conditionele beeldgeneratietaken. CIGEval maakt gebruik van grote multimodale modellen (LMMs) als kern, integreert een multifunctionele toolbox en stelt een fijnmazig evaluatieraamwerk op. Daarnaast synthetiseren we evaluatietrajecten voor fine-tuning, waardoor kleinere LMMs in staat worden gesteld om autonoom geschikte tools te selecteren en genuanceerde analyses uit te voeren op basis van tool-outputs. Experimenten over zeven prominente conditionele beeldgeneratietaken tonen aan dat CIGEval (GPT-4o-versie) een hoge correlatie van 0,4625 bereikt met menselijke beoordelingen, wat nauw aansluit bij de inter-annotatorcorrelatie van 0,47. Bovendien overtreft CIGEval, wanneer geïmplementeerd met 7B open-source LMMs met slechts 2,3K trainings-trajecten, de vorige GPT-4o-gebaseerde state-of-the-art methode. Casestudies over GPT-4o-beeldgeneratie benadrukken de capaciteit van CIGEval om subtiele problemen te identificeren die verband houden met onderwerpconsistentie en naleving van controle-richtlijnen, wat wijst op het grote potentieel voor het automatiseren van de evaluatie van beeldgeneratietaken met menselijke betrouwbaarheid.
Camera trajectory design speelt een cruciale rol in videoproductie en dient als een fundamenteel hulpmiddel om de regisseursintentie over te brengen en visuele storytelling te versterken. In de cinematografie besteden Directors of Photography nauwgezet aandacht aan het ontwerpen van camerabewegingen om expressieve en intentionele kadrering te bereiken. Echter, bestaande methoden voor het genereren van cameratrajecten blijven beperkt: traditionele benaderingen vertrouwen op geometrische optimalisatie of handgemaakte procedurele systemen, terwijl recente op leren gebaseerde methoden vaak structurele vooroordelen overnemen of tekstuele afstemming missen, wat de creatieve synthese beperkt. In dit werk introduceren we een autoregressief model, geïnspireerd door de expertise van Directors of Photography, om artistieke en expressieve cameratrajecten te genereren. We introduceren eerst DataDoP, een grootschalige multimodale dataset met 29K real-world shots met vrij bewegende cameratrajecten, dieptekaarten en gedetailleerde bijschriften over specifieke bewegingen, interactie met de scène en regisseursintentie. Dankzij de uitgebreide en diverse database trainen we verder een autoregressieve, decoder-only Transformer voor hoogwaardige, contextbewuste camerabewegingsgeneratie op basis van tekstbegeleiding en RGBD-inputs, genaamd GenDoP. Uitgebreide experimenten tonen aan dat GenDoP, in vergelijking met bestaande methoden, betere bestuurbaarheid, fijnmazigere trajectaanpassingen en hogere bewegingsstabiliteit biedt. Wij geloven dat onze aanpak een nieuwe standaard vestigt voor op leren gebaseerde cinematografie, wat de weg vrijmaakt voor toekomstige vooruitgang in camerabesturing en filmproductie. Onze projectwebsite: https://kszpxxzmc.github.io/GenDoP/.
Redeneren is naar voren gekomen als het volgende grote front voor taalmodellen (LMs), met snelle vooruitgang vanuit zowel academische als industriële laboratoria. Deze vooruitgang overtreft echter vaak de methodologische strengheid, waarbij veel evaluaties vertrouwen op benchmarkpraktijken die transparantie, robuustheid of statistische onderbouwing missen. In dit werk voeren we een uitgebreide empirische studie uit en constateren we dat huidige benchmarks voor wiskundig redeneren zeer gevoelig zijn voor subtiele implementatiekeuzes - waaronder decodeerparameters, willekeurige seeds, promptopmaak, en zelfs hardware- en softwareframeworkconfiguraties. Prestatieverbeteringen die in recente studies worden gerapporteerd, hangen vaak af van onduidelijke vergelijkingen of niet-gerapporteerde bronnen van variantie. Om deze problemen aan te pakken, stellen we een gestandaardiseerd evaluatieraamwerk voor met duidelijk gedefinieerde best practices en rapportagestandaarden. Met behulp van dit raamwerk herbeoordelen we recente methoden en constateren we dat reinforcement learning (RL)-benaderingen slechts bescheiden verbeteringen opleveren - ver onder eerdere claims - en gevoelig zijn voor overfitting, vooral op kleinschalige benchmarks zoals AIME24. Daarentegen tonen supervised finetuning (SFT)-methoden consistent sterkere generalisatie. Om reproduceerbaarheid te bevorderen, maken we alle code, prompts en modeloutputs voor redeneerbenchmarks openbaar, waarmee we een meer rigoureuze basis leggen voor toekomstig werk.
Wij stellen OmniCaptioner voor, een veelzijdig raamwerk voor visuele beschrijvingen dat fijnmazige tekstuele beschrijvingen genereert voor een breed scala aan visuele domeinen. In tegenstelling tot eerdere methoden die beperkt zijn tot specifieke beeldtypen (bijv. natuurlijke afbeeldingen of geometrische visuals), biedt ons raamwerk een uniforme oplossing voor het beschrijven van natuurlijke afbeeldingen, visuele tekst (bijv. posters, gebruikersinterfaces, leerboeken) en gestructureerde visuals (bijv. documenten, tabellen, grafieken). Door informatie op pixelniveau om te zetten in semantisch rijke tekstuele representaties, overbrugt ons raamwerk de kloof tussen visuele en tekstuele modaliteiten. Onze resultaten benadrukken drie belangrijke voordelen: (i) Verbeterd Visueel Redeneren met LLM's, waarbij lange-context beschrijvingen van visuele modaliteiten LLM's, met name de DeepSeek-R1-serie, in staat stellen effectief te redeneren in multimodale scenario's; (ii) Verbeterde Afbeeldingsgeneratie, waarbij gedetailleerde beschrijvingen taken zoals tekst-naar-afbeelding generatie en afbeeldings-transformatie verbeteren; en (iii) Efficiëntere Supervised Fine-Tuning (SFT), wat snellere convergentie met minder data mogelijk maakt. Wij geloven dat de veelzijdigheid en aanpasbaarheid van OmniCaptioner een nieuw perspectief kan bieden voor het overbruggen van de kloof tussen taal- en visuele modaliteiten.
Hoewel redeneren tijdens testtijd taalmodellen in staat stelt complexe taken aan te pakken, kan zoeken of plannen in natuurlijke taal traag, kostbaar en foutgevoelig zijn. Maar zelfs wanneer taalmodellen moeite hebben om de precieze redeneerstappen te emuleren die nodig zijn om een probleem op te lossen, blinken ze vaak uit in het beschrijven van de abstracte structuur ervan—zowel hoe oplossingen te verifiëren als hoe ernaar te zoeken. Dit artikel introduceert DisCIPL, een methode voor "zelfsturende" taalmodellen waarbij een Planner-model een taakspecifiek inferentieprogramma genereert dat wordt uitgevoerd door een populatie van Follower-modellen. Onze aanpak rust taalmodellen uit met de mogelijkheid om recursieve zoekprocedures te schrijven die de inferentie van taalmodellen sturen, wat nieuwe vormen van verifieerbaar en efficiënt redeneren mogelijk maakt. Wanneer geïnstantieerd met een klein Follower-model (bijv. Llama-3.2-1B), evenaart (en overtreft soms) DisCIPL veel grotere modellen, waaronder GPT-4o en o1, op uitdagende taken voor beperkte generatie. Door planning te ontkoppelen van uitvoering, opent ons werk een ontwerpruimte van sterk geparalleliseerde Monte Carlo-inferentiestrategieën die standaard best-of-N-steekproeven overtreffen, geen finetuning vereisen en automatisch kunnen worden geïmplementeerd door bestaande taalmodellen.
We presenteren CAT-V (Caption AnyThing in Video), een trainingsvrij raamwerk voor fijnmazige, objectgerichte videobeschrijvingen dat gedetailleerde beschrijvingen mogelijk maakt van door de gebruiker geselecteerde objecten over tijd. CAT-V integreert drie belangrijke componenten: een Segmenter gebaseerd op SAMURAI voor nauwkeurige objectsegmentatie over frames, een Temporal Analyzer aangedreven door TRACE-Uni voor precieze detectie van gebeurtenisgrenzen en temporele analyse, en een Captioner die gebruikmaakt van InternVL-2.5 voor het genereren van gedetailleerde, objectgerichte beschrijvingen. Door middel van spatiotemporele visuele prompts en keten-van-gedachte-redenering genereert ons raamwerk gedetailleerde, temporeel bewuste beschrijvingen van objectattributen, acties, statussen, interacties en omgevingscontexten zonder aanvullende trainingsdata te vereisen. CAT-V ondersteunt flexibele gebruikersinteracties via diverse visuele prompts (punten, begrenzingsvakken en onregelmatige regio's) en behoudt temporele gevoeligheid door objecttoestanden en interacties over verschillende tijdsegmenten te volgen. Onze aanpak adresseert beperkingen van bestaande videobeschrijvingsmethoden, die ofwel te abstracte beschrijvingen produceren of een gebrek hebben aan objectnauwkeurigheid, waardoor fijnmazige, object-specifieke beschrijvingen mogelijk worden terwijl temporele samenhang en ruimtelijke nauwkeurigheid behouden blijven. De GitHub-repository voor dit project is beschikbaar op https://github.com/yunlong10/CAT-V.
Recente vooruitgang in reinforcement learning heeft de redeneervaardigheden van multimodale grote taalmodellen (MLLMs) aanzienlijk verbeterd. Hoewel benaderingen zoals Group Relative Policy Optimization (GRPO) en regelgebaseerde beloningsmechanismen veelbelovend zijn in tekst- en beeld domeinen, blijft hun toepassing op videobegrip beperkt. Dit artikel presenteert een systematische verkenning van Reinforcement Fine-Tuning (RFT) met GRPO voor video MLLMs, met als doel het ruimtelijk-temporeel perceptievermogen te verbeteren terwijl algemene capaciteiten behouden blijven. Onze experimenten tonen aan dat RFT zeer data-efficiënt is voor taakspecifieke verbeteringen. Door middel van multi-task RFT op ruimtelijk-temporele perceptiedoelen met beperkte steekproeven, ontwikkelen we VideoChat-R1, een krachtige video MLLM die state-of-the-art prestaties behaalt op ruimtelijk-temporele perceptietaken zonder in te leveren op chatvaardigheden, terwijl het opkomende ruimtelijk-temporele redeneervaardigheden vertoont. Vergeleken met Qwen2.5-VL-7B, verbetert VideoChat-R1 de prestaties aanzienlijk in taken zoals temporele gronding (+31.8) en objecttracking (+31.2). Daarnaast presteert het aanzienlijk beter op algemene QA-benchmarks zoals VideoMME (+0.9), MVBench (+1.0) en Perception Test (+0.9). Onze bevindingen onderstrepen het potentieel van RFT voor gespecialiseerde taakverbetering van Video MLLMs. We hopen dat ons werk waardevolle inzichten biedt voor toekomstig RL-onderzoek in video MLLMs.
Het genereren van naturalistische en genuanceerde luisteraarsbewegingen voor langdurige interacties blijft een open probleem. Bestaande methoden vertrouwen vaak op laagdimensionale bewegingscodes voor het genereren van gezichtsgedrag, gevolgd door fotorealistisch renderen, wat zowel de visuele kwaliteit als de expressieve rijkdom beperkt. Om deze uitdagingen aan te pakken, introduceren we DiTaiListener, aangedreven door een videodiffusiemodel met multimodale condities. Onze aanpak genereert eerst korte segmenten van luisteraarsreacties, geconditioneerd op de spraak en gezichtsbewegingen van de spreker met DiTaiListener-Gen. Vervolgens worden de overgangsframes verfijnd via DiTaiListener-Edit voor een naadloze overgang. Specifiek past DiTaiListener-Gen een Diffusion Transformer (DiT) aan voor de taak van het genereren van luisteraarsportretten door een Causal Temporal Multimodal Adapter (CTM-Adapter) te introduceren om auditieve en visuele signalen van de spreker te verwerken. CTM-Adapter integreert de input van de spreker op een causale manier in het videogeneratieproces om temporeel coherente luisteraarsreacties te garanderen. Voor het genereren van lange video's introduceren we DiTaiListener-Edit, een overgangsverfijningsmodel voor video-naar-video diffusie. Het model smelt videosegmenten samen tot vloeiende en continue video's, waardoor temporele consistentie in gezichtsuitdrukkingen en beeldkwaliteit wordt gewaarborgd bij het samenvoegen van korte videosegmenten die door DiTaiListener-Gen zijn geproduceerd. Kwantitatief behaalt DiTaiListener de state-of-the-art prestaties op benchmarkdatasets op het gebied van zowel fotorealisme (+73,8% in FID op RealTalk) als bewegingsrepresentatie (+6,1% in FD-metric op VICO). Gebruikersstudies bevestigen de superieure prestaties van DiTaiListener, waarbij het model de duidelijke voorkeur geniet in termen van feedback, diversiteit en vloeiendheid, en daarmee concurrenten met een aanzienlijke marge overtreft.
We presenteren WildGS-SLAM, een robuust en efficiënt monochroom RGB SLAM-systeem dat is ontworpen om dynamische omgevingen te verwerken door gebruik te maken van onzekerheidsbewuste geometrische mapping. In tegenstelling tot traditionele SLAM-systemen, die uitgaan van statische scènes, integreert onze aanpak diepte- en onzekerheidsinformatie om de tracking-, mapping- en renderingprestaties te verbeteren in aanwezigheid van bewegende objecten. We introduceren een onzekerheidskaart, voorspeld door een ondiep multi-layer perceptron en DINOv2-features, om de verwijdering van dynamische objecten te begeleiden tijdens zowel tracking als mapping. Deze onzekerheidskaart verbetert dense bundle adjustment en Gaussiaanse mapoptimalisatie, wat de nauwkeurigheid van de reconstructie verhoogt. Ons systeem wordt geëvalueerd op meerdere datasets en demonstreert artefactvrije viewsynthese. De resultaten tonen de superieure prestaties van WildGS-SLAM in dynamische omgevingen in vergelijking met state-of-the-art methoden.
Zelfsupervised leren heeft 2D-computervisie getransformeerd door modellen die getraind zijn op grote, niet-geannoteerde datasets in staat te stellen veelzijdige kant-en-klare features te leveren die vergelijkbaar presteren met modellen die met labels zijn getraind. In 3D-scènebegrip worden zelfsupervised methoden echter meestal alleen gebruikt als een gewichtsinitialisatiestap voor taakspecifieke fine-tuning, wat hun nut voor algemene feature-extractie beperkt. Dit artikel behandelt dit tekortkoming door een robuust evaluatieprotocol voor te stellen dat specifiek is ontworpen om de kwaliteit van zelfsupervised features voor 3D-scènebegrip te beoordelen. Ons protocol gebruikt multi-resolutie feature sampling van hiërarchische modellen om rijke puntniveau-representaties te creëren die de semantische mogelijkheden van het model vastleggen en daarom geschikt zijn voor evaluatie met lineaire probing en nearest-neighbor methoden. Bovendien introduceren we het eerste zelfsupervised model dat vergelijkbaar presteert met supervised modellen wanneer alleen kant-en-klare features worden gebruikt in een lineaire probing setup. Ons model wordt in het bijzonder natively in 3D getraind met een nieuwe zelfsupervised aanpak gebaseerd op een Masked Scene Modeling-doelstelling, die diepe features van gemaskeerde patches op een bottom-up manier reconstrueert en specifiek is afgestemd op hiërarchische 3D-modellen. Onze experimenten tonen niet alleen aan dat onze methode competitieve prestaties bereikt ten opzichte van supervised modellen, maar ook bestaande zelfsupervised benaderingen met een grote marge overtreft. Het model en de trainingscode zijn te vinden in onze Github-repository (https://github.com/phermosilla/msm).
Object-centric learning (OCL) streeft naar het leren van representaties die alleen een object coderen, geïsoleerd van andere objecten of achtergrondaanwijzingen in een scène. Deze aanpak ondersteunt verschillende doelen, waaronder generalisatie buiten de distributie (OOD), sample-efficiënte compositie en het modelleren van gestructureerde omgevingen. Het meeste onderzoek heeft zich gericht op het ontwikkelen van onbewaakte mechanismen die objecten scheiden in discrete slots in de representatieruimte, geëvalueerd met behulp van onbewaakte objectdetectie. Met recente sample-efficiënte segmentatiemodellen kunnen we echter objecten scheiden in de pixelruimte en ze onafhankelijk coderen. Dit bereikt opmerkelijke zero-shot prestaties op OOD-objectdetectiebenchmarks, is schaalbaar naar foundation-modellen en kan standaard een variabel aantal slots aan. Daarom is het doel van OCL-methoden om objectgerichte representaties te verkrijgen grotendeels bereikt. Ondanks deze vooruitgang blijft een belangrijke vraag: Hoe draagt het vermogen om objecten binnen een scène te scheiden bij aan bredere OCL-doelen, zoals OOD-generalisatie? We behandelen dit door de OOD-generalisatie-uitdaging veroorzaakt door valse achtergrondaanwijzingen te onderzoeken door de lens van OCL. We stellen een nieuwe, trainingsvrije test voor genaamd Object-Centric Classification with Applied Masks (OCCAM), waaruit blijkt dat op segmentatie gebaseerde codering van individuele objecten aanzienlijk beter presteert dan op slots gebaseerde OCL-methoden. Uitdagingen in real-world toepassingen blijven echter bestaan. We bieden de toolbox aan voor de OCL-gemeenschap om schaalbare objectgerichte representaties te gebruiken, en richten ons op praktische toepassingen en fundamentele vragen, zoals het begrijpen van objectperceptie in de menselijke cognitie. Onze code is beschikbaar op https://github.com/AlexanderRubinstein/OCCAM{hier}.
Grote taalmodellen (LLMs) hebben potentieel getoond als instrumenten voor wetenschappelijke ontdekking. Dit heeft een groeiende interesse gewekt in hun gebruik in humanistische disciplines, zoals historische taalkunde en literatuurwetenschappen. Deze vakgebieden construeren vaak argumenten op basis van afbakeningen zoals genre, of rigider, tijdsperiode. Hoewel er inspanningen zijn geleverd om inferentie te beperken tot specifieke domeinen via fine-tuning of modelbewerking, stellen wij dat de enige echte garantie domeingerichte pretraining is -- doorgaans een data- en rekenintensieve onderneming. Wij tonen aan dat efficiënte pretrainingstechnieken nuttige modellen kunnen opleveren over corpora die te groot zijn voor eenvoudige handmatige inspectie, maar te klein voor "typische" LLM-benaderingen. Wij gebruiken een innovatieve datumtoekenningspipeline om een tijdelijk gesegmenteerde dataset te verkrijgen van vijf segmenten van elk 10 miljoen woorden. Wij trainen twee corresponderende batterijen van vijf modellen over deze corpussegmenten, efficiënt gepretraind en Llama3-8B-parameter efficiënt gefinetuned. Wij constateren dat de gepretrainde modellen sneller te trainen zijn dan de gefinetunde referentiemodellen en dat zij de historische verdelingen van ons corpus beter respecteren. Door snelheid en precisie te benadrukken boven a-historische volledigheid, worden een aantal nieuwe benaderingen mogelijk voor het ontdekken en testen van hypothesen in onze doelgebieden. Door diachrone taalkunde als testcase te nemen, tonen wij aan dat onze methode de detectie van een diverse set van fenomenen mogelijk maakt, waaronder lexicale veranderingen op grote schaal, niet-lexicale (grammaticale en morfologische) veranderingen, en de introductie/veroudering van woordbetekenissen. Wij bieden een gebruiksklare pipeline die uitbreiding van onze aanpak naar andere doelgebieden mogelijk maakt met slechts minimale aanpassing.
Het robuust grijpen van diverse objecten op basis van enkelvoudige waarneming is fundamenteel voor behendige robots. Eerdere werken vertrouwen vaak op volledig waarneembare objecten, expertdemonstraties of statische grijpposities, wat hun generalisatievermogen en aanpassingsvermogen aan externe verstoringen beperkt. In dit artikel presenteren we een op reinforcement learning gebaseerd framework dat zero-shot dynamisch behendig grijpen van een breed scala aan onbekende objecten mogelijk maakt op basis van enkelvoudige waarneming, terwijl het adaptieve bewegingen uitvoert in reactie op externe verstoringen. We gebruiken een handcentrische objectrepresentatie voor het extraheren van vormkenmerken die de interactie-relevante lokale vormen benadrukken, wat de robuustheid tegen vormvariaties en onzekerheid vergroot. Om effectieve handaanpassing aan verstoringen met beperkte waarnemingen mogelijk te maken, stellen we een gemengde curriculumleerstrategie voor, die eerst gebruikmaakt van imitation learning om een beleid te destilleren dat is getraind met geprivilegieerde real-time visueel-tactiele feedback, en geleidelijk overgaat naar reinforcement learning om adaptieve bewegingen te leren onder verstoringen veroorzaakt door waarnemingsruis en dynamische randomisatie. Onze experimenten tonen een sterke generalisatie in het grijpen van onbekende objecten met willekeurige posities, met succespercentages van 97,0% over 247.786 gesimuleerde objecten en 94,6% over 512 echte objecten. We demonstreren ook de robuustheid van onze methode tegen diverse verstoringen, waaronder onwaargenomen objectbeweging en externe krachten, door zowel kwantitatieve als kwalitatieve evaluaties. Projectpagina: https://zdchan.github.io/Robust_DexGrasp/
In dit artikel introduceren we de Dialogue Evaluation shared task over het extraheren van gestructureerde meningen uit Russische nieuwsteksten. De taak van de wedstrijd is om meningstuples te extraheren voor een gegeven zin; de tuples bestaan uit een sentimenthouder, het doelwit, een uitdrukking en het sentiment van de houder naar het doelwit. In totaal ontving de taak meer dan 100 inzendingen. De deelnemers experimenteerden voornamelijk met grote taalmodel(len) in zero-shot, few-shot en fine-tuning formaten. Het beste resultaat op de testset werd behaald met fine-tuning van een groot taalmodel. We vergeleken ook 30 prompts en 11 open-source taalmodel(len) met 3-32 miljard parameters in de 1-shot en 10-shot instellingen en vonden de beste modellen en prompts.
De dominante benadering voor het genereren van taalmodellen onder een bepaalde beperking is lokaal beperkte decodering (LCD), waarbij tokens incrementeel worden gesamplet op elk tijdstip zodat de beperking nooit wordt geschonden. Dit wordt typisch bereikt door middel van tokenmaskering: het doorlopen van de vocabulaire en het uitsluiten van niet-conforme tokens. Er zijn twee belangrijke problemen met deze aanpak. (i) Het evalueren van de beperking op elk token kan buitensporig duur zijn -- de vocabulaire van taalmodellen overschrijdt vaak 100.000 tokens. (ii) LCD kan de globale verdeling over strings verstoren, waarbij tokens alleen worden gesamplet op basis van lokale informatie, zelfs als deze leiden tot doodlopende paden. Dit werk introduceert een nieuw algoritme dat beide problemen aanpakt. Ten eerste, om te voorkomen dat een beperking op de volledige vocabulaire bij elke stap van de generatie wordt geëvalueerd, stellen we een adaptief afwijzingssampling-algoritme voor dat typisch ordes van grootte minder beperkingsevaluaties vereist. Ten tweede laten we zien hoe dit algoritme kan worden uitgebreid om schattingen met lage variantie en zonder bias van belangrijkheidsgewichten te produceren tegen zeer geringe extra kosten -- schattingen die veilig kunnen worden gebruikt binnen eerder voorgestelde sequentiële Monte Carlo-algoritmen om het kortzichtige gedrag van lokale beperkingshandhaving te corrigeren. Door uitgebreide empirische evaluatie in domeinen zoals tekst-naar-SQL, moleculaire synthese, doelafleiding, patroonherkenning en JSON, laten we zien dat onze aanpak superieur is aan state-of-the-art baselines, waarbij een bredere klasse van beperkingen wordt ondersteund en zowel de looptijd als de prestaties worden verbeterd. Aanvullende theoretische en empirische analyses tonen aan dat de looptijdefficiëntie van onze methode wordt gedreven door het dynamische gebruik van berekeningen, waarbij deze schaalt met de divergentie tussen het onbeperkte en beperkte taalmodel, en als gevolg daarvan zijn de looptijdverbeteringen groter voor betere modellen.