Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Op systematische wijze onderzoeken we een veelgestelde vraag: Begrijpen LLM's echt wat ze zeggen?, wat verband houdt met de meer bekende term Stochastische Papegaai. Hiertoe stellen we een samenvattende beoordeling voor over een zorgvuldig ontworpen taak voor het begrijpen van fysieke concepten, PhysiCo. Onze taak verlicht het memorisatieprobleem door het gebruik van rasterformat invoer die abstract fysieke fenomenen beschrijven. De rasters vertegenwoordigen verschillende niveaus van begrip, van het kernfenomeen, toepassingsvoorbeelden tot analogieën met andere abstracte patronen in de rastwereld. Een uitgebreide studie van onze taak toont aan: (1) LLM's van de nieuwste generatie, waaronder GPT-4o, o1 en Gemini 2.0 flash thinking, lopen ~40% achter op mensen; (2) het stochastische papegaai fenomeen komt voor bij LLM's, aangezien ze falen in onze rastertaak maar dezelfde concepten goed kunnen beschrijven en herkennen in natuurlijke taal; (3) onze taak daagt de LLM's uit vanwege intrinsieke moeilijkheden in plaats van het onbekende rasterformaat, aangezien in-context leren en fijnafstemming op dezelfde geformatteerde gegevens weinig toevoegden aan hun prestaties.
Bij moderne grote taalmodellen (LLM's) vormt het omgaan met zeer lange contextlengtes aanzienlijke uitdagingen, omdat dit zorgt voor langzamere inferentiesnelheden en verhoogde geheugenkosten. Bovendien slagen de meeste bestaande voorgetrainde LLM's er niet in om verder te generaliseren dan hun oorspronkelijke trainingssequentielengtes. Om efficiënt en praktisch gebruik van lange context mogelijk te maken, introduceren we InfiniteHiP, een nieuw en praktisch LLM-inferentiekader dat de verwerking versnelt door dynamisch irrelevante contexttokens te elimineren via een modulair hiërarchisch token-snoeialgoritme. Onze methode maakt ook generalisatie naar langere sequenties mogelijk door selectief verschillende RoPE-aanpassingsmethoden toe te passen op basis van de interne aandachtspatronen binnen LLM's. Bovendien verplaatsen we de key-value-cache naar het hostgeheugen tijdens inferentie, waardoor de druk op het GPU-geheugen aanzienlijk wordt verminderd. Als gevolg hiervan maakt InfiniteHiP de verwerking van maximaal 3 miljoen tokens mogelijk op een enkele L40s 48GB GPU - 3x groter - zonder enig permanent verlies van contextinformatie. Ons kader bereikt een 18,95x versnelling in aandachtdecodering voor een context van 1 miljoen tokens zonder extra training te vereisen. We implementeren onze methode in het SGLang-kader en tonen de effectiviteit en praktische toepasbaarheid ervan aan via uitgebreide evaluaties.
Grote tekstencoders in tekst-naar-afbeelding (T2I) diffusiemodellen hebben uitzonderlijke prestaties aangetoond bij het genereren van hoogwaardige afbeeldingen op basis van tekstuele aanwijzingen. In tegenstelling tot denoisingsmodules die vertrouwen op meerdere iteratieve stappen, hebben tekstencoders slechts één forward pass nodig om tekst-embeddings te produceren. Echter, ondanks hun minimale bijdrage aan de totale inferentietijd en floating-point bewerkingen (FLOPs), vereisen tekstencoders aanzienlijk meer geheugengebruik, tot wel acht keer meer dan denoisingsmodules. Om deze inefficiëntie aan te pakken, stellen we Skip and Re-use layers (Skrr) voor, een eenvoudige maar effectieve snoeistrategie die specifiek is ontworpen voor tekstencoders in T2I diffusiemodellen. Skrr maakt gebruik van de inherente redundantie in transformerblokken door selectief bepaalde lagen over te slaan of opnieuw te gebruiken op een manier die is afgestemd op T2I-taken, waardoor het geheugengebruik wordt verminderd zonder de prestaties in gevaar te brengen. Uitgebreide experimenten tonen aan dat Skrr de beeldkwaliteit vergelijkbaar met het oorspronkelijke model behoudt, zelfs bij hoge spaarheidsniveaus, en bestaande bloksgewijze snoeimethoden overtreft. Bovendien bereikt Skrr een state-of-the-art geheugenefficiëntie terwijl het de prestaties behoudt over meerdere evaluatiemetrics, waaronder de FID, CLIP, DreamSim en GenEval scores.
Recente ontwikkelingen in diffusietechnieken hebben de generatie van afbeeldingen en video's naar ongekende kwaliteitsniveaus gestuwd, waardoor de implementatie en toepassing van generatieve AI aanzienlijk zijn versneld. Echter, de technologie voor 3D-vormgeneratie is tot nu toe achtergebleven, beperkt door beperkingen in 3D-gegevensschaal, complexiteit van 3D-gegevensverwerking en onvoldoende verkenning van geavanceerde technieken in het 3D-domein. Huidige benaderingen voor 3D-vormgeneratie staan voor aanzienlijke uitdagingen op het gebied van outputkwaliteit, generalisatievermogen en afstemming met invoercondities. Wij presenteren TripoSG, een nieuw gestroomlijnd vormdiffusieparadigma dat in staat is om hoogwaardige 3D-meshes te genereren met een nauwkeurige overeenkomst met invoerafbeeldingen. Specifiek stellen we voor: 1) Een grootschalige gecorrigeerde stroomtransformator voor 3D-vormgeneratie, die state-of-the-art nauwkeurigheid behaalt door training op uitgebreide, hoogwaardige gegevens. 2) Een hybride begeleid trainingsstrategie waarbij SDF-, normaal- en eikonal-verliezen worden gecombineerd voor 3D VAE, wat resulteert in een hoogwaardige 3D-reconstructieprestatie. 3) Een gegevensverwerkingspijplijn om 2 miljoen hoogwaardige 3D-monsters te genereren, waarbij de cruciale regels voor gegevenskwaliteit en -hoeveelheid in het trainen van 3D-generatieve modellen worden benadrukt. Door uitgebreide experimenten hebben we de effectiviteit van elk onderdeel in ons nieuwe raamwerk bevestigd. De naadloze integratie van deze onderdelen heeft TripoSG in staat gesteld om state-of-the-art prestaties te behalen in 3D-vormgeneratie. De resulterende 3D-vormen vertonen verbeterde details door de mogelijkheden voor hoge resolutie en tonen uitzonderlijke nauwkeurigheid ten opzichte van invoerafbeeldingen. Bovendien toont TripoSG verbeterde veelzijdigheid bij het genereren van 3D-modellen uit diverse beeldstijlen en inhoud, waarbij sterke generalisatievermogens worden gedemonstreerd. Om vooruitgang en innovatie in het veld van 3D-generatie te bevorderen, zullen we ons model openbaar beschikbaar stellen.
Met het toenemende aantal publiekelijk beschikbare modellen zijn er waarschijnlijk voor de meeste taken die gebruikers nodig hebben, voorgetrainde modellen online beschikbaar. Huidige methoden voor modelzoekopdrachten zijn echter rudimentair, in feite een op tekst gebaseerde zoekopdracht in de documentatie, waardoor gebruikers de relevante modellen niet kunnen vinden. Dit artikel presenteert ProbeLog, een methode voor het ophalen van classificatiemodellen die een doelconcept kunnen herkennen, zoals "Hond", zonder toegang tot modelmetadata of trainingsgegevens. In tegenstelling tot eerdere probeermethoden berekent ProbeLog een descriptor voor elke uitvoerdimensie (logit) van elk model door de reacties ervan op een vastgestelde reeks invoergegevens (probes) te observeren. Onze methode ondersteunt zowel op logit gebaseerde ophaling ("vind meer logitwaarden zoals deze") als zero-shot, op tekst gebaseerde ophaling ("vind alle logitwaarden die overeenkomen met honden"). Aangezien representaties op basis van probing meerdere kostbare feedforward passes door het model vereisen, ontwikkelen we een methode op basis van collaboratieve filtering die de kosten van het coderen van repositories met een factor 3 verlaagt. We tonen aan dat ProbeLog een hoge ophaalnauwkeurigheid behaalt, zowel bij zoekopdrachten in de echte wereld als bij fijnmazige zoektaken, en schaalbaar is naar volledige repositories.
We introduceren SelfCite, een innovatieve zelf-supervised aanpak die LLMs afstemt om hoogwaardige, fijnmazige, op zinsniveau citaten te genereren voor de uitspraken in hun gegenereerde antwoorden. In plaats van alleen te vertrouwen op kostbare en arbeidsintensieve annotaties, maakt SelfCite gebruik van een beloningssignaal dat wordt geleverd door de LLM zelf via contextablatie: als een citaat nodig is, zou het verwijderen van de geciteerde tekst uit de context hetzelfde antwoord moeten voorkomen; als het voldoende is, zou het behouden van alleen de geciteerde tekst hetzelfde antwoord moeten behouden. Deze beloning kan de best-of-N bemonsteringsstrategie tijdens de inferentie aanzienlijk verbeteren, evenals worden gebruikt in voorkeursoptimalisatie om de modellen rechtstreeks fijn af te stemmen voor het genereren van betere citaten. De effectiviteit van SelfCite wordt aangetoond door de citatie F1 tot 5,3 punten te verhogen op de LongBench-Cite benchmark over vijf vraag-antwoordtaken op lange formulieren.
Het benutten van Multi-modale Grote Taalmodellen (MLLM's) om belichaamde agenten te creëren, biedt een veelbelovende aanpak voor het aanpakken van taken in de echte wereld. Terwijl op taal gerichte belichaamde agenten aanzienlijke aandacht hebben gekregen, blijven MLLM-gebaseerde belichaamde agenten onderbelicht vanwege het ontbreken van uitgebreide evaluatiekaders. Om deze kloof te overbruggen, introduceren we EmbodiedBench, een uitgebreide benchmark ontworpen om op visie gebaseerde belichaamde agenten te evalueren. EmbodiedBench omvat: (1) een diverse set van 1.128 testtaken over vier omgevingen, variërend van hoog-niveau semantische taken (bijv. huishoudelijke taken) tot laag-niveau taken die betrekking hebben op elementaire handelingen (bijv. navigatie en manipulatie); en (2) zes zorgvuldig samengestelde subsets die essentiële agentcapaciteiten evalueren zoals gezond verstand redeneren, complexe instructiebegrip, ruimtelijk bewustzijn, visuele waarneming en langetermijnplanning. Door uitgebreide experimenten hebben we 13 toonaangevende gepatenteerde en open-source MLLM's geëvalueerd binnen EmbodiedBench. Onze bevindingen tonen aan dat: MLLM's uitblinken in hoog-niveau taken maar moeite hebben met laag-niveau manipulatie, waarbij het beste model, GPT-4o, gemiddeld slechts 28,9% scoort. EmbodiedBench biedt een veelzijdig gestandaardiseerd evaluatieplatform dat niet alleen bestaande uitdagingen benadrukt, maar ook waardevolle inzichten biedt om MLLM-gebaseerde belichaamde agenten verder te ontwikkelen. Onze code is beschikbaar op https://embodiedbench.github.io.
Deze paper onderzoekt methodologieën voor gegevensselectie en model samenvoeging gericht op het opnemen van geavanceerde redeneermogelijkheden zoals die van DeepSeek R1 in taalspecifieke grote taalmodellen (LLM's), met een specifieke focus op het Thaise LLM. Ons doel is om de redeneermogelijkheden van taalspecifieke LLM's te verbeteren terwijl hun taalvaardigheden behouden blijven. DeepSeek R1 blinkt uit in redeneren, maar profiteert voornamelijk van talen met veel bronnen zoals Engels en Chinees. Echter, talen met weinig bronnen blijven onderbediend vanwege de dominantie van op Engels gerichte trainingsgegevens en modeloptimalisaties, die de prestaties in deze talen beperken. Deze beperking resulteert in onbetrouwbaar code-switchen en verminderde effectiviteit bij taken in talen met weinig bronnen. Ondertussen hebben lokale en regionale LLM-initiatieven geprobeerd deze kloof te overbruggen door taalspecifieke LLM's te ontwikkelen die zich richten op het verbeteren van lokale taalkundige nauwkeurigheid. We tonen aan dat het mogelijk is om met alleen openbaar beschikbare datasets en een computationeel budget van $120 de redeneermogelijkheden van taalspecifieke LLM's te verbeteren tot het niveau van DeepSeek R1, zonder de prestaties bij taken in de doeltaal in gevaar te brengen.
Rolspelende taalagenten (RPLA's) zijn naar voren gekomen als veelbelovende toepassingen van grote taalmodellen (LLM's). Het simuleren van gevestigde personages blijkt echter een uitdagende taak te zijn voor RPLA's, vanwege het gebrek aan authentieke karakterdatasets en genuanceerde evaluatiemethoden met behulp van dergelijke gegevens. In dit artikel presenteren we CoSER, een verzameling van een hoogwaardige dataset, open modellen en een evaluatieprotocol gericht op effectieve RPLA's van gevestigde personages. De CoSER-dataset omvat 17.966 personages uit 771 gerenommeerde boeken. Het biedt authentieke dialogen met realistische nuances, evenals diverse gegevenstypen zoals gespreksopstellingen, karakterervaringen en interne gedachten. Puttend uit acteermethodologie introduceren we gegeven-omstandigheid acteren voor het trainen en evalueren van rolspelende LLM's, waar LLM's opeenvolgend meerdere personages in boekscènes portretteren. Met behulp van onze dataset ontwikkelen we CoSER 8B en CoSER 70B, oftewel geavanceerde open rolspelende LLM's gebouwd op LLaMA-3.1 modellen. Uitgebreide experimenten tonen de waarde van de CoSER-dataset voor RPLA-training, evaluatie en ophalen. Bovendien vertoont CoSER 70B state-of-the-art prestaties die GPT-4o overtreffen of evenaren op onze evaluatie en drie bestaande benchmarks, namelijk het behalen van respectievelijk 75,80% en 93,47% nauwkeurigheid op de InCharacter en LifeChoice benchmarks.
Het beantwoorden van vragen met Chain-of-Thought (CoT) heeft aanzienlijk bijgedragen aan de redeneervaardigheden van Large Language Models (LLMs), maar de impact op Large Multimodal Models (LMMs) ontbreekt nog steeds aan een systematische beoordeling en diepgaand onderzoek. In dit artikel introduceren we MME-CoT, een gespecialiseerde benchmark die de CoT redeneerprestaties van LMMs evalueert, met betrekking tot zes domeinen: wiskunde, wetenschap, OCR, logica, ruimtetijd en algemene scènes. Als de eerste uitgebreide studie op dit gebied stellen we een grondige evaluatiesuite voor die drie nieuwe metrieken omvat die de redeneerkwaliteit, robuustheid en efficiëntie op een gedetailleerd niveau beoordelen. Door gebruik te maken van zorgvuldig samengestelde hoogwaardige gegevens en een unieke evaluatiestrategie voeren we een diepgaande analyse uit van state-of-the-art LMMs, waarbij we verschillende belangrijke inzichten blootleggen: 1) Modellen met reflectiemechanismen tonen een superieure CoT-kwaliteit, waarbij Kimi k1.5 GPT-4o overtreft en de hoogste kwaliteitsresultaten laat zien; 2) CoT-aansporing leidt vaak tot een verslechtering van de prestaties van LMMs bij taken die sterk afhankelijk zijn van perceptie, wat wijst op mogelijk schadelijk overdenkend gedrag; en 3) Hoewel de CoT-kwaliteit hoog is, vertonen LMMs met reflectie aanzienlijke inefficiëntie in zowel normale respons als zelfcorrectiefasen. We hopen dat MME-CoT dient als basis voor het bevorderen van multimodaal redeneren in LMMs. Projectpagina: https://mmecot.github.io/
Encoder-vrije architecturen zijn voorlopig verkend in het 2D visuele domein, maar het blijft een open vraag of ze effectief kunnen worden toegepast op 3D begripsscenario's. In dit artikel presenteren we het eerste uitgebreide onderzoek naar het potentieel van encoder-vrije architecturen om de uitdagingen van op encoders gebaseerde 3D Grote Multimodale Modellen (LMM's) te overwinnen. Deze uitdagingen omvatten het falen om zich aan te passen aan variërende resoluties van puntenwolken en de puntkenmerken van de encoder die niet voldoen aan de semantische behoeften van Grote Taalmodellen (LLM's). We identificeren belangrijke aspecten voor 3D LMM's om de encoder te verwijderen en het LLM in staat te stellen de rol van de 3D-encoder op zich te nemen: 1) We stellen de LLM-ingebedde Semantische Coderingsstrategie voor in de pre-trainingsfase, waarbij de effecten van verschillende zelf-supervised verliezen van puntenwolken worden onderzocht. En we presenteren de Hybride Semantische Verliesfunctie om hoog-niveau semantiek te extraheren. 2) We introduceren de Hiërarchische Geometrie Aggregatiestrategie in de instructie-afstemmingsfase. Dit omvat inductieve bias in de vroege lagen van het LLM om zich te concentreren op de lokale details van de puntenwolken. Tot slot presenteren we het eerste Encoder-vrije 3D LMM, ENEL. Ons 7B model evenaart het huidige state-of-the-art model, ShapeLLM-13B, met respectievelijk 55,0%, 50,92% en 42,7% op de classificatie-, bijschrift- en VQA-taken. Onze resultaten tonen aan dat de encoder-vrije architectuur zeer veelbelovend is voor het vervangen van op encoders gebaseerde architecturen op het gebied van 3D begrip. De code is beschikbaar op https://github.com/Ivan-Tang-3D/ENEL
Met de opkomst van geavanceerde redeneermodellen zoals OpenAI o3 en DeepSeek-R1 hebben grote taalmodellen (LLM's) opmerkelijke redeneervaardigheden aangetoond. Hun vermogen om echter rigoureuze logische redeneringen uit te voeren, blijft een open vraag. Deze survey synthetiseert recente ontwikkelingen in logisch redeneren binnen LLM's, een cruciaal gebied van AI-onderzoek. Het schetst de reikwijdte van logisch redeneren in LLM's, de theoretische grondslagen ervan, en de benchmarks die worden gebruikt om redeneervaardigheden te evalueren. We analyseren bestaande mogelijkheden over verschillende redeneerparadigma's - deductief, inductief, abductief en analogisch - en beoordelen strategieën om redeneerprestaties te verbeteren, waaronder datacentrische afstemming, reinforcement learning, decoderingsstrategieën en neuro-symbolische benaderingen. De review sluit af met toekomstige richtingen, waarbij de nadruk wordt gelegd op de noodzaak van verder onderzoek om logisch redeneren in AI-systemen te versterken.
In het snel evoluerende veld van Natuurlijke Taalverwerking krijgen Grote Taalmodellen (LLMs) steeds complexere redeneervraagstukken voorgelegd. Traditionele methoden zoals keten-van-gedachten prompting hebben potentie getoond, maar schieten vaak tekort in het volledig benutten van de redeneervermogens van een model. Dit artikel introduceert SQuARE (Sequential Question Answering Reasoning Engine), een nieuw prompting-techniek ontworpen om redeneren te verbeteren via een zelfondervragingsparadigma. Voortbouwend op CoT-frameworks, spoort SQuARE modellen aan om meerdere hulpvragen te genereren en op te lossen alvorens de hoofdvraag aan te pakken, wat een grondiger verkenning van verschillende aspecten van een onderwerp bevordert. Onze uitgebreide evaluaties, uitgevoerd met Llama 3 en GPT-4o modellen over meerdere vraag-en-antwoorddatasets, tonen aan dat SQuARE aanzienlijk beter presteert dan traditionele CoT-prompts en bestaande herformuleer-en-reageer methoden. Door systematisch vragen te ontleden, bevordert SQuARE de redeneervermogens van LLM's in redeneertaken. De code is openbaar beschikbaar op https://github.com/IntelLabs/RAG-FiT/tree/square.
Dit artikel introduceert Typhoon T1, een open initiatief om een open Thais redeneringsmodel te ontwikkelen. Een redeneringsmodel is een relatief nieuw type generatief model gebouwd bovenop grote taalmodellen (LLM's). Een redeneringsmodel genereert een lange gedachtegang voordat het tot een definitief antwoord komt, een benadering die de prestaties op complexe taken verbetert. Echter, details over het ontwikkelen van zo'n model zijn beperkt, vooral voor redeneringsmodellen die sporen kunnen genereren in een taal met weinig bronnen. Typhoon T1 presenteert een open initiatief dat dieper ingaat op de details van het ontwikkelen van een redeneringsmodel op een meer kosteneffectieve manier door gebruik te maken van begeleid finetunen met behulp van open datasets, in plaats van versterkend leren. Dit artikel deelt de details over synthetische gegevensgeneratie en training, evenals onze dataset en modelgewichten. Daarnaast bieden we inzichten die zijn opgedaan bij het ontwikkelen van een redeneringsmodel dat generaliseert over domeinen en in staat is redeneringssporen te genereren in een taal met weinig bronnen, met Thais als voorbeeld. We hopen dat dit open initiatief een basis biedt voor verder onderzoek op dit gebied.
Chain-of-Thought verbetert aanzienlijk de redeneervaardigheid van een model, maar gaat ook gepaard met aanzienlijk hogere inferentiekosten als gevolg van lange ketens. Met de observatie dat het redeneerpad gemakkelijk kan worden gecomprimeerd bij eenvoudige taken, maar moeilijkheden ondervindt bij moeilijke taken, onderzoeken we de haalbaarheid van het elastisch controleren van de lengte van redeneerpaden met slechts één model, waardoor de inferentie-overhead van redeneermodellen dynamisch kan worden verminderd op basis van taakmoeilijkheid. We introduceren een nieuwe afstemmings- en inferentiestrategie genaamd CoT-Valve, ontworpen om modellen in staat te stellen redeneerketens van variabele lengtes te genereren. Om dit te bereiken, stellen we voor een richting in de parameterruimte te identificeren die, wanneer gemanipuleerd, effectief de lengte van gegenereerde CoT kan controleren. Bovendien tonen we aan dat deze eigenschap waardevol is voor het comprimeren van de redeneerketen. We construeren datasets met ketens van lang tot kort voor dezelfde vragen en verkennen twee verbeterde strategieën voor CoT-Valve: (1) een precieze lengte-comprimeerbare CoT-afstemmingsmethode, en (2) een progressieve benadering voor het comprimeren van ketenlengtes. Onze experimenten tonen aan dat CoT-Valve succesvol controleerbaarheid en comprimeerbaarheid van de keten mogelijk maakt en betere prestaties vertoont dan de op prompt gebaseerde controle. We pasten deze methode toe op QwQ-32B-Preview, waarbij redeneerketens op GSM8K werden teruggebracht van 741 tot 225 tokens met een kleine prestatiedaling (95.07% naar 94.92%) en op AIME van 6827 tot 4629 tokens, met slechts één extra onjuist antwoord.
Multimodale insluitingsmodellen hebben aanzienlijke aandacht gekregen vanwege hun vermogen om gegevens van verschillende modaliteiten, zoals tekst en afbeeldingen, in een verenigde representatieruimte in kaart te brengen. De beperkte gelabelde multimodale gegevens belemmeren echter vaak de prestaties van de insluiting. Recente benaderingen hebben gegevenssynthese ingezet om dit probleem aan te pakken, maar de kwaliteit van synthetische gegevens blijft een kritieke bottleneck. In dit werk identificeren we drie criteria voor hoogwaardige synthetische multimodale gegevens. Ten eerste zorgt een breed scala ervoor dat de gegenereerde gegevens diverse taken en modaliteiten bestrijken, waardoor ze toepasbaar zijn in verschillende downstream scenario's. Ten tweede zorgt robuuste crossmodale uitlijning ervoor dat verschillende modaliteiten semantisch consistent zijn. Ten derde zorgt hoge geloofwaardigheid ervoor dat de synthetische gegevens realistische details behouden om de betrouwbaarheid te verbeteren. Geleid door deze principes synthetiseren we datasets die: (1) een breed scala aan taken, modaliteitscombinaties en talen bestrijken, (2) worden gegenereerd via een diepgaand denkproces binnen één doorgang van een multimodaal groot taalmodel, en (3) echte afbeeldingen bevatten met nauwkeurige en relevante teksten, waarbij geloofwaardigheid wordt gewaarborgd door zelfevaluatie en verfijning. Door gebruik te maken van deze hoogwaardige synthetische en gelabelde datasets trainen we een multimodaal meertalig E5-model mmE5. Uitgebreide experimenten tonen aan dat mmE5 state-of-the-art prestaties behaalt op de MMEB Benchmark en superieure meertalige prestaties op de XTD-benchmark. Onze codes, datasets en modellen zijn vrijgegeven op https://github.com/haon-chen/mmE5.
We richten ons op de uitdaging om een generaliseerbare neurale trackingcontroller te ontwikkelen voor behendige manipulatie vanuit menselijke referenties. Deze controller heeft tot doel een behendige robot hand te beheren om diverse objecten te manipuleren voor verschillende doeleinden gedefinieerd door kinematische mens-object interacties. Het ontwikkelen van zo'n controller wordt bemoeilijkt door de complexe contactdynamiek van behendige manipulatie en de noodzaak van aanpasbaarheid, generaliseerbaarheid en robuustheid. Huidige reinforcement learning en trajectoptimalisatiemethoden schieten vaak tekort vanwege hun afhankelijkheid van taakspecifieke beloningen of precieze systeemmodellen. We introduceren een benadering die grote succesvolle robot trackingdemonstraties samenstelt, bestaande uit paren van menselijke referenties en robotacties, om een neurale controller te trainen. Door gebruik te maken van een data-vliegwiel verbeteren we iteratief de prestaties van de controller, evenals het aantal en de kwaliteit van succesvolle trackingdemonstraties. We benutten beschikbare trackingdemonstraties en integreren zorgvuldig reinforcement learning en imitatieleren om de prestaties van de controller in dynamische omgevingen te verbeteren. Tegelijkertijd optimaliseren we per-traject tracking individueel door gebruik te maken van de geleerde trackingcontroller in een homotopie-optimalisatiemethode om hoogwaardige trackingdemonstraties te verkrijgen. De homotopie-optimalisatie, die ketendenken nabootst, helpt bij het oplossen van uitdagende trajecttrackingproblemen om de diversiteit van demonstraties te vergroten. We tonen ons succes aan door een generaliseerbare neurale controller te trainen en deze te evalueren in zowel simulatie als de echte wereld. Onze methode behaalt meer dan 10% verbetering in succespercentages in vergelijking met toonaangevende baselines. De projectwebsite met geanimeerde resultaten is beschikbaar op https://meowuu7.github.io/DexTrack/.
Wiskundige redenering in Grote Taalmodellen (LLMs) wordt vaak geëvalueerd aan de hand van benchmarks met beperkte numerieke bereiken, die geen weerspiegeling vormen van probleemoplossing op diverse schalen in de echte wereld. Bovendien vergelijken de meeste bestaande evaluatiemethoden alleen modeluitvoer met grondwaarheidantwoorden, waardoor inzichten in redeneerprocessen worden verduisterd. Om deze beperkingen aan te pakken, introduceren we GSM-Bereiken, een datasetgenerator afgeleid van GSM8K die systematisch numerieke waarden in wiskundige problemen verstoort om de robuustheid van modellen over verschillende numerieke schalen te beoordelen. Daarnaast stellen we een nieuwe beoordelingsmethodologie voor die onderscheid maakt tussen logische en niet-logische fouten, wat een nauwkeurigere evaluatie van redeneerprocessen biedt dan enkel computationele nauwkeurigheid. Onze experimenten met verschillende modellen tonen een aanzienlijke toename in logische fouten - tot 14 procentpunten - naarmate de numerieke complexiteit toeneemt, wat een algemene zwakte aantoont in redeneren met numerieke waarden buiten de distributie. Bovendien tonen modellen weliswaar een hoge nauwkeurigheid bij op zichzelf staande rekenkundige taken, maar hun prestaties verslechteren aanzienlijk wanneer berekeningen worden ingebed in woordproblemen. Deze bevindingen bieden een uitgebreide evaluatie van de wiskundige redeneermogelijkheden van LLMs en informeren toekomstige onderzoeksrichtingen voor het verbeteren van numerieke generalisatie in taalmodellen.
Het creëren van magie en illusies is een van de meest opwindende aspecten van filmmaken, waarbij visuele effecten (VFX) fungeren als de krachtbron achter onvergetelijke filmervaringen. Terwijl recente ontwikkelingen in generatieve kunstmatige intelligentie vooruitgang hebben geboekt in generieke beeld- en videosynthese, blijft het domein van controleerbare VFX-generatie relatief onderbelicht. In dit werk stellen we een nieuw paradigma voor geanimeerde VFX-generatie voor als beeldanimatie, waar dynamische effecten worden gegenereerd vanuit gebruiksvriendelijke tekstuele beschrijvingen en statische referentieafbeeldingen. Ons werk levert twee belangrijke bijdragen: (i) Open-VFX, de eerste hoogwaardige VFX-video dataset die 15 diverse effectcategorieën bestrijkt, geannoteerd met tekstuele beschrijvingen, instantiesegmentatiemaskers voor ruimtelijke conditionering, en start-eindtijdstempels voor temporele controle. (ii) VFX Creator, een eenvoudig maar effectief controleerbaar VFX-generatiekader gebaseerd op een Video Diffusion Transformer. Het model bevat een ruimtelijk en temporeel controleerbaar LoRA-adapter, met minimale trainingsvideo's. Specifiek maakt een plug-and-play maskerbesturingsmodule instantieniveau ruimtelijke manipulatie mogelijk, terwijl getokeniseerde start-eindbewegingstijdstempels ingebed in het diffusieproces, samen met de tekstencoder, precieze temporele controle bieden over effecttiming en tempo. Uitgebreide experimenten op de Open-VFX testset tonen de superioriteit van het voorgestelde systeem aan in het genereren van realistische en dynamische effecten, met het behalen van state-of-the-art prestaties en generalisatievermogen op zowel ruimtelijke als temporele controleerbaarheid. Bovendien introduceren we een gespecialiseerde metriek om de precisie van temporele controle te evalueren. Door traditionele VFX-technieken te verbinden met generatieve benaderingen, ontsluit VFX Creator nieuwe mogelijkheden voor efficiënte en hoogwaardige videofx-generatie, waardoor geavanceerde VFX toegankelijk worden voor een breder publiek.
Latente 3D-reconstructie heeft veelbelovende resultaten laten zien bij het versterken van 3D-semantisch begrip en 3D-generatie door 2D-kenmerken te destilleren in de 3D-ruimte. Echter, bestaande benaderingen worstelen met het domeingat tussen 2D-kenmerkenruimte en 3D-representaties, wat resulteert in verminderde renderprestaties. Om dit probleem aan te pakken, stellen we een nieuw raamwerk voor dat 3D-bewustzijn integreert in de 2D-latente ruimte. Het raamwerk bestaat uit drie fasen: (1) een correspondentie-bewuste auto-encoderingsmethode die de 3D-consistentie van 2D-latente representaties verbetert, (2) een latente stralingsveld (LSV) dat deze 3D-bewuste 2D-representaties naar de 3D-ruimte verheft, en (3) een VAE-Stralingsveld (VAE-SV) uitlijningsstrategie die de beelddecodering verbetert vanuit de gerenderde 2D-representaties. Uitgebreide experimenten tonen aan dat onze methode beter presteert dan de state-of-the-art benaderingen voor latente 3D-reconstructie wat betreft synthese-prestaties en algemene generaliseerbaarheid over diverse binnen- en buitenomgevingen. Voor zover wij weten, is dit het eerste werk dat aantoont dat stralingsveldrepresentaties geconstrueerd uit 2D-latente representaties fotorealistische 3D-reconstructieprestaties kunnen opleveren.
Industriële anomaliedetectie boekt vooruitgang dankzij datasets zoals MVTec-AD en VisA. Echter, ze kampen met beperkingen wat betreft het aantal defectmonsters, soorten defecten, en de beschikbaarheid van realistische scènes. Deze beperkingen belemmeren onderzoekers om verder te verkennen hoe de prestaties van industriële detectie kunnen worden verbeterd met een hogere nauwkeurigheid. Daarom stellen we een nieuwe grootschalige anomaliedetectiedataset voor genaamd 3CAD, die is afgeleid van echte 3C-productielijnen. Specifiek omvat het voorgestelde 3CAD acht verschillende soorten vervaardigde onderdelen, in totaal 27.039 hoogwaardige afbeeldingen gelabeld met pixelniveau anomalieën. Belangrijke kenmerken van 3CAD zijn dat het anomaliegebieden van verschillende groottes bestrijkt, meerdere anomalietypen omvat, en de mogelijkheid biedt van meerdere anomaliegebieden en meerdere anomalietypen per anomalieafbeelding. Dit is de grootste en eerste anomaliedetectiedataset die is gewijd aan 3C-productkwaliteitscontrole voor gemeenschappelijke verkenning en ontwikkeling. Ondertussen introduceren we een eenvoudig maar effectief raamwerk voor ongesuperviseerde anomaliedetectie: een Grof-naar-Fijn detectieparadigma met Herstelbegeleiding (CFRG). Om kleine defectanomalieën te detecteren, maakt het voorgestelde CFRG gebruik van een grof-naar-fijn detectieparadigma. Specifiek gebruiken we een heterogeen distillatiemodel voor grove lokalisatie en vervolgens fijne lokalisatie via een segmentatiemodel. Bovendien introduceren we herstelkenmerken als begeleiding om normale patronen beter vast te leggen. Tot slot rapporteren we de resultaten van ons CFRG-raamwerk en populaire anomaliedetectiemethoden op de 3CAD-dataset, waarbij we sterke concurrentie laten zien en een zeer uitdagende benchmark bieden om de ontwikkeling van het anomaliedetectieveld te bevorderen. Data en code zijn beschikbaar op: https://github.com/EnquanYang2022/3CAD.