Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote neurale netwerken besteden het grootste deel van hun berekeningen aan het vermenigvuldigen van zwevende-kommagetensoren. In dit werk vinden we dat een zwevendekommagetalmultiplier kan worden benaderd door één geheelgetalopteller met hoge precisie. We stellen het lineair-complexe vermenigvuldigings L-Mul algoritme voor dat zwevendekommagetallenvermenigvuldiging benadert met gehele opteloperaties. Het nieuwe algoritme vereist aanzienlijk minder rekenbronnen dan 8-bits zwevendekommagetallenvermenigvuldiging, maar behaalt een hogere precisie. Vergeleken met 8-bits zwevendekommagetallenvermenigvuldiging behaalt de voorgestelde methode een hogere precisie, maar verbruikt aanzienlijk minder bitniveau-berekeningen. Omdat het vermenigvuldigen van zwevendekommagetallen aanzienlijk meer energie vereist dan gehele opteloperaties, kan het toepassen van de L-Mul-operatie in tensorverwerkingshardware potentieel 95% energiekosten besparen bij elementgewijze zwevendekommagetensormultiplicaties en 80% energiekosten van dotproducten. We hebben de theoretische foutverwachting van L-Mul berekend en het algoritme geëvalueerd op een breed scala van tekstuele, visuele en symbolische taken, waaronder natuurlijke taalbegrip, structureel redeneren, wiskunde en gezond verstandsvragen beantwoorden. Onze numerieke analyse-experimenten komen overeen met de theoretische foutinschatting, wat aangeeft dat L-Mul met een 4-bits mantisse vergelijkbare precisie behaalt als float8_e4m3-vermenigvuldigingen, en L-Mul met een 3-bits mantisse presteert beter dan float8_e5m2. Evaluatieresultaten op populaire benchmarks tonen aan dat het rechtstreeks toepassen van L-Mul op het aandachtsmechanisme vrijwel verliesloos is. We tonen verder aan dat het vervangen van alle zwevendekommagetallenvermenigvuldigingen door L-Mul met een 3-bits mantisse in een transformermodel een equivalent precisie behaalt als het gebruik van float8_e4m3 als precisie bij accumulatie, zowel bij fine-tuning als inferentie.
Recente ontwikkelingen op het gebied van zowel representatie-leren als functie-leren hebben aanzienlijke belofte laten zien in diverse domeinen van kunstmatige intelligentie. Echter, de effectieve integratie van deze paradigma's vormt een aanzienlijke uitdaging, met name in gevallen waar gebruikers handmatig moeten beslissen of ze een representatie-lerend of functie-lerend model moeten toepassen op basis van datasetkenmerken. Om dit probleem aan te pakken, introduceren we MLP-KAN, een verenigde methode die is ontworpen om de noodzaak voor handmatige modelselectie te elimineren. Door Multi-Layer Perceptrons (MLP's) voor representatie-leren en Kolmogorov-Arnold Netwerken (KAN's) voor functie-leren te integreren binnen een Mixture-of-Experts (MoE) architectuur, past MLP-KAN zich dynamisch aan aan de specifieke kenmerken van de taak die wordt uitgevoerd, met als resultaat optimale prestaties. Ingesloten in een op transformer gebaseerd raamwerk, behaalt ons werk opmerkelijke resultaten op vier veelgebruikte datasets in diverse domeinen. Uitgebreide experimentele evaluatie toont de superieure veelzijdigheid ervan aan, waarbij het concurrerende prestaties levert op zowel diepe representatie- als functie-lerende taken. Deze bevindingen benadrukken het potentieel van MLP-KAN om het modelselectieproces te vereenvoudigen, met een allesomvattende, aanpasbare oplossing over verschillende domeinen. Onze code en gewichten zijn beschikbaar op https://github.com/DLYuanGod/MLP-KAN.
Generatieve AI, met name Taalmodellen (LM's), heeft het potentieel om real-world domeinen met maatschappelijke impact te transformeren, met name daar waar de toegang tot experts beperkt is. Bijvoorbeeld, in het onderwijs is het belangrijk om beginnende docenten op te leiden met expertbegeleiding voor effectiviteit, maar dit is duur, wat aanzienlijke barrières creëert voor het verbeteren van de onderwijskwaliteit op grote schaal. Deze uitdaging benadeelt studenten uit onderbediende gemeenschappen onevenredig, die het meest kunnen profiteren van hoogwaardig onderwijs. We introduceren Tutor CoPilot, een nieuw mens-AI-benadering die een model van expertdenken benut om expertachtige begeleiding te bieden aan tutoren terwijl ze lesgeven. Deze studie is de eerste gerandomiseerde gecontroleerde trial van een mens-AI-systeem in live tutoring, waarbij 900 tutoren en 1,800 K-12 studenten uit historisch onderbediende gemeenschappen betrokken zijn. Volgens een vooraf geregistreerd analyseplan vinden we dat studenten die werken met tutoren die toegang hebben tot Tutor CoPilot 4 procentpunten (p.p.) waarschijnlijker zijn om onderwerpen onder de knie te krijgen (p<0.01). Opmerkelijk is dat studenten van lager beoordeelde tutoren het meeste voordeel ervoeren, waarbij de beheersing met 9 p.p. verbeterde. We vinden dat Tutor CoPilot slechts $20 per tutor per jaar kost. We analyseren 550,000+ berichten met behulp van classificatoren om pedagogische strategieën te identificeren, en vinden dat tutoren met toegang tot Tutor CoPilot eerder hoogwaardige strategieën zullen gebruiken om het begrip van de student te bevorderen (bijv. het stellen van begeleidende vragen) en minder geneigd zijn om het antwoord aan de student te geven. Tutorinterviews benadrukken hoe de begeleiding van Tutor CoPilot tutoren helpt om te reageren op de behoeften van de student, hoewel ze problemen signaleren in Tutor CoPilot, zoals het genereren van suggesties die niet geschikt zijn voor het niveau van de student. Al met al toont onze studie van Tutor CoPilot aan hoe mens-AI-systemen expertise kunnen opschalen in real-world domeinen, kloven in vaardigheden kunnen overbruggen en een toekomst kunnen creëren waarin hoogwaardig onderwijs toegankelijk is voor alle studenten.
Onnodige elementen in de context van de aandacht verminderen de prestaties. We introduceren Selectieve Aandacht, een eenvoudige parameterloze wijziging van het standaard aandachtsmechanisme dat de aandacht voor onnodige elementen vermindert. Selectieve aandacht verbetert de prestaties van taalmodellering in verschillende modelgroottes en contextlengtes. Bijvoorbeeld, een reeks transformers getraind met het doel van taalmodellering op C4 met selectieve aandacht presteren equivalent aan standaard transformers met ~2X meer heads en parameters in hun aandachtsmodules. Selectieve aandacht maakt het ook mogelijk om de grootte van de contextbuffer van de aandacht te verkleinen, wat leidt tot betekenisvolle verminderingen in de geheugen- en rekeneisen tijdens inferentie. Bijvoorbeeld, transformers met 100M parameters getraind op C4 met contextgroottes van 512, 1.024 en 2.048 hebben respectievelijk 16X, 25X en 47X minder geheugen nodig voor hun aandachtsmodule wanneer ze zijn uitgerust met selectieve aandacht, in vergelijking met die zonder selectieve aandacht, met dezelfde validatie perplexiteit.
Zal een op een Visueel Taalmodel (VLM) gebaseerde bot ons waarschuwen voor uitglijden als het een natte vloer detecteert? Recente VLM's hebben indrukwekkende mogelijkheden aangetoond, maar hun vermogen om uitkomsten en oorzaken af te leiden blijft onderbelicht. Om dit aan te pakken, introduceren we NL-Eye, een benchmark ontworpen om de visuele abductieve redeneervaardigheden van VLM's te beoordelen. NL-Eye past de abductieve Natural Language Inference (NLI) taak aan naar het visuele domein, waarbij modellen de plausibiliteit van hypothesebeelden moeten evalueren op basis van een premissebeeld en hun beslissingen moeten uitleggen. NL-Eye bestaat uit 350 zorgvuldig samengestelde drietalvoorbeelden (1.050 afbeeldingen) die verschillende redeneringscategorieën bestrijken: fysiek, functioneel, logisch, emotioneel, cultureel en sociaal. Het proces van gegevenscuratie omvatte twee stappen - het schrijven van tekstuele beschrijvingen en het genereren van afbeeldingen met behulp van tekst-naar-afbeelding modellen, waarbij beide stappen aanzienlijke menselijke betrokkenheid vereisten om hoogwaardige en uitdagende scènes te waarborgen. Onze experimenten tonen aan dat VLM's aanzienlijke moeite hebben met NL-Eye, vaak presterend op willekeurige basislijnniveaus, terwijl mensen uitblinken in zowel plausibiliteitsvoorspelling als uitlegkwaliteit. Dit toont een tekortkoming aan in de abductieve redeneervaardigheden van moderne VLM's. NL-Eye vertegenwoordigt een cruciale stap naar de ontwikkeling van VLM's die in staat zijn tot robuuste multimodale redenering voor praktische toepassingen, waaronder bots voor het voorkomen van ongelukken en gegenereerde videoverificatie.
Mamba, een speciaal geval van het State Space Model, wint aan populariteit als een alternatief voor op sjablonen gebaseerde diepe leermethoden in medische beeldanalyse. Hoewel transformers krachtige architecturen zijn, hebben ze nadelen, waaronder een kwadratische rekenkundige complexiteit en een onvermogen om efficiënt om te gaan met langeafhankelijkheden. Deze beperking beïnvloedt de analyse van grote en complexe datasets in medische beeldvorming, waar veel ruimtelijke en temporele relaties zijn. In tegenstelling hiermee biedt Mamba voordelen die het geschikt maken voor medische beeldanalyse. Het heeft lineaire tijdscomplexiteit, wat een aanzienlijke verbetering is ten opzichte van transformers. Mamba verwerkt langere sequenties zonder aandachtsmechanismen, waardoor snellere inferentie mogelijk is en minder geheugen nodig is. Mamba toont ook sterke prestaties bij het samenvoegen van multimodale gegevens, waardoor de nauwkeurigheid van diagnoses en patiëntresultaten verbetert. De structuur van dit artikel stelt lezers in staat om stap voor stap de mogelijkheden van Mamba in medische beeldvorming te waarderen. We beginnen met het definiëren van kernconcepten van SSM's en modellen, waaronder S4, S5 en S6, gevolgd door een verkenning van Mamba-architecturen zoals pure Mamba, U-Net-varianten en hybride modellen met convolutionele neurale netwerken, transformers en Graph Neural Networks. We behandelen ook Mamba-optimalisaties, technieken en aanpassingen, scannen, datasets, toepassingen, experimentele resultaten en sluiten af met de uitdagingen en toekomstige richtingen in medische beeldvorming. Deze review heeft tot doel het transformerende potentieel van Mamba aan te tonen bij het overwinnen van bestaande barrières binnen medische beeldvorming en het pad te effenen voor innovatieve ontwikkelingen in het veld. Een uitgebreide lijst van Mamba-architecturen toegepast in het medische veld, beoordeeld in dit werk, is beschikbaar op Github.
De huidige grote autoregressieve modellen kunnen hoogwaardige, hoogwaardige afbeeldingen genereren, maar deze modellen vereisen honderden of zelfs duizenden stappen van voorspelling van het volgende token tijdens inferentie, wat resulteert in aanzienlijke tijdconsumptie. In bestaande studies is Jacobi-decodering, een iteratief parallel decoderingsalgoritme, gebruikt om de autoregressieve generatie te versnellen en kan worden uitgevoerd zonder training. Echter, de Jacobi-decodering steunt op een deterministisch criterium om de convergentie van iteraties te bepalen. Daarom werkt het voor greedy-decodering, maar is het niet compatibel met op monsters gebaseerde decodering, wat cruciaal is voor visuele kwaliteit en diversiteit in de huidige autoregressieve tekst-naar-afbeelding generatie. In dit artikel stellen we een trainingsvrij probabilistisch parallel decoderingsalgoritme voor, Speculative Jacobi Decodering (SJD), om de autoregressieve tekst-naar-afbeelding generatie te versnellen. Door een probabilistisch convergentiecriterium te introduceren, versnelt onze SJD de inferentie van autoregressieve tekst-naar-afbeelding generatie terwijl de willekeurigheid in op monsters gebaseerde token-decodering behouden blijft en het model in staat stelt diverse afbeeldingen te genereren. Specifiek vergemakkelijkt SJD het model om meerdere tokens te voorspellen bij elke stap en accepteert tokens op basis van het probabilistische criterium, waardoor het model afbeeldingen kan genereren met minder stappen dan het conventionele paradigma van voorspelling van het volgende token. We onderzoeken ook de token-initialisatiestrategieën die gebruikmaken van de ruimtelijke nabijheid van visuele gegevens om de versnellingsratio verder te verbeteren onder specifieke scenario's. We voeren experimenten uit voor onze voorgestelde SJD op meerdere autoregressieve tekst-naar-afbeelding generatiemodellen, waarbij we de effectiviteit van modelversnelling aantonen zonder afbreuk te doen aan de visuele kwaliteit.
Textuur-generatie uit tekst heeft recentelijk steeds meer aandacht getrokken, maar bestaande methoden kampen vaak met problemen zoals inconsistenties in weergave, zichtbare naden en misalignement tussen texturen en het onderliggende mesh. In dit artikel stellen we een robuuste textuur-generatiemethode voor om consistente en naadloze texturen te genereren die goed uitgelijnd zijn met het mesh. Onze methode maakt gebruik van state-of-the-art 2D diffusiemodellen, waaronder SDXL en meerdere ControlNets, om structurele kenmerken en complexe details in de gegenereerde texturen vast te leggen. De methode maakt ook gebruik van een symmetrische weergavesynthesestrategie in combinatie met regionale aanwijzingen om de weergaveconsistentie te verbeteren. Daarnaast introduceert het nieuwe technieken voor textuurvervaging en zachte inpainting, die de naden aanzienlijk verminderen. Uitgebreide experimenten tonen aan dat onze methode beter presteert dan bestaande state-of-the-art methoden.
Het concept van het wissen van informatie in taalmodellen heeft traditioneel een gebrek aan een uitgebreid evaluatiekader, wat heeft geleid tot onvolledige beoordelingen van de effectiviteit van wismethoden. Wij stellen een evaluatieparadigma voor dat is gebaseerd op drie kritieke criteria: onschuld (volledige kennisverwijdering), naadloosheid (behoud van voorwaardelijke vloeiende generatie) en specificiteit (behoud van prestaties op niet-gerelateerde taken). Onze evaluatiemetrics stimuleren op natuurlijke wijze de ontwikkeling van Erasure of Language Memory (ELM), een nieuwe methode die is ontworpen om aan alle drie dimensies te voldoen. ELM maakt gebruik van gerichte updates met lage rang om outputverdelingen voor gewiste concepten te wijzigen, terwijl de algehele modelmogelijkheden behouden blijven, inclusief vloeiendheid wanneer gevraagd wordt om een gewist concept. We tonen de effectiviteit van ELM aan bij taken voor het wissen van informatie in de biosecurity, cybersecurity en literaire domeinen. Vergelijkende analyses tonen aan dat ELM superieure prestaties behaalt op onze voorgestelde metrics, inclusief bijna-willekeurige scores bij beoordelingen van gewiste onderwerpen, generatievloeiendheid, behouden nauwkeurigheid op niet-gerelateerde benchmarks en robuustheid tegen aanvallen. Onze code, data en getrainde modellen zijn beschikbaar op https://elm.baulab.info
Recente ontwikkelingen in Grote Taalmodellen voor Code (CodeLLMs) hebben zich voornamelijk gericht op open-ended code generatietaken, waarbij vaak het cruciale aspect van code begrip en begrijpen wordt verwaarloosd. Om deze kloof te overbruggen, presenteren wij CodeMMLU, een uitgebreide meerkeuzevraag-antwoord benchmark ontworpen om de diepte van software- en codebegrip in LLMs te evalueren. CodeMMLU omvat meer dan 10.000 vragen afkomstig uit diverse domeinen, met taken zoals code analyse, defect detectie, en software engineering principes in meerdere programmeertalen. In tegenstelling tot traditionele benchmarks beoordeelt CodeMMLU het vermogen van modellen om te redeneren over code in plaats van deze alleen te genereren, waardoor diepere inzichten worden verkregen in hun begrip van complexe softwareconcepten en -systemen. Onze uitgebreide evaluatie onthult dat zelfs state-of-the-art modellen aanzienlijke uitdagingen ondervinden met CodeMMLU, waarbij tekortkomingen in begrip voorbij code generatie worden benadrukt. Door de cruciale relatie tussen code begrip en effectieve generatie te benadrukken, dient CodeMMLU als een essentiële bron voor het bevorderen van door AI ondersteunde softwareontwikkeling, met als uiteindelijk doel het creëren van betrouwbaardere en capabelere code-assistenten.
Het navigeren van robots in het echte leven omvat meer dan alleen het bereiken van een bestemming; het vereist het optimaliseren van bewegingen terwijl specifieke doelen van de situatie worden aangepakt. Een intuïtieve manier voor mensen om deze doelen uit te drukken is via abstracte aanwijzingen zoals verbale commando's of ruwe schetsen. Dergelijke menselijke begeleiding kan details missen of ruis bevatten. Desalniettemin verwachten we dat robots navigeren zoals bedoeld. Om abstracte instructies te interpreteren en uit te voeren in lijn met menselijke verwachtingen, moeten ze een gemeenschappelijk begrip hebben van basisnavigatieconcepten met mensen. Met dit doel introduceren we CANVAS, een nieuw raamwerk dat visuele en linguïstische instructies combineert voor navigatie met gezond verstand. Het succes ervan wordt aangedreven door imitatieleren, waardoor de robot kan leren van het navigatiegedrag van mensen. We presenteren COMMAND, een uitgebreide dataset met door mensen geannoteerde navigatieresultaten, die zich uitstrekken over 48 uur en 219 km, ontworpen om navigatiesystemen met gezond verstand te trainen in gesimuleerde omgevingen. Onze experimenten tonen aan dat CANVAS beter presteert dan het sterke op regels gebaseerde systeem ROS NavStack in alle omgevingen, met superieure prestaties bij ruisige instructies. Opmerkelijk is dat in de boomgaardomgeving, waar ROS NavStack een totaal succespercentage van 0% behaalt, CANVAS een totaal succespercentage van 67% behaalt. CANVAS sluit ook nauw aan bij menselijke demonstraties en gezond verstand beperkingen, zelfs in onbekende omgevingen. Bovendien toont de implementatie van CANVAS in de echte wereld een indrukwekkende Sim2Real-overdracht met een totaal succespercentage van 69%, waarbij het potentieel van leren van menselijke demonstraties in gesimuleerde omgevingen voor toepassingen in de echte wereld wordt benadrukt.
Het invullen van de lege plekken (FIM) is essentieel geworden voor code-taalmodellen, waardoor het genereren van ontbrekende code mogelijk is gegeven zowel de linker- als rechtercontext. Echter, het huidige FIM-trainingsparadigma, dat de oorspronkelijke trainingssequenties herordent en vervolgens reguliere voorspelling van het volgende token (NTP) uitvoert, leidt vaak tot modellen die moeite hebben om inhoud te genereren die soepel aansluit bij de omringende context. Belangrijk is dat, terwijl bestaande werken vertrouwen op op regels gebaseerde post-processing om deze zwakte te omzeilen, dergelijke methoden niet praktisch bruikbaar zijn in open-domein code-completietaken omdat ze afhankelijk zijn van beperkende, dataset-specifieke aannames (bijv. het genereren van hetzelfde aantal regels als in de grondwaarheid). Bovendien verslechtert de modelprestatie op FIM-taken aanzienlijk zonder deze onrealistische aannames. We veronderstellen dat NTP alleen onvoldoende is voor modellen om effectieve planning te leren die is geconditioneerd op de verre rechtercontext, een cruciale factor voor succesvolle code-infilling. Om dit te overwinnen, stellen we Horizon-Lengte Voorspelling (HLP) voor, een nieuw trainingsdoel dat modellen leert om het aantal resterende middelste tokens (d.w.z. horizonlengte) bij elke stap te voorspellen. HLP bevordert FIM met vooruitkijkende planning, waardoor modellen inherent infillingsgrenzen kunnen leren voor willekeurige linker- en rechtercontexten zonder afhankelijk te zijn van dataset-specifieke post-processing. Onze evaluatie over verschillende modellen en groottes toont aan dat HLP de FIM-prestaties aanzienlijk verbetert met maximaal 24% relatief op diverse benchmarks, op zowel bestandsniveau als repositoryniveau, en zonder toevlucht te nemen tot onrealistische post-processing-methoden. Bovendien verbetert de verbeterde planningscapaciteit die wordt verkregen door HLP de modelprestatie op code-redenering. Belangrijk is dat HLP slechts verwaarloosbare trainingskosten met zich meebrengt en geen extra inferentiekosten, waardoor het praktisch toepasbaar is voor real-world scenario's.
Het voorspellen van de aandelenmarkt is al tientallen jaren een uiterst uitdagend probleem vanwege de inherente hoge volatiliteit en lage informatie-ruisverhouding. Bestaande oplossingen op basis van machine learning of diep leren tonen superieure prestaties door gebruik te maken van een enkel model dat is getraind op de volledige aandelendataset om voorspellingen te genereren voor alle soorten aandelen. Echter, vanwege de aanzienlijke variaties in aandelentypen en markttrends, worstelt een enkel end-to-end model om de verschillen in deze gestileerde aandeleneigenschappen volledig vast te leggen, wat leidt tot relatief onnauwkeurige voorspellingen voor alle soorten aandelen. In dit artikel presenteren we MIGA, een nieuw Mixture of Expert with Group Aggregation-framework dat is ontworpen om gespecialiseerde voorspellingen te genereren voor aandelen met verschillende stijlen door dynamisch te schakelen tussen verschillende stijlexperts. Om samenwerking tussen verschillende experts in MIGA te bevorderen, stellen we een nieuw inner group attention-architectuur voor, waardoor experts binnen dezelfde groep informatie kunnen delen en zo de algehele prestaties van alle experts verbeteren. Als gevolg hiervan presteert MIGA aanzienlijk beter dan andere end-to-end modellen op drie Chinese aandelendex benchmarks, waaronder CSI300, CSI500 en CSI1000. Opmerkelijk genoeg behaalt MIGA-Conv een 24% hoger jaarlijks rendement op de CSI300 benchmark, wat de vorige state-of-the-art model met 8% absoluut overtreft. Bovendien voeren we een uitgebreide analyse uit van de mixture of experts voor aandelenvoorspellingen, wat waardevolle inzichten biedt voor toekomstig onderzoek.
Ondanks de opkomst van diepgaand leren in domeinen met ongestructureerde data, blijven op boomstructuren gebaseerde methoden zoals Random Forests (RF) en Gradient Boosted Decision Trees (GBDT) de werkpaarden voor het verwerken van discriminerende taken op tabulaire data. We verkennen generatieve uitbreidingen van deze populaire algoritmes met de nadruk op het expliciet modelleren van de datadichtheid (tot een normalisatieconstante), waardoor andere toepassingen dan monstername mogelijk zijn. Als onze belangrijkste bijdrage stellen we een op energie gebaseerd generatief boostingalgoritme voor dat analoog is aan de boosting van de tweede orde geïmplementeerd in populaire pakketten zoals XGBoost. We tonen aan dat, ondanks het produceren van een generatief model dat in staat is om inferentiemethoden over elke invoer variabele te verwerken, ons voorgestelde algoritme vergelijkbare discriminatieve prestaties kan behalen als GBDT op een aantal echte tabulaire datasets, waarbij alternatieve generatieve benaderingen overtreft. Tegelijkertijd tonen we aan dat het ook concurrerend is met op neurale netwerken gebaseerde modellen voor monstername.
Het gedetailleerd ondertitelen van video's is een belangrijke taak die tot doel heeft uitgebreide en coherente tekstuele beschrijvingen van video-inhoud te genereren, wat zowel de begrip van video's als de generatie ervan ten goede komt. In dit artikel stellen we AuroraCap voor, een video-ondertitelaar gebaseerd op een groot multimodaal model. We volgen het eenvoudigste architectuurontwerp zonder extra parameters voor temporele modellering. Om de overhead veroorzaakt door lange videosequenties aan te pakken, implementeren we de token-samenvoegingsstrategie, waardoor het aantal invoervisuele tokens wordt verminderd. Verrassend genoeg hebben we ontdekt dat deze strategie leidt tot weinig prestatieverlies. AuroraCap vertoont uitstekende prestaties op verschillende video- en afbeeldingsbijschriftbeproevingen, bijvoorbeeld een CIDEr van 88.9 op Flickr30k, waarbij GPT-4V (55.3) en Gemini-1.5 Pro (82.2) worden overtroffen. Bestaande videobijschriftbeproevingen omvatten echter alleen eenvoudige beschrijvingen, bestaande uit enkele tientallen woorden, wat het onderzoek op dit gebied beperkt. Daarom hebben we VDC ontwikkeld, een benchmark voor gedetailleerd videobijschriften met meer dan duizend zorgvuldig geannoteerde gestructureerde bijschriften. Bovendien stellen we een nieuwe LLM-ondersteunde metriek VDCscore voor ter verbetering van de evaluatie, die een verdeel-en-heersstrategie hanteert om lange bijschriftevaluatie om te zetten in meerdere korte vraag-antwoordparen. Met behulp van menselijke Elo-ranking tonen onze experimenten aan dat deze benchmark beter correleert met menselijke beoordelingen van de kwaliteit van gedetailleerde videobijschriften.
Robotische simulatie blijft vandaag de dag uitdagend om op te schalen vanwege de menselijke inspanningen die nodig zijn om diverse simulatietaken en scènes te creëren. Beleidslijnen getraind in simulaties ondervinden ook schaalbaarheidsproblemen omdat veel simulatie-naar-realiteit methoden zich richten op een enkele taak. Om deze uitdagingen aan te pakken, stelt dit werk GenSim2 voor, een schaalbaar raamwerk dat gebruikmaakt van coderende LLMs met multimodale en redeneervermogens voor het creëren van complexe en realistische simulatietaken, inclusief taken met lange termijn doelen met gearticuleerde objecten. Om automatisch demonstratiedata te genereren voor deze taken op grote schaal, stellen we planning en RL oplossers voor die generaliseren binnen objectcategorieën. De pijplijn kan data genereren voor maximaal 100 gearticuleerde taken met 200 objecten en de benodigde menselijke inspanningen verminderen. Om dergelijke data te benutten, stellen we een effectieve multi-taak taal-geconditioneerde beleidsarchitectuur voor, genaamd proprioceptieve puntwolktransformator (PPT), die leert van de gegenereerde demonstraties en sterke simulatie-naar-realiteit zero-shot overdracht vertoont. Door de voorgestelde pijplijn en de beleidsarchitectuur te combineren, tonen we een veelbelovend gebruik van GenSim2 waarbij de gegenereerde data kan worden gebruikt voor zero-shot overdracht of samen trainen met in de echte wereld verzamelde data, wat de beleidsprestaties met 20% verbetert in vergelijking met exclusieve training op beperkte echte data.