Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De afgelopen maanden is er een krachtige nieuwe trend ontstaan waarin grote taalmodellen (LLMs) worden uitgebreid tot autonome taalagentschappen die in staat zijn om doelgerichte, meerstaps taken zelfstandig uit te voeren, in plaats van alleen te reageren op vragen van menselijke gebruikers. De meeste bestaande taalagentschappen zijn echter niet geoptimaliseerd met omgevingsspecifieke beloningen. Hoewel sommige agentschappen iteratieve verfijning mogelijk maken door middel van verbale feedback, redeneren en plannen ze niet op manieren die compatibel zijn met op gradiënten gebaseerd leren van beloningen. Dit artikel introduceert een principieel raamwerk voor het versterken van grote taalagentschappen door het leren van een retrospectief model, dat automatisch de prompts van het taalagentschap afstelt op basis van omgevingsfeedback via beleidsgradiënten. Specifiek leert onze voorgestelde agentarchitectuur van beloningen over meerdere omgevingen en taken, om een vooraf getraind taalmodel te finetunen dat de prompt van het taalagentschap verfijnt door de oorzaak van eerdere mislukte pogingen samen te vatten en actieplannen voor te stellen. Experimentele resultaten op verschillende taken tonen aan dat de taalagentschappen in de loop van de tijd verbeteren en dat onze aanpak aanzienlijk beter presteert dan baseline-methoden die niet correct gebruikmaken van gradiënten uit de omgeving. Dit toont aan dat het gebruik van beleidsgradiëntoptimalisatie om taalagentschappen te verbeteren, waarvan wij geloven dat ons werk een van de eerste is, veelbelovend lijkt en kan worden toegepast om andere modellen in de agentarchitectuur te optimaliseren om de prestaties van agentschappen in de loop van de tijd te verbeteren.
Wij stellen MM-Vet voor, een evaluatiebenchmark die grote multimodale modellen (LMMs) onderzoekt op complexe multimodale taken. Recente LMMs hebben verschillende intrigerende vaardigheden getoond, zoals het oplossen van wiskundige problemen die op het schoolbord geschreven staan, het redeneren over gebeurtenissen en beroemdheden in nieuwsafbeeldingen, en het uitleggen van visuele grappen. De snelle vooruitgang van modellen stelt de ontwikkeling van evaluatiebenchmarks voor uitdagingen. Problemen zijn onder meer: (1) Hoe de complexe multimodale taken systematisch te structureren en te evalueren; (2) Hoe evaluatiemetrics te ontwerpen die goed werken voor verschillende vraag- en antwoordtypen; en (3) Hoe inzichten in modellen te geven die verder gaan dan een eenvoudige prestatieranking. Daarom presenteren wij MM-Vet, ontworpen op basis van het inzicht dat de intrigerende vaardigheid om complexe taken op te lossen vaak wordt bereikt door een generalistisch model dat verschillende kernvisie-taal (VL) vaardigheden kan integreren. MM-Vet definieert 6 kern-VL-vaardigheden en onderzoekt de 16 integraties van belang die voortkomen uit de combinatie van vaardigheden. Voor evaluatiemetrics stellen wij een LLM-gebaseerde evaluator voor voor open-einde uitvoer. De evaluator maakt de evaluatie mogelijk over verschillende vraagtypen en antwoordstijlen, wat resulteert in een uniforme scoringsmetric. Wij evalueren representatieve LMMs op MM-Vet, wat inzichten geeft in de vaardigheden van verschillende LMM-systeemparadigma's en modellen. Code en data zijn beschikbaar op https://github.com/yuweihao/MM-Vet.
Open-vocabulary segmentatie is een uitdagende taak die het segmenteren en herkennen van objecten uit een open set van categorieën vereist. Een manier om deze uitdaging aan te pakken, is door gebruik te maken van multimodale modellen, zoals CLIP, om beeld- en tekstkenmerken te leveren in een gedeelde inbeddingsruimte, wat de kloof tussen gesloten-vocabulaire en open-vocabulaire herkenning overbrugt. Daarom nemen bestaande methoden vaak een tweestaps raamwerk aan om het probleem aan te pakken, waarbij de invoer eerst door een maskergenerator gaat en vervolgens door het CLIP-model samen met de voorspelde maskers. Dit proces omvat het meerdere keren extraheren van kenmerken uit afbeeldingen, wat inefficiënt en ondoeltreffend kan zijn. In tegenstelling hiermee stellen wij voor om alles in een enkelstaps raamwerk te bouwen met behulp van een gedeelde Frozen Convolutional CLIP-backbone, wat niet alleen de huidige tweestaps pijplijn aanzienlijk vereenvoudigt, maar ook opmerkelijk een betere nauwkeurigheid-kosten verhouding oplevert. De voorgestelde FC-CLIP profiteert van de volgende observaties: de bevroren CLIP-backbone behoudt het vermogen voor open-vocabulaire classificatie en kan ook dienen als een sterke maskergenerator, en de convolutionele CLIP generaliseert goed naar een grotere invoerresolutie dan die gebruikt tijdens contrastieve beeld-tekst voorafgaande training. Wanneer getraind op alleen COCO panoptische data en getest op een zero-shot manier, behaalt FC-CLIP 26.8 PQ, 16.8 AP, en 34.1 mIoU op ADE20K, 18.2 PQ, 27.9 mIoU op Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU op Cityscapes, wat de vorige state-of-the-art overtreft met +4.2 PQ, +2.4 AP, +4.2 mIoU op ADE20K, +4.0 PQ op Mapillary Vistas en +20.1 PQ op Cityscapes, respectievelijk. Bovendien is de trainings- en testtijd van FC-CLIP 7.5x en 6.6x aanzienlijk sneller dan dezelfde vorige state-of-the-art, terwijl er 5.9x minder parameters worden gebruikt. FC-CLIP stelt ook een nieuwe state-of-the-art prestatie in op verschillende open-vocabulaire semantische segmentatie datasets. Code beschikbaar op https://github.com/bytedance/fc-clip.
Het matchen van klinische onderzoeken is een cruciaal proces in de gezondheidszorg en ontdekking. In de praktijk wordt dit proces belemmerd door overweldigende hoeveelheden ongestructureerde data en niet-schaalbare handmatige verwerking. In dit artikel voeren we een systematische studie uit naar het opschalen van het matchen van klinische onderzoeken met behulp van grote taalmodellen (LLMs), met oncologie als focusgebied. Onze studie is gebaseerd op een systeem voor het matchen van klinische onderzoeken dat momenteel in testfase wordt ingezet binnen een groot Amerikaans gezondheidsnetwerk. De eerste bevindingen zijn veelbelovend: state-of-the-art LLMs, zoals GPT-4, kunnen direct uitgebreide toelatingscriteria van klinische onderzoeken structureren en complexe matchinglogica (bijvoorbeeld geneste AND/OR/NOT) extraheren. Hoewel nog verre van perfect, presteren LLMs aanzienlijk beter dan eerdere sterke baselines en kunnen ze dienen als een voorlopige oplossing om patiënt-onderzoekskandidaten te triageren met menselijke tussenkomst. Onze studie onthult ook enkele belangrijke groeigebieden voor het toepassen van LLMs op end-to-end matching van klinische onderzoeken, zoals contextbeperkingen en nauwkeurigheid, met name bij het structureren van patiëntinformatie uit longitudinale medische dossiers.
Biomimetische, behendige robotarmen hebben het potentieel om veel van de taken die een mens kan uitvoeren na te bootsen en de status te bereiken van een algemeen manipulatief platform. Recente vooruitgang in reinforcement learning (RL)-frameworks heeft opmerkelijke prestaties bereikt bij viervoetige voortbeweging en behendige manipulatietaken. In combinatie met GPU-gebaseerde, sterk geparallelleerde simulaties die duizenden robots parallel kunnen simuleren, zijn RL-gebaseerde controllers schaalbaarder en toegankelijker geworden. Om echter RL-getrainde beleidsregels naar de echte wereld te brengen, hebben we trainingsframeworks nodig die beleidsregels opleveren die kunnen werken met fysieke actuatoren en sensoren, evenals een hardwareplatform dat kan worden vervaardigd met toegankelijke materialen en toch robuust genoeg is om interactieve beleidsregels uit te voeren. Dit werk introduceert de biomimetische peesgestuurde Faive Hand en zijn systeemarchitectuur, die peesgestuurde rollende contactgewrichten gebruikt om een 3D-printbaar, robuust hoog-DoF handontwerp te realiseren. We modelleren elk element van de hand en integreren het in een GPU-simulatieomgeving om een beleidsregel met RL te trainen, en bereiken een zero-shot overdracht van een behendige vaardigheid voor het roteren van een bol in de hand naar de fysieke robothand.
We introduceren Compartmentalized Diffusion Models (CDM), een methode om verschillende diffusiemodellen (of prompts) te trainen op afzonderlijke databronnen en deze willekeurig te combineren tijdens de inferentiefase. De individuele modellen kunnen geïsoleerd worden getraind, op verschillende tijdstippen, en op verschillende distributies en domeinen, en kunnen later worden samengesteld om prestaties te bereiken die vergelijkbaar zijn met een voorbeeldmodel dat op alle data tegelijkertijd is getraind. Bovendien bevat elk model alleen informatie over de subset van de data waaraan het tijdens de training is blootgesteld, wat verschillende vormen van bescherming van trainingsdata mogelijk maakt. In het bijzonder zijn CDMs de eerste methode die zowel selectief vergeten als continu leren mogelijk maakt voor grootschalige diffusiemodellen, evenals het aanbieden van gepersonaliseerde modellen op basis van de toegangsrechten van de gebruiker. CDMs maken het ook mogelijk om het belang van een subset van de data bij het genereren van specifieke samples te bepalen.