Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het ontwikkelen van robuuste en corrigeerbare visuomotorbeleidslijnen voor robotmanipulatie is uitdagend vanwege het ontbreken van zelfherstelmechanismen bij storingen en de beperkingen van eenvoudige taalinstructies om robotacties te begeleiden. Om deze problemen aan te pakken, stellen we een schaalbare gegevensgeneratiepijplijn voor die automatisch expertdemonstraties aanvult met hersteltrajecten bij storingen en gedetailleerde taalaantekeningen voor training. Vervolgens introduceren we Rich Language-guided Failure Recovery (RACER), een toezichthouder-acteurframework, dat storingherstelgegevens combineert met rijke taalbeschrijvingen om robotbesturing te verbeteren. RACER bevat een visie-taalmodel (VLM) dat fungeert als een online toezichthouder, gedetailleerde taalbegeleiding biedt voor foutcorrectie en taakuitvoering, en een taal-afhankelijk visuomotorbeleid als een acteur om de volgende acties te voorspellen. Onze experimentele resultaten tonen aan dat RACER beter presteert dan de state-of-the-art Robotic View Transformer (RVT) op RLbench in verschillende evaluatie-instellingen, waaronder standaard langetermijntaken, dynamische doelveranderingstaken en zero-shot ongeziene taken, waarbij superieure prestaties worden behaald in zowel gesimuleerde als echte omgevingen. Video's en code zijn beschikbaar op: https://rich-language-failure-recovery.github.io.
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in verschillende domeinen en taken, waarbij ze de grenzen van onze kennis op het gebied van leren en cognitie hebben verlegd. Het nieuwste model, OpenAI's o1, valt op als het eerste LLM met een geïnternaliseerde keten-van-gedachte techniek die gebruikmaakt van versterkend leren strategieën. Hoewel het verrassend sterke capaciteiten heeft gedemonstreerd op verschillende algemene taaltaken, is de prestatie ervan in gespecialiseerde gebieden zoals geneeskunde onbekend. Daarom biedt dit rapport een uitgebreide verkenning van o1 in verschillende medische scenario's, waarbij 3 belangrijke aspecten worden onderzocht: begrip, redenering en meertaligheid. Specifiek omvat onze evaluatie 6 taken met gegevens van 37 medische datasets, waaronder twee nieuw gecreëerde en uitdagendere vraag-antwoord (QA) taken gebaseerd op professionele medische quizzen van het New England Journal of Medicine (NEJM) en The Lancet. Deze datasets bieden een grotere klinische relevantie in vergelijking met standaard medische QA benchmarks zoals MedQA, wat effectiever vertaalt naar klinisch nut in de echte wereld. Onze analyse van o1 suggereert dat de verbeterde redeneervaardigheid van LLM's hun vermogen om verschillende medische instructies te begrijpen en te redeneren door complexe klinische scenario's aanzienlijk kan verbeteren. Opmerkelijk is dat o1 de vorige GPT-4 overtreft in nauwkeurigheid met gemiddeld 6,2% en 6,6% over 19 datasets en twee nieuw gecreëerde complexe QA scenario's. Tegelijkertijd identificeren we verschillende zwaktes in zowel de modelcapaciteit als de bestaande evaluatieprotocollen, waaronder hallucinaties, inconsistente meertalige vaardigheid en afwijkende metrieken voor evaluatie. We publiceren onze ruwe data en modelresultaten op https://ucsc-vlaa.github.io/o1_medicine/ voor toekomstig onderzoek.
Het succes van visuele instructieafstemming heeft de ontwikkeling van grote taal- en visiemodellen (LLVM's) versneld. In navolging van de schalingswetten van instructie-afgestemde grote taalmodellen (LLM's) hebben LLVM's hun omvang verder vergroot, met parameters van 26B, 34B en zelfs 80B. Hoewel deze toename in modelgrootte aanzienlijke prestatieverbeteringen heeft opgeleverd, vereist het aanzienlijk meer hardwarebronnen voor zowel training als inferentie. Bijgevolg bestaat er natuurlijk een sterke behoefte aan efficiënte LLVM's die de prestaties van grotere modellen behalen terwijl ze kleiner van omvang zijn. Om aan deze behoefte te voldoen, presenteren we een nieuwe efficiënte LLVM-familie met modelgroottes van 0,5B, 1,8B, 3,8B en 7B parameters, genaamd Phantom, die aanzienlijk de leermogelijkheden binnen beperkte structuren verbetert. Door tijdelijk de latente verborgen dimensie te vergroten tijdens multi-head zelfaandacht (MHSA), bereiden we LLVM's voor om veel meer visie-taal kennis op de latente manier te bekijken en begrijpen, zonder de fysieke modelgroottes aanzienlijk te vergroten. Om het voordeel te maximaliseren, introduceren we Phantom Optimalisatie (PO) door zowel autoregressieve begeleide fijnafstemming (SFT) als directe voorkeurs optimalisatie (DPO)-achtig concept te gebruiken, wat effectief correcte antwoorden volgt terwijl onjuiste en dubbelzinnige antwoorden worden geëlimineerd. Phantom presteert beter dan talrijke grotere open- en gesloten-bron LLVM's en positioneert zichzelf als een toonaangevende oplossing in het landschap van efficiënte LLVM's.
Dit artikel presenteert een veelzijdige beeld-naar-beeld visuele assistent, PixWizard, ontworpen voor beeldgeneratie, manipulatie en vertaling op basis van vrije taalinstructies. Hiertoe pakken we een verscheidenheid aan visuele taken aan in een verenigd beeld-tekst-naar-beeldgeneratiekader en stellen we een Omni Pixel-naar-Pixel Instructie-Afstemmingsdataset samen. Door gedetailleerde instructiesjablonen in natuurlijke taal te construeren, nemen we uitgebreid een grote verscheidenheid aan visuele taken op, zoals tekst-naar-beeldgeneratie, beeldherstel, beeldverankering, dichte beeldvoorspelling, beeldbewerking, controleerbare generatie, in- en uitvullen, en meer. Bovendien nemen we Diffusion Transformers (DiT) aan als ons basismodel en breiden we de mogelijkheden ervan uit met een flexibel mechanisme voor elke resolutie, waardoor het model beelden dynamisch kan verwerken op basis van de beeldverhouding van de invoer, nauw aansluitend bij menselijke perceptuele processen. Het model omvat ook structuur- en semantisch-bewuste begeleiding om effectieve fusie van informatie van het invoerbeeld te vergemakkelijken. Onze experimenten tonen aan dat PixWizard niet alleen indrukwekkende generatieve en begripsvermogens vertoont voor beelden met diverse resoluties, maar ook veelbelovende generalisatievermogens vertoont met ongeziene taken en menselijke instructies. De code en gerelateerde bronnen zijn beschikbaar op https://github.com/AFeng-x/PixWizard
Grote Taalmodellen (LLM's) hebben aanzienlijk potentieel aangetoond bij het transformeren van klinische toepassingen. In deze studie onderzoeken we de doeltreffendheid van vier technieken bij het aanpassen van LLM's voor klinische gebruiksscenario's: continue pretraining, instructie fijnafstemming, NEFTune en prompt engineering. We passen deze methoden toe op de Mistral 7B en Mixtral 8x7B modellen, gebruikmakend van een grootschalige klinische pretraining dataset van 50 miljard tokens en een instructie fijnafstemming dataset van 500 miljoen tokens. Onze evaluatie over verschillende klinische taken onthult de impact van elke techniek. Hoewel continue pretraining voorbij 250 miljard tokens op zichzelf marginale verbeteringen oplevert, legt het een sterke basis voor instructie fijnafstemming. Opmerkelijk genoeg vertoont NEFTune, primair ontworpen om de generatiekwaliteit te verbeteren, extra winst op onze benchmark. Complex prompt engineering methoden verbeteren de prestaties verder. Deze bevindingen tonen het belang aan van het afstemmen van fijnafstemmingstrategieën en het verkennen van innovatieve technieken om de prestaties van LLM's in het klinische domein te optimaliseren.
We pakken het probleem aan van het genereren van zeer realistische en geloofwaardige spiegelreflecties met behulp van op diffusie gebaseerde generatieve modellen. We formuleren dit probleem als een beeldinpaintingstaak, waardoor er meer gebruikerscontrole is over de plaatsing van spiegels tijdens het generatieproces. Om dit mogelijk te maken, creëren we SynMirror, een grootschalige dataset van diverse synthetische scènes met objecten geplaatst voor spiegels. SynMirror bevat ongeveer 198K voorbeelden gerenderd uit 66K unieke 3D-objecten, samen met hun bijbehorende dieptekaarten, normaal kaarten en instantie-gewijze segmentatiemaskers, om relevante geometrische eigenschappen van de scène vast te leggen. Met behulp van deze dataset stellen we een nieuw diepte-geconditioneerd inpaintingmethode voor genaamd MirrorFusion, die hoogwaardige geometrisch consistente en fotorealistische spiegelreflecties genereert gegeven een invoerbeeld en een masker dat het spiegelgebied afbeeldt. MirrorFusion presteert beter dan state-of-the-art methoden op SynMirror, zoals aangetoond door uitgebreide kwantitatieve en kwalitatieve analyse. Voor zover wij weten, zijn wij de eersten die met succes het uitdagende probleem aanpakken van het genereren van gecontroleerde en trouwe spiegelreflecties van een object in een scène met behulp van op diffusie gebaseerde modellen. SynMirror en MirrorFusion openen nieuwe mogelijkheden voor beeldbewerking en augmented reality-toepassingen voor zowel beoefenaars als onderzoekers.
Recente werken in inverse rendering hebben belofte getoond in het gebruik van multi-view afbeeldingen van een object om vorm, albedo en materialen te herstellen. Echter, de herstelde componenten falen vaak om nauwkeurig te renderen onder nieuwe verlichtingsomstandigheden vanwege de intrinsieke uitdaging van het ontrafelen van albedo en materiaaleigenschappen uit invoerafbeeldingen. Om deze uitdaging aan te pakken, introduceren we MaterialFusion, een verbeterde conventionele 3D inverse rendering pijplijn die een 2D prior hanteert op textuur en materiaaleigenschappen. We presenteren StableMaterial, een 2D diffusie model prior die multi-verlichtingsdata verfijnt om de meest waarschijnlijke albedo en materiaal te schatten op basis van de gegeven invoer verschijningen. Dit model is getraind op albedo, materiaal en opnieuw belichte afbeeldingsdata afgeleid van een samengestelde dataset van ongeveer ~12K door kunstenaars ontworpen synthetische Blender objecten genaamd BlenderVault. We nemen deze diffusie prior op in een inverse rendering kader waar we score distillatie sampling (SDS) gebruiken om de optimalisatie van de albedo en materialen te begeleiden, wat de belichtingsprestaties verbetert in vergelijking met eerdere werken. We valideren de belichtingsprestaties van MaterialFusion op 4 datasets van synthetische en echte objecten onder diverse verlichtingsomstandigheden, waarbij ons diffusie-ondersteunde benadering significant de verschijning van gereconstrueerde objecten onder nieuwe verlichtingsomstandigheden verbetert. We zijn van plan om onze BlenderVault dataset openbaar vrij te geven ter ondersteuning van verder onderzoek op dit gebied.
De lancering van ChatGPT in november 2022 leidde tot een golf van interesse in post-training en een lawine van nieuwe methoden voor voorkeursoptimalisatie (PO). Deze methoden beweren een superieure afstemming te hebben door een betere overeenkomst met menselijke pairwise voorkeuren, vaak gemeten door LLM-beoordelaars. In dit werk proberen we de volgende vraag te beantwoorden - vertalen LLM-beoordelingen zich naar vooruitgang op andere, meer concrete metrieken voor afstemming, en zo niet, waarom niet? We definiëren een concrete metriek voor afstemming en introduceren SOS-Bench, de grootste gestandaardiseerde, reproduceerbare LLM-meta-benchmark tot nu toe. We ontdekken dat (1) LLM-beoordelingen niet correleren met concrete maatregelen van veiligheid, wereldkennis en instructieopvolging; (2) LLM-beoordelaars hebben krachtige impliciete vooroordelen, waarbij stijl boven feitelijkheid en veiligheid wordt geprioriteerd; en (3) het begeleide fine-tuning (SFT) stadium van post-training, en niet het PO stadium, het grootste effect heeft op afstemming, met dataschaalvergroting en promptdiversiteit als drijvende factoren. Onze codebase en volledige resultaten zijn te vinden op https://github.com/penfever/sos-bench.
In dit artikel introduceren we een zero-shot Stemoverdracht (VT) module die naadloos geïntegreerd kan worden in een meertalig Tekst-naar-spraak (TTS) systeem om een individuele stem over te dragen tussen talen. Onze voorgestelde VT module bestaat uit een spreker-encoder die referentiespraak verwerkt, een bottlenecklaag en restadapters, verbonden met bestaande TTS-lagen. We vergelijken de prestaties van verschillende configuraties van deze componenten en rapporteren de Gemiddelde Beoordelingsscore (MOS) en Spreker Gelijkenis tussen talen. Met slechts één Engelse referentiespraak per spreker behalen we een gemiddelde stemoverdrachtgelijkenisscore van 73% over negen doeltalen. Stemkenmerken dragen aanzienlijk bij aan de constructie en perceptie van individuele identiteit. Het verlies van iemands stem, als gevolg van fysieke of neurologische aandoeningen, kan leiden tot een diep gevoel van verlies, wat de kernidentiteit van iemand beïnvloedt. Als casestudie tonen we aan dat onze benadering niet alleen typische spraak kan overdragen, maar ook de stemmen van personen met dysartrie kan herstellen, zelfs wanneer alleen atypische spraakvoorbeelden beschikbaar zijn - een waardevol hulpmiddel voor degenen die nooit typische spraak hebben gehad of hun stem hebben opgeslagen. Cross-linguale typische audiovoorbeelden, plus video's die stemherstel demonstreren voor sprekers met dysartrie, zijn hier beschikbaar (google.github.io/tacotron/publications/zero_shot_voice_transfer).
Het ontwikkelen van een enkele, veelzijdige op natuurkunde gebaseerde controller die interactieve personages tot leven kan brengen in een breed scala van scenario's, vertegenwoordigt een spannende grens in karakteranimatie. Een ideale controller zou diverse besturingsmodaliteiten moeten ondersteunen, zoals spaarzame doelkeyframes, tekstinstructies en scène-informatie. Terwijl eerdere werken fysiek gesimuleerde, scène-bewuste besturingsmodellen hebben voorgesteld, hebben deze systemen zich voornamelijk gericht op het ontwikkelen van controllers die elk gespecialiseerd zijn in een beperkte reeks taken en besturingsmodaliteiten. Dit werk presenteert MaskedMimic, een nieuwe benadering die het besturen van personages op natuurkundige basis formuleert als een algemeen bewegingsinpaintingprobleem. Ons belangrijkste inzicht is om een enkelvoudig verenigd model te trainen om bewegingen te synthetiseren uit gedeeltelijke (gemaskeerde) bewegingsbeschrijvingen, zoals gemaskeerde keyframes, objecten, tekstbeschrijvingen of een combinatie daarvan. Dit wordt bereikt door gebruik te maken van bewegingstraceringgegevens en het ontwerpen van een schaalbare trainingsmethode die effectief diverse bewegingsbeschrijvingen kan gebruiken om coherente animaties te produceren. Via dit proces leert onze benadering een op natuurkunde gebaseerde controller die een intuïtieve besturingsinterface biedt zonder dat er tijdrovende beloningsengineering nodig is voor alle gewenste gedragingen. De resulterende controller ondersteunt een breed scala aan besturingsmodaliteiten en maakt naadloze overgangen tussen uiteenlopende taken mogelijk. Door karakterbesturing te verenigen via bewegingsinpainting, creëert MaskedMimic veelzijdige virtuele personages. Deze personages kunnen dynamisch aanpassen aan complexe scènes en diverse bewegingen op verzoek componeren, waardoor meer interactieve en meeslepende ervaringen mogelijk worden.
Diabetes is een chronische ziekte die een aanzienlijke wereldwijde gezondheidslast met zich meebrengt, en het optimaliseren van diabetesmanagement vereist samenwerking tussen meerdere belanghebbenden. Grote taalmodellen (GTM's) hebben veelbelovende resultaten laten zien in verschillende gezondheidsscenario's, maar hun effectiviteit bij een divers scala aan diabetes taken is nog niet bewezen. In deze studie hebben we een kader geïntroduceerd om diabetes-specifieke GTM's te trainen en valideren. We hebben eerst een uitgebreide gegevensverwerkingspijplijn ontwikkeld die gegevensverzameling, filtering, augmentatie en verfijning omvat. Deze aanpak draagt bij aan het creëren van een hoogwaardige, diabetes-specifiek dataset en diverse evaluatiebenchmarks volledig vanaf nul. Door gebruik te maken van de verzamelde trainingsdataset hebben we een diabetes-specifieke GTM-familie fijnafgestemd die een state-of-the-art bekwaamheid aantoonde in het begrijpen en verwerken van verschillende diabetes taken in vergelijking met andere GTM's. Bovendien toonden klinische studies de potentiële toepassingen van onze modellen in diabeteszorg, waaronder het bieden van gepersonaliseerde gezondheidszorg, het ondersteunen van medisch onderwijs en het stroomlijnen van klinische taken. Ter conclusie heeft onze studie een kader geïntroduceerd om een diabetes-specifieke GTM-familie te ontwikkelen en evalueren, en benadrukte het potentieel om de klinische praktijk te verbeteren en gepersonaliseerde, op data gebaseerde ondersteuning te bieden voor diabeteszorg bij verschillende eindgebruikers. De code is beschikbaar via GitHub op https://github.com/waltonfuture/Diabetica.
Er is een toenemende interesse in het gebruik van generatieve AI om 3D-ruimtes te creëren voor toepassingen in Virtuele Realiteit (VR). Echter, de modellen van vandaag produceren kunstmatige omgevingen die tekortschieten in het ondersteunen van samenwerkende taken die baat hebben bij het opnemen van de fysieke context van de gebruiker. Om omgevingen te genereren die VR-telepresence ondersteunen, introduceren we SpaceBlender, een nieuw proces dat generatieve AI-technieken gebruikt om de fysieke omgevingen van gebruikers te vermengen tot eenduidige virtuele ruimtes. Dit proces transformeert door gebruikers geleverde 2D-afbeeldingen naar contextrijke 3D-omgevingen via een iteratief proces bestaande uit dieptestimatie, mesh-alignering, en op diffusie gebaseerde ruimtevoltooiing geleid door geometrische aannames en adaptieve tekstprompts. In een voorlopige studie binnen proefpersonen, waar 20 deelnemers een samenwerkende VR-affiniteitsdiagramtaak in paren uitvoerden, vergeleken we SpaceBlender met een generieke virtuele omgeving en een state-of-the-art scène-generatiekader, waarbij we de mogelijkheid ervan evalueerden om virtuele ruimtes te creëren die geschikt zijn voor samenwerking. Deelnemers waardeerden de verbeterde vertrouwdheid en context die SpaceBlender bood, maar merkten ook complexiteiten op in de generatieve omgevingen die af konden leiden van de taakfocus. Puttend uit de feedback van deelnemers, stellen we richtingen voor ter verbetering van het proces en bespreken we de waarde en het ontwerp van vermengde ruimtes voor verschillende scenario's.
Dit artikel presenteert een casestudy van programmeertaken door de nieuwste redeneringsmodellen van OpenAI, d.w.z. o1-preview en o1-mini, in vergelijking met andere voorhoedemodellen. De o1-modellen leveren SOTA-resultaten voor WebApp1K, een single-task benchmark. Hiertoe introduceren we WebApp1K-Duo, een moeilijkere benchmark die het aantal taken en testcases verdubbelt. De nieuwe benchmark zorgt ervoor dat de prestaties van de o1-modellen aanzienlijk dalen, waarbij ze achterblijven bij Claude 3.5. Bovendien falen ze consequent wanneer ze geconfronteerd worden met atypische maar correcte testcases, een val waar niet-redenerende modellen af en toe aan ontsnappen. We veronderstellen dat de variabiliteit in prestaties te wijten is aan instructiebegrip. Specifiek verhoogt het redeneermechanisme de prestaties wanneer alle verwachtingen worden vastgelegd, terwijl het fouten verergert wanneer essentiële verwachtingen worden gemist, mogelijk beïnvloed door invoerlengtes. Als zodanig betogen we dat het succes van redenerende modellen bij het programmeren afhangt van het eersteklas basismodel en SFT om zorgvuldige naleving van instructies te waarborgen.
Spraakklanken bevatten veel informatie over scènes, resulterend in verschillende effecten variërend van galm tot extra omgevingsgeluiden. In dit artikel manipuleren we invoerspraak om te klinken alsof het is opgenomen in een andere scène, gegeven een audiovisueel voorbeeld opgenomen vanuit die scène. Ons model leert door zelftoezicht te gebruiken, waarbij wordt geprofiteerd van het feit dat natuurlijke video's terugkerende geluidgebeurtenissen en texturen bevatten. We extraheren een audioclip uit een video en passen spraakverbetering toe. Vervolgens trainen we een latent diffusiemodel om de originele spraak te herstellen, met behulp van een ander audiovisueel fragment uit een andere locatie in de video als conditionele hint. Via dit proces leert het model om de geluidseigenschappen van het conditionele voorbeeld over te brengen naar de invoerspraak. We tonen aan dat ons model succesvol kan worden getraind met ongelabelde, in het wild opgenomen video's, en dat een extra visueel signaal de geluidsvoorspellingsmogelijkheden kan verbeteren. Zie onze projectwebpagina voor videoreacties: https://tinglok.netlify.app/files/avsoundscape/