Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusiemodellen hebben opmerkelijke doeltreffendheid aangetoond bij verschillende beeld-naar-beeld taken. In dit onderzoek introduceren we Imagine yourself, een geavanceerd model ontworpen voor gepersonaliseerde beeldgeneratie. In tegenstelling tot conventionele op afstemming gebaseerde personalisatietechnieken, werkt Imagine yourself als een afstemmingsvrij model, waardoor alle gebruikers kunnen profiteren van een gedeeld kader zonder individuele aanpassingen. Bovendien zijn eerdere werken geconfronteerd met uitdagingen bij het in balans brengen van identiteitsbehoud, het volgen van complexe aanwijzingen en het behouden van goede visuele kwaliteit, resulterend in modellen met een sterk copy-paste effect van de referentiebeelden. Hierdoor kunnen ze nauwelijks afbeeldingen genereren die voldoen aan aanwijzingen die aanzienlijke veranderingen aan het referentiebeeld vereisen, zoals het veranderen van gezichtsuitdrukking, hoofd- en lichaamshoudingen, en de diversiteit van de gegenereerde beelden is laag. Om deze beperkingen aan te pakken, introduceert onze voorgestelde methode 1) een nieuw mechanisme voor het genereren van synthetische gekoppelde gegevens om beelddiversiteit aan te moedigen, 2) een volledig parallelle aandachtsarchitectuur met drie tekstencoders en een volledig trainbare visie-encoder om de tekstgetrouwheid te verbeteren, en 3) een nieuw grof-naar-fijn meertraps verfijningsmethodologie die geleidelijk de grens van visuele kwaliteit verlegt. Onze studie toont aan dat Imagine yourself de geavanceerde personalisatiemodel overtreft, met superieure mogelijkheden op het gebied van identiteitsbehoud, visuele kwaliteit en tekstuitlijning. Dit model legt een solide basis voor verschillende personalisatietoepassingen. Resultaten van menselijke evaluatie bevestigen de SOTA-superioriteit van het model op alle aspecten (identiteitsbehoud, tekstgetrouwheid en visuele aantrekkingskracht) in vergelijking met de eerdere personalisatiemodellen.
Het begrijpen van satire en humor is zelfs voor huidige Vision-Language modellen een uitdagende taak. In dit artikel stellen we de uitdagende taken voor van Satirische Afbeeldingdetectie (het detecteren of een afbeelding satirisch is), Begrip (het genereren van de reden waarom de afbeelding satirisch is) en Aanvulling (gegeven de ene helft van de afbeelding, het selecteren van de andere helft uit 2 gegeven opties, zodat de complete afbeelding satirisch is) en publiceren een dataset van hoge kwaliteit, YesBut, bestaande uit 2547 afbeeldingen, 1084 satirische en 1463 niet-satirische, met verschillende artistieke stijlen, om die taken te evalueren. Elke satirische afbeelding in de dataset toont een normale situatie, samen met een tegenstrijdige situatie die grappig of ironisch is. Ondanks het succes van huidige Vision-Language modellen op multimodale taken zoals Visuele V&A en Afbeeldingsbijschriften, tonen onze benchmarkexperimenten aan dat dergelijke modellen slecht presteren op de voorgestelde taken op de YesBut Dataset in Zero-Shot Instellingen wat betreft zowel geautomatiseerde als menselijke evaluatie. Daarnaast publiceren we een dataset van 119 echte, satirische foto's voor verder onderzoek. De dataset en code zijn beschikbaar op https://github.com/abhi1nandy2/yesbut_dataset.
Opgewekt door het besef dat AI-emulatoren de prestaties van traditionele numerieke weersvoorspellingsmodellen op HPC-systemen kunnen evenaren, is er nu een toenemend aantal grote AI-modellen die gebruiksscenario's zoals voorspellingen, downsizing of nuvoorspellingen aanpakken. Terwijl de parallelle ontwikkelingen in de AI-literatuur zich richten op basismodellen - modellen die effectief kunnen worden afgestemd om meerdere, verschillende gebruiksscenario's aan te pakken - richten de ontwikkelingen aan de weer- en klimaatkant zich grotendeels op enkelvoudige gebruiksscenario's met bijzondere nadruk op middellange termijn voorspellingen. We dichten deze kloof door Prithvi WxC te introduceren, een 2,3 miljard parameters tellend basismodel ontwikkeld met behulp van 160 variabelen uit de Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2). Prithvi WxC maakt gebruik van een encoder-decoder-gebaseerde architectuur, waarbij concepten uit verschillende recente transformermodellen effectief worden toegepast om zowel regionale als mondiale afhankelijkheden in de invoergegevens vast te leggen. Het model is ontworpen om grote tokenaantallen te kunnen verwerken om weersverschijnselen in verschillende topologieën op fijne resoluties te modelleren. Bovendien wordt het getraind met een gemengd doel dat de paradigma's van gemaskeerde reconstructie combineert met voorspellingen. We testen het model op een reeks uitdagende downstreamtaken, namelijk: Autoregressieve uitrolvoorspelling, Downsizing, Parameterisatie van zwaartekrachtgolfflux en Schatting van extreme gebeurtenissen. Het voorgeleerde model met 2,3 miljard parameters, samen met de bijbehorende fijnafstemmingsworkflows, is openbaar vrijgegeven als een open-source bijdrage via Hugging Face.
Grote Taalmodellen (LLMs) hebben aanzienlijke prestatieverbeteringen aangetoond bij verschillende cognitieve taken. Een opkomende toepassing is het gebruik van LLMs om de mogelijkheden voor ophalingsversterkte generatie (RAG) te verbeteren. Deze systemen vereisen dat LLMs gebruikersquery's begrijpen, relevante informatie ophalen en coherente en nauwkeurige antwoorden synthetiseren. Gezien de toenemende implementatie van dergelijke systemen in de echte wereld, wordt uitgebreide evaluatie cruciaal. Daartoe stellen wij FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) voor, een hoogwaardige evaluatiedataset ontworpen om de mogelijkheid van LLMs om feitelijke antwoorden te geven te testen, ophaalmogelijkheden te beoordelen en de redenering te evalueren die nodig is om uiteindelijke antwoorden te genereren. Hoewel eerdere werken datasets en benchmarks hebben geleverd om deze vaardigheden afzonderlijk te evalueren, biedt FRAMES een verenigd kader dat een duidelijker beeld geeft van de prestaties van LLMs in end-to-end RAG-scenario's. Onze dataset bestaat uit uitdagende meerstapsvragen die de integratie van informatie uit meerdere bronnen vereisen. We presenteren baselineresultaten die aantonen dat zelfs state-of-the-art LLMs moeite hebben met deze taak, met een nauwkeurigheid van 0.40 zonder ophaling. De nauwkeurigheid wordt aanzienlijk verbeterd met ons voorgestelde meerstaps ophaalproces, met een nauwkeurigheid van 0.66 (>50% verbetering). We hopen dat ons werk zal helpen bij het overbruggen van evaluatiekloven en zal bijdragen aan de ontwikkeling van robuustere en capabelere RAG-systemen.
Muziekcodecs zijn een essentieel aspect van audiocodeconderzoek, en compressie met ultralage bitsnelheid is van groot belang voor muziektransmissie en -generatie. Vanwege de complexiteit van muziekachtergronden en de rijkdom aan vocalen is het niet voldoende om alleen te vertrouwen op het modelleren van semantische of akoestische informatie om muziek effectief te reconstrueren met zowel vocalen als achtergronden. Om dit probleem aan te pakken, stellen we MuCodec voor, dat zich specifiek richt op muziekcompressie en reconstructietaken bij ultralage bitsnelheden. MuCodec maakt gebruik van MuEncoder om zowel akoestische als semantische kenmerken te extraheren, deze te discretiseren met RVQ, en Mel-VAE-kenmerken te verkrijgen via flow-matching. De muziek wordt vervolgens gereconstrueerd met behulp van een vooraf getrainde MEL-VAE-decoder en HiFi-GAN. MuCodec kan muziek met hoge kwaliteit reconstrueren bij ultralage (0.35 kbps) of hoge bitsnelheden (1.35 kbps), en behaalt tot nu toe de beste resultaten in zowel subjectieve als objectieve metingen. Code en Demo: https://xuyaoxun.github.io/MuCodec_demo/.
We introduceren PortraitGen, een krachtige methode voor het bewerken van portretvideo's die consistente en expressieve stijlvolle vormgeving bereikt met multimodale aanwijzingen. Traditionele methoden voor het bewerken van portretvideo's hebben vaak moeite met 3D- en temporele consistentie, en missen doorgaans in renderkwaliteit en efficiëntie. Om deze problemen aan te pakken, tillen we de frames van de portretvideo op naar een verenigd dynamisch 3D-Gaussisch veld, wat structurele en temporele coherentie over frames garandeert. Bovendien ontwerpen we een nieuw mechanisme genaamd Neurale Gaussische Textuur dat niet alleen geavanceerde stijlbewerking mogelijk maakt, maar ook een renderingsnelheid van meer dan 100FPS behaalt. Onze aanpak integreert multimodale invoer door kennis gedistilleerd uit grootschalige 2D-generatieve modellen. Ons systeem omvat ook begeleiding voor expressiesimilariteit en een module voor het bewerken van portretten die rekening houdt met gezichtsuitdrukkingen, waardoor de degradatieproblemen geassocieerd met iteratieve datasetupdates effectief worden verminderd. Uitgebreide experimenten tonen de temporele consistentie, bewerkings-efficiëntie en superieure renderkwaliteit van onze methode aan. De brede toepasbaarheid van de voorgestelde aanpak wordt gedemonstreerd door verschillende toepassingen, waaronder tekstgestuurde bewerking, beeldgestuurde bewerking en herbelichting, waarbij het grote potentieel wordt benadrukt om het vakgebied van videobewerking vooruit te helpen. Demonstratievideo's en vrijgegeven code zijn beschikbaar op onze projectpagina: https://ustc3dv.github.io/PortraitGen/
Intrinsieke beelddecompositie heeft als doel het oppervlaktereflectie en de effecten van de belichting te scheiden op basis van een enkele foto. Vanwege de complexiteit van het probleem gaan de meeste eerdere werken uit van een enkelkleurige verlichting en een Lambertiaanse wereld, wat hun toepassing beperkt in belichtingsbewuste beeldbewerkingsapplicaties. In dit onderzoek splitsen we een invoerbeeld op in zijn diffuse albedo, kleurrijke diffuse schaduw en speculaire restcomponenten. We komen tot ons resultaat door eerst de enkelkleurige belichting en vervolgens de Lambertiaanse wereld aannames geleidelijk te verwijderen. We tonen aan dat door het probleem op te delen in eenvoudigere subproblemen, schattingen van kleurrijke diffuse schaduwen in natuurlijke omgevingen kunnen worden bereikt ondanks de beperkte datasets met ware gegevens. Ons uitgebreide intrinsieke model maakt belichtingsbewuste analyse van foto's mogelijk en kan worden gebruikt voor beeldbewerkingsapplicaties zoals het verwijderen van spiegelende effecten en per-pixel witbalans.
Het naadloos ervaren van volumetrische video's met een hoge nauwkeurigheid zoals 2D-video's is een langgekoesterde droom. Echter, huidige dynamische 3DGS-methoden, ondanks hun hoge renderkwaliteit, worden geconfronteerd met uitdagingen bij het streamen op mobiele apparaten vanwege computationele en bandbreedtebeperkingen. In dit artikel introduceren we V3 (Viewing Volumetric Videos), een innovatieve benadering die hoogwaardige mobiele rendering mogelijk maakt door het streamen van dynamische Gaussians. Onze belangrijkste innovatie is om dynamische 3DGS te bekijken als 2D-video's, waardoor het gebruik van hardware video codecs wordt vergemakkelijkt. Daarnaast stellen we een tweefasige trainingsstrategie voor om opslagvereisten te verminderen met een snelle trainingsnelheid. De eerste fase maakt gebruik van hash-codering en ondiepe MLP om beweging te leren, vermindert vervolgens het aantal Gaussians door snoeien om te voldoen aan de streamingvereisten, terwijl de tweede fase andere Gaussiaanse attributen fijnafstemt met behulp van restentie-entropieverlies en temporeel verlies om temporele continuïteit te verbeteren. Deze strategie, die beweging en verschijning ontkoppelt, behoudt een hoge renderkwaliteit met compacte opslagvereisten. Ondertussen hebben we een multi-platform speler ontworpen om 2D Gaussische video's te decoderen en weer te geven. Uitgebreide experimenten tonen de effectiviteit van V3 aan, waarbij het andere methoden overtreft door hoogwaardige rendering en streaming op gangbare apparaten mogelijk te maken, wat eerder niet gezien is. Als de eerste om dynamische Gaussians te streamen op mobiele apparaten, biedt onze bijbehorende speler gebruikers een ongekende volumetrische video-ervaring, inclusief soepel scrollen en direct delen. Onze projectpagina met broncode is beschikbaar op https://authoritywang.github.io/v3/.
LLM's hebben een bewonderenswaardige prestatie laten zien over diverse domeinen. Desalniettemin vormt het opstellen van hoogwaardige prompts om hen te helpen in hun werk een uitdaging voor niet-AI-experts. Bestaand onderzoek in prompt-engineering suggereert enigszins verspreide optimalisatieprincipes en ontwerpen die empirisch afhankelijk zijn van prompt-optimalisatoren. Helaas ontbreekt het bij deze inspanningen aan een structureel ontwerp, wat resulteert in hoge leerlasten en niet bevorderlijk is voor het iteratief bijwerken van prompts, vooral voor niet-AI-experts. Geïnspireerd door gestructureerde herbruikbare programmeertalen, stellen we LangGPT voor, een structureel promptontwerpframework. Bovendien introduceren we Minstrel, een multi-generatief agentsysteem met reflectie om de generatie van structurele prompts te automatiseren. Experimenten en de casestudy illustreren dat structurele prompts gegenereerd door Minstrel of handmatig geschreven aanzienlijk de prestaties van LLM's verbeteren. Verder analyseren we de gebruiksvriendelijkheid van structurele prompts via een gebruikersenquête in onze online gemeenschap.
We introduceren V-AURA, het eerste autoregressieve model dat hoge temporele uitlijning en relevantie bereikt in video-naar-audio generatie. V-AURA maakt gebruik van een visual feature extractor met een hoge framerate en een cross-modale audio-visuele feature fusie strategie om fijnkorrelige visuele bewegingsevenementen vast te leggen en nauwkeurige temporele uitlijning te garanderen. Daarnaast stellen we VisualSound voor, een benchmark dataset met hoge audio-visuele relevantie. VisualSound is gebaseerd op VGGSound, een videodataset bestaande uit in-the-wild samples geëxtraheerd van YouTube. Tijdens de samenstelling verwijderen we samples waar auditieve gebeurtenissen niet uitgelijnd zijn met de visuele. V-AURA presteert beter dan de huidige state-of-the-art modellen op het gebied van temporele uitlijning en semantische relevantie, terwijl het een vergelijkbare audiokwaliteit behoudt. Code, samples, VisualSound en modellen zijn beschikbaar op https://v-aura.notion.site
Grote Taalmodellen (LLM's) hebben opmerkelijk potentieel laten zien in verschillende domeinen, waaronder cybersecurity. Het gebruik van commerciële cloudgebaseerde LLM's kan ongewenst zijn vanwege privacyzorgen, kosten en netwerkconnectiviteitsbeperkingen. In dit artikel presenteren we Hackphyr, een lokaal fijnafgestemd LLM dat gebruikt kan worden als een red-team agent binnen netwerkbeveiligingsomgevingen. Ons fijnafgestemde model met 7 miljard parameters kan draaien op een enkele GPU-kaart en behaalt prestaties die vergelijkbaar zijn met veel grotere en krachtigere commerciële modellen zoals GPT-4. Hackphyr presteert duidelijk beter dan andere modellen, waaronder GPT-3.5-turbo, en baselines zoals Q-learning agents in complexe, eerder ongeziene scenario's. Om deze prestaties te behalen, hebben we een nieuw taakspecifiek cybersecurity dataset gegenereerd om de mogelijkheden van het basismodel te verbeteren. Tot slot hebben we een uitgebreide analyse uitgevoerd van het gedrag van de agents die inzichten biedt in de planningsmogelijkheden en potentiële tekortkomingen van dergelijke agents, wat bijdraagt aan een breder begrip van op LLM's gebaseerde agents in cybersecurity-contexten.
De integratie van tools in op LLM gebaseerde agenten heeft de moeilijkheden van op zichzelf staande LLM's en de beperkte mogelijkheden van traditionele agenten overwonnen. Echter, de combinatie van deze technologieën en de voorgestelde verbeteringen in verschillende state-of-the-art werken volgde een niet-geünificeerde softwarearchitectuur, resulterend in een gebrek aan modulariteit. Ze richtten zich voornamelijk op functionaliteiten en negeerden de definitie van de componentgrenzen binnen de agent. Dit veroorzaakte terminologische en architecturale ambiguïteiten tussen onderzoekers die we in dit artikel hebben aangepakt door een verenigd kader voor te stellen dat een duidelijke basis legt voor de ontwikkeling van op LLM gebaseerde agenten vanuit zowel functioneel als software-architecturaal perspectief. Ons kader, LLM-Agent-UMF (LLM-gebaseerd Agent Unified Modeling Framework), maakt een duidelijk onderscheid tussen de verschillende componenten van een agent, waarbij LLM's en tools worden gescheiden van een nieuw geïntroduceerd element: de kernagent, die de rol van de centrale coördinator van de agent speelt en bestaat uit vijf modules: planning, geheugen, profiel, actie en beveiliging, waarbij de laatste vaak verwaarloosd werd in eerdere werken. Verschillen in de interne structuur van kernagenten leidden ertoe dat we ze classificeerden in een taxonomie van passieve en actieve types. Op basis hiervan hebben we verschillende multi-core agent-architecturen voorgesteld die unieke kenmerken van verschillende individuele agenten combineren. Voor evaluatiedoeleinden hebben we dit kader toegepast op een selectie van state-of-the-art agenten, waarbij we de afstemming met hun functionaliteiten hebben aangetoond en de over het hoofd geziene architecturale aspecten hebben verduidelijkt. Bovendien hebben we vier van onze voorgestelde architecturen grondig beoordeeld door onderscheidende agenten te integreren in hybride actieve/passieve kernagentsystemen. Deze analyse heeft duidelijke inzichten gegeven in mogelijke verbeteringen en benadrukte de uitdagingen die gepaard gaan met de combinatie van specifieke agenten.