Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel introduceren we SaulLM-54B en SaulLM-141B, twee grote taalmmodellen (LLMs) die specifiek zijn ontwikkeld voor de juridische sector. Deze modellen, met respectievelijk 54 miljard en 141 miljard parameters, zijn gebaseerd op de Mixtral-architectuur. De ontwikkeling van SaulLM-54B en SaulLM-141B wordt geleid door grootschalige domeinaanpassing, onderverdeeld in drie strategieën: (1) het benutten van voortgezette voorafgaande training met een basiscorpus dat meer dan 540 miljard juridische tokens omvat, (2) de implementatie van een gespecialiseerd juridisch instructievolgprotocol, en (3) de afstemming van modeluitvoer op menselijke voorkeuren in juridische interpretaties. De integratie van synthetisch gegenereerde gegevens in de tweede en derde stap verbetert de capaciteiten van de modellen bij het interpreteren en verwerken van juridische teksten, waardoor ze state-of-the-art prestaties bereiken en eerdere open-source modellen op LegalBench-Instruct overtreffen. Dit werk onderzoekt de afwegingen die betrokken zijn bij domeinspecifieke aanpassing op deze schaal en biedt inzichten die toekomstige studies over domeinaanpassing met sterke decodermodellen kunnen informeren. Voortbouwend op SaulLM-7B verfijnt deze studie de aanpak om een LLM te produceren die beter is uitgerust voor juridische taken. We maken basis-, instructie- en afgestemde versies van SaulLM-54B en SaulLM-141B beschikbaar onder de MIT-licentie om hergebruik en collaboratief onderzoek te faciliteren.
Major Depressive Disorder (MDD) is een wijdverspreide psychische aandoening die wereldwijd 300 miljoen mensen treft. Dit werk presenteert een nieuwe, op BiLSTM gebaseerde tri-modale model-level fusie-architectuur voor de binaire classificatie van depressie op basis van opnames van klinische interviews. De voorgestelde architectuur integreert Mel Frequency Cepstral Coefficients, Facial Action Units, en maakt gebruik van een GPT-4 model gebaseerd op two-shot learning om tekstdata te verwerken. Dit is het eerste werk dat grote taalmodellen integreert in een multi-modale architectuur voor deze taak. Het behaalt indrukwekkende resultaten op de DAIC-WOZ AVEC 2016 Challenge cross-validatie split en de Leave-One-Subject-Out cross-validatie split, waarbij het alle baseline modellen en meerdere state-of-the-art modellen overtreft. In Leave-One-Subject-Out testen behaalt het een nauwkeurigheid van 91,01%, een F1-Score van 85,95%, een precisie van 80%, en een recall van 92,86%.
Grote Taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in diverse taken, maar hun ontwikkeling heeft zich voornamelijk gericht op talen met veel bronnen, zoals Engels en Chinees, waardoor talen met weinig bronnen ondervertegenwoordigd zijn. Om deze ongelijkheid aan te pakken, presenteren we SeaLLMs 3, de nieuwste iteratie van de SeaLLMs-modelreeks, speciaal ontworpen voor Zuidoost-Aziatische talen. Deze regio, gekenmerkt door zijn rijke taalkundige diversiteit, heeft onvoldoende ondersteuning op het gebied van taaltechnologie gehad. SeaLLMs 3 wil deze kloof overbruggen door een breed scala aan talen die in deze regio worden gesproken te omvatten, waaronder Engels, Chinees, Indonesisch, Vietnamees, Thai, Tagalog, Maleis, Birmees, Khmer, Laotiaans, Tamil en Javaans. Door gebruik te maken van efficiënte taalverbeteringstechnieken en een speciaal samengestelde instructieafstemmingsdataset, verlaagt SeaLLMs 3 de trainingskosten aanzienlijk terwijl het hoge prestaties en veelzijdigheid behoudt. Ons model blinkt uit in taken zoals wereldkennis, wiskundig redeneren, vertaling en het volgen van instructies, en behaalt state-of-the-art prestaties onder vergelijkbaar grote modellen. Daarnaast hebben we prioriteit gegeven aan veiligheid en betrouwbaarheid door zowel algemene als cultuurspecifieke overwegingen aan te pakken en mechanismen te integreren om hallucinaties te verminderen. Dit werk benadrukt het belang van inclusieve AI, door te laten zien dat geavanceerde LLM-capaciteiten ten goede kunnen komen aan ondervertegenwoordigde taalkundige en culturele gemeenschappen.
Videodiffusiemodellen hebben aanzienlijke vooruitgang geboekt in diverse videogeneratietoepassingen. Het trainen van modellen voor taken waarbij lange video's gegenereerd moeten worden, vereist echter aanzienlijke rekenkundige en dataresources, wat een uitdaging vormt voor de ontwikkeling van lange videodiffusiemodellen. Dit artikel onderzoekt een eenvoudige en trainingsvrije aanpak om een bestaand kort videodiffusiemodel (bijvoorbeeld vooraf getraind op 16-frame video's) uit te breiden voor consistente lange videogeneratie (bijvoorbeeld 128 frames). Onze eerste observatie heeft aangetoond dat het direct toepassen van het korte videodiffusiemodel voor het genereren van lange video's kan leiden tot een ernstige verslechtering van de videokwaliteit. Verder onderzoek onthult dat deze verslechtering voornamelijk wordt veroorzaakt door de vervorming van hoogfrequente componenten in lange video's, gekenmerkt door een afname van ruimtelijke hoogfrequente componenten en een toename van temporele hoogfrequente componenten. Gemotiveerd door dit inzicht, stellen we een nieuwe oplossing voor genaamd FreeLong om de frequentieverdeling van lange videokenmerken tijdens het denoisingsproces in balans te brengen. FreeLong combineert de laagfrequente componenten van globale videokenmerken, die de gehele videosequentie omvatten, met de hoogfrequente componenten van lokale videokenmerken die zich richten op kortere subreeksen van frames. Deze aanpak behoudt globale consistentie terwijl diverse en hoogwaardige ruimtelijk-temporele details van lokale video's worden geïntegreerd, wat zowel de consistentie als de getrouwheid van lange videogeneratie verbetert. We hebben FreeLong geëvalueerd op meerdere basisvideodiffusiemodellen en significante verbeteringen waargenomen. Bovendien ondersteunt onze methode coherente multi-promptgeneratie, waardoor zowel visuele samenhang als naadloze overgangen tussen scènes worden gewaarborgd.
Visie-gebaseerd robotbeleid leren, dat visuele invoer vertaalt naar acties, vereist een holistisch begrip van diverse visuele taken die verder gaan dan enkelvoudige taakbehoeften zoals classificatie of segmentatie. Geïnspireerd door dit idee introduceren we Theia, een visueel basis model voor robotleren dat meerdere kant-en-klare visuele basis modellen destilleert die zijn getraind op uiteenlopende visuele taken. De rijke visuele representaties van Theia coderen diverse visuele kennis, wat het downstream robotleren verbetert. Uitgebreide experimenten tonen aan dat Theia zijn lerarenmodellen en eerdere robotleermodellen overtreft met minder trainingsdata en kleinere modelgroottes. Daarnaast kwantificeren we de kwaliteit van vooraf getrainde visuele representaties en stellen we de hypothese op dat een hogere entropie in de verdelingen van feature-normen leidt tot verbeterde robotleerprestaties. Code en modellen zijn beschikbaar op https://github.com/bdaiinstitute/theia.
Informatie zoeken en integreren is een complexe cognitieve taak die enorm veel tijd en moeite kost. Geïnspireerd door de opmerkelijke vooruitgang van Large Language Models (LLM's), proberen recente werken deze taak op te lossen door LLM's en zoekmachines te combineren. Deze methoden leveren echter nog steeds onbevredigende prestaties op vanwege drie uitdagingen: (1) complexe verzoeken kunnen vaak niet nauwkeurig en volledig in één keer worden opgehaald door de zoekmachine, (2) de corresponderende informatie die geïntegreerd moet worden, is verspreid over meerdere webpagina's en bevat veel ruis, en (3) een groot aantal webpagina's met lange inhoud kan snel de maximale contextlengte van LLM's overschrijden. Geïnspireerd door het cognitieve proces dat mensen gebruiken om deze problemen op te lossen, introduceren we MindSearch om het menselijk denken na te bootsen bij het zoeken en integreren van webinformatie, wat kan worden geïnstantieerd door een eenvoudig maar effectief LLM-gebaseerd multi-agent framework. De WebPlanner modelleert het menselijk denken van meerstaps informatie zoeken als een dynamisch grafconstructieproces: het deelt de gebruikersvraag op in atomische subvragen als knooppunten in de grafiek en breidt de grafiek geleidelijk uit op basis van het zoekresultaat van de WebSearcher. Met elke subvraag belast, voert de WebSearcher hiërarchische informatie retrieval uit met zoekmachines en verzamelt waardevolle informatie voor de WebPlanner. Het multi-agent ontwerp van MindSearch maakt het mogelijk dat het hele framework parallel informatie zoekt en integreert uit grootschalige (bijvoorbeeld meer dan 300) webpagina's in 3 minuten, wat gelijkstaat aan 3 uur menselijke inspanning. MindSearch toont een significante verbetering in de kwaliteit van de reacties wat betreft diepte en breedte, zowel bij close-set als open-set QA-problemen. Daarnaast worden reacties van MindSearch, gebaseerd op InternLM2.5-7B, door mensen verkozen boven die van ChatGPT-Web en Perplexity.ai applicaties, wat impliceert dat MindSearch al een competitieve oplossing kan bieden voor de propriëtaire AI-zoekmachine.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de vraag naar uitgebreide benchmarks vergroot om hun capaciteiten als mensachtige agents te evalueren. Bestaande benchmarks, hoewel nuttig, richten zich vaak op specifieke toepassingsscenario's, waarbij de nadruk ligt op taakvoltooiing maar de onderliggende vaardigheden die deze resultaten sturen niet worden ontleed. Dit gebrek aan granulariteit maakt het moeilijk om diepgaand te begrijpen waar fouten vandaan komen. Bovendien vereist het opzetten van deze omgevingen aanzienlijke inspanning, en soms doen zich problemen voor met betrekking tot onbetrouwbaarheid en reproduceerbaarheid, vooral bij interactieve taken. Om deze beperkingen aan te pakken, introduceren we de Massive Multitask Agent Understanding (MMAU) benchmark, die uitgebreide offline taken omvat die de noodzaak voor complexe omgevingsopstellingen elimineren. Het evalueert modellen over vijf domeinen, waaronder teal{Gebruik van gereedschappen}, teal{Gerichte Acyclische Grafiek (DAG) QA}, teal{Data Science en Machine Learning codering}, teal{Wedstrijdniveau programmeren} en teal{Wiskunde}, en bestrijkt vijf essentiële vaardigheden: orange{Begrip}, orange{Redeneren}, orange{Plannen}, orange{Probleemoplossen} en orange{Zelfcorrectie}. Met in totaal 20 zorgvuldig ontworpen taken die meer dan 3K verschillende prompts omvatten, biedt MMAU een uitgebreid kader voor het evalueren van de sterke en zwakke punten van LLM-agents. Door 18 representatieve modellen op MMAU te testen, bieden we diepgaande en inzichtelijke analyses. Uiteindelijk werpt MMAU niet alleen licht op de capaciteiten en beperkingen van LLM-agents, maar verbetert het ook de interpreteerbaarheid van hun prestaties. De datasets en evaluatiescripts van MMAU zijn vrijgegeven op https://github.com/apple/axlearn/docs/research/mmau.
Het visuele medium (afbeeldingen en video's) bevat van nature een grote hoeveelheid informatie-redundantie, wat een uitstekende mogelijkheid biedt om efficiëntie in de verwerking te benutten. Hoewel Vision Transformer (ViT)-modellen effectief schalen naar grote datasets, maken ze geen gebruik van deze inherente redundantie, wat leidt tot hogere rekenkosten. Mixture of Experts (MoE)-netwerken tonen schaalbaarheid terwijl ze dezelfde inferentiekosten behouden, maar ze hebben een groter parameterbestand. Wij presenteren Mixture of Nested Experts (MoNE), dat een geneste structuur voor experts gebruikt, waarbij individuele experts op een toenemende rekenkosten-nauwkeurigheidscurve vallen. Gegeven een rekenbudget, leert MoNE dynamisch tokens in een prioriteitsvolgorde te kiezen, waardoor redundante tokens worden verwerkt door goedkopere geneste experts. Met dit framework bereiken we een vergelijkbare prestaties als de baseline-modellen, terwijl we de inferentietijd-rekenkosten met meer dan tweevoudig verminderen. We valideren onze aanpak op standaard afbeeldingen- en video-datasets - ImageNet-21K, Kinetics400 en Something-Something-v2. We benadrukken verder de aanpasbaarheid van MoNE door aan te tonen dat het sterke prestaties kan behouden over verschillende inferentietijd-rekenbudgetten voor video's, met slechts één getraind model.
Contrastive Language-Image Pre-training (CLIP), dat uitblinkt in het abstraheren van open-wereldrepresentaties over domeinen en modaliteiten heen, is een fundament geworden voor een verscheidenheid aan visuele en multimodale taken. Recente studies tonen echter aan dat CLIP ernstige visuele tekortkomingen heeft, zoals moeite met het onderscheiden van oriëntatie, hoeveelheid, kleur, structuur, enz. Deze visuele tekortkomingen beperken ook de perceptiecapaciteiten van multimodale grote taalmodellen (MLLMs) die op CLIP zijn gebouwd. De belangrijkste reden hiervoor zou kunnen zijn dat de beeld-tekstparen die gebruikt worden om CLIP te trainen inherent bevooroordeeld zijn, vanwege het gebrek aan onderscheidend vermogen van de tekst en de diversiteit van de beelden. In dit werk presenteren we een eenvoudige post-trainingsaanpak voor CLIP-modellen, die de visuele tekortkomingen grotendeels overwint via een zelfsupervised diffusieproces. We introduceren DIVA, dat het DIffusiemodel gebruikt als een Visuele Assistent voor CLIP. Specifiek maakt DIVA gebruik van generatieve feedback van tekst-naar-beeld diffusiemodellen om CLIP-representaties te optimaliseren, met alleen beelden (zonder bijbehorende tekst). We tonen aan dat DIVA de prestaties van CLIP op de uitdagende MMVP-VLM-benchmark, die fijnmazige visuele vaardigheden in grote mate beoordeelt, aanzienlijk verbetert (bijv. 3-7%), en de prestaties van MLLMs en visuele modellen op multimodale begrips- en segmentatietaken versterkt. Uitgebreide evaluatie op 29 beeldclassificatie- en retrievalsbenchmarks bevestigt dat ons framework de sterke zero-shot-capaciteiten van CLIP behoudt. De code zal beschikbaar zijn op https://github.com/baaivision/DIVA.
Effectieve training van taalmodel(len) (LMs) voor wiskundige redeneertaken vereist hoogwaardige gegevens voor supervised fine-tuning. Naast het verkrijgen van annotaties van menselijke experts, is een veelgebruikt alternatief het bemonsteren van grotere en krachtigere LMs. Deze kennisdistillatiebenadering kan echter kostbaar en instabiel zijn, vooral wanneer wordt vertrouwd op closed-source, propriëtaire LMs zoals GPT-4, waarvan het gedrag vaak onvoorspelbaar is. In dit werk tonen we aan dat de redeneervaardigheden van kleinschalige LMs kunnen worden verbeterd door middel van zelf-training, een proces waarbij modellen leren van hun eigen uitvoer. We laten ook zien dat de conventionele zelftraining verder kan worden versterkt door een voorkeursleeralgoritme genaamd Direct Preference Optimization (DPO). Door DPO te integreren in zelftraining, benutten we voorkeursgegevens om LMs te begeleiden naar nauwkeurigere en diversere keten-van-gedachtenredeneringen. We evalueren onze methode voor verschillende wiskundige redeneertaken met behulp van verschillende basismodellen. Onze experimenten tonen aan dat deze aanpak niet alleen de redeneerprestaties van LMs verbetert, maar ook een kosteneffectievere en schaalbare oplossing biedt in vergelijking met het vertrouwen op grote propriëtaire LMs.
Recente 3D-reconstructiemodellen gebruiken doorgaans een proces in twee fasen, waarbij eerst multi-view afbeeldingen worden gegenereerd door een multi-view diffusiemodel, en vervolgens een feed-forward model wordt gebruikt om de afbeeldingen om te zetten naar 3D-inhoud. Echter, multi-view diffusiemodellen produceren vaak afbeeldingen van lage kwaliteit en inconsistenties, wat een negatieve invloed heeft op de kwaliteit van de uiteindelijke 3D-reconstructie. Om dit probleem aan te pakken, stellen we een geïntegreerd 3D-generatieframework voor genaamd Cycle3D, dat cyclisch gebruikmaakt van een 2D diffusiegebaseerd generatiemodule en een feed-forward 3D-reconstructiemodule tijdens het multi-step diffusieproces. Concreet wordt het 2D diffusiemodel toegepast voor het genereren van hoogwaardige texturen, en het reconstructiemodel zorgt voor multi-view consistentie. Bovendien kan het 2D diffusiemodel de gegenereerde inhoud verder controleren en referentie-view informatie injecteren voor niet-geziene views, waardoor de diversiteit en textuurconsistentie van de 3D-generatie tijdens het denoisingsproces wordt verbeterd. Uitgebreide experimenten tonen de superieure mogelijkheden van onze methode aan om 3D-inhoud te creëren met hoge kwaliteit en consistentie in vergelijking met state-of-the-art baselines.
Stel je voor dat je iemand ziet die aan zijn arm krabt; om te begrijpen waarom, zou extra context nodig zijn. Als je echter een mug in de buurt ziet, biedt dat meteen een waarschijnlijke verklaring voor het ongemak van die persoon, waardoor verdere informatie overbodig wordt. Dit voorbeeld illustreert hoe subtiele visuele aanwijzingen onze cognitieve vaardigheden kunnen uitdagen en toont de complexiteit van het interpreteren van visuele scenario's. Om deze vaardigheden te bestuderen, presenteren we Visual Riddles, een benchmark die bedoeld is om visie- en taalmodelen te testen op visuele raadsels die gezond verstand en wereldkennis vereisen. De benchmark bestaat uit 400 visuele raadsels, elk met een unieke afbeelding die is gemaakt door verschillende tekst-naar-beeldmodellen, een vraag, een juist antwoord, een tekstuele hint en een bronvermelding. Menselijke evaluatie laat zien dat bestaande modellen aanzienlijk achterblijven bij menselijke prestaties, die een nauwkeurigheid van 82% hebben, waarbij Gemini-Pro-1.5 met 40% nauwkeurigheid de leiding heeft. Onze benchmark wordt geleverd met automatische evaluatietaken om de beoordeling schaalbaar te maken. Deze bevindingen onderstrepen het potentieel van Visual Riddles als een waardevolle bron voor het verbeteren van de mogelijkheden van visie- en taalmodelen bij het interpreteren van complexe visuele scenario's.
3D multimodaal vraag-antwoord (MQA) speelt een cruciale rol in het begrijpen van scènes door intelligente agents in staat te stellen hun omgeving in 3D-omgevingen te begrijpen. Hoewel bestaand onderzoek zich voornamelijk heeft gericht op huishoudelijke taken binnenshuis en autonome rijtaakstellingen buitenshuis, is er beperkte verkenning geweest van taken voor het begrijpen van scènes op stadsniveau. Bovendien wordt bestaand onderzoek geconfronteerd met uitdagingen bij het begrijpen van stedelijke scènes, vanwege het ontbreken van ruimtelijke semantische informatie en informatie over mens-omgeving interactie op stadsniveau. Om deze uitdagingen aan te pakken, onderzoeken we 3D MQA vanuit zowel dataset- als methodeperspectief. Vanuit het datasetperspectief introduceren we een nieuwe 3D MQA-dataset genaamd City-3DQA voor het begrijpen van scènes op stadsniveau, wat de eerste dataset is die scènesemantiek en mens-omgeving interactietaken binnen de stad incorporeert. Vanuit het methodeperspectief stellen we een Scene graph enhanced City-level Understanding method (Sg-CityU) voor, die de scene graph gebruikt om de ruimtelijke semantiek te introduceren. Een nieuwe benchmark wordt gerapporteerd en onze voorgestelde Sg-CityU behaalt een nauwkeurigheid van 63,94% en 63,76% in verschillende instellingen van City-3DQA. Vergeleken met 3D MQA-methoden binnenshuis en zero-shot gebruik van geavanceerde grote taalmodellen (LLM's), toont Sg-CityU state-of-the-art (SOTA) prestaties in robuustheid en generalisatie.
Grote Taalmodellen (LLMs) overtreffen snel menselijke kennis in veel domeinen. Hoewel het verbeteren van deze modellen traditioneel afhankelijk is van kostbare menselijke data, hebben recente zelfbeloningsmechanismen (Yuan et al., 2024) aangetoond dat LLMs zich kunnen verbeteren door hun eigen reacties te beoordelen in plaats van te vertrouwen op menselijke labelers. Bestaande methoden hebben zich echter voornamelijk gericht op het verbeteren van modelreacties in plaats van beoordelingsvaardigheden, wat resulteert in een snelle verzadiging tijdens iteratieve training. Om dit probleem aan te pakken, introduceren we een nieuwe Meta-Beloning stap in het zelfverbeteringsproces, waarbij het model zijn eigen beoordelingen beoordeelt en die feedback gebruikt om zijn beoordelingsvaardigheden te verfijnen. Verrassend genoeg verbetert deze onbewaakte aanpak het vermogen van het model om instructies te beoordelen én te volgen, zoals blijkt uit een verbetering van de winratio van Llama-3-8B-Instruct van 22,9% naar 39,4% op AlpacaEval 2, en van 20,6% naar 29,1% op Arena-Hard. Deze resultaten suggereren sterk dat er potentieel is voor zelfverbeterende modellen zonder menselijk toezicht.
Klassiek Arabisch vertegenwoordigt een belangrijk tijdperk, dat de gouden eeuw van de Arabische cultuur, filosofie en wetenschappelijke literatuur omvat. Met een brede consensus over het belang van het vertalen van deze literatuur om de kennisverspreiding tussen gemeenschappen te verrijken, bieden de opkomst van grote taalmodelen (LLM's) en vertaalsystemen veelbelovende tools om dit doel te vergemakkelijken. We hebben echter een tekort aan vertaalgegevenssets in het Klassiek Arabisch geconstateerd, die vaak beperkt zijn in omvang en onderwerpen, wat de ontwikkeling van hoogwaardige vertaalsystemen belemmert. Als reactie hierop presenteren we de ATHAR-gegevensset, bestaande uit 66.000 hoogwaardige vertaalvoorbeelden van Klassiek Arabisch naar Engels die een breed scala aan onderwerpen behandelen, waaronder wetenschap, cultuur en filosofie. Bovendien evalueren we de prestaties van huidige state-of-the-art LLM's onder verschillende instellingen en concluderen we dat er behoefte is aan dergelijke gegevenssets in de huidige systemen. Onze bevindingen benadrukken hoe modellen kunnen profiteren van fine-tuning of het opnemen van deze gegevensset in hun voorafgaande trainingspijplijnen. De gegevensset is openbaar beschikbaar op de HuggingFace Data Hub op https://huggingface.co/datasets/mohamed-khalil/ATHAR.
Generatieve modellen, zoals diffusiemodellen (DMs), variational autoencoders (VAEs) en generatieve adversariële netwerken (GANs), produceren afbeeldingen met een mate van authenticiteit die ze bijna niet te onderscheiden maakt van echte foto's en kunstwerken. Hoewel deze mogelijkheid gunstig is voor veel industrieën, maakt de moeilijkheid om synthetische afbeeldingen te identificeren online mediaplatforms kwetsbaar voor impersonatie en desinformatiepogingen. Om de ontwikkeling van defensieve methoden te ondersteunen, introduceren we ImagiNet, een hoogwaardige en gebalanceerde dataset voor de detectie van synthetische afbeeldingen, ontworpen om mogelijke vooroordelen in bestaande bronnen te verminderen. Het bevat 200K voorbeelden, verdeeld over vier inhoudscategorieën: foto's, schilderijen, gezichten en ongecategoriseerd. Synthetische afbeeldingen worden geproduceerd met open-source en propriëtaire generatoren, terwijl echte tegenhangers van hetzelfde inhoudstype worden verzameld uit publieke datasets. De structuur van ImagiNet maakt een tweesporens evaluatiesysteem mogelijk: i) classificatie als echt of synthetisch en ii) identificatie van het generatieve model. Om een basislijn vast te stellen, trainen we een ResNet-50 model met een zelfgesuperviseerd contrastief doel (SelfCon) voor elke spoor. Het model toont state-of-the-art prestaties en hoge inferentiesnelheid op gevestigde benchmarks, met een AUC van maximaal 0.99 en een gebalanceerde nauwkeurigheid variërend van 86% tot 95%, zelfs onder sociale netwerkomstandigheden die compressie en herschaling omvatten. Onze data en code zijn beschikbaar op https://github.com/delyan-boychev/imaginet.
We presenteren een nieuwe benadering voor het begrijpen van de periodiciteitsstructuur en semantiek van bewegingsdatasets, onafhankelijk van de morfologie en skeletstructuur van karakters. In tegenstelling tot bestaande methoden die een te spaarzame hoogdimensionale latentie gebruiken, stellen we een fasemanifold voor die bestaat uit meerdere gesloten krommen, elk overeenkomend met een latente amplitude. Met onze voorgestelde vectorgekwantiseerde periodieke auto-encoder leren we een gedeelde fasemanifold voor meerdere karakters, zoals een mens en een hond, zonder enige supervisie. Dit wordt bereikt door gebruik te maken van de discrete structuur en een ondiep netwerk als bottlenecks, zodat semantisch vergelijkbare bewegingen worden gegroepeerd in dezelfde kromme van de manifold, en de bewegingen binnen dezelfde component tijdelijk worden uitgelijnd door de fasevariabele. In combinatie met een verbeterd motion matching-framework demonstreren we de mogelijkheid van de manifold voor timing- en semantiekuitlijning in verschillende toepassingen, waaronder bewegingsophaal, -overdracht en -stylering. Code en vooraf getrainde modellen voor dit artikel zijn beschikbaar op https://peizhuoli.github.io/walkthedog.
Het creëren van fotorealistische avatars voor individuen vereist traditioneel uitgebreide opnamesessies met complexe en dure studioapparatuur zoals het LightStage-systeem. Hoewel recente vooruitgang in neurale representaties het mogelijk heeft gemaakt om fotorealistische en animeerbare 3D-avatars te genereren uit snelle telefoonscans, hebben deze de belichting tijdens de opname ingebakken, ontbreekt het aan gezichtsdetails en zijn er ontbrekende gebieden, zoals aan de achterkant van de oren. Hierdoor blijven ze in kwaliteit achter bij studio-opgenomen avatars. In dit artikel stellen we een methode voor die deze kloof overbrugt door studio-achtige belichte textuurkaarten te genereren uit korte, monoscopische telefoonopnames. We doen dit door de telefoontextuurkaarten te parametriseren met behulp van de W^+-ruimte van een StyleGAN2, wat een bijna perfecte reconstructie mogelijk maakt. Vervolgens fine-tunen we een StyleGAN2 door te bemonsteren in de W^+-geparametriseerde ruimte met behulp van een zeer kleine set studio-opgenomen texturen als een adversariaal trainingssignaal. Om de realiteit en nauwkeurigheid van gezichtsdetails verder te verbeteren, super-resolven we de uitvoer van de StyleGAN2 met behulp van een zorgvuldig ontworpen diffusiemodel dat wordt geleid door beeldgradiënten van de telefoon-opgenomen textuurkaart. Eenmaal getraind, blinkt onze methode uit in het produceren van studio-achtige gezichtstextuurkaarten uit casual monoscopische smartphonevideo's. Om de mogelijkheden te demonstreren, laten we de generatie zien van fotorealistische, uniform belichte, complete avatars uit monoscopische telefoonopnames. http://shahrukhathar.github.io/2024/07/22/Bridging.html{De projectpagina is hier te vinden.}
Sentimentanalyse is een veel onderzocht gebied binnen Natural Language Processing (NLP) en trekt aanzienlijke belangstelling vanwege de opkomst van geautomatiseerde oplossingen. Desondanks blijft de taak uitdagend vanwege de inherente complexiteit van talen en de subjectieve aard van sentimenten. Het is nog uitdagender voor minder bestudeerde en minder ondersteunde talen zoals het Litouws. Onze review van bestaand Litouws NLP-onderzoek toont aan dat traditionele machine learning-methoden en classificatie-algoritmen beperkt effectief zijn voor deze taak. In dit werk richten we ons op sentimentanalyse van Litouwse online reviews met een vijfsterrenbeoordeling uit meerdere domeinen die we verzamelen en opschonen. We passen voor het eerst transformermodellen toe op deze taak, waarbij we de mogelijkheden van vooraf getrainde meertalige Large Language Models (LLMs) verkennen, met specifieke focus op het fine-tunen van BERT- en T5-modellen. Gezien de inherente moeilijkheid van de taak presteren de gefinetunede modellen behoorlijk goed, vooral wanneer de sentimenten zelf minder ambigu zijn: 80,74% en 89,61% testherkenningsnauwkeurigheid voor de meest populaire één- en vijfsterrenreviews respectievelijk. Ze overtreffen aanzienlijk de huidige commerciële state-of-the-art algemene LLM GPT-4. We delen onze gefinetunede LLM's openlijk online.
In dit artikel presenteren we TAPTRv2, een Transformer-gebaseerde aanpak die voortbouwt op TAPTR voor het oplossen van de Tracking Any Point (TAP)-taak. TAPTR leent ontwerpen van DEtection TRansformer (DETR) en formuleert elk volgpunt als een puntquery, waardoor het mogelijk wordt om goed bestudeerde operaties in DETR-achtige algoritmen te benutten. TAPTRv2 verbetert TAPTR door een kritiek probleem aan te pakken met betrekking tot de afhankelijkheid van kostvolume, wat de inhoudskenmerk van de puntquery vervuilt en zowel de zichtbaarheidsvoorspelling als de kostvolumeberekening negatief beïnvloedt. In TAPTRv2 introduceren we een nieuwe aandacht-gebaseerde positie-update (APU)-operatie en gebruiken we sleutelbewuste vervormbare aandacht om deze te realiseren. Voor elke query gebruikt deze operatie sleutelbewuste aandachtgewichten om hun corresponderende vervormbare steekproefposities te combineren om een nieuwe querypositie te voorspellen. Dit ontwerp is gebaseerd op de observatie dat lokale aandacht in wezen hetzelfde is als kostvolume, waarbij beide worden berekend door het inwendig product tussen een query en de omringende kenmerken. Door deze nieuwe operatie te introduceren, verwijdert TAPTRv2 niet alleen de extra last van kostvolumeberekening, maar leidt het ook tot een aanzienlijke prestatieverbetering. TAPTRv2 overtreft TAPTR en behaalt state-of-the-art prestaties op veel uitdagende datasets, wat de superioriteit aantoont.
Domeingeneraliseerbaarheid is een cruciaal aspect van een deep learning-model, omdat het de capaciteit van het model bepaalt om goed te presteren op gegevens uit onbekende domeinen. Onderzoek naar de domeingeneraliseerbaarheid van deep learning-modellen voor visueel-taalkundige taken blijft echter beperkt, voornamelijk vanwege het ontbreken van de benodigde datasets. Om deze uitdagingen aan te pakken, stellen we VolDoGer voor: Vision-Language Dataset for Domain Generalization, een speciaal ontworpen dataset voor domeingeneraliseerbaarheid die drie visueel-taalkundige taken behandelt: beeldbeschrijving, visuele vraagbeantwoording en visuele implicatie. We hebben VolDoGer geconstrueerd door LLM-gebaseerde data-annotatietechnieken uit te breiden naar visueel-taalkundige taken, waardoor de last van het werven van menselijke annotatoren wordt verlicht. We hebben de domeingeneraliseerbaarheid van verschillende modellen, variërend van fijn afgestemde modellen tot een recent groot multimodaal taalmodel, geëvalueerd via VolDoGer.