Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren het Recognize Anything Model (RAM): een robuust foundation model voor beeldtagging. RAM kan elke veelvoorkomende categorie met hoge nauwkeurigheid herkennen. RAM introduceert een nieuw paradigma voor beeldtagging door gebruik te maken van grootschalige beeld-tekstparen voor training in plaats van handmatige annotaties. De ontwikkeling van RAM bestaat uit vier belangrijke stappen. Ten eerste worden annotatievrije beeldtags op grote schaal verkregen via automatische tekstsemantische parsing. Vervolgens wordt een voorlopig model getraind voor automatische annotatie door de taken van bijschriften en tagging te verenigen, waarbij respectievelijk de originele teksten en geparste tags als supervisie dienen. Ten derde wordt een data-engine ingezet om aanvullende annotaties te genereren en onjuiste annotaties op te schonen. Tot slot wordt het model opnieuw getraind met de verwerkte data en afgestemd met behulp van een kleiner maar hoger kwalitatief dataset. We evalueren de taggingmogelijkheden van RAM op talrijke benchmarks en observeren indrukwekkende zero-shot prestaties, die CLIP en BLIP aanzienlijk overtreffen. Opmerkelijk is dat RAM zelfs de volledig gesuperviseerde methoden overstijgt en competitieve prestaties vertoont met de Google API. We maken RAM beschikbaar op https://recognize-anything.github.io/ om de vooruitgang van grote modellen in computervisie te bevorderen.
Instructie-afstemming heeft grote vooruitgang geboekt bij grote taalmodelen (LLMs) zoals ChatGPT, waardoor ze beter kunnen aansluiten bij menselijke instructies voor diverse taken. Echter, de vooruitgang in open visueel-taalmodelen (VLMs) is beperkt gebleven vanwege het gebrek aan hoogwaardige instructiedatasets. Om deze uitdaging aan te pakken en onderzoek in het visueel-taalveld te bevorderen, introduceren we de Multi-Modale, Meertalige Instructie-Afstemming (M^3IT) dataset, ontworpen om VLM-afstemming met menselijke instructies te optimaliseren. Onze M^3IT dataset bestaat uit 40 zorgvuldig samengestelde datasets, inclusief 2,4 miljoen instanties en 400 handmatig geschreven taakinstructies, hervormd naar een visueel-naar-tekststructuur. Belangrijke taken zijn vertaald in 80 talen met een geavanceerd vertaalsysteem, wat bredere toegankelijkheid garandeert. M^3IT overtreft eerdere datasets wat betreft taakdekking, aantal instructies en schaal van instanties. Bovendien ontwikkelen we Ying-VLM, een VLM-model getraind op onze M^3IT dataset, dat zijn potentieel toont om complexe vragen te beantwoorden die wereldkennis vereisen, te generaliseren naar onbekende videotaken, en onbekende instructies in het Chinees te begrijpen. Om verder onderzoek aan te moedigen, hebben we zowel de dataset als de getrainde modellen open-source gemaakt.
We zijn geïnteresseerd in een nieuwe taak, namelijk low-resource tekst-naar-sprekende avatar. Gegeven slechts een video van enkele minuten van een sprekend persoon met het audiospoor als trainingsdata en willekeurige teksten als invoer, streven we ernaar om hoogwaardige sprekende portretvideo's te genereren die overeenkomen met de invoertekst. Deze taak heeft brede toepassingsmogelijkheden in de digitale mensindustrie, maar is technisch nog niet gerealiseerd vanwege twee uitdagingen: (1) Het is uitdagend om de klankkleur van audio buiten het domein na te bootsen voor een traditioneel multi-speaker Text-to-Speech-systeem. (2) Het is moeilijk om hoogwaardige en lipgesynchroniseerde sprekende avatars te renderen met beperkte trainingsdata. In dit artikel introduceren we Adaptive Text-to-Talking Avatar (Ada-TTA), dat (1) een generiek zero-shot multi-speaker TTS-model ontwerpt dat tekstinhoud, klankkleur en prosodie goed ontwart; en (2) recente vooruitgang in neurale rendering omarmt om realistische audio-gestuurde sprekende gezichtsvideo's te genereren. Met deze ontwerpen overwint onze methode de bovengenoemde twee uitdagingen en slaagt erin om identiteit-behoudende spraak en realistische sprekende persoonvideo's te genereren. Experimenten tonen aan dat onze methode realistische, identiteit-behoudende en audio-visueel gesynchroniseerde sprekende avatarvideo's kan synthetiseren.
Het vinden van overeenkomsten tussen afbeeldingen is een fundamenteel probleem in computervisie. In dit artikel laten we zien dat overeenkomsten ontstaan in beelddiffusiemodellen zonder expliciete begeleiding. We stellen een eenvoudige strategie voor om deze impliciete kennis uit diffusienetwerken te halen als beeldkenmerken, genaamd DIffusion FeaTures (DIFT), en gebruiken deze om overeenkomsten tussen echte afbeeldingen vast te stellen. Zonder aanvullende fine-tuning of begeleiding op taakspecifieke data of annotaties, is DIFT in staat om zowel zwak begeleide methoden als concurrerende kant-en-klare kenmerken te overtreffen in het identificeren van semantische, geometrische en temporele overeenkomsten. Vooral voor semantische overeenkomsten is DIFT van Stable Diffusion in staat om DINO en OpenCLIP te overtreffen met respectievelijk 19 en 14 nauwkeurigheidspunten op de uitdagende SPair-71k benchmark. Het overtreft zelfs de state-of-the-art begeleide methoden in 9 van de 18 categorieën, terwijl het qua algehele prestaties gelijk blijft. Projectpagina: https://diffusionfeatures.github.io
Taalmodellen behalen vaak een hogere nauwkeurigheid wanneer ze stap voor stap redeneren bij complexe taken. Hun redenering kan echter onjuist, inconsistent of gebaseerd zijn op ongewenste aannames. Om deze problemen aan te pakken, introduceren we een klasse van hulpmiddelen voor taalmodellen, genaamd 'guides', die gebruikmaken van toestand en incrementele beperkingen om de generatie te sturen. Een guide kan door het model worden aangeroepen om de eigen generatie te beperken tot een set van geldige uitspraken die door het hulpmiddel worden gegeven. Op hun beurt kunnen de keuzes van het model de toestand van de guide veranderen. We laten zien hoe een algemeen systeem voor logisch redeneren kan worden gebruikt als guide, wat we LogicGuide noemen. Gegeven een redeneerprobleem in natuurlijke taal, kan een model zijn aannames formaliseren voor LogicGuide en vervolgens garanderen dat zijn redeneerstappen correct zijn. In experimenten met de PrOntoQA- en ProofWriter-redeneerdatasets verbetert LogicGuide de prestaties van GPT-3, GPT-3.5 Turbo en LLaMA aanzienlijk (nauwkeurigheidswinst tot 35%). LogicGuide vermindert ook drastisch de invloed van inhoud: de interferentie van eerdere en huidige aannames waarvan is aangetoond dat zowel mensen als taalmodellen er last van hebben. Ten slotte onderzoeken we het bootstrappen van LLaMA 13B vanuit zijn eigen redenering en ontdekken dat LogicGuide cruciaal is: door alleen te trainen op gecertificeerde, zelf gegenereerde redeneringen, kan LLaMA zichzelf verbeteren en voorkomen dat het leert van zijn eigen hallucinaties.
Grote taalmodellen (LLM's) kunnen worden gebruikt om tekstdata te genereren voor het trainen en evalueren van andere modellen. Het creëren van hoogwaardige datasets met LLM's kan echter uitdagend zijn. In dit werk onderzoeken we mens-AI-samenwerkingen om een hoge diversiteit en nauwkeurigheid te bevorderen bij het genereren van tekstdata op basis van LLM's. We onderzoeken eerst twee benaderingen om tekstgeneratie te diversifiëren: 1) logitonderdrukking, waarbij de generatie van talen die al frequent zijn gegenereerd, wordt geminimaliseerd, en 2) temperatuurbemonstering, waarbij de tokenbemonsteringswaarschijnlijkheid wordt afgevlakt. We ontdekten dat diversificatiebenaderingen de datadiversiteit kunnen vergroten, maar vaak ten koste van de datanauwkeurigheid (d.w.z. tekst en labels die geschikt zijn voor het doelgebied). Om dit probleem aan te pakken, onderzochten we twee menselijke interventies: 1) labelvervanging (LR), waarbij verkeerd uitgelijnde labels worden gecorrigeerd, en 2) out-of-scope filtering (OOSF), waarbij instanties worden verwijderd die buiten het interessegebied van de gebruiker vallen of waarop geen van de overwogen labels van toepassing is. Met orakelstudies ontdekten we dat LR de absolute nauwkeurigheid van modellen die zijn getraind met gediversifieerde datasets met 14,4% verhoogt. Bovendien ontdekten we dat sommige modellen die zijn getraind met data gegenereerd met LR-interventies, beter presteerden dan LLM-gebaseerde few-shot classificatie. Daarentegen was OOSF niet effectief in het verhogen van de modelnauwkeurigheid, wat de noodzaak aangeeft voor toekomstig werk in mens-in-de-lus tekstdatageneratie.
Ondanks het gemakkelijk onthouden van wereldkennis over entiteiten, hebben vooraf getrainde taalmodelen (LMs) moeite om twee of meer feiten samen te voegen om meerstapsredeneringen uit te voeren in vraag-antwoordtaken. In dit werk stellen we technieken voor die deze beperking verbeteren door te vertrouwen op willekeurige wandelingen over gestructureerde kennisgrafieken. Specifiek gebruiken we zachte prompts om LMs te begeleiden bij het aaneenschakelen van hun gecodeerde kennis door te leren om meerstapsvragen te koppelen aan willekeurige wandelpaden die naar het antwoord leiden. Het toepassen van onze methoden op twee T5 LMs laat aanzienlijke verbeteringen zien ten opzichte van standaard afstemmingsbenaderingen bij het beantwoorden van vragen die 2-stapsredeneringen vereisen.
Domeinadaptatie met alleen tekstcorpora is uitdagend in end-to-end (E2E) spraakherkenning. Aanpassing door audio te synthetiseren uit tekst via TTS is bronnenintensief. Wij presenteren een methode om Unified Speech-Text Representation in Conformer Transducer (USTR-CT) te leren, waardoor snelle domeinadaptatie mogelijk wordt met alleen een tekstcorpus. In tegenstelling tot de vorige textogrammethode wordt in ons werk een extra tekstencoder geïntroduceerd om tekstrepresentatie te leren, die tijdens de inferentie wordt verwijderd, waardoor er geen aanpassingen nodig zijn voor online implementatie. Om de efficiëntie van de aanpassing te verbeteren, worden ook enkelstaps- en meerstapsaanpassingen onderzocht. De experimenten met het aanpassen van LibriSpeech aan SPGISpeech laten zien dat de voorgestelde methode de woordfoutfrequentie (WER) relatief met 44% verlaagt in het doeldomein, wat beter is dan de TTS-methode en de textogrammethode. Ook wordt aangetoond dat de voorgestelde methode kan worden gecombineerd met interne taalmodelschatting (ILME) om de prestaties verder te verbeteren.
In dit artikel presenteren we een aanpak voor het lokaliseren van stappen in procedurele activiteiten in begeleide how-to video's. Om het gebrek aan gelabelde data op grote schaal aan te pakken, halen we de stapbeschrijvingen uit een taalkundige kennisbank (wikiHow) die instructieartikelen bevat voor een grote verscheidenheid aan procedurele taken. Zonder enige vorm van handmatige supervisie leert ons model om de stappen van procedurele artikelen tijdelijk te verankeren in how-to video's door drie modaliteiten te matchen: frames, voice-overs en stapbeschrijvingen. Specifiek aligneert onze methode stappen aan video's door informatie te combineren uit twee verschillende paden: i) {\em directe} alignering van stapbeschrijvingen aan frames, ii) {\em indirecte} alignering verkregen door het samenstellen van stappen-naar-voice-overs met voice-overs-naar-video-correspondenties. Opmerkelijk is dat onze aanpak een globale temporele verankering van alle stappen in een artikel tegelijkertijd uitvoert door gebruik te maken van volgorde-informatie, en wordt getraind met stap-pseudo-labels die iteratief worden verfijnd en agressief gefilterd. Om ons model te valideren introduceren we een nieuwe evaluatiebenchmark -- HT-Step -- verkregen door handmatige annotatie van een subset van 124 uur van HowTo100M. De testserver is toegankelijk op \url{https://eval.ai/web/challenges/challenge-page/2082.} met stappen afkomstig uit wikiHow-artikelen. Experimenten op deze benchmark, evenals zero-shot evaluaties op CrossTask, tonen aan dat onze multi-modaliteit-alignering aanzienlijke verbeteringen oplevert ten opzichte van verschillende baselines en eerdere werken. Tot slot laten we zien dat ons interne module voor het matchen van voice-overs aan video's met een grote marge de state of the art overtreft op de HTM-Align voice-over-video-aligneringsbenchmark.