Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) hebben een revolutie teweeggebracht in Natural Language Processing (NLP), waarbij ze de state-of-the-art op veel bestaande taken hebben verbeterd en nieuwe, emergente capaciteiten hebben getoond. Echter, LLM's zijn nog niet succesvol toegepast op semi-gestructureerde documentinformatie-extractie, wat een kernonderdeel is van veel documentverwerkingsworkflows en bestaat uit het extraheren van sleutelentiteiten uit een visueel rijk document (VRD) op basis van een vooraf gedefinieerd doelschema. De belangrijkste obstakels voor de adoptie van LLM's in deze taak zijn het ontbreken van lay-outcodering binnen LLM's, wat cruciaal is voor een hoogwaardige extractie, en het ontbreken van een grondingsmechanisme dat ervoor zorgt dat het antwoord niet verzonnen is. In dit artikel introduceren we Language Model-based Document Information Extraction and Localization (LMDX), een methodologie om willekeurige LLM's aan te passen voor documentinformatie-extractie. LMDX kan extractie uitvoeren van enkelvoudige, herhaalde en hiërarchische entiteiten, zowel met als zonder trainingsdata, terwijl het grondingsgaranties biedt en de entiteiten binnen het document lokaliseert. In het bijzonder passen we LMDX toe op het PaLM 2-S LLM en evalueren we het op de VRDU en CORD benchmarks, waarbij we een nieuwe state-of-the-art vaststellen en laten zien hoe LMDX de creatie van hoogwaardige, data-efficiënte parsers mogelijk maakt.
In dit artikel onthullen we het onbenutte potentieel van de diffusion U-Net, die dient als een "gratis bonus" die de generatiekwaliteit aanzienlijk verbetert tijdens het proces. We onderzoeken eerst de belangrijkste bijdragen van de U-Net architectuur aan het ruisonderdrukkingsproces en identificeren dat de hoofdbackbone voornamelijk bijdraagt aan ruisonderdrukking, terwijl de skip-connecties vooral hoogfrequente kenmerken introduceren in de decodermodule, waardoor het netwerk de semantiek van de backbone over het hoofd ziet. Gebruikmakend van deze ontdekking, stellen we een eenvoudige maar effectieve methode voor - genaamd "FreeU" - die de generatiekwaliteit verbetert zonder extra training of finetuning. Onze belangrijkste inzicht is om strategisch de bijdragen van de skip-connecties en de backbone feature maps van de U-Net te herwegen, om de sterke punten van beide componenten van de U-Net architectuur te benutten. Veelbelovende resultaten op beeld- en videogeneratietaken tonen aan dat onze FreeU eenvoudig kan worden geïntegreerd in bestaande diffusiemodellen, zoals Stable Diffusion, DreamBooth, ModelScope, Rerender en ReVersion, om de generatiekwaliteit te verbeteren met slechts een paar regels code. Het enige wat u hoeft te doen is twee schaalfactoren aan te passen tijdens de inferentie. Projectpagina: https://chenyangsi.top/FreeU/.
Dit artikel presenteert DreamLLM, een leerframework dat als eerste veelzijdige Multimodale Grote Taalmodellen (MLLMs) realiseert, versterkt door de vaak over het hoofd geziene synergie tussen multimodale begrip en creatie. DreamLLM werkt volgens twee fundamentele principes. Het eerste richt zich op de generatieve modellering van zowel taal- als beeldposteriors door directe steekproefname in de ruwe multimodale ruimte. Deze aanpak omzeilt de beperkingen en informatieverlies die inherent zijn aan externe feature extractors zoals CLIP, waardoor een grondiger multimodaal begrip wordt verkregen. Ten tweede bevordert DreamLLM de generatie van ruwe, door elkaar heen lopende documenten, waarbij zowel tekst- als beeldinhoud worden gemodelleerd, samen met ongestructureerde lay-outs. Hierdoor kan DreamLLM alle conditionele, marginale en gezamenlijke multimodale distributies effectief leren. Als gevolg hiervan is DreamLLM het eerste MLLM dat in staat is om vrij vormgegeven, door elkaar heen lopende inhoud te genereren. Uitgebreide experimenten benadrukken de superieure prestaties van DreamLLM als een zero-shot multimodale generalist, profiterend van de verbeterde leersynergie.
We presenteren Kosmos-2.5, een multimodaal geletterd model voor het machinaal lezen van tekstintensieve afbeeldingen. Voorgetraind op grootschalige tekstintensieve afbeeldingen, blinkt Kosmos-2.5 uit in twee verschillende maar samenwerkende transcriptietaken: (1) het genereren van ruimtelijk bewuste tekstblokken, waarbij elk tekstblok zijn ruimtelijke coördinaten binnen de afbeelding krijgt toegewezen, en (2) het produceren van gestructureerde tekstuitvoer die stijlen en structuren vastlegt in het markdown-formaat. Deze verenigde multimodale geletterde capaciteit wordt bereikt door een gedeelde Transformer-architectuur, taakspecifieke prompts en flexibele tekstrepresentaties. We evalueren Kosmos-2.5 op end-to-end tekstherkenning op documentniveau en beeld-naar-markdown tekstgeneratie. Bovendien kan het model eenvoudig worden aangepast voor elke tekstintensieve beeldbegriptaak met verschillende prompts via supervised fine-tuning, waardoor het een algemeen bruikbaar hulpmiddel is voor real-world toepassingen met tekstrijke afbeeldingen. Dit werk baant ook de weg voor toekomstige schaalvergroting van multimodale grote taalmodellen.
Het genereren van plausibele maar feitelijk onjuiste informatie, ook wel hallucinatie genoemd, is een onopgelost probleem bij grote taalmodelen. Wij onderzoeken het vermogen van taalmodelen om na te denken over de antwoorden die ze geven om zo hun fouten te corrigeren. We ontwikkelen de Chain-of-Verification (CoVe)-methode, waarbij het model eerst (i) een initieel antwoord opstelt; vervolgens (ii) verificatievragen plant om zijn concept te factchecken; (iii) die vragen onafhankelijk beantwoordt zodat de antwoorden niet beïnvloed worden door andere reacties; en (iv) zijn definitieve, geverifieerde antwoord genereert. In experimenten tonen we aan dat CoVe hallucinaties vermindert bij een verscheidenheid aan taken, van lijstgebaseerde vragen uit Wikidata, gesloten boek MultiSpanQA tot het genereren van lange teksten.
De AI-gemeenschap heeft aanzienlijke vooruitgang geboekt in de ontwikkeling van krachtige foundation-modellen, aangedreven door grootschalige multimodale datasets. In de gemeenschap voor audio-representatie leren kampen de huidige audio-taal datasets echter met beperkingen zoals onvoldoende omvang, simplistische inhoud en moeizame verzamelprocedures. Om deze uitdagingen aan te pakken, presenteren we een innovatieve en automatische pijplijn voor het genereren van audiobijschriften, gebaseerd op een reeks openbare tools of API's, en construeren we een grootschalige, hoogwaardige audio-taal dataset, genaamd Auto-ACD, bestaande uit meer dan 1,9 miljoen audio-tekst paren. Om de effectiviteit van de voorgestelde dataset aan te tonen, trainen we populaire modellen op onze dataset en laten we prestatieverbeteringen zien op verschillende downstream taken, namelijk audio-taal retrieval, audiobijschrijving en omgevingsclassificatie. Daarnaast stellen we een nieuwe testset op en bieden we een benchmark voor audio-tekst taken. De voorgestelde dataset zal worden vrijgegeven op https://auto-acd.github.io/.
De afgelopen jaren hebben Large Language Models (LLM's) aanzienlijke aandacht gekregen van de onderzoeksgemeenschap vanwege hun uitzonderlijke prestaties en generalisatievermogen. In dit artikel introduceren we een nieuwe methode voor het contextualiseren van spraakherkenningsmodellen met behulp van LLM's. Onze benadering behandelt spraakherkenning als een gemengd-modale taak voor taalmodelvorming, gebaseerd op een vooraf getraind LLM. We leveren audiofeatures, samen met optionele teksttokens voor context, om het systeem te trainen transcripties te voltooien in een decoder-only stijl. Hierdoor wordt het systeem impliciet gestimuleerd om te leren hoe ongestructureerde contextuele informatie tijdens de training kan worden benut. Onze empirische resultaten tonen een significante verbetering in prestaties, met een reductie van 6% in WER wanneer aanvullende tekstuele context wordt geboden. Bovendien blijkt dat onze methode concurrerend presteert en met 7,5% WER in het algemeen en 17% WER op zeldzame woorden verbetert ten opzichte van een baseline gecontextualiseerd RNN-T-systeem dat is getraind op een spraakdataset die meer dan vijfentwintig keer groter is. Over het geheel genomen tonen we aan dat door slechts een handvol trainbare parameters toe te voegen via adapters, we gecontextualiseerde spraakherkenningsmogelijkheden kunnen ontgrendelen voor het vooraf getrainde LLM, terwijl dezelfde tekst-only inputfunctionaliteit behouden blijft.
De Languini Kitchen fungeert zowel als een onderzoekscollectief als een codebase die is ontworpen om onderzoekers met beperkte rekenmiddelen in staat te stellen zinvol bij te dragen aan het vakgebied van taalmodellering. We introduceren een experimenteel protocol dat modelvergelijkingen mogelijk maakt op basis van equivalente rekenkracht, gemeten in accelerator-uren. Het aantal tokens waarop een model wordt getraind, wordt bepaald door de doorvoersnelheid van het model en de gekozen rekenklasse. Opmerkelijk is dat deze aanpak beperkingen vermijdt op kritieke hyperparameters die het totale aantal parameters of zwevendekomma-bewerkingen beïnvloeden. Voor evaluatie verwerken we een bestaande grote, diverse en hoogwaardige dataset van boeken voor, die bestaande academische benchmarks overtreft in kwaliteit, diversiteit en documentlengte. Hierop vergelijken we methoden op basis van hun empirische schaalwetten, die worden geschat via experimenten op verschillende niveaus van rekenkracht. Dit werk biedt ook twee basismodellen: een feedforward-model afgeleid van de GPT-2 architectuur en een recurrent model in de vorm van een nieuwe LSTM met een tienvoudige doorvoersnelheid. Hoewel het GPT-basismodel betere perplexiteit behaalt op al onze niveaus van rekenkracht, vertoont ons LSTM-basismodel een voorspelbare en gunstigere schaalwet. Dit komt door de verbeterde doorvoersnelheid en de behoefte aan minder trainings-tokens om dezelfde daling in testperplexiteit te bereiken. Extrapolatie van de schaalwetten van beide modellen resulteert in een snijpunt bij ongeveer 50.000 accelerator-uren. We hopen dat dit werk kan dienen als basis voor zinvol en reproduceerbaar onderzoek naar taalmodellering.
Recente ontwikkelingen in Neural Radiance Fields (NeRFs) hebben het mogelijk gemaakt om dynamische portretscènes te reconstrueren en te reanimeren met controle over hoofdpositie, gezichtsuitdrukkingen en kijkrichting. Het trainen van dergelijke modellen veronderstelt echter fotometrische consistentie over het vervormde gebied, bijvoorbeeld het gezicht moet gelijkmatig verlicht zijn terwijl het vervormt door veranderingen in hoofdpositie en gezichtsuitdrukking. Een dergelijke fotometrische consistentie over de frames van een video is moeilijk te handhaven, zelfs in studio-omgevingen, waardoor de gecreëerde reanimeerbare neurale portretten gevoelig zijn voor artefacten tijdens reanimatie. In dit werk stellen we CoDyNeRF voor, een systeem dat het mogelijk maakt om volledig bestuurbare 3D-portretten te creëren onder realistische opnameomstandigheden. CoDyNeRF leert om belichtingsafhankelijke effecten te benaderen via een dynamisch uiterlijk model in de canonieke ruimte dat wordt geconditioneerd op voorspelde oppervlaktenormalen en de gezichtsuitdrukkingen en hoofdpositievervormingen. De voorspelling van de oppervlaktenormalen wordt begeleid met behulp van 3DMM-normalen die dienen als een ruwe prior voor de normalen van het menselijk hoofd, waar directe voorspelling van normalen moeilijk is vanwege rigide en niet-rigide vervormingen veroorzaakt door veranderingen in hoofdpositie en gezichtsuitdrukking. Met alleen een korte video van een onderwerp, opgenomen met een smartphone, demonstreren we de effectiviteit van onze methode op vrije weergavesynthese van een portretscène met expliciete controle over hoofdpositie en gezichtsuitdrukking, en realistische belichtingseffecten. De projectpagina is hier te vinden: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html