Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wetenschappelijke kennis wordt voornamelijk opgeslagen in boeken en wetenschappelijke tijdschriften, vaak in de vorm van PDF's. Het PDF-formaat leidt echter tot een verlies van semantische informatie, met name voor wiskundige uitdrukkingen. Wij stellen Nougat (Neural Optical Understanding for Academic Documents) voor, een Visual Transformer-model dat een Optical Character Recognition (OCR)-taak uitvoert voor het verwerken van wetenschappelijke documenten naar een opmaaktaal, en demonstreren de effectiviteit van ons model op een nieuwe dataset van wetenschappelijke documenten. De voorgestelde aanpak biedt een veelbelovende oplossing om de toegankelijkheid van wetenschappelijke kennis in het digitale tijdperk te vergroten, door de kloof tussen door mensen leesbare documenten en door machines leesbare tekst te overbruggen. Wij maken de modellen en code beschikbaar om toekomstig werk op het gebied van wetenschappelijke tekstherkenning te versnellen.
Grote taalmodellen (LLMs) hebben een revolutie teweeggebracht in taken voor natuurlijke taalverwerking. Hun praktische inzet wordt echter belemmerd door hun enorme geheugen- en rekenvereisten. Hoewel recente post-training kwantiseringsmethoden (PTQ) effectief zijn in het verminderen van het geheugengebruik en het verbeteren van de rekenkundige efficiëntie van LLMs, hanteren ze handmatig gemaakte kwantiseringsparameters, wat leidt tot lage prestaties en niet in staat is om extreem lage-bit kwantisering aan te pakken. Om dit probleem aan te pakken, introduceren we een Omnidirectioneel gekalibreerde Kwantiseringstechniek (OmniQuant) voor LLMs, die goede prestaties levert in diverse kwantiseringsinstellingen terwijl de rekenkundige efficiëntie van PTQ behouden blijft door efficiënt verschillende kwantiseringsparameters te optimaliseren. OmniQuant bestaat uit twee innovatieve componenten, waaronder Leerbaar Gewicht Clippen (LWC) en Leerbare Gelijkwaardige Transformatie (LET). LWC moduleert de extreme waarden van gewichten door het clippingsdrempel te optimaliseren. Ondertussen pakt LET activeringsuitbijters aan door de uitdaging van kwantisering van activeringen naar gewichten te verplaatsen via een leerbare gelijkwaardige transformatie. Door te werken binnen een differentieerbaar raamwerk met bloksgewijze foutminimalisatie, kan OmniQuant het kwantiseringsproces efficiënt optimaliseren voor zowel gewicht-alleen als gewicht-activeringskwantisering. Bijvoorbeeld, de LLaMA-2 modellenfamilie met een grootte van 7-70B kan worden verwerkt met OmniQuant op een enkele A100-40G GPU binnen 1-16 uur met 128 samples. Uitgebreide experimenten valideren de superieure prestaties van OmniQuant in diverse kwantiseringsconfiguraties zoals W4A4, W6A6, W4A16, W3A16 en W2A16. Daarnaast toont OmniQuant effectiviteit in instructie-getunede modellen en levert het opmerkelijke verbeteringen in inferentiesnelheid en geheugenreductie op echte apparaten. Codes en modellen zijn beschikbaar op https://github.com/OpenGVLab/OmniQuant.
Softwareontwikkeling speelt een cruciale rol in het stimuleren van innovatie en efficiëntie in moderne samenlevingen. Om aan de eisen van dit dynamische vakgebied te voldoen, is er een groeiende behoefte aan een effectieve softwareontwikkelingsassistent. Bestaande grote taalmodelmodellen, vertegenwoordigd door ChatGPT, hebben echter te kampen met beperkte toegankelijkheid, waaronder trainingsdata en modelgewichten. Hoewel andere grote open-source modellen zoals LLaMA veelbelovend zijn gebleken, hebben ze nog steeds moeite met het begrijpen van menselijke intenties. In dit artikel presenteren we SoTaNa, een open-source softwareontwikkelingsassistent. SoTaNa maakt gebruik van ChatGPT om hoogwaardige instructiegebaseerde data te genereren voor het domein van software engineering en past een parameter-efficiënte fine-tuning aanpak toe om het open-source basismodel, LLaMA, te verbeteren. We evalueren de effectiviteit van SoTaNa in het beantwoorden van Stack Overflow-vragen en demonstreren de mogelijkheden ervan. Daarnaast bespreken we de mogelijkheden op het gebied van codesamenvatting en -generatie, evenals de impact van het variëren van het volume gegenereerde data op de modelprestaties. Opmerkelijk is dat SoTaNa op een enkele GPU kan draaien, waardoor het toegankelijk is voor een breder scala aan onderzoekers. Onze code, modelgewichten en data zijn openbaar beschikbaar op https://github.com/DeepSoftwareAnalytics/SoTaNa.
Vision Transformers behalen indrukwekkende nauwkeurigheid bij een reeks visuele herkenningstaken. Helaas gaat hun nauwkeurigheid vaak gepaard met hoge rekenkosten. Dit is met name een probleem bij videorecognitie, waar modellen vaak herhaaldelijk worden toegepast op frames of temporele segmenten. In dit werk benutten we temporele redundantie tussen opeenvolgende invoeren om de kosten van Transformers voor videoverwerking te verminderen. We beschrijven een methode om alleen die tokens te identificeren en opnieuw te verwerken die in de loop van de tijd significant zijn veranderd. Onze voorgestelde familie van modellen, Eventful Transformers, kan worden omgezet vanuit bestaande Transformers (vaak zonder enige hertraining) en biedt adaptieve controle over de rekenkosten tijdens runtime. We evalueren onze methode op grootschalige datasets voor videodetectie van objecten (ImageNet VID) en actieherkenning (EPIC-Kitchens 100). Onze aanpak leidt tot aanzienlijke rekenkundige besparingen (in de orde van 2-4x) met slechts minimale verminderingen in nauwkeurigheid.
Dit artikel introduceert een nieuwe neurale impliciete radiance-representatie voor vrijstandpunt herbelichting vanuit een kleine set ongestructureerde foto's van een object dat wordt verlicht door een bewegende puntlichtbron die verschilt van de camerapositie. We drukken de vorm uit als een signed distance function gemodelleerd door een multi layer perceptron. In tegenstelling tot eerdere herbelichtbare impliciete neurale representaties, ontwarren we niet de verschillende reflectiecomponenten, maar modelleren we zowel de lokale als globale reflectie op elk punt door een tweede multi layer perceptron die, naast dichtheidskenmerken, de huidige positie, de normaal (afgeleid van de signed distance function), kijkrichting en lichtpositie, ook schaduw- en highlight-aanwijzingen gebruikt om het netwerk te helpen bij het modelleren van de bijbehorende hoogfrequente lichttransporteffecten. Deze aanwijzingen worden als suggestie aangeboden, en we laten het aan het netwerk over om te beslissen hoe deze in het uiteindelijke herbelichte resultaat worden opgenomen. We demonstreren en valideren onze neurale impliciete representatie op synthetische en echte scènes die een breed scala aan vormen, materiaaleigenschappen en globaal verlicht lichttransport vertonen.