Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Er wordt veel beweerd dat GANs moeilijk te trainen zijn en GAN-architecturen in de literatuur vol zitten met empirische trucs. Wij leveren bewijs tegen deze bewering en bouwen een moderne GAN-baseline op een meer principiële manier. Ten eerste leiden we een goed-gedragen geregulariseerde relativistische GAN-loss af die problemen van modusverlies en niet-convergentie aanpakt die eerder werden aangepakt met een verzameling ad-hoc trucs. We analyseren onze loss mathematisch en bewijzen dat deze lokale convergentiegaranties biedt, in tegenstelling tot de meeste bestaande relativistische losses. Ten tweede stelt onze nieuwe loss ons in staat om alle ad-hoc trucs te verwerpen en verouderde backbones die worden gebruikt in gangbare GANs te vervangen door moderne architecturen. Met StyleGAN2 als voorbeeld presenteren we een routekaart van vereenvoudiging en modernisering die resulteert in een nieuwe minimalistische baseline - R3GAN. Ondanks de eenvoud van onze aanpak overtreft deze StyleGAN2 op FFHQ, ImageNet, CIFAR en Stacked MNIST datasets, en presteert deze gunstig in vergelijking met state-of-the-art GANs en diffusiemodellen.
Deze paper onderzoekt de vooruitgang in het menselijker maken van grote taalmodellen (LLM's). We richten ons op technieken die de natuurlijke taalbegrip, conversatiecoherentie en emotionele intelligentie in AI-systemen verbeteren. Het onderzoek evalueert verschillende benaderingen, waaronder fijnafstemming met diverse datasets, het opnemen van psychologische principes en het ontwerpen van modellen die menselijke redeneerpatronen beter nabootsen. Onze bevindingen tonen aan dat deze verbeteringen niet alleen de gebruikersinteracties verbeteren, maar ook nieuwe mogelijkheden openen voor AI-toepassingen in verschillende domeinen. Toekomstig werk zal de ethische implicaties en mogelijke vooroordelen die door deze menselijke eigenschappen worden geïntroduceerd, aanpakken.
We bestuderen empirisch autoregressieve voorafgaande training vanuit video's. Om onze studie uit te voeren, construeren we een reeks autoregressieve videomodellen, genaamd Toto. We behandelen video's als sequenties van visuele tokens en trainen transformermodellen om autoregressief toekomstige tokens te voorspellen. Onze modellen worden vooraf getraind op een divers dataset van video's en afbeeldingen bestaande uit meer dan 1 biljoen visuele tokens. We verkennen verschillende architecturale, trainings- en inferentieontwerpkeuzes. We evalueren de geleerde visuele representaties op een reeks taken, waaronder beeldherkenning, videoclassificatie, objecttracking en robotica. Onze resultaten tonen aan dat, ondanks minimale inductieve vooroordelen, autoregressieve voorafgaande training leidt tot competitieve prestaties op alle benchmarks. Tenslotte vinden we dat het schalen van onze videomodellen resulteert in vergelijkbare schalingscurves als die gezien worden bij taalmodellen, zij het met een ander tempo. Meer details op https://brjathu.github.io/toto/
Recente ontwikkelingen in Vision-Language Modellen (VLM's) hebben interesse gewekt in hun gebruik voor autonoom rijden, met name bij het genereren van interpreteerbare rijbeslissingen via natuurlijke taal. Echter, de veronderstelling dat VLM's inherent voor visueel gefundeerde, betrouwbare en interpreteerbare verklaringen voor het rijden zorgen, blijft grotendeels ononderzocht. Om dit hiaat aan te pakken, introduceren we DriveBench, een benchmark dataset ontworpen om de betrouwbaarheid van VLM's te evalueren over 17 instellingen (schone, gecorrumpeerde en enkel tekstuele invoer), met in totaal 19.200 frames, 20.498 vraag-antwoordparen, drie soorten vragen, vier gangbare rijtaken, en in totaal 12 populaire VLM's. Onze bevindingen tonen aan dat VLM's vaak plausibele antwoorden genereren die voortkomen uit algemene kennis of tekstuele aanwijzingen in plaats van ware visuele fundering, vooral bij verslechterde of ontbrekende visuele invoer. Dit gedrag, verborgen door onevenwichtigheden in de dataset en ontoereikende evaluatiemetrics, brengt aanzienlijke risico's met zich mee in veiligheidskritieke scenario's zoals autonoom rijden. We observeren verder dat VLM's moeite hebben met multimodale redenering en een verhoogde gevoeligheid tonen voor invoercorrupties, wat leidt tot inconsistenties in prestaties. Om deze uitdagingen aan te pakken, stellen we verfijnde evaluatiemetrics voor die robuuste visuele fundering en multimodaal begrip prioriteren. Daarnaast benadrukken we het potentieel van het benutten van de bewustzijn van VLM's van corrupties om hun betrouwbaarheid te verbeteren, en bieden zo een routekaart voor het ontwikkelen van meer betrouwbare en interpreteerbare besluitvormingssystemen in real-world autonome rijcontexten. De benchmark toolkit is openbaar toegankelijk.
De meeste Grote Visie-Taalmodellen (LVLM's) tot nu toe worden voornamelijk getraind op Engelse gegevens, wat hen moeite geeft om niet-Engelse invoer te begrijpen en om uitvoer te genereren in de gewenste doeltaal. Bestaande inspanningen om deze problemen te verminderen, voegen meertalige trainingsgegevens toe, maar doen dit op een grotendeels ad-hoc manier, zonder inzicht te bieden in hoe verschillende trainingsmixen het evenwicht kunnen verstoren voor verschillende taalgroepen. In dit werk presenteren we een uitgebreid onderzoek naar de trainingsstrategieën voor grootschalige meertalige LVLM's. Allereerst voeren we een reeks meertraps experimenten uit die 13 downstream visie-taaltaken en 43 talen omvatten, waarbij systematisch wordt onderzocht: (1) het aantal trainings-talen dat kan worden opgenomen zonder de prestaties in het Engels te verslechteren en (2) optimale taalverdelingen voor pre-training, evenals (3) instructie-afstemmingsgegevens. Verder onderzoeken we (4) hoe we de meertalige tekst-in-beeldbegrip kunnen verbeteren en introduceren we een nieuwe benchmark voor de taak. Tot onze verrassing onthult onze analyse dat men (i) zoveel als 100 trainings-talen tegelijk kan opnemen (ii) met slechts 25-50\% niet-Engelse gegevens, om de meertalige prestaties aanzienlijk te verbeteren terwijl sterke Engelse prestaties behouden blijven. We ontdekken verder dat (iii) het opnemen van niet-Engelse OCR-gegevens bij pre-training en instructie-afstemming van cruciaal belang is voor het verbeteren van het meertalige tekst-in-beeldbegrip. Ten slotte combineren we al onze bevindingen en trainen we Centurio, een 100-talig LVLM, dat state-of-the-art prestaties biedt in een evaluatie die 14 taken en 56 talen bestrijkt.
Grote Taalmodellen (LLM's) hebben opmerkelijke bekwaamheid aangetoond bij een verscheidenheid aan complexe taken. Een belangrijke toepassing van LLM's is het aanpakken van software-engineeringuitdagingen, met name bij het oplossen van praktische taken op GitHub door code te repareren op basis van de door gebruikers gemelde problemen. Veel huidige benaderingen vertrouwen echter op eigen LLM's, wat de reproduceerbaarheid, toegankelijkheid en transparantie beperkt. De cruciale componenten van LLM's voor het aanpakken van software-engineeringproblemen en hoe hun mogelijkheden effectief kunnen worden verbeterd, blijven onduidelijk. Om deze uitdagingen aan te pakken, introduceren we SWE-Fixer, een nieuw open-source LLM dat is ontworpen om GitHub-problemen effectief en efficiënt op te lossen. SWE-Fixer bestaat uit twee essentiële modules: een codebestandsophaalmodule en een codebewerkingsmodule. De ophaalmodule maakt gebruik van BM25 samen met een lichtgewicht LLM-model om grove tot fijne bestandsopvraging te bereiken. Vervolgens gebruikt de codebewerkingsmodule het andere LLM-model om patches te genereren voor de geïdentificeerde bestanden. Vervolgens, om het gebrek aan openbaar beschikbare datasets te verhelpen, compileren we een uitgebreide dataset die 110K GitHub-problemen bevat, samen met hun bijbehorende patches, en trainen we de twee modules van SWE-Fixer afzonderlijk. We beoordelen onze aanpak op de SWE-Bench Lite en Verified benchmarks en behalen state-of-the-art prestaties onder open-source modellen met respectievelijk scores van 23,3% en 30,2%. Deze resultaten benadrukken de doeltreffendheid van onze aanpak. We zullen ons model, dataset en code openbaar beschikbaar maken op https://github.com/InternLM/SWE-Fixer.
Onlangs introduceerden Visual Autoregressive (VAR) Modellen een baanbrekende vooruitgang in het veld van beeldgeneratie, waarbij een schaalbare benadering wordt geboden via een grof-naar-fijn "volgende-schaal voorspelling" paradigma. Echter, het state-of-the-art algoritme van VAR modellen in [Tian, Jiang, Yuan, Peng en Wang, NeurIPS 2024] vereist O(n^4) tijd, wat computationeel inefficiënt is. In dit werk analyseren we de computationele grenzen en efficiëntiecriteria van VAR Modellen door een fijnmazige complexiteitslens. Onze belangrijkste bijdrage is het identificeren van de voorwaarden waaronder VAR berekeningen sub-kwadratische tijdscomplexiteit kunnen bereiken. Specifiek stellen we een kritische drempel vast voor de norm van invoermatrices die worden gebruikt in VAR aandachtsmechanismen. Boven deze drempel, ervan uitgaande dat de Sterke Exponentiële Tijd Hypothese (SETH) uit de fijnmazige complexiteitstheorie geldt, is een sub-kwartische tijdsalgoritme voor VAR modellen onmogelijk. Om onze theoretische bevindingen te staven, presenteren we efficiënte constructies die gebruikmaken van lage-rang benaderingen die overeenkomen met de afgeleide criteria. Dit werk initieert de studie van de computationele efficiëntie van het VAR model vanuit een theoretisch perspectief. Onze techniek zal inzicht bieden in het bevorderen van schaalbare en efficiënte beeldgeneratie in VAR kaders.
De alomtegenwoordigheid van eigen taalmodellen heeft kritieke privacyzorgen doen rijzen, waardoor vooruitgang op het gebied van privé inferentie (PI) noodzakelijk is, waar berekeningen rechtstreeks op versleutelde gegevens worden uitgevoerd zonder de gevoelige informatie van gebruikers prijs te geven. Hoewel PI een veelbelovende oplossing biedt, wordt de praktische implementatie ervan belemmerd door aanzienlijke communicatie- en latentie-overhead, voornamelijk voortkomend uit niet-lineaire bewerkingen. Om dit aan te pakken, introduceren we een informatietheoretisch kader om de rol van niet-lineariteiten in alleen-decoder taalmodellen te karakteriseren, waarbij een principiële basis wordt gelegd voor het optimaliseren van transformer-architecturen die zijn afgestemd op de eisen van PI. Door gebruik te maken van Shannon's entropie als een kwantitatieve maat, onthullen we de eerder onverkende dubbele betekenis van niet-lineariteiten: naast het waarborgen van trainingsstabiliteit zijn ze cruciaal voor het behouden van diversiteit in aandachtsmechanismen. Specifiek vinden we dat het verwijderen ervan twee kritieke faalmodi activeert: 'entropiecollaps' in diepere lagen die de training destabiliseert, en 'entropische overbelasting' in eerdere lagen die leidt tot onderbenutting van de representatiecapaciteit van Multi-Head Attention (MHA). We stellen een entropie-geleid aandachtsmechanisme voor, gekoppeld aan een nieuwe entropieregularisatietechniek om entropische overbelasting te verminderen. Daarnaast verkennen we PI-vriendelijke alternatieven voor laagnormalisatie om entropiecollaps te voorkomen en de training van LLM's met verminderde niet-lineariteiten te stabiliseren. Onze studie overbrugt de kloof tussen informatietheorie en architectonisch ontwerp, waarbij entropiedynamica wordt vastgesteld als een principiële leidraad voor het ontwikkelen van efficiënte PI-architecturen. De code en implementatie zijn beschikbaar op https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Deze paper introduceert fundamentele bronnen en modellen voor natuurlijke taalverwerking (NLP) van historisch Turks, een domein dat onderbelicht is gebleven in de computationele taalkunde. We presenteren het eerste genaamde entiteitenherkennings (NER) dataset, HisTR en het eerste Universal Dependencies treebank, OTA-BOUN voor een historische vorm van de Turkse taal samen met op transformer-gebaseerde modellen die zijn getraind met behulp van deze datasets voor genaamde entiteitenherkenning, afhankelijkheidsparsing en woordsoortmarkeringstaken. Daarnaast introduceren we het Ottomaanse Tekstcorpus (OTC), een schoon corpus van getranslitereerde historische Turkse teksten die een breed scala aan historische periodes beslaan. Onze experimentele resultaten tonen significante verbeteringen in de computationele analyse van historisch Turks, waarbij veelbelovende resultaten worden behaald in taken die begrip vereisen van historische taalkundige structuren. Ze benadrukken ook bestaande uitdagingen, zoals domeinaanpassing en taalvariaties over verschillende tijdsperiodes. Alle gepresenteerde bronnen en modellen zijn beschikbaar op https://huggingface.co/bucolin om te dienen als een benchmark voor toekomstige vooruitgang in historische Turkse NLP.