Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Position Interpolation (PI), dat de contextvenstergroottes van RoPE-gebaseerde voorgetrainde LLM's, zoals LLaMA-modellen, uitbreidt tot maximaal 32768 met minimale fine-tuning (binnen 1000 stappen), terwijl het sterke empirische resultaten laat zien op verschillende taken die een lange context vereisen, waaronder passkey retrieval, taalmodellering en samenvatting van lange documenten van LLaMA 7B tot 65B. Tegelijkertijd behoudt het door Position Interpolation uitgebreide model relatief goed de kwaliteit op taken binnen het oorspronkelijke contextvenster. Om dit doel te bereiken, schaalt Position Interpolation de invoerpositie-indices lineair omlaag om ze aan te passen aan de oorspronkelijke contextvenstergrootte, in plaats van te extrapoleren buiten de getrainde contextlengte, wat kan leiden tot catastrofaal hoge attentiescores die het self-attention-mechanisme volledig kunnen verpesten. Ons theoretisch onderzoek toont aan dat de bovengrens van interpolatie minstens ∼600 keer kleiner is dan die van extrapolatie, wat verder de stabiliteit ervan aantoont. Modellen die via Position Interpolation zijn uitgebreid, behouden hun oorspronkelijke architectuur en kunnen de meeste bestaande optimalisaties en infrastructuur hergebruiken.
Grote taalmodellen (LLMs) hebben potentie getoond in het bewijzen van formele stellingen met behulp van proof assistants zoals Lean. Bestaande methoden zijn echter moeilijk te reproduceren of op te bouwen vanwege privécode, data en grote rekenkrachtvereisten. Dit heeft aanzienlijke barrières gecreëerd voor onderzoek naar machine learning-methoden voor stellingenbewijzen. Dit artikel verwijdert deze barrières door LeanDojo te introduceren: een open-source Lean-speelplaats bestaande uit toolkits, data, modellen en benchmarks. LeanDojo extraheert data uit Lean en maakt interactie met de bewijsomgeving programmatisch mogelijk. Het bevat gedetailleerde annotaties van premissen in bewijzen, wat waardevolle data biedt voor premisse-selectie: een belangrijk knelpunt in stellingenbewijzen. Met deze data ontwikkelen we ReProver (Retrieval-Augmented Prover): de eerste LLM-gebaseerde prover die is versterkt met retrieval voor het selecteren van premissen uit een uitgebreide wiskundebibliotheek. Het is kosteneffectief en heeft slechts één GPU-week training nodig. Onze retriever maakt gebruik van LeanDojo's programma-analysecapaciteit om toegankelijke premissen en moeilijke negatieve voorbeelden te identificeren, wat retrieval aanzienlijk effectiever maakt. Bovendien construeren we een nieuwe benchmark bestaande uit 96.962 stellingen en bewijzen die zijn geëxtraheerd uit Lean's wiskundebibliotheek. Het bevat uitdagende datasplits die vereisen dat de prover generaliseert naar stellingen die afhankelijk zijn van nieuwe premissen die nooit in de training worden gebruikt. We gebruiken deze benchmark voor training en evaluatie, en experimentele resultaten tonen de effectiviteit van ReProver aan ten opzichte van niet-retrieval-baselines en GPT-4. We bieden hiermee de eerste set open-source LLM-gebaseerde stellingenprovers zonder enige propriëtaire datasets en geven deze vrij onder een permissieve MIT-licentie om verder onderzoek te faciliteren.
Het recente werk CLIPA presenteert een inverse schaalwet voor CLIP-training -- waarbij hoe groter de beeld-/tekstencoders zijn die worden gebruikt, hoe korter de sequentielengte van beeld-/teksttokens die kunnen worden toegepast in de training. Deze bevinding stelt ons in staat om hoogwaardige CLIP-modellen te trainen met aanzienlijk verminderde berekeningen. Voortbouwend op dit werk presenteren wij hierbij CLIPA-v2 met twee belangrijke bijdragen. Technisch gezien ontdekken we dat deze inverse schaalwet ook van toepassing is in de finetuning-fase, wat een verdere vermindering van de rekenbehoefte mogelijk maakt. Empirisch verkennen we CLIPA op grote schaal, waarbij we de experimenten uitbreiden tot het H/14-model met ~13B beeld-tekstparen die tijdens de training zijn gezien. Onze resultaten zijn opwindend -- door slechts een budget van \10.000 toe te wijzen, behaalt ons CLIP- model een indrukwekkende zero-shot ImageNet-nauwkeurigheid van 81,1%, waarmee het het vorige beste CLIP-model (van OpenCLIP, 80,1%) met 1,0% overtreft en tegelijkertijd de rekenkosten met ~39X vermindert. Bovendien kunnen we met een extra investering van 4.000 de zero-shot ImageNet-nauwkeurigheid verder verhogen tot 81,8%. Onze code en modellen zijn beschikbaar op https://github.com/UCSC-VLAA/CLIPA.
Camera pose-estimatie is een lang bestaand computer vision-probleem dat tot op heden vaak vertrouwt op klassieke methoden, zoals handmatige keypoint-matching, RANSAC en bundle adjustment. In dit artikel stellen we voor om het Structure from Motion (SfM)-probleem te formuleren binnen een probabilistisch diffusiekader, waarbij de conditionele verdeling van cameraposities gegeven invoerbeelden wordt gemodelleerd. Deze nieuwe kijk op een oud probleem biedt verschillende voordelen. (i) De aard van het diffusiekader weerspiegelt het iteratieve proces van bundle adjustment. (ii) De formulering maakt een naadloze integratie van geometrische beperkingen uit epipolaire geometrie mogelijk. (iii) Het presteert uitstekend in typisch lastige scenario's zoals sparse views met grote baselines. (iv) De methode kan intrinsieke en extrinsieke parameters voorspellen voor een willekeurig aantal beelden. We tonen aan dat onze methode PoseDiffusion aanzienlijk verbetert ten opzichte van de klassieke SfM-pipelines en de geleerde benaderingen op twee real-world datasets. Tot slot wordt geobserveerd dat onze methode kan generaliseren over datasets zonder verdere training. Projectpagina: https://posediffusion.github.io/
Het ontwarren van niet-gerelateerde informatie in spraakuitingen is een cruciaal onderzoeksonderwerp binnen de spraakgemeenschap. Verschillende spraakgerelateerde taken richten zich op het extraheren van verschillende spraakrepresentaties, terwijl de invloed van andere niet-gerelateerde informatie wordt geminimaliseerd. Wij presenteren een grootschalig spraakcorpus om onderzoek naar het ontwarren van spraakrepresentaties te faciliteren. 3D-Speaker bevat meer dan 10.000 sprekers, waarbij elke spreker gelijktijdig wordt opgenomen door meerdere apparaten, op verschillende afstanden, en sommige sprekers spreken meerdere dialecten. De gecontroleerde combinaties van multidimensionale audiogegevens resulteren in een matrix van een diverse mix van verstrengelde spraakrepresentaties, wat intrigerende methoden aanmoedigt om deze te ontwarren. Het multidomein-karakter van 3D-Speaker maakt het ook een geschikte bron om grote universele spraakmodellen te evalueren en methoden voor out-of-domain leren en zelfgestuurd leren te experimenteren. https://3dspeaker.github.io/
Veel pixelgewijze dichtheidsvoorspellingstaken, zoals diepte-estimatie en semantische segmentatie in computervisie, zijn tegenwoordig afhankelijk van vooraf getrainde beeldrepresentaties. Daarom is het samenstellen van effectieve vooraf getrainde datasets van cruciaal belang. Helaas zijn de effectieve vooraf getrainde datasets die met multi-view scènes beschikbaar zijn, alleen samengesteld met behulp van geannoteerde 3D-meshes, puntenwolken en cameraparameters uit gesimuleerde omgevingen. Wij stellen een dataset-samenstellingsmechanisme voor dat geen annotaties vereist. We hebben twee datasets samengesteld: MIMIC-1M met 1,3 miljoen en MIMIC-3M met 3,1 miljoen multi-view beeldparen uit open-source videodatasets en uit synthetische 3D-omgevingen. We trainen meerdere zelfgesuperviseerde modellen met verschillende gemaskeerde beeldmodelleringsdoelstellingen om de volgende bevindingen te demonstreren: Representaties getraind op MIMIC-3M presteren beter dan die samengesteld met behulp van annotaties bij meerdere downstreamtaken, waaronder diepte-estimatie, semantische segmentatie, oppervlaktenormalen en pose-estimatie. Ze presteren ook beter dan representaties die bevroren zijn en wanneer downstream trainingsdata beperkt is tot few-shot. Een grotere dataset (MIMIC-3M) verbetert de prestaties aanzienlijk, wat veelbelovend is omdat onze samenstellingsmethode willekeurig kan worden opgeschaald om nog grotere datasets te produceren. De MIMIC-code, dataset en vooraf getrainde modellen zijn open-source beschikbaar op https://github.com/RAIVNLab/MIMIC.
In-context learning (ICL) verbetert de prestaties van taalmodellen op een verscheidenheid aan NLP-taken door simpelweg een handvol voorbeelden te demonstreren tijdens inferentie. Het is niet goed begrepen waarom ICL-vaardigheid ontstaat, aangezien het model nooit specifiek is getraind op dergelijke demonstraties. In tegenstelling tot eerder werk dat impliciete mechanismen achter ICL onderzoekt, bestuderen wij ICL door de pretrainingsdata te onderzoeken. Specifiek passen we eerst een iteratieve, op gradienten gebaseerde aanpak toe om een kleine subset van pretrainingsdata te vinden die ICL ondersteunt. We observeren dat voortgezette pretraining op deze kleine subset de ICL-vaardigheid van het model aanzienlijk verbetert, met wel 18%. Vervolgens vergelijken we de ondersteunende subset contrastief met willekeurige subsets van pretrainingsdata en ontdekken: (1) De ondersteunende pretrainingsdata voor ICL hebben geen hogere domeinrelevantie voor downstream taken. (2) De ondersteunende pretrainingsdata bevatten een hogere concentratie van zeldzaam voorkomende, long-tail tokens. (3) De ondersteunende pretrainingsdata zijn uitdagende voorbeelden waarbij de informatieopbrengst uit langeafstandscontext onder het gemiddelde ligt, wat aangeeft dat het leren om moeilijke langeafstandscontext te incorporeren ICL bevordert. Ons werk zet een eerste stap naar het begrijpen van ICL door het analyseren van pretrainingsdata op instanceniveau. Onze inzichten hebben het potentieel om de ICL-vaardigheid van taalmodellen te verbeteren door actief de constructie van pretrainingsdata in de toekomst te begeleiden.
Grote taalmodelen worden nu afgestemd om in lijn te zijn met de doelen van hun makers, namelijk om "behulpzaam en onschadelijk" te zijn. Deze modellen moeten behulpzaam reageren op gebruikersvragen, maar weigeren om verzoeken te beantwoorden die schade kunnen veroorzaken. Echter kunnen tegenstanders inputs construeren die pogingen tot afstemming omzeilen. In dit werk onderzoeken we in hoeverre deze modellen afgestemd blijven, zelfs wanneer ze interacteren met een tegenstander die worst-case inputs (adversariale voorbeelden) construeert. Deze inputs zijn ontworpen om het model schadelijke inhoud te laten produceren die anders verboden zou zijn. We tonen aan dat bestaande NLP-gebaseerde optimalisatieaanvallen onvoldoende krachtig zijn om afgestemde tekstmodellen betrouwbaar aan te vallen: zelfs wanneer huidige NLP-gebaseerde aanvallen falen, kunnen we adversariale inputs vinden met brute kracht. Als gevolg hiervan mag het falen van huidige aanvallen niet worden gezien als bewijs dat afgestemde tekstmodellen onder adversariale inputs afgestemd blijven. Echter is de recente trend in grootschalige ML-modellen de opkomst van multimodale modellen die gebruikers in staat stellen afbeeldingen te leveren die de gegenereerde tekst beïnvloeden. We tonen aan dat deze modellen eenvoudig kunnen worden aangevallen, d.w.z. dat ze kunnen worden aangezet tot willekeurig niet-afgestemd gedrag door adversariale verstoring van de invoerafbeelding. We vermoeden dat verbeterde NLP-aanvallen hetzelfde niveau van adversariale controle over tekstmodellen kunnen aantonen.
We onderzoeken hoe transformers omgaan met twee uitdagingen: het leren van basis rekenkunde met gehele getallen, en het generaliseren naar langere reeksen dan tijdens de training zijn gezien. We ontdekken dat relatieve positie-embeddingen lengtegeneralisatie mogelijk maken voor eenvoudige taken, zoals optellen: modellen die getraind zijn op 5-cijferige getallen kunnen 15-cijferige sommen uitvoeren. Deze methode faalt echter voor vermenigvuldiging, en we stellen train set priming voor: het toevoegen van een paar (10 tot 50) lange reeksen aan de trainingsset. We laten zien dat priming modellen die getraind zijn op 5-cijferige keer 3-cijferige vermenigvuldigingen in staat stelt te generaliseren naar 35 keer 3 voorbeelden. We tonen ook aan dat modellen kunnen worden geprimed voor verschillende generalisatielengtes, en dat de grootte van de priming-steekproef schaalt als de logaritme van de grootte van de trainingsset. Tot slot bespreken we mogelijke toepassingen van priming buiten rekenkunde.