Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een groot contextvenster is een gewenste eigenschap in grote taalmodellen (LLM's). Vanwege de hoge kosten voor fine-tuning, de schaarste aan lange teksten en catastrofale waarden die worden geïntroduceerd door nieuwe tokenposities, zijn huidige uitgebreide contextvensters beperkt tot ongeveer 128k tokens. Dit artikel introduceert LongRoPE, dat voor het eerst het contextvenster van vooraf getrainde LLM's uitbreidt naar een indrukwekkende 2048k tokens, met maximaal slechts 1k fine-tuningstappen binnen een trainingslengte van 256k, terwijl de prestaties binnen het oorspronkelijke korte contextvenster behouden blijven. Dit wordt bereikt door drie belangrijke innovaties: (i) we identificeren en benutten twee vormen van niet-uniformiteit in positionele interpolatie via een efficiënte zoektocht, wat een betere initialisatie voor fine-tuning biedt en een 8x uitbreiding mogelijk maakt in scenario's zonder fine-tuning; (ii) we introduceren een progressieve uitbreidingsstrategie die eerst een LLM van 256k lengte fine-tunt en vervolgens een tweede positionele interpolatie uitvoert op het gefinetunde uitgebreide LLM om een contextvenster van 2048k te bereiken; (iii) we passen LongRoPE aan op een lengte van 8k om de prestaties van het korte contextvenster te herstellen. Uitgebreide experimenten op LLaMA2 en Mistral over diverse taken demonstreren de effectiviteit van onze methode. Modellen die via LongRoPE zijn uitgebreid, behouden de oorspronkelijke architectuur met minimale aanpassingen aan de positionele embedding en kunnen de meeste bestaande optimalisaties hergebruiken.
De huidige deep learning-methoden richten zich op het ontwerpen van de meest geschikte doel functies, zodat de voorspellingsresultaten van het model zo dicht mogelijk bij de grondwaarheid liggen. Tegelijkertijd moet een geschikte architectuur worden ontworpen die het mogelijk maakt om voldoende informatie voor voorspelling te verkrijgen. Bestaande methoden negeren het feit dat wanneer invoergegevens laag-voor-laag kenmerkextractie en ruimtelijke transformatie ondergaan, een grote hoeveelheid informatie verloren gaat. Dit artikel gaat dieper in op de belangrijke kwesties van gegevensverlies wanneer gegevens door diepe netwerken worden doorgegeven, namelijk informatie bottleneck en omkeerbare functies. We introduceerden het concept van programmeerbare gradiëntinformatie (PGI) om om te gaan met de verschillende veranderingen die diepe netwerken vereisen om meerdere doelen te bereiken. PGI kan volledige invoerinformatie bieden voor de doel taak om de doel functie te berekenen, zodat betrouwbare gradiëntinformatie kan worden verkregen om netwerkgewichten bij te werken. Daarnaast is een nieuwe lichtgewicht netwerkarchitectuur ontworpen -- Generalized Efficient Layer Aggregation Network (GELAN), gebaseerd op gradiëntpadplanning. De architectuur van GELAN bevestigt dat PGI superieure resultaten heeft behaald op lichtgewicht modellen. We hebben de voorgestelde GELAN en PGI geverifieerd op objectdetectie gebaseerd op de MS COCO-dataset. De resultaten tonen aan dat GELAN alleen conventionele convolutie-operatoren gebruikt om een betere parameterbenutting te bereiken dan de state-of-the-art methoden die zijn ontwikkeld op basis van depth-wise convolutie. PGI kan worden gebruikt voor een verscheidenheid aan modellen, van lichtgewicht tot groot. Het kan worden gebruikt om volledige informatie te verkrijgen, zodat modellen die vanaf nul worden getraind betere resultaten kunnen bereiken dan state-of-the-art modellen die vooraf zijn getraind met grote datasets, de vergelijkingsresultaten zijn weergegeven in Figuur 1. De broncodes zijn te vinden op: https://github.com/WongKinYiu/yolov9.
We presenteren het Aria Everyday Activities (AEA) Dataset, een egocentrische multimodale open dataset die is vastgelegd met behulp van Project Aria-brillen. AEA bevat 143 dagelijkse activiteitensequenties die zijn opgenomen door meerdere dragers op vijf geografisch diverse binnenlocaties. Elke opname bevat multimodale sensordata die is vastgelegd via de Project Aria-brillen. Daarnaast biedt AEA machineperceptiedata, waaronder hoogfrequente wereldwijd uitgelijnde 3D-trajecten, een puntenwolk van de scène, een 3D-oogrichtingsvector per frame en tijdelijk uitgelijnde spraaktranscriptie. In dit artikel demonstreren we enkele voorbeeldonderzoekstoepassingen die mogelijk worden gemaakt door deze dataset, waaronder neurale scène-reconstructie en geprompte segmentatie. AEA is een open source dataset die kan worden gedownload via projectaria.com. We bieden ook open-source implementaties en voorbeelden van hoe de dataset kan worden gebruikt in Project Aria Tools.
Wij stellen een diffusiedistillatiemethode voor die een nieuwe staat-van-de-kunst bereikt in één-stap/weinig-stappen 1024px tekst-naar-beeldgeneratie gebaseerd op SDXL. Onze methode combineert progressieve en adversariële distillatie om een balans te bereiken tussen kwaliteit en modusdekking. In dit artikel bespreken we de theoretische analyse, discriminatorontwerp, modelformulering en trainingstechnieken. Wij maken onze gedistilleerde SDXL-Lightning-modellen open source, zowel als LoRA als volledige UNet-gewichten.
Moderne modellen voor het genereren van afbeeldingen tonen opmerkelijke kwaliteit en veelzijdigheid. Onder de indruk van deze voordelen, heroriënteert de onderzoeksgemeenschap deze modellen om video's te genereren. Omdat videocontent sterk redundant is, stellen wij dat het naïef overnemen van de vooruitgang van afbeeldingsmodellen naar het domein van videogeneratie de bewegingsnauwkeurigheid en visuele kwaliteit vermindert en de schaalbaarheid belemmert. In dit werk ontwikkelen wij Snap Video, een video-eerst model dat deze uitdagingen systematisch aanpakt. Hiervoor breiden we eerst het EDM-framework uit om rekening te houden met ruimtelijk en temporeel redundante pixels en ondersteunen we op natuurlijke wijze videogeneratie. Ten tweede tonen we aan dat een U-Net – een werkpaard achter afbeeldingsgeneratie – slecht schaalt bij het genereren van video's, wat aanzienlijke rekenkracht vereist. Daarom stellen we een nieuwe transformer-gebaseerde architectuur voor die 3,31 keer sneller traint dan U-Nets (en ~4,5 keer sneller is bij inferentie). Dit stelt ons in staat om voor het eerst efficiënt een tekst-naar-video model met miljarden parameters te trainen, state-of-the-art resultaten te behalen op een aantal benchmarks, en video's te genereren met aanzienlijk hogere kwaliteit, temporele consistentie en bewegingscomplexiteit. Gebruikersstudies toonden aan dat ons model met een grote marge werd verkozen boven de meest recente methoden. Bezoek onze website op https://snap-research.github.io/snapvideo/.
Grote taalmmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking. Het effectief integreren van complexe en potentieel ruwe gebruikersinteractiedata blijft echter een uitdaging. Om dit aan te pakken, stellen we User-LLM voor, een nieuw framework dat gebruikersembeddingen benut om LLMs te contextualiseren. Deze embeddingen, gedestilleerd uit diverse gebruikersinteracties via zelfsupervised pretraining, vangen latente gebruikersvoorkeuren en hun evolutie in de tijd. We integreren deze gebruikersembeddingen met LLMs door middel van cross-attention en soft-prompting, waardoor LLMs zich dynamisch kunnen aanpassen aan de gebruikerscontext. Onze uitgebreide experimenten op de MovieLens, Amazon Review en Google Local Review datasets tonen aanzienlijke prestatieverbeteringen aan over verschillende taken. Opmerkelijk is dat onze aanpak tekstprompt-gebaseerde contextualisatie overtreft bij taken met lange sequenties en taken die een diepgaand gebruikersbegrip vereisen, terwijl het computationeel efficiënt blijft. We integreren verder Perceiver-lagen om de integratie tussen gebruikersencoders en LLMs te stroomlijnen, waardoor de computationele eisen worden verminderd.
Recent onderzoek heeft aangetoond dat deep reinforcement learning agents moeite hebben om hun netwerkparameters effectief te benutten. We maken gebruik van eerder inzicht in de voordelen van sparse trainingtechnieken en tonen aan dat geleidelijke magnitude pruning agents in staat stelt om de effectiviteit van parameters te maximaliseren. Dit resulteert in netwerken die aanzienlijke prestatieverbeteringen opleveren ten opzichte van traditionele netwerken en een soort "schaalwet" vertonen, terwijl slechts een fractie van de volledige netwerkparameters wordt gebruikt.
Recentelijk is aangetoond dat adversariële aanvallen op grote taalmodellen (LLM's) het model kunnen "jailbreaken" om schadelijke uitspraken te doen. In dit werk betogen we dat het spectrum van adversariële aanvallen op LLM's veel breder is dan alleen jailbreaking. We bieden een breed overzicht van mogelijke aanvalsoppervlakken en aanvalsdoelen. Op basis van een reeks concrete voorbeelden bespreken, categoriseren en systematiseren we aanvallen die uiteenlopende onbedoelde gedragingen afdwingen, zoals misleiding, modelcontrole, denial-of-service of data-extractie. We analyseren deze aanvallen in gecontroleerde experimenten en concluderen dat veel ervan voortkomen uit de praktijk van het pre-trainen van LLM's met codeervaardigheden, evenals het voortbestaan van vreemde "glitch"-tokens in veelgebruikte LLM-vocabularia die om veiligheidsredenen verwijderd zouden moeten worden.
Met de ontwikkeling van diffusiemodellen heeft tekstgestuurde beeldstijloverdracht hoogwaardige en controleerbare syntheseresultaten laten zien. Het gebruik van tekst voor diverse muziekstijloverdracht brengt echter aanzienlijke uitdagingen met zich mee, voornamelijk vanwege de beperkte beschikbaarheid van gekoppelde audio-tekstdatasets. Muziek, als een abstracte en complexe kunstvorm, vertoont variaties en complexiteiten zelfs binnen hetzelfde genre, wat nauwkeurige tekstuele beschrijvingen bemoeilijkt. Dit artikel presenteert een benadering voor muziekstijloverdracht die muzikale attributen effectief vastlegt met minimale data. We introduceren een nieuw tijdvariërend tekstueel inversiemodule om mel-spectrogramkenmerken op verschillende niveaus nauwkeurig vast te leggen. Tijdens inferentie stellen we een bias-gereduceerde stileringsmethode voor om stabiele resultaten te verkrijgen. Experimentele resultaten tonen aan dat onze methode de stijl van specifieke instrumenten kan overdragen, evenals natuurlijke geluiden kan integreren om melodieën te componeren. Voorbeelden en broncode zijn beschikbaar op https://lsfhuihuiff.github.io/MusicTI/.
Het aandachtmechanisme is cruciaal geweest voor beelddiffusiemodellen, maar hun kwadratische rekencomplexiteit beperkt de grootte van de afbeeldingen die we binnen redelijke tijd- en geheugenbeperkingen kunnen verwerken. Dit artikel onderzoekt het belang van dichte aandacht in generatieve beeldmodellen, die vaak overbodige kenmerken bevatten, waardoor ze geschikt zijn voor spaarzamere aandachtmechanismen. We stellen een nieuwe trainingsvrije methode ToDo voor die vertrouwt op token-downsampling van sleutel- en waardetokens om de inferentie van Stable Diffusion te versnellen met tot 2x voor gangbare formaten en tot 4.5x of meer voor hoge resoluties zoals 2048x2048. We tonen aan dat onze aanpak vorige methoden overtreft in het balanceren van efficiënte doorvoer en getrouwheid.
Multimodale redenering vormt een cruciale vaardigheid voor grote visueel-taalkundige modellen (LVLMs). De integratie met Domeinspecifieke Talen (DSL), die nauwkeurige visuele representaties bieden, stelt deze modellen in staat om nauwkeuriger te redeneren in complexe en professionele domeinen. Echter, de standaard Chain-of-Thought (CoT) prompting-methode ondervindt problemen bij het effectief benutten van de unieke sterke punten van visuele en DSL-representaties, voornamelijk vanwege hun verschillende redeneermechanismen. Daarnaast schiet het vaak tekort in het aanpakken van cruciale stappen in meerstaps redeneertaken. Om deze uitdagingen te verminderen, introduceren we de Bi-Modale Gedragsafstemming (BBA) prompting-methode, ontworpen om het potentieel van DSL te maximaliseren bij het versterken van complexe multimodale redeneertaken. Deze methode begint door LVLMs te begeleiden bij het creëren van afzonderlijke redeneerketens voor visuele en DSL-representaties. Vervolgens worden deze ketens afgestemd door eventuele inconsistenties aan te pakken, waardoor een samenhangende integratie van gedragingen uit verschillende modaliteiten wordt bereikt. Onze experimenten tonen aan dat BBA de prestaties van GPT-4V(ision) aanzienlijk verbetert bij het oplossen van geometrieproblemen (28,34% tot 34,22%), het voorspellen van positionele voordelen in schaken (42,08% tot 46,99%) en het voorspellen van moleculaire eigenschappen (77,47% tot 83,52%).
Het beheersen van het generatieresultaat van state-of-the-art Diffusion en Flow-Matching (FM) modellen zonder een taakspecifiek model opnieuw te hoeven trainen, biedt een krachtig hulpmiddel voor het oplossen van inverse problemen, conditionele generatie en gecontroleerde generatie in het algemeen. In dit werk introduceren we D-Flow, een eenvoudig raamwerk voor het beheersen van het generatieproces door differentiatie door de flow, waarbij het bronpunt (ruis) wordt geoptimaliseerd. We motiveren dit raamwerk door onze belangrijkste observatie, die stelt dat voor Diffusion/FM modellen die zijn getraind met Gaussische waarschijnlijkheidspaden, differentiatie door het generatieproces de gradiënt projecteert op de datamanifold, waardoor impliciet de prior in het optimalisatieproces wordt geïnjecteerd. We valideren ons raamwerk op lineaire en niet-lineaire gecontroleerde generatieproblemen, waaronder: inverse problemen bij beeld en audio en conditionele molecuulgeneratie, waarbij we state-of-the-art prestaties behalen op alle gebieden.
Decoderingmethoden die eerst ontwerpen en vervolgens verifiëren, zoals speculatieve decodering, zijn veelgebruikte trainingsvrije methoden om de inferentie van grote taalmmodellen (LLM's) te versnellen. In plaats van een autoregressief proces te gebruiken om tokens sequentieel te decoderen, maakt speculatieve decodering eerst ontwerpen met een efficiënt klein model. Vervolgens moeten LLM's verificatie en correctie uitvoeren op een niet-autoregressieve manier om de tijdsbelasting te minimaliseren. Het genereren van langere ontwerpen kan leiden tot nog significantere snelheidswinsten zodra deze zijn geverifieerd, maar brengt ook aanzienlijke kosten voor trial en error met zich mee als het mislukt. Door de hoge kans op verificatiefouten kunnen bestaande decoderingmethoden niet te veel inhoud in één keer ontwerpen voor verificatie, wat resulteert in suboptimale inferentieversnelling. In dit artikel introduceren we Ouroboros, dat een pool van zinscandidaten construeert uit het verificatieproces van LLM's om kandidaten te bieden voor het ontwerp van het kleine model. Hierdoor kan Ouroboros de efficiëntie en effectiviteit van de initiële ontwerpen verder verbeteren. De experimentele resultaten op typische tekstgeneratietaken laten zien dat Ouroboros snelheidswinsten bereikt van respectievelijk 1,9x en 2,8x in vergelijking met lookahead decodering en speculatieve decodering. De broncode van Ouroboros is beschikbaar op https://github.com/thunlp/Ouroboros.