Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vergroten van de omvang van een Transformer-model leidt niet altijd tot verbeterde prestaties. Dit fenomeen kan niet worden verklaard door de empirische schaalwetten. Bovendien treedt een verbeterd generalisatievermogen op naarmate het model de trainingsvoorbeelden uit het hoofd leert. We presenteren een theoretisch kader dat inzicht geeft in het memorisatieproces en de prestatie-dynamiek van transformer-gebaseerde taalmodellen. We modelleren het gedrag van Transformers met associatieve geheugens met behulp van Hopfield-netwerken, waarbij elke transformer-blok effectief een benaderende zoektocht naar de dichtstbijzijnde buur uitvoert. Op basis hiervan ontwerpen we een energie-functie die analoog is aan die in het moderne continue Hopfield-netwerk, wat een inzichtelijke verklaring biedt voor het aandacht-mechanisme. Met behulp van de majorization-minimization techniek construeren we een globale energie-functie die de gelaagde architectuur van de Transformer vastlegt. Onder specifieke voorwaarden laten we zien dat de minimaal haalbare kruis-entropie-verlies begrensd is van onderaf door een constante die ongeveer gelijk is aan 1. We onderbouwen onze theoretische resultaten door experimenten uit te voeren met GPT-2 op verschillende datagroottes, evenals het trainen van standaard Transformers op een dataset van 2M tokens.
Als mensen streven we ernaar om mediacontent te creëren die zowel vrijwillig als gemakkelijk te controleren is. Dankzij de opmerkelijke ontwikkeling van generatieve technieken kunnen we nu eenvoudig 2D-diffusiemethoden gebruiken om afbeeldingen te synthetiseren die worden gecontroleerd door ruwe schetsen of specifieke menselijke poses, en zelfs lokale regio’s progressief bewerken/regenereren met gemaskeerde inpainting. Echter, vergelijkbare workflows in 3D-modelleringstaken zijn nog niet beschikbaar vanwege het gebrek aan controleerbaarheid en efficiëntie in 3D-generatie. In dit artikel presenteren we een nieuw controleerbaar en interactief 3D-assetmodelleringsframework, genaamd Coin3D. Coin3D stelt gebruikers in staat om de 3D-generatie te controleren met behulp van een grove geometrische proxy die is samengesteld uit basisvormen, en introduceert een interactief generatiewerkflow om naadloze lokale onderdeelbewerking te ondersteunen terwijl het binnen enkele seconden responsieve 3D-objectvoorbeelden levert. Hiertoe ontwikkelen we verschillende technieken, waaronder de 3D-adapter die volumetrische grove vormcontrole toepast op het diffusiemodel, een proxy-gebonden bewerkingsstrategie voor precieze onderdeelbewerking, een progressieve volumecache om responsieve voorbeelden te ondersteunen, en volume-SDS om consistente mesh-reconstructie te garanderen. Uitgebreide experimenten met interactieve generatie en bewerking op diverse vormproxies tonen aan dat onze methode superieure controleerbaarheid en flexibiliteit bereikt in de 3D-assetgeneratietaak.
We presenteren Hunyuan-DiT, een tekst-naar-beeld diffusie-transformer met een gedetailleerd begrip van zowel Engels als Chinees. Om Hunyuan-DiT te construeren, hebben we zorgvuldig de transformerstructuur, de tekstencoder en de positionele codering ontworpen. We hebben ook een complete datapijplijn vanaf de grond opgebouwd om gegevens bij te werken en te evalueren voor iteratieve modeloptimalisatie. Voor gedetailleerd taalbegrip hebben we een Multimodaal Groot Taalmodel getraind om de bijschriften van de afbeeldingen te verfijnen. Uiteindelijk kan Hunyuan-DiT multiturn multimodale dialogen voeren met gebruikers, waarbij afbeeldingen worden gegenereerd en verfijnd volgens de context. Via ons holistische humanevaluatieprotocol met meer dan 50 professionele humanevaluators, vestigt Hunyuan-DiT een nieuwe state-of-the-art in Chinees-naar-beeldgeneratie in vergelijking met andere open-source modellen. Code en vooraf getrainde modellen zijn publiekelijk beschikbaar op github.com/Tencent/HunyuanDiT.
Grote taalmodellen (LLMs) hebben een ongelooflijke vaardigheid getoond in het uitvoeren van taken die een semantisch begrip van natuurlijke taal instructies vereisen. Recentelijk hebben veel werken deze capaciteit verder uitgebreid naar het waarnemen van multimodale audio- en tekstinputs, maar hun mogelijkheden zijn vaak beperkt tot specifieke, fijn afgestemde taken zoals automatische spraakherkenning en vertaling. Daarom ontwikkelen we SpeechVerse, een robuust multi-task trainings- en curriculumleren framework dat vooraf getrainde spraak- en tekst foundation modellen combineert via een kleine set leerbare parameters, terwijl de vooraf getrainde modellen tijdens de training bevroren blijven. De modellen worden instructie fijn afgestemd met behulp van continue latente representaties die zijn geëxtraheerd uit het spraak foundation model om optimale zero-shot prestaties te bereiken op een diverse reeks spraakverwerkingstaken met behulp van natuurlijke taal instructies. We voeren uitgebreide benchmarking uit, waaronder het vergelijken van onze modelprestaties met traditionele baselines over verschillende datasets en taken. Bovendien evalueren we het vermogen van het model voor gegeneraliseerde instructieopvolging door te testen op out-of-domain datasets, nieuwe prompts en onbekende taken. Onze empirische experimenten tonen aan dat ons multi-task SpeechVerse-model zelfs superieur is aan conventionele taakspecifieke baselines op 9 van de 11 taken.
Reinforcement learning from human feedback (RLHF) is het canonieke raamwerk voor het uitlijnen van grote taalmodellen. De toenemende populariteit van offline uitlijningsalgoritmen stelt echter de noodzaak van on-policy sampling in RLHF ter discussie. Binnen de context van reward over-optimalisatie beginnen we met een eerste reeks experimenten die het duidelijke voordeel van online methoden ten opzichte van offline methoden aantonen. Dit zet ons ertoe aan de oorzaken van het prestatieverschil te onderzoeken via een reeks zorgvuldig ontworpen experimentele ablatie-experimenten. We tonen empirisch aan dat hypothesen zoals offline datadekking en dataqualiteit op zichzelf het prestatieverschil niet overtuigend kunnen verklaren. We ontdekken ook dat hoewel offline algoritmen het beleid trainen om goed te worden in paarsgewijze classificatie, het slechter presteert bij generaties; ondertussen zijn de beleidsmodellen die door online algoritmen worden getraind goed in generaties maar slechter in paarsgewijze classificatie. Dit wijst op een unieke wisselwerking tussen discriminerende en generatieve capaciteiten, die sterk wordt beïnvloed door het samplingproces. Tot slot observeren we dat het prestatieverschil aanhoudt voor zowel contrastieve als niet-contrastieve verliesfuncties, en lijkt niet te worden opgelost door simpelweg beleidsnetwerken op te schalen. Samengevat werpt onze studie licht op de cruciale rol van on-policy sampling bij AI-uitlijning, en wijst op bepaalde fundamentele uitdagingen van offline uitlijningsalgoritmen.
Bestaande tekst-naar-beeldmodellen hebben moeite met het volgen van complexe tekstprompts, wat de behoefte aan extra grondingsinvoer voor betere bestuurbaarheid vergroot. In dit werk stellen we voor om een scène te ontbinden in visuele primitieven - aangeduid als dichte blob-representaties - die fijnmazige details van de scène bevatten, terwijl ze modulair, menselijk interpreteerbaar en gemakkelijk te construeren zijn. Op basis van blob-representaties ontwikkelen we een blob-gegrond tekst-naar-beeld diffusiemodel, genaamd BlobGEN, voor compositionele generatie. In het bijzonder introduceren we een nieuwe gemaskeerde cross-attention module om de fusie tussen blob-representaties en visuele kenmerken te ontwarren. Om de compositionele eigenschappen van grote taalmodellen (LLMs) te benutten, introduceren we een nieuwe in-context learning aanpak om blob-representaties te genereren uit tekstprompts. Onze uitgebreide experimenten tonen aan dat BlobGEN superieure zero-shot generatiekwaliteit en betere lay-out-gestuurde bestuurbaarheid bereikt op MS-COCO. Wanneer aangevuld met LLMs, toont onze methode superieure numerieke en ruimtelijke correctheid op benchmarks voor compositionele beeldgeneratie. Projectpagina: https://blobgen-2d.github.io.
Huidige architecturen voor videobegrip zijn voornamelijk gebaseerd op 3D-convolutionele blokken of 2D-convoluties met aanvullende operaties voor temporele modellering. Deze methoden behandelen echter allemaal de temporele as als een aparte dimensie van de videosequentie, wat grote reken- en geheugenbudgetten vereist en daardoor hun gebruik op mobiele apparaten beperkt. In dit artikel stellen we voor om de tijdas van een videosequentie in de kanaaldimensie te persen en presenteren we een lichtgewicht videorecognitienetwerk, genaamd SqueezeTime, voor mobiel videobegrip. Om de temporele modelleringscapaciteit van het voorgestelde netwerk te verbeteren, ontwerpen we een Channel-Time Learning (CTL)-blok om de temporele dynamiek van de sequentie vast te leggen. Deze module heeft twee complementaire takken, waarbij de ene tak bedoeld is voor het leren van temporeel belang en de andere tak, met het vermogen om temporele posities te herstellen, is bedoeld om de intertemporele objectmodelleringscapaciteit te verbeteren. Het voorgestelde SqueezeTime is veel lichter en sneller met hoge nauwkeurigheden voor mobiel videobegrip. Uitgebreide experimenten op verschillende videorecognitie- en actiedetectiebenchmarks, zoals Kinetics400, Kinetics600, HMDB51, AVA2.1 en THUMOS14, demonstreren de superioriteit van ons model. Zo behaalt onze SqueezeTime bijvoorbeeld +1,2% nauwkeurigheid en +80% GPU-doorvoerwinst op Kinetics400 in vergelijking met eerdere methoden. De codes zijn openbaar beschikbaar op https://github.com/xinghaochen/SqueezeTime en https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Geïntegreerde spraak- en grote taalmodellen (SLMs) die spraakinstructies kunnen volgen en relevante tekstreacties kunnen genereren, hebben recentelijk aan populariteit gewonnen. De veiligheid en robuustheid van deze modellen blijven echter grotendeels onduidelijk. In dit werk onderzoeken we de potentiële kwetsbaarheden van dergelijke instructievolgende spraak-taalmodellen voor adversariële aanvallen en jailbreaking. Specifiek ontwerpen we algoritmen die adversariële voorbeelden kunnen genereren om SLMs te jailbreaken in zowel white-box als black-box aanvalscenario's zonder menselijke tussenkomst. Daarnaast stellen we tegenmaatregelen voor om dergelijke jailbreaking-aanvallen te voorkomen. Onze modellen, getraind op dialooggegevens met spraakinstructies, behalen state-of-the-art prestaties op de taak van gesproken vraagbeantwoording, met scores van meer dan 80% op zowel veiligheids- als behulpzaamheidsmetrieken. Ondanks veiligheidsmaatregelen tonen experimenten met jailbreaking de kwetsbaarheid van SLMs voor adversariële verstoringen en overdrachtsaanvallen aan, met gemiddelde aanvalssuccespercentages van respectievelijk 90% en 10% wanneer geëvalueerd op een dataset van zorgvuldig ontworpen schadelijke vragen die 12 verschillende toxische categorieën omvatten. We tonen echter aan dat onze voorgestelde tegenmaatregelen het aanvalssucces aanzienlijk verminderen.