Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren MM1.5, een nieuwe familie van multimodale grote taalmodellen (MLLM's) die zijn ontworpen om de mogelijkheden op het gebied van tekstrijke beeldbegrip, visuele verwijzing en verankering, en multi-beeldredenering te verbeteren. Voortbouwend op de MM1-architectuur, neemt MM1.5 een op data gerichte benadering aan voor modeltraining, waarbij systematisch de impact van diverse datamixen gedurende de gehele modeltrainingslevenscyclus wordt onderzocht. Dit omvat hoogwaardige OCR-gegevens en synthetische bijschriften voor voortdurende voorafgaande training, evenals een geoptimaliseerde visuele instructie-afstemmingsdatamix voor begeleide fijnafstemming. Onze modellen variëren van 1B tot 30B parameters, waarbij zowel dichte als mengsel-van-experts (MoE) varianten zijn opgenomen, en laten zien dat zorgvuldige gegevenscuratie en trainingsstrategieën zelfs bij kleine schalen (1B en 3B) sterke prestaties kunnen opleveren. Daarnaast introduceren we twee gespecialiseerde varianten: MM1.5-Video, ontworpen voor videobegrip, en MM1.5-UI, op maat gemaakt voor begrip van mobiele gebruikersinterfaces. Via uitgebreide empirische studies en ablaties bieden we gedetailleerde inzichten in de trainingsprocessen en beslissingen die onze uiteindelijke ontwerpen informeren, en bieden waardevolle richtlijnen voor toekomstig onderzoek in de ontwikkeling van MLLM's.
De mogelijkheid van grote taalmodellen om instructies op te volgen stelt mensen in staat om op een natuurlijke manier met AI-agenten te communiceren. Echter, wanneer ze worden gevraagd om reacties van een specifieke lengte te genereren, hebben grote taalmodellen vaak moeite om aan de behoeften van gebruikers te voldoen vanwege hun inherente moeilijkheid om numerieke beperkingen nauwkeurig waar te nemen. Om de mogelijkheid van grote taalmodellen om de lengte van gegenereerde reacties te controleren te verkennen, stellen we de Taak voor het Genereren van Doellengte (TGD) voor en ontwerpen we twee metrieken, Nauwkeurige Overeenkomst (NO) en Flexibele Overeenkomst (FO) om de prestaties van het model bij het naleven van gespecificeerde reactielengtes te evalueren. Bovendien introduceren we een nieuw, model-agnostisch benadering genaamd Ruler, die Meta Lengte Tokens (MLT's) gebruikt om de mogelijkheid van grote taalmodellen om instructies met lengtebeperkingen op te volgen te verbeteren. Specifiek rust Ruler LLM's uit met de mogelijkheid om reacties van een gespecificeerde lengte te genereren op basis van lengtebeperkingen binnen de instructies. Bovendien kan Ruler automatisch passende MLT genereren wanneer lengtebeperkingen niet expliciet worden verstrekt, wat uitstekende veelzijdigheid en generalisatie aantoont. Uitgebreide experimenten tonen de effectiviteit van Ruler aan bij verschillende LLM's op de Taak voor het Genereren van Doellengte, bijvoorbeeld, op All Level 27.97 gemiddelde winst op NO, 29.57 gemiddelde winst op FO. Bovendien voeren we uitgebreide ablatie-experimenten uit om de doeltreffendheid en generalisatie van Ruler verder te onderbouwen. Onze code en data zijn beschikbaar op https://github.com/Geaming2002/Ruler.
We presenteren hyperverbindingen, een eenvoudige maar effectieve methode die kan dienen als een alternatief voor residuale verbindingen. Deze benadering adresseert specifiek veelvoorkomende nadelen die worden waargenomen bij varianten van residuale verbindingen, zoals het jojo-effect tussen het verdwijnen van de gradiënt en het ineenstorten van de representatie. Theoretisch gezien stellen hyperverbindingen het netwerk in staat om de sterkte van verbindingen tussen kenmerken op verschillende diepten aan te passen en dynamisch lagen te herschikken. We voeren experimenten uit die zich richten op het vooraf trainen van grote taalmodellen, inclusief dichte en schaarse modellen, waar hyperverbindingen aanzienlijke prestatieverbeteringen laten zien ten opzichte van residuale verbindingen. Aanvullende experimenten die zijn uitgevoerd op visuele taken tonen ook vergelijkbare verbeteringen. We verwachten dat deze methode breed toepasbaar en gunstig zal zijn voor een breed scala aan AI-problemen.
De schaarste aan domeinspecifieke dialoogdatasets over verschillende domeinen, van academische onderwerpen tot alledaagse gesprekken, beperkt de ontwikkeling van dialoogsysteem voor diverse toepassingen. Bestaand onderzoek wordt vaak beperkt door ofwel dialoogdatasets die te algemeen zijn of door niche-domeindialoogdatasets waarvan de omvang niet overeenkomt met de vereiste omvang voor het trainen van dialoogsysteem. Om deze kloof te overbruggen, introduceren we DiaSynth - een synthetisch dialooggeneratiekader dat in staat is om hoogwaardige, contextueel rijke dialogen te genereren over een breed scala aan domeinen. Onze benadering verschilt van bestaande kaders door dynamisch dialogen te genereren die gesimuleerde persona's, subonderwerpen en diverse conversatiekenmerken bevatten, met behulp van een Groot Taalmodel (GTM) met Keten van Gedachte (KvG) redenering om contextueel rijke, domeinspecifieke dialogen te creëren die natuurlijke menselijke interacties nauw nabootsen. DiaSynth produceert op maat gemaakte dialogen die realistische gesprekken nabootsen. We voeren onze experimenten uit door synthetische gegevens te genereren met behulp van verschillende GTM's en few-shot voorbeelden van DialogSum en SAMSum. De vooraf getrainde taalmodellen die zijn afgestemd op de synthetische gegevens presteren beter dan de basismodellen met 16,47%, terwijl de vergelijking tussen modellen die zijn afgestemd op in-domeingegevens en synthetische gegevens aantoont dat de synthetische gegevens in staat zijn om 90,48% van de distributie van de in-domeingegevens vast te leggen. De kwaliteit van de gegenereerde gegevens neemt ook toe met de omvang van de GTM's. Deze resultaten bevestigen het potentieel van DiaSynth als een robuust alternatief voor traditionele gegevensverzamelingsmethoden.
Aandachtsmechanismen, met name softmax-aandacht, zijn essentieel geweest voor het succes van op transformer gebaseerde modellen zoals GPT. De kwadratische geheugencomplexiteit van softmax-aandacht ten opzichte van de sequentielengte vormt echter aanzienlijke uitdagingen voor het verwerken van langere sequenties. We introduceren Cottention, een nieuw aandachtsmechanisme dat de softmax-operatie vervangt door cosinusgelijkenis. Door gebruik te maken van de eigenschappen van cosinusgelijkenis en de aandachtsvergelijking te herschikken, bereikt Cottention een lineaire geheugencomplexiteit ten opzichte van de sequentielengte, waardoor het inherent geheugenefficiënter is dan softmax-aandacht. We tonen aan dat Cottention kan worden herschreven als een recurrent neuraal netwerk (RNN) met een eindige verborgen toestand, waardoor constante geheugenbenutting tijdens inferentie mogelijk is. We evalueren Cottention voor zowel de bidirectionele BERT- als causale GPT-taken, waarbij vergelijkbare prestaties als softmax-aandacht worden aangetoond, terwijl de geheugenvereisten aanzienlijk worden verminderd. Om efficiënte berekening te garanderen, ontwikkelen we een aangepaste CUDA-kernel voor Cottention. Onze resultaten tonen aan dat Cottention een veelbelovend alternatief is voor softmax-aandacht, waardoor de verwerking van langere sequenties mogelijk is zonder prestatieverlies, dankzij de lineaire geheugencomplexiteit en het vermogen om een constante geheugenafdruk tijdens inferentie te behouden.
Eerdere studies over robotmanipulatie zijn gebaseerd op een beperkt begrip van de onderliggende 3D-bewegingsbeperkingen en affordances. Om deze uitdagingen aan te pakken, stellen we een allesomvattend paradigma voor, genaamd UniAff, dat 3D-objectgerichte manipulatie en taakbegrip integreert in een verenigde formulering. Specifiek hebben we een dataset gecreëerd die gelabeld is met manipulatiegerelateerde sleutelkenmerken, bestaande uit 900 gearticuleerde objecten van 19 categorieën en 600 gereedschappen van 12 categorieën. Bovendien maken we gebruik van MLLM's om objectgerichte representaties te deduceren voor manipulatietaken, inclusief affordance-herkenning en redeneren over 3D-bewegingsbeperkingen. Uitgebreide experimenten in zowel simulatie- als echte omgevingen tonen aan dat UniAff aanzienlijk de generalisatie van robotmanipulatie voor gereedschappen en gearticuleerde objecten verbetert. We hopen dat UniAff zal dienen als een algemene basislijn voor verenigde robotmanipulatietaken in de toekomst. Afbeeldingen, video's, dataset en code zijn gepubliceerd op de projectwebsite op: https://sites.google.com/view/uni-aff/home
Een van de struikelblokken voor het trainen van algemene robotmodellen vandaag de dag is heterogeniteit. Vorige methoden voor robotleren verzamelden vaak gegevens om te trainen met één specifieke belichaming voor één taak, wat duur is en gevoelig voor overpassing. Dit werk bestudeert het probleem van het leren van beleidsrepresentaties door heterogene voorafgaande training op robotgegevens over verschillende belichamingen en taken op schaal. We stellen Heterogene Vooraf Getrainde Transformers (HPT) voor, die een grote, deelbare romp van een beleidsneuraal netwerk vooraf trainen om een taak- en belichamingagnostische gedeelde representatie te leren. Deze algemene architectuur stemt de specifieke proprioceptie- en zichtinvoer van verschillende belichamingen af op een korte reeks tokens en verwerkt vervolgens dergelijke tokens om te worden toegewezen aan het besturen van robots voor verschillende taken. Door gebruik te maken van recente grootschalige multi-belichamingen echte robotdatasets en simulatie, ingezette robots en menselijke videodatasets, onderzoeken we het vooraf trainen van beleidsregels over heterogeniteit. We voeren experimenten uit om de schaalbaarheid van trainingsdoelstellingen te onderzoeken, tot wel 52 datasets. HPT's presteren beter dan verschillende baselines en verbeteren de prestaties van fijn afgestemde beleidsregels met meer dan 20% op ongeziene taken in meerdere simulatiebenchmarks en echte omgevingen. Zie de projectwebsite (https://liruiw.github.io/hpt/) voor code en video's.
Afbeeldingen die worden geproduceerd door diffusiemodellen zijn steeds populairder in digitale kunst en visuele marketing. Echter, dergelijke gegenereerde afbeeldingen kunnen inhoud van bestaande afbeeldingen repliceren en zo de uitdaging van inhoudsoriginaliteit vormen. Bestaande Image Copy Detection (ICD) modellen, hoewel nauwkeurig in het detecteren van handgemaakte replica's, zien de uitdaging van diffusiemodellen over het hoofd. Dit motiveert ons om ICDiff te introduceren, de eerste ICD gespecialiseerd voor diffusiemodellen. Hiervoor construeren we een Diffusion-Replication (D-Rep) dataset en stellen we een nieuw diepgaand inbeddingsmethode voor. D-Rep maakt gebruik van een geavanceerd diffusiemodel (Stable Diffusion V1.5) om 40.000 afbeeldingsreplica-paren te genereren, die handmatig zijn geannoteerd in 6 replicatieniveaus variërend van 0 (geen replicatie) tot 5 (totale replicatie). Onze methode, PDF-Inbedding, transformeert het replicatieniveau van elk afbeeldingsreplica-paar in een kansdichtheidsfunctie (PDF) als het supervisiesignaal. De intuïtie is dat de waarschijnlijkheid van aangrenzende replicatieniveaus continu en glad moet zijn. Experimentele resultaten tonen aan dat PDF-Inbedding protocoldriven methoden en niet-PDF-keuzes op de D-Rep testset overtreft. Bovendien, door PDF-Inbedding te gebruiken, vinden we dat de replicatieverhoudingen van bekende diffusiemodellen tegenover een open-source galerij variëren van 10% tot 20%.
Dit artikel presenteert Coffee-Gym, een uitgebreide RL-omgeving voor het trainen van modellen die feedback geven op codebewerking. Coffee-Gym omvat twee belangrijke componenten: (1) Coffee, een dataset met de codebewerkingssporen van mensen voor programmeervragen en door machines geschreven feedback voor het bewerken van foutieve code; (2) CoffeeEval, een beloningsfunctie die nauwkeurig de behulpzaamheid van feedback weerspiegelt door de prestaties van de herziene code in unit tests te beoordelen. Met behulp van deze componenten adresseert Coffee-Gym het ontbreken van hoogwaardige datasets voor het trainen van feedbackmodellen met RL, en levert het nauwkeurigere beloningen dan het toonaangevende beloningsmodel (d.w.z. GPT-4). Door Coffee-Gym toe te passen, halen we feedbackmodellen naar boven die beter presteren dan baselines bij het verbeteren van de codebewerking van open-source code LLM's, waardoor ze vergelijkbaar zijn met closed-source LLM's. We stellen de dataset en het modelcheckpoint openbaar beschikbaar.
Naarmate grote taalmodellen (LLM's) steeds geavanceerder worden, heeft hun vermogen om compositorische generalisatie te vertonen - de capaciteit om aangeleerde vaardigheden op nieuwe manieren te combineren die niet tijdens de training zijn tegengekomen - aanzienlijke aandacht gekregen. Dit type generalisatie, met name in scenario's buiten trainingsdata, is ook van groot belang in de studie van AI-veiligheid en -uitlijning. Een recente studie introduceerde de SKILL-MIX-evaluatie, waarbij modellen worden belast met het samenstellen van een kort tekstgedeelte waarin het gebruik van een gespecificeerd k-tupel van taalvaardigheden wordt gedemonstreerd. Terwijl kleine modellen moeite hadden met compositie zelfs bij k=3, presteerden grotere modellen zoals GPT-4 redelijk goed bij k=5 en 6. In dit artikel passen we een opstelling toe die lijkt op SKILL-MIX om de capaciteit van kleinere modellen te evalueren om compositorische generalisatie te leren van voorbeelden. Door gebruik te maken van een diverse set taalvaardigheden - waaronder retorisch, literair, redenerend, theory of mind en gezond verstand - werd GPT-4 gebruikt om tekstvoorbeelden te genereren die willekeurige deelverzamelingen van k vaardigheden vertonen. Het vervolgens fijnafstemmen van 7B en 13B parametermodellen op deze gecombineerde vaardigheidsteksten, voor toenemende waarden van k, onthulde de volgende bevindingen: (1) Training op combinaties van k=2 en 3 vaardigheden leidt tot merkbare verbeteringen in het vermogen om teksten te componeren met k=4 en 5 vaardigheden, ondanks dat modellen dergelijke voorbeelden nooit tijdens de training hebben gezien. (2) Wanneer vaardigheidscategorieën worden verdeeld in trainings- en achtergehouden groepen, verbeteren modellen aanzienlijk in het componeren van teksten met achtergehouden vaardigheden tijdens testen, ondanks dat ze alleen trainingsvaardigheden hebben gezien tijdens fijnafstemming, wat de doeltreffendheid van de trainingsaanpak illustreert, zelfs met eerder ongeziene vaardigheden. Deze studie suggereert ook dat het opnemen van vaardigheidrijke (mogelijk synthetische) tekst in de training aanzienlijk de compositiemogelijkheden van modellen kan verbeteren.
Vraagdecompositie is naar voren gekomen als een effectieve strategie om Grote Taalmodellen (LLMs) aan te zetten om complexe vragen te beantwoorden. Echter, terwijl bestaande methoden voornamelijk gericht zijn op unimodale taalmodellen, is de vraagdecompositiemogelijkheid van Multimodale Grote Taalmodellen (MLLMs) nog niet onderzocht. Om deze reden onderzoekt dit artikel visuele vraagdecompositie op MLLMs. Specifiek introduceren we een systematisch evaluatiekader inclusief een dataset en verschillende evaluatiecriteria om de kwaliteit van de gedecomposeerde subvragen te beoordelen, waarbij blijkt dat bestaande MLLMs moeite hebben met het produceren van hoogwaardige subvragen. Om deze beperking aan te pakken, stellen we een specifieke finetuning-dataset voor, DecoVQA+, om de vraagdecompositiemogelijkheid van het model te verbeteren. Met als doel modellen in staat te stellen om passende selectieve decompositie uit te voeren, stellen we een efficiënte finetuning-pijplijn voor. De finetuning-pijplijn bestaat uit onze voorgestelde dataset en een trainingsdoel voor selectieve decompositie. Gefinetunde MLLMs tonen aanzienlijke verbeteringen in de kwaliteit van subvragen en het beleid van selectieve vraagdecompositie. Bovendien behalen de modellen ook een hogere nauwkeurigheid met selectieve decompositie op VQA benchmark datasets.
De audiowatermerktechniek embedt berichten in audio en haalt berichten nauwkeurig uit de watergemerkte audio. Traditionele methoden ontwikkelen algoritmes op basis van expertervaring om watermerken in het tijdsdomein of transformatiedomein van signalen in te bedden. Met de opkomst van diepe neurale netwerken is op diepe leren gebaseerde neurale audiowatermerking ontstaan. In vergelijking met traditionele algoritmes bereikt neurale audiowatermerking een betere robuustheid door verschillende aanvallen tijdens training te overwegen. Echter, huidige neurale watermerkmethoden kampen met een lage capaciteit en onbevredigende onopvallendheid. Bovendien is het probleem van watermerklokalisatie, dat uiterst belangrijk is en nog meer uitgesproken in neurale audiowatermerking, niet voldoende bestudeerd. In dit artikel ontwerpen we een dubbele-embeddingswatermerkmodel voor efficiënte lokalisatie. We houden ook rekening met de impact van de aanvalslaag op het omkeerbare neurale netwerk in robuuste training, waardoor het model wordt verbeterd om zowel zijn redelijkheid als stabiliteit te versterken. Experimenten tonen aan dat het voorgestelde model, IDEAW, verschillende aanvallen kan weerstaan met een hogere capaciteit en een efficiëntere lokalisatievermogen in vergelijking met bestaande methoden.