Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren AudioPaLM, een groot taalmodel voor spraakbegrip en -generatie. AudioPaLM integreert tekstgebaseerde en spraakgebaseerde taalmodelen, PaLM-2 [Anil et al., 2023] en AudioLM [Borsos et al., 2022], in een uniforme multimodale architectuur die tekst en spraak kan verwerken en genereren, met toepassingen zoals spraakherkenning en spraak-naar-spraakvertaling. AudioPaLM erft de mogelijkheid om paralinguïstische informatie zoals sprekeridentiteit en intonatie te behouden van AudioLM, en de linguïstische kennis die alleen aanwezig is in tekstgebaseerde grote taalmodelen zoals PaLM-2. We tonen aan dat het initialiseren van AudioPaLM met de gewichten van een tekstgebaseerd groot taalmodel de spraakverwerking verbetert, waarbij succesvol gebruik wordt gemaakt van de grotere hoeveelheid teksttrainingsdata die tijdens de pretraining is gebruikt om spraaktaken te ondersteunen. Het resulterende model presteert aanzienlijk beter dan bestaande systemen voor spraakvertalingstaken en heeft de mogelijkheid om zero-shot spraak-naar-tekstvertaling uit te voeren voor veel talen waarbij de combinatie van invoer- en doeltaal niet tijdens de training is gezien. AudioPaLM toont ook kenmerken van audiotalamodelen, zoals het overdragen van een stem tussen talen op basis van een kort gesproken prompt. We publiceren voorbeelden van onze methode op https://google-research.github.io/seanet/audiopalm/examples.
Het recent voorgestelde Segment Anything Model (SAM) heeft een aanzienlijke invloed gehad op veel computervisietaken. Het wordt steeds meer een fundamentele stap voor veel hoogwaardige taken, zoals beeldsegmentatie, beeldbeschrijving en beeldbewerking. Echter, de enorme rekenkosten belemmeren een bredere toepassing in industriële scenario's. De rekenkosten komen voornamelijk voort uit de Transformer-architectuur bij hoge-resolutie invoer. In dit artikel stellen we een versneld alternatief voor voor deze fundamentele taak met vergelijkbare prestaties. Door de taak te herformuleren als segmentgeneratie en prompting, ontdekken we dat een reguliere CNN-detector met een instantiesegmentatietak deze taak ook goed kan uitvoeren. Specifiek zetten we deze taak om naar de goed bestudeerde instantiesegmentatietaak en trainen we direct de bestaande instantiesegmentatiemethode met slechts 1/50 van de SA-1B-dataset die door de SAM-auteurs is gepubliceerd. Met onze methode bereiken we een vergelijkbare prestatie met de SAM-methode bij een 50 keer hogere uitvoersnelheid. We geven voldoende experimentele resultaten om de effectiviteit ervan aan te tonen. De codes en demo's zullen worden vrijgegeven op https://github.com/CASIA-IVA-Lab/FastSAM.
Hoe informeert taal ons downstream denken? In het bijzonder, hoe creëren mensen betekenis uit taal – en hoe kunnen we een theorie van linguïstische betekenis benutten om machines te bouwen die op meer mensachtige manieren denken? In dit artikel stellen we rationele betekenisconstructie voor, een computationeel raamwerk voor taalgeïnformeerd denken dat neurale modellen van taal combineert met probabilistische modellen voor rationele inferentie. We definiëren linguïstische betekenis als een contextgevoelige afbeelding van natuurlijke taal naar een probabilistische taal van denken (PLoT) – een algemeen bruikbaar symbolisch substraat voor probabilistische, generatieve wereldmodellering. Onze architectuur integreert twee krachtige computationele tools die voorheen niet samengekomen zijn: we modelleren denken met probabilistische programma's, een expressieve representatie voor flexibel gezond verstand redeneren; en we modelleren betekenisconstructie met grote taalmmodellen (LLMs), die brede dekking bieden voor vertaling van natuurlijke taal uitingen naar code-expressies in een probabilistische programmeertaal. We illustreren ons raamwerk in actie door voorbeelden die vier kerngebieden uit de cognitieve wetenschap beslaan: probabilistisch redeneren, logisch en relationeel redeneren, visueel en fysiek redeneren, en sociaal redeneren over agenten en hun plannen. In elk daarvan tonen we aan dat LLMs contextgevoelige vertalingen kunnen genereren die pragmatisch passende linguïstische betekenissen vastleggen, terwijl Bayesiaanse inferentie met de gegenereerde programma's coherent en robuust gezond verstand redeneren ondersteunt. We breiden ons raamwerk uit om cognitief gemotiveerde symbolische modules te integreren om een uniforme interface voor gezond verstand denken vanuit taal te bieden. Ten slotte onderzoeken we hoe taal de constructie van wereldmodellen zelf kan sturen.
Het kwantiseren van activaties, gewichten en gradiënten naar 4-bit is veelbelovend om de training van neurale netwerken te versnellen. Bestaande 4-bit trainingsmethoden vereisen echter aangepaste numerieke formaten die niet worden ondersteund door hedendaagse hardware. In dit werk stellen we een trainingsmethode voor voor transformers waarbij alle matrixvermenigvuldigingen worden uitgevoerd met INT4-rekenkunde. Trainen met een ultra-lage INT4-precisie is uitdagend. Om dit te bereiken, analyseren we zorgvuldig de specifieke structuren van activaties en gradiënten in transformers om toegewijde kwantisatoren voor hen voor te stellen. Voor forward propagatie identificeren we de uitdaging van uitschieters en stellen we een Hadamard-kwantisator voor om de uitschieters te onderdrukken. Voor backpropagatie benutten we de structurele sparsity van gradiënten door bit-splitsing en leverage score sampling technieken voor te stellen om gradiënten nauwkeurig te kwantiseren. Ons algoritme behaalt concurrerende nauwkeurigheid op een breed scala aan taken, waaronder natuurlijke taalverwerking, machinaal vertalen en beeldclassificatie. In tegenstelling tot eerdere 4-bit trainingsmethoden kan ons algoritme worden geïmplementeerd op de huidige generatie GPU's. Onze prototypische implementatie van lineaire operatoren is tot 2,2 keer sneller dan de FP16-tegenhangers en versnelt de training met tot 35,1%.
We beschouwen grote taalmodellen (LLMs) als stochastische taallagen in een netwerk, waarbij de leerbare parameters de natuurlijke taalprompts in elke laag zijn. We stapelen twee van dergelijke lagen, waarbij de uitvoer van de ene laag wordt doorgegeven aan de volgende. We noemen deze gestapelde architectuur een Deep Language Network (DLN). We laten eerst zien hoe je effectief promptoptimalisatie kunt uitvoeren voor een 1-laags taalmodel (DLN-1). Vervolgens tonen we aan hoe je 2-laagse DLNs (DLN-2) kunt trainen, waarbij twee prompts moeten worden geleerd. We beschouwen de uitvoer van de eerste laag als een latente variabele die gemarginaliseerd moet worden, en ontwikkelen een variational inference-algoritme voor het gezamenlijk trainen van prompts. Een DLN-2 bereikt een hogere prestaties dan een enkele laag, soms vergelijkbaar met few-shot GPT-4, zelfs wanneer elk LLM in het netwerk kleiner en minder krachtig is. De DLN-code is open source: https://github.com/microsoft/deep-language-networks.
Transformer-modellen zijn de afgelopen jaren op grote schaal geadopteerd in verschillende domeinen, en met name grote taalmodelen hebben het vakgebied van AI aanzienlijk vooruitgebracht. Door hun omvang is de capaciteit van deze netwerken enorm toegenomen, maar dit ging gepaard met een aanzienlijke toename in benodigde rekenkracht. Kwantisatie is een van de meest effectieve manieren om de rekentijd en het geheugengebruik van neurale netwerken te verminderen. Veel studies hebben echter aangetoond dat moderne transformer-modellen de neiging hebben sterke uitschieters in hun activaties te leren, wat het kwantiseren ervan bemoeilijkt. Om acceptabele prestaties te behouden, vereist het bestaan van deze uitschieters dat activaties in een hogere bitbreedte worden gebruikt, of het gebruik van verschillende numerieke formaten, extra fine-tuning, of andere oplossingen. Wij tonen aan dat sterke uitschieters gerelateerd zijn aan zeer specifiek gedrag van aandachtskoppen die proberen een "no-op" of slechts een gedeeltelijke update van de restwaarde te leren. Om de exacte nullen die nodig zijn in de aandachtmatrix voor een geen-update te bereiken, wordt de invoer van de softmax tijdens de training steeds groter gemaakt, wat uitschieters in andere delen van het netwerk veroorzaakt. Op basis van deze observaties stellen we twee eenvoudige (onafhankelijke) aanpassingen voor aan het aandachtmechanisme - geknipte softmax en gegate aandacht. We tonen empirisch aan dat modellen die met onze methoden zijn voorgetraind, aanzienlijk kleinere uitschieters leren terwijl ze de prestaties met zwevendekommagetallen behouden en soms zelfs verbeteren. Dit stelt ons in staat transformers te kwantiseren naar volledige INT8-kwantisatie van de activaties zonder enige extra inspanning. We demonstreren de effectiviteit van onze methoden op zowel taalmodelen (BERT, OPT) als vision transformers.
Text-to-image diffusiemodellen die vooraf zijn getraind op miljarden afbeelding-tekstparen hebben recentelijk text-to-3D contentcreatie mogelijk gemaakt door een willekeurig geïnitialiseerd Neural Radiance Fields (NeRF) te optimaliseren met score-distillatie. De resulterende 3D-modellen vertonen echter twee beperkingen: (a) kwaliteitsproblemen zoals verzadigde kleuren en het Janus-probleem; (b) extreem lage diversiteit in vergelijking met tekstgeleide afbeeldingsynthese. In dit artikel tonen we aan dat het conflict tussen het NeRF-optimalisatieproces en uniforme timestep-bemonstering in score-distillatie de hoofdoorzaak is van deze beperkingen. Om dit conflict op te lossen, stellen we voor om timestep-bemonstering te prioriteren met monotoon niet-stijgende functies, wat de NeRF- optimalisatie afstemt op het bemonsteringsproces van het diffusiemodel. Uitgebreide experimenten tonen aan dat onze eenvoudige herontwerp de text-to-3D contentcreatie aanzienlijk verbetert met hogere kwaliteit en diversiteit.
Recente vooruitgang in grootschalige tekst-naar-beeld diffusiemodellen heeft veel toepassingen in beeldbewerking mogelijk gemaakt. Geen van deze methoden is echter in staat geweest om de lay-out van bestaande afbeeldingen te bewerken. Om dit gat te dichten, stellen we het eerste raamwerk voor voor het bewerken van de lay-out van een enkele afbeelding, waarbij de visuele eigenschappen behouden blijven, waardoor continue bewerkingen op een enkele afbeelding mogelijk zijn. Onze aanpak wordt gerealiseerd door middel van twee belangrijke modules. Ten eerste, om de kenmerken van meerdere objecten binnen een afbeelding te behouden, ontwarren we de concepten van verschillende objecten en embedden we ze in afzonderlijke tekstuele tokens met behulp van een nieuwe methode genaamd gemaskeerde tekstuele inversie. Vervolgens stellen we een trainingsvrije optimalisatiemethode voor om lay-outcontrole uit te voeren voor een vooraf getraind diffusiemodel, waardoor we afbeeldingen met geleerde concepten kunnen regenereren en afstemmen op door de gebruiker gespecificeerde lay-outs. Als het eerste raamwerk voor het bewerken van de lay-out van bestaande afbeeldingen, tonen we aan dat onze methode effectief is en andere baseline-methoden die zijn aangepast om deze taak te ondersteunen, overtreft. Onze code zal na acceptatie vrij beschikbaar zijn voor publiek gebruik.
Polis is een platform dat gebruikmaakt van machine-intelligentie om deliberatieve processen op te schalen. In dit artikel onderzoeken we de kansen en risico's die gepaard gaan met het toepassen van Large Language Models (LLM's) op uitdagingen bij het faciliteren, modereren en samenvatten van de resultaten van Polis-engagementen. In het bijzonder demonstreren we met pilootexperimenten met Anthropic's Claude dat LLM's inderdaad menselijke intelligentie kunnen versterken om Polis-gesprekken efficiënter te laten verlopen. We ontdekken met name dat samenvattingsmogelijkheden categorisch nieuwe methoden bieden met een enorme belofte om het publiek te empoweren in collectieve betekenisvormingsoefeningen. En opmerkelijk genoeg hebben contextbeperkingen van LLM's een aanzienlijke impact op de inzichten en kwaliteit van deze resultaten. Deze kansen gaan echter gepaard met risico's. We bespreken enkele van deze risico's, evenals principes en technieken om ze te karakteriseren en te mitigeren, en de implicaties voor andere deliberatieve of politieke systemen die mogelijk LLM's inzetten. Tot slot concluderen we met verschillende open toekomstige onderzoeksrichtingen voor het versterken van tools zoals Polis met LLM's.
Equivariante Transformers zoals Equiformer hebben de effectiviteit aangetoond van het toepassen van Transformers op het domein van 3D-atomistische systemen. Ze zijn echter nog steeds beperkt tot kleine graden van equivariante representaties vanwege hun rekencomplexiteit. In dit artikel onderzoeken we of deze architecturen goed kunnen schalen naar hogere graden. Uitgaande van Equiformer vervangen we eerst SO(3)-convoluties door eSCN-convoluties om hogere-graadstensoren efficiënt te integreren. Vervolgens stellen we, om het potentieel van hogere graden beter te benutten, drie architectuurverbeteringen voor: aandacht-renormalisatie, separabele S^2-activering en separabele laagnormalisatie. Door dit alles samen te voegen, stellen we EquiformerV2 voor, dat de vorige state-of-the-art methoden op de grootschalige OC20-dataset overtreft met tot wel 12% op krachten, 4% op energieën, betere snelheid-nauwkeurigheid-compromissen biedt, en een 2-voudige reductie in DFT-berekeningen die nodig zijn voor het berekenen van adsorptie-energieën.