Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren een tekst-naar-spraak (TTS) model genaamd BASE TTS, wat staat voor Big Adaptive Streamable TTS with Emergent abilities. BASE TTS is het grootste TTS-model tot nu toe, getraind op 100.000 uur aan spraakdata uit het publieke domein, en behaalt een nieuwe staat-van-de-kunst in spraaknatuurlijkheid. Het maakt gebruik van een autoregressieve Transformer met 1 miljard parameters die ruwe tekst omzet in discrete codes ("speechcodes"), gevolgd door een op convolutie gebaseerde decoder die deze speechcodes incrementeel en streambaar omzet in golfvormen. Bovendien zijn onze speechcodes gebouwd met een nieuwe spraaktokenisatietechniek die spreker-ID-ontvlechting en compressie met byte-pair encoding omvat. In navolging van de veelgerapporteerde "emergent abilities" van grote taalmodellen wanneer ze worden getraind op een toenemend volume aan data, tonen we aan dat BASE TTS-varianten gebouwd met 10.000+ uur en 500M+ parameters natuurlijke prosodie beginnen te vertonen bij tekstueel complexe zinnen. We ontwerpen en delen een gespecialiseerde dataset om deze emergent abilities voor tekst-naar-spraak te meten. We demonstreren de staat-van-de-kunst natuurlijkheid van BASE TTS door evaluatie tegen baselines die publiek beschikbare grootschalige tekst-naar-spraaksystemen omvatten: YourTTS, Bark en TortoiseTTS. Audiovoorbeelden gegenereerd door het model zijn te beluisteren op https://amazon-ltts-paper.com/.
Huidige taalmodellen schieten tekort in het begrijpen van aspecten van de wereld die niet gemakkelijk in woorden te beschrijven zijn, en hebben moeite met complexe, langdurige taken. Videosequenties bieden waardevolle temporele informatie die afwezig is in taal en statische afbeeldingen, waardoor ze aantrekkelijk zijn voor gezamenlijke modellering met taal. Dergelijke modellen zouden zowel menselijke tekstuele kennis als de fysieke wereld kunnen begrijpen, wat bredere AI-mogelijkheden biedt om mensen te assisteren. Het leren van miljoenen tokens van video- en taalsequenties brengt echter uitdagingen met zich mee vanwege geheugenbeperkingen, computationele complexiteit en beperkte datasets. Om deze uitdagingen aan te pakken, hebben we een grote dataset samengesteld van diverse video's en boeken, gebruiken we de RingAttention-techniek om schaalbaar te trainen op lange sequenties, en verhogen we geleidelijk de contextgrootte van 4K naar 1M tokens. Dit artikel levert de volgende bijdragen: (a) Het grootste contextgrootte-neuraal netwerk: We trainen een van de grootste contextgrootte-transformers op lange video- en taalsequenties, wat nieuwe benchmarks stelt in moeilijke retrievalthtaken en langdurig videobegrip. (b) Oplossingen voor het overwinnen van uitdagingen bij visie-taaltraining, waaronder het gebruik van gemaskeerde sequentiepakking voor het mengen van verschillende sequentielengtes, verliesweging om taal en visie in balans te brengen, en een door het model gegenereerde QA-dataset voor lange sequentiechat. (c) Een sterk geoptimaliseerde implementatie met RingAttention, gemaskeerde sequentiepakking en andere belangrijke functies voor het trainen op multimodale sequenties van miljoenen lengtes. (d) Volledig open-source gemaakt van een familie van 7B-parametermodellen die in staat zijn om lange tekstdocumenten (LWM-Text, LWM-Text-Chat) en video's (LWM, LWM-Chat) van meer dan 1M tokens te verwerken. Dit werk baant de weg voor het trainen op enorme datasets van lange video en taal om zowel menselijke kennis als de multimodale wereld te begrijpen, en bredere mogelijkheden te ontwikkelen.
De recente snelle vooruitgang in (zelf) gesuperviseerde leermodellen wordt grotendeels voorspeld door empirische schaalwetten: de prestaties van een model schalen evenredig met zijn grootte. Vergelijkbare schaalwetten blijven echter ongrijpbaar voor domeinen van reinforcement learning, waar het verhogen van het aantal parameters van een model vaak zijn uiteindelijke prestaties schaadt. In dit artikel tonen we aan dat het integreren van Mixture-of-Expert (MoE) modules, en in het bijzonder Soft MoEs (Puigcerver et al., 2023), in waardegestuurde netwerken resulteert in modellen die beter schaalbaar zijn qua parameters, wat blijkt uit aanzienlijke prestatieverbeteringen over een verscheidenheid aan trainingsregimes en modelgroottes. Dit werk levert daarmee sterk empirisch bewijs voor de ontwikkeling van schaalwetten voor reinforcement learning.
We introduceren Lumos, het eerste end-to-end multimodale vraag-antwoordsysteem met tekstbegripcapaciteiten. De kern van Lumos bestaat uit een Scene Text Recognition (STR)-component die tekst extraheert uit first-person beelden, waarvan de output wordt gebruikt om de invoer van een Multimodaal Taalmodel (MM-LLM) te verrijken. Tijdens de ontwikkeling van Lumos kwamen we tal van uitdagingen tegen met betrekking tot de kwaliteit van STR, de algehele latentie en modelinferentie. In dit artikel gaan we dieper in op deze uitdagingen en bespreken we de systeemarchitectuur, ontwerpkeuzes en modelleertechnieken die zijn ingezet om deze obstakels te overwinnen. We bieden ook een uitgebreide evaluatie van elke component, waarbij hoge kwaliteit en efficiëntie worden aangetoond.
We introduceren UFO, een innovatieve UI-gerichte agent om gebruikersverzoeken uit te voeren die zijn afgestemd op applicaties binnen het Windows-besturingssysteem, waarbij de mogelijkheden van GPT-Vision worden benut. UFO maakt gebruik van een dual-agent framework om de grafische gebruikersinterface (GUI) en controle-informatie van Windows-applicaties nauwkeurig te observeren en te analyseren. Hierdoor kan de agent naadloos navigeren en opereren binnen individuele applicaties en daarbuiten om gebruikersverzoeken uit te voeren, zelfs wanneer deze meerdere applicaties omvatten. Het framework bevat een controle-interactiemodule, die actie-uitvoering mogelijk maakt zonder menselijke tussenkomst en volledig geautomatiseerde uitvoering ondersteunt. Als gevolg hiervan transformeert UFO moeizame en tijdrovende processen in eenvoudige taken die uitsluitend via natuurlijke taalcommando's kunnen worden uitgevoerd. We hebben UFO getest in 9 populaire Windows-applicaties, waarbij een verscheidenheid aan scenario's werd bestreken die het dagelijkse gebruik van gebruikers weerspiegelen. De resultaten, gebaseerd op zowel kwantitatieve metingen als praktijkgevallen, benadrukken de superieure effectiviteit van UFO in het vervullen van gebruikersverzoeken. Voor zover wij weten, is UFO de eerste UI-agent die specifiek is ontworpen voor taakvoltooiing binnen de Windows OS-omgeving. De open-source code voor UFO is beschikbaar op https://github.com/microsoft/UFO.
Graph Neural Networks (GNNs) hebben veelbelovend potentieel getoond in het leren van grafische representaties. De meeste GNNs definiëren een lokaal berichtenoverdrachtsmechanisme, waarbij informatie over de grafiek wordt verspreid door meerdere lagen te stapelen. Deze methoden staan echter bekend om twee belangrijke beperkingen: over-squashing en een slechte vastlegging van afhankelijkheden over lange afstanden. Recentelijk zijn Graph Transformers (GTs) naar voren gekomen als een krachtig alternatief voor Message-Passing Neural Networks (MPNNs). GTs hebben echter een kwadratische rekencapaciteit, missen inductieve vooroordelen op grafiekstructuren en zijn afhankelijk van complexe Positionele/Structurele Coderingen (SE/PE). In dit artikel tonen we aan dat hoewel Transformers, complexe berichtenoverdracht en SE/PE in de praktijk voldoende zijn voor goede prestaties, geen van deze noodzakelijk is. Gemotiveerd door het recente succes van State Space Models (SSMs), zoals Mamba, presenteren we Graph Mamba Networks (GMNs), een algemeen raamwerk voor een nieuwe klasse van GNNs gebaseerd op selectieve SSMs. We bespreken en categoriseren de nieuwe uitdagingen bij het toepassen van SSMs op grafisch gestructureerde gegevens en presenteren vier vereiste en één optionele stap om GMNs te ontwerpen, waarbij we kiezen voor (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architectuur van Bidirectionele Selectieve SSM Encoder, (4) Lokale Codering, en optioneel (5) PE en SE. We bieden verder een theoretische rechtvaardiging voor de kracht van GMNs. Experimenten tonen aan dat GMNs, ondanks veel minder rekencapaciteit, een uitstekende prestatie leveren in benchmarksets voor lange afstanden, kleine schaal, grote schaal en heterofiele gegevens.
Naarmate Large Language Models (LLM's) zich snel ontwikkelen, wordt hun invloed in de wetenschap steeds prominenter. De opkomende capaciteiten van LLM's in taakgeneralisatie en vrije dialoog kunnen vakgebieden zoals scheikunde en biologie aanzienlijk vooruithelpen. Het vakgebied van single-cell biologie, dat de fundamentele bouwstenen van levende organismen vormt, kampt echter nog met verschillende uitdagingen. Hoge kennisbarrières en beperkte schaalbaarheid van huidige methoden belemmeren het volledige benutten van LLM's bij het beheersen van single-cell data, wat directe toegankelijkheid en snelle iteratie in de weg staat. Daarom introduceren wij ChatCell, wat een paradigmaverschuiving betekent door single-cell analyse met natuurlijke taal te vergemakkelijken. Door gebruik te maken van vocabulaire-aanpassing en uniforme sequentiegeneratie, heeft ChatCell diepgaande expertise opgedaan in single-cell biologie en de mogelijkheid om een breed scala aan analyse taken te accommoderen. Uitgebreide experimenten tonen verder de robuuste prestaties van ChatCell aan en het potentieel om inzichten in single-cell biologie te verdiepen, wat de weg effent voor toegankelijker en intuïtiever onderzoek in dit cruciale vakgebied. Onze projecthomepage is beschikbaar op https://zjunlp.github.io/project/ChatCell.
De meeste tekst-naar-3D-generatoren bouwen voort op standaard tekst-naar-beeldmodellen die getraind zijn op miljarden afbeeldingen. Ze gebruiken varianten van Score Distillation Sampling (SDS), wat traag, enigszins instabiel en gevoelig voor artefacten is. Een oplossing is om het 2D-generatormodel te finetunen zodat het multi-view bewust wordt, wat kan helpen bij de distillatie of gecombineerd kan worden met reconstructienetwerken om direct 3D-objecten te genereren. In dit artikel verkennen we verder het ontwerpruimte van tekst-naar-3D-modellen. We verbeteren de multi-view-generatie aanzienlijk door in plaats van beeldgeneratoren videogeneratoren te gebruiken. In combinatie met een 3D-reconstructiealgoritme dat, door gebruik te maken van Gaussian splatting, een robuust beeldgebaseerd verlies kan optimaliseren, produceren we direct hoogwaardige 3D-uitvoer vanuit de gegenereerde views. Onze nieuwe methode, IM-3D, reduceert het aantal evaluaties van het 2D-generatornetwerk met 10-100x, wat resulteert in een veel efficiëntere pipeline, betere kwaliteit, minder geometrische inconsistenties en een hogere opbrengst van bruikbare 3D-assets.
Huidige controles over diffusiemodellen (bijvoorbeeld via tekst of ControlNet) voor beeldgeneratie schieten tekort in het herkennen van abstracte, continue attributen zoals lichtrichting of niet-rigide vormverandering. In dit artikel presenteren we een aanpak waarmee gebruikers van tekst-naar-beeldmodellen gedetailleerde controle kunnen hebben over verschillende attributen in een afbeelding. Dit doen we door speciale sets van invoertokens te ontwikkelen die op een continue manier kunnen worden getransformeerd – we noemen deze Continue 3D-woorden. Deze attributen kunnen bijvoorbeeld worden weergegeven als schuifregelaars en samen met tekstprompts worden toegepast voor gedetailleerde controle over beeldgeneratie. Met slechts een enkel mesh en een rendering-engine laten we zien dat onze aanpak kan worden gebruikt om continue gebruikerscontrole te bieden over verschillende 3D-bewuste attributen, waaronder verlichting op verschillende tijdstippen van de dag, vleugeloriëntatie van vogels, het dollyzoom-effect en objectposities. Onze methode is in staat om beeldcreatie te conditioneren met meerdere Continue 3D-woorden en tekstbeschrijvingen tegelijkertijd, zonder extra overhead toe te voegen aan het generatieve proces. Projectpagina: https://ttchengab.github.io/continuous_3d_words
De autoregressieve aard van conventionele grote taalmodellen (LLM's) beperkt inherent de inferentiesnelheid, omdat tokens sequentieel worden gegenereerd. Hoewel speculatieve en parallelle decodeertechnieken proberen dit te verlichten, hebben ze beperkingen: ze vertrouwen ofwel op minder nauwkeurige kleinere modellen voor generatie, of benutten de representaties van het basis-LLM niet volledig. We introduceren een nieuwe architectuur, Tandem-transformers, om deze problemen aan te pakken. Deze architectuur combineert uniek (1) een klein autoregressief model en (2) een groot model dat in blokmodus werkt (waarbij meerdere tokens tegelijkertijd worden verwerkt). De voorspellingsnauwkeurigheid van het kleine model wordt aanzienlijk verbeterd door het aandacht te geven aan de rijkere representaties van het grote model. Op de PaLM2-pre-trainingsdataset laat een tandem van PaLM2-Bison en PaLM2-Gecko een verbetering van 3,3% zien in de nauwkeurigheid van next-token-voorspellingen ten opzichte van een standalone PaLM2-Gecko, wat een versnelling van 1,16x biedt in vergelijking met een PaLM2-Otter-model met vergelijkbare downstreamprestaties. We integreren het tandemmodel verder binnen het speculatieve decodeerframework (SPEED), waarbij het grote model tokens van het kleine model valideert. Dit zorgt ervoor dat de Tandem van PaLM2-Bison en PaLM2-Gecko een aanzienlijke versnelling bereikt (ongeveer 1,14x sneller dan het gebruik van standaard PaLM2-Gecko in SPEED) terwijl de nauwkeurigheid van downstreamtaken identiek blijft.
Handgebaarherkenning wordt een steeds gangbaardere vorm van mens-computerinteractie, vooral nu camera's steeds vaker voorkomen in alledaagse apparaten. Ondanks voortdurende vooruitgang in dit veld wordt gebarenaanpassing vaak onderbelicht. Aanpassing is cruciaal omdat het gebruikers in staat stelt gebaren te definiëren en te demonstreren die natuurlijker, makkelijker te onthouden en toegankelijker zijn. Aanpassing vereist echter efficiënt gebruik van door gebruikers aangeleverde gegevens. Wij introduceren een methode waarmee gebruikers eenvoudig op maat gemaakte gebaren kunnen ontwerpen met een monoculaire camera op basis van één demonstratie. We maken gebruik van transformers en meta-learningtechnieken om uitdagingen op het gebied van few-shot learning aan te pakken. In tegenstelling tot eerder werk ondersteunt onze methode elke combinatie van eenhandige, tweehandige, statische en dynamische gebaren, inclusief verschillende gezichtspunten. We hebben onze aanpassingsmethode geëvalueerd via een gebruikersstudie met 20 gebaren verzameld van 21 deelnemers, waarbij een gemiddelde herkenningsnauwkeurigheid van tot 97% werd behaald op basis van één demonstratie. Ons werk biedt een haalbare weg voor visiegebaseerde gebarenaanpassing en legt de basis voor toekomstige vooruitgang in dit domein.
Een Neural Radiance Field (NeRF) codeert de specifieke relatie tussen 3D-geometrie en het uiterlijk van een scène. Wij stellen hier de vraag of we het uiterlijk van een bron-NeRF op een doel-3D-geometrie kunnen overbrengen op een semantisch betekenisvolle manier, zodat de resulterende nieuwe NeRF de doelgeometrie behoudt maar een uiterlijk heeft dat een analogie vormt met de bron-NeRF. Hiertoe generaliseren we klassieke beeldanalogieën van 2D-beelden naar NeRFs. We benutten correspondentieoverdracht langs semantische affiniteit die wordt gestuurd door semantische kenmerken uit grote, vooraf getrainde 2D-beeldmodellen om multi-view consistente uiterlijkoverdracht te bereiken. Onze methode maakt het mogelijk om de mix-and-match productruimte van 3D-geometrie en uiterlijk te verkennen. We tonen aan dat onze methode traditionele op stilisatie gebaseerde methoden overtreft en dat een grote meerderheid van de gebruikers onze methode verkiest boven verschillende typische baseline-methoden.