Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit rapport presenteren we het nieuwste model van de Gemini-familie, Gemini 1.5 Pro, een zeer rekenkundig efficiënt multimodaal mixture-of-experts-model dat in staat is om fijnmazige informatie op te halen en te redeneren over miljoenen tokens aan context, waaronder meerdere lange documenten en uren aan video en audio. Gemini 1.5 Pro bereikt bijna perfecte recall bij taken voor het ophalen van lange context over verschillende modaliteiten, verbetert de state-of-the-art op het gebied van vraag-antwoordtaken voor lange documenten, lange video's en automatische spraakherkenning (ASR) met lange context, en evenaart of overtreft de state-of-the-art prestaties van Gemini 1.0 Ultra op een breed scala aan benchmarks. Door de grenzen van het lange-contextvermogen van Gemini 1.5 Pro te bestuderen, vinden we een voortdurende verbetering in next-token-voorspelling en bijna perfecte retrieval (>99%) tot ten minste 10 miljoen tokens, een generatiesprong ten opzichte van bestaande modellen zoals Claude 2.1 (200k) en GPT-4 Turbo (128k). Tot slot belichten we verrassende nieuwe mogelijkheden van grote taalmodelen aan de frontlinie; wanneer het model een grammaticahandleiding krijgt voor Kalamang, een taal met minder dan 200 sprekers wereldwijd, leert het Engels naar Kalamang te vertalen op een niveau dat vergelijkbaar is met een persoon die hetzelfde materiaal heeft bestudeerd.
We presenteren DeepSeek-VL, een open-source Vision-Language (VL) Model ontworpen voor real-world toepassingen op het gebied van visie en taalbegrip. Onze aanpak is gestructureerd rond drie belangrijke dimensies: Wij streven ernaar om onze data divers, schaalbaar en uitgebreid te laten zijn, waarbij real-world scenario's zoals webscreenshots, PDF's, OCR, grafieken en kennisgebaseerde content worden gedekt, met als doel een uitgebreide representatie van praktische contexten te bieden. Verder creëren we een use case-taxonomie op basis van echte gebruikersscenario's en bouwen we een instructieafstemmingsdataset dienovereenkomstig. Het finetunen met deze dataset verbetert de gebruikerservaring van het model aanzienlijk in praktische toepassingen. Met het oog op efficiëntie en de eisen van de meeste real-world scenario's, integreert DeepSeek-VL een hybride visie-encoder die efficiënt hoogresolutiebeelden (1024 x 1024) verwerkt, terwijl een relatief lage computationele overhead wordt behouden. Deze ontwerpkeuze zorgt ervoor dat het model kritische semantische en gedetailleerde informatie kan vastleggen bij diverse visuele taken. Wij stellen dat een vaardig Vision-Language Model in de eerste plaats sterke taalvaardigheden moet bezitten. Om het behoud van LLM-capaciteiten tijdens de pretraining te waarborgen, onderzoeken we een effectieve VL-pretrainingsstrategie door LLM-training vanaf het begin te integreren en de competitieve dynamiek tussen visie- en taalmodaliteiten zorgvuldig te beheren. De DeepSeek-VL-familie (zowel de 1.3B als de 7B modellen) toont superieure gebruikerservaringen als een vision-language chatbot in real-world toepassingen, waarbij state-of-the-art of competitieve prestaties worden behaald op een breed scala aan visuele-taalbenchmarks bij dezelfde modelgrootte, terwijl robuuste prestaties op taalgerichte benchmarks worden behouden. We hebben zowel de 1.3B als de 7B modellen publiekelijk toegankelijk gemaakt om innovaties op basis van dit foundation model te bevorderen.
Diffusiemodellen hebben opmerkelijke prestaties geleverd op het gebied van tekst-naar-beeldgeneratie. De meeste veelgebruikte modellen maken echter nog steeds gebruik van CLIP als hun tekstencoder, wat hun vermogen beperkt om uitgebreide prompts te begrijpen, zoals meerdere objecten, gedetailleerde attributen, complexe relaties, lange tekstalignering, enz. In dit artikel introduceren we een Efficient Large Language Model Adapter, genaamd ELLA, die tekst-naar-beeld diffusiemodellen uitrust met krachtige Large Language Models (LLM) om tekstalignering te verbeteren zonder training van U-Net of LLM. Om twee vooraf getrainde modellen naadloos te verbinden, onderzoeken we een reeks ontwerpen voor semantische aligneringsconnectoren en introduceren we een nieuwe module, de Timestep-Aware Semantic Connector (TSC), die dynamisch tijdsafhankelijke condities uit LLM extraheert. Onze aanpak past semantische kenmerken aan in verschillende fasen van het denoisingsproces, waardoor diffusiemodellen worden geholpen bij het interpreteren van lange en ingewikkelde prompts over samplingtijdstappen. Daarnaast kan ELLA eenvoudig worden geïntegreerd met communitymodellen en -tools om hun promptvolgcapaciteiten te verbeteren. Om tekst-naar-beeldmodellen te evalueren in het volgen van uitgebreide prompts, introduceren we het Dense Prompt Graph Benchmark (DPG-Bench), een uitdagende benchmark bestaande uit 1K uitgebreide prompts. Uitgebreide experimenten tonen de superioriteit van ELLA aan in het volgen van uitgebreide prompts in vergelijking met state-of-the-art methoden, met name in composities van meerdere objecten met diverse attributen en relaties.
In het voortdurend evoluerende digitale audiolandschap heeft Spotify, bekend om zijn muziek- en praatcontent, onlangs luisterboeken geïntroduceerd voor zijn grote gebruikersbasis. Hoewel veelbelovend, brengt deze stap aanzienlijke uitdagingen met zich mee voor gepersonaliseerde aanbevelingen. In tegenstelling tot muziek en podcasts kunnen luisterboeken, die aanvankelijk tegen betaling beschikbaar zijn, niet eenvoudig worden doorgebladerd voordat ze worden aangeschaft, wat hogere inzet betekent voor de relevantie van aanbevelingen. Bovendien stuit de introductie van een nieuw contenttype op een bestaand platform op extreme dataschaarste, aangezien de meeste gebruikers niet vertrouwd zijn met dit nieuwe contenttype. Ten slotte vereist het aanbevelen van content aan miljoenen gebruikers dat het model snel reageert en schaalbaar is. Om deze uitdagingen aan te pakken, maken we gebruik van gebruikersvoorkeuren voor podcasts en muziek en introduceren we 2T-HGNN, een schaalbaar aanbevelingssysteem bestaande uit Heterogene Grafische Neurale Netwerken (HGNN's) en een Two Tower (2T)-model. Deze nieuwe aanpak onthult genuanceerde itemrelaties terwijl een lage latentie en complexiteit worden gegarandeerd. We ontkoppelen gebruikers van de HGNN-grafiek en introduceren een innovatieve multi-link neighbor sampler. Deze keuzes, samen met het 2T-component, verminderen de complexiteit van het HGNN-model aanzienlijk. Empirische evaluaties met miljoenen gebruikers tonen een aanzienlijke verbetering in de kwaliteit van gepersonaliseerde aanbevelingen, wat resulteert in een stijging van 46% in het startpercentage van nieuwe luisterboeken en een toename van 23% in de streamingsnelheden. Interessant genoeg strekt de impact van ons model zich uit tot voorbij luisterboeken, waardoor ook gevestigde producten zoals podcasts ervan profiteren.
Recente vooruitgang in tekst-naar-beeld generatieve systemen is grotendeels gedreven door diffusiemodellen. Echter, enkelfase tekst-naar-beeld diffusiemodellen kampen nog steeds met uitdagingen op het gebied van rekenkundige efficiëntie en de verfijning van beelddetails. Om dit probleem aan te pakken, stellen we CogView3 voor, een innovatief cascadeframework dat de prestaties van tekst-naar-beeld diffusie verbetert. CogView3 is het eerste model dat relay-diffusie implementeert in het domein van tekst-naar-beeld generatie, waarbij de taak wordt uitgevoerd door eerst afbeeldingen met een lage resolutie te creëren en vervolgens relay-gebaseerde superresolutie toe te passen. Deze methodologie resulteert niet alleen in competitieve tekst-naar-beeld uitvoer, maar vermindert ook aanzienlijk zowel de trainings- als de inferentiekosten. Onze experimentele resultaten tonen aan dat CogView3 SDXL, het huidige state-of-the-art open-source tekst-naar-beeld diffusiemodel, overtreft met 77,0% in menselijke evaluaties, terwijl het slechts ongeveer de helft van de inferentietijd vereist. De gedistilleerde variant van CogView3 bereikt vergelijkbare prestaties terwijl slechts 1/10 van de inferentietijd van SDXL wordt gebruikt.
Feed-forward 3D-generatieve modellen zoals het Large Reconstruction Model (LRM) hebben een uitzonderlijke generatiesnelheid aangetoond. De transformer-gebaseerde methoden benutten echter niet de geometrische priors van de triplane-component in hun architectuur, wat vaak leidt tot suboptimale kwaliteit gezien de beperkte omvang van 3D-data en de trage training. In dit werk presenteren we het Convolutional Reconstruction Model (CRM), een hoogwaardig feed-forward single image-to-3D generatief model. Erkennend de beperkingen die worden opgelegd door schaarse 3D-data, benadrukken we de noodzaak om geometrische priors te integreren in het netwerkontwerp. CRM bouwt voort op de cruciale observatie dat de visualisatie van een triplane ruimtelijke correspondentie vertoont met zes orthografische afbeeldingen. Eerst genereert het zes orthografische aanzichten vanuit een enkele invoerafbeelding, waarna deze afbeeldingen worden ingevoerd in een convolutionele U-Net, waarbij de sterke pixeluitlijning en aanzienlijke bandbreedte worden benut om een hoogwaardige triplane te creëren. CRM maakt verder gebruik van Flexicubes als geometrische representatie, wat directe end-to-end optimalisatie op textuurmeshes mogelijk maakt. Over het geheel genomen levert ons model in slechts 10 seconden een hoogwaardige textuurmesh op vanuit een afbeelding, zonder enige optimalisatie tijdens de testfase.
Text-to-image diffusiemodellen (T2I) hebben ongekende mogelijkheden getoond in het creëren van realistische en esthetische afbeeldingen. Daarentegen blijven text-to-video diffusiemodellen (T2V) ver achter in frame-kwaliteit en tekstuitlijning, vanwege onvoldoende kwaliteit en hoeveelheid van trainingsvideo's. In dit artikel introduceren we VideoElevator, een trainingsvrije en plug-and-play methode, die de prestaties van T2V verhoogt door gebruik te maken van de superieure mogelijkheden van T2I. In tegenstelling tot conventionele T2V-steekproeven (d.w.z. temporele en ruimtelijke modellering), ontbindt VideoElevator expliciet elke steekproefstap in temporele bewegingverfijning en ruimtelijke kwaliteitsverhoging. Specifiek gebruikt temporele bewegingverfijning ingekapselde T2V om temporele consistentie te verbeteren, gevolgd door inversie naar de ruisverdeling die vereist is door T2I. Vervolgens benut ruimtelijke kwaliteitsverhoging opgeblazen T2I om direct minder ruisachtige latenten te voorspellen, waardoor meer foto-realistische details worden toegevoegd. We hebben experimenten uitgevoerd met uitgebreide prompts onder de combinatie van verschillende T2V en T2I. De resultaten tonen aan dat VideoElevator niet alleen de prestaties van T2V-baselines verbetert met fundamentele T2I, maar ook stijlvolle videosynthese faciliteert met gepersonaliseerde T2I. Onze code is beschikbaar op https://github.com/YBYBZhang/VideoElevator.