Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Voorgetrainde taalmodellen vormen de basis van verschillende AI-toepassingen, maar hun hoge rekenkosten voor training beperken de toegankelijkheid. Initiatieven zoals BLOOM en StarCoder streven ernaar de toegang tot voorgetrainde modellen te democratiseren voor gezamenlijke gemeenschapsontwikkeling. Echter, bestaande modellen kampen met uitdagingen: beperkte meertalige mogelijkheden, voortdurende voorpretraining die catastrofaal vergeten veroorzaakt, terwijl voorpretraining vanaf nul rekenkundig kostbaar is, en naleving van AI-veiligheids- en ontwikkelingswetten. Dit artikel presenteert Aurora-M, een 15B-parameter meertalig open-source model getraind op Engels, Fins, Hindi, Japans, Vietnamees en code. Voortdurend voorgetraind vanaf StarCoderPlus op 435 miljard extra tokens, overschrijdt Aurora-M 2 biljoen tokens in totale trainings-tokenaantallen. Het is het eerste open-source meertalige model dat is afgestemd op door mensen beoordeelde veiligheidsinstructies, waardoor de ontwikkeling ervan niet alleen aansluit bij conventionele red-teaming overwegingen, maar ook bij de specifieke zorgen die zijn geuit in de Biden-Harris Executive Order over de Veilige, Beveiligde en Betrouwbare Ontwikkeling en het Gebruik van Kunstmatige Intelligentie. Aurora-M wordt grondig geëvalueerd over verschillende taken en talen, waarbij het robuustheid tegen catastrofaal vergeten aantoont en alternatieven overtreft in meertalige omgevingen, met name in veiligheidsevaluaties. Om verantwoorde open-source LLM-ontwikkeling te bevorderen, worden Aurora-M en zijn varianten vrijgegeven op https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
Een van de belangrijkste tekortkomingen in huidige tekst-naar-beeld (T2I) modellen is hun onvermogen om consistent afbeeldingen te genereren die nauwkeurig de ruimtelijke relaties volgen die in de tekstprompt zijn gespecificeerd. In dit artikel bieden we een uitgebreid onderzoek naar deze beperking, terwijl we ook datasets en methoden ontwikkelen die state-of-the-art prestaties leveren. Ten eerste constateren we dat huidige visie-taal datasets ruimtelijke relaties niet goed genoeg weergeven; om dit knelpunt te verlichten, creëren we SPRIGHT, de eerste grootschalige dataset die gericht is op ruimtelijke relaties, door 6 miljoen afbeeldingen uit 4 veelgebruikte visie datasets opnieuw te voorzien van bijschriften. Door middel van een driedelige evaluatie- en analysepijplijn constateren we dat SPRIGHT aanzienlijk verbetert ten opzichte van bestaande datasets in het vastleggen van ruimtelijke relaties. Om de effectiviteit ervan aan te tonen, maken we gebruik van slechts ~0,25% van SPRIGHT en behalen we een verbetering van 22% in het genereren van ruimtelijk nauwkeurige afbeeldingen, terwijl we ook de FID- en CMMD-scores verbeteren. Ten tweede constateren we dat training op afbeeldingen met een groot aantal objecten leidt tot aanzienlijke verbeteringen in ruimtelijke consistentie. Opmerkelijk is dat we state-of-the-art behalen op T2I-CompBench met een ruimtelijke score van 0,2133, door fine-tuning op minder dan 500 afbeeldingen. Tot slot documenteren we door middel van een reeks gecontroleerde experimenten en ablatie-studies meerdere bevindingen waarvan we geloven dat ze het begrip van factoren die ruimtelijke consistentie in tekst-naar-beeld modellen beïnvloeden, zullen vergroten. We maken onze dataset en model publiekelijk beschikbaar om verder onderzoek op dit gebied te bevorderen.
3D-contentgeneratie op basis van tekstprompts of enkele afbeeldingen heeft recentelijk opmerkelijke vooruitgang geboekt in kwaliteit en snelheid. Een van de dominante paradigma's omvat het genereren van consistente multi-view afbeeldingen, gevolgd door een sparse-view reconstructie. Vanwege de uitdaging om de mesh-representatie direct te vervormen om de doel-topologie te benaderen, leren de meeste methodologieën een impliciete representatie (zoals NeRF) tijdens de sparse-view reconstructie en verkrijgen ze de doel-mesh via een post-processing extractie. Hoewel de impliciete representatie effectief rijke 3D-informatie kan modelleren, vereist de training ervan doorgaans een lange convergentietijd. Bovendien leidt de post-extractie operatie vanuit het impliciete veld ook tot ongewenste visuele artefacten. In dit artikel stellen we FlexiDreamer voor, een nieuw single image-to-3d generatie framework dat de doel-mesh op een end-to-end manier reconstrueert. Door gebruik te maken van een flexibele gradient-gebaseerde extractie, bekend als FlexiCubes, omzeilt onze methode de tekortkomingen die door de post-processing worden veroorzaakt en vergemakkelijkt het een directe verkrijging van de doel-mesh. Verder integreren we een multi-resolutie hash grid encoderingsschema dat de encoderingsniveaus progressief activeert in het impliciete veld van FlexiCubes om geometrische details vast te leggen voor per-stap optimalisatie. Opmerkelijk is dat FlexiDreamer een dichte 3D-structuur herstelt vanuit een single-view afbeelding in ongeveer 1 minuut op een enkele NVIDIA A100 GPU, wat een aanzienlijke verbetering is ten opzichte van eerdere methodologieën.
Het genereren van 3D-scènes op basis van door de gebruiker gespecificeerde voorwaarden biedt een veelbelovende mogelijkheid om de productielast in 3D-toepassingen te verlichten. Eerdere studies vereisten aanzienlijke inspanning om de gewenste scène te realiseren, vanwege beperkte controlecondities. Wij stellen een methode voor om 3D-scènes te beheersen en te genereren onder multimodale voorwaarden met behulp van gedeeltelijke afbeeldingen, lay-outinformatie weergegeven in bovenaanzicht, en tekstprompts. Het combineren van deze voorwaarden om een 3D-scène te genereren brengt de volgende belangrijke moeilijkheden met zich mee: (1) het creëren van grote datasets, (2) het weerspiegelen van de interactie van multimodale voorwaarden, en (3) domeinafhankelijkheid van de lay-outcondities. We ontleden het proces van 3D-scènegeneratie in 2D-afbeeldingsgeneratie vanuit de gegeven voorwaarden en 3D-scènegeneratie vanuit 2D-afbeeldingen. 2D-afbeeldingsgeneratie wordt bereikt door een vooraf getraind tekst-naar-afbeelding model te fine-tunen met een kleine kunstmatige dataset van gedeeltelijke afbeeldingen en lay-outs, en 3D-scènegeneratie wordt bereikt door lay-out-geconditioneerde diepteschatting en neurale stralingsvelden (NeRF), waardoor het creëren van grote datasets wordt vermeden. Het gebruik van een gemeenschappelijke representatie van ruimtelijke informatie met behulp van 360-graden afbeeldingen maakt het mogelijk om de interacties van multimodale voorwaarden te overwegen en vermindert de domeinafhankelijkheid van de lay-outcontrole. De experimentele resultaten hebben kwalitatief en kwantitatief aangetoond dat de voorgestelde methode 3D-scènes kan genereren in diverse domeinen, van binnenruimtes tot buitenruimtes, volgens multimodale voorwaarden.
Generatieve modellen worden tegenwoordig veel gebruikt door grafisch ontwerpers en kunstenaars. Eerdere onderzoeken hebben aangetoond dat deze modellen inhoud uit hun trainingsdata onthouden en vaak repliceren tijdens het genereren. Naarmate hun populariteit toeneemt, is het daarom belangrijk geworden om een databasesearch uit te voeren om te bepalen of de eigenschappen van een afbeelding kunnen worden toegeschreven aan specifieke trainingsdata, telkens voordat een gegenereerde afbeelding voor professionele doeleinden wordt gebruikt. Bestaande tools voor dit doel richten zich op het ophalen van afbeeldingen met vergelijkbare semantische inhoud. Tegelijkertijd maken veel kunstenaars zich zorgen over stijlreplicatie in tekst-naar-afbeelding-modellen. Wij presenteren een raamwerk voor het begrijpen en extraheren van stijlbeschrijvingen uit afbeeldingen. Ons raamwerk omvat een nieuwe dataset die is samengesteld met het inzicht dat stijl een subjectieve eigenschap van een afbeelding is die complexe maar betekenisvolle interacties van factoren vastlegt, waaronder maar niet beperkt tot kleuren, texturen, vormen, enz. We stellen ook een methode voor om stijlbeschrijvingen te extraheren die kunnen worden gebruikt om de stijl van een gegenereerde afbeelding toe te schrijven aan de afbeeldingen die zijn gebruikt in de trainingsdataset van een tekst-naar-afbeelding-model. We laten veelbelovende resultaten zien in verschillende stijlretrievaltaken. We analyseren ook kwantitatief en kwalitatief stijltoeschrijving en -matching in het Stable Diffusion-model. Code en artefacten zijn beschikbaar op https://github.com/learn2phoenix/CSD.
We presenteren CosmicMan, een tekst-naar-beeld foundation model gespecialiseerd in het genereren van hoogwaardige menselijke afbeeldingen. In tegenstelling tot huidige algemene foundation modellen die vastzitten in het dilemma van inferieure kwaliteit en tekst-beeld misaligning voor mensen, maakt CosmicMan het mogelijk om foto-realistische menselijke afbeeldingen te genereren met zorgvuldige verschijning, redelijke structuur en precieze tekst-beeld alignering met gedetailleerde dichte beschrijvingen. De kern van CosmicMan's succes zijn de nieuwe inzichten en perspectieven op data en modellen: (1) We ontdekten dat data kwaliteit en een schaalbare data productie flow essentieel zijn voor de eindresultaten van getrainde modellen. Daarom stellen we een nieuw data productie paradigma voor, Annotate Anyone, dat fungeert als een perpetuele data vliegwiel om hoogwaardige data te produceren met nauwkeurige en toch kosteneffectieve annotaties over tijd. Op basis hiervan hebben we een grootschalige dataset geconstrueerd, CosmicMan-HQ 1.0, met 6 miljoen hoogwaardige real-world menselijke afbeeldingen in een gemiddelde resolutie van 1488x1255, en voorzien van precieze tekstannotaties afgeleid van 115 miljoen attributen in diverse granulariteiten. (2) We beargumenteren dat een tekst-naar-beeld foundation model gespecialiseerd voor mensen pragmatisch moet zijn – gemakkelijk te integreren in downstream taken terwijl effectief in het produceren van hoogwaardige menselijke afbeeldingen. Daarom stellen we voor om de relatie tussen dichte tekstbeschrijvingen en beeldpixels op een ontbonden manier te modelleren, en presenteren we het Decomposed-Attention-Refocusing (Daring) trainingsframework. Het ontbindt naadloos de cross-attention features in bestaande tekst-naar-beeld diffusiemodellen, en dwingt aandacht refocusing af zonder extra modules toe te voegen. Door Daring laten we zien dat het expliciet discretiseren van continue tekstruimte in verschillende basisgroepen die overeenkomen met de menselijke lichaamsstructuur de sleutel is om het misaligning probleem moeiteloos aan te pakken.
We presenteren Condition-Aware Neural Network (CAN), een nieuwe methode voor het toevoegen van controle aan beeldgeneratieve modellen. In lijn met eerdere conditionele controlemethoden, regelt CAN het beeldgeneratieproces door het gewicht van het neuraal netwerk dynamisch te manipuleren. Dit wordt bereikt door een condition-aware gewichtsgeneratiemodule te introduceren die conditionele gewichten genereert voor convolutie/lineaire lagen op basis van de invoervoorwaarde. We testen CAN op klasse-conditionele beeldgeneratie op ImageNet en tekst-naar-beeldgeneratie op COCO. CAN levert consistent significante verbeteringen voor diffusietransformermodellen, waaronder DiT en UViT. In het bijzonder behaalt CAN in combinatie met EfficientViT (CaT) een FID van 2,78 op ImageNet 512x512, wat DiT-XL/2 overtreft terwijl het 52x minder MACs per samplingstap vereist.
Een ideaal model voor dense video captioning -- het voorspellen van bijschriften die tijdelijk in een video zijn gelokaliseerd -- zou in staat moeten zijn om lange invoervideo's te verwerken, rijke, gedetailleerde tekstuele beschrijvingen te voorspellen, en uitvoer te kunnen genereren voordat de hele video is verwerkt. De huidige state-of-the-art modellen verwerken echter een vast aantal gedownsamplede frames en maken een enkele volledige voorspelling nadat de hele video is bekeken. Wij stellen een streaming dense video captioning-model voor dat bestaat uit twee nieuwe componenten: Ten eerste introduceren we een nieuwe geheugenmodule, gebaseerd op het clusteren van binnenkomende tokens, die willekeurig lange video's kan verwerken omdat het geheugen een vaste grootte heeft. Ten tweede ontwikkelen we een streaming decodeeralgoritme dat ons model in staat stelt voorspellingen te doen voordat de hele video is verwerkt. Ons model bereikt deze streaming-capaciteit en verbetert de state-of-the-art aanzienlijk op drie dense video captioning benchmarks: ActivityNet, YouCook2 en ViTT. Onze code is vrijgegeven op https://github.com/google-research/scenic.
Voorkeursmodelleringstechnieken, zoals directe voorkeursoptimalisatie (DPO), hebben hun effectiviteit bewezen bij het verbeteren van de generalisatiecapaciteiten van grote taalmmodellen (LLM). Echter, bij taken die het volgen van video-instructies betreffen, blijft het geven van informatieve feedback, met name voor het detecteren van hallucinaties in gegenereerde antwoorden, een aanzienlijke uitdaging. Eerdere studies hebben het gebruik van grote multimodale modellen (LMMs) als beloningsmodellen onderzocht om voorkeursmodellering te begeleiden, maar hun vermogen om de feitelijkheid van gegenereerde antwoorden in vergelijking met bijbehorende video's nauwkeurig te beoordelen, is nog niet definitief vastgesteld. Dit artikel introduceert een nieuw raamwerk dat gedetailleerde videobijschriften gebruikt als een proxy voor videocontent, waardoor taalmmodellen deze informatie kunnen opnemen als ondersteunend bewijs voor het scoren van video-vraag-antwoord (QA) voorspellingen. Onze aanpak toont een sterke afstemming met het beloningsmechanisme van het OpenAI GPT-4V-model, dat direct videoframes als invoer neemt. Bovendien laten we zien dat het toepassen van deze op maat gemaakte beloning via DPO de prestaties van video-LMMs bij video-QA-taken aanzienlijk verbetert.
De recente vooruitgang in grote taalmodellen (LLMs) heeft een revolutie teweeggebracht in het vakgebied van natuurlijke taalverwerking, waarbij hun scope geleidelijk is uitgebreid naar multimodale perceptie en generatie. Het effectief integreren van luistervaardigheden in LLMs brengt echter aanzienlijke uitdagingen met zich mee, met name wat betreft het generaliseren over verschillende contexten en het uitvoeren van complexe auditieve taken. In dit werk introduceren we WavLLM, een robuust en adaptief spraak-groot-taalmodel met dubbele encoders en een prompt-aware LoRA-gewichtadapter, geoptimaliseerd door een tweestaps curriculumleerbenadering. Door gebruik te maken van dubbele encoders ontkoppelen we verschillende soorten spraakinformatie, waarbij een Whisper-encoder wordt gebruikt om de semantische inhoud van spraak te verwerken en een WavLM-encoder om de unieke kenmerken van de sprekersidentiteit vast te leggen. Binnen het curriculumleerkader ontwikkelt WavLLM eerst zijn fundamentele vaardigheden door te optimaliseren op gemengde elementaire enkelvoudige taken, gevolgd door geavanceerde multitasktraining op complexere taken zoals combinaties van de elementaire taken. Om de flexibiliteit en het naleven van verschillende taken en instructies te verbeteren, wordt een prompt-aware LoRA-gewichtadapter geïntroduceerd in de tweede geavanceerde multitasktrainingsfase. We valideren het voorgestelde model op universele spraakbenchmarks, waaronder taken zoals ASR, ST, SV, ER, en passen het ook toe op gespecialiseerde datasets zoals de Gaokao Engels luistervaardigheidsset voor SQA en de spraak Chain-of-Thought (CoT) evaluatieset. Experimenten tonen aan dat het voorgestelde model state-of-the-art prestaties bereikt over een reeks spraaktaken bij dezelfde modelgrootte, waarbij het robuuste generalisatiecapaciteiten vertoont bij het uitvoeren van complexe taken met behulp van de CoT-benadering. Bovendien voltooit ons model met succes Gaokao-taken zonder gespecialiseerde training. De codes, modellen, audio en de Gaokao-evaluatieset zijn toegankelijk op aka.ms/wavllm.
Een visueel rijke document (VRD) maakt gebruik van visuele kenmerken samen met linguïstische signalen om informatie te verspreiden. Het trainen van een aangepaste extractor die benoemde entiteiten uit een document identificeert, vereist een groot aantal exemplaren van het doeltype document dat geannoteerd is op tekstuele en visuele modaliteiten. Dit vormt een kostbaar knelpunt in bedrijfsscenario's, waar we aangepaste extractors willen trainen voor duizenden verschillende documenttypen op een schaalbare manier. Het vooraf trainen van een extractormodel op niet-gelabelde exemplaren van het doeltype document, gevolgd door een fine-tuning stap op door mensen gelabelde exemplaren, werkt niet in deze scenario's, omdat het de maximale toegestane trainingstijd voor de extractor overschrijdt. Wij pakken dit scenario aan door een Noise-Aware Training methode, oftewel NAT, voor te stellen in dit artikel. In plaats van dure door mensen gelabelde documenten te verkrijgen, maakt NAT gebruik van zwak gelabelde documenten om een extractor op een schaalbare manier te trainen. Om verslechtering van de kwaliteit van het model te voorkomen door ruis in zwak gelabelde voorbeelden, schat NAT het vertrouwen van elk trainingsvoorbeeld in en neemt dit op als onzekerheidsmaat tijdens de training. We trainen meerdere state-of-the-art extractormodellen met behulp van NAT. Experimenten op een aantal publiekelijk beschikbare en interne datasets tonen aan dat NAT-getrainde modellen niet alleen robuust zijn in prestaties – het overtreft een transfer-learning baseline met tot 6% in termen van macro-F1 score, maar het is ook label-efficiënter – het vermindert de hoeveelheid menselijke inspanning die nodig is om vergelijkbare prestaties te behalen met tot 73%.
Grote Taalmodellen (LLMs) hebben indrukwekkende capaciteiten getoond in tekstbegrip en -generatie, wat onderzoek heeft gestimuleerd naar video-LLMs om mens-AI-interactie op videoniveau te vergemakkelijken. Echter, hoe video’s effectief kunnen worden gecodeerd en begrepen in video-gebaseerde dialoogsystemen, blijft een uitdaging. In dit artikel onderzoeken we een eenvoudige maar nog onbekende vraag: Kunnen we alle ruimtelijk-temporele tokens invoeren in het LLM, en daarmee de taak van videosequentiemodellering aan de LLMs delegeren? Verrassend genoeg levert deze eenvoudige aanpak aanzienlijke verbeteringen op in videobegrip. Op basis hiervan stellen we ST-LLM voor, een effectieve video-LLM-baseline met ruimtelijk-temporele sequentiemodellering binnen het LLM. Bovendien ontwikkelen we, om de overhead en stabiliteitsproblemen die worden geïntroduceerd door ongecomprimeerde videotokens binnen LLMs aan te pakken, een dynamische maskeringsstrategie met op maat gemaakte trainingsdoelen. Voor bijzonder lange video’s hebben we ook een globaal-lokaal invoermodule ontworpen om efficiëntie en effectiviteit in balans te brengen. Hierdoor benutten we het LLM voor vaardige ruimtelijk-temporele modellering, terwijl we efficiëntie en stabiliteit behouden. Uitgebreide experimentele resultaten bevestigen de effectiviteit van onze methode. Met een beknopter model en trainingspijplijn vestigt ST-LLM een nieuwe state-of-the-art prestatie op VideoChatGPT-Bench en MVBench. De code is beschikbaar op https://github.com/TencentARC/ST-LLM.