Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk bespreken we het bouwen van hoogwaardige Multimodale Grote Taalmodellen (MLLMs). In het bijzonder onderzoeken we het belang van verschillende architectuurcomponenten en datakeuzes. Door zorgvuldige en uitgebreide ablatie-experimenten van de beeldencoder, de visie-taalverbinder en diverse keuzes voor pre-trainingsdata, hebben we verschillende cruciale ontwerp-lessen geïdentificeerd. We tonen bijvoorbeeld aan dat voor grootschalige multimodale pre-training een zorgvuldige mix van beeld-bijschrift, afgewisselde beeld-tekst en alleen-tekst data essentieel is om state-of-the-art (SOTA) few-shot resultaten te behalen op meerdere benchmarks, vergeleken met andere gepubliceerde pre-trainingsresultaten. Verder laten we zien dat de beeldencoder, samen met de beeldresolutie en het aantal beeldtokens, een aanzienlijke impact heeft, terwijl het ontwerp van de visie-taalverbinder relatief verwaarloosbaar is. Door het gepresenteerde recept op te schalen, bouwen we MM1, een familie van multimodale modellen tot 30B parameters, bestaande uit zowel dense modellen als mixture-of-experts (MoE) varianten, die SOTA zijn in pre-trainingsmetrieken en competitieve prestaties behalen na supervised fine-tuning op een reeks gevestigde multimodale benchmarks. Dankzij grootschalige pre-training beschikt MM1 over aantrekkelijke eigenschappen zoals verbeterd in-context leren en multi-image redeneren, waardoor few-shot chain-of-thought prompting mogelijk wordt.
Bij het schrijven en praten pauzeren mensen soms om na te denken. Hoewel onderzoek gericht op redeneren dit vaak heeft benaderd als een methode om vragen te beantwoorden of taken uit te voeren, is redeneren impliciet aanwezig in bijna alle geschreven tekst. Dit geldt bijvoorbeeld voor de stappen die niet expliciet worden vermeld tussen de regels van een bewijs of voor de theory of mind die ten grondslag ligt aan een gesprek. In de Self-Taught Reasoner (STaR, Zelikman et al. 2022) wordt nuttig denken geleerd door redeneringen af te leiden uit few-shot voorbeelden in vraag-antwoordtaken en te leren van die redeneringen die tot een correct antwoord leiden. Dit is een sterk beperkte setting – idealiter zou een taalmodel in plaats daarvan kunnen leren om niet-uitgesproken redeneringen af te leiden in willekeurige tekst. Wij presenteren Quiet-STaR, een generalisatie van STaR waarin taalmodelen leren om bij elk token redeneringen te genereren die toekomstige tekst verklaren, waardoor hun voorspellingen verbeteren. We gaan in op belangrijke uitdagingen, waaronder 1) de rekenkosten van het genereren van vervolgen, 2) het feit dat het taalmodel aanvankelijk niet weet hoe het interne gedachten moet genereren of gebruiken, en 3) de noodzaak om verder te kijken dan individuele volgende tokens. Om deze op te lossen, stellen we een tokengewijs parallel sampling-algoritme voor, waarbij leerbare tokens worden gebruikt om het begin en einde van een gedachte aan te geven, en een uitgebreide teacher-forcing-techniek. Bemoedigend is dat gegenereerde redeneringen onevenredig veel helpen bij het voorspellen van moeilijke tokens en het vermogen van het taalmodel verbeteren om moeilijke vragen direct te beantwoorden. In het bijzonder vinden we, na voortgezette pretraining van een taalmodel op een corpus van internettekst met Quiet-STaR, zero-shot verbeteringen op GSM8K (5,9%→10,9%) en CommonsenseQA (36,3%→47,2%) en observeren we een perplexiteitsverbetering van moeilijke tokens in natuurlijke tekst. Cruciaal is dat deze verbeteringen geen fine-tuning op deze taken vereisen. Quiet-STaR markeert een stap richting taalmodelen die op een meer algemene en schaalbare manier kunnen leren redeneren.
Het gebruik van vision-language modellen (VLMs) in webontwikkeling biedt een veelbelovende strategie om de efficiëntie te verhogen en no-code oplossingen mogelijk te maken: door een screenshot of schets van een UI te verstrekken, zou een VLM de code kunnen genereren om deze te reproduceren, bijvoorbeeld in een taal zoals HTML. Ondanks de vooruitgang in VLMs voor verschillende taken, is de specifieke uitdaging van het omzetten van een screenshot naar de corresponderende HTML nog nauwelijks onderzocht. Wij stellen dat dit voornamelijk komt door het ontbreken van een geschikte, hoogwaardige dataset. Dit werk introduceert WebSight, een synthetische dataset bestaande uit 2 miljoen paren van HTML-codes en hun bijbehorende screenshots. We fine-tunen een fundamenteel VLM op onze dataset en tonen aan dat het bekwaam is in het omzetten van webpagina-screenshots naar functionele HTML-code. Om het onderzoek op dit gebied te versnellen, maken we WebSight open-source.
Het enorme succes van diffusiemodellen in tekst-naar-beeld-synthese heeft hen tot veelbelovende kandidaten gemaakt voor de volgende generatie eindgebruikerstoepassingen voor beeldgeneratie en -bewerking. Eerdere werken hebben zich gericht op het verbeteren van de bruikbaarheid van diffusiemodellen door de inferentietijd te verkorten of de gebruikersinteractiviteit te vergroten door nieuwe, fijnmazige besturingselementen mogelijk te maken, zoals regio-gebaseerde tekstprompts. We constateren echter empirisch dat het integreren van beide takken van werk niet triviaal is, wat het potentieel van diffusiemodellen beperkt. Om deze onverenigbaarheid op te lossen, presenteren we StreamMultiDiffusion, het eerste real-time regio-gebaseerde tekst-naar-beeld-generatieframework. Door snelle inferentietechnieken te stabiliseren en het model te herstructureren in een nieuw voorgestelde multi-prompt stream batch-architectuur, bereiken we een tien keer snellere panoramageneratie dan bestaande oplossingen, en een generatiesnelheid van 1,57 FPS in regio-gebaseerde tekst-naar-beeld-synthese op een enkele RTX 2080 Ti GPU. Onze oplossing opent een nieuw paradigma voor interactieve beeldgeneratie genaamd semantisch palet, waarbij hoogwaardige beelden in real-time worden gegenereerd uit meerdere handgetekende regio's die voorgeschreven semantische betekenissen coderen (bijv. adelaar, meisje). Onze code en demo-applicatie zijn beschikbaar op https://github.com/ironjr/StreamMultiDiffusion.
Dit artikel introduceert een eenvoudig, maar effectief framework genaamd GiT, dat gelijktijdig toepasbaar is voor diverse visuele taken met alleen een standaard ViT (Vision Transformer). Geïnspireerd door de universaliteit van de Multi-layer Transformer-architectuur (bijvoorbeeld GPT) die veel wordt gebruikt in grote taalmodellen (LLMs), streven we ernaar om het toepassingsgebied ervan uit te breiden om te dienen als een krachtig visueel foundation model (VFM). In tegenstelling tot taalmodellering vereisen visuele taken echter meestal specifieke modules, zoals bounding box heads voor detectie en pixeldecoders voor segmentatie, wat de toepassing van krachtige multi-layer transformers in het visuele domein sterk belemmert. Om dit op te lossen, ontwerpen we een universele taalinterface die het succesvolle auto-regressieve decoderen mogelijk maakt om diverse visuele taken te verenigen, van beeldniveau-begrip (bijvoorbeeld bijschriften), via sparse perceptie (bijvoorbeeld detectie), tot dense voorspelling (bijvoorbeeld segmentatie). Op basis van deze ontwerpen bestaat het gehele model uitsluitend uit een ViT, zonder specifieke toevoegingen, wat een opmerkelijke architectonische vereenvoudiging biedt. GiT is een multi-task visueel model, gezamenlijk getraind over vijf representatieve benchmarks zonder taakspecifieke fine-tuning. Interessant genoeg vestigt onze GiT een nieuwe benchmark in generalistische prestaties en bevordert het wederzijdse verbetering tussen taken, wat leidt tot significante verbeteringen in vergelijking met geïsoleerde training. Dit weerspiegelt een vergelijkbaar effect dat wordt waargenomen in LLMs. Door de training verder te verrijken met 27 datasets, behaalt GiT sterke zero-shot resultaten over diverse taken. Vanwege het eenvoudige ontwerp belooft dit paradigma de architectonische kloof tussen visie en taal te verkleinen. Code en modellen zullen beschikbaar zijn op https://github.com/Haiyang-W/GiT.
We introduceren Emu Video Edit (EVE), een model dat een nieuwe standaard zet in videobewerking zonder gebruik te maken van enige begeleide videobewerkingsdata. Om EVE te ontwikkelen, trainen we afzonderlijk een adapter voor beeldbewerking en een adapter voor videogeneratie, en koppelen we beide aan hetzelfde tekst-naar-beeldmodel. Vervolgens introduceren we een nieuwe onbegeleide distillatieprocedure, Factorized Diffusion Distillation, om de adapters af te stemmen op videobewerking. Deze procedure destilleert kennis van een of meer leraren tegelijkertijd, zonder enige begeleide data. We gebruiken deze procedure om EVE te leren video's te bewerken door gezamenlijk kennis te destilleren naar (i) het nauwkeurig bewerken van elk individueel frame via de beeldbewerkingsadapter, en (ii) het waarborgen van temporele consistentie tussen de bewerkte frames met behulp van de videogeneratieadapter. Tot slot, om het potentieel van onze aanpak te demonstreren in het ontgrendelen van andere mogelijkheden, stemmen we aanvullende combinaties van adapters af.
Effectieve aandachtmodules hebben een cruciale rol gespeeld in het succes van Transformer-gebaseerde grote taalmodellen (LLM's), maar de kwadratische tijd- en geheugencomplexiteit van deze aandachtmodules vormen ook een uitdaging bij het verwerken van lange sequenties. Een mogelijke oplossing voor het probleem van lange sequenties is het gebruik van gedistribueerde clusters om de berekening van aandachtmodules te paralleliseren over meerdere apparaten (bijvoorbeeld GPU's). Het adopteren van een gedistribueerde aanpak introduceert echter onvermijdelijk extra geheugenoverhead om lokale aandachtresultaten op te slaan en brengt extra communicatiekosten met zich mee om lokale resultaten samen te voegen tot globale resultaten. In dit artikel stellen we een gedistribueerd aandachtframework genaamd ``BurstAttention'' voor om geheugentoegang en communicatieoperaties te optimaliseren op zowel het niveau van het globale cluster als het lokale apparaat. In onze experimenten vergelijken we BurstAttention met andere competitieve gedistribueerde aandachtoplossingen voor het verwerken van lange sequenties. De experimentele resultaten onder verschillende lengte-instellingen tonen aan dat BurstAttention aanzienlijke voordelen biedt voor het verwerken van lange sequenties in vergelijking met deze competitieve baselines, waarbij 40% communicatieoverhead wordt gereduceerd en een 2x versnelling wordt bereikt tijdens het trainen van sequenties met een lengte van 32K op 8x A100.
Visuele tekstweergave vormt een fundamentele uitdaging voor hedendaagse tekst-naar-beeld generatiemodellen, waarbij het kernprobleem ligt in tekortkomingen van tekstencoders. Om nauwkeurige tekstweergave te bereiken, identificeren we twee cruciale vereisten voor tekstencoders: karakterbewustzijn en uitlijning met glyphs. Onze oplossing omvat het ontwikkelen van een reeks aangepaste tekstencoders, Glyph-ByT5, door het finetunen van de karakterbewuste ByT5-encoder met behulp van een zorgvuldig samengestelde gepaarde glyph-tekst dataset. We presenteren een effectieve methode voor het integreren van Glyph-ByT5 met SDXL, wat resulteert in de creatie van het Glyph-SDXL model voor het genereren van ontwerpbeelden. Dit verbetert de nauwkeurigheid van tekstweergave aanzienlijk, van minder dan 20% naar bijna 90% op onze ontwerpbeeld benchmark. Opmerkelijk is de nieuwe mogelijkheid van Glyph-SDXL voor het weergeven van tekstparagrafen, waarbij hoge spellingnauwkeurigheid wordt bereikt voor tientallen tot honderden karakters met geautomatiseerde meerregelige lay-outs. Tot slot demonstreren we, door Glyph-SDXL te finetunen met een kleine set hoogwaardige, fotorealistische afbeeldingen met visuele tekst, een aanzienlijke verbetering in de mogelijkheden voor het weergeven van scènetekst in open-domein echte afbeeldingen. Deze overtuigende resultaten hebben als doel om verder onderzoek aan te moedigen naar het ontwerpen van aangepaste tekstencoders voor diverse en uitdagende taken.
Het begrijpen van video's is een van de fundamentele richtingen in het onderzoek naar computervisie, met uitgebreide inspanningen gericht op het verkennen van verschillende architecturen zoals RNN, 3D CNN en Transformers. De nieuw voorgestelde architectuur van het state space model, bijvoorbeeld Mamba, toont veelbelovende eigenschappen om zijn succes in het modelleren van lange sequenties uit te breiden naar videomodellering. Om te beoordelen of Mamba een levensvatbaar alternatief kan zijn voor Transformers in het domein van videobegrip, voeren we in dit werk een uitgebreide reeks studies uit, waarbij we verschillende rollen onderzoeken die Mamba kan spelen in het modelleren van video's, terwijl we diverse taken onderzoeken waar Mamba superieur zou kunnen zijn. We categoriseren Mamba in vier rollen voor het modelleren van video's, leiden een Video Mamba Suite af die bestaat uit 14 modellen/modules, en evalueren deze op 12 videobegriptaken. Onze uitgebreide experimenten onthullen het sterke potentieel van Mamba op zowel video-only als video-taal taken, terwijl het veelbelovende efficiëntie-prestatieafwegingen laat zien. We hopen dat dit werk waardevolle datapunten en inzichten kan bieden voor toekomstig onderzoek naar videobegrip. Code is openbaar: https://github.com/OpenGVLab/video-mamba-suite.
Grote Vision Language Modellen hebben fijnmazige objectwaarneming bereikt, maar de beperking van de beeldresolutie blijft een aanzienlijk obstakel om de prestaties van taakspecifieke experts in complexe en dichte scenario's te overtreffen. Deze beperking beperkt verder het potentieel van het model om genuanceerde visuele en taalverwijzingen te bereiken in domeinen zoals GUI Agents, Tellen en \etc. Om dit probleem aan te pakken, introduceren we een uniform hoogresolutie generalistisch model, Griffon v2, dat flexibele objectverwijzing mogelijk maakt met visuele en tekstuele prompts. Om de beeldresolutie efficiënt op te schalen, ontwerpen we een eenvoudige en lichtgewicht down-sampling projector om de beperking van invoertokens in Grote Taalmodellen te overwinnen. Dit ontwerp behoudt inherent de volledige contexten en fijne details, en verbetert aanzienlijk de multimodale waarnemingscapaciteit, vooral voor kleine objecten. Hierop voortbouwend, rusten we het model verder uit met visuele-taal co-refererende mogelijkheden via een plug-and-play visuele tokenizer. Het maakt gebruiksvriendelijke interactie mogelijk met flexibele doelbeelden, vrije-teksten en zelfs coördinaten. Experimenten tonen aan dat Griffon v2 elk object van interesse kan lokaliseren met visuele en tekstuele verwijzing, state-of-the-art prestaties bereikt op REC, frase grounding en REG taken, en expertmodellen overtreft in objectdetectie en objecttelling. Data, codes en modellen zullen worden vrijgegeven op https://github.com/jefferyZhan/Griffon.
Recente vision-language-action (VLA)-modellen vertrouwen op 2D-invoer, waardoor ze niet geïntegreerd zijn met de bredere wereld van de 3D-fysieke realiteit. Bovendien voeren ze actievoorspellingen uit door een directe mapping van perceptie naar actie te leren, waarbij ze de uitgebreide dynamiek van de wereld en de relaties tussen acties en dynamiek verwaarlozen. Daarentegen beschikken mensen over wereldmodellen die verbeelding over toekomstige scenario's weergeven om acties dienovereenkomstig te plannen. Hiertoe stellen we 3D-VLA voor door een nieuwe familie van belichaamde foundation-modellen te introduceren die 3D-perceptie, redenering en actie naadloos verbinden via een generatief wereldmodel. Specifiek is 3D-VLA gebouwd op een 3D-gebaseerd groot taalmodel (LLM), en wordt een set interactietokens geïntroduceerd om te interageren met de belichaamde omgeving. Verder trainen we een reeks belichaamde diffusiemodellen en integreren deze in het LLM om doelafbeeldingen en puntenwolken te voorspellen, om zo generatieve capaciteiten in het model te injecteren. Om onze 3D-VLA te trainen, stellen we een grootschalige 3D-belichaamde instructiedataset samen door uitgebreide 3D-gerelateerde informatie uit bestaande robotica-datasets te extraheren. Onze experimenten op gereserveerde datasets tonen aan dat 3D-VLA de redeneer-, multimodale generatie- en planningscapaciteiten in belichaamde omgevingen aanzienlijk verbetert, wat het potentieel ervan in real-world toepassingen aantoont.
Onlangs hebben onderzoekers in kunstmatige intelligentie veel interesse getoond in de samensmelting van taal en visie, wat heeft geleid tot de ontwikkeling van multimodale modellen die tekstuele en visuele informatie naadloos integreren. Multimodale modellen, een uitbreiding van Large Language Models (LLMs), hebben opmerkelijke capaciteiten getoond bij het aanpakken van een breed scala aan taken, variërend van beeldbeschrijving en visuele vraagbeantwoording (VQA) tot visuele verankering. Hoewel deze modellen aanzienlijke vooruitgang hebben laten zien, blijven er uitdagingen bestaan in het nauwkeurig interpreteren van beelden en het beantwoorden van vragen, een veelvoorkomend scenario in de praktijk. Dit artikel introduceert een nieuwe aanpak om de multimodale capaciteiten van bestaande modellen te verbeteren. Als reactie op de beperkingen die worden waargenomen in huidige Vision Language Models (VLMs) en Multimodale Large Language Models (MLLMs), bevat ons voorgestelde model Veagle een uniek mechanisme dat is geïnspireerd door de successen en inzichten van eerdere werken. Veagle maakt gebruik van een dynamisch mechanisme om gecodeerde visuele informatie rechtstreeks in het taalmodel te projecteren. Deze dynamische aanpak maakt een genuanceerder begrip mogelijk van complexe details in visuele contexten. Om de effectiviteit van Veagle te valideren, voeren we uitgebreide experimenten uit op benchmarkdatasets, met de nadruk op taken zoals visuele vraagbeantwoording en beeldbegrip. Onze resultaten tonen een verbetering van 5-6% in prestaties, waarbij Veagle bestaande modellen met een aanzienlijke marge overtreft. De uitkomsten onderstrepen de veelzijdigheid en toepasbaarheid van het model buiten traditionele benchmarks.
De evolutie van tekst naar visuele componenten vergemakkelijkt het dagelijks leven van mensen, zoals het genereren van afbeeldingen en video's uit tekst en het identificeren van gewenste elementen binnen afbeeldingen. Computervisie-modellen met multimodale mogelijkheden waren in het verleden vooral gericht op beelddetectie en classificatie op basis van goed gedefinieerde objecten. Grote taalmodelen (LLMs) introduceren de transformatie van natuurlijke taal naar visuele objecten, wat de visuele lay-out voor tekstcontexten presenteert. OpenAI GPT-4 is naar voren gekomen als het hoogtepunt in LLMs, terwijl het domein van computervisie (CV) een overvloed aan state-of-the-art (SOTA) modellen en algoritmen kent om 2D-afbeeldingen om te zetten naar hun 3D-representaties. Echter, de mismatch tussen de algoritmen en het probleem kan leiden tot ongewenste resultaten. Als antwoord op deze uitdaging stellen we een geïntegreerd VisionGPT-3D-framework voor om de state-of-the-art visiemodellen te consolideren, waardoor de ontwikkeling van visiegerichte AI wordt vergemakkelijkt. VisionGPT-3D biedt een veelzijdig multimodaal framework dat voortbouwt op de sterke punten van multimodale basis modellen. Het integreert naadloos verschillende SOTA visiemodellen en brengt automatisering in de selectie van SOTA visiemodellen, identificeert geschikte 3D-mesh-creatie-algoritmen die corresponderen met 2D-dieptekaartanalyses, en genereert optimale resultaten op basis van diverse multimodale invoer zoals tekstprompts. Trefwoorden: VisionGPT-3D, 3D-visiebegrip, Multimodale agent
Recente vooruitgang in state space-modellen, met name Mamba, heeft aanzienlijke vooruitgang getoond in het modelleren van lange sequenties voor taken zoals taalbegrip. Toch heeft hun toepassing in visuele taken de prestaties van traditionele Convolutional Neural Networks (CNN's) en Vision Transformers (ViT's) niet duidelijk overtroffen. Dit artikel stelt dat de sleutel tot het verbeteren van Vision Mamba (ViM) ligt in het optimaliseren van scanrichtingen voor sequentiemodellering. Traditionele ViM-benaderingen, die ruimtelijke tokens afvlakken, negeren het behoud van lokale 2D-afhankelijkheden, waardoor de afstand tussen aangrenzende tokens wordt verlengd. We introduceren een nieuwe lokale scanstrategie die afbeeldingen verdeelt in afzonderlijke vensters, waardoor lokale afhankelijkheden effectief worden vastgelegd terwijl een globaal perspectief behouden blijft. Daarnaast, erkennend dat de voorkeuren voor scanpatronen variëren tussen verschillende netwerklagen, stellen we een dynamische methode voor om onafhankelijk naar de optimale scankeuzes voor elke laag te zoeken, wat de prestaties aanzienlijk verbetert. Uitgebreide experimenten in zowel eenvoudige als hiërarchische modellen onderstrepen de superioriteit van onze aanpak in het effectief vastleggen van beeldrepresentaties. Ons model overtreft bijvoorbeeld Vim-Ti significant met 3,1% op ImageNet bij dezelfde 1,5G FLOPs. Code is beschikbaar op: https://github.com/hunto/LocalMamba.