Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Structuurinformatie is cruciaal voor het begrijpen van de semantiek van tekstrijke afbeeldingen, zoals documenten, tabellen en grafieken. Bestaande Multimodale Large Language Models (MLLMs) voor Visueel Documentbegrip zijn uitgerust met tekstherkenningsvaardigheden, maar missen algemene structuurinterpretatievaardigheden voor tekstrijke documentafbeeldingen. In dit werk benadrukken we het belang van structuurinformatie in Visueel Documentbegrip en stellen we het Unified Structure Learning voor om de prestaties van MLLMs te verbeteren. Ons Unified Structure Learning omvat structuurbewuste parseertaken en multi-granulaire tekstlokalisatietaken over 5 domeinen: document, webpagina, tabel, grafiek en natuurlijke afbeelding. Om structuurinformatie beter te coderen, ontwerpen we een eenvoudige en effectieve vision-to-text module genaamd H-Reducer, die niet alleen de lay-outinformatie behoudt, maar ook de lengte van visuele kenmerken verkort door horizontaal aangrenzende patches samen te voegen via convolutie, waardoor de LLM hoogresolutie-afbeeldingen efficiënter kan begrijpen. Bovendien bouwen we door het construeren van structuurbewuste tekstreeksen en multi-granulaire paren van teksten en begrenzingsvakken voor publiek beschikbare tekstrijke afbeeldingen een uitgebreide trainingsset DocStruct4M om structuurleren te ondersteunen. Ten slotte construeren we een kleine maar hoogwaardige redeneerafstemmingsdataset DocReason25K om het gedetailleerde uitlegvermogen in het documentdomein te activeren. Ons model DocOwl 1.5 behaalt state-of-the-art prestaties op 10 visuele documentbegrip benchmarks, waarbij de SOTA-prestaties van MLLMs met een 7B LLM op 5/10 benchmarks met meer dan 10 punten worden verbeterd. Onze codes, modellen en datasets zijn publiekelijk beschikbaar op https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Dit artikel richt zich op taakonafhankelijke promptcompressie voor betere generaliseerbaarheid en efficiëntie. Gezien de redundantie in natuurlijke taal comprimeren bestaande benaderingen prompts door tokens of lexicale eenheden te verwijderen op basis van hun informatie-entropie, verkregen uit een causaal taalmodel zoals LLaMa-7B. De uitdaging is dat informatie-entropie een suboptimale compressiemetriek kan zijn: (i) het maakt alleen gebruik van unidirectionele context en kan essentiële informatie die nodig is voor promptcompressie missen; (ii) het is niet afgestemd op het doel van promptcompressie. Om deze problemen aan te pakken, stellen we een datadestillatieprocedure voor om kennis af te leiden uit een LLM om prompts te comprimeren zonder cruciale informatie te verliezen, en introduceren tegelijkertijd een extractieve tekstcompressiedataset. We formuleren promptcompressie als een tokenclassificatieprobleem om de trouwheid van de gecomprimeerde prompt aan de originele te garanderen, en gebruiken een Transformer-encoder als basisarchitectuur om alle essentiële informatie voor promptcompressie uit de volledige bidirectionele context vast te leggen. Onze aanpak resulteert in lagere latentie door het compressiedoel expliciet te leren met kleinere modellen zoals XLM-RoBERTa-large en mBERT. We evalueren onze methode op zowel in-domein als out-of-domein datasets, waaronder MeetingBank, LongBench, ZeroScrolls, GSM8K en BBH. Ondanks zijn kleine omvang toont ons model significante prestatieverbeteringen ten opzichte van sterke baselinemodellen en demonstreert het robuuste generalisatievermogen over verschillende LLMs. Daarnaast is ons model 3x-6x sneller dan bestaande promptcompressiemethoden, terwijl het de end-to-end latentie versnelt met 1.6x-2.9x bij compressieverhoudingen van 2x-5x.
Het omzetten van ongestructureerde tekst in gestructureerde en betekenisvolle vormen, georganiseerd door nuttige categorielabels, is een fundamentele stap in tekstmining voor downstream analyse en toepassingen. De meeste bestaande methoden voor het produceren van labeltaxonomieën en het bouwen van tekstgebaseerde labelclassificaties zijn echter nog steeds sterk afhankelijk van domeinexpertise en handmatige curatie, wat het proces duur en tijdrovend maakt. Dit is met name uitdagend wanneer de labelruimte ondergespecificeerd is en grootschalige data-annotaties niet beschikbaar zijn. In dit artikel gaan we deze uitdagingen aan met Large Language Models (LLMs), waarvan de prompt-gebaseerde interface de inductie en het gebruik van grootschalige pseudolabels vergemakkelijkt. We stellen TnT-LLM voor, een tweefasenframework dat LLMs inzet om het proces van end-to-end labelgeneratie en -toewijzing te automatiseren met minimale menselijke inspanning voor elk gegeven use-case. In de eerste fase introduceren we een zero-shot, multi-stage redeneerbenadering die LLMs in staat stelt om iteratief een labeltaxonomie te produceren en te verfijnen. In de tweede fase worden LLMs gebruikt als datalabelers die trainingsvoorbeelden opleveren, zodat lichtgewicht supervised classificaties betrouwbaar kunnen worden gebouwd, geïmplementeerd en opgeschaald. We passen TnT-LLM toe op de analyse van gebruikersintentie en conversatiedomein voor Bing Copilot (voorheen Bing Chat), een open-domein chat-gebaseerde zoekmachine. Uitgebreide experimenten met zowel menselijke als automatische evaluatiemetrics tonen aan dat TnT-LLM nauwkeurigere en relevantere labeltaxonomieën genereert in vergelijking met state-of-the-art baselines, en een gunstige balans bereikt tussen nauwkeurigheid en efficiëntie voor classificatie op grote schaal. We delen ook onze praktijkervaringen en inzichten over de uitdagingen en kansen van het gebruik van LLMs voor grootschalige tekstmining in real-world toepassingen.
Open-source grote taalmodellen (LLMs) hebben grote successen behaald in diverse NLP-taken, maar ze zijn nog steeds verreweg inferieur aan API-gebaseerde modellen wanneer ze als agents functioneren. Het integreren van agentvaardigheden in algemene LLMs wordt daarom een cruciaal en urgent probleem. Dit artikel presenteert eerst drie belangrijke observaties: (1) het huidige trainingscorpus voor agents is verweven met zowel het volgen van formaten als agentredenering, wat aanzienlijk afwijkt van de verdeling van de pre-trainingsdata; (2) LLMs vertonen verschillende leersnelheden voor de vaardigheden die vereist zijn door agenttaken; en (3) huidige benaderingen hebben neveneffecten bij het verbeteren van agentvaardigheden door hallucinaties te introduceren. Op basis van deze bevindingen stellen we Agent-FLAN voor om taalmodellen effectief te fine-tunen voor agents. Door zorgvuldige decompositie en herontwerp van het trainingscorpus stelt Agent-FLAN Llama2-7B in staat om eerdere beste werken met 3,5\% te overtreffen op diverse agent-evaluatiedatasets. Met uitgebreid geconstrueerde negatieve voorbeelden vermindert Agent-FLAN de hallucinatieproblemen aanzienlijk op basis van ons opgezette evaluatiebenchmark. Daarnaast verbetert het consistent de agentvaardigheden van LLMs bij het opschalen van modelgroottes, terwijl het tegelijkertijd de algemene capaciteiten van LLMs lichtelijk versterkt. De code zal beschikbaar zijn op https://github.com/InternLM/Agent-FLAN.
We presenteren AnimateDiff-Lightning voor bliksemsnelle videogeneratie. Ons model maakt gebruik van progressieve adversarial diffusion distillatie om een nieuwe state-of-the-art te bereiken in videogeneratie met weinig stappen. We bespreken onze aanpassingen om het model geschikt te maken voor de videomodaliteit. Bovendien stellen we voor om de probabiliteitsstroom van meerdere basisdiffusiemodellen gelijktijdig te distilleren, wat resulteert in een enkel gedistilleerd bewegingsmodule met een bredere stijlcompatibiliteit. We zijn verheugd om ons gedistilleerde AnimateDiff-Lightning model beschikbaar te stellen voor gebruik door de gemeenschap.
Hoewel grootschalige robotsystemen doorgaans vertrouwen op tekstuele instructies voor taken, onderzoekt dit werk een andere benadering: kunnen robots de taak direct afleiden door mensen te observeren? Deze verschuiving vereist het vermogen van de robot om menselijke intentie te decoderen en deze om te zetten in uitvoerbare acties binnen zijn fysieke beperkingen en omgeving. We introduceren Vid2Robot, een nieuw end-to-end videogebaseerd leerframework voor robots. Gegeven een videodemonstratie van een manipulatietaak en huidige visuele waarnemingen, produceert Vid2Robot direct robotacties. Dit wordt bereikt door middel van een uniform representatiemodel dat is getraind op een grote dataset van menselijke video's en robot trajecten. Het model maakt gebruik van cross-attention mechanismen om prompt videokenmerken te integreren met de huidige staat van de robot en geschikte acties te genereren die de waargenomen taak nabootsen. Om de beleidsprestaties verder te verbeteren, stellen we aanvullende contrastieve verliezen voor die de afstemming tussen menselijke en robot videorepresentaties versterken. We evalueren Vid2Robot op echte robots, waarbij een prestatieverbetering van 20% wordt aangetoond in vergelijking met andere videogebaseerde beleidsmethoden bij het gebruik van menselijke demonstratievideo's. Daarnaast vertoont ons model opkomende capaciteiten, zoals het succesvol overbrengen van waargenomen bewegingen van het ene naar het andere object, en lange-termijn compositie, wat het potentieel voor real-world toepassingen aantoont. Projectwebsite: vid2robot.github.io
Vision-language models (VLMs) behalen steeds betere prestaties op multimodale taken. Echter, de redeneervaardigheden blijven beperkt, vooral bij kleinere VLMs, terwijl die van large-language models (LLMs) talrijke verbeteringen hebben gezien. Wij stellen een techniek voor om vaardigheden van LLMs over te dragen naar VLMs. Op de recent geïntroduceerde ChartQA behaalt onze methode state-of-the-art prestaties wanneer toegepast op de PaLI3-5B VLM van chen2023pali3, terwijl ook veel betere prestaties worden gerealiseerd op PlotQA en FigureQA. We verbeteren eerst de grafiekrepresentatie door de pre-trainingsfase voort te zetten met een verbeterde versie van de grafiek-naar-tabel vertaaltaak van liu2023deplot. Vervolgens stellen we voor om een dataset te construeren die 20x groter is dan de originele trainingsset. Om de algemene redeneervaardigheden te verbeteren en numerieke operaties te versterken, synthetiseren we redeneersporen met behulp van de tabelrepresentatie van grafieken. Ten slotte wordt ons model afgestemd met behulp van de multitask loss geïntroduceerd door hsieh2023distilling. Onze variant ChartPaLI-5B presteert beter dan zelfs 10x grotere modellen zoals PaLIX-55B zonder gebruik te maken van een upstream OCR-systeem, terwijl de inferentietijd constant blijft in vergelijking met de PaLI3-5B baseline. Wanneer redeneringen verder worden verfijnd met een eenvoudige program-of-thought prompt van chen2023program, presteert ons model beter dan de recent geïntroduceerde Gemini Ultra en GPT-4V.
Het creëren van 4D-velden van Gaussian Splatting uit afbeeldingen of video's is een uitdagende taak vanwege het onderbeperkte karakter. Hoewel de optimalisatie fotometrische referentie kan halen uit de invoervideo's of gereguleerd kan worden door generatieve modellen, blijft directe supervisie van Gaussiaanse bewegingen onderbelicht. In dit artikel introduceren we een nieuw concept, Gaussiaanse stroming, dat de dynamiek van 3D Gaussiaanse verdelingen en pixel snelheden tussen opeenvolgende frames verbindt. De Gaussiaanse stroming kan efficiënt worden verkregen door Gaussiaanse dynamiek in de beeldruimte te splatten. Dit differentieerbare proces maakt directe dynamische supervisie mogelijk vanuit optische stroming. Onze methode levert aanzienlijke voordelen op voor 4D dynamische inhoudsgeneratie en 4D nieuwe weergave-synthese met Gaussian Splatting, vooral voor inhoud met rijke bewegingen die moeilijk te behandelen zijn door bestaande methoden. Het veelvoorkomende kleurdrijvingsprobleem dat optreedt bij 4D-generatie wordt ook opgelost met verbeterde Gaussiaanse dynamiek. Superieure visuele kwaliteit in uitgebreide experimenten toont de effectiviteit van onze methode aan. Kwantitatieve en kwalitatieve evaluaties laten zien dat onze methode state-of-the-art resultaten behaalt voor zowel 4D-generatie als 4D nieuwe weergave-synthese. Projectpagina: https://zerg-overmind.github.io/GaussianFlow.github.io/
Het genereren van hoogwaardige 3D-assets vanuit een gegeven afbeelding is zeer gewenst in verschillende toepassingen zoals AR/VR. Recente vooruitgang in 3D-generatie vanuit één afbeelding onderzoekt feed-forward modellen die leren om het 3D-model van een object af te leiden zonder optimalisatie. Hoewel veelbelovende resultaten zijn behaald bij het genereren van enkele objecten, hebben deze methoden vaak moeite met het modelleren van complexe 3D-assets die inherent meerdere objecten bevatten. In dit werk presenteren we ComboVerse, een 3D-generatiekader dat hoogwaardige 3D-assets met complexe composities produceert door te leren om meerdere modellen te combineren. 1) We voeren eerst een diepgaande analyse uit van deze "multi-object kloof" vanuit zowel model- als dataperspectief. 2) Vervolgens, met gereconstrueerde 3D-modellen van verschillende objecten, streven we ernaar om hun afmetingen, rotatiehoeken en locaties aan te passen om een 3D-asset te creëren dat overeenkomt met de gegeven afbeelding. 3) Om dit proces te automatiseren, passen we ruimtelijk bewuste score-distillatie-sampling (SSDS) toe vanuit voorgetrainde diffusiemodellen om de positionering van objecten te begeleiden. Ons voorgestelde kader benadrukt de ruimtelijke uitlijning van objecten, vergeleken met standaard score-distillatie-sampling, en behaalt daardoor nauwkeurigere resultaten. Uitgebreide experimenten valideren dat ComboVerse duidelijke verbeteringen bereikt ten opzichte van bestaande methoden in het genereren van compositionele 3D-assets.
De opmerkelijke effectiviteit van tekst-naar-beeld diffusiemodellen heeft uitgebreid onderzoek gestimuleerd naar hun potentiële toepassing in videodomeinen. Zero-shot methoden streven ernaar beelddiffusiemodellen uit te breiden naar video's zonder dat modeltraining nodig is. Recente methoden richten zich voornamelijk op het integreren van inter-frame correspondentie in aandachtmechanismen. De zachte beperking die wordt opgelegd bij het bepalen waar naar geldige kenmerken moet worden gekeken, kan echter soms onvoldoende zijn, wat resulteert in temporele inconsistentie. In dit artikel introduceren we FRESCO, waarbij intra-frame correspondentie naast inter-frame correspondentie wordt gebruikt om een robuustere ruimtelijk-temporele beperking te creëren. Deze verbetering zorgt voor een consistentere transformatie van semantisch vergelijkbare inhoud over frames heen. Naast louter aandachtbegeleiding omvat onze aanpak een expliciete update van kenmerken om een hoge ruimtelijk-temporele consistentie met de invoervideo te bereiken, wat de visuele samenhang van de resulterende vertaalde video's aanzienlijk verbetert. Uitgebreide experimenten tonen de effectiviteit aan van ons voorgestelde framework bij het produceren van hoogwaardige, samenhangende video's, wat een opmerkelijke verbetering betekent ten opzichte van bestaande zero-shot methoden.
In deze studie verdiepen we ons in het genereren van hoogwaardige afbeeldingen met behulp van vooraf getrainde diffusiemodellen, waarbij we aanhoudende uitdagingen aanpakken, zoals repetitieve patronen en structurele vervormingen, die ontstaan wanneer modellen worden toegepast buiten hun getrainde resoluties. Om dit probleem op te lossen, introduceren we een innovatieve, trainingsvrije aanpak genaamd FouriScale vanuit het perspectief van frequentiedomeinanalyse. We vervangen de oorspronkelijke convolutielagen in vooraf getrainde diffusiemodellen door het integreren van een dilatietechniek in combinatie met een laagdoorlaatoperatie, met als doel respectievelijk structurele consistentie en schaalconsistentie over verschillende resoluties te bereiken. Versterkt door een padding-then-crop strategie, kan onze methode flexibel omgaan met tekst-naar-afbeelding generatie van diverse beeldverhoudingen. Door FouriScale als leidraad te gebruiken, slaagt onze methode erin de structurele integriteit en de getrouwheid van gegenereerde afbeeldingen in balans te brengen, wat resulteert in een verbazingwekkende capaciteit voor het genereren van afbeeldingen van willekeurige grootte, hoge resolutie en hoge kwaliteit. Met zijn eenvoud en compatibiliteit kan onze methode waardevolle inzichten bieden voor toekomstige verkenningen naar de synthese van ultrahoogwaardige afbeeldingen. De code zal worden vrijgegeven op https://github.com/LeonHLJ/FouriScale.
Het texturiseren van 3D-menselijke modellen met semantische UV-kaarten blijft een uitdaging vanwege de moeilijkheid om redelijk uitgevouwen UV-kaarten te verkrijgen. Ondanks recente vooruitgang in tekst-naar-3D door het begeleiden van multi-view renderings met behulp van grote tekst-naar-beeld (T2I) modellen, blijven er problemen bestaan met de generatiesnelheid, tekstconsistentie en textuurkwaliteit, wat resulteert in een schaarste aan data in bestaande datasets. Wij presenteren TexDreamer, het eerste zero-shot multimodale high-fidelity 3D-menselijke textuur generatiemodel. Door gebruik te maken van een efficiënte textuuraanpassingsfinetuningstrategie, passen we een groot T2I-model aan aan een semantische UV-structuur terwijl we de oorspronkelijke generalisatiecapaciteit behouden. Met behulp van een nieuw feature translator-module is het getrainde model in staat om binnen enkele seconden high-fidelity 3D-menselijke texturen te genereren vanuit tekst of afbeelding. Daarnaast introduceren we ArTicuLated humAn textureS (ATLAS), de grootste high-resolution (1024 X 1024) 3D-menselijke textuurdataset die 50k high-fidelity texturen bevat met tekstbeschrijvingen.
De afgelopen jaren is 3D Gaussian splatting naar voren gekomen als een krachtige techniek voor 3D-reconstructie en -generatie, bekend om zijn snelle en hoogwaardige weergavecapaciteiten. Om deze tekortkomingen aan te pakken, introduceert dit artikel een nieuw diffuusiegebaseerd framework, GVGEN, ontworpen om efficiënt 3D Gaussian-representaties te genereren vanuit tekstinput. We stellen twee innovatieve technieken voor: (1) Gestructureerde Volumetrische Representatie. We ordenen eerst ongeordende 3D Gaussian-punten als een gestructureerde vorm, GaussianVolume. Deze transformatie maakt het mogelijk om ingewikkelde textuurdetails vast te leggen binnen een volume dat bestaat uit een vast aantal Gaussians. Om de representatie van deze details beter te optimaliseren, stellen we een unieke snoei- en verdichtingsmethode voor, genaamd de Candidate Pool Strategy, die de detailgetrouwheid verbetert door selectieve optimalisatie. (2) Coarse-to-fine Generatiepijplijn. Om de generatie van GaussianVolume te vereenvoudigen en het model in staat te stellen instanties met gedetailleerde 3D-geometrie te genereren, stellen we een coarse-to-fine pijplijn voor. Deze construeert eerst een basisgeometrische structuur, gevolgd door de voorspelling van volledige Gaussian-attributen. Ons framework, GVGEN, toont superieure prestaties in kwalitatieve en kwantitatieve evaluaties in vergelijking met bestaande 3D-generatiemethoden. Tegelijkertijd behoudt het een snelle generatiesnelheid (ongeveer 7 seconden), waardoor effectief een balans wordt gevonden tussen kwaliteit en efficiëntie.