AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

ShowUI: Een Vision-Language-Action Model voor GUI Visuele Agent.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

Het bouwen van Graphical User Interface (GUI) assistenten biedt aanzienlijke belofte om de productiviteit van menselijke workflows te verbeteren. Hoewel de meeste agenten op taal zijn gebaseerd en vertrouwen op een closed-source API met tekstrijke meta-informatie (bijv. HTML of toegankelijkheidsboom), vertonen ze beperkingen in het waarnemen van UI-visuele elementen zoals mensen dat doen, wat de noodzaak benadrukt voor GUI-visuele agenten. In dit werk ontwikkelen we een visie-taal-actie model in de digitale wereld, genaamd ShowUI, dat de volgende innovaties bevat: (i) UI-Gestuurde Visuele Token Selectie om computationele kosten te verlagen door schermafbeeldingen te formuleren als een UI verbonden grafiek, adaptief hun overbodige relatie identificerend en dienend als criteria voor tokenselectie tijdens zelfaandachtsblokken; (ii) Onderlinge Visie-Taal-Actie Streaming die op flexibele wijze diverse behoeften binnen GUI-taken verenigt, waardoor effectief beheer van visuele-actiegeschiedenis mogelijk is bij navigatie of het koppelen van multi-turn query-actiesequenties per schermafbeelding om de trainings-efficiëntie te verbeteren; (iii) Kleinschalige Hoogwaardige GUI Instructie-volgdatasets door zorgvuldige gegevenscuratie en het toepassen van een hersteekproefstrategie om significante onevenwichtigheden in gegevenstypen aan te pakken. Met bovengenoemde componenten behaalt ShowUI, een lichtgewicht 2B-model met 256K gegevens, een sterke nauwkeurigheid van 75,1% bij zero-shot schermafbeelding verankering. De UI-gestuurde tokenselectie vermindert bovendien 33% van overbodige visuele tokens tijdens training en versnelt de prestaties met 1,4x. Navigatie-experimenten over web Mind2Web, mobiele AITW en online MiniWob omgevingen benadrukken verder de effectiviteit en potentie van ons model bij het bevorderen van GUI-visuele agenten. De modellen zijn beschikbaar op https://github.com/showlab/ShowUI.

ROICtrl: Versterking van Instantiecontrole voor Visuele Generatie
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

De natuurlijke taal worstelt vaak om nauwkeurig positionele en attribuutinformatie te associëren met meerdere instanties, wat de huidige op tekst gebaseerde visuele generatiemodellen beperkt tot eenvoudigere composities met slechts een paar dominante instanties. Om deze beperking aan te pakken, verbetert dit werk diffusiemodellen door regionale instantiecontrole te introduceren, waarbij elke instantie wordt beheerst door een begrenzingskader gekoppeld aan een vrije tekstbijschrift. Vorige methoden op dit gebied vertrouwen doorgaans op impliciete positie-encodering of expliciete aandachtsmaskers om regio's van belang (ROIs) te scheiden, resulterend in ofwel onnauwkeurige coördinaatinjectie of grote computationele overhead. Geïnspireerd door ROI-Align in objectdetectie, introduceren we een aanvullende bewerking genaamd ROI-Unpool. Samen maken ROI-Align en ROI-Unpool expliciete, efficiënte en nauwkeurige ROI-manipulatie mogelijk op hoge-resolutie kenmerkkaarten voor visuele generatie. Voortbouwend op ROI-Unpool stellen we ROICtrl voor, een adapter voor vooraf getrainde diffusiemodellen die precieze regionale instantiecontrole mogelijk maakt. ROICtrl is compatibel met door de gemeenschap gefinetunede diffusiemodellen, evenals met bestaande op ruimte gebaseerde toevoegingen (bijv. ControlNet, T2I-Adapter) en op embedding gebaseerde toevoegingen (bijv. IP-Adapter, ED-LoRA), waardoor hun toepassingen worden uitgebreid naar multi-instantie generatie. Experimenten tonen aan dat ROICtrl superieure prestaties levert in regionale instantiecontrole en tegelijkertijd de computationele kosten aanzienlijk verlaagt.

Paden op het Beeldmanifold: Beeldbewerking via Videogeneratie
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Recente ontwikkelingen op het gebied van beeldbewerking, aangedreven door beeldverspreidingsmodellen, hebben opmerkelijke vooruitgang laten zien. Er blijven echter aanzienlijke uitdagingen bestaan, aangezien deze modellen vaak moeite hebben om complexe bewerkingsinstructies nauwkeurig op te volgen en regelmatig de geloofwaardigheid compromitteren door belangrijke elementen van het originele beeld te wijzigen. Tegelijkertijd heeft videogeneratie opmerkelijke vooruitgang geboekt, met modellen die effectief functioneren als consistente en continue wereldsimulatoren. In dit artikel stellen we voor om deze twee gebieden te combineren door gebruik te maken van beeld-naar-video modellen voor beeldbewerking. We herformuleren beeldbewerking als een tijdsgebonden proces, waarbij vooraf getrainde videomodellen worden gebruikt om vloeiende overgangen te creëren van het originele beeld naar de gewenste bewerking. Deze aanpak doorkruist continu de beeldmanifold, waarbij consistente bewerkingen worden gegarandeerd terwijl de belangrijkste aspecten van het originele beeld behouden blijven. Onze aanpak behaalt state-of-the-art resultaten op tekstgebaseerde beeldbewerking, waarbij aanzienlijke verbeteringen worden aangetoond op het gebied van zowel bewerkingsnauwkeurigheid als beeldbehoud.

Identiteit-Behoudende Tekst-naar-Video Generatie door Frequentie Decompositie
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

Identiteit-bewarende tekst-naar-video (IPT2V) generatie heeft als doel hoogwaardige video's te creëren met consistente menselijke identiteit. Het is een belangrijke taak in videogeneratie, maar blijft een open probleem voor generatieve modellen. Dit artikel verlegt de technische grenzen van IPT2V in twee richtingen die nog niet zijn opgelost in de literatuur: (1) Een afstemmingsvrij proces zonder tijdrovende geval-per-geval finetuning, en (2) Een frequentie-bewust heuristisch identiteit-bewarend DiT-gebaseerd regelsysteem. We stellen ConsisID voor, een afstemmingsvrij DiT-gebaseerd controleerbaar IPT2V-model om menselijke identiteit consistent te houden in de gegenereerde video. Geïnspireerd door eerdere bevindingen in frequentieanalyse van diffusietransformatoren, maakt het gebruik van identiteitscontrolesignalen in het frequentiedomein, waar gezichtskenmerken kunnen worden opgesplitst in laagfrequente globale kenmerken en hoogfrequente intrinsieke kenmerken. Ten eerste, vanuit een laagfrequente benadering, introduceren we een globale gezichtsextractor, die referentiebeelden en gezichtssleutelpunten codeert in een latente ruimte, waardoor functies worden gegenereerd die verrijkt zijn met laagfrequente informatie. Deze functies worden vervolgens geïntegreerd in ondiepe lagen van het netwerk om trainingsuitdagingen geassocieerd met DiT te verlichten. Ten tweede, vanuit een hoogfrequente benadering, ontwerpen we een lokale gezichtsextractor om hoogfrequente details vast te leggen en deze in transformerblokken te injecteren, waardoor het vermogen van het model om fijngestructureerde kenmerken te behouden wordt verbeterd. We stellen een hiërarchische trainingsstrategie voor om frequentie-informatie te benutten voor identiteitsbehoud, waardoor een standaard voorgeleerd videogeneratiemodel wordt omgezet in een IPT2V-model. Uitgebreide experimenten tonen aan dat ons frequentie-bewuste heuristische schema een optimale controleoplossing biedt voor DiT-gebaseerde modellen. Dankzij dit schema genereert onze ConsisID hoogwaardige, identiteit-bewarende video's, waarmee stappen worden gezet naar effectievere IPT2V.

MME-Onderzoek: Een Uitgebreid Onderzoek naar de Evaluatie van Multimodale Taalmodelen met LLM's
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Als een prominente richting van Kunstmatige Algemene Intelligentie (AGI) hebben Multimodale Grote Taalmodellen (MLLM's) toenemende aandacht gekregen van zowel de industrie als de academische wereld. Voortbouwend op vooraf getrainde LLM's, ontwikkelt deze modellenfamilie verder multimodale perceptie- en redeneervaardigheden die indrukwekkend zijn, zoals het schrijven van code op basis van een stroomdiagram of het creëren van verhalen op basis van een afbeelding. In het ontwikkelingsproces is evaluatie cruciaal omdat het intuïtieve feedback en begeleiding biedt bij het verbeteren van modellen. In tegenstelling tot het traditionele train-eval-test paradigma dat alleen gunstig is voor een enkele taak zoals beeldclassificatie, heeft de veelzijdigheid van MLLM's geleid tot de opkomst van verschillende nieuwe benchmarks en evaluatiemethoden. In dit artikel streven we ernaar een uitgebreid overzicht van MLLM-evaluatie te presenteren, waarbij vier belangrijke aspecten worden besproken: 1) de samengevatte benchmarktypes verdeeld naar de evaluatiemogelijkheden, inclusief basisvaardigheden, modelzelfanalyse en uitgebreide toepassingen; 2) het typische proces van benchmarkconstructie, bestaande uit gegevensverzameling, annotatie en voorzorgsmaatregelen; 3) de systematische evaluatiemethode bestaande uit beoordelaar, metriek en toolkit; 4) de vooruitzichten voor de volgende benchmark. Dit werk heeft tot doel onderzoekers een eenvoudig begrip te bieden van hoe MLLM's effectief te evalueren volgens verschillende behoeften en betere evaluatiemethoden te inspireren, waardoor de vooruitgang van MLLM-onderzoek wordt bevorderd.

Onderlinge Scene Graph voor Onderlinge Tekst-en-Afbeelding Generatie Evaluatie
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

Veel gebruikersvragen in de echte wereld (bijv. "Hoe maak je gebakken rijst met ei?") zouden baat kunnen hebben bij systemen die in staat zijn om antwoorden te genereren met zowel tekstuele stappen als bijbehorende afbeeldingen, vergelijkbaar met een kookboek. Modellen die zijn ontworpen om afwisselend tekst en afbeeldingen te genereren, worden geconfronteerd met uitdagingen om consistentie te waarborgen binnen en tussen deze modaliteiten. Om deze uitdagingen aan te pakken, presenteren we ISG, een uitgebreid evaluatiekader voor afwisselende tekst-en-afbeelding generatie. ISG maakt gebruik van een scène grafiekstructuur om relaties tussen tekst- en afbeeldingsblokken vast te leggen, waarbij antwoorden worden geëvalueerd op vier niveaus van granulariteit: holistisch, structureel, blokniveau en beeldspecifiek. Deze meerlaagse evaluatie maakt een genuanceerde beoordeling van consistentie, samenhang en nauwkeurigheid mogelijk, en biedt interpreteerbare vraag-antwoord feedback. Samen met ISG introduceren we een benchmark, ISG-Bench, met in totaal 1.150 voorbeelden verdeeld over 8 categorieën en 21 subcategorieën. Deze benchmark dataset omvat complexe taal-visuele afhankelijkheden en gouden antwoorden om modellen effectief te evalueren op visiegerichte taken zoals stijloverdracht, een uitdagend gebied voor huidige modellen. Door ISG-Bench te gebruiken, tonen we aan dat recente verenigde visie-taalmodellen slecht presteren bij het genereren van afwisselende inhoud. Hoewel compositorische benaderingen die afzonderlijke taal- en beeldmodellen combineren een verbetering van 111% laten zien ten opzichte van verenigde modellen op holistisch niveau, blijft hun prestatie suboptimaal op zowel blok- als beeldniveaus. Om toekomstig werk te vergemakkelijken, ontwikkelen we ISG-Agent, een basisagent die een "plan-uitvoer-verfijn" pijplijn hanteert om tools aan te roepen, wat resulteert in een prestatieverbetering van 122%.

SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Schetsen dient als een veelzijdig instrument voor het externaliseren van ideeën, waardoor snelle verkenning en visuele communicatie mogelijk zijn die verschillende disciplines bestrijken. Hoewel kunstmatige systemen aanzienlijke vooruitgang hebben geboekt in contentcreatie en mens-computerinteractie, blijft het vastleggen van de dynamische en abstracte aard van menselijk schetsen een uitdaging. In dit werk introduceren we SketchAgent, een op taal gebaseerde, sequentiële schetsgeneratiemethode die gebruikers in staat stelt om schetsen te maken, aan te passen en te verfijnen via dynamische, conversatiegerichte interacties. Onze benadering vereist geen training of fijnafstemming. In plaats daarvan maken we gebruik van de sequentiële aard en rijke voorkennis van kant-en-klare multimodale grote taalmodellen (LLM's). We presenteren een intuïtieve schets-taal, geïntroduceerd bij het model via in-context voorbeelden, waardoor het kan "tekenen" met op string gebaseerde acties. Deze worden verwerkt tot vectorafbeeldingen en vervolgens gerenderd om een schets te maken op een pixeldoek, die vervolgens opnieuw kan worden gebruikt voor verdere taken. Door slag voor slag te tekenen, legt onze agent de zich ontwikkelende, dynamische kwaliteiten vast die inherent zijn aan schetsen. We tonen aan dat SketchAgent schetsen kan genereren van diverse prompts, kan deelnemen aan op dialoog gebaseerd tekenen, en op een zinvolle manier kan samenwerken met menselijke gebruikers.

Heroverweging van Token-vermindering in MLLM's: Naar een Verenigd Paradigma voor Versnelling Zonder Training
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Om de inferentie van zware Multimodale Grote Taalmodellen (MLLM's) te versnellen, heroverweegt deze studie het huidige landschap van onderzoek naar tokenvermindering zonder training. We betreuren dat de kritieke componenten van bestaande methoden nauw met elkaar verweven zijn, waarbij hun onderlinge verbanden en effecten onduidelijk blijven voor vergelijking, overdracht en uitbreiding. Daarom stellen we een verenigd ''filter-correleer-comprimeer'' paradigma voor dat de tokenvermindering opdeelt in drie afzonderlijke fasen binnen een pijplijn, met behoud van consistente ontwerpdoelstellingen en elementen, terwijl unieke implementaties mogelijk zijn. We ontrafelen ook de populaire werken en voegen ze samen in ons paradigma om de universaliteit ervan te tonen. Ten slotte bieden we een reeks methoden gebaseerd op het paradigma, waarbij een balans wordt gevonden tussen snelheid en nauwkeurigheid gedurende verschillende fasen van de inferentie. Experimentele resultaten over 10 benchmarks tonen aan dat onze methoden tot wel 82,4% reductie in FLOPs kunnen bereiken met een minimaal effect op de prestaties, waarbij ze tegelijkertijd de state-of-the-art training-vrije methoden overtreffen. Onze projectpagina is te vinden op https://ficoco-accelerate.github.io/.

Lage-bits kwantisering geeft de voorkeur aan ondergetrainde LLM's: Schaalwetten voor gekwantiseerde LLM's met 100T trainings-tokens.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

We onthullen dat kwantisatie met weinig bits de voorkeur geeft aan ondergetrainde grote taalmodellen (LLM's) door te observeren dat modellen met grotere formaten of minder trainings-tokens minder degradatie ondervinden door kwantisatie met weinig bits, terwijl kleinere modellen met uitgebreide trainings-tokens aanzienlijke degradatie ondervinden. Om dieper inzicht te krijgen in deze trend, bestuderen we meer dan 1500 gekwantiseerde LLM-checkpoints van verschillende groottes en op verschillende trainingsniveaus (ondergetraind of volledig getraind) in een gecontroleerde omgeving, waarbij schaalwetten worden afgeleid om de relatie tussen degradatie door kwantisatie en factoren zoals het aantal trainings-tokens, modelgrootte en bit-breedte te begrijpen. Met de afgeleide schaalwetten stellen we een nieuw perspectief voor waarbij we degradatie door kwantisatie kunnen gebruiken om de trainingsniveaus van een LLM te meten en het aantal trainings-tokens te bepalen dat nodig is om LLM's van verschillende groottes volledig te trainen. Bovendien gebruiken we de schaalwetten om de kwantisatieprestaties van LLM's van verschillende groottes te voorspellen die zijn getraind met 100 biljoen tokens. Onze projectie toont aan dat de kwantisatieprestaties met weinig bits van toekomstige modellen, die naar verwachting worden getraind met meer dan 100 biljoen tokens, mogelijk NIET wenselijk zijn. Dit vormt een potentieel uitdaging voor kwantisatie met weinig bits in de toekomst en benadrukt de noodzaak om rekening te houden met het trainingsniveau van een model bij het evalueren van onderzoek naar kwantisatie met weinig bits. Om toekomstig onderzoek naar dit probleem te vergemakkelijken, stellen we alle 1500+ gekwantiseerde checkpoints die in dit werk zijn gebruikt beschikbaar op https://huggingface.co/Xu-Ouyang.

SAR3D: Autoregressieve 3D-objectgeneratie en -begrip via Multi-scale 3D VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Autoregressieve modellen hebben opmerkelijk succes aangetoond in verschillende vakgebieden, van grote taalmodellen (LLM's) tot grote multimodale modellen (LMM's) en 2D-inhoudsgeneratie, waardoor ze dichter bij kunstmatige algemene intelligentie (AGI) komen. Ondanks deze vooruitgang blijft het toepassen van autoregressieve benaderingen op 3D-objectgeneratie en -begrip grotendeels onontgonnen. Dit artikel introduceert Scale AutoRegressive 3D (SAR3D), een nieuw raamwerk dat gebruikmaakt van een multi-schaal 3D vector-gekwantiseerde variational auto-encoder (VQVAE) om 3D-objecten te tokeniseren voor efficiënte autoregressieve generatie en gedetailleerd begrip. Door de volgende schaal in een multi-schaal latente representatie te voorspellen in plaats van het volgende enkele token, vermindert SAR3D de generatietijd aanzienlijk, met snelle 3D-objectgeneratie in slechts 0,82 seconden op een A6000 GPU. Bovendien, gezien de tokens verrijkt met hiërarchische 3D-bewuste informatie, fijnafstemmen we een voorgeleerd LLM erop, waardoor multimodaal begrip van 3D-inhoud mogelijk is. Onze experimenten tonen aan dat SAR3D huidige 3D-generatiemethoden overtreft in zowel snelheid als kwaliteit en LLM's in staat stelt 3D-modellen uitgebreid te interpreteren en te onderschrijven.

VLRewardBench: Een uitdagende benchmark voor visie-taal generatieve beloningsmodellen.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Visie-taal generatieve beloningsmodellen (VL-GenRMs) spelen een cruciale rol bij het afstemmen en evalueren van multimodale AI-systemen, maar hun eigen evaluatie blijft onderbelicht. Huidige beoordelingsmethoden vertrouwen voornamelijk op door AI geannoteerde voorkeurslabels van traditionele VL-taken, die vooroordelen kunnen introduceren en vaak niet effectief zijn om geavanceerde modellen uit te dagen. Om deze beperkingen aan te pakken, introduceren we VL-RewardBench, een uitgebreide benchmark die algemene multimodale vragen, visuele hallucinatiedetectie en complexe redeneertaken omvat. Via ons door AI ondersteunde annotatieproces dat steekproefselectie combineert met menselijke verificatie, stellen we 1.250 hoogwaardige voorbeelden samen die specifiek zijn ontworpen om de beperkingen van modellen te onderzoeken. Een uitgebreide evaluatie over 16 toonaangevende grote visie-taalmodellen toont aan dat VL-RewardBench effectief is als uitdagend testplatform, waar zelfs GPT-4o slechts 65,4% nauwkeurigheid behaalt, en toonaangevende open-source modellen zoals Qwen2-VL-72B moeite hebben om willekeurig gokken te overtreffen. Belangrijk is dat de prestaties op VL-RewardBench sterk correleren (Pearson's r > 0,9) met MMMU-Pro nauwkeurigheid met behulp van Best-of-N sampling met VL-GenRMs. Analyse-experimenten onthullen drie kritische inzichten voor het verbeteren van VL-GenRMs: (i) modellen falen voornamelijk bij basis visuele perceptietaken in plaats van redeneertaken; (ii) de voordelen van schalen op inferentietijd variëren sterk per modelcapaciteit; en (iii) het trainen van VL-GenRMs om te leren beoordelen verbetert aanzienlijk de beoordelingscapaciteit (+14,7% nauwkeurigheid voor een 7B VL-GenRM). Wij geloven dat VL-RewardBench samen met de experimentele inzichten een waardevolle bron zal worden voor de vooruitgang van VL-GenRMs.

Het leren van 3D representaties uit procedurele 3D programma's.
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

Zelfgestuurd leren is naar voren gekomen als een veelbelovende benadering voor het verkrijgen van overdraagbare 3D-representaties van ongelabelde 3D-puntenwolken. In tegenstelling tot 2D-afbeeldingen, die wijdverspreid toegankelijk zijn, vereist het verkrijgen van 3D-middelen gespecialiseerde expertise of professionele 3D-scanequipment, waardoor opschalen moeilijk wordt en auteursrechtelijke zorgen ontstaan. Om deze uitdagingen aan te pakken, stellen we voor om 3D-representaties te leren van procedurele 3D-programma's die automatisch 3D-vormen genereren met behulp van eenvoudige primitieven en augmentaties. Opmerkelijk is dat, ondanks het ontbreken van semantische inhoud, de 3D-representaties die zijn geleerd van deze gesynthetiseerde dataset vergelijkbaar presteren met state-of-the-art representaties die zijn geleerd van semantisch herkenbare 3D-modellen (bijv. vliegtuigen) bij verschillende downstream 3D-taken, waaronder vormclassificatie, deelsegmentatie en het invullen van gemaskeerde puntenwolken. Onze analyse suggereert verder dat huidige zelfgestuurde leermethoden voornamelijk geometrische structuren vastleggen in plaats van hoog-niveau semantiek.

SALOVA: Segment-Versterkte Lange Video Assistent voor Gerichte Opvraging en Routering in Analyse van Lange Video's
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Ondanks de vooruitgang in Grote Multi-modale Modellen, blijft het toepassen ervan op lange en onbewerkte videomateriaal uitdagend vanwege beperkingen in contextlengte en aanzienlijke geheugenoverhead. Deze beperkingen leiden vaak tot aanzienlijk informatieverlies en verminderde relevantie in de modelreacties. Met de exponentiële groei van videogegevens op webplatforms is het begrijpen van lange video's cruciaal voor de vooruitgang van gegeneraliseerde intelligentie. In dit artikel introduceren we SALOVA: Segment-Augmented LOng Video Assistant, een nieuw vide-LLM-framework dat is ontworpen om het begrip van lang videomateriaal te verbeteren door middel van een gericht ophaalproces. We pakken twee belangrijke uitdagingen aan om dit te bereiken: (i) We presenteren de SceneWalk-dataset, een hoogwaardige verzameling van 87,8K lange video's, elk dicht ondertiteld op segmentniveau om modellen in staat te stellen scènecontinuïteit vast te leggen en rijke beschrijvende context te behouden. (ii) We ontwikkelen robuuste architectonische ontwerpen die een dynamisch routeringsmechanisme en een ruimtelijk-temporele projector integreren om efficiënt relevante videosegmenten op te halen en te verwerken op basis van gebruikersquery's. Ons framework vermindert de beperkingen van huidige video-LMM's door nauwkeurige identificatie en ophalen van relevante videosegmenten in reactie op query's mogelijk te maken, waardoor de contextuele relevantie van de gegenereerde reacties wordt verbeterd. Via uitgebreide experimenten toont SALOVA verbeterde capaciteiten in het verwerken van complexe lange video's, met aanzienlijke mogelijkheden om contextuele integriteit te behouden over uitgebreide sequenties.

Fijne Bijschrift: Compositie van Beeldbijschriften met de Focus Waar Je Maar Wilt op Elk Niveau van Detail
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

De opkomst van grote Vision-Language Modellen (VLM's) heeft aanzienlijke vooruitgang geboekt in multimodale taken, waardoor meer geavanceerde en nauwkeurige redenering mogelijk is over verschillende toepassingen, waaronder het onderschriften van afbeeldingen en video's, visuele vraagbeantwoording en cross-modale opvraging. Ondanks hun superieure mogelijkheden hebben VLM's moeite met het waarnemen van gedetailleerde informatie over de regionale samenstelling van afbeeldingen. Specifiek hebben ze moeite met het nauwkeurig afstemmen van de segmentatiemaskers met de overeenkomstige semantiek en het nauwkeurig beschrijven van de samenstellende aspecten van de genoemde regio's. Echter, compositionality - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te genereren - is cruciaal voor het vergemakkelijken van coherente redenering en begrip over modaliteiten door VLM's. Om dit probleem aan te pakken, stellen we FINECAPTION voor, een nieuw VLM dat willekeurige maskers als referentie-invoer kan herkennen en hoogwaardige afbeeldingen kan verwerken voor compositionele afbeeldingsonderschriften op verschillende granulariteitsniveaus. Om dit initiatief te ondersteunen, introduceren we COMPOSITIONCAP, een nieuwe dataset voor compositionele afbeeldingsonderschriften op meerdere niveaus van regiosamenstelling, die de taak van compositionele attribuutbewuste regionale afbeeldingsonderschriften introduceert. Empirische resultaten tonen de effectiviteit van ons voorgestelde model in vergelijking met andere toonaangevende VLM's. Daarnaast analyseren we de mogelijkheden van huidige VLM's in het herkennen van verschillende visuele aanwijzingen voor compositionele regionale afbeeldingsonderschriften, waarbij gebieden voor verbetering in VLM-ontwerp en -training worden belicht.

AnchorCrafter: Animeer CyberAnkers die uw producten verkopen via Video Generatie van Mens-Object Interactie
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

De automatische generatie van ankerstijl productpromotievideo's biedt veelbelovende mogelijkheden in online handel, reclame en consumentenbetrokkenheid. Dit blijft echter een uitdagende taak ondanks significante vooruitgang in door houding geleide menselijke videogeneratie. Bij het aanpakken van deze uitdaging identificeren we de integratie van mens-objectinteracties (HOI) in door houding geleide menselijke videogeneratie als een kernprobleem. Hiertoe introduceren we AnchorCrafter, een nieuw diffusiegebaseerd systeem dat is ontworpen om 2D-video's te genereren met een doelgerichte mens en een aangepast object, waarbij een hoge visuele geloofwaardigheid en controleerbare interacties worden bereikt. Specifiek stellen we twee belangrijke innovaties voor: de HOI-verschijningsperceptie, die de herkenning van objectverschijning verbetert vanuit willekeurige multi-view perspectieven en object- en menselijke verschijning ontkoppelt, en de HOI-bewegingsinjectie, die complexe mens-objectinteracties mogelijk maakt door uitdagingen in objecttrajectconditionering en inter-occlusiebeheer te overwinnen. Daarnaast introduceren we de HOI-gebiedsherwegingsverlies, een trainingsdoel dat het leren van objectdetails verbetert. Uitgebreide experimenten tonen aan dat ons voorgestelde systeem bestaande methoden overtreft in het behouden van objectverschijning en vormbewustzijn, terwijl tegelijkertijd consistentie in menselijke verschijning en beweging wordt gehandhaafd. Projectpagina: https://cangcz.github.io/Anchor-Crafter/

EfficientViM: Efficiënte Vision Mamba met Hidden State Mixer gebaseerde Staatruimte Dualiteit
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Voor de implementatie van neurale netwerken in omgevingen met beperkte middelen, hebben eerdere werken lichtgewicht architecturen gebouwd met convolutie en aandacht om respectievelijk lokale en globale afhankelijkheden vast te leggen. Onlangs is het toestandsruimtemodel naar voren gekomen als een effectieve wereldwijde tokeninteractie met zijn gunstige lineaire rekenkundige kosten in het aantal tokens. Toch zijn efficiënte visuele backbones gebouwd met SSM minder onderzocht. In dit artikel introduceren we Efficient Vision Mamba (EfficientViM), een nieuw architectuur gebouwd op verborgen-toestandsmenger-gebaseerde toestandsruimtedualiteit (HSM-SSD) die efficiënt globale afhankelijkheden vastlegt met verder verminderde rekenkundige kosten. In de HSM-SSD-laag passen we de vorige SSD-laag aan om de kanaalmengoperatie binnen verborgen toestanden mogelijk te maken. Daarnaast stellen we multi-stage verborgen-toestandsfusie voor om de representatiekracht van verborgen toestanden verder te versterken, en bieden we het ontwerp dat de bottleneck veroorzaakt door geheugen-gebonden operaties verlicht. Als gevolg hiervan bereikt de EfficientViM-familie een nieuwe state-of-the-art snelheid-nauwkeurigheid balans op ImageNet-1k, met een prestatieverbetering tot 0.7% ten opzichte van het op één na beste model SHViT met een snellere snelheid. Bovendien observeren we aanzienlijke verbeteringen in doorvoer en nauwkeurigheid in vergelijking met eerdere werken, bij het schalen van afbeeldingen of bij het toepassen van distillatie training. De code is beschikbaar op https://github.com/mlvlab/EfficientViM.

MolReFlect: Naar In-Context Fijnmazige Afstemmingen tussen Moleculen en Teksten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Molecuulontdekking is een cruciaal onderzoeksgebied dat alles beïnvloedt, van de medicijnen die we nemen tot de materialen die we gebruiken. Onlangs zijn Large Language Models (LLM's) wijdverspreid aangenomen in het begrijpen en genereren van moleculen, maar de afstemming tussen moleculen en hun bijbehorende bijschriften blijft een aanzienlijke uitdaging. Vorige inspanningen behandelen de molecule vaak als een algemene SMILES-reeks of moleculaire grafiek, waarbij de fijnmazige afstemming tussen de moleculaire substructuren en de beschrijvende tekstuele zinnen wordt verwaarloosd, wat cruciaal is voor nauwkeurige en verklaarbare voorspellingen. In dit geval introduceren we MolReFlect, een nieuw leerling-leraarframework dat is ontworpen om de molecule-bijschriftafstemming op een fijnmazige manier contextueel uit te voeren. Onze aanpak maakt aanvankelijk gebruik van een grotere leraar LLM om de gedetailleerde afstemmingen te labelen door kritieke zinnen rechtstreeks uit moleculaire bijschriften of SMILES-reeksen te extraheren en deze te impliceren naar overeenkomstige substructuren of kenmerken. Om deze afstemmingen te verfijnen, stellen we In-Context Selective Reflection voor, die eerdere extractieresultaten ophaalt als contextvoorbeelden voor de leraar LLM om te reflecteren en laat een kleinere leerling LLM kiezen uit in-contextreflectie en eerdere extractieresultaten. Ten slotte verbeteren we het leerproces van de leerling LLM door middel van Chain-of-Thought In-Context Molecule Tuning, waarbij de fijnmazige afstemmingen en de redeneerprocessen binnen het Chain-of-Thought-formaat worden geïntegreerd. Onze experimentele resultaten tonen aan dat MolReFlect LLM's zoals Mistral-7B in staat stelt om aanzienlijk beter te presteren dan de vorige baselines, met het behalen van de SOTA-prestaties op de ChEBI-20 dataset. Deze vooruitgang verbetert niet alleen de generatieve mogelijkheden van LLM's in de molecule-bijschriftvertalingstaak, maar draagt ook bij aan een meer verklaarbaar kader.

Visuele Counter Turing Test (VCT^2): Het Ontdekken van de Uitdagingen voor AI-gegenereerde Beeldherkenning en de Introductie van de Visuele AI-index (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

De proliferatie van AI-technieken voor beeldgeneratie, in combinatie met hun toenemende toegankelijkheid, heeft aanzienlijke zorgen doen rijzen over het potentiële misbruik van deze beelden om desinformatie te verspreiden. Recente AI-gegenereerde beeld detectie (AGBD) methoden omvatten CNNDetectie, NPR, DM Beeld Detectie, Nep Beeld Detectie, DIRE, LASTED, GAN Beeld Detectie, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake, en Deep Fake Detectie. We betogen echter dat de huidige state-of-the-art AGBD technieken ontoereikend zijn voor het effectief detecteren van hedendaagse AI-gegenereerde beelden en pleiten voor een grondige herziening van deze methoden. We introduceren de Visuele Tegenturingtest (VCT^2), een benchmark bestaande uit ~130K beelden gegenereerd door hedendaagse tekst-naar-beeld modellen (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3, en Midjourney 6). VCT^2 omvat twee sets van prompts afkomstig van tweets van het New York Times Twitter account en bijschriften van de MS COCO dataset. We evalueren ook de prestaties van de eerder genoemde AGBD technieken op de VCT^2 benchmark, waarbij we hun ineffectiviteit in het detecteren van AI-gegenereerde beelden benadrukken. Aangezien beeld-genererende AI modellen blijven evolueren, wordt de behoefte aan een kwantificeerbaar kader om deze modellen te evalueren steeds kritischer. Om aan deze behoefte te voldoen, stellen we de Visuele AI Index (V_AI) voor, die gegenereerde beelden beoordeelt vanuit verschillende visuele perspectieven, waaronder textuurcomplexiteit en objectcoherentie, en zo een nieuwe standaard stelt voor het evalueren van beeld-genererende AI modellen. Om onderzoek op dit gebied te bevorderen, stellen we onze https://huggingface.co/datasets/anonymous1233/COCO_AI en https://huggingface.co/datasets/anonymous1233/twitter_AI datasets openbaar beschikbaar.

Controleerbare menselijke beeldgeneratie met gepersonaliseerde multi-kledingstukken.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

We presenteren BootComp, een nieuw raamwerk gebaseerd op tekst-naar-afbeelding diffusiemodellen voor controleerbare menselijke afbeeldingsgeneratie met meerdere referentiekledingstukken. Hier is het belangrijkste knelpunt de gegevensverwerving voor training: het verzamelen van een grootschalige dataset van hoogwaardige referentiekledingafbeeldingen per menselijk onderwerp is behoorlijk uitdagend, dat wil zeggen, idealiter moet men elke afzonderlijke kledingfoto die door elke persoon wordt gedragen, handmatig verzamelen. Om dit aan te pakken, stellen we een gegevensgeneratiepijplijn voor om een grote synthetische dataset te construeren, bestaande uit menselijke en meerdere kledingstukparen, door een model te introduceren om elke referentiekledingafbeelding uit elke menselijke afbeelding te extraheren. Om de gegevenskwaliteit te waarborgen, stellen we ook een filterstrategie voor om ongewenste gegenereerde gegevens te verwijderen op basis van het meten van perceptuele overeenkomsten tussen het kledingstuk dat wordt gepresenteerd in de menselijke afbeelding en het geëxtraheerde kledingstuk. Ten slotte trainen we, door gebruik te maken van de geconstrueerde synthetische dataset, een diffusiemodel met twee parallelle denoisingspaden die meerdere kledingafbeeldingen als voorwaarden gebruiken om menselijke afbeeldingen te genereren terwijl hun fijne details behouden blijven. We tonen verder de brede toepasbaarheid van ons raamwerk door het aan te passen aan verschillende soorten referentiegebaseerde generatie in de modedomein, waaronder virtueel passen en controleerbare menselijke afbeeldingsgeneratie met andere voorwaarden, zoals houding, gezicht, enz.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

ShowUI: Een Vision-Language-Action Model voor GUI Visuele Agent.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl: Versterking van Instantiecontrole voor Visuele Generatie
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Paden op het Beeldmanifold: Beeldbewerking via Videogeneratie
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Identiteit-Behoudende Tekst-naar-Video Generatie door Frequentie Decompositie
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Onderzoek: Een Uitgebreid Onderzoek naar de Evaluatie van Multimodale Taalmodelen met LLM's
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Onderlinge Scene Graph voor Onderlinge Tekst-en-Afbeelding Generatie Evaluatie
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Heroverweging van Token-vermindering in MLLM's: Naar een Verenigd Paradigma voor Versnelling Zonder Training
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Lage-bits kwantisering geeft de voorkeur aan ondergetrainde LLM's: Schaalwetten voor gekwantiseerde LLM's met 100T trainings-tokens.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D: Autoregressieve 3D-objectgeneratie en -begrip via Multi-scale 3D VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench: Een uitdagende benchmark voor visie-taal generatieve beloningsmodellen.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Het leren van 3D representaties uit procedurele 3D programma's.
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA: Segment-Versterkte Lange Video Assistent voor Gerichte Opvraging en Routering in Analyse van Lange Video's
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Fijne Bijschrift: Compositie van Beeldbijschriften met de Focus Waar Je Maar Wilt op Elk Niveau van Detail
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter: Animeer CyberAnkers die uw producten verkopen via Video Generatie van Mens-Object Interactie
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM: Efficiënte Vision Mamba met Hidden State Mixer gebaseerde Staatruimte Dualiteit
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect: Naar In-Context Fijnmazige Afstemmingen tussen Moleculen en Teksten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Visuele Counter Turing Test (VCT^2): Het Ontdekken van de Uitdagingen voor AI-gegenereerde Beeldherkenning en de Introductie van de Visuele AI-index (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

Controleerbare menselijke beeldgeneratie met gepersonaliseerde multi-kledingstukken.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin