ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

ShowUI: Een Vision-Language-Action Model voor GUI Visuele Agent.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26
ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou
88
3

Het bouwen van Graphical User Interface (GUI) assistenten biedt aanzienlijke belofte om de productiviteit van menselijke workflows te verbeteren. Hoewel de meeste agenten op taal zijn gebaseerd en vertrouwen op een closed-source API met tekstrijke meta-informatie (bijv. HTML of toegankelijkheidsboom), vertonen ze beperkingen in het waarnemen van UI-visuele elementen zoals mensen dat doen, wat de noodzaak benadrukt voor GUI-visuele agenten. In dit werk ontwikkelen we een visie-taal-actie model in de digitale wereld, genaamd ShowUI, dat de volgende innovaties bevat: (i) UI-Gestuurde Visuele Token Selectie om computationele kosten te verlagen door schermafbeeldingen te formuleren als een UI verbonden grafiek, adaptief hun overbodige relatie identificerend en dienend als criteria voor tokenselectie tijdens zelfaandachtsblokken; (ii) Onderlinge Visie-Taal-Actie Streaming die op flexibele wijze diverse behoeften binnen GUI-taken verenigt, waardoor effectief beheer van visuele-actiegeschiedenis mogelijk is bij navigatie of het koppelen van multi-turn query-actiesequenties per schermafbeelding om de trainings-efficiëntie te verbeteren; (iii) Kleinschalige Hoogwaardige GUI Instructie-volgdatasets door zorgvuldige gegevenscuratie en het toepassen van een hersteekproefstrategie om significante onevenwichtigheden in gegevenstypen aan te pakken. Met bovengenoemde componenten behaalt ShowUI, een lichtgewicht 2B-model met 256K gegevens, een sterke nauwkeurigheid van 75,1% bij zero-shot schermafbeelding verankering. De UI-gestuurde tokenselectie vermindert bovendien 33% van overbodige visuele tokens tijdens training en versnelt de prestaties met 1,4x. Navigatie-experimenten over web Mind2Web, mobiele AITW en online MiniWob omgevingen benadrukken verder de effectiviteit en potentie van ons model bij het bevorderen van GUI-visuele agenten. De modellen zijn beschikbaar op https://github.com/showlab/ShowUI.

2

Paden op het Beeldmanifold: Beeldbewerking via Videogeneratie
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25
ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
37
2

Recente ontwikkelingen op het gebied van beeldbewerking, aangedreven door beeldverspreidingsmodellen, hebben opmerkelijke vooruitgang laten zien. Er blijven echter aanzienlijke uitdagingen bestaan, aangezien deze modellen vaak moeite hebben om complexe bewerkingsinstructies nauwkeurig op te volgen en regelmatig de geloofwaardigheid compromitteren door belangrijke elementen van het originele beeld te wijzigen. Tegelijkertijd heeft videogeneratie opmerkelijke vooruitgang geboekt, met modellen die effectief functioneren als consistente en continue wereldsimulatoren. In dit artikel stellen we voor om deze twee gebieden te combineren door gebruik te maken van beeld-naar-video modellen voor beeldbewerking. We herformuleren beeldbewerking als een tijdsgebonden proces, waarbij vooraf getrainde videomodellen worden gebruikt om vloeiende overgangen te creëren van het originele beeld naar de gewenste bewerking. Deze aanpak doorkruist continu de beeldmanifold, waarbij consistente bewerkingen worden gegarandeerd terwijl de belangrijkste aspecten van het originele beeld behouden blijven. Onze aanpak behaalt state-of-the-art resultaten op tekstgebaseerde beeldbewerking, waarbij aanzienlijke verbeteringen worden aangetoond op het gebied van zowel bewerkingsnauwkeurigheid als beeldbehoud.

3

MME-Onderzoek: Een Uitgebreid Onderzoek naar de Evaluatie van Multimodale Taalmodelen met LLM's
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22
ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
21
2

Als een prominente richting van Kunstmatige Algemene Intelligentie (AGI) hebben Multimodale Grote Taalmodellen (MLLM's) toenemende aandacht gekregen van zowel de industrie als de academische wereld. Voortbouwend op vooraf getrainde LLM's, ontwikkelt deze modellenfamilie verder multimodale perceptie- en redeneervaardigheden die indrukwekkend zijn, zoals het schrijven van code op basis van een stroomdiagram of het creëren van verhalen op basis van een afbeelding. In het ontwikkelingsproces is evaluatie cruciaal omdat het intuïtieve feedback en begeleiding biedt bij het verbeteren van modellen. In tegenstelling tot het traditionele train-eval-test paradigma dat alleen gunstig is voor een enkele taak zoals beeldclassificatie, heeft de veelzijdigheid van MLLM's geleid tot de opkomst van verschillende nieuwe benchmarks en evaluatiemethoden. In dit artikel streven we ernaar een uitgebreid overzicht van MLLM-evaluatie te presenteren, waarbij vier belangrijke aspecten worden besproken: 1) de samengevatte benchmarktypes verdeeld naar de evaluatiemogelijkheden, inclusief basisvaardigheden, modelzelfanalyse en uitgebreide toepassingen; 2) het typische proces van benchmarkconstructie, bestaande uit gegevensverzameling, annotatie en voorzorgsmaatregelen; 3) de systematische evaluatiemethode bestaande uit beoordelaar, metriek en toolkit; 4) de vooruitzichten voor de volgende benchmark. Dit werk heeft tot doel onderzoekers een eenvoudig begrip te bieden van hoe MLLM's effectief te evalueren volgens verschillende behoeften en betere evaluatiemethoden te inspireren, waardoor de vooruitgang van MLLM-onderzoek wordt bevorderd.

4

Heroverweging van Token-vermindering in MLLM's: Naar een Verenigd Paradigma voor Versnelling Zonder Training
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26
ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang
20
2

Om de inferentie van zware Multimodale Grote Taalmodellen (MLLM's) te versnellen, heroverweegt deze studie het huidige landschap van onderzoek naar tokenvermindering zonder training. We betreuren dat de kritieke componenten van bestaande methoden nauw met elkaar verweven zijn, waarbij hun onderlinge verbanden en effecten onduidelijk blijven voor vergelijking, overdracht en uitbreiding. Daarom stellen we een verenigd ''filter-correleer-comprimeer'' paradigma voor dat de tokenvermindering opdeelt in drie afzonderlijke fasen binnen een pijplijn, met behoud van consistente ontwerpdoelstellingen en elementen, terwijl unieke implementaties mogelijk zijn. We ontrafelen ook de populaire werken en voegen ze samen in ons paradigma om de universaliteit ervan te tonen. Ten slotte bieden we een reeks methoden gebaseerd op het paradigma, waarbij een balans wordt gevonden tussen snelheid en nauwkeurigheid gedurende verschillende fasen van de inferentie. Experimentele resultaten over 10 benchmarks tonen aan dat onze methoden tot wel 82,4% reductie in FLOPs kunnen bereiken met een minimaal effect op de prestaties, waarbij ze tegelijkertijd de state-of-the-art training-vrije methoden overtreffen. Onze projectpagina is te vinden op https://ficoco-accelerate.github.io/.

5

SketchAgent: Taalgestuurde Opeenvolgende Schetsgeneratie
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26
ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba
19
4

Schetsen dient als een veelzijdig instrument voor het externaliseren van ideeën, waardoor snelle verkenning en visuele communicatie mogelijk zijn die verschillende disciplines bestrijken. Hoewel kunstmatige systemen aanzienlijke vooruitgang hebben geboekt in contentcreatie en mens-computerinteractie, blijft het vastleggen van de dynamische en abstracte aard van menselijk schetsen een uitdaging. In dit werk introduceren we SketchAgent, een op taal gebaseerde, sequentiële schetsgeneratiemethode die gebruikers in staat stelt om schetsen te maken, aan te passen en te verfijnen via dynamische, conversatiegerichte interacties. Onze benadering vereist geen training of fijnafstemming. In plaats daarvan maken we gebruik van de sequentiële aard en rijke voorkennis van kant-en-klare multimodale grote taalmodellen (LLM's). We presenteren een intuïtieve schets-taal, geïntroduceerd bij het model via in-context voorbeelden, waardoor het kan "tekenen" met op string gebaseerde acties. Deze worden verwerkt tot vectorafbeeldingen en vervolgens gerenderd om een schets te maken op een pixeldoek, die vervolgens opnieuw kan worden gebruikt voor verdere taken. Door slag voor slag te tekenen, legt onze agent de zich ontwikkelende, dynamische kwaliteiten vast die inherent zijn aan schetsen. We tonen aan dat SketchAgent schetsen kan genereren van diverse prompts, kan deelnemen aan op dialoog gebaseerd tekenen, en op een zinvolle manier kan samenwerken met menselijke gebruikers.

6

SAR3D: Autoregressieve 3D-objectgeneratie en -begrip via Multi-scale 3D VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25
ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
13
2

Autoregressieve modellen hebben opmerkelijk succes aangetoond in verschillende vakgebieden, van grote taalmodellen (LLM's) tot grote multimodale modellen (LMM's) en 2D-inhoudsgeneratie, waardoor ze dichter bij kunstmatige algemene intelligentie (AGI) komen. Ondanks deze vooruitgang blijft het toepassen van autoregressieve benaderingen op 3D-objectgeneratie en -begrip grotendeels onontgonnen. Dit artikel introduceert Scale AutoRegressive 3D (SAR3D), een nieuw raamwerk dat gebruikmaakt van een multi-schaal 3D vector-gekwantiseerde variational auto-encoder (VQVAE) om 3D-objecten te tokeniseren voor efficiënte autoregressieve generatie en gedetailleerd begrip. Door de volgende schaal in een multi-schaal latente representatie te voorspellen in plaats van het volgende enkele token, vermindert SAR3D de generatietijd aanzienlijk, met snelle 3D-objectgeneratie in slechts 0,82 seconden op een A6000 GPU. Bovendien, gezien de tokens verrijkt met hiërarchische 3D-bewuste informatie, fijnafstemmen we een voorgeleerd LLM erop, waardoor multimodaal begrip van 3D-inhoud mogelijk is. Onze experimenten tonen aan dat SAR3D huidige 3D-generatiemethoden overtreft in zowel snelheid als kwaliteit en LLM's in staat stelt 3D-modellen uitgebreid te interpreteren en te onderschrijven.

7

Lage-bits kwantisering geeft de voorkeur aan ondergetrainde LLM's: Schaalwetten voor gekwantiseerde LLM's met 100T trainings-tokens.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26
ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu
13
5

We onthullen dat kwantisatie met weinig bits de voorkeur geeft aan ondergetrainde grote taalmodellen (LLM's) door te observeren dat modellen met grotere formaten of minder trainings-tokens minder degradatie ondervinden door kwantisatie met weinig bits, terwijl kleinere modellen met uitgebreide trainings-tokens aanzienlijke degradatie ondervinden. Om dieper inzicht te krijgen in deze trend, bestuderen we meer dan 1500 gekwantiseerde LLM-checkpoints van verschillende groottes en op verschillende trainingsniveaus (ondergetraind of volledig getraind) in een gecontroleerde omgeving, waarbij schaalwetten worden afgeleid om de relatie tussen degradatie door kwantisatie en factoren zoals het aantal trainings-tokens, modelgrootte en bit-breedte te begrijpen. Met de afgeleide schaalwetten stellen we een nieuw perspectief voor waarbij we degradatie door kwantisatie kunnen gebruiken om de trainingsniveaus van een LLM te meten en het aantal trainings-tokens te bepalen dat nodig is om LLM's van verschillende groottes volledig te trainen. Bovendien gebruiken we de schaalwetten om de kwantisatieprestaties van LLM's van verschillende groottes te voorspellen die zijn getraind met 100 biljoen tokens. Onze projectie toont aan dat de kwantisatieprestaties met weinig bits van toekomstige modellen, die naar verwachting worden getraind met meer dan 100 biljoen tokens, mogelijk NIET wenselijk zijn. Dit vormt een potentieel uitdaging voor kwantisatie met weinig bits in de toekomst en benadrukt de noodzaak om rekening te houden met het trainingsniveau van een model bij het evalueren van onderzoek naar kwantisatie met weinig bits. Om toekomstig onderzoek naar dit probleem te vergemakkelijken, stellen we alle 1500+ gekwantiseerde checkpoints die in dit werk zijn gebruikt beschikbaar op https://huggingface.co/Xu-Ouyang.

8

VLRewardBench: Een uitdagende benchmark voor visie-taal generatieve beloningsmodellen.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26
ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu
11
2

Visie-taal generatieve beloningsmodellen (VL-GenRMs) spelen een cruciale rol bij het afstemmen en evalueren van multimodale AI-systemen, maar hun eigen evaluatie blijft onderbelicht. Huidige beoordelingsmethoden vertrouwen voornamelijk op door AI geannoteerde voorkeurslabels van traditionele VL-taken, die vooroordelen kunnen introduceren en vaak niet effectief zijn om geavanceerde modellen uit te dagen. Om deze beperkingen aan te pakken, introduceren we VL-RewardBench, een uitgebreide benchmark die algemene multimodale vragen, visuele hallucinatiedetectie en complexe redeneertaken omvat. Via ons door AI ondersteunde annotatieproces dat steekproefselectie combineert met menselijke verificatie, stellen we 1.250 hoogwaardige voorbeelden samen die specifiek zijn ontworpen om de beperkingen van modellen te onderzoeken. Een uitgebreide evaluatie over 16 toonaangevende grote visie-taalmodellen toont aan dat VL-RewardBench effectief is als uitdagend testplatform, waar zelfs GPT-4o slechts 65,4% nauwkeurigheid behaalt, en toonaangevende open-source modellen zoals Qwen2-VL-72B moeite hebben om willekeurig gokken te overtreffen. Belangrijk is dat de prestaties op VL-RewardBench sterk correleren (Pearson's r > 0,9) met MMMU-Pro nauwkeurigheid met behulp van Best-of-N sampling met VL-GenRMs. Analyse-experimenten onthullen drie kritische inzichten voor het verbeteren van VL-GenRMs: (i) modellen falen voornamelijk bij basis visuele perceptietaken in plaats van redeneertaken; (ii) de voordelen van schalen op inferentietijd variëren sterk per modelcapaciteit; en (iii) het trainen van VL-GenRMs om te leren beoordelen verbetert aanzienlijk de beoordelingscapaciteit (+14,7% nauwkeurigheid voor een 7B VL-GenRM). Wij geloven dat VL-RewardBench samen met de experimentele inzichten een waardevolle bron zal worden voor de vooruitgang van VL-GenRMs.

9

SALOVA: Segment-Versterkte Lange Video Assistent voor Gerichte Opvraging en Routering in Analyse van Lange Video's
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25
ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
10
2

Ondanks de vooruitgang in Grote Multi-modale Modellen, blijft het toepassen ervan op lange en onbewerkte videomateriaal uitdagend vanwege beperkingen in contextlengte en aanzienlijke geheugenoverhead. Deze beperkingen leiden vaak tot aanzienlijk informatieverlies en verminderde relevantie in de modelreacties. Met de exponentiële groei van videogegevens op webplatforms is het begrijpen van lange video's cruciaal voor de vooruitgang van gegeneraliseerde intelligentie. In dit artikel introduceren we SALOVA: Segment-Augmented LOng Video Assistant, een nieuw vide-LLM-framework dat is ontworpen om het begrip van lang videomateriaal te verbeteren door middel van een gericht ophaalproces. We pakken twee belangrijke uitdagingen aan om dit te bereiken: (i) We presenteren de SceneWalk-dataset, een hoogwaardige verzameling van 87,8K lange video's, elk dicht ondertiteld op segmentniveau om modellen in staat te stellen scènecontinuïteit vast te leggen en rijke beschrijvende context te behouden. (ii) We ontwikkelen robuuste architectonische ontwerpen die een dynamisch routeringsmechanisme en een ruimtelijk-temporele projector integreren om efficiënt relevante videosegmenten op te halen en te verwerken op basis van gebruikersquery's. Ons framework vermindert de beperkingen van huidige video-LMM's door nauwkeurige identificatie en ophalen van relevante videosegmenten in reactie op query's mogelijk te maken, waardoor de contextuele relevantie van de gegenereerde reacties wordt verbeterd. Via uitgebreide experimenten toont SALOVA verbeterde capaciteiten in het verwerken van complexe lange video's, met aanzienlijke mogelijkheden om contextuele integriteit te behouden over uitgebreide sequenties.

10

Het leren van 3D representaties uit procedurele 3D programma's.
Learning 3D Representations from Procedural 3D Programs

Nov 25
ByXuweiyi Chen, Zezhou Cheng
9
2

Zelfgestuurd leren is naar voren gekomen als een veelbelovende benadering voor het verkrijgen van overdraagbare 3D-representaties van ongelabelde 3D-puntenwolken. In tegenstelling tot 2D-afbeeldingen, die wijdverspreid toegankelijk zijn, vereist het verkrijgen van 3D-middelen gespecialiseerde expertise of professionele 3D-scanequipment, waardoor opschalen moeilijk wordt en auteursrechtelijke zorgen ontstaan. Om deze uitdagingen aan te pakken, stellen we voor om 3D-representaties te leren van procedurele 3D-programma's die automatisch 3D-vormen genereren met behulp van eenvoudige primitieven en augmentaties. Opmerkelijk is dat, ondanks het ontbreken van semantische inhoud, de 3D-representaties die zijn geleerd van deze gesynthetiseerde dataset vergelijkbaar presteren met state-of-the-art representaties die zijn geleerd van semantisch herkenbare 3D-modellen (bijv. vliegtuigen) bij verschillende downstream 3D-taken, waaronder vormclassificatie, deelsegmentatie en het invullen van gemaskeerde puntenwolken. Onze analyse suggereert verder dat huidige zelfgestuurde leermethoden voornamelijk geometrische structuren vastleggen in plaats van hoog-niveau semantiek.

11

Fijne Bijschrift: Compositie van Beeldbijschriften met de Focus Waar Je Maar Wilt op Elk Niveau van Detail
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23
ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
8
2

De opkomst van grote Vision-Language Modellen (VLM's) heeft aanzienlijke vooruitgang geboekt in multimodale taken, waardoor meer geavanceerde en nauwkeurige redenering mogelijk is over verschillende toepassingen, waaronder het onderschriften van afbeeldingen en video's, visuele vraagbeantwoording en cross-modale opvraging. Ondanks hun superieure mogelijkheden hebben VLM's moeite met het waarnemen van gedetailleerde informatie over de regionale samenstelling van afbeeldingen. Specifiek hebben ze moeite met het nauwkeurig afstemmen van de segmentatiemaskers met de overeenkomstige semantiek en het nauwkeurig beschrijven van de samenstellende aspecten van de genoemde regio's. Echter, compositionality - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te genereren - is cruciaal voor het vergemakkelijken van coherente redenering en begrip over modaliteiten door VLM's. Om dit probleem aan te pakken, stellen we FINECAPTION voor, een nieuw VLM dat willekeurige maskers als referentie-invoer kan herkennen en hoogwaardige afbeeldingen kan verwerken voor compositionele afbeeldingsonderschriften op verschillende granulariteitsniveaus. Om dit initiatief te ondersteunen, introduceren we COMPOSITIONCAP, een nieuwe dataset voor compositionele afbeeldingsonderschriften op meerdere niveaus van regiosamenstelling, die de taak van compositionele attribuutbewuste regionale afbeeldingsonderschriften introduceert. Empirische resultaten tonen de effectiviteit van ons voorgestelde model in vergelijking met andere toonaangevende VLM's. Daarnaast analyseren we de mogelijkheden van huidige VLM's in het herkennen van verschillende visuele aanwijzingen voor compositionele regionale afbeeldingsonderschriften, waarbij gebieden voor verbetering in VLM-ontwerp en -training worden belicht.

12

EfficientViM: Efficiënte Vision Mamba met Hidden State Mixer gebaseerde Staatruimte Dualiteit
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22
BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
7
2

Voor de implementatie van neurale netwerken in omgevingen met beperkte middelen, hebben eerdere werken lichtgewicht architecturen gebouwd met convolutie en aandacht om respectievelijk lokale en globale afhankelijkheden vast te leggen. Onlangs is het toestandsruimtemodel naar voren gekomen als een effectieve wereldwijde tokeninteractie met zijn gunstige lineaire rekenkundige kosten in het aantal tokens. Toch zijn efficiënte visuele backbones gebouwd met SSM minder onderzocht. In dit artikel introduceren we Efficient Vision Mamba (EfficientViM), een nieuw architectuur gebouwd op verborgen-toestandsmenger-gebaseerde toestandsruimtedualiteit (HSM-SSD) die efficiënt globale afhankelijkheden vastlegt met verder verminderde rekenkundige kosten. In de HSM-SSD-laag passen we de vorige SSD-laag aan om de kanaalmengoperatie binnen verborgen toestanden mogelijk te maken. Daarnaast stellen we multi-stage verborgen-toestandsfusie voor om de representatiekracht van verborgen toestanden verder te versterken, en bieden we het ontwerp dat de bottleneck veroorzaakt door geheugen-gebonden operaties verlicht. Als gevolg hiervan bereikt de EfficientViM-familie een nieuwe state-of-the-art snelheid-nauwkeurigheid balans op ImageNet-1k, met een prestatieverbetering tot 0.7% ten opzichte van het op één na beste model SHViT met een snellere snelheid. Bovendien observeren we aanzienlijke verbeteringen in doorvoer en nauwkeurigheid in vergelijking met eerdere werken, bij het schalen van afbeeldingen of bij het toepassen van distillatie training. De code is beschikbaar op https://github.com/mlvlab/EfficientViM.

13

AnchorCrafter: Animeer CyberAnkers die uw producten verkopen via Video Generatie van Mens-Object Interactie
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26
ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang
7
2

De automatische generatie van ankerstijl productpromotievideo's biedt veelbelovende mogelijkheden in online handel, reclame en consumentenbetrokkenheid. Dit blijft echter een uitdagende taak ondanks significante vooruitgang in door houding geleide menselijke videogeneratie. Bij het aanpakken van deze uitdaging identificeren we de integratie van mens-objectinteracties (HOI) in door houding geleide menselijke videogeneratie als een kernprobleem. Hiertoe introduceren we AnchorCrafter, een nieuw diffusiegebaseerd systeem dat is ontworpen om 2D-video's te genereren met een doelgerichte mens en een aangepast object, waarbij een hoge visuele geloofwaardigheid en controleerbare interacties worden bereikt. Specifiek stellen we twee belangrijke innovaties voor: de HOI-verschijningsperceptie, die de herkenning van objectverschijning verbetert vanuit willekeurige multi-view perspectieven en object- en menselijke verschijning ontkoppelt, en de HOI-bewegingsinjectie, die complexe mens-objectinteracties mogelijk maakt door uitdagingen in objecttrajectconditionering en inter-occlusiebeheer te overwinnen. Daarnaast introduceren we de HOI-gebiedsherwegingsverlies, een trainingsdoel dat het leren van objectdetails verbetert. Uitgebreide experimenten tonen aan dat ons voorgestelde systeem bestaande methoden overtreft in het behouden van objectverschijning en vormbewustzijn, terwijl tegelijkertijd consistentie in menselijke verschijning en beweging wordt gehandhaafd. Projectpagina: https://cangcz.github.io/Anchor-Crafter/

14

MolReFlect: Naar In-Context Fijnmazige Afstemmingen tussen Moleculen en Teksten
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22
ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li
5
2

Molecuulontdekking is een cruciaal onderzoeksgebied dat alles beïnvloedt, van de medicijnen die we nemen tot de materialen die we gebruiken. Onlangs zijn Large Language Models (LLM's) wijdverspreid aangenomen in het begrijpen en genereren van moleculen, maar de afstemming tussen moleculen en hun bijbehorende bijschriften blijft een aanzienlijke uitdaging. Vorige inspanningen behandelen de molecule vaak als een algemene SMILES-reeks of moleculaire grafiek, waarbij de fijnmazige afstemming tussen de moleculaire substructuren en de beschrijvende tekstuele zinnen wordt verwaarloosd, wat cruciaal is voor nauwkeurige en verklaarbare voorspellingen. In dit geval introduceren we MolReFlect, een nieuw leerling-leraarframework dat is ontworpen om de molecule-bijschriftafstemming op een fijnmazige manier contextueel uit te voeren. Onze aanpak maakt aanvankelijk gebruik van een grotere leraar LLM om de gedetailleerde afstemmingen te labelen door kritieke zinnen rechtstreeks uit moleculaire bijschriften of SMILES-reeksen te extraheren en deze te impliceren naar overeenkomstige substructuren of kenmerken. Om deze afstemmingen te verfijnen, stellen we In-Context Selective Reflection voor, die eerdere extractieresultaten ophaalt als contextvoorbeelden voor de leraar LLM om te reflecteren en laat een kleinere leerling LLM kiezen uit in-contextreflectie en eerdere extractieresultaten. Ten slotte verbeteren we het leerproces van de leerling LLM door middel van Chain-of-Thought In-Context Molecule Tuning, waarbij de fijnmazige afstemmingen en de redeneerprocessen binnen het Chain-of-Thought-formaat worden geïntegreerd. Onze experimentele resultaten tonen aan dat MolReFlect LLM's zoals Mistral-7B in staat stelt om aanzienlijk beter te presteren dan de vorige baselines, met het behalen van de SOTA-prestaties op de ChEBI-20 dataset. Deze vooruitgang verbetert niet alleen de generatieve mogelijkheden van LLM's in de molecule-bijschriftvertalingstaak, maar draagt ook bij aan een meer verklaarbaar kader.

15

Controleerbare menselijke beeldgeneratie met gepersonaliseerde multi-kledingstukken.
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25
ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
4
2

We presenteren BootComp, een nieuw raamwerk gebaseerd op tekst-naar-afbeelding diffusiemodellen voor controleerbare menselijke afbeeldingsgeneratie met meerdere referentiekledingstukken. Hier is het belangrijkste knelpunt de gegevensverwerving voor training: het verzamelen van een grootschalige dataset van hoogwaardige referentiekledingafbeeldingen per menselijk onderwerp is behoorlijk uitdagend, dat wil zeggen, idealiter moet men elke afzonderlijke kledingfoto die door elke persoon wordt gedragen, handmatig verzamelen. Om dit aan te pakken, stellen we een gegevensgeneratiepijplijn voor om een grote synthetische dataset te construeren, bestaande uit menselijke en meerdere kledingstukparen, door een model te introduceren om elke referentiekledingafbeelding uit elke menselijke afbeelding te extraheren. Om de gegevenskwaliteit te waarborgen, stellen we ook een filterstrategie voor om ongewenste gegenereerde gegevens te verwijderen op basis van het meten van perceptuele overeenkomsten tussen het kledingstuk dat wordt gepresenteerd in de menselijke afbeelding en het geëxtraheerde kledingstuk. Ten slotte trainen we, door gebruik te maken van de geconstrueerde synthetische dataset, een diffusiemodel met twee parallelle denoisingspaden die meerdere kledingafbeeldingen als voorwaarden gebruiken om menselijke afbeeldingen te genereren terwijl hun fijne details behouden blijven. We tonen verder de brede toepasbaarheid van ons raamwerk door het aan te passen aan verschillende soorten referentiegebaseerde generatie in de modedomein, waaronder virtueel passen en controleerbare menselijke afbeeldingsgeneratie met andere voorwaarden, zoals houding, gezicht, enz.

16

Visuele Counter Turing Test (VCT^2): Het Ontdekken van de Uitdagingen voor AI-gegenereerde Beeldherkenning en de Introductie van de Visuele AI-index (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24
ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
4
2

De proliferatie van AI-technieken voor beeldgeneratie, in combinatie met hun toenemende toegankelijkheid, heeft aanzienlijke zorgen doen rijzen over het potentiële misbruik van deze beelden om desinformatie te verspreiden. Recente AI-gegenereerde beeld detectie (AGBD) methoden omvatten CNNDetectie, NPR, DM Beeld Detectie, Nep Beeld Detectie, DIRE, LASTED, GAN Beeld Detectie, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake, en Deep Fake Detectie. We betogen echter dat de huidige state-of-the-art AGBD technieken ontoereikend zijn voor het effectief detecteren van hedendaagse AI-gegenereerde beelden en pleiten voor een grondige herziening van deze methoden. We introduceren de Visuele Tegenturingtest (VCT^2), een benchmark bestaande uit ~130K beelden gegenereerd door hedendaagse tekst-naar-beeld modellen (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3, en Midjourney 6). VCT^2 omvat twee sets van prompts afkomstig van tweets van het New York Times Twitter account en bijschriften van de MS COCO dataset. We evalueren ook de prestaties van de eerder genoemde AGBD technieken op de VCT^2 benchmark, waarbij we hun ineffectiviteit in het detecteren van AI-gegenereerde beelden benadrukken. Aangezien beeld-genererende AI modellen blijven evolueren, wordt de behoefte aan een kwantificeerbaar kader om deze modellen te evalueren steeds kritischer. Om aan deze behoefte te voldoen, stellen we de Visuele AI Index (V_AI) voor, die gegenereerde beelden beoordeelt vanuit verschillende visuele perspectieven, waaronder textuurcomplexiteit en objectcoherentie, en zo een nieuwe standaard stelt voor het evalueren van beeld-genererende AI modellen. Om onderzoek op dit gebied te bevorderen, stellen we onze https://huggingface.co/datasets/anonymous1233/COCO_AI en https://huggingface.co/datasets/anonymous1233/twitter_AI datasets openbaar beschikbaar.

Nov 26
Nov 27
Nov 28