AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Algemene OCR-theorie: Naar OCR-2.0 via een geïntegreerd end-to-end model
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

Traditionele OCR-systemen (OCR-1.0) zijn steeds minder in staat om aan het gebruik van mensen te voldoen vanwege de groeiende vraag naar intelligente verwerking van door mensen gemaakte optische tekens. In dit artikel verwijzen we collectief naar alle kunstmatige optische signalen (bijvoorbeeld platte tekst, wiskundige/moleculaire formules, tabellen, grafieken, bladmuziek en zelfs geometrische vormen) als "tekens" en stellen we de Algemene OCR-theorie voor, samen met een uitstekend model, namelijk GOT, om de komst van OCR-2.0 te bevorderen. De GOT, met 580M parameters, is een uniform, elegant en end-to-end model, bestaande uit een encoder met hoge compressie en een decoder met lange contexten. Als een OCR-2.0-model kan GOT alle bovengenoemde "tekens" verwerken onder verschillende OCR-taken. Aan de invoerkant ondersteunt het model veelgebruikte scène- en documentstijlafbeeldingen in slice- en hele-pagina-stijlen. Aan de uitvoerkant kan GOT eenvoudige of opgemaakte resultaten (markdown/tikz/smiles/kern) genereren via een eenvoudige prompt. Daarnaast beschikt het model over interactieve OCR-functies, zoals herkenning op regioniveau geleid door coördinaten of kleuren. Verder passen we ook dynamische resolutie en OCR-technologie voor meerdere pagina's aan GOT aan voor een betere praktische bruikbaarheid. In experimenten leveren we voldoende resultaten om de superioriteit van ons model aan te tonen.

OLMoE: Open Mixture-of-Experts Taalmodellen
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

We introduceren OLMoE, een volledig open, state-of-the-art taalmodel dat gebruikmaakt van een sparse Mixture-of-Experts (MoE). OLMoE-1B-7B heeft 7 miljard (B) parameters, maar gebruikt slechts 1B per invoertoken. We pretrainen het op 5 biljoen tokens en passen het verder aan om OLMoE-1B-7B-Instruct te creëren. Onze modellen overtreffen alle beschikbare modellen met vergelijkbare actieve parameters, en doen zelfs grotere modellen zoals Llama2-13B-Chat en DeepSeekMoE-16B achter zich. We presenteren diverse experimenten over MoE-training, analyseren de routering in ons model die een hoge specialisatie laat zien, en maken alle aspecten van ons werk open source: modelgewichten, trainingsdata, code en logs.

Kvasir-VQA: Een tekst-beeldpaar dataset voor het maag-darmkanaal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

We introduceren Kvasir-VQA, een uitgebreide dataset afgeleid van de HyperKvasir- en Kvasir-Instrument-datasets, verrijkt met vraag-en-antwoordannotaties om geavanceerde machine learning-taken in gastro-intestinale (GI) diagnostiek te faciliteren. Deze dataset omvat 6.500 geannoteerde afbeeldingen die verschillende aandoeningen van het GI-kanaal en chirurgische instrumenten beslaan, en ondersteunt meerdere vraagtypen, waaronder ja/nee, keuze, locatie en numerieke telling. De dataset is bedoeld voor toepassingen zoals beeldbeschrijving, Visuele Vraag Beantwoording (VQA), tekstgebaseerde generatie van synthetische medische afbeeldingen, objectdetectie en classificatie. Onze experimenten tonen de effectiviteit van de dataset aan bij het trainen van modellen voor drie geselecteerde taken, wat significante toepassingen in medische beeldanalyse en diagnostiek aantoont. We presenteren ook evaluatiemetrices voor elke taak, waarbij de bruikbaarheid en veelzijdigheid van onze dataset worden benadrukt. De dataset en ondersteunende artefacten zijn beschikbaar op https://datasets.simula.no/kvasir-vqa.

LongRecipe: Recept voor Efficiënte Generalisatie van Lange Contexten in Grote Taalmodellen
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

Grote taalmmodellen (LLMs) ondervinden aanzienlijke uitdagingen bij het verwerken van taken met lange context vanwege hun beperkte effectieve contextvenstergrootte tijdens de voorafgaande training, wat hun vermogen om te generaliseren over uitgebreide sequenties beperkt. Tegelijkertijd is het uitbreiden van het contextvenster in LLMs door middel van post-training zeer resource-intensief. Om dit aan te pakken, introduceren we **LongRecipe**, een efficiënte trainingsstrategie voor het uitbreiden van het contextvenster van LLMs, inclusief impactvolle tokenanalyse, positie-index transformatie en trainingsoptimalisatiestrategieën. Het simuleert lange-sequentie-invoer terwijl de trainingsefficiëntie behouden blijft en verbetert aanzienlijk het begrip van het model van langeafhankelijkheden. Experimenten op drie soorten LLMs tonen aan dat LongRecipe lange sequenties kan benutten terwijl slechts 30% van de doelcontextvenstergrootte nodig is, en reduceert de rekenkundige trainingsbronnen met meer dan 85% vergeleken met volledige sequentietraining. Bovendien behoudt LongRecipe ook de oorspronkelijke capaciteiten van de LLM in algemene taken. Uiteindelijk *kunnen we het effectieve contextvenster van open-source LLMs uitbreiden van 8k naar 128k, waarbij we prestaties bereiken die dicht in de buurt komen van GPT-4 met slechts één dag toegewijde training met behulp van een enkele GPU met 80G geheugen.* Onze code is vrijgegeven op de [link](https://github.com/zhiyuanhubj/LongRecipe).

DepthCrafter: Het genereren van consistente lange dieptesequenties voor open-wereldvideo's
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

Ondanks aanzienlijke vooruitgang in monocular diepteschatting voor statische afbeeldingen, blijft het schatten van diepte in video's in de open wereld een uitdaging, aangezien open-wereldvideo's extreem divers zijn in inhoud, beweging, camerabeweging en lengte. Wij presenteren DepthCrafter, een innovatieve methode voor het genereren van temporeel consistente lange dieptesequenties met ingewikkelde details voor open-wereldvideo's, zonder aanvullende informatie zoals cameraposities of optische flow. DepthCrafter bereikt generalisatievermogen voor open-wereldvideo's door een video-naar-diepte model te trainen vanuit een vooraf getraind beeld-naar-video diffusiemodel, via onze zorgvuldig ontworpen drietraps trainingsstrategie met de samengestelde gepaarde video-diepte datasets. Onze trainingsaanpak stelt het model in staat om dieptesequenties met variabele lengtes in één keer te genereren, tot 110 frames, en zowel precieze dieptedetails als rijke inhoudsdiversiteit te oogsten uit realistische en synthetische datasets. We stellen ook een inferentiestrategie voor die extreem lange video's verwerkt via segmentgewijze schatting en naadloze samenvoeging. Uitgebreide evaluaties op meerdere datasets tonen aan dat DepthCrafter state-of-the-art prestaties bereikt in open-wereldvideo diepteschatting onder zero-shot omstandigheden. Bovendien faciliteert DepthCrafter diverse downstream toepassingen, waaronder dieptegebaseerde visuele effecten en conditionele videogeneratie.

LinFusion: 1 GPU, 1 minuut, 16K afbeelding
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

Moderne diffusiemodellen, met name die gebruikmaken van een Transformer-gebaseerde UNet voor denoising, zijn sterk afhankelijk van self-attention-operaties om complexe ruimtelijke relaties te beheren, waardoor ze indrukwekkende generatieprestaties bereiken. Dit bestaande paradigma wordt echter geconfronteerd met aanzienlijke uitdagingen bij het genereren van visuele inhoud met hoge resolutie vanwege de kwadratische tijd- en geheugencomplexiteit ten opzichte van het aantal ruimtelijke tokens. Om deze beperking aan te pakken, streven we in dit artikel naar een nieuw lineair aandachtmechanisme als alternatief. Specifiek beginnen we onze verkenning met recent geïntroduceerde modellen met lineaire complexiteit, zoals Mamba, Mamba2 en Gated Linear Attention, en identificeren we twee belangrijke kenmerken - aandachtnormalisatie en niet-causale inferentie - die de prestaties van visuele generatie met hoge resolutie verbeteren. Op basis van deze inzichten introduceren we een gegeneraliseerd lineair aandachtsparadigma, dat dient als een lage-rangbenadering van een breed spectrum van populaire lineaire tokenmixers. Om de trainingskosten te besparen en beter gebruik te maken van vooraf getrainde modellen, initialiseren we onze modellen en distilleren we de kennis van vooraf getrainde StableDiffusion (SD). We ontdekken dat het gedistilleerde model, genaamd LinFusion, prestaties bereikt die vergelijkbaar zijn met of superieur aan de originele SD na slechts bescheiden training, terwijl de tijd- en geheugencomplexiteit aanzienlijk wordt verminderd. Uitgebreide experimenten op SD-v1.5, SD-v2.1 en SD-XL tonen aan dat LinFusion bevredigende zero-shot cross-resolutie generatieprestaties levert, waarbij afbeeldingen met hoge resolutie zoals 16K-resolutie worden gegenereerd. Bovendien is het zeer compatibel met vooraf getrainde SD-componenten, zoals ControlNet en IP-Adapter, zonder dat aanpassingsinspanningen nodig zijn. Codes zijn beschikbaar op https://github.com/Huage001/LinFusion.

FLUX die Muziek Speelt
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

Dit artikel onderzoekt een eenvoudige uitbreiding van diffusiegebaseerde rectified flow Transformers voor tekst-naar-muziek generatie, genaamd FluxMusic. Over het algemeen, in combinatie met het ontwerp van het geavanceerde Fluxhttps://github.com/black-forest-labs/flux model, wordt dit overgebracht naar een latente VAE-ruimte van mel-spectrum. Het proces omvat eerst het toepassen van een reeks onafhankelijke aandacht op de dubbele tekst-muziekstroom, gevolgd door een gestapelde enkele muziekstroom voor denoised patch voorspelling. We gebruiken meerdere vooraf getrainde tekstencoders om voldoende semantische informatie uit de bijschriften vast te leggen, evenals inferentieflexibiliteit. Tussendoor wordt grove tekstuele informatie, in combinatie met tijdstap embeddings, gebruikt in een modulatiemechanisme, terwijl fijnmazige tekstuele details worden samengevoegd met de muziekpatchsequentie als invoer. Door een diepgaande studie tonen we aan dat rectified flow training met een geoptimaliseerde architectuur aanzienlijk beter presteert dan gevestigde diffusiemethoden voor de tekst-naar-muziek taak, zoals blijkt uit verschillende automatische metrieken en evaluaties van menselijke voorkeuren. Onze experimentele gegevens, code en modelgewichten zijn publiekelijk beschikbaar gesteld op: https://github.com/feizc/FluxMusic.

VideoLLaMB: Langetermijn Videobegrip met Recursief Geheugen Bruggen
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

Recente vooruitgang in grootschalige video-taalmodellen heeft aanzienlijk potentieel getoond voor real-time planning en gedetailleerde interacties. Hun hoge rekenkundige eisen en de schaarste aan geannoteerde datasets beperken echter hun praktische toepasbaarheid voor academische onderzoekers. In dit werk introduceren we VideoLLaMB, een nieuw framework dat gebruikmaakt van tijdelijke geheugentokens binnen bruglagen om de codering van volledige videosequenties naast historische visuele gegevens mogelijk te maken, waardoor semantische continuïteit effectief behouden blijft en de modelprestaties over diverse taken worden verbeterd. Deze aanpak omvat recurrente geheugentokens en een SceneTilling-algoritme, dat video's opdeelt in onafhankelijke semantische eenheden om semantische integriteit te behouden. Empirisch gezien overtreft VideoLLaMB bestaande video-taalmodellen aanzienlijk, met een verbetering van 5,5 punten ten opzichte van zijn concurrenten over drie VideoQA-benchmarks, en 2,06 punten op egocentrische planning. Uitgebreide resultaten op de MVBench laten zien dat VideoLLaMB-7B duidelijk betere resultaten behaalt dan eerdere 7B-modellen van hetzelfde LLM. Opmerkelijk is dat het robuuste prestaties behoudt als PLLaVA, zelfs wanneer de videolengte tot 8 keer toeneemt. Daarnaast valideren de frameretrievalresultaten op onze gespecialiseerde Needle in a Video Haystack (NIAVH)-benchmark verder de vaardigheid van VideoLLaMB om specifieke frames binnen lange video's nauwkeurig te identificeren. Ons SceneTilling-algoritme maakt ook de directe generatie van streaming videobijschriften mogelijk, zonder dat aanvullende training nodig is. Wat efficiëntie betreft, ondersteunt VideoLLaMB, getraind op 16 frames, tot 320 frames op een enkele Nvidia A100 GPU met lineaire GPU-geheugenschaalbaarheid, waardoor zowel hoge prestaties als kosteneffectiviteit worden gegarandeerd. Hiermee wordt een nieuwe basis gelegd voor langdurige video-taalmodellen in zowel academische als praktische toepassingen.

Diffusiebeleid Beleidsoptimalisatie
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

We introduceren Diffusion Policy Policy Optimization, DPPO, een algoritmisch raamwerk dat best practices omvat voor het finetunen van diffusiegebaseerde beleidsfuncties (bijv. Diffusion Policy) in continue controle- en robotleertaken met behulp van de policy gradient (PG) methode uit reinforcement learning (RL). PG-methoden zijn alomtegenwoordig bij het trainen van RL-beleidsfuncties met andere beleidsparameterisaties; toch werd verondersteld dat ze minder efficiënt zouden zijn voor diffusiegebaseerde beleidsfuncties. Verrassend genoeg laten we zien dat DPPO de sterkste algehele prestaties en efficiëntie bereikt voor finetuning in gangbare benchmarks in vergelijking met andere RL-methoden voor diffusiegebaseerde beleidsfuncties en ook in vergelijking met PG-finetuning van andere beleidsparameterisaties. Door experimenteel onderzoek ontdekken we dat DPPO profiteert van unieke synergieën tussen RL-finetuning en de diffusieparameterisatie, wat leidt tot gestructureerde en op-manifold exploratie, stabiele training en robuust beleid. We demonstreren verder de sterke punten van DPPO in een reeks realistische settings, waaronder gesimuleerde robotica-taken met pixelobservaties, en via zero-shot implementatie van in simulatie getrainde beleidsfuncties op robot-hardware in een langetermijn, meerfasige manipulatietaak. Website met code: diffusion-ppo.github.io.

Compositionele 3D-bewuste videogeneratie met LLM-regisseur
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

Er is aanzienlijke vooruitgang geboekt in tekst-naar-video-generatie door het gebruik van krachtige generatieve modellen en grootschalige internetdata. Er blijven echter aanzienlijke uitdagingen bestaan in het nauwkeurig beheersen van individuele concepten binnen de gegenereerde video, zoals de beweging en het uiterlijk van specifieke personages en de verplaatsing van gezichtspunten. In dit werk stellen we een nieuw paradigma voor dat elk concept afzonderlijk in 3D-representatie genereert en ze vervolgens samenstelt met behulp van priors uit Large Language Models (LLM) en 2D-diffusiemodellen. Specifiek bestaat ons schema, gegeven een tekstuele prompt, uit drie fasen: 1) We benutten LLM als regisseur om eerst de complexe query op te splitsen in verschillende sub-prompts die individuele concepten binnen de video aangeven (bijv. scène, objecten, bewegingen), waarna we LLM laten aanroepen om vooraf getrainde expertmodellen te gebruiken om overeenkomstige 3D-representaties van de concepten te verkrijgen. 2) Om deze representaties samen te stellen, laten we multi-modale LLM grove richtlijnen produceren over de schalen en coördinaten van trajecten voor de objecten. 3) Om ervoor te zorgen dat de gegenereerde frames voldoen aan de natuurlijke beelddistributie, maken we verder gebruik van 2D-diffusiepriors en gebruiken we Score Distillation Sampling om de samenstelling te verfijnen. Uitgebreide experimenten tonen aan dat onze methode hoogwaardige video's kan genereren vanuit tekst met diverse bewegingen en flexibele controle over elk concept. Projectpagina: https://aka.ms/c3v.

ContextCite: Het toeschrijven van modelgeneratie aan context
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

Hoe gebruiken taalmodellen informatie die als context wordt aangeboden bij het genereren van een reactie? Kunnen we vaststellen of een specifieke gegenereerde uitspraak daadwerkelijk gebaseerd is op de context, een misinterpretatie is, of verzonnen? Om deze vragen te beantwoorden, introduceren we het probleem van contextattributie: het identificeren van de delen van de context (indien aanwezig) die een model hebben aangezet tot het genereren van een bepaalde uitspraak. Vervolgens presenteren we ContextCite, een eenvoudige en schaalbare methode voor contextattributie die kan worden toegepast op elk bestaand taalmodel. Tot slot demonstreren we de bruikbaarheid van ContextCite aan de hand van drie toepassingen: (1) het verifiëren van gegenereerde uitspraken, (2) het verbeteren van de reactiekwaliteit door de context te snoeien, en (3) het detecteren van vergiftigingsaanvallen. We bieden code voor ContextCite aan op https://github.com/MadryLab/context-cite.

OD-VAE: Een omnidimensionale videocompressor voor het verbeteren van latente videodiffusiemodellen
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

De Variational Autoencoder (VAE), die video's comprimeert naar latente representaties, is een cruciaal voorafgaand onderdeel van Latent Video Diffusion Models (LVDMs). Bij dezelfde reconstructiekwaliteit geldt: hoe efficiënter de VAE video's kan comprimeren, des te efficiënter de LVDMs zijn. De meeste LVDMs maken echter gebruik van een 2D-beeld-VAE, waarvan de compressie van video's alleen in de ruimtelijke dimensie plaatsvindt en vaak de temporele dimensie negeert. Hoe temporele compressie van video's in een VAE kan worden uitgevoerd om meer beknopte latente representaties te verkrijgen, terwijl nauwkeurige reconstructie wordt gegarandeerd, is zelden onderzocht. Om deze leemte op te vullen, stellen we een omni-dimensionele compressie-VAE voor, genaamd OD-VAE, die video's zowel temporeel als ruimtelijk kan comprimeren. Hoewel de efficiëntere compressie van OD-VAE een grote uitdaging vormt voor videoreconstructie, kan het toch een hoge reconstructienauwkeurigheid bereiken dankzij ons zorgvuldige ontwerp. Om een betere balans te vinden tussen de kwaliteit van videoreconstructie en compressiesnelheid, worden vier varianten van OD-VAE geïntroduceerd en geanalyseerd. Daarnaast is een nieuwe tail-initialisatie ontworpen om OD-VAE efficiënter te trainen, en is een nieuwe inferentiestrategie voorgesteld om OD-VAE in staat te stellen video's van willekeurige lengte te verwerken met beperkt GPU-geheugen. Uitgebreide experimenten op het gebied van videoreconstructie en LVDM-gebaseerde videogeneratie demonstreren de effectiviteit en efficiëntie van onze voorgestelde methoden.

Nauwkeurige compressie van tekst-naar-beeld diffusiemodellen via vector kwantisatie
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

Text-to-image diffusiemodellen zijn naar voren gekomen als een krachtig raamwerk voor het genereren van hoogwaardige afbeeldingen op basis van tekstuele prompts. Hun succes heeft de snelle ontwikkeling van productieklasse diffusiemodellen aangewakkerd, die voortdurend in omvang toenemen en al miljarden parameters bevatten. Als gevolg hiervan worden state-of-the-art text-to-image modellen in de praktijk steeds minder toegankelijk, vooral in omgevingen met beperkte middelen. Post-training kwantisatie (PTQ) pakt dit probleem aan door de vooraf getrainde modelgewichten te comprimeren naar representaties met een lager aantal bits. Recente kwantisatietechnieken voor diffusiemodellen zijn voornamelijk gebaseerd op uniforme scalaire kwantisatie, wat een behoorlijke prestaties biedt voor modellen die tot 4 bits zijn gecomprimeerd. Dit werk toont aan dat meer veelzijdige vector kwantisatie (VQ) hogere compressiepercentages kan bereiken voor grootschalige text-to-image diffusiemodellen. Specifiek passen we vector-gebaseerde PTQ-methoden toe op recente miljardenschalige text-to-image modellen (SDXL en SDXL-Turbo), en laten we zien dat diffusiemodellen met 2B+ parameters die tot ongeveer 3 bits zijn gecomprimeerd met VQ, een vergelijkbare beeldkwaliteit en tekstuele uitlijning vertonen als eerdere 4-bit compressietechnieken.

GenAgent: Bouw Collaboratieve AI-systemen met Geautomatiseerde Workflowgeneratie -- Casestudies over ComfyUI
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

Veel eerder AI-onderzoek heeft zich gericht op het ontwikkelen van monolithische modellen om hun intelligentie en capaciteit te maximaliseren, met als primair doel de prestaties op specifieke taken te verbeteren. In tegenstelling hiermee verkent dit artikel een alternatieve aanpak: collaboratieve AI-systemen die workflows gebruiken om modellen, gegevensbronnen en pijplijnen te integreren om complexe en diverse taken op te lossen. We introduceren GenAgent, een op LLM gebaseerd framework dat automatisch complexe workflows genereert, wat meer flexibiliteit en schaalbaarheid biedt in vergelijking met monolithische modellen. De kerninnovatie van GenAgent ligt in het representeren van workflows met code, naast het stap-voor-stap opbouwen van workflows met collaboratieve agents. We implementeren GenAgent op het ComfyUI-platform en stellen een nieuwe benchmark voor, OpenComfy. De resultaten tonen aan dat GenAgent baseline-benaderingen overtreft in zowel run-level als task-level evaluaties, wat zijn vermogen aantoont om complexe workflows te genereren met superieure effectiviteit en stabiliteit.

Follow-Your-Canvas: Video-Uitbreiding met Hoge Resolutie en Uitgebreide Contentgeneratie
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

Dit artikel onderzoekt het uitbreiden van video's met hogere resolutie en uitgebreide inhoudsgeneratie. We wijzen op veelvoorkomende problemen waarmee bestaande methoden worden geconfronteerd bij het grootschalig uitbreiden van video's: het genereren van inhoud van lage kwaliteit en beperkingen opgelegd door GPU-geheugen. Om deze uitdagingen aan te pakken, stellen we een op diffusie gebaseerde methode voor genaamd Follow-Your-Canvas. Deze methode bouwt voort op twee kernontwerpen. Ten eerste, in plaats van de gebruikelijke praktijk van "single-shot" uitbreiding te gebruiken, verdelen we de taak over ruimtelijke vensters en voegen deze naadloos samen. Hierdoor kunnen we video's van elke grootte en resolutie uitbreiden zonder beperkt te worden door GPU-geheugen. Ten tweede worden de bronvideo en de relatieve positionele relatie ervan geïnjecteerd in het generatieproces van elk venster. Dit zorgt ervoor dat het gegenereerde ruimtelijke lay-out binnen elk venster harmonieert met de bronvideo. De combinatie van deze twee ontwerpen stelt ons in staat om video's met hogere resolutie en rijke inhoud te genereren, terwijl ruimtelijke en temporele consistentie behouden blijft. Follow-Your-Canvas blinkt uit in grootschalige video-uitbreiding, bijvoorbeeld van 512x512 naar 1152x2048 (9x), en produceert hoogwaardige en esthetisch aantrekkelijke resultaten. Het behaalt de beste kwantitatieve resultaten in verschillende resolutie- en schaalopstellingen. De code is vrijgegeven op https://github.com/mayuelala/FollowYourCanvas.

Density Adaptief Aandacht-Gebaseerd Spraaknetwerk: Verbetering van Featurebegrip voor Geestelijke Gezondheidsstoornissen
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

Spraakgebaseerde depressiedetectie vormt aanzienlijke uitdagingen voor geautomatiseerde detectie vanwege de unieke manifestatie ervan tussen individuen en de schaarste aan data. Om deze uitdagingen aan te pakken, introduceren we DAAMAudioCNNLSTM en DAAMAudioTransformer, twee parameter-efficiënte en verklaarbare modellen voor audiofeature-extractie en depressiedetectie. DAAMAudioCNNLSTM beschikt over een nieuw CNN-LSTM-raamwerk met een multi-head Density Adaptive Attention Mechanism (DAAM), dat dynamisch focust op informatieve spraaksegmenten. DAAMAudioTransformer, dat gebruikmaakt van een transformer-encoder in plaats van de CNN-LSTM-architectuur, integreert dezelfde DAAM-module voor verbeterde aandacht en interpreteerbaarheid. Deze benaderingen verbeteren niet alleen de robuustheid en interpreteerbaarheid van de detectie, maar behalen ook state-of-the-art prestaties: DAAMAudioCNNLSTM met een F1-macroscore van 0,702 en DAAMAudioTransformer met een F1-macroscore van 0,72 op de DAIC-WOZ-dataset, zonder afhankelijkheid van aanvullende informatie zoals klinkerposities en sprekersinformatie tijdens training/validatie, zoals in eerdere benaderingen. De aanzienlijke verklaarbaarheid en efficiëntie van beide modellen in het benutten van spraaksignalen voor depressiedetectie vertegenwoordigen een sprong richting betrouwbaardere, klinisch bruikbare diagnostische tools, wat belooft vooruitgang te bieden in spraak- en geestelijke gezondheidszorg. Om verder onderzoek in dit domein te bevorderen, stellen we onze code openbaar beschikbaar.

Weet Wanneer te Fuseren: Onderzoek naar Niet-Engelse Hybride Retrieval in het Juridisch Domein
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

Hybride zoekstrategieën zijn naar voren gekomen als een effectieve aanpak om de beperkingen van verschillende matchingparadigma's te compenseren, met name in domeinoverstijgende contexten waar aanzienlijke verbeteringen in de ophaalkwaliteit zijn waargenomen. Bestaand onderzoek richt zich echter voornamelijk op een beperkte set ophaalmethoden, die in paren worden geëvalueerd op domeingenerieke datasets die uitsluitend in het Engels zijn. In dit werk bestuderen we de effectiviteit van hybride zoekstrategieën over een verscheidenheid aan prominente ophaalmodellen binnen het onontgonnen gebied van het recht in de Franse taal, waarbij zowel zero-shot als domeinspecifieke scenario's worden beoordeeld. Onze bevindingen tonen aan dat in een zero-shot context het combineren van verschillende domeingenerieke modellen consistent betere prestaties oplevert in vergelijking met het gebruik van een enkel model, ongeacht de gebruikte fusiemethode. Verrassend genoeg ontdekken we dat wanneer modellen domeinspecifiek worden getraind, fusie over het algemeen de prestaties vermindert ten opzichte van het beste enkele systeem, tenzij scores worden gecombineerd met zorgvuldig afgestelde gewichten. Deze nieuwe inzichten, naast andere, breiden de toepasbaarheid van eerdere bevindingen uit naar een nieuw vakgebied en taal, en dragen bij aan een dieper begrip van hybride zoekstrategieën in niet-Engelstalige gespecialiseerde domeinen.

Het MERIT-dataset: Modellering en efficiënt renderen van interpreteerbare transcripties
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

Dit artikel introduceert de MERIT Dataset, een multimodale (tekst + afbeelding + lay-out) volledig gelabelde dataset binnen de context van schoolrapporten. Met meer dan 400 labels en 33k samples is de MERIT Dataset een waardevolle bron voor het trainen van modellen voor veeleisende taken in Visueel-rijke Documentbegrip (VrDU). Door zijn aard (rapportcijfers van leerlingen) kan de MERIT Dataset op een gecontroleerde manier potentiële biases bevatten, waardoor het een waardevol hulpmiddel is om biases in Taalmodellen (LLMs) te benchmarken. Het artikel beschrijft de generatiepipeline van de dataset en benadrukt de belangrijkste kenmerken op het gebied van tekst, visuele elementen, lay-out en biases. Om de bruikbaarheid van de dataset aan te tonen, presenteren we een benchmark met tokenclassificatiemodellen, waaruit blijkt dat de dataset een aanzienlijke uitdaging vormt, zelfs voor state-of-the-art modellen, en dat deze modellen sterk zouden profiteren van het opnemen van samples uit de MERIT Dataset in hun voorafgaande trainingsfase.

PrivacyLens: Het evalueren van bewustzijn van privacy normen bij taalmodellen in actie
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

Aangezien taalmodelen (LMs) veelvuldig worden ingezet in gepersonaliseerde communicatiescenario's (bijvoorbeeld het versturen van e-mails, het schrijven van sociale media posts) en worden uitgerust met een zekere mate van autonomie, wordt het steeds kritischer om ervoor te zorgen dat ze handelen in overeenstemming met de contextuele privacynormen. Het kwantificeren van het bewustzijn van privacynormen bij LMs en de opkomende privacyrisico's in LM-gemedieerde communicatie is echter uitdagend vanwege (1) de contextuele en langstaartige aard van privacygevoelige gevallen, en (2) het gebrek aan evaluatiemethoden die realistische toepassingsscenario's vastleggen. Om deze uitdagingen aan te pakken, stellen we PrivacyLens voor, een nieuw framework ontworpen om privacygevoelige zaden uit te breiden tot expressieve vignetten en vervolgens tot agenttrajecten, waardoor een meerlagige evaluatie van privacylekken in de acties van LM-agenten mogelijk wordt. We concretiseren PrivacyLens met een verzameling privacynormen gebaseerd op privacy-literatuur en door crowdsourcing verkregen zaden. Met behulp van deze dataset onthullen we een discrepantie tussen de prestaties van LMs bij het beantwoorden van verkennende vragen en hun daadwerkelijke gedrag bij het uitvoeren van gebruikersinstructies in een agentsetup. State-of-the-art LMs, zoals GPT-4 en Llama-3-70B, lekken gevoelige informatie in respectievelijk 25,68% en 38,69% van de gevallen, zelfs wanneer ze worden aangestuurd met privacyversterkende instructies. We tonen ook de dynamische aard van PrivacyLens aan door elk zaadje uit te breiden tot meerdere trajecten om het privacylekrisico van LMs te redteamen. Dataset en code zijn beschikbaar op https://github.com/SALT-NLP/PrivacyLens.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Algemene OCR-theorie: Naar OCR-2.0 via een geïntegreerd end-to-end model
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang