AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en Dataset
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

Het verenigen van beeldbegrip en beeldgeneratie heeft in recent onderzoek naar multimodale modellen steeds meer aandacht gekregen. Hoewel ontwerpkeuzes voor beeldbegrip uitgebreid zijn bestudeerd, blijven de optimale modelarchitectuur en trainingsmethode voor een verenigd framework met beeldgeneratie onderbelicht. Gemotiveerd door het sterke potentieel van autoregressieve en diffusiemodellen voor hoogwaardige generatie en schaalbaarheid, voeren we een uitgebreide studie uit naar hun gebruik in verenigde multimodale settings, met nadruk op beeldrepresentaties, modelleerdoelen en trainingsstrategieën. Gebaseerd op deze onderzoeken introduceren we een nieuwe aanpak die een diffusie-transformer gebruikt om semantisch rijke CLIP-beeldkenmerken te genereren, in tegenstelling tot conventionele VAE-gebaseerde representaties. Dit ontwerp levert zowel een hogere trainings efficiëntie als een verbeterde generatieve kwaliteit op. Bovendien tonen we aan dat een sequentiële voor-trainingsstrategie voor verenigde modellen – eerst trainen op beeldbegrip en vervolgens op beeldgeneratie – praktische voordelen biedt door het behoud van beeldbegripvermogen terwijl een sterke beeldgeneratiecapaciteit wordt ontwikkeld. Ten slotte stellen we zorgvuldig een hoogwaardige instructie-afstemmingsdataset BLIP3o-60k samen voor beeldgeneratie door GPT-4o te voorzien van een diverse set bijschriften die verschillende scènes, objecten, menselijke gebaren en meer omvatten. Gebaseerd op onze innovatieve modelontwerpen, trainingsmethoden en datasets, ontwikkelen we BLIP3-o, een reeks state-of-the-art verenigde multimodale modellen. BLIP3-o behaalt superieure prestaties op de meeste populaire benchmarks die zowel beeldbegrip als beeldgeneratietaken omvatten. Om toekomstig onderzoek te vergemakkelijken, maken we onze modellen volledig open-source, inclusief code, modelgewichten, trainingsscripts en voor-trainings- en instructie-afstemmingsdatasets.

Inzichten in DeepSeek-V3: Schaalbaarheidsuitdagingen en Reflecties op Hardware voor AI-Architecturen
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14

ByChenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

De snelle schaalvergroting van grote taalmodellen (LLMs) heeft kritieke beperkingen in de huidige hardwarearchitecturen blootgelegd, waaronder beperkingen in geheugencapaciteit, computationele efficiëntie en interconnectiebandbreedte. DeepSeek-V3, getraind op 2.048 NVIDIA H800 GPU's, demonstreert hoe hardwarebewuste modelco-design deze uitdagingen effectief kan aanpakken, waardoor kostenefficiënte training en inferentie op grote schaal mogelijk wordt. Dit artikel presenteert een diepgaande analyse van de DeepSeek-V3/R1-modelarchitectuur en de bijbehorende AI-infrastructuur, waarbij belangrijke innovaties worden belicht, zoals Multi-head Latent Attention (MLA) voor verbeterde geheugenefficiëntie, Mixture of Experts (MoE)-architecturen voor geoptimaliseerde afwegingen tussen berekening en communicatie, FP8 mixed-precision training om het volledige potentieel van hardwaremogelijkheden te benutten, en een Multi-Plane Network Topology om clusterbrede netwerkoverhead te minimaliseren. Gebaseerd op de hardwareknelpunten die tijdens de ontwikkeling van DeepSeek-V3 zijn ondervonden, gaan we in een bredere discussie met academische en industriële collega's over mogelijke toekomstige hardwarerichtingen, waaronder precieze low-precision rekenunits, convergentie van scale-up en scale-out, en innovaties in low-latency communicatiefabrics. Deze inzichten benadrukken de cruciale rol van hardware- en modelco-design bij het voldoen aan de toenemende eisen van AI-workloads, en bieden een praktische blauwdruk voor innovatie in next-generation AI-systemen.

MathCoder-VL: Verbinding tussen Visie en Code voor Verbeterd Multimodaal Wiskundig Redeneren
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15

ByKe Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

Datasets voor beeldbeschrijvingen in natuurlijke taal, die veel worden gebruikt voor het trainen van grote multimodale modellen, richten zich voornamelijk op natuurlijke scenario's en negeren de complexe details van wiskundige figuren die cruciaal zijn voor probleemoplossing. Dit belemmert de vooruitgang van huidige multimodale modellen in multimodale wiskundige redenering. Om dit aan te pakken, stellen we voor om code te gebruiken als supervisie voor cross-modale uitlijning, aangezien code inherent alle informatie bevat die nodig is om bijbehorende figuren te genereren, waardoor een nauwkeurige verbinding tussen de twee modaliteiten wordt gelegd. Specifiek ontwikkelen we ons beeld-naar-code model en dataset met een model-in-the-loop aanpak, wat resulteert in een beeld-naar-code model, FigCodifier, en de ImgCode-8.6M dataset, de grootste beeld-code dataset tot nu toe. Bovendien gebruiken we FigCodifier om nieuwe wiskundige figuren te synthetiseren en vervolgens MM-MathInstruct-3M te construeren, een hoogwaardige multimodale wiskunde-instructie fine-tuning dataset. Ten slotte presenteren we MathCoder-VL, getraind met ImgCode-8.6M voor cross-modale uitlijning en vervolgens fine-tuned op MM-MathInstruct-3M voor het oplossen van multimodale wiskundige problemen. Ons model bereikt een nieuwe open-source SOTA over alle zes metrieken. Opmerkelijk is dat het GPT-4o en Claude 3.5 Sonnet overtreft in de geometrie-probleemoplossingssubset van MathVista, met verbeteringen van 8,9% en 9,2%. De dataset en modellen zullen worden vrijgegeven op https://github.com/mathllm/MathCoder.

DeCLIP: Ontkoppeld leren voor open-vocabulair dichte perceptie
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7

ByJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

Dichte visuele voorspellingstaken zijn beperkt door hun afhankelijkheid van vooraf gedefinieerde categorieën, wat hun toepasbaarheid in real-world scenario's beperkt waar visuele concepten onbegrensd zijn. Hoewel Vision-Language Models (VLMs) zoals CLIP veelbelovend zijn gebleken in open-vocabulairtaken, leidt hun directe toepassing op dichte voorspelling vaak tot suboptimale prestaties vanwege beperkingen in de lokale kenmerkrepresentatie. In dit werk presenteren we onze observatie dat CLIP's beeldtokens moeite hebben om effectief informatie te aggregeren uit ruimtelijk of semantisch gerelateerde regio's, wat resulteert in kenmerken die lokale onderscheidbaarheid en ruimtelijke consistentie missen. Om dit probleem aan te pakken, stellen we DeCLIP voor, een nieuw raamwerk dat CLIP verbetert door de self-attention module te ontkoppelen om respectievelijk "inhouds"- en "context"-kenmerken te verkrijgen. De "inhouds"-kenmerken worden afgestemd op beeldcroprepresentaties om de lokale onderscheidbaarheid te verbeteren, terwijl "context"-kenmerken leren om de ruimtelijke correlaties te behouden onder begeleiding van visuele foundationmodellen, zoals DINO. Uitgebreide experimenten tonen aan dat DeCLIP aanzienlijk beter presteert dan bestaande methoden bij meerdere open-vocabulair dichte voorspellingstaken, waaronder objectdetectie en semantische segmentatie. Code is beschikbaar op magenta{https://github.com/xiaomoguhz/DeCLIP}.

LightLab: Beheersing van lichtbronnen in afbeeldingen met diffusiemodellen
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14

ByNadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

We presenteren een eenvoudige, maar effectieve op diffusie gebaseerde methode voor fijnmazige, parametrische controle over lichtbronnen in een afbeelding. Bestaande herverlichtingsmethoden zijn ofwel afhankelijk van meerdere invoerweergaven om inverse rendering uit te voeren tijdens de inferentie, of bieden geen expliciete controle over lichtveranderingen. Onze methode fine-tunt een diffusiemodel op een kleine set echte raw fotopaar, aangevuld met synthetisch gerenderde afbeeldingen op schaal, om het fotorealistische prior voor herverlichting te activeren. We benutten de lineariteit van licht om afbeeldingsparen te synthetiseren die gecontroleerde lichtveranderingen weergeven van een doellichtbron of omgevingsverlichting. Met deze gegevens en een geschikt fine-tuning schema trainen we een model voor precieze verlichtingsveranderingen met expliciete controle over lichtintensiteit en kleur. Tot slot tonen we aan hoe onze methode overtuigende lichtbewerkingsresultaten kan bereiken en bestaande methoden overtreft op basis van gebruikersvoorkeur.

Marigold: Kosteneffectieve aanpassing van diffusiegebaseerde beeldgeneratoren voor beeldanalyse
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14

ByBingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

Het succes van deep learning in computervisie in het afgelopen decennium is afhankelijk geweest van grote gelabelde datasets en krachtige vooraf getrainde modellen. In situaties met beperkte data wordt de kwaliteit van deze vooraf getrainde modellen cruciaal voor effectieve transfer learning. Beeldclassificatie en zelfsupervised learning zijn traditioneel de primaire methoden geweest voor het vooraf trainen van CNN's en transformer-gebaseerde architecturen. Recentelijk heeft de opkomst van tekst-naar-beeld generatieve modellen, met name die gebruikmaken van denoising diffusion in een latente ruimte, een nieuwe klasse van foundation models geïntroduceerd die getraind zijn op enorme, beschreven beelddatasets. Het vermogen van deze modellen om realistische beelden van ongeziene inhoud te genereren suggereert dat ze een diep begrip hebben van de visuele wereld. In dit werk presenteren we Marigold, een familie van conditionele generatieve modellen en een fine-tuning protocol dat de kennis uit vooraf getrainde latente diffusiemodellen zoals Stable Diffusion haalt en ze aanpast voor dichte beeldanalysetaken, waaronder monocular depth estimation, surface normals prediction en intrinsieke decompositie. Marigold vereist minimale aanpassingen aan de architectuur van het vooraf getrainde latente diffusiemodel, traint met kleine synthetische datasets op een enkele GPU in enkele dagen, en demonstreert state-of-the-art zero-shot generalisatie. Projectpagina: https://marigoldcomputervision.github.io

CAST: Component-Uitgelijnde 3D Scène-reconstructie vanuit een RGB-afbeelding
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18

ByKaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

Het herstellen van hoogwaardige 3D-scènes uit een enkele RGB-afbeelding is een uitdagende taak in de computer graphics. Huidige methoden kampen vaak met domeinspecifieke beperkingen of het genereren van objecten van lage kwaliteit. Om deze problemen aan te pakken, stellen we CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) voor, een nieuwe methode voor 3D-scène-reconstructie en -herstel. CAST begint met het extraheren van objectniveau 2D-segmentatie en relatieve diepte-informatie uit de invoerafbeelding, gevolgd door het gebruik van een GPT-gebaseerd model om de ruimtelijke relaties tussen objecten te analyseren. Hierdoor wordt begrepen hoe objecten zich tot elkaar verhouden binnen de scène, wat zorgt voor een meer samenhangende reconstructie. CAST maakt vervolgens gebruik van een occlusiebewust grootschalig 3D-generatiemodel om de volledige geometrie van elk object onafhankelijk te genereren, waarbij MAE en point cloud-conditionering worden gebruikt om de effecten van occlusies en gedeeltelijke objectinformatie te mitigeren, waardoor een nauwkeurige uitlijning met de geometrie en textuur van de bronafbeelding wordt gegarandeerd. Om elk object met de scène uit te lijnen, berekent het uitlijningsgeneratiemodel de benodigde transformaties, waardoor de gegenereerde meshes nauwkeurig kunnen worden geplaatst en geïntegreerd in de point cloud van de scène. Ten slotte bevat CAST een fysicabewuste correctiestap die gebruikmaakt van een fijnmazige relatiegrafiek om een beperkingsgrafiek te genereren. Deze grafiek begeleidt de optimalisatie van objectposities, waardoor fysieke consistentie en ruimtelijke samenhang worden gegarandeerd. Door gebruik te maken van Signed Distance Fields (SDF) lost het model effectief problemen op zoals occlusies, objectpenetratie en zwevende objecten, waardoor de gegenereerde scène nauwkeurig de fysieke interacties in de echte wereld weerspiegelt. CAST kan worden ingezet in robotica, waardoor efficiënte real-to-simulation workflows mogelijk worden en realistische, schaalbare simulatieomgevingen voor robotsystemen worden geboden.

UniSkill: Imitatie van Menselijke Video's via Cross-Embodiment Vaardigheidsrepresentaties
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13

ByHanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

Mimicry is een fundamenteel leerproces bij mensen, waardoor individuen nieuwe taken kunnen leren door experts te observeren en te imiteren. Het toepassen van dit vermogen op robots brengt echter aanzienlijke uitdagingen met zich mee vanwege de inherente verschillen tussen menselijke en robotische belichamingen, zowel in visuele verschijning als fysieke mogelijkheden. Hoewel eerdere methoden deze kloof overbruggen door gebruik te maken van cross-embodiment datasets met gedeelde scènes en taken, is het verzamelen van dergelijke uitgelijnde data tussen mensen en robots op grote schaal niet triviaal. In dit artikel introduceren we UniSkill, een nieuw raamwerk dat embodiment-onafhankelijke vaardigheidsrepresentaties leert uit grootschalige cross-embodiment videodata zonder enige labels, waardoor vaardigheden die uit menselijke videoprompts worden geëxtraheerd effectief kunnen worden overgedragen naar robotbeleid dat alleen op robotdata is getraind. Onze experimenten in zowel simulatie- als real-world omgevingen tonen aan dat onze cross-embodiment vaardigheden robots succesvol begeleiden bij het selecteren van geschikte acties, zelfs met onbekende videoprompts. De projectwebsite is te vinden op: https://kimhanjung.github.io/UniSkill.

WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14

ByShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

End-to-end gesproken dialoogmodellen zoals GPT-4o-audio hebben recentelijk aanzienlijke aandacht gekregen in het spraakdomein. Echter is de evaluatie van de gespreksprestaties van gesproken dialoogmodellen grotendeels over het hoofd gezien. Dit komt voornamelijk doordat intelligente chatbots een schat aan niet-tekstuele informatie overbrengen die niet eenvoudig kan worden gemeten met op tekst gebaseerde taalmodelen zoals ChatGPT. Om dit gat te dichten, stellen we WavReward voor, een beloningsfeedbackmodel gebaseerd op audiotalmodellen dat zowel het IQ als het EQ van gesproken dialoogsystemen met spraakinvoer kan evalueren. Specifiek: 1) gebaseerd op audiotalmodellen, integreert WavReward het diepe redeneerproces en het niet-lineaire beloningsmechanisme voor post-training. Door gebruik te maken van multi-sample feedback via het reinforcement learning-algoritme, construeren we een gespecialiseerde evaluator die is afgestemd op gesproken dialoogmodellen. 2) We introduceren ChatReward-30K, een voorkeursdataset die wordt gebruikt om WavReward te trainen. ChatReward-30K omvat zowel het begrip als het generatieaspect van gesproken dialoogmodellen. Deze scenario's beslaan verschillende taken, zoals op tekst gebaseerde chats, negen akoestische attributen van instructiechats en impliciete chats. WavReward overtreft eerdere state-of-the-art evaluatiemodellen in meerdere gesproken dialoogscenario's, met een aanzienlijke verbetering van Qwen2.5-Omni in objectieve nauwkeurigheid van 55,1% naar 91,5%. In subjectieve A/B-testing leidt WavReward ook met een marge van 83%. Uitgebreide ablatiestudies bevestigen de noodzaak van elk onderdeel van WavReward. Alle data en code zullen openbaar beschikbaar zijn op https://github.com/jishengpeng/WavReward nadat het paper is geaccepteerd.

Omni-R1: Heb je echt audio nodig om je audio-LLM te fine-tunen?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14

ByAndrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

Wij stellen Omni-R1 voor, dat een recente multimodale LLM, Qwen2.5-Omni, fine-tunt op een audio-vraag-antwoorddataset met de reinforcement learning-methode GRPO. Dit resulteert in een nieuwe state-of-the-art prestatie op de recente MMAU-benchmark. Omni-R1 behaalt de hoogste nauwkeurigheden in de categorieën geluiden, muziek, spraak en het algemene gemiddelde, zowel op de Test-mini als de Test-full splits. Om de prestatieverbetering te begrijpen, hebben we modellen getest zowel met als zonder audio en ontdekten dat een groot deel van de prestatieverbetering door GRPO kon worden toegeschreven aan betere tekstgebaseerde redenering. We deden ook de verrassende ontdekking dat fine-tuning zonder audio op een tekst-only dataset effectief was in het verbeteren van de audiogebaseerde prestaties.

SweRank: Softwareprobleemlokalisatie met Coderanking
SweRank: Software Issue Localization with Code Ranking

May 7

ByRevanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

Software issue localisatie, de taak om de precieze codelocaties (bestanden, klassen of functies) te identificeren die relevant zijn voor een beschrijving van een probleem in natuurlijke taal (bijvoorbeeld een bugrapport of functieverzoek), is een cruciaal maar tijdrovend aspect van softwareontwikkeling. Hoewel recente LLM-gebaseerde agent-benaderingen veelbelovend zijn, brengen ze vaak aanzienlijke latentie en kosten met zich mee vanwege complexe meerstapsredenering en het vertrouwen op closed-source LLM's. Traditionele code-rankingmodellen, die doorgaans zijn geoptimaliseerd voor query-naar-code of code-naar-code retrieval, hebben moeite met de uitgebreide en foutbeschrijvende aard van localisatiequery's voor problemen. Om deze kloof te overbruggen, introduceren we SweRank, een efficiënt en effectief retrieve-and-rerank-framework voor software issue localisatie. Om training te vergemakkelijken, hebben we SweLoc geconstrueerd, een grootschalige dataset samengesteld uit openbare GitHub-repositories, met real-world probleembeschrijvingen gekoppeld aan bijbehorende codewijzigingen. Empirische resultaten op SWE-Bench-Lite en LocBench laten zien dat SweRank state-of-the-art prestaties bereikt, en zowel eerdere rankingmodellen als kostbare agent-gebaseerde systemen die gebruikmaken van closed-source LLM's zoals Claude-3.5 overtreft. Verder demonstreren we de nuttigheid van SweLoc bij het verbeteren van verschillende bestaande retriever- en reranker-modellen voor issue localisatie, waarmee we de dataset vestigen als een waardevolle bron voor de gemeenschap.

VCRBench: Onderzoek naar de Langetermijn Causale Redeneervaardigheden van Grote Video-Taalmodellen
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13

ByPritam Sarkar, Ali Etemad

Ondanks recente vooruitgang in videobegrip, blijven de mogelijkheden van Grote Video Taalmodellen (LVLMs) om op video gebaseerd causaal redeneren uit te voeren onderbelicht, grotendeels door het ontbreken van relevante en toegewijde benchmarks voor het evalueren van causaal redeneren in visueel onderbouwde en doelgerichte contexten. Om deze leemte te vullen, introduceren we een nieuwe benchmark genaamd Video-based long-form Causal Reasoning (VCRBench). We hebben VCRBench ontwikkeld met behulp van procedurele video's van eenvoudige dagelijkse activiteiten, waarbij de stappen opzettelijk door elkaar zijn geschud, waarbij elke clip een belangrijk causaal moment vastlegt, om te testen of LVLMs de gebeurtenissen kunnen identificeren, overdenken en correct kunnen ordenen die nodig zijn om een specifiek doel te bereiken. Bovendien is de benchmark zorgvuldig ontworpen om te voorkomen dat LVLMs gebruikmaken van taalkundige shortcuts, zoals gezien in meerkeuze- of binaire QA-formaten, terwijl ook de uitdagingen die gepaard gaan met het evalueren van open-einde QA worden vermeden. Onze evaluatie van state-of-the-art LVLMs op VCRBench suggereert dat deze modellen moeite hebben met op video gebaseerd langdurig causaal redeneren, voornamelijk vanwege hun moeilijkheid om langeafstands causale afhankelijkheden direct uit visuele observaties te modelleren. Als een eenvoudige stap om dergelijke mogelijkheden te bevorderen, stellen we Recognition-Reasoning Decomposition (RRD) voor, een modulaire aanpak die op video gebaseerd causaal redeneren opsplitst in twee sub-taken van videorecognitie en causaal redeneren. Onze experimenten op VCRBench tonen aan dat RRD de nauwkeurigheid op VCRBench aanzienlijk verbetert, met winsten tot 25,2%. Ten slotte onthult onze grondige analyse interessante inzichten, bijvoorbeeld dat LVLMs voornamelijk vertrouwen op taalkennis voor complexe op video gebaseerde langdurige causale redeneertaken.

DetReIDX: Een stresstestdataset voor real-world personenherkenning op basis van UAV's
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7

ByKailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

Person reidentification (ReID)-technologie presteert relatief goed onder gecontroleerde, grondniveau-omstandigheden, maar faalt wanneer deze wordt ingezet in uitdagende real-world situaties. Dit is duidelijk te wijten aan extreme variabiliteitsfactoren in de data, zoals resolutie, veranderingen in gezichtspunt, schaalvariaties, occlusies en verschuivingen in uiterlijk door kleding of sessieverschillen. Bovendien nemen de publiek beschikbare datasets dergelijke soorten en omvang van variabiliteit niet realistisch op, wat de vooruitgang van deze technologie beperkt. Dit artikel introduceert DetReIDX, een grootschalig lucht-grond personendataset, die expliciet is ontworpen als een stresstest voor ReID onder real-world omstandigheden. DetReIDX is een multi-sessie dataset die meer dan 13 miljoen bounding boxes bevat van 509 identiteiten, verzameld op zeven universiteitscampussen van drie continenten, met dronehoogtes tussen 5,8 en 120 meter. Belangrijker nog, als een belangrijke nieuwigheid, werden de onderwerpen in DetReIDX opgenomen in (minimaal) twee sessies op verschillende dagen, met veranderingen in kleding, daglicht en locatie, waardoor het geschikt is om daadwerkelijk langetermijn personen-ReID te evalueren. Daarnaast zijn de data geannoteerd met 16 zachte biometrische attributen en multitask-labels voor detectie, tracking, ReID en actieherkenning. Om empirisch bewijs te leveren van de bruikbaarheid van DetReIDX, hebben we de specifieke taken van menselijke detectie en ReID overwogen, waarbij SOTA-methoden catastrofaal slecht presteren (tot 80% in detectienauwkeurigheid en meer dan 70% in Rank-1 ReID) wanneer ze worden blootgesteld aan de omstandigheden van DetReIDX. De dataset, annotaties en officiële evaluatieprotocollen zijn publiekelijk beschikbaar op https://www.it.ubi.pt/DetReIDX/

Het begrijpen en verminderen van toxiciteit in beeld-tekst vooraf getrainde datasets: Een casestudy over LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9

ByKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Vooraf getrainde datasets vormen de basis voor de ontwikkeling van multimodale modellen, maar bevatten vaak inherente vooroordelen en giftige inhoud afkomstig uit de web-schaal corpora waaruit ze zijn samengesteld. In dit artikel onderzoeken we de prevalentie van giftige inhoud in de LLaVA beeld-tekst vooraf getrainde dataset, waarbij we analyseren hoe schadelijke inhoud zich manifesteert in verschillende modaliteiten. We presenteren een uitgebreide analyse van veelvoorkomende categorieën van giftige inhoud en stellen gerichte mitigatiestrategieën voor, wat resulteert in de creatie van een verfijnde dataset waarin giftige inhoud is gemitigeerd. Deze dataset verwijdert 7.531 giftige beeld-tekst paren uit de LLaVA vooraf getrainde dataset. We bieden richtlijnen voor het implementeren van robuuste detectiepijplijnen voor giftige inhoud. Onze bevindingen benadrukken de noodzaak om actief giftige inhoud – zoals haatzaaiende taal, expliciete beelden en gerichte intimidatie – te identificeren en te filteren om verantwoordelijkere en rechtvaardigere multimodale systemen te bouwen. De dataset waarin giftige inhoud is gemitigeerd, is open source en beschikbaar voor verder onderzoek.

Achter Maya: Het bouwen van een meertalig visueel taalmodel
Behind Maya: Building a Multilingual Vision Language Model

May 13

ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

De laatste tijd hebben we een snelle ontwikkeling gezien van grote Vision-Language Models (VLMs). Deze hebben indrukwekkende resultaten laten zien op academische benchmarks, voornamelijk in veelgesproken talen, maar presteren minder goed op talen met beperkte bronnen en diverse culturele contexten. Om deze beperkingen aan te pakken, introduceren we Maya, een open-source Multilingual VLM. Onze bijdragen zijn: 1) een meertalige beeld-tekst pretrainingsdataset in acht talen, gebaseerd op de LLaVA pretrainingsdataset; en 2) een meertalig beeld-tekst model dat deze talen ondersteunt, waardoor het culturele en linguïstische begrip in vision-language taken wordt verbeterd. Code is beschikbaar op https://github.com/nahidalam/maya.

Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12

ByYu Cheng, Arushi Goel, Hakan Bilen

Het beantwoorden van complexe visuele vragen zoals `Welke rode meubels zijn geschikt om op te zitten?' vereist meerstaps redeneren, inclusief objectherkenning, attribuutfiltering en relationeel begrip. Recent werk verbetert de interpreteerbaarheid in multimodale grote taalmodellen (MLLMs) door taken op te delen in subtaskprogramma's, maar deze methoden zijn rekenintensief en minder nauwkeurig door slechte aanpassing aan doeldatasets. Om dit aan te pakken, introduceren we VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), een subtask-gestuurd trainingsraamwerk dat zowel interpreteerbaarheid als redeneren verbetert door tekstuele en visuele verklaringen te genereren binnen MLLMs. In plaats van te vertrouwen op externe modellen, fine-tunt VISTAR MLLMs om gestructureerde Subtask-of-Thought redeneringen (stapsgewijze redeneersequenties) te produceren. Experimenten op twee benchmarks tonen aan dat VISTAR consistent de nauwkeurigheid van het redeneren verbetert terwijl de interpreteerbaarheid behouden blijft. Onze code en dataset zullen beschikbaar zijn op https://github.com/ChengJade/VISTAR.

Steilste Afdaling Dichtheidscontrole voor Compacte 3D Gaussische Splatting
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8

ByPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan

3D Gaussian Splatting (3DGS) is naar voren gekomen als een krachtige techniek voor real-time, hoogwaardige synthese van nieuwe gezichtspunten. Door scènes te representeren als een mengsel van Gaussische primitieven, maakt 3DGS gebruik van GPU-rasterisatiepijplijnen voor efficiënte rendering en reconstructie. Om de scènedekking te optimaliseren en fijne details vast te leggen, gebruikt 3DGS een verdichtingsalgoritme om aanvullende punten te genereren. Dit proces leidt echter vaak tot redundante puntenwolken, wat resulteert in overmatig geheugengebruik, tragere prestaties en aanzienlijke opslageisen – wat aanzienlijke uitdagingen vormt voor implementatie op apparaten met beperkte middelen. Om deze beperking aan te pakken, stellen we een theoretisch raamwerk voor dat de dichtheidscontrole in 3DGS ontrafelt en verbetert. Onze analyse toont aan dat splitsing cruciaal is om uit zadelpunten te ontsnappen. Via een optimalisatie-theoretische benadering leggen we de noodzakelijke voorwaarden voor verdichting vast, bepalen we het minimale aantal afstammende Gaussische functies, identificeren we de optimale parameterupdate-richting en bieden we een analytische oplossing voor het normaliseren van de dekking van afstammelingen. Op basis van deze inzichten introduceren we SteepGS, dat steilste dichtheidscontrole omvat, een principiële strategie die het verlies minimaliseert terwijl een compacte puntenwolk behouden blijft. SteepGS bereikt een reductie van ~50% in Gaussische punten zonder in te leveren op de renderkwaliteit, wat zowel de efficiëntie als de schaalbaarheid aanzienlijk verbetert.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en Dataset
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

Inzichten in DeepSeek-V3: Schaalbaarheidsuitdagingen en Reflecties op Hardware voor AI-Architecturen
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14

ByChenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

MathCoder-VL: Verbinding tussen Visie en Code voor Verbeterd Multimodaal Wiskundig Redeneren
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15

ByKe Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

DeCLIP: Ontkoppeld leren voor open-vocabulair dichte perceptie
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7

ByJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

LightLab: Beheersing van lichtbronnen in afbeeldingen met diffusiemodellen
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14

ByNadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

Marigold: Kosteneffectieve aanpassing van diffusiegebaseerde beeldgeneratoren voor beeldanalyse
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14

ByBingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

CAST: Component-Uitgelijnde 3D Scène-reconstructie vanuit een RGB-afbeelding
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18

ByKaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

UniSkill: Imitatie van Menselijke Video's via Cross-Embodiment Vaardigheidsrepresentaties
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13

ByHanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14

ByShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Omni-R1: Heb je echt audio nodig om je audio-LLM te fine-tunen?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14

ByAndrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

SweRank: Softwareprobleemlokalisatie met Coderanking
SweRank: Software Issue Localization with Code Ranking

May 7

ByRevanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

VCRBench: Onderzoek naar de Langetermijn Causale Redeneervaardigheden van Grote Video-Taalmodellen
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13

ByPritam Sarkar, Ali Etemad

DetReIDX: Een stresstestdataset voor real-world personenherkenning op basis van UAV's
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7

ByKailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

Het begrijpen en verminderen van toxiciteit in beeld-tekst vooraf getrainde datasets: Een casestudy over LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9

ByKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Achter Maya: Het bouwen van een meertalig visueel taalmodel
Behind Maya: Building a Multilingual Vision Language Model

May 13

Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12

ByYu Cheng, Arushi Goel, Hakan Bilen

Steilste Afdaling Dichtheidscontrole voor Compacte 3D Gaussische Splatting
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8

ByPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan