AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

X-Prompt: Naar Universele In-Context Beeldgeneratie in Auto-Regressieve Vision Language Foundation Modellen
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2

ByZeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

In-context generatie is een essentieel onderdeel van de open-taak generalisatiecapaciteit van grote taalmodellen (LLM's). Door gebruik te maken van een paar voorbeelden als context, kunnen LLM's zowel taken binnen het domein als taken buiten het domein uitvoeren. Recente ontwikkelingen in auto-regressieve visie-taalmodellen (VLM's) gebouwd op LLM's hebben indrukwekkende prestaties laten zien in tekst-naar-afbeelding generatie. Echter, het potentieel van in-context leren voor algemene afbeeldingsgeneratietaken blijft grotendeels onbenut. Om dit aan te pakken, introduceren we X-Prompt, een puur auto-regressief groot-visie taalmodel dat is ontworpen om concurrerende prestaties te leveren over een breed scala van zowel bekende als onbekende afbeeldingsgeneratietaken, allemaal binnen een verenigd in-context leerframework. X-Prompt bevat een gespecialiseerd ontwerp dat waardevolle kenmerken efficiënt comprimeert uit in-context voorbeelden, waardoor langere in-context tokenreeksen worden ondersteund en de mogelijkheid om te generaliseren naar onbekende taken wordt verbeterd. Een verenigde trainingsopdracht voor zowel tekst- als afbeeldingsvoorspelling stelt X-Prompt in staat om algemene afbeeldingsgeneratie te behandelen met verbeterd taakbewustzijn vanuit in-context voorbeelden. Uitgebreide experimenten valideren de prestaties van het model over diverse bekende afbeeldingsgeneratietaken en zijn capaciteit om te generaliseren naar eerder ongeziene taken.

DRIJVEN: Generatieve Bewegings Latente Stroom Overeenkomst voor Audio-gestuurde Sprekende Portretten
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2

ByTaekyung Ki, Dongchan Min, Gyoungsu Chae

Met de snelle vooruitgang van diffusie-gebaseerde generatieve modellen heeft portretbeeldanimatie opmerkelijke resultaten behaald. Toch staat het nog steeds voor uitdagingen op het gebied van temporeel consistente videogeneratie en snelle bemonstering vanwege de iteratieve bemonsteringsaard. In dit artikel wordt FLOAT gepresenteerd, een op audio gebaseerde pratende portretvideogeneratiemethode gebaseerd op een stroomovereenkomst generatief model. We verplaatsen de generatieve modellering van de op pixel gebaseerde latente ruimte naar een aangeleerde bewegingslatente ruimte, waardoor een efficiënt ontwerp van temporeel consistente beweging mogelijk is. Om dit te bereiken, introduceren we een op transformer gebaseerde vectorveldvoorspeller met een eenvoudig maar effectief framegewijs conditioneringsmechanisme. Bovendien ondersteunt onze methode spraakgestuurde emotieversterking, waardoor een natuurlijke integratie van expressieve bewegingen mogelijk is. Uitgebreide experimenten tonen aan dat onze methode beter presteert dan state-of-the-art audio-gestuurde pratende portretmethoden op het gebied van visuele kwaliteit, bewegingsgetrouwheid en efficiëntie.

o1-Coder: een o1-replicatie voor codering
o1-Coder: an o1 Replication for Coding

Nov 29

ByYuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

Het technische rapport introduceert O1-CODER, een poging om het o1-model van OpenAI te repliceren met een focus op coderingstaken. Het integreert reinforcement learning (RL) en Monte Carlo Tree Search (MCTS) om de System-2 denkcapaciteiten van het model te verbeteren. Het framework omvat het trainen van een Test Case Generator (TCG) voor gestandaardiseerde codetesting, het gebruik van MCTS om codegegevens te genereren met redeneerprocessen, en het iteratief verfijnen van het beleidsmodel om aanvankelijk pseudocode te produceren, gevolgd door de generatie van de volledige code. Het rapport behandelt ook de kansen en uitdagingen bij het implementeren van o1-achtige modellen in real-world toepassingen, waarbij wordt gesuggereerd over te stappen naar het System-2 paradigma en het benadrukken van de noodzaak van updates van de omgevingsstatus. Bijgewerkte modelvoortgang en experimentele resultaten zullen worden gerapporteerd in latere versies. Alle broncode, samengestelde datasets, evenals de afgeleide modellen zullen worden vrijgegeven op https://github.com/ADaM-BJTU/O1-CODER.

Switti: Het ontwerpen van Schaal-Wijze Transformers voor Tekst-naar-Afbeelding Synthese
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2

ByAnton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

Dit werk presenteert Switti, een schaalwijze transformer voor tekst-naar-afbeelding generatie. Vertrekkend van bestaande AR-modellen voor voorspelling op volgende schaal, verkennen we deze eerst voor T2I generatie en stellen we architectonische aanpassingen voor om hun convergentie en algehele prestaties te verbeteren. Vervolgens observeren we dat zelfaandachtskaarten van ons vooraf getrainde schaalwijze AR-model zwak afhankelijk zijn van voorafgaande schalen. Op basis van dit inzicht stellen we een niet-AR-tegenhanger voor die ongeveer 11% sneller samplen en minder geheugen gebruiken, terwijl ook iets betere generatiekwaliteit wordt bereikt. Bovendien onthullen we dat het gidsen zonder classifier op hoge-resolutieschalen vaak onnodig is en zelfs prestaties kan verminderen. Door het gidsen op deze schalen uit te schakelen, bereiken we een extra versnelling van ongeveer 20% bij het samplen en verbeteren we de generatie van fijngestructureerde details. Uitgebreide menselijke voorkeursstudies en geautomatiseerde evaluaties tonen aan dat Switti beter presteert dan bestaande T2I AR-modellen en concurreert met toonaangevende T2I-diffusiemodellen, terwijl het tot 7 keer sneller is.

Open-Sora Plan: Open-Source Groot Video Generatiemodel
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28

ByBin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan

Wij introduceren het Open-Sora Plan, een open-source project dat tot doel heeft bij te dragen aan een groot generatiemodel voor het genereren van gewenste video's met hoge resolutie en lange duur op basis van verschillende gebruikersinvoer. Ons project bestaat uit meerdere componenten voor het gehele videogeneratieproces, waaronder een Golfletstroom Variational Auto-encoder, een Gezamenlijke Afbeelding-Video Skiparse Denoiser, en diverse condition controllers. Bovendien zijn er vele hulpaanpakken voor efficiënte training en inferentie ontworpen, en wordt een multidimensionale gegevenscuratiepijplijn voorgesteld voor het verkrijgen van gewenste hoogwaardige gegevens. Dankzij efficiënte overwegingen behaalt ons Open-Sora Plan indrukwekkende resultaten op het gebied van videogeneratie in zowel kwalitatieve als kwantitatieve evaluaties. We hopen dat ons zorgvuldige ontwerp en praktische ervaring de onderzoeksgemeenschap voor videogeneratie kunnen inspireren. Al onze codes en modelgewichten zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/Open-Sora-Plan.

VISTA: Verbetering van langetermijn- en hoge-resolutie videobegrip door video-spatiotemporale augmentatie.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1

ByWeiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

Huidige grote multimodale modellen (LMM's) staan voor aanzienlijke uitdagingen bij het verwerken en begrijpen van langdurige of hoge-resolutie video's, wat voornamelijk te wijten is aan het gebrek aan hoogwaardige datasets. Om dit probleem vanuit een datacentrisch perspectief aan te pakken, stellen we VISTA voor, een eenvoudig maar effectief Video Spatiotemporal Augmentation framework dat langdurige en hoge-resolutie video-instructievolgparen synthetiseert uit bestaande video-ondertitelingsdatasets. VISTA combineert video's ruimtelijk en temporeel om nieuwe synthetische video's te creëren met verlengde duur en verbeterde resoluties, en produceert vervolgens vraag-antwoordparen met betrekking tot deze nieuw gesynthetiseerde video's. Op basis van dit paradigma ontwikkelen we zeven video-augmentatiemethoden en stellen VISTA-400K samen, een video-instructievolgdataset gericht op het verbeteren van het begrip van langdurige en hoge-resolutie video's. Het finetunen van verschillende video LMM's op onze gegevens resulteerde in een gemiddelde verbetering van 3,3% over vier uitdagende benchmarks voor het begrip van lange video's. Bovendien introduceren we de eerste uitgebreide benchmark voor het begrip van hoge-resolutie video's, HRVideoBench, waarop onze gefinetunede modellen een prestatiewinst van 6,5% behalen. Deze resultaten benadrukken de effectiviteit van ons framework.

De Put: een grootschalige verzameling van diverse natuurkundige simulaties voor Machine Learning.
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30

ByRuben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho

Machine learning gebaseerde surrogaatmodellen bieden onderzoekers krachtige tools om simulatie-gebaseerde workflows te versnellen. Echter, aangezien standaard datasets op dit gebied vaak kleine klassen van fysiek gedrag bestrijken, kan het moeilijk zijn om de doeltreffendheid van nieuwe benaderingen te evalueren. Om deze kloof te overbruggen, introduceren we de Well: een grootschalige verzameling datasets met numerieke simulaties van een breed scala aan ruimtelijke en temporele fysische systemen. De Well put uit domeinexperts en numerieke softwareontwikkelaars om 15TB aan data te leveren over 16 datasets die diverse domeinen bestrijken zoals biologische systemen, vloeistofdynamica, akoestische verstrooiing, evenals magnetohydrodynamische simulaties van extragalactische vloeistoffen of supernova-explosies. Deze datasets kunnen afzonderlijk of als onderdeel van een breder benchmarkpakket worden gebruikt. Om het gebruik van de Well te vergemakkelijken, bieden we een uniforme PyTorch-interface voor het trainen en evalueren van modellen. We demonstreren de functionaliteit van deze bibliotheek door voorbeeldbaselines te introduceren die de nieuwe uitdagingen belichten die worden gesteld door de complexe dynamiek van de Well. De code en data zijn beschikbaar op https://github.com/PolymathicAI/the_well.

SOLAMI: Sociale Visie-Taal-Actie Modellering voor Meeslepende Interactie met 3D Autonome Karakters
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29

ByJianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

Mensen zijn sociale dieren. Hoe 3D autonome personages uit te rusten met vergelijkbare sociale intelligentie die in staat zijn om mensen waar te nemen, te begrijpen en mee te interacteren, blijft een open maar fundamenteel probleem. In dit artikel introduceren we SOLAMI, het eerste end-to-end Sociale Visie-Taal-Actie (VLA) Modelleringskader voor meeslepende interactie met 3D autonome personages. Specifiek bouwt SOLAMI 3D autonome personages op drie aspecten: (1) Sociale VLA-architectuur: We stellen een verenigd sociaal VLA-kader voor om multimodale respons (spraak en beweging) te genereren op basis van de multimodale input van de gebruiker om het personage aan te sturen voor sociale interactie. (2) Interactieve Multimodale Gegevens: We presenteren SynMSI, een synthetische multimodale sociale interactiedataset gegenereerd door een automatisch proces met alleen bestaande bewegingsdatasets om het probleem van gegevensschaarste aan te pakken. (3) Meeslepende VR-interface: We ontwikkelen een VR-interface waarmee gebruikers op meeslepende wijze kunnen interacteren met deze personages die worden aangestuurd door verschillende architecturen. Uitgebreide kwantitatieve experimenten en gebruikersstudies tonen aan dat ons kader leidt tot nauwkeurigere en natuurlijkere karakterreacties (zowel in spraak als beweging) die overeenkomen met de verwachtingen van de gebruiker met lagere latentie.

TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27

ByJinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

In dit artikel presenteren we TAPTRv3, dat is gebouwd op TAPTRv2 om de robuustheid van het puntvolgen te verbeteren in lange video's. TAPTRv2 is een eenvoudig DETR-achtig framework dat nauwkeurig punten kan volgen in video's in de echte wereld zonder dat er kosten-volume nodig zijn. TAPTRv3 verbetert TAPTRv2 door het tekort aan het opvragen van hoogwaardige functies uit lange video's aan te pakken, waar de te volgen punten normaal gesproken in de loop van de tijd toenemende variatie ondergaan. In TAPTRv3 stellen we voor om zowel ruimtelijke als temporele context te benutten om beter functies op te vragen langs de ruimtelijke en temporele dimensies voor robuuster volgen in lange video's. Voor beter ruimtelijk functie-opvragen presenteren we Contextbewuste Kruis-Aandacht (CCA), dat omringende ruimtelijke context benut om de kwaliteit van aandachtscores te verbeteren bij het opvragen van beeldfuncties. Voor beter temporeel functie-opvragen introduceren we Zichtbaarheidsbewuste Lange-Temporale Aandacht (VLTA) om temporele aandacht te geven aan alle voorgaande frames terwijl hun overeenkomstige zichtbaarheid wordt overwogen, wat effectief het probleem van functie-afdrijving in TAPTRv2 aanpakt dat wordt veroorzaakt door zijn RNN-achtige lang-temporale modellering. TAPTRv3 overtreft TAPTRv2 aanzienlijk op de meeste uitdagende datasets en behaalt toonaangevende prestaties. Zelfs in vergelijking met methoden die zijn getraind met grootschalige extra interne gegevens, blijft TAPTRv3 concurrerend.

GATE OpenING: Een uitgebreide benchmark voor het beoordelen van open-ended interleaved beeld-tekst generatie.
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27

ByPengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang

Multimodale Grote Taalmodellen (MGT's) hebben aanzienlijke vooruitgang geboekt in visuele begrips- en generatietaken. Het genereren van geïnterlinieerde beeld-tekst inhoud blijft echter een uitdaging, wat geïntegreerde multimodale begrips- en generatievaardigheden vereist. Terwijl de vooruitgang in verenigde modellen nieuwe oplossingen biedt, zijn bestaande benchmarks onvoldoende om deze methoden te evalueren vanwege beperkingen in gegevensomvang en diversiteit. Om deze kloof te overbruggen, introduceren we GATE OpenING (OpenING), een uitgebreide benchmark bestaande uit 5.400 hoogwaardige mens-geannoteerde voorbeelden over 56 real-world taken. OpenING bestrijkt diverse dagelijkse scenario's zoals reisgids, ontwerp en brainstormen, en biedt een robuust platform voor uitdagende geïnterlinieerde generatiemethoden. Daarnaast presenteren we IntJudge, een beoordelingsmodel voor het evalueren van open-eind multimodale generatiemethoden. Getraind met een nieuw gegevenspijplijn, behaalt onze IntJudge een overeenstemmingspercentage van 82.42% met menselijke beoordelingen, wat GPT-gebaseerde evaluatoren met 11.34% overtreft. Uitgebreide experimenten op OpenING tonen aan dat huidige geïnterlinieerde generatiemethoden nog aanzienlijke ruimte hebben voor verbetering. Belangrijke bevindingen over geïnterlinieerde beeld-tekst generatie worden verder gepresenteerd om de ontwikkeling van modellen van de volgende generatie te sturen. De OpenING is open-source beschikbaar op https://opening.github.io.

Efficiënt Volg Alles
Efficient Track Anything

Nov 28

ByYunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra

Het Segment Anything Model 2 (SAM 2) is naar voren gekomen als een krachtig instrument voor videobeeldsegmentatie en het volgen van alles. Belangrijke onderdelen van SAM 2 die de indrukwekkende prestaties van videobeeldsegmentatie aandrijven, omvatten een grote meertraps beeldencoder voor het extraheren van kenmerken van frames en een geheugenmechanisme dat geheugencontexten van eerdere frames opslaat om de segmentatie van het huidige frame te helpen. De hoge rekencomplexiteit van de meertraps beeldencoder en het geheugenmodule heeft de toepassingen ervan in real-world taken beperkt, zoals videobeeldsegmentatie op mobiele apparaten. Om deze beperking aan te pakken, stellen we EfficientTAMs voor, lichtgewicht modellen voor het volgen van alles die hoogwaardige resultaten produceren met lage latentie en modelgrootte. Ons idee is gebaseerd op het heroverwegen van de eenvoudige, niet-hiërarchische Vision Transformer (ViT) als een beeldencoder voor videobeeldsegmentatie, en het introduceren van een efficiënte geheugenmodule, die de complexiteit vermindert voor zowel het extraheren van kenmerken van frames als het berekenen van geheugen voor de segmentatie van het huidige frame. We gebruiken standaard lichtgewicht ViTs en een efficiënte geheugenmodule om EfficientTAMs te bouwen, en trainen de modellen op SA-1B en SA-V datasets voor videobeeldsegmentatie en taken voor het volgen van alles. We evalueren op meerdere videobeeldsegmentatie benchmarks, waaronder semi-supervised VOS en promptable videobeeldsegmentatie, en vinden dat onze voorgestelde EfficientTAM met standaard ViT vergelijkbare prestaties levert als het SAM 2-model (HieraB+SAM 2) met ~2x versnelling op A100 en ~2.4x parametervermindering. Bij taken voor het segmenteren van beeldmateriaal presteren onze EfficientTAMs ook gunstig ten opzichte van het originele SAM met ~20x versnelling op A100 en ~20x parametervermindering. Op mobiele apparaten zoals de iPhone 15 Pro Max kunnen onze EfficientTAMs draaien op ~10 FPS voor het uitvoeren van videobeeldsegmentatie met redelijke kwaliteit, waarbij de mogelijkheden van kleine modellen voor toepassingen van videobeeldsegmentatie op apparaten worden benadrukt.

Sturen van gecorrigeerde stroommodellen in het vectorveld voor gecontroleerde beeldgeneratie
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27

ByMaitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

Diffusiemodellen (DM's) excelleren in fotorealisme, beeldbewerking en het oplossen van inverse problemen, geholpen door begeleiding zonder classificeerder en beeldomkeertechnieken. Echter blijven gerechtvaardigde stroommodellen (RFM's) onderbelicht voor deze taken. Bestaande op DM's gebaseerde methoden vereisen vaak extra training, missen generalisatie naar vooraf getrainde latente modellen, presteren ondermaats en vergen aanzienlijke rekenbronnen vanwege uitgebreide backpropagatie door ODE-oplossers en omkeerprocessen. In dit werk ontwikkelen we eerst een theoretisch en empirisch begrip van de vectorveld dynamica van RFM's in het efficiënt sturen van de denoising-trajectorie. Onze bevindingen onthullen dat we het vectorveld kunnen navigeren op een deterministische en gradientvrije manier. Door gebruik te maken van deze eigenschap stellen we FlowChef voor, die het vectorveld benut om de denoising-trajectorie te sturen voor gecontroleerde beeldgeneratietaken, gefaciliteerd door het overslaan van gradienten. FlowChef is een verenigd kader voor gecontroleerde beeldgeneratie dat voor het eerst gelijktijdig classificeerderbegeleiding, lineaire inverse problemen en beeldbewerking aanpakt zonder de noodzaak van extra training, omkering of intensieve backpropagatie. Ten slotte voeren we uitgebreide evaluaties uit en tonen aan dat FlowChef aanzienlijk beter presteert dan baselines op het gebied van prestaties, geheugen en tijdsvereisten, met het behalen van nieuwe state-of-the-art resultaten. Projectpagina: https://flowchef.github.io.

Het evalueren van meertalig taalbegrip met regionale kennis
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29

ByAngelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut

Het prestatieverschil van grote taalmodellen (LLM) tussen talen belemmert hun effectieve inzet in veel regio's, waardoor het potentiële economische en maatschappelijke waarde van generatieve AI-tools in veel gemeenschappen wordt belemmerd. De ontwikkeling van functionele LLM's in veel talen (d.w.z. meertalige LLM's) wordt echter belemmerd door het gebrek aan hoogwaardige evaluatieressources in talen anders dan het Engels. Bovendien vertalen huidige praktijken in de constructie van meertalige benchmarks vaak Engelse bronnen, waarbij de regionale en culturele kennis van de omgevingen waarin meertalige systemen zouden worden gebruikt, wordt genegeerd. In dit werk construeren we een evaluatiesuite van 197.243 vraag-antwoordparen uit lokale examenbronnen om de mogelijkheden van meertalige LLM's in verschillende regionale contexten te meten. Onze nieuwe resource, INCLUDE, is een uitgebreide benchmark gericht op kennis en redenering in 44 geschreven talen, die meertalige LLM's evalueert op prestaties in de daadwerkelijke taalomgevingen waarin ze zouden worden ingezet.

VLsI: Verbaal Gelaagd-naar-Interacties van Groot naar Klein Visie Taalmodellen
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2

ByByung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

De recente toename in hoogwaardige visuele instructie-afstemmingssamples van gesloten-bron visie-taalmodellen (VLM's) zoals GPT-4V heeft de vrijgave van open-source VLM's in verschillende modelgroottes versneld. Het opschalen van VLM's om de prestaties te verbeteren met behulp van grotere modellen brengt echter aanzienlijke computationele uitdagingen met zich mee, vooral voor implementatie op apparaten met beperkte middelen zoals mobiele platforms en robots. Om dit aan te pakken, stellen we VLsI voor: Verbalized Layers-to-Interactions, een nieuwe VLM-familie in modelgroottes van 2B en 7B, die efficiëntie prioriteert zonder de nauwkeurigheid in gevaar te brengen. VLsI maakt gebruik van een uniek, laagsgewijs distillatieproces, waarbij tussenliggende "verbalizers" worden geïntroduceerd die kenmerken van elke laag naar de natuurlijke taalruimte mappen, waardoor kleinere VLM's flexibel kunnen worden afgestemd op de redeneerprocessen van grotere VLM's. Deze aanpak vermindert de trainingsinstabiliteit die vaak wordt ondervonden bij uitvoerimitatie en gaat verder dan typische afstemming van de laatste laag door de laagsgewijze voortgang van de kleine VLM's af te stemmen op die van de grote. We valideren VLsI over tien uitdagende visie-taal-benchmarks en behalen opmerkelijke prestatiewinsten (11,0% voor 2B en 17,4% voor 7B) ten opzichte van GPT-4V zonder de noodzaak voor modelopschaling, samenvoeging of architectonische wijzigingen.

TinyFusion: Ondiepe Diffusie Transformers Aangeleerd
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2

ByGongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

Diffusion Transformers hebben opmerkelijke capaciteiten aangetoond in beeldgeneratie, maar gaan vaak gepaard met overmatige parameterisatie, wat resulteert in aanzienlijke inferentie-overhead in real-world toepassingen. In dit werk presenteren we TinyFusion, een dieptesnoeimethode ontworpen om overbodige lagen uit diffusion transformers te verwijderen via end-to-end leren. Het kernprincipe van onze aanpak is het creëren van een gesnoeid model met een hoge herstelbaarheid, waardoor het sterke prestaties kan herwinnen na fijnafstemming. Om dit te bereiken, introduceren we een differentieerbare bemonsteringstechniek om snoeien leerbaar te maken, in combinatie met een co-geoptimaliseerde parameter om toekomstige fijnafstemming te simuleren. Terwijl eerdere werken zich richten op het minimaliseren van verlies of fout na snoeien, modelleert en optimaliseert onze methode expliciet de prestaties na fijnafstemming van gesnoeide modellen. Experimentele resultaten geven aan dat dit leerparadigma aanzienlijke voordelen biedt voor laagsnoei van diffusion transformers, waarbij bestaande belangrijkheidsgebaseerde en foutgebaseerde methoden worden overtroffen. Bovendien vertoont TinyFusion sterke generalisatie over diverse architecturen, zoals DiTs, MARs en SiTs. Experimenten met DiT-XL tonen aan dat TinyFusion een ondiepe diffusion transformer kan creëren voor minder dan 7% van de voorafgaande trainingskosten, met een 2 keer versnelling en een FID-score van 2.86, waarbij concurrenten met vergelijkbare efficiëntie worden overtroffen. De code is beschikbaar op https://github.com/VainF/TinyFusion.

WF-VAE: Verbetering van Video VAE door Wavelet-Gestuurde Energieflow voor Latent Video Diffusie Model
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26

ByZongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

Een Video Variational Autoencoder (VAE) codeert video's in een laag-dimensionale latente ruimte en is een essentieel onderdeel van de meeste Latente Video Diffusie Modellen (LVDM's) om de trainingskosten van modellen te verlagen. Echter, naarmate de resolutie en duur van gegenereerde video's toenemen, wordt de coderingskost van Video VAEs een beperkende bottleneck in het trainen van LVDM's. Bovendien kan de bloksgewijze inferentiemethode die door de meeste LVDM's wordt aangenomen, leiden tot discontinuïteiten van de latente ruimte bij het verwerken van langdurige video's. De sleutel tot het aanpakken van de computationele bottleneck ligt in het opsplitsen van video's in afzonderlijke componenten en het efficiënt coderen van de cruciale informatie. Wavelet-transformatie kan video's opsplitsen in meerdere frequentiedomeincomponenten en de efficiëntie aanzienlijk verbeteren. Daarom stellen we Wavelet Flow VAE (WF-VAE) voor, een auto-encoder die gebruikmaakt van meerlaagse wavelet-transformatie om de stroom van laagfrequente energie naar de latente representatie te vergemakkelijken. Bovendien introduceren we een methode genaamd Causale Cache, die de integriteit van de latente ruimte tijdens bloksgewijze inferentie handhaaft. In vergelijking met toonaangevende video VAEs, toont WF-VAE superieure prestaties op zowel PSNR- als LPIPS-metrieken, waarbij een 2x hogere doorvoer en 4x lagere geheugenconsumptie worden bereikt, terwijl de competitieve reconstructiekwaliteit behouden blijft. Onze code en modellen zijn beschikbaar op https://github.com/PKU-YuanGroup/WF-VAE.

Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2

ByXin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

We introduceren Presto, een nieuw videodiffusiemodel dat is ontworpen om 15-seconden video's te genereren met lange-afstandscoherentie en rijke inhoud. Het uitbreiden van videogeneratiemethoden om scenario diversiteit over lange duur te behouden, brengt aanzienlijke uitdagingen met zich mee. Om dit aan te pakken, stellen we een Gesegmenteerde Kruislingse Aandacht (SCA) strategie voor, die verborgen toestanden opsplitst in segmenten langs de temporale dimensie, waardoor elk segment kan kruis-attenderen op een overeenkomstige ondertitel. SCA vereist geen extra parameters, waardoor naadloze integratie in huidige op DiT gebaseerde architecturen mogelijk is. Om hoogwaardige lange videogeneratie te vergemakkelijken, hebben we de LongTake-HD dataset opgebouwd, bestaande uit 261k inhoudsrijke video's met scenario coherentie, geannoteerd met een algehele videobijschrift en vijf progressieve subbijschriften. Experimenten tonen aan dat onze Presto 78.5% behaalt op de VBench Semantische Score en 100% op de Dynamische Graad, waarbij bestaande state-of-the-art videogeneratiemethoden overtreft. Dit toont aan dat onze voorgestelde Presto de inhoudsrijkdom aanzienlijk verbetert, lange-afstandscoherentie behoudt en complexe tekstuele details vastlegt. Meer details zijn te vinden op onze projectpagina: https://presto-video.github.io/.

VLSBench: Het blootleggen van visuele lekken in multimodale veiligheid
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29

ByXuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

Veiligheidszorgen van Multimodale grote taalmodellen (MLLM's) zijn geleidelijk een belangrijk probleem geworden in verschillende toepassingen. Verrassend genoeg geven eerdere werken een tegen-intuïtief fenomeen aan dat het gebruik van tekstueel vergeten om MLLM's uit te lijnen vergelijkbare veiligheidsprestaties oplevert als MLLM's die zijn getraind met afbeelding-tekstparen. Om zo'n tegen-intuïtief fenomeen te verklaren, ontdekken we een probleem van visuele veiligheidsinformatielekkage (VSIL) in bestaande multimodale veiligheidsbenchmarks, d.w.z. dat mogelijk risicovolle en gevoelige inhoud in de afbeelding is onthuld in de tekstuele query. Op deze manier kunnen MLLM's gemakkelijk deze gevoelige tekst-afbeeldingsqueries weigeren op basis van tekstuele queries. Afbeelding-tekstparen zonder VSIL zijn echter gebruikelijk in real-world scenario's en worden over het hoofd gezien door bestaande multimodale veiligheidsbenchmarks. Om deze reden construeren we een multimodale visuele lekvrije veiligheidsbenchmark (VLSBench) die visuele veiligheidslekken van afbeelding naar tekstuele query voorkomt met 2,4k afbeelding-tekstparen. Experimentele resultaten geven aan dat VLSBench een aanzienlijke uitdaging vormt voor zowel open-source als gesloten-source MLLM's, waaronder LLaVA, Qwen2-VL, Llama3.2-Vision en GPT-4o. Deze studie toont aan dat tekstuele uitlijning voldoende is voor multimodale veiligheidsscenario's met VSIL, terwijl multimodale uitlijning een veelbelovender oplossing is voor multimodale veiligheidsscenario's zonder VSIL. Zie onze code en data op: http://hxhcreate.github.io/VLSBench

Kunstvrije generatieve modellen: Kunstcreatie zonder kennis van grafische kunst
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29

ByHui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

We onderzoeken de vraag: "Hoeveel voorkennis van kunst is nodig om kunst te creëren?" Om dit te onderzoeken, stellen we een tekst-naar-afbeelding generatiemodel voor dat is getraind zonder toegang tot kunstgerelateerde inhoud. Vervolgens introduceren we een eenvoudige maar effectieve methode om een kunstadapter te leren met slechts enkele voorbeelden van geselecteerde artistieke stijlen. Onze experimenten tonen aan dat kunst die is gegenereerd met onze methode door gebruikers wordt ervaren als vergelijkbaar met kunst die is geproduceerd door modellen die zijn getraind op grote, kunstrijke datasets. Tenslotte illustreren we door middel van gegevensattributietechnieken hoe voorbeelden uit zowel artistieke als niet-artistieke datasets hebben bijgedragen aan de creatie van nieuwe artistieke stijlen.

VisOnlyQA: Grote visie-taalmodellen hebben nog steeds moeite met de visuele perceptie van geometrische informatie.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1

ByRyo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

Fouten in het begrijpen van visuele informatie in afbeeldingen (d.w.z. visuele perceptiefouten) blijven een belangrijke bron van fouten in Grote Vision Language Modellen (GVLM's). Hoewel verder onderzoek essentieel is, is er een tekort aan datasets voor het evalueren van de visuele perceptie van GVLM's. In dit werk introduceren we VisOnlyQA, een nieuwe dataset die is ontworpen om de visuele perceptiecapaciteiten van GVLM's rechtstreeks te evalueren aan de hand van vragen over geometrische en numerieke informatie in wetenschappelijke figuren. Onze dataset stelt ons in staat om de visuele perceptie van GVLM's te analyseren voor gedetailleerde visuele informatie, onafhankelijk van andere capaciteiten zoals redeneren. De evaluatieset van VisOnlyQA bevat 1.200 meerkeuzevragen in 12 taken over vier categorieën figuren. We bieden ook synthetische trainingsgegevens bestaande uit 70k instanties. Onze experimenten met VisOnlyQA benadrukken de volgende bevindingen: (i) 20 GVLM's die we evalueren, waaronder GPT-4o en Gemini 1.5 Pro, presteren slecht op de visuele perceptietaken in VisOnlyQA, terwijl de menselijke prestatie bijna perfect is. (ii) Fijnafstemming op synthetische trainingsgegevens toont het potentieel aan voor het verbeteren van de visuele perceptie van GVLM's, maar waargenomen verbeteringen zijn beperkt tot bepaalde taken en specifieke modellen. (iii) Sterkere taalmodellen verbeteren de visuele perceptie van GVLM's. Samengevat suggereren onze experimenten dat zowel trainingsgegevens als modelarchitecturen verbeterd moeten worden om de visuele perceptiecapaciteiten van GVLM's te verbeteren. De datasets, code en modelreacties zijn beschikbaar op https://github.com/psunlpgroup/VisOnlyQA.

Een Eenvoudige en Bewijsbare Schalingswet voor de Rekenkracht bij het Testen van Grote Taalmodellen
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29

ByYanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

We stellen een algemeen tweestapsalgoritme voor dat profiteert van een aantoonbare schaalwet voor de rekentijd van grote taalmodellen (TMs) tijdens het testen. Bij een invoerprobleem genereert het voorgestelde algoritme eerst N kandidaatoplossingen en kiest vervolgens de beste via een knock-outtoernooi in meerdere rondes waarbij elk paar kandidaten K keer wordt vergeleken en alleen de winnaars doorgaan naar de volgende ronde. In een minimalistische implementatie kunnen beide stappen worden uitgevoerd met alleen een black-box TM en niets anders (bijv. geen externe verifier of beloningsmodel), en is in totaal N keer (K + 1) sterk parallelle TM-oproepen nodig om een invoerprobleem op te lossen. Als wordt aangenomen dat een gegenereerde kandidaatoplossing correct is met een waarschijnlijkheid p_{gen} > 0 en een vergelijking tussen een paar correcte en incorrecte oplossingen de juiste winnaar identificeert met een waarschijnlijkheid p_{comp} > 0.5 (d.w.z. beter dan een willekeurige gok), dan bewijzen we theoretisch dat de faalkans van het voorgestelde algoritme exponentieel afneemt met betrekking tot N en K: $P(eindresultaat is onjuist) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Onze empirische resultaten met de uitdagende MMLU-Pro benchmark bevestigen de technische aannames, evenals de doeltreffendheid van het voorgestelde algoritme en de voordelen van het opschalen van de rekentijd tijdens het testen.

PhysGame: Het blootleggen van fysieke gezond verstand schendingen in gameplay video's
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2

ByMeng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Recente ontwikkelingen in op video gebaseerde grote taalmodellen (Video LLM's) hebben de opkomst gezien van diverse mogelijkheden om dynamische visuele inhoud te redeneren en interpreteren. Onder hen vallen gameplayvideo's op als een onderscheidende gegevensbron, vaak met glitches die de natuurkundige gezond verstand tarten. Deze eigenschap maakt ze een effectieve benchmark voor het beoordelen van de onderbelichte mogelijkheid van begrip van natuurkundig gezond verstand in video LLM's. In dit artikel stellen we PhysGame voor als een baanbrekende benchmark om fysieke gezond verstandsschendingen in gameplayvideo's te evalueren. PhysGame bestaat uit 880 video's met glitches die vier fundamentele domeinen bestrijken (mechanica, kinematica, optica en materiaaleigenschappen) en twaalf verschillende fysieke gezond verstandssituaties. Uitgebreide evaluaties van verschillende state-of-the-art video LLM's tonen aan dat de prestaties van huidige open-source video LLM's aanzienlijk achterblijven bij die van eigen tegenhangers. Om deze kloof te overbruggen, stellen we een instructietuningdataset PhysInstruct samen met 140.057 vraag-antwoordparen om het leren van fysiek gezond verstand te vergemakkelijken. Daarnaast stellen we ook een voorkeurs optimalisatiedataset PhysDPO voor met 34.358 trainingsparen, waarbij de niet-geprefereerde antwoorden worden gegenereerd op basis van misleidende titels (d.w.z. metainformatie manipulatie), minder frames (d.w.z. tijdelijke manipulatie) en lagere ruimtelijke resoluties (d.w.z. ruimtelijke manipulatie). Op basis van de reeks datasets stellen we PhysVLM voor als een fysiek kennisversterkt video LLM. Uitgebreide experimenten op zowel het fysiek georiënteerde benchmark PhysGame als algemene video begripsbenchmarks tonen de state-of-the-art prestaties van PhysVLM aan.

Samenwerkende instantienavigatie: Het benutten van agent zelfdialogen om gebruikersinvoer te minimaliseren.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2

ByFrancesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

Bestaande taken voor doelgerichte navigatie van geïncarneerde instanties, aangestuurd door natuurlijke taal, gaan ervan uit dat menselijke gebruikers volledige en genuanceerde instantiebeschrijvingen verstrekken vóór de navigatie, wat in de echte wereld onpraktisch kan zijn omdat menselijke instructies beknopt en ambigu kunnen zijn. Om deze kloof te overbruggen, stellen we een nieuwe taak voor, Collaboratieve Instantienavigatie (CoIN), met dynamische agent-mensinteractie tijdens de navigatie om actief onzekerheden over de doelinstantie op te lossen in natuurlijke, sjabloonvrije, open dialogen. Om CoIN aan te pakken, stellen we een nieuw method voor, Agent-gebruiker Interactie met Onzekerheidsbewustzijn (AIUTA), waarbij gebruik wordt gemaakt van de perceptievermogen van Vision Language Modellen (VLM's) en de capaciteit van Grote Taalmodellen (LLM's). Allereerst initieert een Zelfvragend model bij objectdetectie een zelfdialog om een volledige en nauwkeurige observatiebeschrijving te verkrijgen, terwijl een nieuwe onzekerheidsschattingstechniek onnauwkeurige VLM-perceptie vermindert. Vervolgens bepaalt een Interactietriggermodule of er een vraag aan de gebruiker moet worden gesteld, de navigatie moet worden voortgezet of gestopt, waarbij de gebruikersinvoer wordt geminimaliseerd. Voor evaluatie introduceren we CoIN-Bench, een benchmark die zowel echte als gesimuleerde mensen ondersteunt. AIUTA behaalt een concurrerende prestatie in instantienavigatie tegenover methoden van de laatste stand van de techniek, waarbij het een grote flexibiliteit toont in het omgaan met gebruikersinvoer.

AMO Sampler: Verbeteren van Tekstweergave met Overshoot
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28

ByXixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

Het nauwkeurig afstemmen van tekstuele instructies en gegenereerde afbeeldingen in tekst-naar-afbeelding generatie is een aanzienlijke uitdaging, vooral bij het weergeven van geschreven tekst binnen afbeeldingen. State-of-the-art modellen zoals Stable Diffusion 3 (SD3), Flux en AuraFlow hebben nog steeds moeite met nauwkeurige tekstweergave, wat resulteert in verkeerd gespelde of inconsistente tekst. We introduceren een trainingsvrije methode met minimale computationele overhead die aanzienlijk de kwaliteit van tekstweergave verbetert. Specifiek introduceren we een overshooting sampler voor vooraf getrainde rectified flow (RF) modellen, door af te wisselen tussen het oversimuleren van de geleerde gewone differentiaalvergelijking (ODE) en het opnieuw introduceren van ruis. In vergelijking met de Euler sampler, introduceert de overshooting sampler effectief een extra Langevin dynamica term die kan helpen bij het corrigeren van de opeenhopende fouten van opeenvolgende Euler-stappen en daardoor de tekstweergave verbetert. Echter, wanneer de overshooting kracht hoog is, observeren we overmatig vloeiende artefacten op de gegenereerde afbeeldingen. Om dit probleem aan te pakken, stellen we een Attention Modulated Overshooting sampler (AMO) voor, die adaptief de kracht van overshooting voor elk afbeeldingspatch regelt op basis van hun aandachtsscore met de tekstinhoud. AMO toont een verbetering van 32,3% en 35,9% in nauwkeurigheid van tekstweergave op SD3 en Flux zonder de algehele beeldkwaliteit in gevaar te brengen of de inferentiekosten te verhogen.

Wereld-consistente videodiffusie met expliciete 3D-modellering
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2

ByQihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Recente ontwikkelingen in diffusiemodellen hebben nieuwe maatstaven gezet op het gebied van beeld- en videogeneratie, waardoor realistische visuele synthese mogelijk is geworden in zowel enkelvoudige als meervoudige contexten. Echter, deze modellen hebben nog steeds moeite met het efficiënt en expliciet genereren van 3D-consistente inhoud. Om dit aan te pakken, stellen wij World-consistent Video Diffusion (WVD) voor, een nieuw raamwerk dat expliciete 3D-begeleiding integreert door middel van XYZ-beelden, die globale 3D-coördinaten coderen voor elk beeldpixel. Meer specifiek trainen we een diffusietransformator om de gezamenlijke verdeling van RGB- en XYZ-frames te leren. Deze aanpak ondersteunt multi-taak aanpasbaarheid via een flexibele inpaintingstrategie. Bijvoorbeeld kan WVD XYZ-frames schatten vanuit grondwaarheid RGB of nieuwe RGB-frames genereren met behulp van XYZ-projecties langs een gespecificeerde cameratraject. Op deze manier verenigt WVD taken zoals enkelvoudige-beeld-naar-3D-generatie, multi-view stereo en camera-gecontroleerde videogeneratie. Onze aanpak toont een competitieve prestatie op meerdere maatstaven, en biedt een schaalbare oplossing voor 3D-consistente video- en beeldgeneratie met een enkel voorgeleerd model.

Het verkennen van de mogelijkheden van grote taalmodellen om proportionele analogieën op te lossen via kennisversterkte prompting.
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1

ByThilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

Het maken van analogieën is fundamenteel voor cognitie. Proportionele analogieën, die bestaan uit vier termen, worden vaak gebruikt om linguïstische en cognitieve vaardigheden te beoordelen. Bijvoorbeeld, het invullen van analogieën zoals "Zuurstof is tot Gas als <blanco> is tot <blanco>" vereist het identificeren van de semantische relatie (bijv. "soort") tussen het eerste paar termen ("Zuurstof" en "Gas") en het vinden van een tweede paar dat dezelfde relatie deelt (bijv. "Aluminium" en "Metaal"). In dit werk introduceren we een 15K Multiple-Choice Question Answering (MCQA) dataset voor het voltooien van proportionele analogieën en evalueren we de prestaties van hedendaagse Grote Taalmodellen (LLM's) in verschillende op kennis verrijkte prompt-instellingen. Specifiek verrijken we prompts met drie soorten kennis: voorbeeld, gestructureerd en gericht. Onze resultaten tonen aan dat ondanks uitgebreide trainingsgegevens, het oplossen van proportionele analogieën uitdagend blijft voor huidige LLM's, waarbij het beste model een nauwkeurigheid van 55% behaalt. Opmerkelijk is dat we vinden dat het verstrekken van gerichte kennis modellen beter kan helpen bij het voltooien van proportionele analogieën in vergelijking met het verstrekken van voorbeelden of verzamelingen van gestructureerde kennis.

HUGSIM: Een real-time, fotorealistische en gesloten-lus simulator voor autonoom rijden.
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2

ByHongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

In de afgelopen decennia hebben autonome rijalgoritmes aanzienlijke vooruitgang geboekt op het gebied van perceptie, planning en controle. Echter, het evalueren van individuele componenten weerspiegelt niet volledig de prestaties van hele systemen, wat de noodzaak benadrukt voor meer holistische beoordelingsmethoden. Dit motiveert de ontwikkeling van HUGSIM, een gesloten-lus, fotorealistische en real-time simulator voor het evalueren van autonome rijalgoritmes. Dit wordt bereikt door 2D RGB-beelden om te zetten naar de 3D-ruimte via 3D Gaussian Splatting, wat de renderkwaliteit verbetert voor gesloten-lus scenario's, en door het bouwen van de gesloten-lus omgeving. Wat betreft rendering, pakken we uitdagingen aan van nieuwe weergavesynthese in gesloten-lus scenario's, inclusief gezichtspuntextrapolatie en 360-graden voertuigrendering. Naast nieuwe weergavesynthese maakt HUGSIM verder de volledige gesloten simulatielus mogelijk, waarbij de ego- en actortoestanden en -waarnemingen dynamisch worden bijgewerkt op basis van besturingsopdrachten. Bovendien biedt HUGSIM een uitgebreide benchmark over meer dan 70 sequenties van KITTI-360, Waymo, nuScenes en PandaSet, samen met meer dan 400 variërende scenario's, wat een eerlijk en realistisch evaluatieplatform biedt voor bestaande autonome rijalgoritmes. HUGSIM dient niet alleen als een intuïtieve evaluatiebenchmark, maar ontsluit ook het potentieel voor het verfijnen van autonome rijalgoritmes in een fotorealistische gesloten-lus omgeving.

Naar Cross-Lingual Audio Misbruikdetectie in Omgevingen met Weinig Middelen met Few-Shot Leren
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2

ByAditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

Het detecteren van online misbruikende inhoud, met name in omgevingen met beperkte middelen en binnen de audio-modaliteit, blijft onderbelicht. We onderzoeken het potentieel van vooraf getrainde audiorepresentaties voor het detecteren van misbruikende taal in talen met beperkte middelen, in dit geval in Indiase talen met behulp van Few Shot Learning (FSL). Door gebruik te maken van krachtige representaties van modellen zoals Wav2Vec en Whisper, verkennen we cross-linguale misbruikdetectie met behulp van de ADIMA-dataset met FSL. Onze aanpak integreert deze representaties binnen het Model-Agnostic Meta-Learning (MAML) kader om misbruikende taal te classificeren in 10 talen. We experimenteren met verschillende shot-groottes (50-200) en evalueren de impact van beperkte gegevens op de prestaties. Daarnaast werd een studie naar feature visualisatie uitgevoerd om het gedrag van het model beter te begrijpen. Deze studie benadrukt het generalisatievermogen van vooraf getrainde modellen in omgevingen met beperkte middelen en biedt waardevolle inzichten in het detecteren van misbruikende taal in meertalige contexten.

Het verbeteren van de robuustheid van spreker verificatie met synthetische emotionele uitingen.
Improving speaker verification robustness with synthetic emotional utterances

Nov 30

ByNikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke

Een spreker verificatie (SV) systeem biedt een authenticatiedienst die is ontworpen om te bevestigen of een gegeven spraakvoorbeeld afkomstig is van een specifieke spreker. Deze technologie heeft de weg vrijgemaakt voor diverse gepersonaliseerde toepassingen die aansluiten bij individuele voorkeuren. Een opmerkelijke uitdaging waarmee SV-systemen worden geconfronteerd, is hun vermogen om consistent te presteren over een scala van emotionele spectra. De meeste bestaande modellen vertonen hoge foutenpercentages bij het omgaan met emotionele uitingen in vergelijking met neutrale. Als gevolg hiervan leidt dit fenomeen vaak tot het missen van spraak van interesse. Dit probleem komt voornamelijk voort uit de beperkte beschikbaarheid van gelabelde emotionele spraakgegevens, wat de ontwikkeling van robuuste sprekerrepresentaties die diverse emotionele toestanden omvatten, belemmert. Om deze zorg aan te pakken, stellen we een nieuw benadering voor waarbij het CycleGAN-framework wordt gebruikt als een methode voor gegevensvermeerdering. Deze techniek synthetiseert emotionele spraaksegmenten voor elke specifieke spreker, terwijl de unieke vocale identiteit behouden blijft. Onze experimentele bevindingen benadrukken de effectiviteit van het opnemen van synthetische emotionele gegevens in het trainingsproces. De modellen die zijn getraind met behulp van deze vermeerderde dataset presteren consequent beter dan de basismodellen bij de taak van het verifiëren van sprekers in emotionele spraaksituaties, waarbij de gelijke foutenmarge met wel 3,64% relatief wordt verlaagd.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

X-Prompt: Naar Universele In-Context Beeldgeneratie in Auto-Regressieve Vision Language Foundation Modellen
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2

ByZeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

DRIJVEN: Generatieve Bewegings Latente Stroom Overeenkomst voor Audio-gestuurde Sprekende Portretten
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2

ByTaekyung Ki, Dongchan Min, Gyoungsu Chae

o1-Coder: een o1-replicatie voor codering
o1-Coder: an o1 Replication for Coding

Nov 29

ByYuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

Switti: Het ontwerpen van Schaal-Wijze Transformers voor Tekst-naar-Afbeelding Synthese
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2

ByAnton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

Open-Sora Plan: Open-Source Groot Video Generatiemodel
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28

VISTA: Verbetering van langetermijn- en hoge-resolutie videobegrip door video-spatiotemporale augmentatie.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1

ByWeiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

De Put: een grootschalige verzameling van diverse natuurkundige simulaties voor Machine Learning.
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30

SOLAMI: Sociale Visie-Taal-Actie Modellering voor Meeslepende Interactie met 3D Autonome Karakters
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29

ByJianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27

ByJinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

GATE OpenING: Een uitgebreide benchmark voor het beoordelen van open-ended interleaved beeld-tekst generatie.
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27

Efficiënt Volg Alles
Efficient Track Anything

Nov 28

Sturen van gecorrigeerde stroommodellen in het vectorveld voor gecontroleerde beeldgeneratie
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27

ByMaitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

Het evalueren van meertalig taalbegrip met regionale kennis
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29

VLsI: Verbaal Gelaagd-naar-Interacties van Groot naar Klein Visie Taalmodellen
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2

ByByung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

TinyFusion: Ondiepe Diffusie Transformers Aangeleerd
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2

ByGongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

WF-VAE: Verbetering van Video VAE door Wavelet-Gestuurde Energieflow voor Latent Video Diffusie Model
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26

ByZongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2

ByXin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

VLSBench: Het blootleggen van visuele lekken in multimodale veiligheid
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29

ByXuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

Kunstvrije generatieve modellen: Kunstcreatie zonder kennis van grafische kunst
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29

ByHui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

VisOnlyQA: Grote visie-taalmodellen hebben nog steeds moeite met de visuele perceptie van geometrische informatie.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1

ByRyo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

Een Eenvoudige en Bewijsbare Schalingswet voor de Rekenkracht bij het Testen van Grote Taalmodellen
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29

ByYanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

PhysGame: Het blootleggen van fysieke gezond verstand schendingen in gameplay video's
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2

ByMeng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Samenwerkende instantienavigatie: Het benutten van agent zelfdialogen om gebruikersinvoer te minimaliseren.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2

ByFrancesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

AMO Sampler: Verbeteren van Tekstweergave met Overshoot
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28

ByXixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

Wereld-consistente videodiffusie met expliciete 3D-modellering
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2

ByQihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Het verkennen van de mogelijkheden van grote taalmodellen om proportionele analogieën op te lossen via kennisversterkte prompting.
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1

ByThilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

HUGSIM: Een real-time, fotorealistische en gesloten-lus simulator voor autonoom rijden.
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2

ByHongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

Naar Cross-Lingual Audio Misbruikdetectie in Omgevingen met Weinig Middelen met Few-Shot Leren
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2

ByAditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

Het verbeteren van de robuustheid van spreker verificatie met synthetische emotionele uitingen.
Improving speaker verification robustness with synthetic emotional utterances

Nov 30

ByNikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke