ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

STIV: Schaalbare Video Generatie Geconditioneerd door Tekst en Afbeeldingen
STIV: Scalable Text and Image Conditioned Video Generation

Dec 10
ByZongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
74
2

Het domein van videogeneratie heeft opmerkelijke vooruitgang geboekt, maar er blijft een dringende behoefte aan een duidelijk, systematisch recept dat de ontwikkeling van robuuste en schaalbare modellen kan sturen. In dit werk presenteren we een uitgebreide studie die systematisch de wisselwerking van modelarchitecturen, trainingsrecepten en datacuratiestrategieën verkent, resulterend in een eenvoudige en schaalbare methode voor het genereren van video's onder voorwaarde van tekst en afbeelding, genaamd STIV. Ons raamwerk integreert afbeeldingsconditie in een Diffusion Transformer (DiT) via framevervanging, terwijl het tekstconditie opneemt via een gezamenlijke afbeelding-tekst conditionele classifier-vrije begeleiding. Deze ontwerp maakt het mogelijk dat STIV zowel tekst-naar-video (T2V) als tekst-afbeelding-naar-video (TI2V) taken gelijktijdig uitvoert. Bovendien kan STIV eenvoudig worden uitgebreid naar verschillende toepassingen, zoals videovoorspelling, frame-interpolatie, generatie van meerdere aanzichten en lange videogeneratie, enzovoort. Met uitgebreide ablatiestudies op T2I, T2V en TI2V toont STIV sterke prestaties, ondanks zijn eenvoudige ontwerp. Een 8,7B-model met een resolutie van 512 behaalt 83,1 op VBench T2V, wat zowel toonaangevende open als gesloten modellen zoals CogVideoX-5B, Pika, Kling en Gen-3 overtreft. Hetzelfde formaat model behaalt ook een state-of-the-art resultaat van 90,1 op de VBench I2V-taak bij een resolutie van 512. Door een transparant en uitbreidbaar recept te bieden voor het bouwen van geavanceerde videogeneratiemodellen, streven we ernaar om toekomstig onderzoek te versterken en vooruitgang te versnellen naar meer veelzijdige en betrouwbare oplossingen voor videogeneratie.

2

Het evalueren en afstemmen van CodeLLMs op menselijke voorkeur
Evaluating and Aligning CodeLLMs on Human Preference

Dec 6
ByJian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin
50
2

Grote taalmodellen voor code (codeLLMs) hebben aanzienlijke vooruitgang geboekt in codegeneratie. De meeste eerdere codegerelateerde benchmarks, die bestaan uit verschillende programmeeroefeningen samen met de bijbehorende testcases, worden gebruikt als een gangbare maatstaf om de prestaties en mogelijkheden van codeLLMs te evalueren. Echter, de huidige codeLLMs richten zich op het synthetiseren van de juiste codefragment, waarbij de afstemming met menselijke voorkeuren wordt genegeerd, waarbij de query moet worden gesampled uit praktijkscenario's en de door het model gegenereerde antwoorden aan de menselijke voorkeur moeten voldoen. Om de kloof tussen het door het model gegenereerde antwoord en de menselijke voorkeur te overbruggen, presenteren we een strikt door mensen samengestelde benchmark CodeArena om de complexiteit en diversiteit van real-world coderingstaken na te bootsen, waarbij 397 hoogwaardige voorbeelden die 40 categorieën en 44 programmeertalen bestrijken zorgvuldig zijn samengesteld uit gebruikersquery's. Verder stellen we een divers synthetisch instructiecorpus SynCode-Instruct voor (bijna 20B tokens) door instructies van de website te schalen om de effectiviteit van het fijnafstemmen van grootschalige synthetische instructies te verifiëren, waarbij Qwen2.5-SynCoder volledig getraind op synthetische instructiedata topklasse prestaties van open-source codeLLMs kan behalen. De resultaten tonen prestatieverschillen tussen uitvoeringsgebaseerde benchmarks en CodeArena. Onze systematische experimenten met CodeArena op 40+ LLMs onthullen een opmerkelijke prestatiekloof tussen open SOTA-codeLLMs (bijv. Qwen2.5-Coder) en eigen LLMs (bijv. OpenAI o1), waarbij het belang van de afstemming op menselijke voorkeur wordt benadrukt.

3

DiffSensei: Het verbinden van Multi-Modale LLM's en Diffusie Modellen voor Aangepaste Manga Generatie
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Dec 10
ByJianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong
48
4

Het visualiseren van verhalen, de taak om visuele vertellingen te creëren vanuit tekstuele beschrijvingen, heeft vooruitgang geboekt met modellen voor tekst-naar-afbeelding generatie. Echter, deze modellen missen vaak effectieve controle over karakter verschijningen en interacties, met name in scènes met meerdere karakters. Om deze beperkingen aan te pakken, stellen we een nieuwe taak voor: aangepaste manga generatie, en introduceren we DiffSensei, een innovatief framework specifiek ontworpen voor het genereren van manga met dynamische multi-karakter controle. DiffSensei integreert een op diffusie gebaseerde beeldgenerator met een multimodaal groot taalmodel (MLLM) dat fungeert als een tekst-compatibele identiteitsadapter. Onze aanpak maakt gebruik van gemaskerde kruislingse aandacht om karaktereigenschappen naadloos op te nemen, waardoor nauwkeurige lay-out controle mogelijk is zonder directe pixeloverdracht. Daarnaast past de op MLLM gebaseerde adapter karaktereigenschappen aan om in lijn te zijn met paneel-specifieke tekstaanwijzingen, waardoor flexibele aanpassingen in karakteruitdrukkingen, poses en acties mogelijk zijn. We introduceren ook MangaZero, een grootschalige dataset op maat gemaakt voor deze taak, met 43.264 manga pagina's en 427.147 geannoteerde panelen, ter ondersteuning van de visualisatie van gevarieerde karakterinteracties en bewegingen over opeenvolgende frames. Uitgebreide experimenten tonen aan dat DiffSensei bestaande modellen overtreft, wat een significante vooruitgang markeert in manga generatie door tekst-aanpasbare karakteraanpassingen mogelijk te maken. De projectpagina is https://jianzongwu.github.io/projects/diffsensei/.

4

Verborgen in het Lawaai: Robuuste Watermerktechniek in Twee Stappen voor Afbeeldingen
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Dec 5
ByKasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen
31
2

Naarmate de kwaliteit van beeldgeneratoren blijft verbeteren, worden deepfakes een onderwerp van aanzienlijk maatschappelijk debat. Beeldwatermerken stellen verantwoordelijke modelbezitters in staat om hun door AI gegenereerde inhoud te detecteren en te labelen, wat de schade kan beperken. Toch blijven de huidige state-of-the-art methoden voor beeldwatermerken kwetsbaar voor vervalsing en verwijderingsaanvallen. Deze kwetsbaarheid treedt deels op doordat watermerken de distributie van gegenereerde beelden verstoren en onbedoeld informatie onthullen over de watermerktechnieken. In dit werk demonstreren we eerst een methode voor beeldwatermerken zonder vervorming, gebaseerd op het oorspronkelijke ruis van een diffusiemodel. Het detecteren van het watermerk vereist echter het vergelijken van de oorspronkelijke ruis die gereconstrueerd is voor een afbeelding met alle eerder gebruikte oorspronkelijke ruis. Om deze problemen te beperken, stellen we een tweefasen-watermerkframework voor voor efficiënte detectie. Tijdens de generatie verrijken we de oorspronkelijke ruis met gegenereerde Fourier-patronen om informatie in te sluiten over de groep oorspronkelijke ruis die we hebben gebruikt. Voor de detectie halen we (i) de relevante groep ruis op en (ii) zoeken binnen de gegeven groep naar een oorspronkelijke ruis die overeenkomt met onze afbeelding. Deze watermerkaanpak bereikt state-of-the-art robuustheid tegen vervalsing en verwijdering tegen een groot aantal aanvallen.

5

ACDiT: Interpoleren van autoregressieve conditionele modellering en diffusie-transformator
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Dec 10
ByJinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
31
2

De recente toename van interesse in uitgebreide multimodale modellen heeft de noodzaak van de vereniging van diverse modaliteiten met zich meegebracht. Echter, de vereniging lijdt onder uiteenlopende methodologieën. Continue visuele generatie vereist de benadering op basis van volledige sequentiediffusie, ondanks de afwijking van de autoregressieve modellering in het tekst domein. Wij stellen dat autoregressieve modellering, d.w.z. het voorspellen van de toekomst op basis van deterministische ervaring uit het verleden, cruciaal blijft bij het ontwikkelen van zowel een visueel generatiemodel als een potentieel verenigd multimodaal model. In dit artikel verkennen we een interpolatie tussen de autoregressieve modellering en volledige-parameters diffusie om visuele informatie te modelleren. In de kern presenteren we ACDiT, een Autoregressief bloksgewijs Conditioneel Diffusie Transformer, waarbij de blokgrootte van diffusie, d.w.z. de grootte van autoregressieve eenheden, flexibel kan worden aangepast om te interpoleren tussen token-gebaseerde autoregressie en volledige-sequentiediffusie. ACDiT is eenvoudig te implementeren, zo simpel als het creëren van een Skip-Causale Aandachtsmasker (SCAM) tijdens training. Tijdens inferentie doorloopt het proces tussen diffusie denoising en autoregressieve decodering die volledig gebruik kan maken van KV-Cache. We bevestigen de effectiviteit van ACDiT bij beeld- en videogeneratietaken. We tonen ook aan dat ACDiT, dankzij autoregressieve modellering, naadloos kan worden gebruikt in visuele begripstaken ondanks dat het is getraind op het diffusiedoel. De analyse van de afweging tussen autoregressieve modellering en diffusie toont het potentieel van ACDiT aan om te worden gebruikt in visuele generatietaken met een lange horizon. Deze sterke punten maken het veelbelovend als de ruggengraat van toekomstige verenigde modellen.

6

UniReal: Universele beeldgeneratie en -bewerking via het leren van real-world dynamica.
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Dec 10
ByXi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
30
4

We introduceren UniReal, een verenigd raamwerk dat is ontworpen om verschillende taken voor beeldgeneratie en -bewerking aan te pakken. Bestaande oplossingen verschillen vaak per taak, maar delen fundamentele principes: het behouden van consistentie tussen invoer en uitvoer terwijl visuele variaties worden vastgelegd. Geïnspireerd door recente modellen voor videogeneratie die effectief balans vinden tussen consistentie en variatie over frames, stellen we een verenigende aanpak voor die beeldniveau taken behandelt als discontinu video generatie. Specifiek behandelen we variabele aantallen invoer- en uitvoerbeelden als frames, waardoor naadloze ondersteuning mogelijk is voor taken zoals beeldgeneratie, bewerking, aanpassing, compositie, enz. Hoewel ontworpen voor beeldniveau taken, maken we gebruik van video's als een schaalbare bron voor universele supervisie. UniReal leert wereld dynamica van grootschalige video's, waarbij geavanceerde mogelijkheden worden gedemonstreerd in het omgaan met schaduwen, reflecties, pose variatie en objectinteractie, terwijl ook opkomende mogelijkheden worden getoond voor nieuwe toepassingen.

7

FiVA: Fijnmazige Visuele Attribuut Dataset voor Tekst-naar-Afbeelding Diffusie Modellen
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Dec 10
ByTong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein
20
2

Recente ontwikkelingen in tekst-naar-afbeelding generatie hebben het mogelijk gemaakt om hoogwaardige afbeeldingen te creëren met diverse toepassingen. Het nauwkeurig beschrijven van gewenste visuele kenmerken kan echter uitdagend zijn, vooral voor niet-experts in kunst en fotografie. Een intuïtieve oplossing houdt in het overnemen van gunstige kenmerken van de bronafbeeldingen. Huidige methoden proberen identiteit en stijl te destilleren uit bronafbeeldingen. Echter, "stijl" is een breed concept dat texturen, kleuren en artistieke elementen omvat, maar niet andere belangrijke kenmerken zoals belichting en dynamiek. Bovendien voorkomt een vereenvoudigde "stijl" aanpassing het combineren van meerdere kenmerken van verschillende bronnen in één gegenereerde afbeelding. In dit werk formuleren we een effectievere benadering om de esthetiek van een afbeelding te ontleden in specifieke visuele kenmerken, waardoor gebruikers eigenschappen zoals belichting, textuur en dynamiek van verschillende afbeeldingen kunnen toepassen. Om dit doel te bereiken, hebben we naar ons beste weten het eerste fijnmazige visuele kenmerken dataset (FiVA) geconstrueerd. Deze FiVA dataset bevat een goed georganiseerde taxonomie voor visuele kenmerken en omvat ongeveer 1 miljoen hoogwaardige gegenereerde afbeeldingen met visuele attribuut annotaties. Door gebruik te maken van deze dataset, stellen we een fijnmazig visueel kenmerken aanpassingskader (FiVA-Adapter) voor, dat visuele kenmerken ontkoppelt en aanpast van één of meerdere bronafbeeldingen naar een gegenereerde afbeelding. Deze benadering verbetert de gebruiksvriendelijke aanpassing, waardoor gebruikers selectief gewenste kenmerken kunnen toepassen om afbeeldingen te creëren die voldoen aan hun unieke voorkeuren en specifieke inhoudseisen.

8

Mobiele videoverspreiding
Mobile Video Diffusion

Dec 10
ByHaitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian
20
2

Videodiffusiemodellen hebben indrukwekkend realisme en controleerbaarheid bereikt, maar worden beperkt door hoge rekenvereisten, waardoor hun gebruik op mobiele apparaten beperkt is. Dit artikel introduceert het eerste mobiel-geoptimaliseerde videodiffusiemodel. Vertrekkend van een spatio-temporele UNet van Stable Video Diffusion (SVD), verminderen we het geheugen- en rekenkosten door de frameresolutie te verlagen, multi-schaal temporele representaties op te nemen, en twee nieuwe snoeischema's te introduceren om het aantal kanalen en temporele blokken te verminderen. Bovendien passen we vijandige fine-tuning toe om het denoising tot een enkele stap te reduceren. Ons model, genaamd MobileVD, is 523x efficiënter (1817,2 vs. 4,34 TFLOPs) met een lichte kwaliteitsdaling (FVD 149 vs. 171), waarbij latenties worden gegenereerd voor een 14x512x256 px clip in 1,7 seconden op een Xiaomi-14 Pro. Onze resultaten zijn beschikbaar op https://qualcomm-ai-research.github.io/mobile-video-diffusion/

9

Granieten Bewaker
Granite Guardian

Dec 10
ByInkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
18
2

We introduceren de Granite Guardian modellen, een reeks beveiligingsmaatregelen ontworpen om risicodetectie te bieden voor prompts en reacties, waardoor veilig en verantwoord gebruik in combinatie met elk groot taalmodel (LLM) mogelijk is. Deze modellen bieden uitgebreide dekking over meerdere risicodimensies, waaronder sociale vooringenomenheid, grof taalgebruik, geweld, seksuele inhoud, onethisch gedrag, jailbreaking, en hallucinatiegerelateerde risico's zoals contextrelevantie, gegrondheid, en antwoordrelevantie voor retrieval-augmented generation (RAG). Getraind op een unieke dataset die menselijke annotaties van diverse bronnen en synthetische data combineert, pakken de Granite Guardian modellen risico's aan die doorgaans over het hoofd worden gezien door traditionele risicodetectiemodellen, zoals jailbreaks en RAG-specifieke kwesties. Met AUC-scores van respectievelijk 0.871 en 0.854 op schadelijke inhoud en RAG-hallucinatiegerelateerde benchmarks, is Granite Guardian het meest generaliseerbare en competitieve model dat beschikbaar is in deze ruimte. Vrijgegeven als open-source, heeft Granite Guardian als doel verantwoorde AI-ontwikkeling binnen de gemeenschap te bevorderen.

10

3DTrajMaster: Het beheersen van 3D-trajectorieën voor beweging van meerdere entiteiten in video-generatie
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Dec 10
ByXiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
18
2

Deze paper heeft als doel om multi-entity 3D-bewegingen te manipuleren in videogeneratie. Vorige methoden voor controleerbare videogeneratie maken voornamelijk gebruik van 2D-besturingssignalen om objectbewegingen te manipuleren en hebben opmerkelijke syntheseresultaten behaald. Echter, 2D-besturingssignalen zijn inherent beperkt in het uitdrukken van de 3D-aard van objectbewegingen. Om dit probleem te overwinnen, introduceren we 3DTrajMaster, een robuuste controller die multi-entity dynamica in 3D-ruimte reguleert, gegeven door de gebruiker gewenste 6DoF-houding (locatie en rotatie) sequenties van entiteiten. In de kern van onze aanpak bevindt zich een plug-and-play 3D-bewegingsgebaseerde objectinjector die meerdere invoerentiteiten samenvoegt met hun respectievelijke 3D-trajecten door middel van een poortgestuurde zelfaandachtsmechanisme. Bovendien benutten we een injectorarchitectuur om de videodiffusie vooraf te behouden, wat cruciaal is voor de generalisatiecapaciteit. Om de degradatie van videokwaliteit te verminderen, introduceren we een domeinadapter tijdens training en gebruiken we een aangepaste bemonsteringsstrategie tijdens inferentie. Om het gebrek aan geschikte trainingsgegevens aan te pakken, construeren we een 360-Motion Dataset, die eerst verzamelde 3D-menselijke en dierlijke assets correleert met door GPT gegenereerde trajecten en vervolgens hun beweging vastlegt met 12 gelijkmatig omringende camera's op diverse 3D UE-platforms. Uitgebreide experimenten tonen aan dat 3DTrajMaster een nieuwe state-of-the-art neerzet op zowel nauwkeurigheid als generalisatie voor het regelen van multi-entity 3D-bewegingen. Projectpagina: http://fuxiao0719.github.io/projects/3dtrajmaster

11

MoViE: Mobiele Verspreiding voor Videobewerking
MoViE: Mobile Diffusion for Video Editing

Dec 9
ByAdil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian
18
2

Recente vooruitgang in diffusie-gebaseerde videobewerking heeft opmerkelijk potentieel getoond voor praktische toepassingen. Echter, deze methoden blijven kostbaar en uitdagend om te implementeren op mobiele apparaten. In dit onderzoek introduceren we een reeks optimalisaties die mobiele videobewerking haalbaar maken. Voortbouwend op het bestaande beeldbewerkingsmodel optimaliseren we eerst de architectuur en voegen een lichtgewicht auto-encoder toe. Vervolgens breiden we de classifier-vrije begeleidingsdestillatie uit naar meerdere modaliteiten, resulterend in een drievoudige versnelling op het apparaat. Ten slotte verminderen we het aantal bemonsteringsstappen tot één door een nieuw adversariaal destillatieschema te introduceren dat de controleerbaarheid van het bewerkingsproces behoudt. Samen maken deze optimalisaties videobewerking mogelijk met 12 frames per seconde op mobiele apparaten, met behoud van hoge kwaliteit. Onze resultaten zijn beschikbaar op https://qualcomm-ai-research.github.io/mobile-video-editing/

12

Video Bewegingsoverdracht met Diffusie Transformers
Video Motion Transfer with Diffusion Transformers

Dec 10
ByAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
17
4

Wij stellen DiTFlow voor, een methode voor het overbrengen van de beweging van een referentievideo naar een nieuw gesynthetiseerde video, specifiek ontworpen voor Diffusion Transformers (DiT). We verwerken eerst de referentievideo met een voorgeleerde DiT om cross-frame aandachtskaarten te analyseren en een patchgewijze bewegingssignaal genaamd de Aandachtsbewegingsstroom (AMF) te extraheren. We begeleiden het latente denoiseringsproces op basis van optimalisatie, zonder training, door latenten te optimaliseren met onze AMF-verliesfunctie om video's te genereren die de beweging van de referentievideo reproduceren. We passen onze optimalisatiestrategie ook toe op transformer positionele embeddings, wat ons een boost geeft in de mogelijkheden voor zero-shot bewegingsoverdracht. We evalueren DiTFlow ten opzichte van recent gepubliceerde methoden en presteren beter op meerdere metingen en menselijke evaluaties.

13

Perceptie Tokens Verbeteren Visuele Redenering in Multimodale Taalmodellen
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Dec 4
ByMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
17
2

Multimodale taalmodellen (MLM's) staan nog steeds voor uitdagingen bij fundamentele visuele perceptietaken waar gespecialiseerde modellen uitblinken. Taken die redenering over 3D-structuren vereisen, profiteren van diepteschatting, en redenering over 2D-objectinstanties profiteert van objectdetectie. Toch kunnen MLM's geen tussenliggende diepte of dozen produceren om over te redeneren. Het finetunen van MLM's op relevante gegevens generaliseert niet goed en het uitbesteden van berekeningen aan gespecialiseerde vision-tools is te rekenintensief en geheugeninefficiënt. Om dit aan te pakken, introduceren we Perceptie Tokens, intrinsieke beeldrepresentaties ontworpen om redeneertaken te ondersteunen waar taal ontoereikend is. Perceptie tokens fungeren als hulpredeneertokens, vergelijkbaar met keten-van-gedachtemotieven in taalmodellen. Bijvoorbeeld, in een diepte-gerelateerde taak kan een MLM aangevuld met perceptie tokens redeneren door een dieptekaart te genereren als tokens, waardoor het effectief het probleem kan oplossen. We stellen AURORA voor, een trainingsmethode die MLM's aanvult met perceptie tokens voor verbeterde redenering over visuele invoer. AURORA maakt gebruik van een VQVAE om tussenliggende beeldrepresentaties, zoals dieptekaarten, om te zetten in een getokeniseerd formaat en bounding box tokens, die vervolgens worden gebruikt in een multi-task trainingskader. AURORA behaalt opmerkelijke verbeteringen over telling benchmarks: +10.8% op BLINK, +11.3% op CVBench, en +8.3% op SEED-Bench, waarbij het finetuningbenaderingen overtreft in generalisatie over datasets. Het verbetert ook relatieve diepte: meer dan +6% op BLINK. Met perceptie tokens breidt AURORA de reikwijdte van MLM's uit voorbij op taal gebaseerde redenering, waardoor de weg wordt vrijgemaakt voor effectievere visuele redeneervaardigheden.

14

Hypothese van Frame Representatie: Interpretabiliteit van Multi-Token Taalmodel en Door Concept Gestuurde Tekstgeneratie
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Dec 10
ByPedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui
17
4

Interpreteerbaarheid is een belangrijke uitdaging bij het opbouwen van vertrouwen in Grote Taalmodellen (LLM's), die voortkomt uit de complexiteit van het extraheren van redeneringen uit de parameters van het model. We presenteren de Hypothese van Frame Representatie, een theoretisch robuust kader gebaseerd op de Lineaire Representatie Hypothese (LRH) om LLM's te interpreteren en te controleren door het modelleren van meertekenwoorden. Eerdere onderzoeken verkenden LRH om LLM-representaties te verbinden met linguïstische concepten, maar waren beperkt tot de analyse van enkelvoudige tokens. Aangezien de meeste woorden uit meerdere tokens bestaan, breiden we LRH uit naar meertekenwoorden, waardoor het gebruik mogelijk is op alle tekstuele gegevens met duizenden concepten. Hiertoe stellen we voor dat woorden geïnterpreteerd kunnen worden als frames, geordende sequenties van vectoren die de token-woordrelaties beter vastleggen. Vervolgens kunnen concepten worden voorgesteld als het gemiddelde van woordframes die een gemeenschappelijk concept delen. We demonstreren deze tools via Top-k Concept-Gestuurde Decodering, waarmee tekstgeneratie intuïtief kan worden gestuurd met de gekozen concepten. We verifiëren deze ideeën op de Llama 3.1, Gemma 2 en Phi 3 families, waarbij gender- en taalvooroordelen worden aangetoond, schadelijke inhoud wordt blootgelegd, maar ook het potentieel om ze te remediëren, wat leidt tot veiligere en transparantere LLM's. De code is beschikbaar op https://github.com/phvv-me/frame-representation-hypothesis.git

15

EMOv2: Het verleggen van de grenzen van 5M Vision Model
EMOv2: Pushing 5M Vision Model Frontier

Dec 9
ByJiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
13
2

Dit werk richt zich op het ontwikkelen van parameter-efficiënte en lichtgewicht modellen voor dichte voorspellingen, waarbij parameters, FLOPs en prestaties worden afgewogen. Ons doel is om de nieuwe grens van het lichtgewicht model van 5M magnitude in te stellen voor verschillende taken. Het Inverted Residual Block (IRB) dient als de infrastructuur voor lichtgewicht CNN's, maar er zijn geen tegenhangers erkend door op aandacht gebaseerd ontwerp. Ons werk heroverweegt de lichtgewicht infrastructuur van efficiënte IRB en praktische componenten in Transformer vanuit een verenigd perspectief, waarbij CNN-gebaseerde IRB wordt uitgebreid naar op aandacht gebaseerde modellen en een één-residuale Meta Mobile Block (MMBlock) wordt geabstraheerd voor het ontwerpen van lichtgewicht modellen. Met behulp van een net, maar effectief ontwerpcriterium, leiden we een modern Improved Inverted Residual Mobile Block (i2RMB) af en verbeteren we een hiërarchisch Efficiënt MOdel (EMOv2) zonder ingewikkelde complexe structuren. Met het oog op de onmerkbare latentie voor mobiele gebruikers bij het downloaden van modellen onder 4G/5G bandbreedte en het waarborgen van de modelprestaties, onderzoeken we de prestatiebovengrens van lichtgewicht modellen met een magnitude van 5M. Uitgebreide experimenten op verschillende visieherkenning, dichte voorspellings- en beeldgeneratietaken tonen de superioriteit van onze EMOv2 ten opzichte van state-of-the-art methoden aan, bijvoorbeeld EMOv2-1M/2M/5M behalen respectievelijk 72,3, 75,8 en 79,4 Top-1 die aanzienlijk beter zijn dan gelijkwaardige CNN-/op aandacht gebaseerde modellen. Tegelijkertijd behaalt EMOv2-5M uitgerust met RetinaNet 41,5 mAP voor objectherkenningstaken, wat de vorige EMO-5M met +2,6 overtreft. Bij het toepassen van het robuustere trainingsrecept behaalt onze EMOv2-5M uiteindelijk een nauwkeurigheid van 82,9 Top-1, waarmee de prestaties van 5M magnitude modellen naar een nieuw niveau worden getild. De code is beschikbaar op https://github.com/zhangzjn/EMOv2.

16

LoRA.rar: Het leren samenvoegen van LoRA's via Hypernetwerken voor Beeldgeneratie onderhevig aan Onderwerp-Stijl.
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Dec 6
ByDonald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
12
3

Recente ontwikkelingen in beeldgeneratiemodellen hebben gepersonaliseerde beeldcreatie mogelijk gemaakt met zowel door de gebruiker gedefinieerde onderwerpen (inhoud) als stijlen. Eerdere werken bereikten personalisatie door overeenkomstige lage-rangschikking aanpassingsparameters (LoRA's) samen te voegen via optimalisatiegebaseerde methoden, die rekenkundig veeleisend zijn en ongeschikt voor realtime gebruik op bronbeperkte apparaten zoals smartphones. Om dit aan te pakken, introduceren we LoRA.rar, een methode die niet alleen de beeldkwaliteit verbetert, maar ook een opmerkelijke versnelling van meer dan 4000 keer bereikt in het samenvoegingsproces. LoRA.rar traint een hypernetwerk voor op een divers set van inhoud-stijl LoRA-paren, waarbij een efficiënte samenvoegingsstrategie wordt geleerd die generaliseert naar nieuwe, ongeziene inhoud-stijl paren, waardoor snelle, hoogwaardige personalisatie mogelijk is. Bovendien identificeren we beperkingen in bestaande evaluatiemetrics voor inhoud-stijlkwaliteit en stellen we een nieuw protocol voor met behulp van multimodale grote taalmodellen (MLLM) voor een nauwkeurigere beoordeling. Onze methode presteert aanzienlijk beter dan de huidige stand van de techniek op zowel inhoud als stijlfideliteit, zoals bevestigd door MLLM-beoordelingen en menselijke evaluaties.

17

ILLUME: Het Verlichten van Jouw LLM's om te Zien, Tekenen, en Zichzelf te Verbeteren
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Dec 9
ByChunwei Wang, Guansong Lu, Junwei Yang, Runhui Huang, Jianhua Han, Lu Hou, Wei Zhang, Hang Xu
11
2

In dit paper introduceren we ILLUME, een verenigd multimodaal groot taalmodel (MLLM) dat naadloos multimodale begrips- en generatiecapaciteiten integreert binnen een enkel groot taalmodel door middel van een verenigde formulering voor voorspelling van het volgende token. Om de grote datasetgrootte die typisch vereist is voor afstemming van beeld en tekst aan te pakken, stellen we voor om de gegevensefficiëntie te verbeteren door het ontwerp van een visuele tokenizer die semantische informatie incorporeert en een progressieve meertraps trainingsprocedure. Deze benadering vermindert de datasetgrootte tot slechts 15M voor voorafgaande training - meer dan vier keer minder dan wat typisch nodig is - terwijl het competitieve of zelfs superieure prestaties behaalt ten opzichte van bestaande verenigde MLLM's, zoals Janus. Daarnaast introduceren we, om synergetische verbetering tussen begrips- en generatiecapaciteiten te bevorderen, wat onderbelicht is in eerdere werken, een nieuw zelfversterkend multimodaal afstemmingsschema. Dit schema superviseert het MLLM om zelf de consistentie tussen tekstbeschrijvingen en zelf gegenereerde beelden te beoordelen, waardoor het model beelden nauwkeuriger kan interpreteren en onrealistische en incorrecte voorspellingen kan vermijden die worden veroorzaakt door misafstemming in beeldgeneratie. Op basis van uitgebreide experimenten, valt ons voorgestelde ILLUME op en concurreert het met toonaangevende verenigde MLLM's en gespecialiseerde modellen over verschillende benchmarks voor multimodaal begrip, generatie en bewerking.

18

Volledig open source Moxin-7B Technisch Rapport
Fully Open Source Moxin-7B Technical Report

Dec 8
ByPu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang
11
2

Onlangs hebben Large Language Models (LLM's) een significante transformatie ondergaan, gekenmerkt door een snelle stijging in zowel hun populariteit als mogelijkheden. Aan het hoofd van deze evolutie staan eigen LLM's zoals GPT-4 en GPT-o1, die brede aandacht hebben getrokken in de AI-gemeenschap vanwege hun opmerkelijke prestaties en veelzijdigheid. Tegelijkertijd hebben open-source LLM's, zoals LLaMA en Mistral, grote bijdragen geleverd aan de steeds grotere populariteit van LLM's vanwege de eenvoud om de modellen aan te passen en in te zetten in diverse toepassingen. Hoewel open-source LLM's ongekende mogelijkheden bieden voor innovatie en onderzoek, heeft de commercialisering van LLM's zorgen opgeroepen over transparantie, reproduceerbaarheid en veiligheid. Veel open-source LLM's voldoen niet aan fundamentele transparantievereisten door essentiële componenten zoals trainingscode en data achter te houden, en sommige gebruiken beperkende licenties terwijl ze beweren "open-source" te zijn, wat verdere innovaties op LLM's kan belemmeren. Om dit probleem te verhelpen, introduceren we Moxin 7B, een volledig open-source LLM ontwikkeld in overeenstemming met het Model Openness Framework (MOF), een gerangschikt classificatiesysteem dat AI-modellen evalueert op basis van modelvolledigheid en openheid, in overeenstemming met principes van open wetenschap, open source, open data en open toegang. Ons model behaalt het hoogste MOF-classificatieniveau van "open wetenschap" door de uitgebreide vrijgave van pre-trainingscode en configuraties, trainings- en fine-tuning-datasets, en tussenliggende en eindcontroles. Experimenten tonen aan dat ons model superieure prestaties behaalt bij zero-shot evaluatie in vergelijking met populaire 7B-modellen en concurrerend presteert bij few-shot evaluatie.

19

Chimera: Verbetering van een generalistisch model met domeinspecifieke experts
Chimera: Improving Generalist Model with Domain-Specific Experts

Dec 8
ByTianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue
9
2

Recente ontwikkelingen in Grote Multi-modale Modellen (GMM's) benadrukken het belang van schaalvergroting door het vergroten van beeld-tekst gekoppelde gegevens, wat indrukwekkende prestaties oplevert bij algemene taken. Ondanks hun effectiviteit in brede toepassingen, worden generalistische modellen voornamelijk getraind op datasets op webschaal gedomineerd door natuurlijke beelden, wat resulteert in het opofferen van gespecialiseerde mogelijkheden voor domeinspecifieke taken die uitgebreide domeinvoorafkennis vereisen. Bovendien is het rechtstreeks integreren van expertmodellen die zijn afgestemd op specifieke domeinen uitdagend vanwege de representatiekloof en het onevenwichtige optimalisatie tussen het generalistische model en de experts. Om deze uitdagingen aan te pakken, introduceren we Chimera, een schaalbaar en kosteneffectief multi-modale pijplijn die is ontworpen om de capaciteit van bestaande GMM's te versterken met domeinspecifieke experts. Specifiek ontwerpen we een progressieve trainingsstrategie om kenmerken van expertmodellen te integreren in de invoer van een generalistisch GMM. Om de onevenwichtige optimalisatie veroorzaakt door de goed uitgelijnde algemene visuele encoder aan te pakken, introduceren we een nieuw mechanisme genaamd Algemeen-Specialist Samenwerkingsmaskering (GSCM). Dit resulteert in een veelzijdig model dat uitblinkt in de domeinen van grafieken, tabellen, wiskunde en documenten, waarbij het state-of-the-art prestaties behaalt bij multi-modale redeneer- en visuele inhoudsextractietaken, beide uitdagende taken voor het beoordelen van bestaande GMM's.

20

ObjCtrl-2.5D: Trainingvrije Objectbesturing met cameraposities
ObjCtrl-2.5D: Training-free Object Control with Camera Poses

Dec 10
ByZhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy
8
2

Deze studie heeft tot doel om een nauwkeurigere en veelzijdigere objectbesturing te bereiken in de generatie van beeld-naar-video (I2V). Huidige methoden vertegenwoordigen doorgaans de ruimtelijke beweging van doelobjecten met 2D-trajecten, die vaak niet de gebruikersintentie vastleggen en regelmatig onnatuurlijke resultaten produceren. Om de controle te verbeteren, presenteren we ObjCtrl-2.5D, een trainingsvrije objectbesturingsbenadering die een 3D-traject gebruikt, uitgebreid vanuit een 2D-traject met diepte-informatie, als besturingssignaal. Door objectbeweging te modelleren als camerabeweging, representeert ObjCtrl-2.5D het 3D-traject als een reeks cameraposities, waardoor objectbewegingsbesturing mogelijk is met een bestaand model voor camerabewegingsbesturing in I2V-generatie (CMC-I2V) zonder training. Om het CMC-I2V-model dat oorspronkelijk is ontworpen voor globale bewegingsbesturing aan te passen om lokale objectbeweging aan te kunnen, introduceren we een module om het doelobject te isoleren van de achtergrond, waardoor onafhankelijke lokale besturing mogelijk is. Bovendien bedenken we een effectieve manier om nauwkeurigere objectbesturing te bereiken door het delen van laagfrequente vervormde latentie binnen het objectgebied over frames heen. Uitgebreide experimenten tonen aan dat ObjCtrl-2.5D de nauwkeurigheid van objectbesturing aanzienlijk verbetert in vergelijking met trainingsvrije methoden en meer diverse besturingsmogelijkheden biedt dan op training gebaseerde benaderingen met 2D-trajecten, waardoor complexe effecten zoals objectrotatie mogelijk zijn. Code en resultaten zijn beschikbaar op https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

21

GraPE: Een Genereren-Plannen-Bewerken Framework voor Compositorische T2I Synthese
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

Dec 8
ByAshish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
4
2

Text-to-image (T2I) generatie heeft aanzienlijke vooruitgang gezien met diffusiemodellen, waardoor het mogelijk is om fotorealistische afbeeldingen te genereren van tekstprompts. Ondanks deze vooruitgang ondervinden bestaande methoden nog steeds uitdagingen bij het volgen van complexe tekstprompts, vooral die die compositorisch en meerstaps redeneren vereisen. Gezien dergelijke complexe instructies maken SOTA-modellen vaak fouten bij het nauwkeurig modelleren van objectkenmerken en de relaties daartussen. In dit werk presenteren we een alternatief paradigma voor T2I-synthese, waarbij de taak van complexe meerstaps generatie wordt opgesplitst in drie stappen: (a) Genereren: we genereren eerst een afbeelding met behulp van bestaande diffusiemodellen. (b) Plannen: we maken gebruik van Multi-Modale LLM's (MLLM's) om de fouten in de gegenereerde afbeelding te identificeren, uitgedrukt in termen van individuele objecten en hun eigenschappen, en produceren een reeks correctiestappen die nodig zijn in de vorm van een bewerkingsplan. (c) Bewerken: we maken gebruik van bestaande op tekst gebaseerde beeldbewerkingsmodellen om sequentieel ons bewerkingsplan uit te voeren over de gegenereerde afbeelding om de gewenste afbeelding te verkrijgen die trouw is aan de originele instructie. Onze benadering ontleent haar kracht aan het feit dat deze modulair van aard is, trainingvrij is en kan worden toegepast op elke combinatie van beeldgeneratie- en bewerkingsmodellen. Als extra bijdrage ontwikkelen we ook een model dat in staat is tot compositionele bewerking, wat verder helpt om de algehele nauwkeurigheid van onze voorgestelde benadering te verbeteren. Onze methode ruilt flexibel inferentietijdrekenkracht in voor prestaties op compositorische tekstprompts. We voeren uitgebreide experimentele evaluatie uit over 3 benchmarks en 10 T2I-modellen, waaronder DALLE-3 en de nieuwste - SD-3.5-Large. Onze benadering verbetert niet alleen de prestaties van de SOTA-modellen, met maximaal 3 punten, maar verkleint ook het prestatieverschil tussen zwakkere en sterkere modellen.

22

HARP: Aarzeling-Bewuste Herformulering in de Transformer Inferentie Doorgang
HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Dec 10
ByRomain Storaï, Seung-won Hwang
4
3

Dit artikel heeft als doel de prestaties van grote taalmodellen te verbeteren door de variabele computationele eisen in inferentiestappen aan te pakken, waarbij sommige tokens meer computationele middelen vereisen dan andere. We presenteren HARP, een eenvoudige aanpassing aan de "kant-en-klare" Transformer forward pass. Geïnspireerd door aarzeling en het framing-effect in besluitvorming, past HARP selectief extra berekeningen toe wanneer het model onzekerheid tegenkomt tijdens token-generatie. Onze methode bootst menselijke cognitieve processen na door te pauzeren bij moeilijke beslispunten en invoergegevens te herformuleren voor een ander perspectief. In tegenstelling tot andere benaderingen is HARP model-agnostisch, vereist geen training en is eenvoudig te implementeren. We evalueren onze methode grondig over verschillende taken en modelgroottes, waarbij prestatieverbeteringen tot +5.16% worden aangetoond. Opmerkelijk is dat HARP deze winsten behaalt terwijl de inferentietijden twee keer sneller zijn dan bij beam search. Eenvoudig en toch met aanzienlijke voordelen biedt HARP een praktische oplossing voor het verbeteren van de prestaties van op Transformer gebaseerde taalmodellen met minimale computationele impact.

23

Een Nieuw Gefedereerd Leerframework Tegen Gradient Inversieaanvallen
A New Federated Learning Framework Against Gradient Inversion Attacks

Dec 10
ByPengxin Guo, Shuang Zeng, Wenhao Chen, Xiaodan Zhang, Weihong Ren, Yuyin Zhou, Liangqiong Qu
3
2

Federated Learning (FL) heeft als doel de gegevensprivacy te beschermen door klanten gezamenlijk machine learning modellen te laten trainen zonder hun ruwe gegevens te delen. Recent onderzoek toont echter aan dat informatie die tijdens FL wordt uitgewisseld, vatbaar is voor Gradient Inversion Attacks (GIA) en daarom zijn verschillende privacybehoudende methoden geïntegreerd in FL om dergelijke aanvallen te dwarsbomen, zoals Secure Multi-party Computing (SMC), Homomorfe Encryptie (HE) en Differentiële Privacy (DP). Ondanks hun vermogen om gegevensprivacy te beschermen, gaan deze benaderingen inherent gepaard met aanzienlijke privacy-hulpprogramma trade-offs. Door de sleutel tot privacyblootstelling in FL onder GIA opnieuw te bekijken, die ligt in het frequente delen van modelgradiënten die privégegevens bevatten, nemen we een nieuwe benadering door een nieuw privacybehoudend FL-framework te ontwerpen dat effectief de "directe verbinding" tussen de gedeelde parameters en de lokale privégegevens verbreekt om zich te verdedigen tegen GIA. Specifiek stellen we een Hypernetwork Federated Learning (HyperFL) framework voor dat hypernetwerken gebruikt om de parameters van het lokale model te genereren en alleen de hypernetwerkparameters worden geüpload naar de server voor aggregatie. Theoretische analyses tonen de convergentiesnelheid van het voorgestelde HyperFL aan, terwijl uitgebreide experimentele resultaten de privacybehoudende capaciteit en vergelijkbare prestaties van HyperFL aantonen. De code is beschikbaar op https://github.com/Pengxin-Guo/HyperFL.

24

Maximaliseren van Afstemming met Minimale Feedback: Efficiënt Leren van Beloningen voor Visuomotorische Robotbeleidsafstemming
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Dec 6
ByRan Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
2
2

Visuomotor robotbeleidslijnen, die steeds vaker vooraf zijn getraind op grootschalige datasets, beloven aanzienlijke vooruitgang in verschillende robotica domeinen. Het afstemmen van deze beleidslijnen op de voorkeuren van eindgebruikers blijft echter een uitdaging, vooral wanneer de voorkeuren moeilijk te specificeren zijn. Hoewel versterkend leren van menselijke feedback (RLHF) het dominante mechanisme is geworden voor afstemming in niet-lichamelijke domeinen zoals grote taalmodellen, heeft het niet hetzelfde succes gezien in het afstemmen van visuomotor beleidslijnen vanwege de aanzienlijke hoeveelheid menselijke feedback die nodig is om visuele beloningsfuncties te leren. Om deze beperking aan te pakken, stellen we Representation-Aligned Preference-based Learning (RAPL) voor, een methode die alleen op observatie is gebaseerd voor het leren van visuele beloningen met aanzienlijk minder menselijke voorkeursfeedback. In tegenstelling tot traditioneel RLHF, richt RAPL zich op het verfijnen van vooraf getrainde visuele encoders om af te stemmen op de visuele representatie van de eindgebruiker en construeert vervolgens een dichte visuele beloning via kenmerkovereenkomsten in deze afgestemde representatieruimte. We valideren RAPL eerst via simulatie-experimenten in de X-Magical benchmark en Franka Panda robotmanipulatie, waarbij we aantonen dat het beloningen kan leren die zijn afgestemd op menselijke voorkeuren, efficiënter gebruikmaakt van voorkeursgegevens en generaliseert over robotuitvoeringen. Ten slotte richten onze hardware-experimenten vooraf getrainde Diffusion Policies voor drie objectmanipulatietaken af. We constateren dat RAPL deze beleidslijnen kan verfijnen met 5x minder echte menselijke voorkeursgegevens, waarmee de eerste stap wordt gezet naar het minimaliseren van menselijke feedback en het maximaliseren van de afstemming van visuomotor robotbeleid.

25

Contextuele tegenspraak: Strategieën voor aanpassing, personalisatie en evaluatie
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation

Dec 10
ByLorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci
2
2

AI-generatie tegenspraak biedt een veelbelovende en schaalbare strategie om online toxiciteit te verminderen door directe antwoorden die een beschaafde discussie bevorderen. Echter, huidige tegenspraak is een one-size-fits-all, waarbij aanpassing aan de moderatiecontext en de betrokken gebruikers ontbreekt. Wij stellen meerdere strategieën voor om op maat gemaakte tegenspraak te genereren die is aangepast aan de moderatiecontext en gepersonaliseerd is voor de gemodereerde gebruiker. We instrueren een LLaMA2-13B-model om tegenspraak te genereren, waarbij we experimenteren met verschillende configuraties op basis van verschillende contextuele informatie en fine-tuning strategieën. We identificeren de configuraties die overtuigende tegenspraak genereren door een combinatie van kwantitatieve indicatoren en menselijke evaluaties verzameld via een vooraf geregistreerd mixed-design crowdsourcing-experiment. Resultaten tonen aan dat gecontextualiseerde tegenspraak aanzienlijk beter kan presteren dan state-of-the-art generieke tegenspraak op het gebied van adequaatheid en overtuigingskracht, zonder andere kenmerken in gevaar te brengen. Onze bevindingen onthullen ook een zwakke correlatie tussen kwantitatieve indicatoren en menselijke evaluaties, wat suggereert dat deze methoden verschillende aspecten beoordelen en benadrukken de noodzaak van genuanceerde evaluatiemethodologieën. De effectiviteit van gecontextualiseerde AI-generatie tegenspraak en de afwijking tussen menselijke en algoritmische evaluaties benadrukken het belang van een verhoogde mens-AI-samenwerking in contentmoderatie.

Dec 10
Dec 11
Dec 12