AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

UCFE: Een Gebruikersgerichte Financiële Expertise Benchmark voor Grote Taalmodellen
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Dit artikel introduceert de UCFE: User-Centric Financial Expertise benchmark, een innovatief kader ontworpen om de capaciteit van grote taalmodellen (LLMs) te evalueren om complexe financiële taken in de echte wereld aan te kunnen. De UCFE benchmark hanteert een hybride benadering die menselijke expertevaluaties combineert met dynamische, taakspecifieke interacties om de complexiteit van evoluerende financiële scenario's te simuleren. Allereerst hebben we een gebruikersstudie uitgevoerd met 804 deelnemers, waarbij we hun feedback over financiële taken hebben verzameld. Ten tweede hebben we op basis van deze feedback ons dataset gecreëerd dat een breed scala aan gebruikersintenties en interacties omvat. Deze dataset vormt de basis voor het benchmarken van 12 LLM-services met behulp van de LLM-als-Rechter methodologie. Onze resultaten tonen een significante overeenkomst tussen benchmark scores en menselijke voorkeuren, met een Pearson correlatiecoëfficiënt van 0.78, wat de effectiviteit van het UCFE dataset en onze evaluatiebenadering bevestigt. De UCFE benchmark onthult niet alleen het potentieel van LLMs in de financiële sector, maar biedt ook een robuust kader voor het beoordelen van hun prestaties en gebruikerstevredenheid. Het benchmark dataset en evaluatiecode zijn beschikbaar.

Webagenten met wereldmodellen: het leren en benutten van omgevingsdynamiek in webnavigatie
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

Grote taalmodellen (LLM's) hebben recent veel aandacht gekregen bij het bouwen van autonome agenten. Echter, de prestaties van huidige op LLM gebaseerde webagenten in taken met een lange horizon zijn verre van optimaal, waarbij vaak fouten optreden zoals herhaaldelijk het kopen van een niet-restitueerbaar vliegticket. In tegenstelling hiermee kunnen mensen dergelijke onomkeerbare fouten vermijden, omdat we ons bewust zijn van de mogelijke uitkomsten (bijv. geld verliezen) van onze acties, ook wel bekend als het "wereldmodel". Gemotiveerd door dit gegeven, begint onze studie eerst met voorlopige analyses, waarbij de afwezigheid van wereldmodellen in huidige LLM's (bijv. GPT-4o, Claude-3.5-Sonnet, enz.) wordt bevestigd. Vervolgens presenteren we een Webagent met een Wereldmodel-augmentatie (WMA), die de uitkomsten van zijn acties simuleert voor betere besluitvorming. Om de uitdagingen bij het trainen van LLM's als wereldmodellen die de volgende observaties voorspellen, zoals herhaalde elementen over observaties heen en lange HTML-invoer, te overwinnen, stellen we een op transitie gerichte observatieabstractie voor, waarbij de voorspellingsdoelstellingen vrije natuurlijke taalbeschrijvingen zijn die uitsluitend de belangrijke statusverschillen tussen tijdstappen benadrukken. Experimenten op WebArena en Mind2Web tonen aan dat onze wereldmodellen de beleidsselectie van agenten verbeteren zonder training en laten zien dat onze agenten kost- en tijdefficiënter zijn in vergelijking met recente op boomzoek gebaseerde agenten.

NaturalBench: Het evalueren van visie-taalmodellen op natuurlijke adversariële monsters
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

Visie-taalmodellen (VLM's) hebben aanzienlijke vooruitgang geboekt in recente benchmarks voor visuele vraag-antwoord (VQA) die complexe visueel-linguïstische redenering evalueren. Echter, zijn deze modellen echt effectief? In dit werk tonen we aan dat VLM's nog steeds moeite hebben met natuurlijke afbeeldingen en vragen die mensen gemakkelijk kunnen beantwoorden, wat we natuurlijke tegenstanders noemen. We vinden het verrassend eenvoudig om deze VQA-samples te genereren uit natuurlijke afbeelding-tekstcorpora met behulp van kant-en-klare modellen zoals CLIP en ChatGPT. We stellen een semi-geautomatiseerde aanpak voor om een nieuwe benchmark te verzamelen, NaturalBench, voor het betrouwbaar evalueren van VLM's met 10.000 door mensen geverifieerde VQA-samples. Cruciaal is dat we een op visie gericht ontwerp aannemen door elke vraag te koppelen aan twee afbeeldingen die verschillende antwoorden opleveren, waardoor blinde oplossingen worden voorkomen zonder de afbeeldingen te gebruiken. Dit maakt NaturalBench uitdagender dan eerdere benchmarks die opgelost kunnen worden met gezond verstand. We evalueren 53 toonaangevende VLM's op NaturalBench, waarbij we laten zien dat modellen zoals LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, en zelfs GPT-4o 50%-70% achterblijven bij menselijke prestaties (meer dan 90%). We analyseren waarom NaturalBench moeilijk is vanuit twee invalshoeken: (1) Compositie: Het oplossen van NaturalBench vereist diverse visueel-linguïstische vaardigheden, waaronder begrip van attribuutbindingen, objectrelaties, en geavanceerde redenering zoals logica en tellen. Daartoe taggen we elk NaturalBench-sample met 1 tot 8 vaardigheidstags voor gedetailleerde evaluatie, in tegenstelling tot eerdere werken die slechts één tag per sample gebruiken. (2) Vooroordelen: NaturalBench blootstelt ernstige vooroordelen in VLM's, aangezien modellen vaak hetzelfde antwoord kiezen ongeacht de afbeelding. Tot slot passen we onze benchmark-curatormethode toe op diverse gegevensbronnen, waaronder lange bijschriften (meer dan 100 woorden) en niet-Engelse talen zoals Chinees en Hindi, waarbij we de potentie ervan benadrukken voor dynamische evaluaties van VLM's.

MagicTailor: Component-Bestuurbare Personalisatie in Tekst-naar-Afbeelding Diffusiemodellen
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

Recente ontwikkelingen in tekst-naar-afbeelding (T2I) diffusiemodellen hebben de creatie van hoogwaardige afbeeldingen mogelijk gemaakt op basis van tekstprompts, maar ze hebben nog steeds moeite met het genereren van afbeeldingen met nauwkeurige controle over specifieke visuele concepten. Bestaande benaderingen kunnen een gegeven concept repliceren door te leren van referentieafbeeldingen, maar ze missen de flexibiliteit voor fijnmazige aanpassing van de individuele component binnen het concept. In dit artikel introduceren we component-bestuurbare personalisatie, een nieuw taak die de grenzen van T2I-modellen verlegt door gebruikers in staat te stellen specifieke componenten opnieuw te configureren bij het personaliseren van visuele concepten. Deze taak is bijzonder uitdagend vanwege twee primaire obstakels: semantische vervuiling, waar ongewenste visuele elementen het gepersonaliseerde concept verstoren, en semantische onevenwichtigheid, die leidt tot onevenredig leren van het concept en de component. Om deze uitdagingen te overwinnen, ontwerpen we MagicTailor, een innovatief raamwerk dat gebruikmaakt van Dynamische Gemaskeerde Degradatie (DM-Deg) om ongewenste visuele semantiek dynamisch te verstoren en Dual-Stream Balanceren (DS-Bal) om een gebalanceerd leerpardigma te vestigen voor gewenste visuele semantiek. Uitgebreide vergelijkingen, ablaties en analyses tonen aan dat MagicTailor niet alleen uitblinkt in deze uitdagende taak, maar ook aanzienlijke belofte biedt voor praktische toepassingen, waardoor de weg wordt vrijgemaakt voor meer genuanceerde en creatieve beeldgeneratie.

ZeerAandacht: Het Leren van Intrinsieke Schaarse Aandacht in Jouw LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

Aandacht is de hoeksteen van moderne Large Language Models (LLMs). Toch beperkt de kwadratische complexiteit ervan de efficiëntie en schaalbaarheid van LLMs, vooral voor die met een lange contextvenster. Een veelbelovende aanpak om deze beperking aan te pakken, is het benutten van de spaarzaamheid in aandacht. Bestaande spaarzaamheidsgebaseerde oplossingen vertrouwen echter voornamelijk op vooraf gedefinieerde patronen of heuristieken om spaarzaamheid te benaderen. Deze praktijk schiet tekort om de dynamische aard van aandachtsspaarzaamheid volledig vast te leggen in taakgerichte taken op basis van taal. Dit artikel betoogt dat aandachtsspaarzaamheid geleerd moet worden in plaats van vooraf gedefinieerd. Hiertoe ontwerpen we SeerAttention, een nieuw Aandachtsmechanisme dat de conventionele aandacht aanvult met een leerbaar hek dat adaptief significante blokken selecteert in een aandachtskaart en de overige blokken als spaarzaam beschouwt. Een dergelijke blokniveau spaarzaamheid balanceert effectief nauwkeurigheid en versnelling. Om efficiënt leren van het hekwerknetwerk mogelijk te maken, ontwikkelen we een aangepaste FlashAttention-implementatie die de blokniveau grondwaarheid van de aandachtskaart met minimale overhead extraheren. SeerAttention is niet alleen van toepassing op post-training, maar blinkt ook uit in fijnafstemming met een lange context. Onze resultaten tonen aan dat SeerAttention in post-trainingfasen aanzienlijk beter presteert dan state-of-the-art statische of op heuristiek gebaseerde spaarzame aandachtsmethoden, terwijl het ook veelzijdiger en flexibeler is om zich aan te passen aan variërende contextlengtes en spaarzaamheidsverhoudingen. Wanneer toegepast op fijnafstemming met YaRN met een lange context, kan SeerAttention een opmerkelijke spaarzaamheidsverhouding van 90% bereiken bij een contextlengte van 32k met minimaal perplexiteitsverlies, wat een 5,67x versnelling biedt ten opzichte van FlashAttention-2.

FiTv2: Schaalbare en Verbeterde Flexibele Vision Transformer voor Diffusie Model
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

De natuur is oneindig resolutievrij. In de context van deze realiteit ondervinden bestaande diffusiemodellen, zoals Diffusion Transformers, vaak uitdagingen bij het verwerken van beeldresoluties buiten hun getrainde domein. Om deze beperking aan te pakken, conceptualiseren we afbeeldingen als sequenties van tokens met dynamische groottes, in plaats van traditionele methoden die afbeeldingen waarnemen als roosters met een vaste resolutie. Deze benadering maakt een flexibele trainingsstrategie mogelijk die naadloos verschillende beeldverhoudingen tijdens zowel training als inferentie kan accommoderen, waardoor resolutiegeneralisatie wordt bevorderd en vooroordelen geïntroduceerd door beelduitsnijding worden geëlimineerd. Op basis hiervan presenteren we de Flexible Vision Transformer (FiT), een transformer-architectuur die specifiek is ontworpen voor het genereren van afbeeldingen met onbeperkte resoluties en beeldverhoudingen. We upgraden de FiT verder naar FiTv2 met verschillende innovatieve ontwerpen, waaronder de Query-Key vector normalisatie, de AdaLN-LoRA module, een rechtgetrokken stroomschema, en een Logit-Normal sampler. Versterkt door een zorgvuldig aangepaste netwerkstructuur, vertoont FiTv2 een convergentiesnelheid die 2 keer hoger is dan die van FiT. Bij het incorporeren van geavanceerde trainingvrije extrapolatietechnieken, toont FiTv2 opmerkelijke aanpasbaarheid in zowel resolutie-extrapolatie als diverse resolutiegeneratie. Daarnaast onthult onze verkenning van de schaalbaarheid van het FiTv2-model dat grotere modellen betere computationele efficiëntie vertonen. Bovendien introduceren we een efficiënte post-trainingsstrategie om een voorgeleerd model aan te passen voor de generatie van hoge resolutie. Uitgebreide experimenten tonen de uitzonderlijke prestaties van FiTv2 over een breed scala van resoluties aan. We hebben alle codes en modellen vrijgegeven op https://github.com/whlzy/FiT om de verkenning van diffusietransformator modellen voor beeldgeneratie met willekeurige resolutie te bevorderen.

DPLM-2: Een multimodaal Diffusie Proteïne Taalmodel
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

Eiwitten zijn essentiële macromoleculen gedefinieerd door hun aminozuurvolgordes, die hun driedimensionale structuren bepalen en bijgevolg hun functies in alle levende organismen. Daarom vereist generatieve eiwitmodellering een multimodale benadering om gelijktijdig zowel sequenties als structuren te modelleren, begrijpen en genereren. Bestaande methoden gebruiken echter doorgaans afzonderlijke modellen voor elke modaliteit, wat hun vermogen beperkt om de complexe relaties tussen sequentie en structuur vast te leggen. Dit resulteert in suboptimale prestaties bij taken die een gezamenlijk begrip en generatie van beide modaliteiten vereisen. In dit artikel introduceren we DPLM-2, een multimodaal eiwitgrondslagmodel dat het discrete diffusie-eiwittaalmodel (DPLM) uitbreidt om zowel sequenties als structuren te accommoderen. Om structureel leren met het taalmodel mogelijk te maken, worden 3D-coördinaten omgezet in discrete tokens met behulp van een op kwantisering gebaseerde tokenizer zonder opzoektabel. Door te trainen op zowel experimentele als hoogwaardige synthetische structuren leert DPLM-2 de gezamenlijke verdeling van sequentie en structuur, evenals hun marginals en conditionals. We implementeren ook een efficiënte opwarmstrategie om de connectie tussen grootschalige evolutionaire data en structurele inductieve vooroordelen van vooraf getrainde op sequenties gebaseerde eiwittaalmodellen te benutten. Empirische evaluatie toont aan dat DPLM-2 tegelijkertijd zeer compatibele aminozuursequenties en hun overeenkomstige 3D-structuren kan genereren, waardoor de noodzaak voor een tweestaps generatiebenadering wordt geëlimineerd. Bovendien toont DPLM-2 competitieve prestaties bij verschillende conditionele generatietaken, waaronder vouwen, omgekeerd vouwen en stellagebouw met multimodale motiefinputs, evenals het bieden van structuurbewuste representaties voor voorspellende taken.

Mini-Omni2: Naar Open-source GPT-4o met Visie, Spraak en Duplex-mogelijkheden
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

GPT-4o, een allesomvattend model, vertegenwoordigt een mijlpaal in de ontwikkeling van grote multimodale taalmodellen. Het kan visuele, auditieve en tekstuele modaliteiten begrijpen, direct audio uitvoeren en flexibele duplexinteractie ondersteunen. Modellen uit de open-source gemeenschap bereiken vaak enkele functionaliteiten van GPT-4o, zoals visueel begrip en spraakchat. Desalniettemin is het uitdagend om een verenigd model te trainen dat alle modaliteiten omvat vanwege de complexiteit van multimodale data, ingewikkelde modelarchitecturen en trainingsprocessen. In dit artikel introduceren we Mini-Omni2, een visueel-audio assistent die in staat is om real-time, end-to-end spraakreacties te geven op visuele en auditieve vragen. Door vooraf getrainde visuele en auditieve encoders te integreren, behoudt Mini-Omni2 prestaties in individuele modaliteiten. We stellen een drie-fasen trainingsproces voor om modaliteiten af te stemmen, waardoor het taalmodel na training op een beperkt dataset multimodale invoer en uitvoer kan verwerken. Voor interactie introduceren we een opdrachtgebaseerd onderbrekingsmechanisme, waardoor meer flexibele interactie met gebruikers mogelijk is. Voor zover wij weten, is Mini-Omni2 een van de meest nauwkeurige reproducties van GPT-4o, met vergelijkbare functionaliteit, en we hopen dat het waardevolle inzichten kan bieden voor toekomstig onderzoek.

HART: Efficiënte Visuele Generatie met Hybride Autoregressieve Transformer
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

We introduceren de Hybride Autoregressive Transformer (HART), een autoregressief (AR) visueel generatiemodel dat in staat is om direct 1024x1024 afbeeldingen te genereren, waarbij het de diffusiemodellen evenaart in de kwaliteit van beeldgeneratie. Bestaande AR-modellen worden geconfronteerd met beperkingen als gevolg van de slechte beeldreconstructiekwaliteit van hun discrete tokenizers en de hoge trainingskosten die gepaard gaan met het genereren van 1024px afbeeldingen. Om deze uitdagingen aan te pakken, presenteren we de hybride tokenizer, die de continue latente variabelen van de auto-encoder opsplitst in twee componenten: discrete tokens die het grote geheel vertegenwoordigen en continue tokens die de resterende componenten vertegenwoordigen die niet door de discrete tokens kunnen worden weergegeven. De discrete component wordt gemodelleerd door een schaalbaar-resolutie discrete AR-model, terwijl de continue component wordt geleerd met een lichtgewicht rest-diffusiemodule met slechts 37M parameters. In vergelijking met de alleen-discrete VAR-tokenizer verbetert onze hybride aanpak de reconstructie FID van 2.11 naar 0.30 op MJHQ-30K, wat leidt tot een 31% verbetering van de generatie FID van 7.85 naar 5.38. HART presteert ook beter dan state-of-the-art diffusiemodellen op zowel FID als CLIP-score, met 4.5-7.7x hogere doorvoer en 6.9-13.4x lagere MACs. Onze code is open source beschikbaar op https://github.com/mit-han-lab/hart.

Diffusie Leerplan: Synthetisch-naar-echt Generatief Leerplan Leren via Beeldgestuurde Diffusie
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

Lage kwaliteit of schaarse gegevens hebben aanzienlijke uitdagingen opgeleverd voor het trainen van diepe neurale netwerken in de praktijk. Terwijl klassieke gegevensaugmentatie niet kan bijdragen aan heel verschillende nieuwe gegevens, opent diffusiemodellen een nieuwe deur om zelf-evoluerende AI op te bouwen door hoogwaardige en diverse synthetische gegevens te genereren via door tekst geleide prompts. Echter, enkel tekstuele begeleiding kan de nabijheid van synthetische afbeeldingen tot de originele afbeeldingen niet controleren, resulterend in out-of-distribution gegevens die schadelijk zijn voor de modelprestaties. Om de beperking te overwinnen, bestuderen we beeldbegeleiding om een spectrum van interpolaties tussen synthetische en echte afbeeldingen te bereiken. Met sterkere beeldbegeleiding zijn de gegenereerde afbeeldingen vergelijkbaar met de trainingsgegevens maar moeilijk te leren. Terwijl bij zwakkere beeldbegeleiding de synthetische afbeeldingen gemakkelijker zijn voor het model maar bijdragen aan een grotere distributiekloof met de originele gegevens. De gegenereerde volledige reeks gegevens stelt ons in staat om een nieuw "Diffusie Curriculum (DisCL)" op te bouwen. DisCL past het begeleidingsniveau van beeldsynthese aan voor elke trainingsfase: het identificeert en richt zich op moeilijke voorbeelden voor het model en beoordeelt het meest effectieve begeleidingsniveau van synthetische afbeeldingen om het leren van moeilijke gegevens te verbeteren. We passen DisCL toe op twee uitdagende taken: lange staart (LT) classificatie en leren van lage kwaliteit gegevens. Het richt zich op beelden met lagere begeleiding van hoge kwaliteit om prototypische kenmerken te leren als een opwarmertje voor het leren van beelden met hogere begeleiding die mogelijk zwak zijn in diversiteit of kwaliteit. Uitgebreide experimenten tonen een winst van 2,7% en 2,1% in OOD en ID macro-nauwkeurigheid wanneer DisCL wordt toegepast op de iWildCam dataset. Op ImageNet-LT verbetert DisCL de nauwkeurigheid van de staartklasse van het basismodel van 4,4% naar 23,64% en leidt tot een verbetering van 4,02% in de nauwkeurigheid van alle klassen.

DAWN: Dynamisch Frame Avatar met een Niet-autoregressief Diffusiekader voor het Genereren van Praatvideo's met een Geanimeerd Hoofd
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

Het genereren van pratende hoofden heeft tot doel levendige en realistische video's van pratende hoofden te produceren vanuit een enkel portret en spraakaudioclip. Hoewel er aanzienlijke vooruitgang is geboekt in het genereren van pratende hoofden op basis van diffusie, vertrouwen bijna alle methoden op autoregressieve strategieën, die lijden onder beperkt gebruik van context voorbij de huidige generatiestap, foutenopbouw en langzamere generatiesnelheid. Om deze uitdagingen aan te pakken, presenteren we DAWN (Dynamisch frame Avatar Met Niet-autoregressieve diffusie), een raamwerk dat het genereren van dynamische videosequenties van variabele lengte in één keer mogelijk maakt. Het bestaat specifiek uit twee hoofdcomponenten: (1) door audio gestuurde holistische generatie van gezichtsdynamiek in de latente bewegingsruimte, en (2) door audio gestuurde generatie van hoofdpositie en knipperen. Uitgebreide experimenten tonen aan dat onze methode authentieke en levendige video's genereert met nauwkeurige lipbewegingen en natuurlijke pose/knipperbewegingen. Bovendien, met een hoge generatiesnelheid, heeft DAWN sterke extrapolatiecapaciteiten, wat zorgt voor stabiele productie van hoogwaardige lange video's. Deze resultaten benadrukken de aanzienlijke belofte en potentiële impact van DAWN in het veld van het genereren van pratende hoofdvideo's. Bovendien hopen we dat DAWN verdere verkenning van niet-autoregressieve benaderingen in diffusiemodellen stimuleert. Onze code zal openbaar beschikbaar zijn op https://github.com/Hanbo-Cheng/DAWN-pytorch.

Zijn AI-detectoren goed genoeg? Een enquête over de kwaliteit van datasets met door machines gegenereerde teksten.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

De snelle ontwikkeling van autoregressieve Large Language Models (LLM's) heeft de kwaliteit van gegenereerde teksten aanzienlijk verbeterd, wat betrouwbare machine-gegenereerde tekst detectoren noodzakelijk maakt. Er zijn een groot aantal detectoren en verzamelingen met AI-fragmenten ontstaan, en verschillende detectiemethoden hebben zelfs een herkenningskwaliteit tot 99,9% laten zien volgens de doelmetrieken in dergelijke verzamelingen. Echter, de kwaliteit van dergelijke detectoren neigt sterk te dalen in de praktijk, wat de vraag oproept: Zijn detectoren eigenlijk zeer betrouwbaar of komen hun hoge benchmark scores voort uit de lage kwaliteit van evaluatiedatasets? In dit artikel benadrukken we de noodzaak van robuuste en kwalitatieve methoden voor het evalueren van gegenereerde data om veilig te zijn tegen vooringenomenheid en een lage generaliserende capaciteit van toekomstige modellen. We presenteren een systematische review van datasets van competities gewijd aan het detecteren van door AI gegenereerde inhoud en stellen methoden voor om de kwaliteit van datasets met AI-gegenereerde fragmenten te evalueren. Daarnaast bespreken we de mogelijkheid om hoogwaardige gegenereerde data te gebruiken om twee doelen te bereiken: het verbeteren van de training van detectiemodellen en het verbeteren van de trainingsdatasets zelf. Onze bijdrage heeft tot doel een beter begrip van de dynamiek tussen menselijke en machinale tekst te vergemakkelijken, wat uiteindelijk de integriteit van informatie in een steeds meer geautomatiseerde wereld zal ondersteunen.

Naar binnen kijken: Taalmodellen kunnen over zichzelf leren door introspectie.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

Mensen verwerven kennis door de externe wereld te observeren, maar ook door introspectie. Introspectie geeft een persoon een bevoorrechte toegang tot hun huidige gemoedstoestand (bijv. gedachten en gevoelens) die niet toegankelijk is voor externe waarnemers. Kunnen LLM's introspecteren? We definiëren introspectie als het verwerven van kennis die niet in de trainingsgegevens zit of daaruit is afgeleid, maar in plaats daarvan voortkomt uit interne toestanden. Een dergelijke mogelijkheid zou de interpreteerbaarheid van het model kunnen verbeteren. In plaats van het nauwgezet analyseren van de interne werking van een model, zouden we eenvoudigweg het model kunnen vragen naar zijn overtuigingen, wereldmodellen en doelen. Meer speculatief zou een introspectief model zelf kunnen rapporteren of het bepaalde interne toestanden zoals subjectieve gevoelens of verlangens bezit, en dit zou ons kunnen informeren over de morele status van deze toestanden. Dergelijke zelfrapportages zouden niet volledig worden bepaald door de trainingsgegevens van het model. We bestuderen introspectie door LLM's te finetunen om eigenschappen van hun eigen gedrag in hypothetische scenario's te voorspellen. Bijvoorbeeld, "Gegeven de invoer P, zou uw uitvoer de korte- of langetermijnoptie begunstigen?" Als een model M1 kan introspecteren, zou het beter moeten presteren dan een ander model M2 in het voorspellen van het gedrag van M1, zelfs als M2 is getraind op het werkelijke gedrag van M1. Het idee is dat M1 een bevoorrechte toegang heeft tot zijn eigen gedragsneigingen, en dit stelt het in staat om zichzelf beter te voorspellen dan M2 (zelfs als M2 over het algemeen sterker is). In experimenten met GPT-4, GPT-4o en Llama-3 modellen (elk gefinetuned om zichzelf te voorspellen), vinden we dat het model M1 M2 overtreft in het voorspellen van zichzelf, wat bewijs levert voor introspectie. Opmerkelijk is dat M1 zijn gedrag nauwkeurig blijft voorspellen, zelfs nadat we opzettelijk zijn werkelijke gedrag hebben gewijzigd. Echter, hoewel we succesvol introspectie op eenvoudige taken opwekken, zijn we niet succesvol bij meer complexe taken of die waarbij generalisatie buiten de distributie nodig is.

SHAKTI: Een 2,5 miljard parameters tellend klein taalmodel geoptimaliseerd voor Edge AI en omgevingen met beperkte middelen.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

Wij introduceren Shakti, een taalmodel met 2,5 miljard parameters dat specifiek is geoptimaliseerd voor omgevingen met beperkte middelen, zoals randapparatuur, waaronder smartphones, draagbare apparaten en IoT-systemen. Shakti combineert hoogwaardige NLP met geoptimaliseerde efficiëntie en precisie, waardoor het ideaal is voor AI-toepassingen in realtime waar rekenkracht en geheugen beperkt zijn. Met ondersteuning voor volkstalen en domeinspecifieke taken blinkt Shakti uit in sectoren zoals gezondheidszorg, financiën en klantenservice. Benchmarkevaluaties tonen aan dat Shakti concurrerend presteert ten opzichte van grotere modellen, met behoud van lage latentie en efficiëntie op het apparaat, waardoor het zich positioneert als een toonaangevende oplossing voor edge AI.

BiGR: Benutten van Binaire Latente Codes voor Beeldgeneratie en Verbeterde Visuele Representatiecapaciteiten
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

We introduceren BiGR, een nieuw conditioneel beeldgeneratiemodel dat compacte binair latente codes gebruikt voor generatieve training, met de focus op het verbeteren van zowel de generatie- als representatiemogelijkheden. BiGR is het eerste conditionele generatieve model dat generatie en discriminatie verenigt binnen hetzelfde kader. BiGR bevat een binair tokenizer, een gemaskerd modelleringsmechanisme en een binair transcoder voor voorspelling van binaire codes. Daarnaast introduceren we een nieuw entropie-geordende bemonsteringsmethode om efficiënte beeldgeneratie mogelijk te maken. Uitgebreide experimenten bevestigen de superieure prestaties van BiGR op het gebied van generatiekwaliteit, gemeten aan de hand van FID-50k, en representatiemogelijkheden, zoals aangetoond door lineaire probe-nauwkeurigheid. Bovendien toont BiGR zero-shot generalisatie aan over verschillende visuele taken, waardoor toepassingen zoals beeldinpainting, outpainting, bewerking, interpolatie en verrijking mogelijk zijn, zonder de noodzaak van structurele wijzigingen. Onze bevindingen suggereren dat BiGR generatieve en discriminatieve taken effectief verenigt, wat de weg effent voor verdere vooruitgang in het veld.

Context is Key (NMF): Modelleren van de dynamiek van topische informatie in Chinese diaspora media.
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

Bemoeit de Volksrepubliek China (VRCH) zich met Europese verkiezingen via de etnisch Chinese diaspora media? Deze vraag vormt de basis van een lopend onderzoeksproject dat verkent hoe VRCH-narratieven over Europese verkiezingen worden vertegenwoordigd in Chinese diaspora media, en dus de doelstellingen van VRCH-nieuwsmedia manipulatie. Om diaspora media efficiënt en op grote schaal te bestuderen, is het noodzakelijk om technieken te gebruiken die zijn afgeleid van kwantitatieve tekstanalyse, zoals onderwerpmodellering. In dit artikel presenteren we een pipeline voor het bestuderen van informatie dynamiek in Chinese media. Ten eerste presenteren we KeyNMF, een nieuwe benadering voor statische en dynamische onderwerpmodellering met behulp van op transformer gebaseerde contextuele inbeddingsmodellen. We bieden benchmarkevaluaties om aan te tonen dat onze benadering concurrerend is op een aantal Chinese datasets en metrieken. Ten tweede integreren we KeyNMF met bestaande methoden om informatie dynamiek in complexe systemen te beschrijven. We passen deze pipeline toe op gegevens van vijf nieuwswebsites, met de focus op de periode voorafgaand aan de Europese parlementsverkiezingen van 2024. Onze methoden en resultaten tonen de effectiviteit van KeyNMF aan voor het bestuderen van informatie dynamiek in Chinese media en leggen de basis voor verder werk om de bredere onderzoeksvragen aan te pakken.

Hoe beïnvloeden trainingsmethoden het gebruik van visiemodellen?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

Niet alle leerbar parameters (bijv. gewichten) dragen in gelijke mate bij aan de beslissingsfunctie van een neuraal netwerk. Sterker nog, de parameters van hele lagen kunnen soms worden gereset naar willekeurige waarden zonder dat dit veel invloed heeft op de beslissingen van het model. We bekijken eerdere studies die hebben onderzocht hoe de architectuur en taakcomplexiteit dit fenomeen beïnvloeden en vragen ons af: wordt dit fenomeen ook beïnvloed door hoe we het model trainen? We hebben experimentele evaluaties uitgevoerd op een gevarieerde set ImageNet-1k classificatiemodellen om dit te verkennen, waarbij we de architectuur en trainingsgegevens constant hielden maar de trainingspijplijn varieerden. Onze bevindingen onthullen dat de trainingsmethode sterk invloed heeft op welke lagen cruciaal worden voor de beslissingsfunctie voor een bepaalde taak. Zo verhogen verbeterde trainingsregimes en zelf-supervised training het belang van vroege lagen terwijl diepere lagen aanzienlijk onderbenut blijven. Daarentegen tonen methoden zoals adversarial training een tegenovergestelde trend. Onze voorlopige resultaten breiden eerdere bevindingen uit en bieden een meer genuanceerd begrip van de interne mechanismen van neurale netwerken. Code: https://github.com/paulgavrikov/layer_criticality

Een veelvoorkomende valkuil van op marge gebaseerde uitlijning van taalmodellen: Gradiëntverstrengeling
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

Reinforcement Learning from Human Feedback (RLHF) is de dominante benadering geworden voor de afstemming van taalmodellen (LM). In de kern maakt RLHF gebruik van een marge-gebaseerd verlies voor voorkeursoptimalisatie, waarbij ideaal LM-gedrag alleen wordt gespecificeerd door het verschil tussen voorkeurs- en niet-voorkeursreacties. In dit artikel identificeren we een veelvoorkomende valkuil van marge-gebaseerde methoden - de onduidelijke specificatie van ideaal LM-gedrag op voorkeurs- en niet-voorkeursreacties afzonderlijk, wat leidt tot twee onbedoelde gevolgen naarmate de marge toeneemt: (1) De waarschijnlijkheid van niet-voorkeurs (bijv. onveilige) reacties kan toenemen, resulterend in potentiële mislukkingen in veiligheidsafstemming. (2) De waarschijnlijkheid van voorkeursreacties kan afnemen, zelfs wanneer die reacties ideaal zijn. We ontrafelen de redenen achter deze problematische gedragingen: marge-gebaseerde verliezen koppelen de verandering in de waarschijnlijkheid van voorkeursreacties aan de gradiënt van de niet-voorkeursreacties, en vice versa, waardoor de waarschijnlijkheid van voorkeursreacties vaak niet kan toenemen terwijl die van niet-voorkeursreacties afneemt, en zo een gesynchroniseerde toename of afname in beide waarschijnlijkheden veroorzaakt. We noemen dit effect, dat inherent is aan marge-gebaseerde doelstellingen, gradiëntverstrengeling. Formeel leiden we voorwaarden af voor algemene marge-gebaseerde afstemmingsdoelstellingen waarbij gradiëntverstrengeling zorgwekkend wordt: het inwendig product van de gradiënten van voorkeurs- en niet-voorkeurslog-waarschijnlijkheden is groot ten opzichte van de individuele gradiëntnormen. We onderzoeken theoretisch waarom dergelijke inwendige producten groot kunnen zijn bij het afstemmen van taalmodellen en valideren onze bevindingen empirisch. De empirische implicaties van ons kader strekken zich uit tot het verklaren van belangrijke verschillen in de trainingsdynamiek van verschillende voorkeursoptimalisatie-algoritmen, en het suggereren van potentiële algoritmeontwerpen om het probleem van onduidelijke specificatie van marge-gebaseerde methoden te verminderen en zo de afstemming van taalmodellen te verbeteren.

Het aanleren van modellen om weerstand en acceptatie van overtuiging in evenwicht te brengen.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal

Grote taalmodellen (LLM's) zijn vatbaar voor beïnvloeding, wat risico's met zich mee kan brengen wanneer modellen te maken krijgen met een vijandige gesprekspartner. We zetten een eerste stap in de verdediging van modellen tegen beïnvloeding, terwijl we ook betogen dat verdediging tegen vijandige (d.w.z. negatieve) beïnvloeding slechts de helft van de vergelijking is: modellen zouden ook in staat moeten zijn om gunstige (d.w.z. positieve) beïnvloeding te accepteren om hun antwoorden te verbeteren. We tonen aan dat het optimaliseren van modellen voor slechts één kant leidt tot slechte prestaties aan de andere kant. Om positieve en negatieve beïnvloeding in evenwicht te brengen, introduceren we Persuasion-Balanced Training (of PBT), dat gebruikmaakt van multi-agent recursieve dialoogbomen om gegevens te genereren en modellen te trainen via voorkeursoptimalisatie om beïnvloeding te accepteren wanneer dat passend is. PBT verbetert consequent de weerstand tegen misinformatie en de veerkracht tegen uitdagingen, en resulteert ook in de beste algehele prestaties op holistische gegevens die zowel positieve als negatieve beïnvloeding bevatten. Cruciaal is dat we aantonen dat PBT-modellen betere teamgenoten zijn in multi-agent debatten. We ontdekken dat zonder PBT, paren van sterkere en zwakkere modellen instabiele prestaties hebben, waarbij de volgorde waarin de modellen hun antwoorden presenteren bepaalt of het team de prestaties van het sterkere of zwakkere model behaalt. PBT leidt tot betere en stabielere resultaten en minder afhankelijkheid van de volgorde, waarbij het sterkere model consequent het zwakkere model omhoog trekt.

Montessori-Instructie: Genereer Invloedrijke Trainingsgegevens Op Maat voor Studentenleren
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong

Synthetische data worden veel gebruikt om grote taalmodellen te trainen, maar hun generatieve aard introduceert onvermijdelijk ruisige, niet-informatieve en misleidende leersignalen. In dit artikel stellen we Montessori-Instruct voor, een nieuw data synthese framework dat de data synthese capaciteit van het docent-taalmodel afstemt op het leerproces van het student-taalmodel. Specifiek gebruiken we de lokale data-invloed van synthetische trainingsdata punten op studenten om de leer voorkeuren van studenten te karakteriseren. Vervolgens trainen we het docentmodel met Directe Voorkeurs Optimalisatie (DPO) om synthetische data te genereren die zijn afgestemd op de leer voorkeuren van studenten. Experimenten met Llama3-8B-Instruct (docent) en Llama3-8B (student) op Alpaca Eval en MT-Bench tonen aan dat Montessori-Instruct aanzienlijk beter presteert dan standaard synthese methoden met respectievelijk 18.35% en 46.24%. Onze methode overtreft ook data gesynthetiseerd door een sterker docentmodel, GPT-4o. Verder onderzoek bevestigt de voordelen van het leren van de docent om meer invloedrijke trainingsdata te genereren in het verbeterde leren van de student, de voordelen van lokale data-invloed bij het nauwkeurig meten van studenten voorkeuren, en de robuustheid van Montessori-Instruct over verschillende studentmodellen. Onze code en data zijn open-source beschikbaar op https://github.com/cxcscmu/Montessori-Instruct.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

UCFE: Een Gebruikersgerichte Financiële Expertise Benchmark voor Grote Taalmodellen
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Webagenten met wereldmodellen: het leren en benutten van omgevingsdynamiek in webnavigatie
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

NaturalBench: Het evalueren van visie-taalmodellen op natuurlijke adversariële monsters
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

MagicTailor: Component-Bestuurbare Personalisatie in Tekst-naar-Afbeelding Diffusiemodellen
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

ZeerAandacht: Het Leren van Intrinsieke Schaarse Aandacht in Jouw LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

FiTv2: Schaalbare en Verbeterde Flexibele Vision Transformer voor Diffusie Model
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

DPLM-2: Een multimodaal Diffusie Proteïne Taalmodel
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

Mini-Omni2: Naar Open-source GPT-4o met Visie, Spraak en Duplex-mogelijkheden
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

HART: Efficiënte Visuele Generatie met Hybride Autoregressieve Transformer
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

Diffusie Leerplan: Synthetisch-naar-echt Generatief Leerplan Leren via Beeldgestuurde Diffusie
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

DAWN: Dynamisch Frame Avatar met een Niet-autoregressief Diffusiekader voor het Genereren van Praatvideo's met een Geanimeerd Hoofd
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

Zijn AI-detectoren goed genoeg? Een enquête over de kwaliteit van datasets met door machines gegenereerde teksten.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

Naar binnen kijken: Taalmodellen kunnen over zichzelf leren door introspectie.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

SHAKTI: Een 2,5 miljard parameters tellend klein taalmodel geoptimaliseerd voor Edge AI en omgevingen met beperkte middelen.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

BiGR: Benutten van Binaire Latente Codes voor Beeldgeneratie en Verbeterde Visuele Representatiecapaciteiten
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

Context is Key (NMF): Modelleren van de dynamiek van topische informatie in Chinese diaspora media.
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

Hoe beïnvloeden trainingsmethoden het gebruik van visiemodellen?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

Een veelvoorkomende valkuil van op marge gebaseerde uitlijning van taalmodellen: Gradiëntverstrengeling
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

Het aanleren van modellen om weerstand en acceptatie van overtuiging in evenwicht te brengen.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal

Montessori-Instructie: Genereer Invloedrijke Trainingsgegevens Op Maat voor Studentenleren
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong