AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Technisch Rapport Qwen2.5-Coder
Qwen2.5-Coder Technical Report

Sep 18

ByBinyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Kai Dang, An Yang, Rui Men, Fei Huang, Xingzhang Ren, Xuancheng Ren, Jingren Zhou, Junyang Lin

150

In dit rapport introduceren we de Qwen2.5-Coder serie, een significante upgrade van zijn voorganger, CodeQwen1.5. Deze serie omvat twee modellen: Qwen2.5-Coder-1.5B en Qwen2.5-Coder-7B. Als een op code gericht model is Qwen2.5-Coder gebouwd op de Qwen2.5 architectuur en blijft voortgezet getraind op een uitgebreid corpus van meer dan 5,5 biljoen tokens. Door zorgvuldige gegevensopruiming, schaalbare synthetische gegevensgeneratie en gebalanceerde gegevensmixing te gebruiken, toont Qwen2.5-Coder indrukwekkende codegeneratiecapaciteiten terwijl het algemene veelzijdigheid behoudt. Het model is geëvalueerd op een breed scala van codegerelateerde taken, waarbij het state-of-the-art (SOTA) prestaties behaalt op meer dan 10 benchmarks, waaronder codegeneratie, -aanvulling, redenering en reparatie, waarbij het consequent grotere modellen van dezelfde grootte overtreft. We geloven dat de release van de Qwen2.5-Coder serie niet alleen de grenzen van onderzoek in code-intelligentie zal verleggen, maar ook, door zijn permissieve licentieverlening, een bredere acceptatie door ontwikkelaars in real-world toepassingen zal aanmoedigen.

Qwen2-VL: Het verbeteren van het perceptievermogen van het Vision-Language Model van de wereld op elke resolutie
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Sep 18

ByPeng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin

Wij presenteren de Qwen2-VL Serie, een geavanceerde upgrade van de vorige Qwen-VL modellen die de conventionele vooraf bepaalde resolutiebenadering bij visuele verwerking herdefinieert. Qwen2-VL introduceert het Naïeve Dynamische Resolutie mechanisme, waarmee het model dynamisch afbeeldingen van verschillende resoluties kan verwerken tot verschillende aantallen visuele tokens. Deze benadering stelt het model in staat om efficiëntere en nauwkeurigere visuele representaties te genereren, die nauw aansluiten bij menselijke perceptuele processen. Het model integreert ook Multimodale Rotatie Positie Insluiting (M-RoPE), wat de effectieve fusie van positionele informatie over tekst, afbeeldingen en video's mogelijk maakt. We hanteren een uniforme aanpak voor het verwerken van zowel afbeeldingen als video's, waardoor de visuele waarnemingsmogelijkheden van het model worden verbeterd. Om het potentieel van grote multimodale modellen te verkennen, onderzoekt Qwen2-VL de schalingswetten voor grote visie-taalmodellen (LVLM's). Door zowel de modelgrootte - met versies van 2B, 8B en 72B parameters - als de hoeveelheid trainingsdata te schalen, behaalt de Qwen2-VL Serie zeer competitieve prestaties. Opmerkelijk genoeg behaalt het Qwen2-VL-72B model resultaten die vergelijkbaar zijn met toonaangevende modellen zoals GPT-4o en Claude3.5-Sonnet op verschillende multimodale benchmarks, waarbij het andere generalistische modellen overtreft. De code is beschikbaar op https://github.com/QwenLM/Qwen2-VL.

Een Gecontroleerde Studie naar Lang Contextuele Uitbreiding en Generalisatie in Taalmodelen met Lange Afstanden
A Controlled Study on Long Context Extension and Generalization in LLMs

Sep 18

ByYi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush

Een breder tekstueel begrip en leren in context vereisen taalmodellen die gebruikmaken van volledige documentcontexten. Vanwege de implementatie-uitdagingen die gepaard gaan met het direct trainen van modellen met lange context, zijn er veel methoden voorgesteld om modellen uit te breiden om lange contexten aan te kunnen. Echter, vanwege verschillen in data en modelklassen is het lastig geweest om deze benaderingen te vergelijken, wat heeft geleid tot onzekerheid over hoe de prestaties van lange contexten geëvalueerd moeten worden en of deze verschillen van standaardevaluaties. Wij implementeren een gecontroleerd protocol voor uitbreidingsmethoden met een gestandaardiseerde evaluatie, waarbij consistente basismodellen en uitbreidingsdata worden gebruikt. Onze studie levert verschillende inzichten op in het gedrag van lange contexten. Ten eerste bevestigen we de cruciale rol van perplexiteit als een algemene prestatie-indicator zelfs bij taken met langere contexten. Ten tweede vinden we dat huidige benaderingen met benaderde aandacht systematisch onderpresteren bij taken met lange contexten. Tot slot bevestigen we dat exacte fine-tuning gebaseerde methoden over het algemeen effectief zijn binnen het bereik van hun uitbreiding, terwijl extrapolatie uitdagend blijft. Alle codebases, modellen en checkpoints zullen open-source beschikbaar worden gesteld, waardoor transparantie wordt bevorderd en verder onderzoek op dit kritieke gebied van AI-ontwikkeling wordt gefaciliteerd.

Wel of niet CoT'en? Keten-van-gedachten helpt voornamelijk bij wiskundig en symbolisch redeneren.
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Sep 18

ByZayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett

Keten-van-gedachten (CoT) via aanmoediging is de facto de methode voor het oproepen van redeneervermogen van grote taalmodellen (LLM's). Maar voor wat voor soort taken is dit extra "denken" echt nuttig? Om dit te analyseren, hebben we een kwantitatieve meta-analyse uitgevoerd die meer dan 100 papers bestrijkt die CoT gebruiken en hebben we onze eigen evaluaties uitgevoerd van 20 datasets over 14 modellen. Onze resultaten tonen aan dat CoT sterke prestatievoordelen biedt voornamelijk bij taken die wiskunde of logica omvatten, met veel kleinere winsten bij andere soorten taken. Bij MMLU leidt het rechtstreeks genereren van het antwoord zonder CoT bijna tot identieke nauwkeurigheid als met CoT, tenzij de vraag of het antwoord van het model een gelijkteken bevat, wat wijst op symbolische bewerkingen en redenering. Naar aanleiding van deze bevinding analyseren we het gedrag van CoT bij deze problemen door planning en uitvoering te scheiden en te vergelijken met tool-ondersteunde LLM's. Een groot deel van de winst van CoT komt voort uit het verbeteren van symbolische uitvoering, maar het presteert minder goed in vergelijking met het gebruik van een symbolische oplosser. Onze resultaten geven aan dat CoT selectief kan worden toegepast, waarbij prestaties worden behouden terwijl inferentiekosten worden bespaard. Bovendien suggereren ze de noodzaak om voorbij op prompt gebaseerde CoT te gaan naar nieuwe paradigma's die beter gebruikmaken van tussentijdse berekening over het hele scala van LLM-toepassingen.

LLM's + Persona-Plug = Gepersonaliseerde LLM's
LLMs + Persona-Plug = Personalized LLMs

Sep 18

ByJiongnan Liu, Yutao Zhu, Shuting Wang, Xiaochi Wei, Erxue Min, Yu Lu, Shuaiqiang Wang, Dawei Yin, Zhicheng Dou

Personalisatie speelt een cruciale rol in tal van taaltaken en toepassingen, aangezien gebruikers met dezelfde vereisten verschillende uitvoer kunnen verkiezen op basis van hun individuele interesses. Dit heeft geleid tot de ontwikkeling van verschillende gepersonaliseerde benaderingen gericht op het aanpassen van grote taalmodellen (GTM's) om aangepaste uitvoer te genereren die in lijn is met de voorkeuren van de gebruiker. Sommige daarvan omvatten het fijnafstemmen van een uniek gepersonaliseerd GTM voor elke gebruiker, wat te duur is voor grootschalige toepassing. Alternatieve benaderingen introduceren personalisatie-informatie op een plug-and-play manier door de relevante historische teksten van de gebruiker op te halen als demonstraties. Echter, deze opvraaggebaseerde strategie kan de continuïteit van de gebruikersgeschiedenis verbreken en er niet in slagen de algehele stijlen en patronen van de gebruiker vast te leggen, wat leidt tot suboptimale prestaties. Om deze uitdagingen aan te pakken, stellen we een nieuw gepersonaliseerd GTM-model voor. Het construeert een gebruikerspecifieke insluiting voor elk individu door al haar historische contexten te modelleren via een lichtgewicht plug-in gebruikersinsluitingsmodule. Door deze insluiting aan de taakinvoer te koppelen, kunnen GTM's gebruikersgewoonten en voorkeuren beter begrijpen en vastleggen, waardoor ze meer gepersonaliseerde uitvoer kunnen produceren zonder hun eigen parameters af te stemmen. Uitgebreide experimenten op verschillende taken in de taalmodelpersonalisatie (LaMP) benchmark tonen aan dat het voorgestelde model aanzienlijk beter presteert dan bestaande gepersonaliseerde GTM-benaderingen.

Voorkeursafstemming met menselijke feedback over taal, spraak en visie taken: Een enquête
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey

Sep 17

ByGenta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu

Voorkeurstuning is een cruciaal proces voor het afstemmen van diepe generatieve modellen op menselijke voorkeuren. Deze survey biedt een grondig overzicht van recente ontwikkelingen in voorkeurstuning en de integratie van menselijke feedback. Het artikel is opgedeeld in drie hoofdsecties: 1) inleiding en basisbegrippen: een introductie tot reinforcement learning frameworks, voorkeurstuning taken, modellen en datasets over verschillende modaliteiten: taal, spraak en visie, evenals verschillende beleidsbenaderingen, 2) diepgaande analyse van elke voorkeurstuning benadering: een gedetailleerde analyse van de methoden die worden gebruikt in voorkeurstuning, en 3) toepassingen, discussie en toekomstige richtingen: een verkenning van de toepassingen van voorkeurstuning in downstream taken, inclusief evaluatiemethoden voor verschillende modaliteiten, en een vooruitblik op toekomstig onderzoek. Ons doel is om de nieuwste methodologieën in voorkeurstuning en modelafstemming te presenteren, waardoor het begrip van dit vakgebied wordt verbeterd voor onderzoekers en praktijkmensen. We hopen verdere betrokkenheid en innovatie op dit gebied aan te moedigen.

GRIN: GRadiënt-Geïnformeerde MoE
GRIN: GRadient-INformed MoE

Sep 18

ByLiyuan Liu, Young Jin Kim, Shuohang Wang, Chen Liang, Yelong Shen, Hao Cheng, Xiaodong Liu, Masahiro Tanaka, Xiaoxia Wu, Wenxiang Hu, Vishrav Chaudhary, Zeqi Lin, Chenruidong Zhang, Jilong Xue, Hany Awadalla, Jianfeng Gao, Weizhu Chen

Mixture-of-Experts (MoE) modellen schalen effectiever dan dichte modellen vanwege schaarse berekeningen via expert routing, waarbij slechts een klein subset van expertmodules selectief geactiveerd wordt. Echter, schaarse berekeningen vormen een uitdaging voor traditionele trainingsmethoden, aangezien discrete expert routing standaard backpropagation belemmert en daarmee gradientgebaseerde optimalisatie, die de hoeksteen vormen van diep leren. Om de schaalbaarheid van MoE beter te benutten, introduceren we GRIN (GRadient-INformed MoE training), dat schattingen van schaarse gradienten voor expert routing incorporeert en modelparallelisme configureert om token dropping te vermijden. Door GRIN toe te passen op autoregressieve taalmodellering, ontwikkelen we een top-2 16 keer 3,8 miljard MoE-model. Ons model, met slechts 6,6 miljard geactiveerde parameters, presteert beter dan een 7 miljard dicht model en evenaart de prestaties van een 14 miljard dicht model dat op dezelfde data is getraind. Uitgebreide evaluaties over diverse taken tonen het potentieel van GRIN aan om de effectiviteit van MoE aanzienlijk te verbeteren, met scores van 79,4 voor MMLU, 83,7 voor HellaSwag, 74,4 voor HumanEval en 58,9 voor MATH.

Takin: Een Cohort van Zero-shot Spraakgeneratiemodellen van Superieure Kwaliteit
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

Sep 18

ByEverestAI, Sijin Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jingjing Yin, Jianhao Ye, Jixun Yao, Quanlei Yan, Yuguang Yang

Met de opkomst van het tijdperk van big data en grote taalmodellen is zero-shot gepersonaliseerde snelle aanpassing naar voren gekomen als een belangrijke trend. In dit rapport introduceren we Takin AudioLLM, een reeks technieken en modellen, voornamelijk bestaande uit Takin TTS, Takin VC en Takin Morphing, specifiek ontworpen voor de productie van luisterboeken. Deze modellen zijn in staat tot zero-shot spraakproductie, waarbij hoogwaardige spraak wordt gegenereerd die bijna niet te onderscheiden is van echt menselijke spraak en individuen in staat stelt om de spraakinvoer aan te passen aan hun eigen behoeften. In het bijzonder introduceren we eerst Takin TTS, een neurale codec-taalmodel dat voortbouwt op een verbeterde neurale spraakcodec en een multi-task trainingskader, dat in staat is om op een zero-shot manier hoogwaardige natuurlijke spraak te genereren. Voor Takin VC pleiten we voor een effectieve benadering van gezamenlijke modellering van inhoud en timbre om de sprekersgelijkenis te verbeteren, terwijl we pleiten voor een decoder op basis van conditionele stroommatching om de natuurlijkheid en expressiviteit verder te verbeteren. Tot slot stellen we het Takin Morphing-systeem voor met sterk ontkoppelde en geavanceerde benaderingen voor timbre en prosodie modellering, waarmee individuen spraakproductie kunnen aanpassen met hun voorkeurstimbre en prosodie op een nauwkeurige en controleerbare manier. Uitgebreide experimenten bevestigen de effectiviteit en robuustheid van onze Takin AudioLLM-seriemodellen. Voor gedetailleerde demonstraties kunt u terecht op https://takinaudiollm.github.io.

Vista3D: Ontwar de 3D-donkere kant van een enkele afbeelding
Vista3D: Unravel the 3D Darkside of a Single Image

Sep 18

ByQiuhong Shen, Xingyi Yang, Michael Bi Mi, Xinchao Wang

We gaan op de eeuwenoude queeste: het onthullen van de verborgen dimensies van objecten van slechts een glimp van hun zichtbare delen. Om dit aan te pakken, presenteren we Vista3D, een framework dat snelle en consistente 3D-generatie realiseert binnen slechts 5 minuten. Het hart van Vista3D wordt gevormd door een tweefasige benadering: de grove fase en de fijne fase. In de grove fase genereren we snel initiële geometrie met Gaussische Splatting vanuit een enkele afbeelding. In de fijne fase extraheren we een Signed Distance Function (SDF) rechtstreeks uit geleerde Gaussische Splatting, waarbij we deze optimaliseren met een differentieerbare iso-oppervlakte representatie. Bovendien verhoogt het de kwaliteit van de generatie door het gebruik van een ontwarde representatie met twee onafhankelijke impliciete functies om zowel zichtbare als verborgen aspecten van objecten vast te leggen. Daarnaast harmoniseert het gradients van 2D-diffusiepriors met 3D-bewuste diffusiepriors door middel van hoekige diffusiepriorcompositie. Via uitgebreide evaluatie tonen we aan dat Vista3D effectief een balans handhaaft tussen de consistentie en diversiteit van de gegenereerde 3D-objecten. Demonstraties en code zijn beschikbaar op https://github.com/florinshen/Vista3D.

SoloAudio: Doelgeluidsextractie met Taalgerichte Audio Diffusie Transformer
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer

Sep 12

ByHelin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak

In dit artikel introduceren we SoloAudio, een nieuw diffusie-gebaseerd generatief model voor doelgeluidsextractie (TSE). Onze aanpak traint latente diffusiemodellen op audio, waarbij de vorige U-Net ruggengraat wordt vervangen door een skip-verbonden Transformer die op latente kenmerken werkt. SoloAudio ondersteunt zowel audio-georiënteerde als taal-georiënteerde TSE door een CLAP-model te gebruiken als de kenmerkextractor voor doelgeluiden. Bovendien maakt SoloAudio gebruik van synthetische audio gegenereerd door toonaangevende tekst-naar-audio modellen voor training, waarbij sterke generalisatie naar out-of-domain data en ongeziene geluidgebeurtenissen wordt gedemonstreerd. We evalueren deze aanpak op de FSD Kaggle 2018 mengdataset en echte gegevens van AudioSet, waar SoloAudio de state-of-the-art resultaten behaalt op zowel in-domain als out-of-domain data, en indrukwekkende zero-shot en few-shot mogelijkheden vertoont. De broncode en demo's zijn vrijgegeven.

Naar Diverse en Efficiënte Audiobijschriften via Diffusiemodellen
Towards Diverse and Efficient Audio Captioning via Diffusion Models

Sep 14

ByManjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Ruibo Fu, Wei Liang, Dong Yu

We introduceren Diffusie-gebaseerde Audiobijschriften (DAC), een niet-autoregressief diffusiemodel dat is afgestemd op diverse en efficiënte audiobijschriften. Hoewel bestaande bijschriftmodellen die vertrouwen op taalbackbones opmerkelijk succes hebben geboekt in verschillende bijschrifttaken, belemmeren hun ontoereikende prestaties op het gebied van generatiesnelheid en diversiteit de vooruitgang in audio begrip en multimediatoepassingen. Ons op diffusie gebaseerde framework biedt unieke voordelen die voortkomen uit de inherente stochastiek en holistische contextmodellering in bijschriften. Via grondige evaluatie tonen we aan dat DAC niet alleen SOTA-prestatieniveaus behaalt in vergelijking met bestaande benchmarks op het gebied van bijschriftenkwaliteit, maar ze ook aanzienlijk overtreft op het gebied van generatiesnelheid en diversiteit. Het succes van DAC illustreert dat tekstgeneratie ook naadloos geïntegreerd kan worden met audio- en visuele generatietaken met behulp van een diffusie-backbone, waardoor de weg wordt vrijgemaakt voor een verenigd, op audio gericht generatief model over verschillende modaliteiten.

Het Plaatsen van Data in het Midden van Offline Multi-Agent Versterkend Leren
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning

Sep 18

ByClaude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius

Offline multi-agent reinforcement learning (MARL) is een opwindende onderzoeksrichting die statische datasets gebruikt om optimale besturingsbeleidslijnen te vinden voor multi-agent systemen. Hoewel het veld per definitie op gegevens is gebaseerd, hebben inspanningen tot nu toe gegevens verwaarloosd in hun streven naar state-of-the-art resultaten. We onderbouwen deze bewering eerst door de literatuur te onderzoeken, waarbij we laten zien hoe de meerderheid van de werken hun eigen datasets genereert zonder consistente methodologie en weinig informatie verstrekt over de kenmerken van deze datasets. Vervolgens laten we zien waarom het negeren van de aard van de gegevens problematisch is, aan de hand van sprekende voorbeelden van hoe sterk de algoritmische prestaties gekoppeld zijn aan de gebruikte dataset, wat een gemeenschappelijke basis voor experimenten op dit gebied noodzakelijk maakt. Als reactie zetten we een grote stap naar het verbeteren van het gebruik van gegevens en gegevensbewustzijn in offline MARL, met drie belangrijke bijdragen: (1) een duidelijke richtlijn voor het genereren van nieuwe datasets; (2) een standaardisatie van meer dan 80 bestaande datasets, gehost in een openbaar beschikbaar repository, met behulp van een consistente opslagindeling en een eenvoudig te gebruiken API; en (3) een reeks analysehulpmiddelen waarmee we deze datasets beter kunnen begrijpen, wat verdere ontwikkeling ondersteunt.

RoMath: Een benchmark voor wiskundige redenering in het Roemeens.
RoMath: A Mathematical Reasoning Benchmark in Romanian

Sep 17

ByAdrian Cosma, Ana-Maria Bucur, Emilian Radoi

Wiskunde is lange tijd overgebracht via natuurlijke taal, voornamelijk voor menselijk begrip. Met de opkomst van gemechaniseerde wiskunde en bewijsondersteunende systemen is er een groeiende behoefte om informele wiskundige tekst te begrijpen, maar de meeste bestaande benchmarks richten zich uitsluitend op het Engels en verwaarlozen andere talen. Dit artikel introduceert RoMath, een Roemeense benchmark suite voor wiskundig redeneren bestaande uit drie datasets: RoMath-Baccalaureate, RoMath-Competitions en RoMath-Synthetic, die een scala aan wiskundige domeinen en moeilijkheidsniveaus bestrijken, met als doel niet-Engelstalige modellen te verbeteren en de ontwikkeling van meertalige AI te bevorderen. Door te focussen op het Roemeens, een taal met weinig bronnen en unieke linguïstische kenmerken, adresseert RoMath de beperkingen van Anglo-centrische modellen en benadrukt de noodzaak van toegewijde bronnen voorbij eenvoudige automatische vertaling. We benchmarken verschillende open-gewicht taalmodellen, waarbij we het belang van het creëren van bronnen voor ondervertegenwoordigde talen benadrukken. We stellen de code en dataset beschikbaar.

fMRI-3D: Een uitgebreide dataset ter verbetering van 3D-reconstructie op basis van fMRI
fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction

Sep 17

ByJianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu

Het reconstrueren van 3D visuals uit functionele Magnetische Resonantie Beeldvorming (fMRI) data, geïntroduceerd als Recon3DMind in ons conferentiewerk, is van aanzienlijk belang voor zowel cognitieve neurowetenschappen als computer vision. Om deze taak verder te ontwikkelen, presenteren we de fMRI-3D dataset, die gegevens bevat van 15 deelnemers en in totaal 4768 3D objecten toont. De dataset bestaat uit twee componenten: fMRI-Shape, eerder geïntroduceerd en toegankelijk op https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, en fMRI-Objaverse, voorgesteld in dit artikel en beschikbaar op https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse bevat gegevens van 5 proefpersonen, waarvan er 4 ook deel uitmaken van de Kernset in fMRI-Shape, waarbij elke proefpersoon 3142 3D objecten bekijkt over 117 categorieën, allemaal vergezeld van tekstbijschriften. Dit verbetert aanzienlijk de diversiteit en potentiële toepassingen van de dataset. Bovendien stellen we MinD-3D voor, een nieuw raamwerk ontworpen om 3D visuele informatie te decoderen uit fMRI-signalen. Het raamwerk haalt eerst kenmerken uit fMRI-gegevens en aggregeert deze met behulp van een neuro-fusion encoder, gebruikt vervolgens een feature-bridge diffusiemodel om visuele kenmerken te genereren, en reconstrueert ten slotte het 3D object met behulp van een generatieve transformer decoder. We stellen nieuwe benchmarks vast door metrieken te ontwerpen op zowel semantisch als structureel niveau om de prestaties van het model te evalueren. Bovendien beoordelen we de effectiviteit van ons model in een Out-of-Distribution setting en analyseren we de toewijzing van de geëxtraheerde kenmerken en de visuele ROI's in fMRI-signalen. Onze experimenten tonen aan dat MinD-3D niet alleen 3D objecten reconstrueert met een hoge semantische en ruimtelijke nauwkeurigheid, maar ook ons begrip verdiept van hoe het menselijk brein 3D visuele informatie verwerkt. Projectpagina op: https://jianxgao.github.io/MinD-3D.

CORE-Bench: Het bevorderen van de geloofwaardigheid van gepubliceerd onderzoek door middel van een Benchmark voor Reproduceerbare Berekeningen.
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

Sep 17

ByZachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan

AI-agenten hebben het potentieel om gebruikers te helpen bij een verscheidenheid aan belangrijke taken, waaronder het uitvoeren van wetenschappelijk onderzoek. Om de ontwikkeling van nuttige agenten te stimuleren, hebben we benchmarks nodig die uitdagend zijn, maar vooral direct overeenkomen met real-world taken van belang. Dit artikel introduceert zo'n benchmark, ontworpen om de nauwkeurigheid van AI-agenten te meten bij het aanpakken van een cruciaal maar verrassend uitdagend aspect van wetenschappelijk onderzoek: computationele reproduceerbaarheid. Deze taak, fundamenteel voor het wetenschappelijke proces, omvat het reproduceren van de resultaten van een studie met behulp van de verstrekte code en data. We introduceren CORE-Bench (Computational Reproducibility Agent Benchmark), een benchmark bestaande uit 270 taken gebaseerd op 90 wetenschappelijke papers over drie disciplines (informatica, sociale wetenschappen en geneeskunde). Taken in CORE-Bench bestaan uit drie moeilijkheidsniveaus en omvatten zowel taal-alleen als visie-taal taken. We bieden een evaluatiesysteem om de nauwkeurigheid van agenten op een snelle en parallelle manier te meten, wat dagen evaluatietijd bespaart voor elke run in vergelijking met een sequentiële implementatie. We hebben twee baseline agenten geëvalueerd: de algemene AutoGPT en een taakspecifieke agent genaamd CORE-Agent. We hebben beide varianten getest met behulp van twee onderliggende taalmodellen: GPT-4o en GPT-4o-mini. De beste agent behaalde een nauwkeurigheid van 21% op de moeilijkste taak, wat de enorme ruimte voor verbetering laat zien bij het automatiseren van routinematige wetenschappelijke taken. Het hebben van agenten die bestaand werk kunnen reproduceren is een noodzakelijke stap naar het bouwen van agenten die nieuw onderzoek kunnen uitvoeren en de prestaties van andere onderzoeksagenten kunnen verifiëren en verbeteren. We hopen dat CORE-Bench de staat van reproduceerbaarheid kan verbeteren en de ontwikkeling van toekomstige onderzoeksagenten kan stimuleren.

Het meten van menselijke en AI-waarden op basis van generatieve psychometrie met Grote Taalmodellen
Measuring Human and AI Values based on Generative Psychometrics with Large Language Models

Sep 18

ByHaoran Ye, Yuhang Xie, Yuanyi Ren, Hanjun Fang, Xin Zhang, Guojie Song

Menselijke waarden en hun meting zijn een langdurig interdisciplinair onderzoek. Recente ontwikkelingen in AI hebben hernieuwde interesse in dit gebied aangewakkerd, waarbij grote taalmodellen (LLM's) naar voren komen als zowel tools als onderwerpen van waarde meting. Dit werk introduceert Generatieve Psychometrie voor Waarden (GPV), een op LLM's gebaseerd, op data gedreven paradigma voor waarde meting, theoretisch gefundeerd in tekst-onthulde selectieve percepties. We beginnen met het verfijnen van een LLM voor nauwkeurige perceptie-niveau waarde meting en het verifiëren van de capaciteit van LLM's om teksten in percepties te ontleden, wat de kern vormt van de GPV-pijplijn. Door GPV toe te passen op door mensen geschreven blogs, tonen we de stabiliteit, geldigheid en superioriteit ervan ten opzichte van eerdere psychologische tools aan. Vervolgens, door GPV uit te breiden naar LLM waarde meting, verbeteren we de huidige stand van zaken met 1) een psychometrische methodologie die LLM waarden meet op basis van hun schaalbare en vrije vorm uitvoer, waardoor contextspecifieke meting mogelijk is; 2) een vergelijkende analyse van meetparadigma's, waarbij de responsbias van eerdere methoden wordt aangegeven; en 3) een poging om LLM waarden en hun veiligheid te verbinden, waarbij de voorspellende kracht van verschillende waarde systemen en de impact van verschillende waarden op LLM veiligheid wordt onthuld. Via interdisciplinaire inspanningen streven we ernaar om AI te benutten voor psychometrie van de volgende generatie en psychometrie voor AI die in lijn is met waarden.

BERT-VBD: Vietnamees Multi-Document Samenvattingsraamwerk
BERT-VBD: Vietnamese Multi-Document Summarization Framework

Sep 18

ByTuan-Cuong Vuong, Trang Mai Xuan, Thien Van Luong

Bij het aanpakken van de uitdaging van Multi-Document Summarization (MDS) zijn tal van methoden voorgesteld, die zowel extractieve als abstractive summarization technieken omvatten. Elk benadering heeft echter zijn eigen beperkingen, waardoor het minder effectief is om uitsluitend op een van beide te vertrouwen. Een opkomende en veelbelovende strategie omvat een synergetische fusie van extractieve en abstractive summarization methoden. Ondanks de overvloed aan studies op dit gebied, blijft onderzoek naar de gecombineerde methodologie schaars, met name in de context van Vietnamese taalverwerking. Dit artikel presenteert een nieuw Vietnamees MDS-framework dat gebruikmaakt van een tweecomponenten-pijplijnarchitectuur die extractieve en abstractive technieken integreert. Het eerste component maakt gebruik van een extractieve benadering om sleutelzinnen binnen elk document te identificeren. Dit wordt bereikt door een aanpassing van het voorgeleerde BERT-netwerk, dat semantisch betekenisvolle zinsinzetstukken afleidt met behulp van siamese en triplet-netwerkstructuren. Het tweede component maakt gebruik van het VBD-LLaMA2-7B-50b model voor abstractive summarization, waarbij uiteindelijk het definitieve samenvattende document wordt gegenereerd. Ons voorgestelde framework toont een positieve prestatie, met ROUGE-2 scores van 39.6% op de VN-MDS dataset en presteert beter dan de state-of-the-art baselines.