AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Hoe Presteren Jouw Code-LLM's? Het Versterken van Code Instructie Afstemming met Hoogwaardige Data
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

Recentelijk is er een groeiende interesse ontstaan in het bestuderen van hoe betere code-instructie-afstemmingsdata kunnen worden geconstrueerd. We observeren echter dat codemodellen die met deze datasets zijn getraind, hoge prestaties vertonen op HumanEval, maar slechter presteren op andere benchmarks zoals LiveCodeBench. Na verder onderzoek ontdekken we dat veel datasets lijden onder ernstige datalekken. Na het opruimen van het grootste deel van de gelektte data, presteren enkele bekende datasets van hoge kwaliteit slecht. Deze ontdekking onthult een nieuwe uitdaging: identificeren welke datasets daadwerkelijk als hoogwaardige code-instructiedata kunnen worden beschouwd. Om dit aan te pakken, stellen we een efficiënte strategie voor het snoeien van codedata voor om goede samples te selecteren. Onze aanpak is gebaseerd op drie dimensies: instructiecomplexiteit, responskwaliteit en instructiediversiteit. Op basis van onze geselecteerde data presenteren we XCoder, een familie van modellen die zijn afgestemd vanuit LLaMA3. Onze experimenten tonen aan dat XCoder nieuwe state-of-the-art prestaties bereikt met minder trainingsdata, wat de effectiviteit van onze datastrategie bevestigt. Bovendien voeren we een uitgebreide analyse uit van de datasamenstelling en ontdekken we dat bestaande codedatasets verschillende kenmerken hebben afhankelijk van hun constructiemethoden, wat nieuwe inzichten biedt voor toekomstige code-LLM's. Onze modellen en dataset zijn vrijgegeven op https://github.com/banksy23/XCoder.

Configureerbare Basismodellen: Het Bouwen van LLM's vanuit een Modulair Perspectief
Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

ByChaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun

Vooruitgang in LLM's heeft recentelijk uitdagingen blootgelegd die verband houden met computationele efficiëntie en continue schaalbaarheid vanwege hun behoefte aan enorme aantallen parameters, wat de toepassing en evolutie van deze modellen op apparaten met beperkte rekenbronnen en scenario's die verschillende vaardigheden vereisen steeds lastiger maakt. Geïnspireerd door modulariteit in het menselijk brein, is er een groeiende tendens om LLM's op te splitsen in talrijke functionele modules, waardoor inferentie met een deel van de modules en dynamische assemblage van modules mogelijk wordt om complexe taken aan te pakken, zoals bij 'mixture-of-experts'. Om de inherente efficiëntie en samenstelbaarheid van de modulaire aanpak te benadrukken, introduceren we de term 'brick' om elke functionele module te representeren, en duiden we de gemodulariseerde structuur aan als configureerbare foundation modellen. In dit artikel bieden we een uitgebreid overzicht en onderzoek van de constructie, het gebruik en de beperkingen van configureerbare foundation modellen. We formaliseren eerst modules in emergent bricks - functionele neuronpartities die ontstaan tijdens de pre-trainingsfase, en customized bricks - bricks die worden geconstrueerd via aanvullende post-training om de capaciteiten en kennis van LLM's te verbeteren. Op basis van diverse functionele bricks presenteren we verder vier brick-georiënteerde operaties: retrieval en routing, samenvoegen, updaten en groeien. Deze operaties maken dynamische configuratie van LLM's mogelijk op basis van instructies om complexe taken te behandelen. Om ons perspectief te valideren, voeren we een empirische analyse uit op veelgebruikte LLM's. We ontdekken dat de FFN-lagen modulaire patronen volgen met functionele specialisatie van neuronen en functionele neuronpartities. Tot slot belichten we enkele openstaande kwesties en richtingen voor toekomstig onderzoek. Over het algemeen beoogt dit artikel een frisse modulaire kijk te bieden op bestaand LLM-onderzoek en de toekomstige creatie van efficiëntere en schaalbare foundation modellen te inspireren.

Open-MAGVIT2: Een Open-Source Project Gericht op het Democratiseren van Auto-regressieve Visuele Generatie
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

We presenteren Open-MAGVIT2, een familie van auto-regressieve beeldgeneratiemodellen variërend van 300M tot 1,5B parameters. Het Open-MAGVIT2-project levert een open-source replicatie van Google's MAGVIT-v2 tokenizer, een tokenizer met een extreem grote codeboek (d.w.z. 2^{18} codes), en behaalt state-of-the-art reconstructieprestaties (1,17 rFID) op ImageNet 256 bij 256. Daarnaast onderzoeken we de toepassing ervan in standaard auto-regressieve modellen en valideren we de schaalbaarheidseigenschappen. Om auto-regressieve modellen te ondersteunen bij het voorspellen met een extreem grote vocabulaire, factoriseren we deze in twee sub-vocabulaires van verschillende groottes door asymmetrische tokenfactorisatie, en introduceren we "next sub-token prediction" om de interactie tussen sub-tokens te verbeteren voor een betere generatiekwaliteit. We maken alle modellen en code vrij beschikbaar om innovatie en creativiteit op het gebied van auto-regressieve visuele generatie te bevorderen.

Qihoo-T2X: Een efficiëntiegericht diffusietransformator via proxytokens voor tekst-naar-alle-taken
Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

Het globale self-attention-mechanisme in diffusie-transformers omvat overbodige berekeningen vanwege de spaarzame en redundante aard van visuele informatie, en de aandachtkaart van tokens binnen een ruimtelijk venster vertoont aanzienlijke gelijkenis. Om deze redundantie aan te pakken, stellen we de Proxy Token Diffusion Transformer (PT-DiT) voor, die spaarzame representatieve token-attentie gebruikt (waarbij het aantal representatieve tokens veel kleiner is dan het totale aantal tokens) om globale visuele informatie efficiënt te modelleren. Specifiek wordt in elk transformer-blok willekeurig één token uit elk ruimtelijk-tijdelijk venster geselecteerd om als proxy-token voor die regio te dienen. De globale semantiek wordt vastgelegd via de self-attention van deze proxy-tokens en vervolgens geïnjecteerd in alle latente tokens via cross-attention. Tegelijkertijd introduceren we venster- en verschoven venster-attentie om de beperkingen in detailmodellering veroorzaakt door het spaarzame aandachtmechanisme aan te pakken. Gebaseerd op de goed ontworpen PT-DiT, ontwikkelen we verder de Qihoo-T2X-familie, die een verscheidenheid aan modellen omvat voor T2I-, T2V- en T2MV-taken. Experimentele resultaten tonen aan dat PT-DiT competitieve prestaties bereikt terwijl de rekencomplexiteit wordt verminderd in zowel beeld- als videogeneratietaken (bijvoorbeeld een reductie van 48% vergeleken met DiT en een reductie van 35% vergeleken met Pixart-alpha). Onze broncode is beschikbaar op https://github.com/360CVGroup/Qihoo-T2X.

GST: Nauwkeurig 3D-menselijk lichaam uit een enkele afbeelding met Gaussische Splatting Transformers
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

Het reconstrueren van realistische 3D-menselijke modellen uit monocular beelden heeft belangrijke toepassingen in creatieve industrieën, mens-computerinterfaces en gezondheidszorg. Ons werk is gebaseerd op 3D Gaussian Splatting (3DGS), een scène-representatie die bestaat uit een mengsel van Gaussiaanse verdelingen. Het voorspellen van dergelijke mengsels voor een menselijk model vanuit een enkel invoerbeeld is uitdagend, omdat het een niet-uniforme dichtheid betreft (met een veel-op-één relatie met invoerpixels) en strikte fysieke beperkingen heeft. Tegelijkertijd moet het flexibel genoeg zijn om verschillende kleding en houdingen te accommoderen. Onze belangrijkste observatie is dat de hoekpunten van gestandaardiseerde menselijke meshes (zoals SMPL) een adequate dichtheid en een benaderende initiële positie voor Gaussiaanse verdelingen kunnen bieden. Vervolgens kunnen we een transformermodel trainen om gezamenlijk relatief kleine aanpassingen aan deze posities te voorspellen, evenals de andere attributen van de Gaussiaanse verdelingen en de SMPL-parameters. We tonen empirisch aan dat deze combinatie (met alleen multi-view supervisie) snelle inferentie van 3D-menselijke modellen vanuit een enkel beeld kan bereiken zonder testtijdoptimalisatie, dure diffusiemodellen of 3D-puntensupervisie. We laten ook zien dat het de 3D-houdingsschatting kan verbeteren door menselijke modellen beter aan te passen die rekening houden met kleding en andere variaties. De code is beschikbaar op de projectwebsite https://abdullahamdi.com/gst/.

Het Spinnen van de Gouden Draad: Benchmarking van Lange-Vorm Generatie in Taalmodellen
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee

De vaardigheden van taalmodellen met lange context (LMs) worden vaak geëvalueerd met behulp van de "Needle-in-a-Haystack" (NIAH)-test, die taken omvat die zijn ontworpen om het vermogen van een model te beoordelen om specifieke informatie ("naald") binnen grote tekstreeksen ("hooiberg") te identificeren. Hoewel deze benchmarks meten hoe goed modellen lange contextinvoerreeksen begrijpen, evalueren ze niet effectief de kwaliteit van het genereren van lange teksten—een cruciaal aspect voor toepassingen zoals ontwerpvoorstellen en creatief schrijven. Om dit hiaat aan te pakken, hebben we een nieuwe benchmark voor het evalueren van lange teksten geïntroduceerd, genaamd Spinning the Golden Thread (SGT), die het vermogen van modellen test om specifieke gebeurtenissen binnen gegenereerde lange tekstreeksen te identificeren. In deze benchmark vragen we LMs met lange context om lange teksten te creëren die bepaalde gebeurtenissen of beperkingen moeten bevatten, en evalueren we hun vermogen om deze elementen te integreren. We hebben tien LMs met lange context geëvalueerd in vier verschillende scenario's, drie soorten promptinstructies en twee verschillende instellingen voor generatielengte (16K en 32K). Hoewel deze modellen goed presteren op NIAH-benchmarks, toonde geen enkel model bevredigende prestaties op Spinning the Golden Thread, wat zorgen oproept over hun vermogen om samenhangende lange teksten te genereren die instructies volgen. Bovendien vertonen alle modellen een significante daling in prestaties naarmate de lengte van de gegenereerde tekst toeneemt.

Hoe Presteren Jouw Code-LLM's? Het Versterken van Code Instructie Afstemming met Hoogwaardige Data

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

Configureerbare Basismodellen: Het Bouwen van LLM's vanuit een Modulair Perspectief

Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

Open-MAGVIT2: Een Open-Source Project Gericht op het Democratiseren van Auto-regressieve Visuele Generatie

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

Qihoo-T2X: Een efficiëntiegericht diffusietransformator via proxytokens voor tekst-naar-alle-taken

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

GST: Nauwkeurig 3D-menselijk lichaam uit een enkele afbeelding met Gaussische Splatting Transformers

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

Het Spinnen van de Gouden Draad: Benchmarking van Lange-Vorm Generatie in Taalmodellen

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee