AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

OS-ATLAS: Een Fundamenteel Actiemodel voor Algemene GUI-agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Bestaande inspanningen om GUI-agenten te bouwen zijn sterk afhankelijk van de beschikbaarheid van robuuste commerciële Vision-Language Modellen (VLM's) zoals GPT-4o en GeminiProVision. Praktijkmensen zijn vaak terughoudend om open-source VLM's te gebruiken vanwege hun aanzienlijke prestatieverschil in vergelijking met hun gesloten-source tegenhangers, met name in GUI-gronding en Out-Of-Distribution (OOD) scenario's. Om toekomstig onderzoek op dit gebied te vergemakkelijken, hebben we OS-Atlas ontwikkeld - een fundamenteel GUI-actiemodel dat uitblinkt in GUI-gronding en OOD-agenttaken door innovaties in zowel data als modellering. We hebben aanzienlijke technische inspanningen geïnvesteerd in het ontwikkelen van een open-source toolkit voor het synthetiseren van GUI-grondingsdata over meerdere platforms, waaronder Windows, Linux, MacOS, Android en het web. Door gebruik te maken van deze toolkit, brengen we het grootste open-source cross-platform GUI-grondingscorpus tot nu toe uit, dat meer dan 13 miljoen GUI-elementen bevat. Deze dataset, gecombineerd met innovaties in modeltraining, biedt een solide basis voor OS-Atlas om GUI-screenshots te begrijpen en te generaliseren naar ongeziene interfaces. Door uitgebreide evaluatie over zes benchmarks die drie verschillende platforms bestrijken (mobiel, desktop en web), toont OS-Atlas aanzienlijke prestatieverbeteringen ten opzichte van eerdere state-of-the-art modellen. Onze evaluatie onthult ook waardevolle inzichten in het voortdurend verbeteren en schalen van de agentcapaciteiten van open-source VLM's.

Personalisatie van Grote Taalmodellen: Een Overzicht
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

Het personaliseren van Grote Taalmodellen (LLM's) is recentelijk steeds belangrijker geworden met een breed scala aan toepassingen. Ondanks het belang en de recente vooruitgang hebben de meeste bestaande werken over gepersonaliseerde LLM's zich ofwel volledig gericht op (a) gepersonaliseerde tekstgeneratie of (b) het benutten van LLM's voor gepersonaliseerde toepassingen, zoals aanbevelingssystemen. In dit werk overbruggen we voor het eerst de kloof tussen deze twee afzonderlijke hoofdrichtingen door een taxonomie voor het gebruik van gepersonaliseerde LLM's te introduceren en de belangrijkste verschillen en uitdagingen samen te vatten. We bieden een formalisering van de grondslagen van gepersonaliseerde LLM's die begrippen van personalisatie van LLM's consolideert en uitbreidt, waarbij we nieuwe facetten van personalisatie, gebruik en wensen van gepersonaliseerde LLM's definiëren en bespreken. Vervolgens verenigen we de literatuur over deze diverse gebieden en gebruiksscenario's door systematische taxonomieën voor de granulariteit van personalisatie, personalisatietechnieken, datasets, evaluatiemethoden en toepassingen van gepersonaliseerde LLM's voor te stellen. Tot slot benadrukken we uitdagingen en belangrijke open problemen die nog moeten worden aangepakt. Door recent onderzoek te unificeren en te onderzoeken met behulp van de voorgestelde taxonomieën, streven we ernaar een duidelijke gids te bieden voor de bestaande literatuur en verschillende facetten van personalisatie in LLM's, waardoor zowel onderzoekers als beoefenaars worden versterkt.

Constante Versnelling Stroom
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Gecorrigeerde stroom- en terugstroomprocedures hebben de snelle generatie aanzienlijk verbeterd door gewone differentiaalvergelijking (ODE) stromen geleidelijk te rechttrekken. Ze werken onder de veronderstelling dat beeld- en geluidsparen, bekend als koppelingen, kunnen worden benaderd door rechte trajecten met constante snelheid. We merken echter op dat modellering met constante snelheid en het gebruik van terugstroomprocedures beperkingen hebben bij het nauwkeurig leren van rechte trajecten tussen paren, wat resulteert in suboptimale prestaties bij generatie in enkele stappen. Om deze beperkingen aan te pakken, introduceren we Constante Versnellingsstroom (CAF), een nieuw raamwerk gebaseerd op een eenvoudige constante versnellingsvergelijking. CAF introduceert versnelling als een extra te leren variabele, waardoor een meer expressieve en nauwkeurige schatting van de ODE-stroom mogelijk is. Bovendien stellen we twee technieken voor om de schattingsnauwkeurigheid verder te verbeteren: initiële snelheidsconditionering voor het versnellingsmodel en een terugstroomproces voor de initiële snelheid. Onze uitgebreide studies op speelgoeddatasets, CIFAR-10 en ImageNet 64x64 tonen aan dat CAF beter presteert dan state-of-the-art baselines voor generatie in één stap. We tonen ook aan dat CAF aanzienlijk de koppelingbehoud en omkering in enkele stappen verbetert ten opzichte van Gecorrigeerde stroom. De code is beschikbaar op https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}.

TOMATO: Het beoordelen van visuele temporele redeneervaardigheden in multimodale foundation modellen
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Bestaande benchmarks benadrukken vaak de opmerkelijke prestaties die worden behaald door state-of-the-art Multimodale Fundamentele Modellen (MFM's) bij het benutten van temporele context voor het begrijpen van video's. Echter, hoe goed presteren de modellen werkelijk in visuele temporele redenering? Onze studie van bestaande benchmarks toont aan dat deze capaciteit van MFM's waarschijnlijk wordt overschat, aangezien veel vragen kunnen worden opgelost door het gebruik van één, enkele, of willekeurige frames. Om de huidige visuele temporele redeneertaken systematisch te onderzoeken, stellen we drie principes voor met bijbehorende metrieken: (1) Multi-Frame Winst, (2) Framevolgordegevoeligheid, en (3) Frame-informatieverschil. Volgens deze principes introduceren we TOMATO, Temporele Redenering Multimodale Evaluatie, een nieuw benchmark ontworpen om de temporele redeneercapaciteiten van MFM's in video begrip grondig te beoordelen. TOMATO omvat 1.484 zorgvuldig samengestelde, mens-geannoteerde vragen die zes taken bestrijken (d.w.z., actietelling, richting, rotatie, vorm & trend, snelheid & frequentie, en visuele aanwijzingen), toegepast op 1.417 video's, inclusief 805 zelf opgenomen en gegenereerde video's, die mens-gecentreerde, realistische en gesimuleerde scenario's omvatten. Onze uitgebreide evaluatie onthult een mens-model prestatiekloof van 57,3% met het best presterende model. Bovendien onthult onze diepgaande analyse meer fundamentele beperkingen dan deze kloof in huidige MFM's. Hoewel ze gebeurtenissen nauwkeurig kunnen herkennen in geïsoleerde frames, falen ze in het interpreteren van deze frames als een continue reeks. Wij geloven dat TOMATO zal dienen als een cruciaal testplatform voor het evalueren van de volgende generatie MFM's en als een oproep aan de gemeenschap om AI-systemen te ontwikkelen die in staat zijn om de dynamiek van de menselijke wereld te begrijpen via de videomodaliteit.

Willekeurige Autoregressieve Visuele Generatie
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Dit artikel presenteert Randomized AutoRegressive modellering (RAR) voor visuele generatie, dat een nieuwe state-of-the-art prestatie neerzet op de beeldgeneratietaak, terwijl het volledig compatibel blijft met taalmodelleringskaders. De voorgestelde RAR is eenvoudig: tijdens een standaard autoregressief trainingsproces met een volgende-token voorspellingsdoel, wordt de invoersequentie - typisch geordend in rasterformaat - willekeurig gepermuteerd in verschillende factorisatievolgordes met een kans r, waarbij r begint bij 1 en lineair afneemt tot 0 gedurende de training. Deze gloeiproces-trainingsstrategie stelt het model in staat om te leren om de verwachte waarschijnlijkheid te maximaliseren over alle factorisatievolgordes en zo effectief de capaciteit van het model om bidirectionele contexten te modelleren te verbeteren. Belangrijk is dat RAR de integriteit van het autoregressieve modelleringskader behoudt, wat zorgt voor volledige compatibiliteit met taalmodellering en aanzienlijke prestatieverbeteringen in beeldgeneratie. Op de ImageNet-256 benchmark behaalt RAR een FID-score van 1.48, waarbij niet alleen eerdere state-of-the-art autoregressieve beeldgeneratoren worden overtroffen, maar ook toonaangevende op diffusie gebaseerde en op gemaskeerde transformer gebaseerde methoden worden overtroffen. Code en modellen zullen beschikbaar worden gesteld op https://github.com/bytedance/1d-tokenizer

DynaMath: Een Dynamische Visuele Maatstaf voor het Evalueren van de Robuustheid van Wiskundige Redenering van Visie-Taalmodellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

De snelle vooruitgang in Vision-Language Modellen (VLM's) heeft een groot potentieel laten zien in het aanpakken van wiskundige redeneertaken die visuele context omvatten. In tegenstelling tot mensen die betrouwbaar oplossingsstappen kunnen toepassen op vergelijkbare problemen met kleine aanpassingen, hebben we ontdekt dat toonaangevende VLM's zoals GPT-4o consequent kunnen falen in deze scenario's, waarbij beperkingen in hun wiskundige redeneervermogen aan het licht komen. In dit artikel onderzoeken we de robuustheid van wiskundige redenering in VLM's en evalueren we hoe goed deze modellen presteren onder verschillende varianten van dezelfde vraag, zoals veranderingen in visuele numerieke waarden of functiegrafieken. Hoewel er verschillende op visie gebaseerde wiskundige benchmarks zijn ontwikkeld om de probleemoplossende capaciteiten van VLM's te beoordelen, bevatten deze benchmarks alleen statische sets van problemen en kunnen ze de robuustheid van wiskundige redenering niet gemakkelijk evalueren. Om deze lacune op te vullen, introduceren we DynaMath, een dynamische visuele wiskundige benchmark die is ontworpen voor een diepgaande beoordeling van VLM's. DynaMath bevat 501 hoogwaardige, multidisciplinaire basisvragen, elk gerepresenteerd als een Python-programma. Die programma's zijn zorgvuldig ontworpen en geannoteerd om de automatische generatie van een veel grotere set concrete vragen mogelijk te maken, inclusief veel verschillende soorten visuele en tekstuele variaties. DynaMath stelt ons in staat om het generalisatievermogen van VLM's te evalueren door hun prestaties te beoordelen onder variërende invoercondities van een basisvraag. We hebben 14 toonaangevende VLM's geëvalueerd met 5.010 gegenereerde concrete vragen. Onze resultaten tonen aan dat de modelnauwkeurigheid in het slechtste geval, gedefinieerd als het percentage correct beantwoorde basisvragen in alle 10 varianten, aanzienlijk lager is dan de nauwkeurigheid in het gemiddelde geval. Onze analyse benadrukt de noodzaak om de robuustheid van de redeneervaardigheden van VLM's te bestuderen, en DynaMath biedt waardevolle inzichten om de ontwikkeling van betrouwbaardere modellen voor wiskundige redenering te sturen.

Fysica in Voorspelling van Volgend Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

We hebben de onderliggende natuurkunde ontdekt in Next-token Prediction (NTP). We hebben de wet van informatiebehoud binnen NTP geïdentificeerd en de Eerste Wet van Informatiecapaciteit (IC-1) voorgesteld, waarbij we aantonen dat de essentie van intelligentie-ontwikkeling in auto-regressieve modellen in wezen een proces van informatieoverdracht is. We hebben ook het principe van Landauer geïntroduceerd in NTP, waarbij we de Tweede Wet van Informatiecapaciteit (IC-2) hebben geformuleerd, die de relatie tussen training van auto-regressieve modellen en energieverbruik vaststelt. Daarnaast hebben we verschillende gevolgtrekkingen gepresenteerd die praktisch belangrijk zijn voor productiepraktijken. Tot slot hebben we de compatibiliteit en aanvullendheid van onze bevindingen met bestaande theorieën bevestigd.

GPT of BERT: waarom niet allebei?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

We presenteren een eenvoudige manier om gemaskerde taalmodellering te combineren met causale taalmodellering. Dit hybride trainingsdoel resulteert in een model dat de sterke punten van beide modelleringsparadigma's combineert binnen een enkele transformer stack: GPT-BERT kan transparant worden gebruikt zoals elk standaard causaal of gemaskeerd taalmodel. We testen het pretrainingproces dat dit flexibele gedrag mogelijk maakt op de BabyLM Challenge 2024. De resultaten tonen aan dat het hybride pretrainingmodel beter presteert dan modellen die alleen gemaskeerd of alleen causaal zijn. We maken de modellen, trainingscorpora en code openlijk beschikbaar.

Onderzoek naar Gebruikersinterfaceontwerp en Interactietechnieken in Generatieve AI-toepassingen
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

De toepassingen van generatieve AI zijn buitengewoon indrukwekkend geworden, en de interactie tussen gebruikers en AI is dat nog meer. De huidige literatuur over mens-AI-interactie heeft een brede kijk genomen op hoe mensen interageren met generatieve AI, maar het ontbreekt aan specificiteit met betrekking tot de ontwerpen en patronen van gebruikersinterfaces die worden gebruikt om deze toepassingen te creëren. Daarom presenteren we een enquête die op een allesomvattende manier taxonomieën presenteert van hoe een mens met AI interageert en de gebruikersinteractiepatronen die zijn ontworpen om te voldoen aan de behoeften van verschillende relevante gebruiksscenario's. We richten ons voornamelijk op door de gebruiker geleide interacties, waarbij we interacties onderzoeken die door de gebruiker worden geïnitieerd en geen impliciete signalen van de gebruiker bevatten. Met deze enquête streven we ernaar een compendium van verschillende gebruikersinteractiepatronen te creëren die kunnen dienen als referentie voor zowel ontwerpers als ontwikkelaars. Hiermee proberen we ook de drempel te verlagen voor degenen die meer willen leren over het ontwerpen van generatieve AI-toepassingen.

Mode-VDM: Video Diffusie Model voor Virtueel Passen
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

We presenteren Fashion-VDM, een videodiffusiemodel (VDM) voor het genereren van virtuele pasvideo's. Met een invoerafbeelding van een kledingstuk en een persoonsvideo beoogt onze methode een hoogwaardige pasvideo te genereren waarop de persoon het betreffende kledingstuk draagt, met behoud van de identiteit en beweging van de persoon. Virtueel passen op basis van afbeeldingen heeft indrukwekkende resultaten laten zien; echter, bestaande methoden voor virtueel passen in video (VVT) missen nog steeds details van het kledingstuk en temporele consistentie. Om deze problemen aan te pakken, stellen we een op diffusie gebaseerde architectuur voor video virtueel passen voor, met een splitsing van classifier-vrije begeleiding voor meer controle over de conditionering inputs, en een progressieve temporale trainingsstrategie voor het genereren van video's in één doorgang met 64 frames en 512px. We tonen ook de effectiviteit aan van gezamenlijke beeld-video training voor video passen, vooral wanneer videogegevens beperkt zijn. Onze kwalitatieve en kwantitatieve experimenten tonen aan dat onze benadering de nieuwe state-of-the-art zet voor video virtueel passen. Voor aanvullende resultaten, bezoek onze projectpagina: https://johannakarras.github.io/Fashion-VDM.

In-Context LoRA voor Diffusion Transformers
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Recent onderzoek arXiv:2410.15027 heeft het gebruik van diffusietransformatoren (DiTs) verkend voor taakagnostische beeldgeneratie door eenvoudigweg aandachtstokens over afbeeldingen samen te voegen. Echter, ondanks aanzienlijke rekenbronnen, blijft de kwaliteit van de gegenereerde beelden suboptimaal. In deze studie herzien en stroomlijnen we dit kader door te veronderstellen dat tekst-naar-beeld DiTs inherent in-context generatiemogelijkheden bezitten, waarbij slechts minimale afstemming nodig is om ze te activeren. Via diverse taakexperimenten tonen we kwalitatief aan dat bestaande tekst-naar-beeld DiTs effectief in-context generatie kunnen uitvoeren zonder enige afstemming. Voortbouwend op deze inzichten stellen we een opmerkelijk eenvoudige pijplijn voor om de in-context mogelijkheden van DiTs te benutten: (1) afbeeldingen samenvoegen in plaats van tokens, (2) gezamenlijke bijschriften maken van meerdere afbeeldingen, en (3) taakspecifieke LoRA-afstemming toepassen met behulp van kleine datasets (bijv. 20sim 100 monsters) in plaats van volledige parameterafstemming met grote datasets. We noemen onze modellen In-Context LoRA (IC-LoRA). Deze benadering vereist geen aanpassingen aan de originele DiT-modellen, alleen veranderingen in de trainingsgegevens. Opmerkelijk genereert onze pijplijn beeldsets met een hoge kwaliteit die beter aansluiten bij de instructies. Hoewel taakspecifiek wat betreft afstemmingsgegevens, blijft ons kader taakagnostisch in architectuur en pijplijn, en biedt het een krachtig instrument voor de gemeenschap en waardevolle inzichten voor verder onderzoek naar taakagnostische generatiesystemen op productniveau. We publiceren onze code, gegevens en modellen op https://github.com/ali-vilab/In-Context-LoRA

Gezichtsanonimisering Vereenvoudigd
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Huidige gezichtsanonimiseringstechnieken zijn vaak afhankelijk van identiteitsverlies berekend door gezichtsherken modellen, die onnauwkeurig en onbetrouwbaar kunnen zijn. Bovendien vereisen veel methoden aanvullende gegevens zoals gezichtskenmerken en maskers om het synthese proces te begeleiden. In tegenstelling hiermee maakt onze benadering gebruik van diffusiemodellen met alleen een reconstructieverlies, waardoor de noodzaak voor gezichtskenmerken of maskers wordt geëlimineerd, terwijl nog steeds afbeeldingen met complexe, fijne details worden geproduceerd. We hebben onze resultaten gevalideerd op twee openbare benchmarks via zowel kwantitatieve als kwalitatieve evaluaties. Ons model behaalt state-of-the-art prestaties op drie belangrijke gebieden: identiteitsanonimisering, behoud van gezichtskenmerken en beeldkwaliteit. Naast zijn primaire functie van anonimisering kan ons model ook gezichtsverwisselingstaken uitvoeren door een extra gezichtsafbeelding als invoer op te nemen, waarbij het zijn veelzijdigheid en potentieel voor diverse toepassingen aantoont. Onze code en modellen zijn beschikbaar op https://github.com/hanweikung/face_anon_simple.

CityGaussianV2: Efficiënte en Meetkundig Nauwkeurige Reconstructie voor Grote Schaal Scènes
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Recentelijk heeft 3D Gaussian Splatting (3DGS) de reconstructie van stralingsvelden gerevolutioneerd, wat resulteert in efficiënte en hoogwaardige synthese van nieuwe weergaven. Echter, het nauwkeurig representeren van oppervlakken, vooral in grote en complexe scenario's, blijft een aanzienlijke uitdaging vanwege de ongestructureerde aard van 3DGS. In dit artikel presenteren we CityGaussianV2, een nieuwe benadering voor reconstructie van scènes op grote schaal die kritieke uitdagingen met betrekking tot geometrische nauwkeurigheid en efficiëntie aanpakt. Voortbouwend op de gunstige generalisatiecapaciteiten van 2D Gaussian Splatting (2DGS), pakken we de convergentie- en schaalbaarheidsproblemen aan. Specifiek implementeren we een gedecomposeerde-gradiënt-gebaseerde verdichtings- en diepteregressietechniek om wazige artefacten te elimineren en de convergentie te versnellen. Om op te schalen introduceren we een verlengingsfilter dat de Gaussische tel-explosie veroorzaakt door 2DGS-degeneratie vermindert. Bovendien optimaliseren we de CityGaussian-pijplijn voor parallelle training, waarbij we tot 10 keer compressie bereiken, minstens 25% besparing in trainingsduur, en een 50% afname in geheugengebruik. We hebben ook standaard geometriebenchmarks vastgesteld onder scènes op grote schaal. Experimentele resultaten tonen aan dat onze methode een veelbelovend evenwicht bereikt tussen visuele kwaliteit, geometrische nauwkeurigheid, evenals opslag- en trainingskosten. De projectpagina is beschikbaar op https://dekuliutesla.github.io/CityGaussianV2/.

Aanpassen tijdens het leren: Grondvesten van LLM's voor wetenschappelijke problemen met intelligente gereedschapsaanpassing
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Grote Taalmodellen (LLM's) tonen veelbelovende mogelijkheden bij het oplossen van eenvoudige wetenschappelijke problemen, maar veroorzaken vaak hallucinaties bij complexe problemen. Door LLM's te integreren met tools kan de betrouwbaarheid toenemen, maar deze aanpak leidt doorgaans tot een te grote afhankelijkheid van tools, waardoor het vermogen van het model om eenvoudige problemen op te lossen via basisredenering afneemt. In tegenstelling hiermee beoordelen menselijke experts eerst de complexiteit van een probleem op basis van domeinkennis alvorens een passende oplossingsmethode te kiezen. Geïnspireerd door dit menselijke probleemoplossingsproces stellen we een nieuw tweecomponenten fine-tuning methode voor. In het eerste component, Wereldkennisdestillatie (WKD), leren LLM's rechtstreeks van oplossingen die zijn gegenereerd met behulp van informatie van tools om domeinkennis te internaliseren. In het tweede component, Toolgebruiksaanpassing (TUA), verdelen we problemen in eenvoudige en moeilijke categorieën op basis van de directe antwoordnauwkeurigheid van het model. Terwijl we voor eenvoudige problemen hetzelfde uitlijningsdoel behouden als bij WKD, trainen we het model om intelligent over te schakelen naar het gebruik van tools voor meer uitdagende problemen. We valideren onze methode op zes wetenschappelijke benchmarkdatasets, waaronder wiskunde, klimaatwetenschap en epidemiologie. Gemiddeld tonen onze modellen een verbetering van 28,18% in antwoordnauwkeurigheid en een toename van 13,89% in precisie van het gebruik van tools over alle datasets, waarbij we state-of-the-art modellen, waaronder GPT-4o en Claude-3.5, overtreffen.

Zipfiaanse whitening.
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

De ruimte van woordembedding in neurale modellen is scheef en het corrigeren hiervan kan de prestaties van taken verbeteren. We wijzen erop dat de meeste benaderingen voor het modelleren, corrigeren en meten van de symmetrie van een embeddingruimte impliciet aannemen dat de woordfrequenties uniform zijn; in werkelijkheid volgen woordfrequenties een sterk niet-uniforme verdeling, bekend als de wet van Zipf. Verrassend genoeg verbetert eenvoudigweg het uitvoeren van PCA-whitening gewogen door de empirische woordfrequentie die de wet van Zipf volgt aanzienlijk de prestaties van taken, waarbij gevestigde baselines worden overtroffen. Vanuit een theoretisch perspectief kunnen zowel onze benadering als bestaande methoden duidelijk worden gecategoriseerd: woordrepresentaties zijn verdeeld volgens een exponentiële familie met ofwel uniforme of Zipfiaanse basismaten. Door de laatstgenoemde benadering te adopteren, kunnen we op natuurlijke wijze informatieve woorden met een lage frequentie benadrukken wat betreft hun vectornorm, wat duidelijk wordt vanuit het informatiegeometrische perspectief, en wat betreft de verliesfuncties voor onevenwichtige classificatie. Bovendien bevestigt onze theorie dat populaire methoden voor natuurlijke taalverwerking, zoals skip-gram negatieve bemonstering, WhiteningBERT en hoofdloze taalmodellen, goed werken alleen omdat hun woordembedding de empirische woordfrequentie codeert in het onderliggende probabilistische model.

HelloMeme: Het integreren van ruimtelijke brei-aandachtspunten om hoog-niveau en rijk-gedetailleerde omstandigheden in diffusiemodellen in te bedden
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

We stellen een effectieve methode voor om adapters in tekst-naar-afbeelding basis modellen in te voegen, waardoor complexe downstream taken kunnen worden uitgevoerd terwijl de generalisatiecapaciteit van het basismodel behouden blijft. Het kernidee van deze methode is om de aandachtsmechanismen met betrekking tot 2D kenmerkkaarten te optimaliseren, wat de prestaties van de adapter verbetert. Deze benadering is gevalideerd op de taak van meme video generatie en behaalde significante resultaten. We hopen dat dit werk inzichten kan bieden voor post-trainingstaken van grote tekst-naar-afbeelding modellen. Bovendien, aangezien deze methode goede compatibiliteit met SD1.5 afgeleide modellen aantoont, heeft het bepaalde waarde voor de open-source gemeenschap. Daarom zullen we de gerelateerde code vrijgeven (https://songkey.github.io/hellomeme).

LIBMoE: Een bibliotheek voor uitgebreide benchmarking van Mengmodellen van Experts in Grote Taalmodellen
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Mixture of Experts (MoEs) speelt een belangrijke rol in de ontwikkeling van meer efficiënte en effectieve grote taalmodellen (LLMs). Vanwege de enorme resourcevereisten blijven de studie van grootschalige MoE-algoritmes ontoegankelijk voor veel onderzoekers. Dit werk ontwikkelt LibMoE, een uitgebreid en modulair framework om het onderzoek, de training en de evaluatie van MoE-algoritmes te stroomlijnen. Gebaseerd op drie kernprincipes: (i) modulair ontwerp, (ii) efficiënte training; (iii) uitgebreide evaluatie, maakt LibMoE MoE in LLMs toegankelijker voor een breed scala aan onderzoekers door de training en evaluatiepijplijnen te standaardiseren. Met behulp van LibMoE hebben we uitgebreid vijf toonaangevende MoE-algoritmes getest op drie verschillende LLMs en 11 datasets onder de zero-shot instelling. De resultaten tonen aan dat ondanks de unieke kenmerken, alle MoE-algoritmes ongeveer vergelijkbaar presteren wanneer ze gemiddeld worden over een breed scala aan taken. Met het modulaire ontwerp en uitgebreide evaluatie geloven we dat LibMoE van onschatbare waarde zal zijn voor onderzoekers om zinvolle vooruitgang te boeken naar de volgende generatie van MoE en LLMs. Projectpagina: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Voorspelling van de gezondheidstoestand van Li-ion batterijen met behulp van Mamba State Space modellen
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

De gezondheidstoestand (SOH) van een Li-ion batterij is een kritieke parameter die de resterende capaciteit en de resterende levensduur van de batterij bepaalt. In dit artikel stellen we SambaMixer voor, een nieuw gestructureerd toestandsruimtemodel (SSM) voor het voorspellen van de gezondheidstoestand van Li-ion batterijen. Het voorgestelde SSM is gebaseerd op de MambaMixer-architectuur, die is ontworpen om multivariate tijdsignalen te verwerken. We evalueren ons model op de NASA-batterijontlaaddataset en tonen aan dat ons model beter presteert dan de state-of-the-art op deze dataset. We introduceren verder een nieuw anker-gebaseerde hersteekmethode die ervoor zorgt dat tijdsignalen de verwachte lengte hebben, terwijl het ook dient als augmentatietechniek. Tenslotte conditioneren we de voorspelling op de steektijd en het cyclustijdsverschil met behulp van positionele coderingen om de prestaties van ons model te verbeteren en om hersteleffecten te leren. Onze resultaten bewijzen dat ons model in staat is om de SOH van Li-ion batterijen met hoge nauwkeurigheid en robuustheid te voorspellen.

GRS-QA -- Dataset voor Vraag-antwoord met Grafische Redenering
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Grote Taalmodellen (LLM's) hebben uitgeblonken in meerstapsvraagbeantwoording (M-QA) vanwege hun geavanceerde redeneervermogen. De impact van de inherente redeneerstructuren op de prestaties van LLM M-QA blijft echter onduidelijk, grotendeels door het ontbreken van QA-datasets die gedetailleerde redeneerstructuren bieden. Om deze lacune aan te pakken, introduceren we de Grafische Redeneer-Gestructureerde Vraag-Antwoord Dataset (GRS-QA), die zowel semantische contexten als redeneerstructuren voor QA-paren bevat. In tegenstelling tot bestaande M-QA-datasets, waar verschillende redeneerstructuren door elkaar lopen, legt GRS-QA expliciet complexe redeneerpaden vast door redeneergrafen te construeren, waarbij knooppunten tekstuele contexten vertegenwoordigen en randen logische stromen aangeven. Deze redeneergrafen van verschillende structuren maken een gedetailleerde evaluatie van LLM-redeneervermogens over verschillende redeneerstructuren mogelijk. Onze empirische analyse onthult dat LLM's verschillend presteren bij het behandelen van vragen met verschillende redeneerstructuren. Deze bevinding vergemakkelijkt de verkenning van tekstuele structuren in vergelijking met semantiek.

M2rc-Eval: Grootschalige Meertalige Repository-niveau Code-aanvulling Evaluatie
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

Het niveau van code-aanvulling op repository-niveau heeft veel aandacht gekregen in de software-engineering, en verschillende benchmark datasets zijn geïntroduceerd. Echter, bestaande benchmark datasets voor code-aanvulling op repository-niveau richten zich meestal op een beperkt aantal talen (<5), wat niet de algemene code-intelligentievaardigheden kan evalueren over verschillende talen voor bestaande Large Language Models (LLMs). Bovendien rapporteren de bestaande benchmarks meestal algemene gemiddelde scores voor verschillende talen, waarbij de gedetailleerde vaardigheden in verschillende aanvullingsscenario's worden genegeerd. Daarom stellen we, om het onderzoek naar code-LLMs in meertalige scenario's te vergemakkelijken, een grootschalige meertalige benchmark voor code-aanvulling op repository-niveau voor die 18 programmeertalen bestrijkt (genaamd M2RC-EVAL), en twee soorten gedetailleerde annotaties (d.w.z. bucket-niveau en semantisch niveau) voor verschillende aanvullingsscenario's worden verstrekt, waarbij we deze annotaties verkrijgen op basis van de geparseerde abstracte syntaxisboom. Bovendien cureren we ook een grootschalige meertalige instructiecorpora M2RC-INSTRUCT dataset om de code-aanvullingsvaardigheden op repository-niveau van bestaande code-LLMs te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze M2RC-EVAL en M2RC-INSTRUCT aan.

WikiNER-fr-gold: Een NER-corpus van gouden standaard
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

In dit artikel behandelen we de kwaliteit van de WikiNER-corpus, een meertalige corpus voor het herkennen van vernoemde entiteiten, en bieden we een geconsolideerde versie ervan aan. De annotatie van WikiNER is op een semi-supervised manier geproduceerd, d.w.z. er is geen handmatige verificatie achteraf uitgevoerd. Een dergelijke corpus wordt een zilveren standaard genoemd. In dit artikel stellen we WikiNER-fr-gold voor, wat een herziene versie is van het Franse deel van WikiNER. Onze corpus bestaat uit willekeurig gesamplede 20% van de oorspronkelijke Franse sub-corpus (26.818 zinnen met 700k tokens). We beginnen met het samenvatten van de entiteitstypen die in elke categorie zijn opgenomen om een annotatierichtlijn te definiëren, en vervolgens gaan we over tot het herzien van de corpus. Tot slot presenteren we een analyse van fouten en inconsistenties die zijn waargenomen in de WikiNER-fr-corpus, en bespreken we mogelijke toekomstige onderzoeksrichtingen.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

OS-ATLAS: Een Fundamenteel Actiemodel voor Algemene GUI-agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personalisatie van Grote Taalmodellen: Een Overzicht
Personalization of Large Language Models: A Survey

Oct 29

Constante Versnelling Stroom
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

TOMATO: Het beoordelen van visuele temporele redeneervaardigheden in multimodale foundation modellen
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Willekeurige Autoregressieve Visuele Generatie
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: Een Dynamische Visuele Maatstaf voor het Evalueren van de Robuustheid van Wiskundige Redenering van Visie-Taalmodellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Fysica in Voorspelling van Volgend Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT of BERT: waarom niet allebei?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Onderzoek naar Gebruikersinterfaceontwerp en Interactietechnieken in Generatieve AI-toepassingen
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Mode-VDM: Video Diffusie Model voor Virtueel Passen
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

In-Context LoRA voor Diffusion Transformers
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Gezichtsanonimisering Vereenvoudigd
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Efficiënte en Meetkundig Nauwkeurige Reconstructie voor Grote Schaal Scènes
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Aanpassen tijdens het leren: Grondvesten van LLM's voor wetenschappelijke problemen met intelligente gereedschapsaanpassing
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Zipfiaanse whitening.
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

HelloMeme: Het integreren van ruimtelijke brei-aandachtspunten om hoog-niveau en rijk-gedetailleerde omstandigheden in diffusiemodellen in te bedden
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE: Een bibliotheek voor uitgebreide benchmarking van Mengmodellen van Experts in Grote Taalmodellen
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer: Voorspelling van de gezondheidstoestand van Li-ion batterijen met behulp van Mamba State Space modellen
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA -- Dataset voor Vraag-antwoord met Grafische Redenering
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Grootschalige Meertalige Repository-niveau Code-aanvulling Evaluatie
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: Een NER-corpus van gouden standaard
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau