HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

29 papers found

MLGym: Een Nieuw Framework en Benchmark voor de Vooruitgang van AI Onderzoeksagenten
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20

ByDeepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu

192

We introduceren Meta MLGym en MLGym-Bench, een nieuw framework en benchmark voor het evalueren en ontwikkelen van LLM-agents voor AI-onderzoekstaken. Dit is de eerste Gym-omgeving voor machine learning (ML)-taken, die onderzoek mogelijk maakt naar reinforcement learning (RL)-algoritmen voor het trainen van dergelijke agents. MLGym-Bench bestaat uit 13 diverse en open-ended AI-onderzoekstaken uit verschillende domeinen zoals computer vision, natural language processing, reinforcement learning en speltheorie. Het oplossen van deze taken vereist real-world AI-onderzoekvaardigheden, zoals het genereren van nieuwe ideeën en hypothesen, het creëren en verwerken van data, het implementeren van ML-methoden, het trainen van modellen, het uitvoeren van experimenten, het analyseren van de resultaten en het itereren door dit proces om een gegeven taak te verbeteren. We evalueren een aantal frontier large language models (LLMs) op onze benchmarks, zoals Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview en Gemini-1.5 Pro. Ons MLGym-framework maakt het eenvoudig om nieuwe taken toe te voegen, modellen of agents te integreren en te evalueren, synthetische data op grote schaal te genereren, en nieuwe leeralgoritmen te ontwikkelen voor het trainen van agents op AI-onderzoekstaken. We constateren dat de huidige frontier-modellen de gegeven baselines kunnen verbeteren, meestal door betere hyperparameters te vinden, maar geen nieuwe hypothesen, algoritmen, architecturen of substantiële verbeteringen genereren. We maken ons framework en benchmark open source om toekomstig onderzoek te faciliteren in het bevorderen van de AI-onderzoekcapaciteiten van LLM-agents.

SigLIP 2: Meertalige Visie-Taal Encoders met Verbeterd Semantisch Begrip, Localisatie en Dichte Kenmerken
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20

ByMichael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai

151

We introduceren SigLIP 2, een familie van nieuwe meertalige visie-taal encoders die voortbouwen op het succes van de originele SigLIP. In deze tweede iteratie breiden we het oorspronkelijke beeld-tekst trainingsdoel uit met verschillende eerder onafhankelijk ontwikkelde technieken tot een verenigd recept -- dit omvat captioning-gebaseerde voorpretraining, zelf-gesuperviseerde verliezen (zelf-distillatie, gemaskeerde voorspelling) en online datacuratie. Met deze aanpassingen overtreffen SigLIP 2-modellen hun SigLIP-tegenhangers op alle modelschalen in kerncapaciteiten, waaronder zero-shot classificatie, beeld-tekst retrieval en transferprestaties bij het extraheren van visuele representaties voor Vision-Language Models (VLMs). Bovendien leidt het nieuwe trainingsrecept tot significante verbeteringen op lokalisatie- en dense voorspellingstaken. We trainen ook varianten die meerdere resoluties ondersteunen en de oorspronkelijke beeldverhouding behouden. Tot slot trainen we op een meer diverse datamix die debiasing-technieken omvat, wat leidt tot een veel beter meertalig begrip en verbeterde eerlijkheid. Om gebruikers in staat te stellen een afweging te maken tussen inferentiekosten en prestaties, geven we modelcheckpoints vrij in vier formaten: ViT-B (86M), L (303M), So400m (400M), en g (1B).

SuperGPQA: Schaalvergroting van LLM-evaluatie over 285 afstudeerdisciplines
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20

ByM-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang

104

Grote taalmmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in hoofdstromen academische disciplines zoals wiskunde, natuurkunde en informatica. Echter omvat menselijke kennis meer dan 200 gespecialiseerde disciplines, wat ver buiten het bereik van bestaande benchmarks valt. De capaciteiten van LLMs in veel van deze gespecialiseerde velden - met name in de lichte industrie, landbouw en dienstverlenende disciplines - blijven onvoldoende geëvalueerd. Om dit gat te dichten, presenteren wij SuperGPQA, een uitgebreide benchmark die afstudeerniveau kennis en redeneervaardigheden evalueert over 285 disciplines. Onze benchmark maakt gebruik van een nieuw Human-LLM collaboratief filtermechanisme om triviale of dubbelzinnige vragen te elimineren door iteratieve verfijning gebaseerd op zowel LLM reacties als expert feedback. Onze experimentele resultaten tonen aanzienlijke ruimte voor verbetering in de prestaties van huidige state-of-the-art LLMs over diverse kennisdomeinen (bijv., het op redeneren gerichte model DeepSeek-R1 behaalde de hoogste nauwkeurigheid van 61.82% op SuperGPQA), wat het aanzienlijke gat tussen huidige modelcapaciteiten en kunstmatige algemene intelligentie benadrukt. Daarnaast presenteren wij uitgebreide inzichten uit ons beheer van een grootschalig annotatieproces, waarbij meer dan 80 expert annotators en een interactief Human-LLM collaboratief systeem betrokken waren, wat waardevolle methodologische richtlijnen biedt voor toekomstige onderzoeksinitiatieven van vergelijkbare omvang.

Hoeveel kennis kun je in een LoRA-adapter stoppen zonder de LLM te schaden?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20

BySergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov

De prestaties van Large Language Models (LLMs) op veel taken worden sterk beperkt door de kennis die tijdens het voorafgaande trainen is geleerd en opgeslagen in de parameters van het model. Low-rank adaptation (LoRA) is een populaire en efficiënte trainingsmethode voor het bijwerken of domeinspecifiek aanpassen van LLMs. In deze studie onderzoeken we hoe nieuwe feiten kunnen worden geïntegreerd in een LLM met behulp van LoRA zonder de eerder geleerde kennis in gevaar te brengen. We hebben Llama-3.1-8B-instruct verfijnd met LoRA, waarbij we verschillende hoeveelheden nieuwe kennis hebben gebruikt. Onze experimenten hebben aangetoond dat de beste resultaten worden behaald wanneer de trainingsgegevens een mix bevatten van bekende en nieuwe feiten. Deze aanpak is echter nog steeds potentieel schadelijk, omdat de prestaties van het model op externe vraag-antwoordbenchmarks afnemen na een dergelijke verfijning. Wanneer de trainingsgegevens bevooroordeeld zijn ten opzichte van bepaalde entiteiten, neigt het model ernaar terug te vallen op enkele oververtegenwoordigde antwoorden. Daarnaast hebben we vastgesteld dat het model zelfverzekerder wordt en slechts in enkele gevallen weigert een antwoord te geven. Deze bevindingen benadrukken de potentiële valkuilen van LoRA-gebaseerde LLM-updates en onderstrepen het belang van de samenstelling van de trainingsgegevens en het afstemmen van parameters om de integratie van nieuwe kennis en de algemene modelcapaciteiten in evenwicht te brengen.

S: Testtijd Schaling voor Codegeneratie
S: Test Time Scaling for Code Generation

Feb 20

ByDacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica

Het verhogen van de rekentijd tijdens het testen van LLM's toont belofte in verschillende domeinen, maar blijft onderbelicht in codegeneratie, ondanks uitgebreid onderzoek in wiskunde. In dit artikel stellen we S* voor, het eerste hybride test-time schalingsframework dat de dekking en selectienauwkeurigheid van gegenereerde code aanzienlijk verbetert. S* breidt het bestaande parallelle schalingsparadigma uit met sequentiële schaling om de prestatiegrenzen te verleggen. Het maakt verder gebruik van een nieuw selectiemechanisme dat adaptief onderscheidende invoer genereert voor paarsgewijze vergelijking, gecombineerd met uitvoeringsgebaseerde informatie om correcte oplossingen robuust te identificeren. We evalueren over 12 Large Language Models en Large Reasoning Models en tonen aan: (1) S* verbetert consistent de prestaties over modelfamilies en -groottes, waardoor een 3B-model GPT-4o-mini kan overtreffen; (2) S* stelt niet-redeneermodellen in staat redeneermodellen te overtreffen - GPT-4o-mini met S* presteert 3,7% beter dan o1-preview op LiveCodeBench; (3) S* versterkt verder state-of-the-art redeneermodellen - DeepSeek-R1-Distill-Qwen-32B met S* behaalt 85,7% op LiveCodeBench, wat dicht in de buurt komt van o1 (hoog) op 88,5%. De code zal beschikbaar zijn op https://github.com/NovaSky-AI/SkyThought.

Logic-RL: Het Ontketenen van LLM-redenering met Regelgebaseerd Reinforcement Learning
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20

ByTian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo

Geïnspireerd door het succes van DeepSeek-R1, onderzoeken we het potentieel van regelgebaseerd reinforcement learning (RL) in grote redeneermodellen. Om de dynamiek van redeneren te analyseren, gebruiken we synthetische logische puzzels als trainingsdata vanwege hun beheersbare complexiteit en eenvoudige antwoordverificatie. We leveren enkele belangrijke technische bijdragen die leiden tot effectieve en stabiele RL-training: een systeemprompt die het denk- en antwoordproces benadrukt, een strikte formatbeloningsfunctie die outputs bestraft voor het nemen van shortcuts, en een eenvoudig trainingsrecept dat stabiele convergentie bereikt. Ons 7B-model ontwikkelt geavanceerde redeneervaardigheden—zoals reflectie, verificatie en samenvatting—die afwezig zijn in het logische corpus. Opmerkelijk is dat het, na training op slechts 5K logische problemen, generalisatievermogen toont naar de uitdagende wiskundige benchmarks AIME en AMC.

Het ontdekken van zeer efficiënte, lichtgewicht quantumberichtingscorrectiecodes met reinforcement learning
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20

ByAustin Yubo He, Zi-Wen Liu

De realisatie van schaalbare, fouttolerante quantumcomputing wordt verwacht te steunen op quantumfoutcorrectiecodes. In de zoektocht naar efficiëntere quantumfouttolerantie is een cruciale codeparameter het gewicht van metingen die informatie over fouten extraheren om foutcorrectie mogelijk te maken: aangezien hogere meetgewichten hogere implementatiekosten met zich meebrengen en meer fouten introduceren, is het belangrijk bij het ontwerpen van codes om het meetgewicht te optimaliseren. Dit verklaart de groeiende interesse in quantum low-density parity-check (qLDPC) codes, waarvan het onderzoek zich voornamelijk heeft gericht op de asymptotische (grote-code-limiet) eigenschappen. In dit werk introduceren we een veelzijdige en computationeel efficiënte aanpak voor het verminderen van het gewicht van stabilisatorcodes, gebaseerd op reinforcement learning (RL), die nieuwe codes met laag gewicht oplevert die de standaard aanzienlijk overtreffen in praktisch relevante parameterregimes, en die aanzienlijk verder gaan dan voorheen toegankelijke kleine afstanden. Zo toont onze aanpak bijvoorbeeld besparingen in fysieke qubit-overhead aan in vergelijking met bestaande resultaten met 1 tot 2 ordes van grootte voor codes met gewicht 6, en brengt de overhead binnen een haalbaar bereik voor experimenten in de nabije toekomst. We onderzoeken ook de wisselwerking tussen codeparameters met behulp van ons RL-raamwerk, wat nieuwe inzichten biedt in de potentiële efficiëntie en kracht van praktisch haalbare coderingsstrategieën. Over het geheel genomen tonen onze resultaten aan hoe RL effectief het cruciale maar uitdagende probleem van quantumcode-ontdekking kan bevorderen en daardoor een snellere weg kan faciliteren naar de praktische implementatie van fouttolerante quantumtechnologieën.

PC-Agent: Een Hiërarchisch Multi-Agent Samenwerkingskader voor de Automatisering van Complexe Taken op PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20

ByHaowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang

Op het gebied van MLLM-gebaseerde GUI-agents kent het PC-scenario, in vergelijking met smartphones, niet alleen een complexere interactieve omgeving, maar ook ingewikkeldere intra- en inter-app workflows. Om deze problemen aan te pakken, stellen we een hiërarchisch agentframework voor, genaamd PC-Agent. Specifiek ontwikkelen we, vanuit het perspectief van waarneming, een Active Perception Module (APM) om de ontoereikende mogelijkheden van huidige MLLMs in het waarnemen van schermafbeeldingen te overwinnen. Vanuit het besluitvormingsperspectief stellen we, om complexe gebruikersinstructies en onderling afhankelijke subtaken effectiever te behandelen, een hiërarchische multi-agent samenwerkingsarchitectuur voor die besluitvormingsprocessen opsplitst in Instructie-Subtaak-Actie niveaus. Binnen deze architectuur worden drie agents ingesteld (namelijk Manager, Progress en Decision) voor respectievelijk instructiedecompositie, voortgangsmonitoring en stapsgewijze besluitvorming. Daarnaast wordt een Reflection-agent gebruikt om tijdige bottom-up foutfeedback en aanpassing mogelijk te maken. We introduceren ook een nieuwe benchmark, PC-Eval, met 25 complexe instructies uit de praktijk. Empirische resultaten op PC-Eval tonen aan dat onze PC-Agent een absolute verbetering van 32% in taaksuccespercentage behaalt ten opzichte van eerdere state-of-the-art methoden. De code zal openbaar beschikbaar worden gesteld.

S^2R: Grote Taalmodellen Zelfverificatie en Zelfcorrectie Aanleren via Reinforcement Learning
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18

ByRuotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li

Recente studies hebben de effectiviteit van LLM test-time scaling aangetoond. Echter, bestaande benaderingen om de diepe denkvaardigheden van LLM's te stimuleren, vereisen over het algemeen grootschalige data of aanzienlijke trainingsinspanningen. Tegelijkertijd blijft het onduidelijk hoe de denkvaardigheden van minder krachtige basismodellen kunnen worden verbeterd. In dit werk introduceren we S^2R, een efficiënt framework dat het redeneren van LLM's verbetert door modellen te leren zichzelf te verifiëren en te corrigeren tijdens de inferentie. Specifiek initialiseren we eerst LLM's met iteratief zelfverificatie- en zelfcorrectiegedrag door middel van gesuperviseerde fine-tuning op zorgvuldig samengestelde data. De zelfverificatie- en zelfcorrectievaardigheden worden vervolgens verder versterkt door zowel outcome-level als process-level reinforcement learning, met minimale resourcevereisten, waardoor het model in staat is om zijn redeneerproces adaptief te verfijnen tijdens de inferentie. Onze resultaten tonen aan dat, met slechts 3.1k initialisatievoorbeelden van zelfverificatie- en zelfcorrectiegedrag, Qwen2.5-math-7B een nauwkeurigheidsverbetering bereikt van 51.0\% naar 81.6\%, wat beter presteert dan modellen getraind op een equivalente hoeveelheid long-CoT gedistilleerde data. Uitgebreide experimenten en analyses gebaseerd op drie basismodellen over zowel in-domein als out-of-domein benchmarks valideren de effectiviteit van S^2R. Onze code en data zijn beschikbaar op https://github.com/NineAbyss/S2R.

Heeft tijd zijn plaats? Temporele koppen: waar taalmodellen tijdsspecifieke informatie ophalen
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20

ByYein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang

Hoewel het vermogen van taalmodellen om feiten op te roepen uitgebreid is onderzocht, blijft de manier waarop ze omgaan met tijdelijk veranderende feiten onderbelicht. Wij ontdekken Temporale Heads, specifieke aandachtskoppen die voornamelijk verantwoordelijk zijn voor het verwerken van temporele kennis door middel van circuitanalyse. We bevestigen dat deze koppen aanwezig zijn in meerdere modellen, hoewel hun specifieke locaties kunnen variëren, en hun reacties verschillen afhankelijk van het type kennis en de bijbehorende jaren. Het uitschakelen van deze koppen vermindert het vermogen van het model om tijdspecifieke kennis te herinneren, terwijl de algemene capaciteiten behouden blijven zonder afbreuk te doen aan tijdsonafhankelijke en vraag-antwoordprestaties. Bovendien worden de koppen niet alleen geactiveerd door numerieke voorwaarden ("In 2004") maar ook door tekstuele aliassen ("In het jaar ..."), wat aangeeft dat ze een temporele dimensie coderen die verder gaat dan een eenvoudige numerieke representatie. Verder breiden we de potentie van onze bevindingen uit door te demonstreren hoe temporele kennis kan worden bewerkt door de waarden van deze koppen aan te passen.

LongWriter-V: Het mogelijk maken van ultra-lange en hoogwaardige generatie in visie-taalmodellen
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20

ByShangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

Bestaande Large Vision-Language Models (LVLMs) kunnen inputs verwerken met contextlengtes tot 128k visuele en tekstuele tokens, maar ze hebben moeite om samenhangende outputs te genereren die langer zijn dan 1.000 woorden. We constateren dat de primaire beperking het ontbreken van lange outputvoorbeelden is tijdens supervised fine-tuning (SFT). Om dit probleem aan te pakken, introduceren we LongWriter-V-22k, een SFT-dataset bestaande uit 22.158 voorbeelden, elk met meerdere inputafbeeldingen, een instructie en bijbehorende outputs variërend van 0 tot 10.000 woorden. Bovendien gebruiken we Direct Preference Optimization (DPO) op het SFT-model om lange outputs te bereiken die een hoge trouw aan de inputafbeeldingen behouden. Gezien de hoge kosten van het verzamelen van menselijke feedback voor lange outputs (bijvoorbeeld 3.000 woorden), stellen we IterDPO voor, dat lange outputs in segmenten opbreekt en iteratieve correcties gebruikt om voorkeursparen te vormen met de originele outputs. Daarnaast ontwikkelen we MMLongBench-Write, een benchmark met zes taken om de langgeneratiecapaciteiten van VLMs te evalueren. Ons 7B-parametermodel, getraind met LongWriter-V-22k en IterDPO, behaalt indrukwekkende prestaties op deze benchmark en overtreft grotere propriëtaire modellen zoals GPT-4o. Code en data: https://github.com/THU-KEG/LongWriter-V

Hoe je je LLM kunt laten uitdagende problemen genereren voor evaluatie
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20

ByArkil Patel, Siva Reddy, Dzmitry Bahdanau

Het tempo van de evolutie van Large Language Models (LLM's) vereist nieuwe benaderingen voor rigoureuze en uitgebreide evaluatie. Traditionele menselijke annotatie wordt steeds onpraktischer vanwege de complexiteit en kosten die gepaard gaan met het genereren van hoogwaardige, uitdagende problemen. In dit werk introduceren we CHASE, een uniform raamwerk om synthetisch uitdagende problemen te genereren met behulp van LLM's zonder menselijke betrokkenheid. Voor een gegeven taak bouwt onze aanpak een moeilijk probleem op een bottom-up manier op uit eenvoudigere componenten. Bovendien deelt ons raamwerk het generatieproces op in onafhankelijk verifieerbare sub-taken, waardoor een hoog niveau van kwaliteit en correctheid wordt gewaarborgd. We implementeren CHASE om evaluatiebenchmarks te creëren in drie diverse domeinen: (1) documentgebaseerde vraagbeantwoording, (2) repository-level codecompletering, en (3) wiskundig redeneren. De prestaties van state-of-the-art LLM's op deze synthetische benchmarks liggen in het bereik van 40-60% nauwkeurigheid, wat de effectiviteit van ons raamwerk bij het genereren van uitdagende problemen aantoont. We maken onze benchmarks en code publiekelijk beschikbaar.

Dynamische Concept Personalisatie vanuit Enkele Video's
Dynamic Concepts Personalization from Single Videos

Feb 20

ByRameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman

Het personaliseren van generatieve tekst-naar-beeldmodellen heeft opmerkelijke vooruitgang geboekt, maar het uitbreiden van deze personalisatie naar tekst-naar-videomodellen brengt unieke uitdagingen met zich mee. In tegenstelling tot statische concepten, heeft het personaliseren van tekst-naar-videomodellen het potentieel om dynamische concepten vast te leggen, d.w.z. entiteiten die niet alleen worden gedefinieerd door hun uiterlijk, maar ook door hun beweging. In dit artikel introduceren we Set-and-Sequence, een nieuw framework voor het personaliseren van op Diffusion Transformers (DiTs) gebaseerde generatieve videomodellen met dynamische concepten. Onze aanpak legt een spatio-temporele gewichtsruimte op binnen een architectuur die ruimtelijke en temporele kenmerken niet expliciet scheidt. Dit wordt bereikt in twee belangrijke fasen. Eerst fine-tunen we Low-Rank Adaptation (LoRA)-lagen met behulp van een ongeordende set frames uit de video om een identiteit LoRA-basis te leren die het uiterlijk vertegenwoordigt, vrij van temporele interferentie. In de tweede fase, met de identiteit LoRA's bevroren, verrijken we hun coëfficiënten met Motion Residuals en fine-tunen we ze op de volledige videosequentie, waarbij we bewegingsdynamiek vastleggen. Ons Set-and-Sequence framework resulteert in een spatio-temporele gewichtsruimte die dynamische concepten effectief in het uitvoerdomein van het videomodel inbedt, wat ongekende bewerkbaarheid en compositionaliteit mogelijk maakt, terwijl het een nieuwe standaard zet voor het personaliseren van dynamische concepten.

AlphaMaze: Verbetering van ruimtelijke intelligentie in grote taalmodellen via GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20

ByAlan Dao, Dinh Bach Vu

Grote Taalmodellen (LLM's) hebben indrukwekkende capaciteiten getoond in taalverwerking, maar ze hebben vaak moeite met taken die echt visueel ruimtelijk redeneren vereisen. In dit artikel introduceren we een nieuw tweestaps trainingsraamwerk dat is ontworpen om standaard LLM's uit te rusten met visuele redeneervaardigheden voor doolhofnavigatie. Eerst maken we gebruik van Supervised Fine Tuning (SFT) op een gecureerde dataset van getokeniseerde doolhofrepresentaties om het model te leren stapsgewijze bewegingen te voorspellen. Vervolgens passen we Group Relative Policy Optimization (GRPO) toe—een techniek die wordt gebruikt in DeepSeekR1—met een zorgvuldig ontworpen beloningsfunctie om het sequentiële besluitvormingsproces van het model te verfijnen en emergente keten-van-gedachten gedragingen te stimuleren. Experimentele resultaten op synthetisch gegenereerde doolhoven tonen aan dat terwijl een basismodel faalt in het navigeren door het doolhof, het SFT-getrainde model een nauwkeurigheid van 86% behaalt, en verdere GRPO-finetuning de nauwkeurigheid verhoogt tot 93%. Kwalitatieve analyses onthullen dat GRPO robuuster en zelfcorrigerend redeneren bevordert, wat het potentieel van onze aanpak benadrukt om de kloof tussen taalmodelen en visueel ruimtelijke taken te overbruggen. Deze bevindingen bieden veelbelovende implicaties voor toepassingen in robotica, autonome navigatie en andere domeinen die geïntegreerd visueel en sequentieel redeneren vereisen.

Schaalbaar begrip van tekstrijke afbeeldingen via code-gestuurde synthetische multimodale datageneratie
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20

ByYue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark

Redeneren over afbeeldingen met rijke tekst, zoals grafieken en documenten, is een cruciale toepassing van visie-taalmodellen (VLMs). Echter, VLMs hebben vaak moeite in deze domeinen vanwege het gebrek aan diverse tekstrijke visie-taalgegevens. Om deze uitdaging aan te pakken, presenteren we CoSyn, een raamwerk dat gebruikmaakt van de programmeercapaciteiten van tekstgebaseerde grote taalmodellen (LLMs) om automatisch synthetische tekstrijke multimodale gegevens te creëren. Gegeven invoertekst die een doeldomein beschrijft (bijv. "voedingswaardelabels"), vraagt CoSyn een LLM om code (Python, HTML, LaTeX, etc.) te genereren voor het renderen van synthetische afbeeldingen. Met de onderliggende code als tekstuele representaties van de synthetische afbeeldingen, kan CoSyn hoogwaardige instructie-afstemmingsgegevens genereren, opnieuw vertrouwend op een tekstgebaseerde LLM. Met CoSyn hebben we een dataset samengesteld bestaande uit 400K afbeeldingen en 2,7 miljoen rijen visie-taal instructie-afstemmingsgegevens. Uitgebreide experimenten op zeven benchmarks tonen aan dat modellen die getraind zijn op onze synthetische gegevens state-of-the-art prestaties behalen onder concurrerende open-source modellen, waaronder Llama 3.2, en propriëtaire modellen zoals GPT-4V en Gemini 1.5 Flash overtreffen. Bovendien kan CoSyn synthetische aanwijsgegevens produceren, waardoor VLMs informatie binnen invoerafbeeldingen kunnen verankeren, wat het potentieel aantoont voor het ontwikkelen van multimodale agents die in staat zijn om in real-world omgevingen te handelen.

Van RAG naar Geheugen: Niet-parametrisch continu leren voor grote taalmodel- len
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

Feb 20

ByBernal Jiménez Gutiérrez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su

Ons vermogen om voortdurend kennis te verwerven, te organiseren en te benutten, is een belangrijk kenmerk van menselijke intelligentie dat AI-systemen moeten benaderen om hun volledige potentieel te ontsluiten. Gezien de uitdagingen in continu leren met grote taalmodelen (LLMs), is retrieval-augmented generation (RAG) de dominante methode geworden om nieuwe informatie te introduceren. Echter, de afhankelijkheid van vectorretrieval belemmert het vermogen om de dynamische en onderling verbonden aard van het menselijk langetermijngeheugen na te bootsen. Recente RAG-benaderingen verrijken vector-embeddings met verschillende structuren zoals kennisgrafieken om enkele van deze tekortkomingen aan te pakken, met name zingeving en associativiteit. Hun prestaties op meer basale feitelijke geheugentaken vallen echter aanzienlijk lager uit dan standaard RAG. Wij pakken deze onbedoelde verslechtering aan en stellen HippoRAG 2 voor, een framework dat standaard RAG alomvattend overtreft op feitelijke, zingevende en associatieve geheugentaken. HippoRAG 2 bouwt voort op het Personalized PageRank-algoritme dat in HippoRAG wordt gebruikt en versterkt het met een diepere integratie van passages en een effectiever online gebruik van een LLM. Deze combinatie brengt dit RAG-systeem dichter bij de effectiviteit van het menselijk langetermijngeheugen, met een verbetering van 7% in associatieve geheugentaken ten opzichte van het state-of-the-art embedding-model, terwijl het ook superieure feitelijke kennis en zingevende geheugencapaciteiten vertoont. Dit werk baant de weg voor niet-parametrisch continu leren voor LLMs. Onze code en gegevens zullen worden vrijgegeven op https://github.com/OSU-NLP-Group/HippoRAG.

LServe: Efficiënte Long-sequence LLM-bediening met Uniforme Sparse Aandacht
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Feb 20

ByShang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

Grote taalmmodellen (LLMs) hebben opmerkelijke potentie getoond in het verwerken van lange sequenties, maar het efficiënt bedienen van deze lang-context modellen blijft een uitdaging vanwege de kwadratische rekencomplexiteit van aandacht in de prefilling-fase en het grote geheugenverbruik van de KV-cache in de decodering-fase. Om deze problemen aan te pakken, introduceren we LServe, een efficiënt systeem dat het bedienen van lange-sequentie LLMs versnelt via hybride sparse aandacht. Deze methode verenigt verschillende hardwarevriendelijke, gestructureerde sparsity-patronen voor zowel prefilling- als decodering-aandacht in een enkel raamwerk, waarbij berekeningen op minder belangrijke tokens bloksgewijs worden overgeslagen. LServe toont de compatibiliteit van statische en dynamische sparsity in lang-context LLM-aandacht aan. Dit ontwerp maakt multiplicatieve snelheidswinsten mogelijk door deze optimalisaties te combineren. Specifiek zetten we de helft van de aandachtskoppen om in bijna gratis streamingkoppen in zowel de prefilling- als de decodering-fasen. Daarnaast ontdekken we dat slechts een constant aantal KV-pagina's nodig is om lang-contextmogelijkheden te behouden, ongeacht de contextlengte. Vervolgens ontwerpen we een hiërarchisch KV-paginaselectiebeleid dat KV-pagina's dynamisch snoeit op basis van query-gerichte gelijkenis. Gemiddeld versnelt LServe LLM-prefilling tot 2,9x en decodering met 1,3-2,1x ten opzichte van vLLM, terwijl de nauwkeurigheid van de lang-context behouden blijft. De code is vrijgegeven op https://github.com/mit-han-lab/omniserve.

RelaCtrl: Relevantie-Gestuurde Efficiënte Controle voor Diffusie-Transformers
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Feb 20

ByKe Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang

De Diffusion Transformer speelt een cruciale rol in de vooruitgang van tekst-naar-beeld en tekst-naar-video generatie, voornamelijk vanwege zijn inherente schaalbaarheid. Bestaande methoden voor gecontroleerde diffusion transformers leiden echter tot aanzienlijke parameter- en rekenkosten en kampen met inefficiënte resourceallocatie, omdat ze geen rekening houden met de variërende relevantie van controle-informatie over verschillende transformer-lagen. Om dit aan te pakken, stellen we het Relevance-Guided Efficient Controllable Generation framework voor, RelaCtrl, dat een efficiënte en resource-geoptimaliseerde integratie van controlesignalen in de Diffusion Transformer mogelijk maakt. Eerst evalueren we de relevantie van elke laag in de Diffusion Transformer voor de controle-informatie door de "ControlNet Relevance Score" te beoordelen—dat wil zeggen, de impact van het overslaan van elke controlelaag op zowel de kwaliteit van de generatie als de controle-effectiviteit tijdens inferentie. Op basis van de sterkte van de relevantie passen we vervolgens de positionering, parameterschaal en modelleercapaciteit van de controlelagen aan om onnodige parameters en redundante berekeningen te verminderen. Daarnaast vervangen we, om de efficiëntie verder te verbeteren, de self-attention en FFN in het veelgebruikte copy block door de zorgvuldig ontworpen Two-Dimensional Shuffle Mixer (TDSM), wat een efficiënte implementatie van zowel de token mixer als de channel mixer mogelijk maakt. Zowel kwalitatieve als kwantitatieve experimentele resultaten tonen aan dat onze aanpak superieure prestaties bereikt met slechts 15% van de parameters en rekencomplexiteit in vergelijking met PixArt-delta. Meer voorbeelden zijn beschikbaar op https://relactrl.github.io/RelaCtrl/.

CLIPPER: Compressie maakt synthetische gegevensgeneratie met lange context mogelijk
CLIPPER: Compression enables long-context synthetic data generation

Feb 20

ByChau Minh Pham, Yapei Chang, Mohit Iyyer

Ontwikkelaars van LLM's zijn steeds meer afhankelijk van synthetische data, maar het genereren van hoogwaardige data voor complexe lang-context redeneertaken blijft een uitdaging. Wij introduceren CLIPPER, een compressiegebaseerde aanpak voor het genereren van synthetische data die is toegespitst op narratieve claimverificatie – een taak die redenering over een boek vereist om een gegeven claim te verifiëren. In plaats van claims direct uit de ruwe tekst van het boek te genereren, wat resulteert in claims vol artefacten, comprimeert CLIPPER eerst het boek tot hoofdstukoverzichten en boek samenvattingen, en gebruikt vervolgens deze tussenliggende representaties om complexe claims en bijbehorende gedachtegangen te genereren. In vergelijking met naïeve benaderingen produceert CLIPPER claims die geldiger, beter onderbouwd en complexer zijn. Met CLIPPER hebben we een dataset geconstrueerd van 19K synthetische boekclaims, gekoppeld aan hun bronteksten en gedachtegangen, en hebben we deze gebruikt om drie open-weight modellen te finetunen. Ons beste model behaalt baanbrekende resultaten op narratieve claimverificatie (van 28% naar 76% nauwkeurigheid op onze testset) en vestigt een nieuwe state-of-the-art voor sub-10B modellen op de NoCha leaderboard. Verdere analyse toont aan dat onze modellen gedetailleerdere en beter onderbouwde gedachtegangen genereren, terwijl ze ook de prestaties op andere narratieve begriptaken verbeteren (bijv., NarrativeQA).

NAVIG: Analyse met natuurlijke taalbegeleiding met Vision Language Models voor beeldgeolokalisatie
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Feb 20

ByZheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber

Beeldgeolokalisatie is de taak om de specifieke locatie van een afbeelding te voorspellen en vereist complexe redenering over visuele, geografische en culturele contexten. Hoewel eerdere Vision Language Models (VLMs) de beste nauwkeurigheid hebben bij deze taak, is er een gebrek aan hoogwaardige datasets en modellen voor analytische redenering. We creëren eerst NaviClues, een hoogwaardige dataset afgeleid van GeoGuessr, een populair geografiespel, om voorbeelden te leveren van expertredenering uit taal. Met behulp van deze dataset presenteren we Navig, een uitgebreid raamwerk voor beeldgeolokalisatie dat globale en gedetailleerde beeldinformatie integreert. Door te redeneren met taal, vermindert Navig de gemiddelde afstandsfout met 14% in vergelijking met eerdere state-of-the-art modellen, terwijl er minder dan 1000 trainingsvoorbeelden nodig zijn. Onze dataset en code zijn beschikbaar op https://github.com/SparrowZheyuan18/Navig/.

Het verbeteren van cognitie en uitlegbaarheid van multimodale foundation-modellen met zelf-gegenereerde data
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Feb 19

ByYucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu

Grote multimodale modellen (LMMs) hebben indrukwekkende capaciteiten getoond in een breed scala aan visuele taken. Ze hebben echter vaak moeite met fijnmazige visuele redenering, waarbij ze domeinspecifieke doelstellingen niet kunnen identificeren en geen rechtvaardigbare verklaringen kunnen geven voor hun voorspellingen. Om dit aan te pakken, stellen we een nieuw visueel afwijzingssteekproefkader voor om de cognitie en uitlegbaarheid van LMMs te verbeteren met behulp van zelf gesynthetiseerde data. Specifiek vereist visuele fine-tuning afbeeldingen, vragen en doelantwoorden. Onze aanpak begint met het synthetiseren van interpreteerbare antwoorden die menselijk verifieerbare visuele kenmerken bevatten. Deze kenmerken zijn gebaseerd op door experts gedefinieerde concepten, zorgvuldig geselecteerd op basis van hun overeenstemming met de beeldinhoud. Na elke ronde van fine-tuning passen we een beloningsmodelvrij filtermechanisme toe om de hoogste kwaliteit interpreteerbare antwoorden te selecteren voor de volgende ronde van afstemming. Dit iteratieve proces van datasynthese en fine-tuning verbetert geleidelijk het vermogen van het model om accurate en redelijke verklaringen te genereren. Experimentele resultaten tonen de effectiviteit van onze methode aan in het verbeteren van zowel de nauwkeurigheid als de uitlegbaarheid van gespecialiseerde visuele classificatietaken.

Multimodal RewardBench: Holistische Evaluatie van Beloningsmodellen voor Visueel-Taalmodellen
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

Feb 20

ByMichihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad

Beloningsmodellen spelen een essentiële rol bij het trainen van visie-taalmodellen (VLMs) door de kwaliteit van de uitvoer te beoordelen, waardoor afstemming met menselijke voorkeuren mogelijk wordt. Ondanks hun belang ontbreekt het de onderzoeksgemeenschap aan uitgebreide open benchmarks voor het evalueren van multimodale beloningsmodellen in VLMs. Om dit gat te dichten, introduceren we Multimodal RewardBench, een door experts geannoteerde benchmark die zes domeinen bestrijkt: algemene correctheid, voorkeur, kennis, redeneren, veiligheid en visuele vraagbeantwoording. Onze dataset bestaat uit 5.211 geannoteerde (prompt, gekozen antwoord, afgewezen antwoord) triplets, verzameld uit verschillende VLMs. Bij het evalueren van een reeks VLM-beoordelaars ontdekken we dat zelfs de best presterende modellen, Gemini 1.5 Pro en Claude 3.5 Sonnet, slechts 72% algehele nauwkeurigheid behalen. Opmerkelijk is dat de meeste modellen moeite hebben met de domeinen redeneren en veiligheid. Deze bevindingen suggereren dat Multimodal RewardBench een uitdagende testomgeving biedt voor de verdere ontwikkeling van beloningsmodellen over meerdere domeinen. We publiceren de benchmark op https://github.com/facebookresearch/multimodal_rewardbench.

Het genereren van skyline-datasets voor data science-modellen
Generating Skyline Datasets for Data Science Models

Feb 16

ByMengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu

Het voorbereiden van hoogwaardige datasets die vereist zijn voor diverse data-gedreven AI- en machine learning-modellen, is een hoeksteen geworden in data-gedreven analyses. Traditionele methoden voor datadetectie integreren doorgaans datasets naar een enkele vooraf gedefinieerde kwaliteitsmaatstaf, wat kan leiden tot bias voor downstream taken. Dit artikel introduceert MODis, een framework dat datasets ontdekt door meerdere door de gebruiker gedefinieerde modelprestatiemaatstaven te optimaliseren. Gegeven een set databronnen en een model, selecteert en integreert MODis databronnen in een skyline-dataset, waarover het model de gewenste prestaties in alle prestatiemaatstaven zou moeten behalen. We formuleren MODis als een multi-doel eindige toestandstransducer en leiden drie haalbare algoritmen af om skyline-datasets te genereren. Ons eerste algoritme hanteert een "reduce-from-universal"-strategie, die begint met een universeel schema en iteratief onbelovende data verwijdert. Ons tweede algoritme verlaagt de kosten verder met een bidirectionele strategie die data-augmentatie en -reductie afwisselt. We introduceren ook een diversificatie-algoritme om de bias in skyline-datasets te verminderen. We verifiëren experimenteel de efficiëntie en effectiviteit van onze skyline-datadetectie-algoritmen en demonstreren hun toepassingen in het optimaliseren van data science-pipelines.

LLM-gebaseerd gebruikersprofielbeheer voor aanbevelingssystemen
LLM-based User Profile Management for Recommender System

Feb 20

BySeunghwan Bang, Hwanjun Song

De snelle vooruitgang van Large Language Models (LLM's) heeft nieuwe mogelijkheden geopend in aanbevelingssystemen door zero-shot aanbevelingen mogelijk te maken zonder conventionele training. Ondanks hun potentieel vertrouwen de meeste bestaande werken uitsluitend op de aankoopgeschiedenis van gebruikers, waardoor er aanzienlijke ruimte voor verbetering overblijft door het integreren van door gebruikers gegenereerde tekstuele gegevens, zoals recensies en productbeschrijvingen. Om deze kloof te overbruggen, stellen we PURE voor, een nieuw LLM-gebaseerd aanbevelingsframework dat evoluerende gebruikersprofielen opbouwt en onderhoudt door systematisch sleutelinformatie uit gebruikersrecensies te extraheren en samen te vatten. PURE bestaat uit drie kerncomponenten: een Review Extractor voor het identificeren van gebruikersvoorkeuren en belangrijke productkenmerken, een Profile Updater voor het verfijnen en bijwerken van gebruikersprofielen, en een Recommender voor het genereren van gepersonaliseerde aanbevelingen op basis van het meest actuele profiel. Om PURE te evalueren, introduceren we een continue sequentiële aanbevelingstaak die realistische scenario's weerspiegelt door recensies in de loop van de tijd toe te voegen en voorspellingen incrementeel bij te werken. Onze experimentele resultaten op Amazon-datasets tonen aan dat PURE bestaande LLM-gebaseerde methoden overtreft, waarbij het effectief gebruik maakt van langetermijngebruikersinformatie en tegelijkertijd omgaat met tokenbeperkingen.

Symmetrisch Visueel Contrastief Optimaliseren: Het Uitlijnen van Visie-Taalmodellen met Minimale Contrastieve Beelden
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Feb 19

ByShengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber

Recente studies hebben aangetoond dat grote visueel-taalmodelen (VLMs) de neiging hebben om beeldinhoud te negeren en te veel te vertrouwen op taalmodelprioriteiten, wat resulteert in fouten in visueel verankerde taken en hallucinaties. We veronderstellen dat dit probleem ontstaat omdat bestaande VLMs niet expliciet zijn getraind om teksten te genereren die nauwkeurig verankerd zijn in fijnmazige beelddetails. Om visuele feedback tijdens de VLM-training te verbeteren, stellen we S-VCO (Symmetrical Visual Contrastive Optimization) voor, een nieuwe finetuning-doelstelling die het model aanstuurt om belangrijke visuele details vast te leggen en af te stemmen op corresponderende teksttokens. Om deze gedetailleerde afstemming verder te vergemakkelijken, introduceren we MVC, een gepaarde beeld-tekstdataset die is opgebouwd door automatisch visuele tegenfeitelijke gegevens te filteren en aan te vullen om het model uit te dagen met moeilijke contrastgevallen die betrekking hebben op minimale visuele contrasten. Experimenten tonen aan dat onze methode de prestaties van VLM's consistent verbetert over diverse benchmarks die verschillende vaardigheden en domeinen bestrijken, met een reductie van hallucinaties tot wel 22% en aanzienlijke verbeteringen in visiegerichte en algemene taken. Opmerkelijk is dat deze verbeteringen steeds duidelijker worden in benchmarks met een hogere visuele afhankelijkheid. Kortom, S-VCO biedt een aanzienlijke verbetering van de visueel afhankelijke taakprestaties van VLM's, terwijl de algemene vaardigheden van het model behouden blijven of zelfs verbeterd worden. We hebben onze code opensource gemaakt op https://s-vco.github.io/.

Geolocatie met Echte Menselijke Speldata: Een Grootschalige Dataset en een Mensachtig Redeneerframework
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

Feb 19

ByZirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen

Geolocatie, de taak om de locatie van een afbeelding te identificeren, vereist complexe redenering en is cruciaal voor navigatie, monitoring en cultureel behoud. Huidige methoden leveren echter vaak grove, onnauwkeurige en niet-interpreteerbare lokalisaties op. Een grote uitdaging ligt in de kwaliteit en schaal van bestaande geolocatiedatasets. Deze datasets zijn meestal kleinschalig en automatisch samengesteld, wat leidt tot rommelige data en inconsistente taakmoeilijkheid, waarbij afbeeldingen ofwel te gemakkelijk antwoorden verraden ofwel onvoldoende aanwijzingen bevatten voor betrouwbare inferentie. Om deze uitdagingen aan te pakken, introduceren we een uitgebreid geolocatieraamwerk met drie kerncomponenten: GeoComp, een grootschalige dataset; GeoCoT, een nieuwe redeneermethode; en GeoEval, een evaluatiemetriek, gezamenlijk ontworpen om kritieke uitdagingen aan te pakken en vooruitgang in geolocatieonderzoek te stimuleren. De kern van dit raamwerk is GeoComp (Geolocation Competition Dataset), een grootschalige dataset verzameld van een geolocatiespelplatform met 740K gebruikers over twee jaar. Het bevat 25 miljoen metadata-invoeren en 3 miljoen geo-getagde locaties die een groot deel van de wereld beslaan, waarbij elke locatie duizenden tot tienduizenden keren is geannoteerd door menselijke gebruikers. De dataset biedt diverse moeilijkheidsgraden voor gedetailleerde analyse en benadrukt belangrijke tekortkomingen in huidige modellen. Op basis van deze dataset stellen we Geographical Chain-of-Thought (GeoCoT) voor, een nieuw meerstappen redeneerraamwerk ontworpen om de redeneercapaciteiten van Large Vision Models (LVMs) in geolocatietaken te verbeteren. GeoCoT verbetert de prestaties door contextuele en ruimtelijke aanwijzingen te integreren via een meerstappenproces dat menselijke geolocatieredenering nabootst. Ten slotte tonen we met de GeoEval-metriek aan dat GeoCoT de geolocatienauwkeurigheid met tot wel 25% verhoogt, terwijl de interpreteerbaarheid wordt verbeterd.

Het genereren van π-functionele moleculen met STGG+ en actief leren
Generating π-Functional Molecules Using STGG+ with Active Learning

Feb 20

ByAlexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu

Het genereren van nieuwe moleculen met eigenschappen die buiten de verdeling vallen, is een grote uitdaging in moleculaire ontdekking. Hoewel methoden voor supervised learning hoogwaardige moleculen genereren die vergelijkbaar zijn met die in een dataset, hebben ze moeite om te generaliseren naar eigenschappen buiten de verdeling. Reinforcement learning kan nieuwe chemische ruimtes verkennen, maar voert vaak 'reward-hacking' uit en genereert niet-synthetiseerbare moleculen. In dit werk pakken we dit probleem aan door een state-of-the-art supervised learning-methode, STGG+, te integreren in een active learning-lus. Onze aanpak genereert, evalueert en verfijnt STGG+ iteratief om continu kennis uit te breiden. We duiden deze aanpak aan als STGG+AL. We passen STGG+AL toe op het ontwerp van organische pi-functionele materialen, specifiek twee uitdagende taken: 1) het genereren van sterk absorberende moleculen gekenmerkt door een hoge oscillatorsterkte en 2) het ontwerpen van absorberende moleculen met een redelijke oscillatorsterkte in het nabij-infrarood (NIR) bereik. De gegenereerde moleculen worden in-silico gevalideerd en gerationaliseerd met tijdafhankelijke dichtheidsfunctionaaltheorie. Onze resultaten tonen aan dat onze methode zeer effectief is in het genereren van nieuwe moleculen met een hoge oscillatorsterkte, in tegenstelling tot bestaande methoden zoals reinforcement learning (RL) methoden. We maken onze active learning-code openbaar, samen met onze Conjugated-xTB dataset die 2,9 miljoen pi-geconjugeerde moleculen bevat en de functie voor het benaderen van de oscillatorsterkte en absorptiegolflengte (gebaseerd op sTDA-xTB).

Hoeveel Hallucineren LLMs in Verschillende Talen? Over Multilinguale Schatting van LLM-Hallucinatie in de Praktijk
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Feb 18

BySaad Obaid ul Islam, Anne Lauscher, Goran Glavaš

In het tijdperk van desinformatie vormt hallucinatie – de neiging van Large Language Models (LLMs) om niet-feitelijke of onbetrouwbare antwoorden te genereren – het grootste risico voor hun wereldwijde nut. Hoewel LLMs steeds meer meertalig worden, is het overgrote deel van het onderzoek naar het detecteren en kwantificeren van LLM-hallucinatie (a) Engelstalig en (b) gericht op machinevertaling (MT) en samenvatting, taken die minder vaak voorkomen "in het wild" dan open informatiezoeken. Daarentegen streven wij ernaar de omvang van LLM-hallucinatie in verschillende talen te kwantificeren in kennisintensieve, langere vraag-antwoordscenario's. Hiertoe trainen we een meertalig model voor het detecteren van hallucinatie en voeren we een grootschalige studie uit over 30 talen en 6 open-source LLM-families. We beginnen met een Engelstalige dataset voor het detecteren van hallucinatie en vertrouwen op MT om (ruwe) trainingsdata in andere talen te genereren. We annoteren ook handmatig gouden data voor vijf talen met veel bronnen; we tonen vervolgens aan, voor deze talen, dat de schattingen van hallucinatiepercentages vergelijkbaar zijn tussen zilveren (LLM-gegenereerde) en gouden testdatasets, wat het gebruik van zilveren data voor het schatten van hallucinatiepercentages voor andere talen valideert. Voor de uiteindelijke schatting van de percentages bouwen we een kennisintensieve vraag-antwoorddataset voor 30 talen met LLM-gegenereerde prompts en Wikipedia-artikelen als referenties. We ontdekken dat, hoewel LLMs langere antwoorden genereren met meer gehallucineerde tokens voor talen met meer bronnen, er geen correlatie is tussen de lengte-genormaliseerde hallucinatiepercentages van talen en hun digitale representatie. Verder vinden we dat kleinere LLMs hogere hallucinatiepercentages vertonen dan grotere modellen.

Ongestructureerde Bewijsattributie voor Query-Gerichte Samenvatting van Lange Contexten
Unstructured Evidence Attribution for Long Context Query Focused Summarization

Feb 20

ByDustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens

Grote taalmodellen (LLMs) zijn in staat samenhangende samenvattingen te genereren uit zeer lange contexten op basis van een gebruikersvraag. Het extraheren en correct citeren van bewijsstukken kan helpen om de transparantie en betrouwbaarheid van deze samenvattingen te verbeteren. Tegelijkertijd hebben LLMs last van positionele biases in termen van welke informatie ze begrijpen en aandacht aan besteden, wat het citeren van bewijs kan beïnvloeden. Waar eerder werk zich richtte op het citeren van bewijs met vooraf gedefinieerde niveaus van granulariteit (bijv. zin, alinea, document, enz.), stellen wij de taak voor van query-gerichte samenvattingen met lange context en ongestructureerd bewijscitaat. We laten zien hoe bestaande systemen moeite hebben om ongestructureerd bewijs uit hun context te genereren en correct te citeren, en dat bewijs vaak "verloren in het midden" raakt. Om dit te helpen verminderen, hebben we de Summaries with Unstructured Evidence Text dataset (SUnsET) gecreëerd, een synthetische dataset gegenereerd met behulp van een nieuwe domein-agnostische pijplijn die als supervisie kan worden gebruikt om LLMs aan te passen voor deze taak. We demonstreren over 5 LLMs van verschillende grootte en 4 datasets met uiteenlopende documenttypen en lengtes dat LLMs die zijn aangepast met SUnsET-data relevanter en feitelijk consistenter bewijs genereren dan hun basismodellen, bewijs uit meer diverse locaties in hun context extraheren, en relevantere en consistentere samenvattingen kunnen genereren.