Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Meta MLGym en MLGym-Bench, een nieuw framework en benchmark voor het evalueren en ontwikkelen van LLM-agents voor AI-onderzoekstaken. Dit is de eerste Gym-omgeving voor machine learning (ML)-taken, die onderzoek mogelijk maakt naar reinforcement learning (RL)-algoritmen voor het trainen van dergelijke agents. MLGym-Bench bestaat uit 13 diverse en open-ended AI-onderzoekstaken uit verschillende domeinen zoals computer vision, natural language processing, reinforcement learning en speltheorie. Het oplossen van deze taken vereist real-world AI-onderzoekvaardigheden, zoals het genereren van nieuwe ideeën en hypothesen, het creëren en verwerken van data, het implementeren van ML-methoden, het trainen van modellen, het uitvoeren van experimenten, het analyseren van de resultaten en het itereren door dit proces om een gegeven taak te verbeteren. We evalueren een aantal frontier large language models (LLMs) op onze benchmarks, zoals Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview en Gemini-1.5 Pro. Ons MLGym-framework maakt het eenvoudig om nieuwe taken toe te voegen, modellen of agents te integreren en te evalueren, synthetische data op grote schaal te genereren, en nieuwe leeralgoritmen te ontwikkelen voor het trainen van agents op AI-onderzoekstaken. We constateren dat de huidige frontier-modellen de gegeven baselines kunnen verbeteren, meestal door betere hyperparameters te vinden, maar geen nieuwe hypothesen, algoritmen, architecturen of substantiële verbeteringen genereren. We maken ons framework en benchmark open source om toekomstig onderzoek te faciliteren in het bevorderen van de AI-onderzoekcapaciteiten van LLM-agents.
We introduceren SigLIP 2, een familie van nieuwe meertalige visie-taal encoders die voortbouwen op het succes van de originele SigLIP. In deze tweede iteratie breiden we het oorspronkelijke beeld-tekst trainingsdoel uit met verschillende eerder onafhankelijk ontwikkelde technieken tot een verenigd recept -- dit omvat captioning-gebaseerde voorpretraining, zelf-gesuperviseerde verliezen (zelf-distillatie, gemaskeerde voorspelling) en online datacuratie. Met deze aanpassingen overtreffen SigLIP 2-modellen hun SigLIP-tegenhangers op alle modelschalen in kerncapaciteiten, waaronder zero-shot classificatie, beeld-tekst retrieval en transferprestaties bij het extraheren van visuele representaties voor Vision-Language Models (VLMs). Bovendien leidt het nieuwe trainingsrecept tot significante verbeteringen op lokalisatie- en dense voorspellingstaken. We trainen ook varianten die meerdere resoluties ondersteunen en de oorspronkelijke beeldverhouding behouden. Tot slot trainen we op een meer diverse datamix die debiasing-technieken omvat, wat leidt tot een veel beter meertalig begrip en verbeterde eerlijkheid. Om gebruikers in staat te stellen een afweging te maken tussen inferentiekosten en prestaties, geven we modelcheckpoints vrij in vier formaten: ViT-B (86M), L (303M), So400m (400M), en g (1B).
Grote taalmmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in hoofdstromen academische disciplines zoals wiskunde, natuurkunde en informatica. Echter omvat menselijke kennis meer dan 200 gespecialiseerde disciplines, wat ver buiten het bereik van bestaande benchmarks valt. De capaciteiten van LLMs in veel van deze gespecialiseerde velden - met name in de lichte industrie, landbouw en dienstverlenende disciplines - blijven onvoldoende geëvalueerd. Om dit gat te dichten, presenteren wij SuperGPQA, een uitgebreide benchmark die afstudeerniveau kennis en redeneervaardigheden evalueert over 285 disciplines. Onze benchmark maakt gebruik van een nieuw Human-LLM collaboratief filtermechanisme om triviale of dubbelzinnige vragen te elimineren door iteratieve verfijning gebaseerd op zowel LLM reacties als expert feedback. Onze experimentele resultaten tonen aanzienlijke ruimte voor verbetering in de prestaties van huidige state-of-the-art LLMs over diverse kennisdomeinen (bijv., het op redeneren gerichte model DeepSeek-R1 behaalde de hoogste nauwkeurigheid van 61.82% op SuperGPQA), wat het aanzienlijke gat tussen huidige modelcapaciteiten en kunstmatige algemene intelligentie benadrukt. Daarnaast presenteren wij uitgebreide inzichten uit ons beheer van een grootschalig annotatieproces, waarbij meer dan 80 expert annotators en een interactief Human-LLM collaboratief systeem betrokken waren, wat waardevolle methodologische richtlijnen biedt voor toekomstige onderzoeksinitiatieven van vergelijkbare omvang.
De prestaties van Large Language Models (LLMs) op veel taken worden sterk beperkt door de kennis die tijdens het voorafgaande trainen is geleerd en opgeslagen in de parameters van het model. Low-rank adaptation (LoRA) is een populaire en efficiënte trainingsmethode voor het bijwerken of domeinspecifiek aanpassen van LLMs. In deze studie onderzoeken we hoe nieuwe feiten kunnen worden geïntegreerd in een LLM met behulp van LoRA zonder de eerder geleerde kennis in gevaar te brengen. We hebben Llama-3.1-8B-instruct verfijnd met LoRA, waarbij we verschillende hoeveelheden nieuwe kennis hebben gebruikt. Onze experimenten hebben aangetoond dat de beste resultaten worden behaald wanneer de trainingsgegevens een mix bevatten van bekende en nieuwe feiten. Deze aanpak is echter nog steeds potentieel schadelijk, omdat de prestaties van het model op externe vraag-antwoordbenchmarks afnemen na een dergelijke verfijning. Wanneer de trainingsgegevens bevooroordeeld zijn ten opzichte van bepaalde entiteiten, neigt het model ernaar terug te vallen op enkele oververtegenwoordigde antwoorden. Daarnaast hebben we vastgesteld dat het model zelfverzekerder wordt en slechts in enkele gevallen weigert een antwoord te geven. Deze bevindingen benadrukken de potentiële valkuilen van LoRA-gebaseerde LLM-updates en onderstrepen het belang van de samenstelling van de trainingsgegevens en het afstemmen van parameters om de integratie van nieuwe kennis en de algemene modelcapaciteiten in evenwicht te brengen.
Het verhogen van de rekentijd tijdens het testen van LLM's toont belofte in verschillende domeinen, maar blijft onderbelicht in codegeneratie, ondanks uitgebreid onderzoek in wiskunde. In dit artikel stellen we S* voor, het eerste hybride test-time schalingsframework dat de dekking en selectienauwkeurigheid van gegenereerde code aanzienlijk verbetert. S* breidt het bestaande parallelle schalingsparadigma uit met sequentiële schaling om de prestatiegrenzen te verleggen. Het maakt verder gebruik van een nieuw selectiemechanisme dat adaptief onderscheidende invoer genereert voor paarsgewijze vergelijking, gecombineerd met uitvoeringsgebaseerde informatie om correcte oplossingen robuust te identificeren. We evalueren over 12 Large Language Models en Large Reasoning Models en tonen aan: (1) S* verbetert consistent de prestaties over modelfamilies en -groottes, waardoor een 3B-model GPT-4o-mini kan overtreffen; (2) S* stelt niet-redeneermodellen in staat redeneermodellen te overtreffen - GPT-4o-mini met S* presteert 3,7% beter dan o1-preview op LiveCodeBench; (3) S* versterkt verder state-of-the-art redeneermodellen - DeepSeek-R1-Distill-Qwen-32B met S* behaalt 85,7% op LiveCodeBench, wat dicht in de buurt komt van o1 (hoog) op 88,5%. De code zal beschikbaar zijn op https://github.com/NovaSky-AI/SkyThought.
Geïnspireerd door het succes van DeepSeek-R1, onderzoeken we het potentieel van regelgebaseerd reinforcement learning (RL) in grote redeneermodellen. Om de dynamiek van redeneren te analyseren, gebruiken we synthetische logische puzzels als trainingsdata vanwege hun beheersbare complexiteit en eenvoudige antwoordverificatie. We leveren enkele belangrijke technische bijdragen die leiden tot effectieve en stabiele RL-training: een systeemprompt die het denk- en antwoordproces benadrukt, een strikte formatbeloningsfunctie die outputs bestraft voor het nemen van shortcuts, en een eenvoudig trainingsrecept dat stabiele convergentie bereikt. Ons 7B-model ontwikkelt geavanceerde redeneervaardigheden—zoals reflectie, verificatie en samenvatting—die afwezig zijn in het logische corpus. Opmerkelijk is dat het, na training op slechts 5K logische problemen, generalisatievermogen toont naar de uitdagende wiskundige benchmarks AIME en AMC.
De realisatie van schaalbare, fouttolerante quantumcomputing wordt verwacht te steunen op quantumfoutcorrectiecodes. In de zoektocht naar efficiëntere quantumfouttolerantie is een cruciale codeparameter het gewicht van metingen die informatie over fouten extraheren om foutcorrectie mogelijk te maken: aangezien hogere meetgewichten hogere implementatiekosten met zich meebrengen en meer fouten introduceren, is het belangrijk bij het ontwerpen van codes om het meetgewicht te optimaliseren. Dit verklaart de groeiende interesse in quantum low-density parity-check (qLDPC) codes, waarvan het onderzoek zich voornamelijk heeft gericht op de asymptotische (grote-code-limiet) eigenschappen. In dit werk introduceren we een veelzijdige en computationeel efficiënte aanpak voor het verminderen van het gewicht van stabilisatorcodes, gebaseerd op reinforcement learning (RL), die nieuwe codes met laag gewicht oplevert die de standaard aanzienlijk overtreffen in praktisch relevante parameterregimes, en die aanzienlijk verder gaan dan voorheen toegankelijke kleine afstanden. Zo toont onze aanpak bijvoorbeeld besparingen in fysieke qubit-overhead aan in vergelijking met bestaande resultaten met 1 tot 2 ordes van grootte voor codes met gewicht 6, en brengt de overhead binnen een haalbaar bereik voor experimenten in de nabije toekomst. We onderzoeken ook de wisselwerking tussen codeparameters met behulp van ons RL-raamwerk, wat nieuwe inzichten biedt in de potentiële efficiëntie en kracht van praktisch haalbare coderingsstrategieën. Over het geheel genomen tonen onze resultaten aan hoe RL effectief het cruciale maar uitdagende probleem van quantumcode-ontdekking kan bevorderen en daardoor een snellere weg kan faciliteren naar de praktische implementatie van fouttolerante quantumtechnologieën.
Recente studies hebben de effectiviteit van LLM test-time scaling aangetoond. Echter, bestaande benaderingen om de diepe denkvaardigheden van LLM's te stimuleren, vereisen over het algemeen grootschalige data of aanzienlijke trainingsinspanningen. Tegelijkertijd blijft het onduidelijk hoe de denkvaardigheden van minder krachtige basismodellen kunnen worden verbeterd. In dit werk introduceren we S^2R, een efficiënt framework dat het redeneren van LLM's verbetert door modellen te leren zichzelf te verifiëren en te corrigeren tijdens de inferentie. Specifiek initialiseren we eerst LLM's met iteratief zelfverificatie- en zelfcorrectiegedrag door middel van gesuperviseerde fine-tuning op zorgvuldig samengestelde data. De zelfverificatie- en zelfcorrectievaardigheden worden vervolgens verder versterkt door zowel outcome-level als process-level reinforcement learning, met minimale resourcevereisten, waardoor het model in staat is om zijn redeneerproces adaptief te verfijnen tijdens de inferentie. Onze resultaten tonen aan dat, met slechts 3.1k initialisatievoorbeelden van zelfverificatie- en zelfcorrectiegedrag, Qwen2.5-math-7B een nauwkeurigheidsverbetering bereikt van 51.0\% naar 81.6\%, wat beter presteert dan modellen getraind op een equivalente hoeveelheid long-CoT gedistilleerde data. Uitgebreide experimenten en analyses gebaseerd op drie basismodellen over zowel in-domein als out-of-domein benchmarks valideren de effectiviteit van S^2R. Onze code en data zijn beschikbaar op https://github.com/NineAbyss/S2R.
Hoewel het vermogen van taalmodellen om feiten op te roepen uitgebreid is onderzocht, blijft de manier waarop ze omgaan met tijdelijk veranderende feiten onderbelicht. Wij ontdekken Temporale Heads, specifieke aandachtskoppen die voornamelijk verantwoordelijk zijn voor het verwerken van temporele kennis door middel van circuitanalyse. We bevestigen dat deze koppen aanwezig zijn in meerdere modellen, hoewel hun specifieke locaties kunnen variëren, en hun reacties verschillen afhankelijk van het type kennis en de bijbehorende jaren. Het uitschakelen van deze koppen vermindert het vermogen van het model om tijdspecifieke kennis te herinneren, terwijl de algemene capaciteiten behouden blijven zonder afbreuk te doen aan tijdsonafhankelijke en vraag-antwoordprestaties. Bovendien worden de koppen niet alleen geactiveerd door numerieke voorwaarden ("In 2004") maar ook door tekstuele aliassen ("In het jaar ..."), wat aangeeft dat ze een temporele dimensie coderen die verder gaat dan een eenvoudige numerieke representatie. Verder breiden we de potentie van onze bevindingen uit door te demonstreren hoe temporele kennis kan worden bewerkt door de waarden van deze koppen aan te passen.
Bestaande Large Vision-Language Models (LVLMs) kunnen inputs verwerken met contextlengtes tot 128k visuele en tekstuele tokens, maar ze hebben moeite om samenhangende outputs te genereren die langer zijn dan 1.000 woorden. We constateren dat de primaire beperking het ontbreken van lange outputvoorbeelden is tijdens supervised fine-tuning (SFT). Om dit probleem aan te pakken, introduceren we LongWriter-V-22k, een SFT-dataset bestaande uit 22.158 voorbeelden, elk met meerdere inputafbeeldingen, een instructie en bijbehorende outputs variërend van 0 tot 10.000 woorden. Bovendien gebruiken we Direct Preference Optimization (DPO) op het SFT-model om lange outputs te bereiken die een hoge trouw aan de inputafbeeldingen behouden. Gezien de hoge kosten van het verzamelen van menselijke feedback voor lange outputs (bijvoorbeeld 3.000 woorden), stellen we IterDPO voor, dat lange outputs in segmenten opbreekt en iteratieve correcties gebruikt om voorkeursparen te vormen met de originele outputs. Daarnaast ontwikkelen we MMLongBench-Write, een benchmark met zes taken om de langgeneratiecapaciteiten van VLMs te evalueren. Ons 7B-parametermodel, getraind met LongWriter-V-22k en IterDPO, behaalt indrukwekkende prestaties op deze benchmark en overtreft grotere propriëtaire modellen zoals GPT-4o. Code en data: https://github.com/THU-KEG/LongWriter-V
Op het gebied van MLLM-gebaseerde GUI-agents kent het PC-scenario, in vergelijking met smartphones, niet alleen een complexere interactieve omgeving, maar ook ingewikkeldere intra- en inter-app workflows. Om deze problemen aan te pakken, stellen we een hiërarchisch agentframework voor, genaamd PC-Agent. Specifiek ontwikkelen we, vanuit het perspectief van waarneming, een Active Perception Module (APM) om de ontoereikende mogelijkheden van huidige MLLMs in het waarnemen van schermafbeeldingen te overwinnen. Vanuit het besluitvormingsperspectief stellen we, om complexe gebruikersinstructies en onderling afhankelijke subtaken effectiever te behandelen, een hiërarchische multi-agent samenwerkingsarchitectuur voor die besluitvormingsprocessen opsplitst in Instructie-Subtaak-Actie niveaus. Binnen deze architectuur worden drie agents ingesteld (namelijk Manager, Progress en Decision) voor respectievelijk instructiedecompositie, voortgangsmonitoring en stapsgewijze besluitvorming. Daarnaast wordt een Reflection-agent gebruikt om tijdige bottom-up foutfeedback en aanpassing mogelijk te maken. We introduceren ook een nieuwe benchmark, PC-Eval, met 25 complexe instructies uit de praktijk. Empirische resultaten op PC-Eval tonen aan dat onze PC-Agent een absolute verbetering van 32% in taaksuccespercentage behaalt ten opzichte van eerdere state-of-the-art methoden. De code zal openbaar beschikbaar worden gesteld.
Het tempo van de evolutie van Large Language Models (LLM's) vereist nieuwe benaderingen voor rigoureuze en uitgebreide evaluatie. Traditionele menselijke annotatie wordt steeds onpraktischer vanwege de complexiteit en kosten die gepaard gaan met het genereren van hoogwaardige, uitdagende problemen. In dit werk introduceren we CHASE, een uniform raamwerk om synthetisch uitdagende problemen te genereren met behulp van LLM's zonder menselijke betrokkenheid. Voor een gegeven taak bouwt onze aanpak een moeilijk probleem op een bottom-up manier op uit eenvoudigere componenten. Bovendien deelt ons raamwerk het generatieproces op in onafhankelijk verifieerbare sub-taken, waardoor een hoog niveau van kwaliteit en correctheid wordt gewaarborgd. We implementeren CHASE om evaluatiebenchmarks te creëren in drie diverse domeinen: (1) documentgebaseerde vraagbeantwoording, (2) repository-level codecompletering, en (3) wiskundig redeneren. De prestaties van state-of-the-art LLM's op deze synthetische benchmarks liggen in het bereik van 40-60% nauwkeurigheid, wat de effectiviteit van ons raamwerk bij het genereren van uitdagende problemen aantoont. We maken onze benchmarks en code publiekelijk beschikbaar.
Het personaliseren van generatieve tekst-naar-beeldmodellen heeft opmerkelijke vooruitgang geboekt, maar het uitbreiden van deze personalisatie naar tekst-naar-videomodellen brengt unieke uitdagingen met zich mee. In tegenstelling tot statische concepten, heeft het personaliseren van tekst-naar-videomodellen het potentieel om dynamische concepten vast te leggen, d.w.z. entiteiten die niet alleen worden gedefinieerd door hun uiterlijk, maar ook door hun beweging. In dit artikel introduceren we Set-and-Sequence, een nieuw framework voor het personaliseren van op Diffusion Transformers (DiTs) gebaseerde generatieve videomodellen met dynamische concepten. Onze aanpak legt een spatio-temporele gewichtsruimte op binnen een architectuur die ruimtelijke en temporele kenmerken niet expliciet scheidt. Dit wordt bereikt in twee belangrijke fasen. Eerst fine-tunen we Low-Rank Adaptation (LoRA)-lagen met behulp van een ongeordende set frames uit de video om een identiteit LoRA-basis te leren die het uiterlijk vertegenwoordigt, vrij van temporele interferentie. In de tweede fase, met de identiteit LoRA's bevroren, verrijken we hun coëfficiënten met Motion Residuals en fine-tunen we ze op de volledige videosequentie, waarbij we bewegingsdynamiek vastleggen. Ons Set-and-Sequence framework resulteert in een spatio-temporele gewichtsruimte die dynamische concepten effectief in het uitvoerdomein van het videomodel inbedt, wat ongekende bewerkbaarheid en compositionaliteit mogelijk maakt, terwijl het een nieuwe standaard zet voor het personaliseren van dynamische concepten.
Grote Taalmodellen (LLM's) hebben indrukwekkende capaciteiten getoond in taalverwerking, maar ze hebben vaak moeite met taken die echt visueel ruimtelijk redeneren vereisen. In dit artikel introduceren we een nieuw tweestaps trainingsraamwerk dat is ontworpen om standaard LLM's uit te rusten met visuele redeneervaardigheden voor doolhofnavigatie. Eerst maken we gebruik van Supervised Fine Tuning (SFT) op een gecureerde dataset van getokeniseerde doolhofrepresentaties om het model te leren stapsgewijze bewegingen te voorspellen. Vervolgens passen we Group Relative Policy Optimization (GRPO) toe—een techniek die wordt gebruikt in DeepSeekR1—met een zorgvuldig ontworpen beloningsfunctie om het sequentiële besluitvormingsproces van het model te verfijnen en emergente keten-van-gedachten gedragingen te stimuleren. Experimentele resultaten op synthetisch gegenereerde doolhoven tonen aan dat terwijl een basismodel faalt in het navigeren door het doolhof, het SFT-getrainde model een nauwkeurigheid van 86% behaalt, en verdere GRPO-finetuning de nauwkeurigheid verhoogt tot 93%. Kwalitatieve analyses onthullen dat GRPO robuuster en zelfcorrigerend redeneren bevordert, wat het potentieel van onze aanpak benadrukt om de kloof tussen taalmodelen en visueel ruimtelijke taken te overbruggen. Deze bevindingen bieden veelbelovende implicaties voor toepassingen in robotica, autonome navigatie en andere domeinen die geïntegreerd visueel en sequentieel redeneren vereisen.
Grote taalmmodellen (LLMs) hebben opmerkelijke potentie getoond in het verwerken van lange sequenties, maar het efficiënt bedienen van deze lang-context modellen blijft een uitdaging vanwege de kwadratische rekencomplexiteit van aandacht in de prefilling-fase en het grote geheugenverbruik van de KV-cache in de decodering-fase. Om deze problemen aan te pakken, introduceren we LServe, een efficiënt systeem dat het bedienen van lange-sequentie LLMs versnelt via hybride sparse aandacht. Deze methode verenigt verschillende hardwarevriendelijke, gestructureerde sparsity-patronen voor zowel prefilling- als decodering-aandacht in een enkel raamwerk, waarbij berekeningen op minder belangrijke tokens bloksgewijs worden overgeslagen. LServe toont de compatibiliteit van statische en dynamische sparsity in lang-context LLM-aandacht aan. Dit ontwerp maakt multiplicatieve snelheidswinsten mogelijk door deze optimalisaties te combineren. Specifiek zetten we de helft van de aandachtskoppen om in bijna gratis streamingkoppen in zowel de prefilling- als de decodering-fasen. Daarnaast ontdekken we dat slechts een constant aantal KV-pagina's nodig is om lang-contextmogelijkheden te behouden, ongeacht de contextlengte. Vervolgens ontwerpen we een hiërarchisch KV-paginaselectiebeleid dat KV-pagina's dynamisch snoeit op basis van query-gerichte gelijkenis. Gemiddeld versnelt LServe LLM-prefilling tot 2,9x en decodering met 1,3-2,1x ten opzichte van vLLM, terwijl de nauwkeurigheid van de lang-context behouden blijft. De code is vrijgegeven op https://github.com/mit-han-lab/omniserve.
Redeneren over afbeeldingen met rijke tekst, zoals grafieken en documenten, is een cruciale toepassing van visie-taalmodellen (VLMs). Echter, VLMs hebben vaak moeite in deze domeinen vanwege het gebrek aan diverse tekstrijke visie-taalgegevens. Om deze uitdaging aan te pakken, presenteren we CoSyn, een raamwerk dat gebruikmaakt van de programmeercapaciteiten van tekstgebaseerde grote taalmodellen (LLMs) om automatisch synthetische tekstrijke multimodale gegevens te creëren. Gegeven invoertekst die een doeldomein beschrijft (bijv. "voedingswaardelabels"), vraagt CoSyn een LLM om code (Python, HTML, LaTeX, etc.) te genereren voor het renderen van synthetische afbeeldingen. Met de onderliggende code als tekstuele representaties van de synthetische afbeeldingen, kan CoSyn hoogwaardige instructie-afstemmingsgegevens genereren, opnieuw vertrouwend op een tekstgebaseerde LLM. Met CoSyn hebben we een dataset samengesteld bestaande uit 400K afbeeldingen en 2,7 miljoen rijen visie-taal instructie-afstemmingsgegevens. Uitgebreide experimenten op zeven benchmarks tonen aan dat modellen die getraind zijn op onze synthetische gegevens state-of-the-art prestaties behalen onder concurrerende open-source modellen, waaronder Llama 3.2, en propriëtaire modellen zoals GPT-4V en Gemini 1.5 Flash overtreffen. Bovendien kan CoSyn synthetische aanwijsgegevens produceren, waardoor VLMs informatie binnen invoerafbeeldingen kunnen verankeren, wat het potentieel aantoont voor het ontwikkelen van multimodale agents die in staat zijn om in real-world omgevingen te handelen.
Ons vermogen om voortdurend kennis te verwerven, te organiseren en te benutten, is een belangrijk kenmerk van menselijke intelligentie dat AI-systemen moeten benaderen om hun volledige potentieel te ontsluiten. Gezien de uitdagingen in continu leren met grote taalmodelen (LLMs), is retrieval-augmented generation (RAG) de dominante methode geworden om nieuwe informatie te introduceren. Echter, de afhankelijkheid van vectorretrieval belemmert het vermogen om de dynamische en onderling verbonden aard van het menselijk langetermijngeheugen na te bootsen. Recente RAG-benaderingen verrijken vector-embeddings met verschillende structuren zoals kennisgrafieken om enkele van deze tekortkomingen aan te pakken, met name zingeving en associativiteit. Hun prestaties op meer basale feitelijke geheugentaken vallen echter aanzienlijk lager uit dan standaard RAG. Wij pakken deze onbedoelde verslechtering aan en stellen HippoRAG 2 voor, een framework dat standaard RAG alomvattend overtreft op feitelijke, zingevende en associatieve geheugentaken. HippoRAG 2 bouwt voort op het Personalized PageRank-algoritme dat in HippoRAG wordt gebruikt en versterkt het met een diepere integratie van passages en een effectiever online gebruik van een LLM. Deze combinatie brengt dit RAG-systeem dichter bij de effectiviteit van het menselijk langetermijngeheugen, met een verbetering van 7% in associatieve geheugentaken ten opzichte van het state-of-the-art embedding-model, terwijl het ook superieure feitelijke kennis en zingevende geheugencapaciteiten vertoont. Dit werk baant de weg voor niet-parametrisch continu leren voor LLMs. Onze code en gegevens zullen worden vrijgegeven op https://github.com/OSU-NLP-Group/HippoRAG.
De Diffusion Transformer speelt een cruciale rol in de vooruitgang van tekst-naar-beeld en tekst-naar-video generatie, voornamelijk vanwege zijn inherente schaalbaarheid. Bestaande methoden voor gecontroleerde diffusion transformers leiden echter tot aanzienlijke parameter- en rekenkosten en kampen met inefficiënte resourceallocatie, omdat ze geen rekening houden met de variërende relevantie van controle-informatie over verschillende transformer-lagen. Om dit aan te pakken, stellen we het Relevance-Guided Efficient Controllable Generation framework voor, RelaCtrl, dat een efficiënte en resource-geoptimaliseerde integratie van controlesignalen in de Diffusion Transformer mogelijk maakt. Eerst evalueren we de relevantie van elke laag in de Diffusion Transformer voor de controle-informatie door de "ControlNet Relevance Score" te beoordelen—dat wil zeggen, de impact van het overslaan van elke controlelaag op zowel de kwaliteit van de generatie als de controle-effectiviteit tijdens inferentie. Op basis van de sterkte van de relevantie passen we vervolgens de positionering, parameterschaal en modelleercapaciteit van de controlelagen aan om onnodige parameters en redundante berekeningen te verminderen. Daarnaast vervangen we, om de efficiëntie verder te verbeteren, de self-attention en FFN in het veelgebruikte copy block door de zorgvuldig ontworpen Two-Dimensional Shuffle Mixer (TDSM), wat een efficiënte implementatie van zowel de token mixer als de channel mixer mogelijk maakt. Zowel kwalitatieve als kwantitatieve experimentele resultaten tonen aan dat onze aanpak superieure prestaties bereikt met slechts 15% van de parameters en rekencomplexiteit in vergelijking met PixArt-delta. Meer voorbeelden zijn beschikbaar op https://relactrl.github.io/RelaCtrl/.
Beeldgeolokalisatie is de taak om de specifieke locatie van een afbeelding te voorspellen en vereist complexe redenering over visuele, geografische en culturele contexten. Hoewel eerdere Vision Language Models (VLMs) de beste nauwkeurigheid hebben bij deze taak, is er een gebrek aan hoogwaardige datasets en modellen voor analytische redenering. We creëren eerst NaviClues, een hoogwaardige dataset afgeleid van GeoGuessr, een populair geografiespel, om voorbeelden te leveren van expertredenering uit taal. Met behulp van deze dataset presenteren we Navig, een uitgebreid raamwerk voor beeldgeolokalisatie dat globale en gedetailleerde beeldinformatie integreert. Door te redeneren met taal, vermindert Navig de gemiddelde afstandsfout met 14% in vergelijking met eerdere state-of-the-art modellen, terwijl er minder dan 1000 trainingsvoorbeelden nodig zijn. Onze dataset en code zijn beschikbaar op https://github.com/SparrowZheyuan18/Navig/.
Ontwikkelaars van LLM's zijn steeds meer afhankelijk van synthetische data, maar het genereren van hoogwaardige data voor complexe lang-context redeneertaken blijft een uitdaging. Wij introduceren CLIPPER, een compressiegebaseerde aanpak voor het genereren van synthetische data die is toegespitst op narratieve claimverificatie – een taak die redenering over een boek vereist om een gegeven claim te verifiëren. In plaats van claims direct uit de ruwe tekst van het boek te genereren, wat resulteert in claims vol artefacten, comprimeert CLIPPER eerst het boek tot hoofdstukoverzichten en boek samenvattingen, en gebruikt vervolgens deze tussenliggende representaties om complexe claims en bijbehorende gedachtegangen te genereren. In vergelijking met naïeve benaderingen produceert CLIPPER claims die geldiger, beter onderbouwd en complexer zijn. Met CLIPPER hebben we een dataset geconstrueerd van 19K synthetische boekclaims, gekoppeld aan hun bronteksten en gedachtegangen, en hebben we deze gebruikt om drie open-weight modellen te finetunen. Ons beste model behaalt baanbrekende resultaten op narratieve claimverificatie (van 28% naar 76% nauwkeurigheid op onze testset) en vestigt een nieuwe state-of-the-art voor sub-10B modellen op de NoCha leaderboard. Verdere analyse toont aan dat onze modellen gedetailleerdere en beter onderbouwde gedachtegangen genereren, terwijl ze ook de prestaties op andere narratieve begriptaken verbeteren (bijv., NarrativeQA).
Grote multimodale modellen (LMMs) hebben indrukwekkende capaciteiten getoond in een breed scala aan visuele taken. Ze hebben echter vaak moeite met fijnmazige visuele redenering, waarbij ze domeinspecifieke doelstellingen niet kunnen identificeren en geen rechtvaardigbare verklaringen kunnen geven voor hun voorspellingen. Om dit aan te pakken, stellen we een nieuw visueel afwijzingssteekproefkader voor om de cognitie en uitlegbaarheid van LMMs te verbeteren met behulp van zelf gesynthetiseerde data. Specifiek vereist visuele fine-tuning afbeeldingen, vragen en doelantwoorden. Onze aanpak begint met het synthetiseren van interpreteerbare antwoorden die menselijk verifieerbare visuele kenmerken bevatten. Deze kenmerken zijn gebaseerd op door experts gedefinieerde concepten, zorgvuldig geselecteerd op basis van hun overeenstemming met de beeldinhoud. Na elke ronde van fine-tuning passen we een beloningsmodelvrij filtermechanisme toe om de hoogste kwaliteit interpreteerbare antwoorden te selecteren voor de volgende ronde van afstemming. Dit iteratieve proces van datasynthese en fine-tuning verbetert geleidelijk het vermogen van het model om accurate en redelijke verklaringen te genereren. Experimentele resultaten tonen de effectiviteit van onze methode aan in het verbeteren van zowel de nauwkeurigheid als de uitlegbaarheid van gespecialiseerde visuele classificatietaken.
Beloningsmodellen spelen een essentiële rol bij het trainen van visie-taalmodellen (VLMs) door de kwaliteit van de uitvoer te beoordelen, waardoor afstemming met menselijke voorkeuren mogelijk wordt. Ondanks hun belang ontbreekt het de onderzoeksgemeenschap aan uitgebreide open benchmarks voor het evalueren van multimodale beloningsmodellen in VLMs. Om dit gat te dichten, introduceren we Multimodal RewardBench, een door experts geannoteerde benchmark die zes domeinen bestrijkt: algemene correctheid, voorkeur, kennis, redeneren, veiligheid en visuele vraagbeantwoording. Onze dataset bestaat uit 5.211 geannoteerde (prompt, gekozen antwoord, afgewezen antwoord) triplets, verzameld uit verschillende VLMs. Bij het evalueren van een reeks VLM-beoordelaars ontdekken we dat zelfs de best presterende modellen, Gemini 1.5 Pro en Claude 3.5 Sonnet, slechts 72% algehele nauwkeurigheid behalen. Opmerkelijk is dat de meeste modellen moeite hebben met de domeinen redeneren en veiligheid. Deze bevindingen suggereren dat Multimodal RewardBench een uitdagende testomgeving biedt voor de verdere ontwikkeling van beloningsmodellen over meerdere domeinen. We publiceren de benchmark op https://github.com/facebookresearch/multimodal_rewardbench.
Het voorbereiden van hoogwaardige datasets die vereist zijn voor diverse data-gedreven AI- en machine learning-modellen, is een hoeksteen geworden in data-gedreven analyses. Traditionele methoden voor datadetectie integreren doorgaans datasets naar een enkele vooraf gedefinieerde kwaliteitsmaatstaf, wat kan leiden tot bias voor downstream taken. Dit artikel introduceert MODis, een framework dat datasets ontdekt door meerdere door de gebruiker gedefinieerde modelprestatiemaatstaven te optimaliseren. Gegeven een set databronnen en een model, selecteert en integreert MODis databronnen in een skyline-dataset, waarover het model de gewenste prestaties in alle prestatiemaatstaven zou moeten behalen. We formuleren MODis als een multi-doel eindige toestandstransducer en leiden drie haalbare algoritmen af om skyline-datasets te genereren. Ons eerste algoritme hanteert een "reduce-from-universal"-strategie, die begint met een universeel schema en iteratief onbelovende data verwijdert. Ons tweede algoritme verlaagt de kosten verder met een bidirectionele strategie die data-augmentatie en -reductie afwisselt. We introduceren ook een diversificatie-algoritme om de bias in skyline-datasets te verminderen. We verifiëren experimenteel de efficiëntie en effectiviteit van onze skyline-datadetectie-algoritmen en demonstreren hun toepassingen in het optimaliseren van data science-pipelines.
De snelle vooruitgang van Large Language Models (LLM's) heeft nieuwe mogelijkheden geopend in aanbevelingssystemen door zero-shot aanbevelingen mogelijk te maken zonder conventionele training. Ondanks hun potentieel vertrouwen de meeste bestaande werken uitsluitend op de aankoopgeschiedenis van gebruikers, waardoor er aanzienlijke ruimte voor verbetering overblijft door het integreren van door gebruikers gegenereerde tekstuele gegevens, zoals recensies en productbeschrijvingen. Om deze kloof te overbruggen, stellen we PURE voor, een nieuw LLM-gebaseerd aanbevelingsframework dat evoluerende gebruikersprofielen opbouwt en onderhoudt door systematisch sleutelinformatie uit gebruikersrecensies te extraheren en samen te vatten. PURE bestaat uit drie kerncomponenten: een Review Extractor voor het identificeren van gebruikersvoorkeuren en belangrijke productkenmerken, een Profile Updater voor het verfijnen en bijwerken van gebruikersprofielen, en een Recommender voor het genereren van gepersonaliseerde aanbevelingen op basis van het meest actuele profiel. Om PURE te evalueren, introduceren we een continue sequentiële aanbevelingstaak die realistische scenario's weerspiegelt door recensies in de loop van de tijd toe te voegen en voorspellingen incrementeel bij te werken. Onze experimentele resultaten op Amazon-datasets tonen aan dat PURE bestaande LLM-gebaseerde methoden overtreft, waarbij het effectief gebruik maakt van langetermijngebruikersinformatie en tegelijkertijd omgaat met tokenbeperkingen.
Het genereren van nieuwe moleculen met eigenschappen die buiten de verdeling vallen, is een grote uitdaging in moleculaire ontdekking. Hoewel methoden voor supervised learning hoogwaardige moleculen genereren die vergelijkbaar zijn met die in een dataset, hebben ze moeite om te generaliseren naar eigenschappen buiten de verdeling. Reinforcement learning kan nieuwe chemische ruimtes verkennen, maar voert vaak 'reward-hacking' uit en genereert niet-synthetiseerbare moleculen. In dit werk pakken we dit probleem aan door een state-of-the-art supervised learning-methode, STGG+, te integreren in een active learning-lus. Onze aanpak genereert, evalueert en verfijnt STGG+ iteratief om continu kennis uit te breiden. We duiden deze aanpak aan als STGG+AL. We passen STGG+AL toe op het ontwerp van organische pi-functionele materialen, specifiek twee uitdagende taken: 1) het genereren van sterk absorberende moleculen gekenmerkt door een hoge oscillatorsterkte en 2) het ontwerpen van absorberende moleculen met een redelijke oscillatorsterkte in het nabij-infrarood (NIR) bereik. De gegenereerde moleculen worden in-silico gevalideerd en gerationaliseerd met tijdafhankelijke dichtheidsfunctionaaltheorie. Onze resultaten tonen aan dat onze methode zeer effectief is in het genereren van nieuwe moleculen met een hoge oscillatorsterkte, in tegenstelling tot bestaande methoden zoals reinforcement learning (RL) methoden. We maken onze active learning-code openbaar, samen met onze Conjugated-xTB dataset die 2,9 miljoen pi-geconjugeerde moleculen bevat en de functie voor het benaderen van de oscillatorsterkte en absorptiegolflengte (gebaseerd op sTDA-xTB).
Recente studies hebben aangetoond dat grote visueel-taalmodelen (VLMs) de neiging hebben om beeldinhoud te negeren en te veel te vertrouwen op taalmodelprioriteiten, wat resulteert in fouten in visueel verankerde taken en hallucinaties. We veronderstellen dat dit probleem ontstaat omdat bestaande VLMs niet expliciet zijn getraind om teksten te genereren die nauwkeurig verankerd zijn in fijnmazige beelddetails. Om visuele feedback tijdens de VLM-training te verbeteren, stellen we S-VCO (Symmetrical Visual Contrastive Optimization) voor, een nieuwe finetuning-doelstelling die het model aanstuurt om belangrijke visuele details vast te leggen en af te stemmen op corresponderende teksttokens. Om deze gedetailleerde afstemming verder te vergemakkelijken, introduceren we MVC, een gepaarde beeld-tekstdataset die is opgebouwd door automatisch visuele tegenfeitelijke gegevens te filteren en aan te vullen om het model uit te dagen met moeilijke contrastgevallen die betrekking hebben op minimale visuele contrasten. Experimenten tonen aan dat onze methode de prestaties van VLM's consistent verbetert over diverse benchmarks die verschillende vaardigheden en domeinen bestrijken, met een reductie van hallucinaties tot wel 22% en aanzienlijke verbeteringen in visiegerichte en algemene taken. Opmerkelijk is dat deze verbeteringen steeds duidelijker worden in benchmarks met een hogere visuele afhankelijkheid. Kortom, S-VCO biedt een aanzienlijke verbetering van de visueel afhankelijke taakprestaties van VLM's, terwijl de algemene vaardigheden van het model behouden blijven of zelfs verbeterd worden. We hebben onze code opensource gemaakt op https://s-vco.github.io/.
Geolocatie, de taak om de locatie van een afbeelding te identificeren, vereist complexe redenering en is cruciaal voor navigatie, monitoring en cultureel behoud. Huidige methoden leveren echter vaak grove, onnauwkeurige en niet-interpreteerbare lokalisaties op. Een grote uitdaging ligt in de kwaliteit en schaal van bestaande geolocatiedatasets. Deze datasets zijn meestal kleinschalig en automatisch samengesteld, wat leidt tot rommelige data en inconsistente taakmoeilijkheid, waarbij afbeeldingen ofwel te gemakkelijk antwoorden verraden ofwel onvoldoende aanwijzingen bevatten voor betrouwbare inferentie. Om deze uitdagingen aan te pakken, introduceren we een uitgebreid geolocatieraamwerk met drie kerncomponenten: GeoComp, een grootschalige dataset; GeoCoT, een nieuwe redeneermethode; en GeoEval, een evaluatiemetriek, gezamenlijk ontworpen om kritieke uitdagingen aan te pakken en vooruitgang in geolocatieonderzoek te stimuleren. De kern van dit raamwerk is GeoComp (Geolocation Competition Dataset), een grootschalige dataset verzameld van een geolocatiespelplatform met 740K gebruikers over twee jaar. Het bevat 25 miljoen metadata-invoeren en 3 miljoen geo-getagde locaties die een groot deel van de wereld beslaan, waarbij elke locatie duizenden tot tienduizenden keren is geannoteerd door menselijke gebruikers. De dataset biedt diverse moeilijkheidsgraden voor gedetailleerde analyse en benadrukt belangrijke tekortkomingen in huidige modellen. Op basis van deze dataset stellen we Geographical Chain-of-Thought (GeoCoT) voor, een nieuw meerstappen redeneerraamwerk ontworpen om de redeneercapaciteiten van Large Vision Models (LVMs) in geolocatietaken te verbeteren. GeoCoT verbetert de prestaties door contextuele en ruimtelijke aanwijzingen te integreren via een meerstappenproces dat menselijke geolocatieredenering nabootst. Ten slotte tonen we met de GeoEval-metriek aan dat GeoCoT de geolocatienauwkeurigheid met tot wel 25% verhoogt, terwijl de interpreteerbaarheid wordt verbeterd.
Grote taalmodellen (LLMs) zijn in staat samenhangende samenvattingen te genereren uit zeer lange contexten op basis van een gebruikersvraag. Het extraheren en correct citeren van bewijsstukken kan helpen om de transparantie en betrouwbaarheid van deze samenvattingen te verbeteren. Tegelijkertijd hebben LLMs last van positionele biases in termen van welke informatie ze begrijpen en aandacht aan besteden, wat het citeren van bewijs kan beïnvloeden. Waar eerder werk zich richtte op het citeren van bewijs met vooraf gedefinieerde niveaus van granulariteit (bijv. zin, alinea, document, enz.), stellen wij de taak voor van query-gerichte samenvattingen met lange context en ongestructureerd bewijscitaat. We laten zien hoe bestaande systemen moeite hebben om ongestructureerd bewijs uit hun context te genereren en correct te citeren, en dat bewijs vaak "verloren in het midden" raakt. Om dit te helpen verminderen, hebben we de Summaries with Unstructured Evidence Text dataset (SUnsET) gecreëerd, een synthetische dataset gegenereerd met behulp van een nieuwe domein-agnostische pijplijn die als supervisie kan worden gebruikt om LLMs aan te passen voor deze taak. We demonstreren over 5 LLMs van verschillende grootte en 4 datasets met uiteenlopende documenttypen en lengtes dat LLMs die zijn aangepast met SUnsET-data relevanter en feitelijk consistenter bewijs genereren dan hun basismodellen, bewijs uit meer diverse locaties in hun context extraheren, en relevantere en consistentere samenvattingen kunnen genereren.
In het tijdperk van desinformatie vormt hallucinatie – de neiging van Large Language Models (LLMs) om niet-feitelijke of onbetrouwbare antwoorden te genereren – het grootste risico voor hun wereldwijde nut. Hoewel LLMs steeds meer meertalig worden, is het overgrote deel van het onderzoek naar het detecteren en kwantificeren van LLM-hallucinatie (a) Engelstalig en (b) gericht op machinevertaling (MT) en samenvatting, taken die minder vaak voorkomen "in het wild" dan open informatiezoeken. Daarentegen streven wij ernaar de omvang van LLM-hallucinatie in verschillende talen te kwantificeren in kennisintensieve, langere vraag-antwoordscenario's. Hiertoe trainen we een meertalig model voor het detecteren van hallucinatie en voeren we een grootschalige studie uit over 30 talen en 6 open-source LLM-families. We beginnen met een Engelstalige dataset voor het detecteren van hallucinatie en vertrouwen op MT om (ruwe) trainingsdata in andere talen te genereren. We annoteren ook handmatig gouden data voor vijf talen met veel bronnen; we tonen vervolgens aan, voor deze talen, dat de schattingen van hallucinatiepercentages vergelijkbaar zijn tussen zilveren (LLM-gegenereerde) en gouden testdatasets, wat het gebruik van zilveren data voor het schatten van hallucinatiepercentages voor andere talen valideert. Voor de uiteindelijke schatting van de percentages bouwen we een kennisintensieve vraag-antwoorddataset voor 30 talen met LLM-gegenereerde prompts en Wikipedia-artikelen als referenties. We ontdekken dat, hoewel LLMs langere antwoorden genereren met meer gehallucineerde tokens voor talen met meer bronnen, er geen correlatie is tussen de lengte-genormaliseerde hallucinatiepercentages van talen en hun digitale representatie. Verder vinden we dat kleinere LLMs hogere hallucinatiepercentages vertonen dan grotere modellen.