Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks recente vooruitgang in grootschalige tekst-naar-beeld generatieve modellen, blijft het manipuleren van echte afbeeldingen met deze modellen een uitdagend probleem. De belangrijkste beperkingen van bestaande bewerkingsmethoden zijn dat ze ofwel niet consistent presteren bij een breed scala aan afbeeldingsbewerkingen, ofwel tijdrovende hyperparameterafstemming of fine-tuning van het diffusiemodel vereisen om de afbeeldingsspecifieke uitstraling van de invoerafbeelding te behouden. Wij stellen een nieuwe aanpak voor die is gebaseerd op een aangepast diffusie-steekproefproces via het guidance-mechanisme. In dit werk onderzoeken we de zelf-guidance techniek om de algehele structuur van de invoerafbeelding en het uiterlijk van lokale regio's die niet bewerkt moeten worden, te behouden. In het bijzonder introduceren we expliciet lay-outbehoudende energiefuncties die gericht zijn op het behoud van lokale en globale structuren van de bronafbeelding. Daarnaast stellen we een ruisherschalingsmechanisme voor dat het mogelijk maakt de ruisverdeling te behouden door de normen van classifier-free guidance en onze voorgestelde guiders tijdens de generatie in evenwicht te brengen. Een dergelijke sturende aanpak vereist geen fine-tuning van het diffusiemodel en een exact inversieproces. Als gevolg hiervan biedt de voorgestelde methode een snelle en hoogwaardige bewerkingsmechanisme. In onze experimenten tonen we door middel van humane evaluatie en kwantitatieve analyse aan dat de voorgestelde methode de gewenste bewerking kan produceren die de voorkeur geniet bij mensen en ook een betere balans bereikt tussen bewerkingskwaliteit en behoud van de originele afbeelding. Onze code is beschikbaar op https://github.com/FusionBrainLab/Guide-and-Rescale.
Sinds de opkomst van ChatGPT hebben grote taalmodelen (LLM's) uitmuntende prestaties geleverd in diverse taken, maar blijven ze grotendeels black-box-systemen. Hierdoor is hun ontwikkeling sterk afhankelijk van data-gedreven benaderingen, wat prestatieverbetering via wijzigingen in interne architectuur en redeneerpaden beperkt. Als gevolg daarvan zijn veel onderzoekers begonnen met het verkennen van de mogelijke interne mechanismen van LLM's, met als doel de essentie van hun redeneerknelpunten te identificeren, waarbij de meeste studies zich richten op aandachtshoofden. Onze overzichtsstudie beoogt inzicht te geven in de interne redeneerprocessen van LLM's door te focussen op de interpreteerbaarheid en onderliggende mechanismen van aandachtshoofden. We destilleren eerst het menselijke denkproces tot een raamwerk van vier fasen: Kennis Ophalen, In-Context Identificatie, Latent Redeneren en Expressie Voorbereiding. Met dit raamwerk systematisch evalueren we bestaand onderzoek om functies van specifieke aandachtshoofden te identificeren en categoriseren. Verder vatten we de gebruikte experimentele methodologieën samen voor het ontdekken van deze speciale hoofden, onderverdeeld in twee categorieën: Modelvrije methoden en Modelvereiste methoden. Tevens schetsen we relevante evaluatiemethoden en benchmarks. Tot slot bespreken we de beperkingen van huidig onderzoek en doen we enkele suggesties voor toekomstige onderzoeksrichtingen. Onze referentielijst is openbaar beschikbaar op https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.
Fuzzing is een belangrijke dynamische programma-analysetechniek die is ontworpen om kwetsbaarheden in complexe software te vinden. Fuzzing houdt in dat een doelprogramma wordt voorzien van vervaardigde kwaadaardige invoer om crashes, bufferoverlopen, geheugenfouten en uitzonderingen te veroorzaken. Het efficiënt vervaardigen van kwaadaardige invoer is een moeilijk open probleem, en de beste aanpakken passen vaak uniforme willekeurige mutaties toe op reeds bestaande geldige invoer. In dit werk stellen we voor om fijn afgestelde grote taalmodellen (FuzzCoder) toe te passen om patronen in de invoerbestanden te leren van succesvolle aanvallen om toekomstige fuzzing-verkenningen te sturen. Specifiek ontwikkelen we een raamwerk om code-LLM's in te zetten om het mutatieproces van invoer bij fuzzing te sturen. Het mutatieproces wordt geformuleerd als sequence-to-sequence modellering, waarbij het LLM een reeks bytes ontvangt en vervolgens de gemuteerde bytereeks uitvoert. FuzzCoder wordt fijn afgesteld op de gecreëerde instructiedataset (Fuzz-Instruct), waarbij de succesvolle fuzzing-geschiedenis wordt verzameld vanuit een heuristisch fuzzing-programma. FuzzCoder kan mutatielocaties en strategielocaties in invoerbestanden voorspellen om afwijkend gedrag van het programma te triggeren. Experimentele resultaten tonen aan dat FuzzCoder, gebaseerd op AFL (American Fuzzy Lop), significante verbeteringen laat zien wat betreft het effectieve aandeel van mutaties (EPM) en het aantal crashes (NC) voor diverse invoerformaten, waaronder ELF, JPG, MP3 en XML.
Sinds de eerste voorbeelden van online onderwijs, waarbij cursussen op toegankelijke en gedeelde online platforms werden geplaatst, heeft deze vorm van het opschalen van kennisverspreiding om een breder publiek te bereiken uitgebreide discussie en wijdverbreide adoptie uitgelokt. In de erkenning dat gepersonaliseerd leren nog steeds aanzienlijk potentieel voor verbetering heeft, worden nieuwe AI-technologieën continu geïntegreerd in dit leerformaat, wat heeft geresulteerd in diverse educatieve AI-toepassingen zoals educatieve aanbeveling en intelligente tutoring. De opkomst van intelligentie in large language models (LLM's) heeft het mogelijk gemaakt deze onderwijsverbeteringen te bouwen op een uniform foundation model, wat een diepere integratie mogelijk maakt. In deze context stellen we MAIC voor (Massive AI-empowered Course), een nieuwe vorm van online onderwijs die gebruikmaakt van LLM-gestuurde multi-agent systemen om een AI-versterkt klaslokaal te construeren, waarbij schaalbaarheid en adaptiviteit in balans worden gebracht. Naast het verkennen van het conceptuele kader en technische innovaties, voeren we preliminaire experimenten uit aan de Tsinghua Universiteit, een van China's toonaangevende universiteiten. Putend uit meer dan 100.000 leerrecords van meer dan 500 studenten, verkrijgen we een reeks waardevolle observaties en initiële analyses. Dit project zal zich blijven ontwikkelen, met als uiteindelijk doel het vestigen van een uitgebreid open platform dat onderzoek, technologie en toepassingen ondersteunt en verenigt in het verkennen van de mogelijkheden van online onderwijs in het tijdperk van large model AI. Wij zien dit platform als een collaboratieve hub die onderwijsprofessionals, onderzoekers en vernieuwers samenbrengt om gezamenlijk de toekomst van AI-gestuurd online onderwijs te verkennen.
Het genereren van hoogwaardige 3D-objecten op basis van tekstuele beschrijvingen blijft een uitdagend probleem vanwege de rekenkosten, de schaarste aan 3D-data en complexe 3D-representaties. Wij introduceren Geometry Image Diffusion (GIMDiffusion), een nieuw Text-to-3D-model dat gebruikmaakt van geometrie-afbeeldingen om 3D-vormen efficiënt weer te geven met behulp van 2D-afbeeldingen, waardoor complexe 3D-architecturen overbodig worden. Door de integratie van een Collaboratief Controle-mechanisme benutten we de rijke 2D-priors van bestaande Text-to-Image-modellen zoals Stable Diffusion. Hierdoor is sterke generalisatie mogelijk, zelfs met beperkte 3D-trainingsdata (waardoor we uitsluitend hoogwaardige trainingsdata kunnen gebruiken), en blijft compatibiliteit met begeleidingstechnieken zoals IPAdapter behouden. Kortom, GIMDiffusion maakt het mogelijk 3D-assets te genereren met een snelheid die vergelijkbaar is met huidige Text-to-Image-modellen. De gegenereerde objecten bestaan uit semantisch betekenisvolle, afzonderlijke onderdelen en omvatten interne structuren, wat zowel de bruikbaarheid als de veelzijdigheid vergroot.
Multimodale Large Language Models (MLLM's) hebben veelbelovende prestaties bereikt voor Documentbegrip zonder OCR door de ondersteunde resolutie van documentafbeeldingen te verhogen. Dit gaat echter ten koste van het genereren van duizenden visuele tokens voor een enkele documentafbeelding, wat leidt tot excessief GPU-geheugengebruik en tragere inferentietijden, vooral bij het begrijpen van documenten met meerdere pagina's. In dit werk stellen we, om deze uitdagingen aan te pakken, een High-resolution DocCompressor-module voor om elke hoge-resolutie documentafbeelding te comprimeren tot 324 tokens, geleid door globale visuele kenmerken van lage resolutie. Met deze compressiemodule ontwikkelen we DocOwl2 onder een drietraps-trainingsraamwerk om het begrip van documenten met meerdere pagina's te versterken en zowel tokenefficiëntie als vraag-antwoordprestaties in evenwicht te brengen: Pretraining met één afbeelding, Voortgezette pretraining met meerdere afbeeldingen en Multitask-finetuning. DocOwl2 vestigt een nieuwe state-of-the-art op benchmarks voor begrip van documenten met meerdere pagina's en vermindert de latentie van de eerste token met meer dan 50%, wat geavanceerde capaciteiten aantoont in het beantwoorden van vragen over meerdere pagina's, uitleg met bewijspagina's en begrip van de structuur over pagina's heen. Verder bereikt onze DocOwl2, in vergelijking met MLLM's voor één afbeelding die op vergelijkbare data zijn getraind, vergelijkbare prestaties voor begrip van één pagina met minder dan 20% van de visuele tokens. Onze code, modellen en data zijn openbaar beschikbaar op https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
Formuleherkenning vormt een aanzienlijke uitdaging vanwege de complexe structuur en gevarieerde notatie van wiskundige expressies. Ondanks voortdurende vooruitgang in formuleherkenningsmodellen vertonen de evaluatiemetrics die door deze modellen worden gebruikt, zoals BLEU en Edit Distance, nog steeds aanzienlijke beperkingen. Zij negeren het feit dat dezelfde formule diverse representaties kent en zeer gevoelig is voor de verdeling van trainingsdata, wat oneerlijkheid in de evaluatie van formuleherkenning veroorzaakt. Daartoe stellen wij een Character Detection Matching (CDM)-metric voor, die de evaluatie-objectiviteit waarborgt door een beeldniveau- in plaats van LaTeX-niveau metricscores te ontwerpen. Concreet zet CDM zowel de door het model voorspelde LaTeX als de grondwaarheid-LaTeX-formules om in beeldgeformatteerde formules, gebruikt vervolgens technieken voor visuele feature-extractie en lokalisatie voor precieze teken-level matching, waarbij ruimtelijke positie-informatie wordt geïntegreerd. Deze ruimtelijk bewuste en op tekenherkenning gebaseerde methode biedt een nauwkeurigere en rechtvaardigere evaluatie in vergelijking met eerdere BLEU- en Edit Distance-metrics die uitsluitend op tekstgebaseerde tekenmatching vertrouwen. Experimenteel evalueerden wij diverse formuleherkenningsmodellen met behulp van CDM, BLEU en ExpRate metrics. De resultaten tonen aan dat de CDM beter aansluit bij menselijke evaluatiestandaarden en een eerlijker vergelijking tussen verschillende modellen mogelijk maakt door verschillen veroorzaakt door diverse formulerepresentaties te elimineren.
De toenemende beschikbaarheid van real-world gespreksgegevens biedt spannende mogelijkheden voor onderzoekers om interacties tussen gebruikers en chatbots te bestuderen. De enorme omvang van deze gegevens maakt het echter onpraktisch om individuele gesprekken handmatig te onderzoeken. Om deze uitdaging het hoofd te bieden, introduceren we WildVis, een interactieve tool die snelle, veelzijdige en grootschalige gespreksanalyse mogelijk maakt. WildVis biedt zoek- en visualisatiemogelijkheden in de tekst- en embeddingruimten op basis van een lijst met criteria. Om datasets op miljoenschaal te beheren, hebben we optimalisaties geïmplementeerd, waaronder de aanleg van een zoekindex, vooraf berekende en gecomprimeerde embeddings, en caching om responsieve gebruikersinteracties binnen enkele seconden te garanderen. We demonstreren de bruikbaarheid van WildVis via drie casestudies: het faciliteren van onderzoek naar misbruik van chatbots, het visualiseren en vergelijken van topicverdelingen tussen datasets, en het in kaart brengen van gebruikersspecifieke gesprekspatronen. WildVis is open-source en ontworpen om uitbreidbaar te zijn, met ondersteuning voor aanvullende datasets en aangepaste zoek- en visualisatiefunctionaliteiten.
Recente studies tonen aan dat de wiskundige probleemoplossende vermogens van grote taalmodellen (LLM's) kunnen worden verbeterd door de integratie van externe tools, zoals code-interpreters, en het gebruik van meerdaadse Chain-of-Thought (CoT)-redenering. Hoewel huidige methodes zich richten op synthetische datageneratie en Supervised Fine-Tuning (SFT), bestudeert dit artikel de complementaire aanpak van direct preference learning om de modelprestaties verder te verbeteren. Echter, bestaande algoritmen voor direct preference learning zijn oorspronkelijk ontworpen voor de eenmalige chat-taak en adresseren niet volledig de complexiteiten van meerdaadse redenering en de integratie van externe tools die nodig zijn voor tool-gestuurde wiskundige redeneertaken. Om deze leemte op te vullen, introduceren we een meerdaads raamwerk voor direct preference learning, toegesneden op deze context, dat gebruikmaakt van feedback van code-interpreters en trajectniveau-preferences optimaliseert. Dit raamwerk omvat multi-turn DPO en multi-turn KTO als specifieke implementaties. De effectiviteit van ons raamwerk wordt gevalideerd door het trainen van diverse taalmodellen met behulp van een uitgebreide promptset van de GSM8K- en MATH-datasets. Onze resultaten tonen substantiële verbeteringen aan: de prestaties van een supervised fine-tuned Gemma-1.1-it-7B-model stegen van 77,5% naar 83,9% op GSM8K en van 46,1% naar 51,2% op MATH. Evenzo verbeterde een Gemma-2-it-9B-model van 84,1% naar 86,3% op GSM8K en van 51,0% naar 54,5% op MATH.
De snelle ontwikkeling en dynamische aard van grote taalmodellen (LLM's) maken het moeilijk voor conventionele kwantitatieve benchmarks om hun capaciteiten nauwkeurig te beoordelen. Wij stellen rapportkaarten voor: door mensen interpreteerbare, natuurlijke-taal samenvattingen van modelgedrag voor specifieke vaardigheden of onderwerpen. We ontwikkelen een raamwerk om rapportkaarten te evalueren op basis van drie criteria: specificiteit (het vermogen om onderscheid te maken tussen modellen), betrouwbaarheid (nauwkeurige weergave van modelcapaciteiten) en interpreteerbaarheid (helderheid en relevantie voor mensen). We stellen ook een iteratief algoritme voor voor het genereren van rapportkaarten zonder menselijk toezicht en onderzoeken de doeltreffendheid ervan door verschillende ontwerpkeuzes te ableren. Door experimenten met populaire LLM's tonen we aan dat rapportkaarten inzichten bieden die verder gaan dan traditionele benchmarks en kunnen helpen in de behoefte aan een meer interpreteerbare en holistische evaluatie van LLM's.
Open-vocabulary-segmentatie vormt een aanzienlijke uitdaging, omdat het vereist dat objecten worden gesegmenteerd en herkend in een open set van categorieën binnen onbeperkte omgevingen. Voortbordurend op het succes van krachtige vision-language (ViL) foundation-modellen, zoals CLIP, hebben recente inspanningen gepoogd om hun zero-shot-capaciteiten te benutten om niet-geziene categorieën te herkennen. Ondanks opmerkelijke prestatieverbeteringen, kampen deze modellen nog steeds met het kritieke probleem van het genereren van nauwkeurige maskervoorstellen voor niet-geziene categorieën en scenario's, wat uiteindelijk resulteert in inferieure segmentatieprestaties. Om deze uitdaging aan te pakken, introduceren we een nieuwe aanpak, FrozenSeg, die is ontworpen om ruimtelijke kennis van een localisatie-foundation-model (bijv. SAM) en semantische kennis die is geëxtraheerd uit een ViL-model (bijv. CLIP) te integreren in een synergetisch raamwerk. Door de visuele encoder van het ViL-model als feature-backbone te nemen, injecteren we de ruimtelijk bewuste feature in de leerbare queries en CLIP-features binnen de transformer-decoder. Daarnaast ontwikkelen we een maskervoorstel-ensemble-strategie om de recall-rate en maskerkwaliteit verder te verbeteren. Om vooraf getrainde kennis volledig te benutten terwijl de trainingsoverhead wordt geminimaliseerd, bevriezen we beide foundation-modellen en richten we optimalisatie-inspanningen uitsluitend op een lichtgewicht transformer-decoder voor maskervoorstelgeneratie – het prestatieknelpunt. Uitgebreide experimenten tonen aan dat FrozenSeg state-of-the-art-resultaten behaalt op diverse segmentatiebenchmarks, uitsluitend getraind op COCO panoptische data en getest op een zero-shot-manier. Code is beschikbaar op https://github.com/chenxi52/FrozenSeg.
Grote taalmodellen (LLM's) hebben het landschap van programsynthese hervormd. Hedendaagse LLM-gebaseerde codecompleteringssystemen produceren echter vaak gebroken code door hallucinatie, omdat ze niet over de juiste context beschikken. Dit is met name het geval bij het werken met definities die niet in de trainingsdata staan en niet in de buurt van de cursor zijn. Dit artikel toont aan dat een nauwe integratie met de type- en bindingsstructuur van een programmeertaal, zoals blootgelegd door zijn taalserver, dit contextualiseringsprobleem op een token-efficiënte manier kan aanpakken. Kortom, wij stellen dat AI's ook IDE's nodig hebben! In het bijzonder integreren we LLM-codegeneratie in de Hazel live programmeerschetsomgeving. De Hazel Language Server identificeert het type en de typeringscontext van het in te vullen gat, zelfs in de aanwezigheid van fouten, waardoor altijd een betekenisvolle programma-schets beschikbaar is. Hierdoor kan worden geprompt met contextuele informatie uit de gehele codebase die niet lexicaal lokaal is ten opzichte van de cursor, noch noodzakelijkerwijs in hetzelfde bestand staat, maar die waarschijnlijk semantisch lokaal is ten opzichte van het doel van de ontwikkelaar. Door de LLM gesynthetiseerde aanvullingen worden vervolgens iteratief verfijnd via verdere dialoog met de taalserver. Om deze technieken te evalueren, introduceren we MVUBench, een dataset van model-view-update (MVU) webapplicaties. Deze applicaties dienen als uitdagende problemen vanwege hun afhankelijkheid van applicatiespecifieke datastructuren. Wij constateren dat contextualisering met typedefinities bijzonder effectief is. Na het introduceren van onze ideeën in de context van Hazel, repliceren we onze technieken en porten we MVUBench naar TypeScript om de toepasbaarheid van deze methoden op talen met meer middelen te valideren. Ten slotte schetsen we ChatLSP, een conservatieve uitbreiding van het Language Server Protocol (LSP) die taalservers kunnen implementeren om capaciteiten bloot te leggen die AI-codecompleteringssystemen van verschillende ontwerpen kunnen gebruiken om statische context op te nemen bij het genereren van prompts voor een LLM.