Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Schaarse auto-encoders (SAE's) zijn een essentieel onderdeel geworden bij het reverse-engineeren van grote taalmodellen (LLM's). Voor LLM's is aangetoond dat ze tussenliggende representaties kunnen ontbinden die vaak niet direct interpreteerbaar zijn in schaarse sommen van interpreteerbare kenmerken, wat een betere controle en daaropvolgende analyse mogelijk maakt. Echter, soortgelijke analyses en benaderingen ontbreken voor tekst-naar-afbeelding modellen. We hebben onderzocht of het mogelijk is om SAE's te gebruiken om interpreteerbare kenmerken te leren voor enkele-staps tekst-naar-afbeelding diffusiemodellen, zoals SDXL Turbo. Hiervoor trainen we SAE's op de updates uitgevoerd door transformer blokken binnen de denoising U-net van SDXL Turbo. We ontdekken dat hun geleerde kenmerken interpreteerbaar zijn, causaal invloed hebben op het generatieproces, en specialisatie onthullen tussen de blokken. In het bijzonder vinden we één blok dat voornamelijk bezig is met beeldcompositie, één die voornamelijk verantwoordelijk is voor het toevoegen van lokale details, en één voor kleur, belichting en stijl. Daarom is ons werk een belangrijke eerste stap naar een beter begrip van de interne werking van generatieve tekst-naar-afbeelding modellen zoals SDXL Turbo en toont het het potentieel van kenmerken die zijn geleerd door SAE's voor het visuele domein. De code is beschikbaar op https://github.com/surkovv/sdxl-unbox
Wat maakt een verschil bij het post-trainen van LLM's? We onderzoeken de trainingspatronen van verschillende lagen in grote taalmodellen (LLM's), door de lens van de gradiënt, bij het trainen met verschillende antwoorden en initiële modellen. We zijn specifiek geïnteresseerd in hoe snel versus langzaam denken de laagsgewijze gradiënten beïnvloedt, gezien de recente populariteit van het trainen van LLM's op redeneerpaden zoals keten-van-gedachten (CoT) en procesbeloningen. In onze studie leidt snel denken zonder CoT tot grotere gradiënten en grotere verschillen in gradiënten tussen lagen dan langzaam denken (Gedetailleerde CoT), wat wijst op de leermogelijkheid die laatstgenoemde met zich meebrengt. Bovendien worden voorgetrainde LLM's minder beïnvloed door de instabiliteit van snel denken dan instructie-aangepaste LLM's. Daarnaast onderzoeken we of de gradiëntpatronen de juistheid van antwoorden kunnen weerspiegelen bij het trainen van verschillende LLM's met langzame versus snelle denkpaden. De resultaten tonen aan dat de gradiënten van langzaam denken correcte en irrelevante redeneerpaden kunnen onderscheiden. Ter vergelijking voeren we soortgelijke gradiëntanalyses uit op niet-redeneer-kennisleertaken, waarbij echter het triviaal verhogen van de lengte van het antwoord niet leidt tot vergelijkbare gedragingen van langzaam denken. Onze studie versterkt fundamentele inzichten in LLM-training en werpt nieuwe inzichten op over de efficiëntie en stabiliteit ervan, wat de weg effent naar het bouwen van een generaliseerbare System-2 agent. Onze code, data en gradiëntstatistieken zijn te vinden op: https://github.com/MingLiiii/Layer_Gradient.
Bij taakgerichte dialoogsysteem is intentie-detectie cruciaal voor het interpreteren van gebruikersvragen en het bieden van passende antwoorden. Bestaand onderzoek richt zich voornamelijk op eenvoudige vragen met één intentie, waarbij effectieve systemen ontbreken voor het afhandelen van complexe vragen met meerdere intenties en het extraheren van verschillende intentiegebieden. Daarnaast ontbreekt het opvallend aan meertalige, multi-intentie datasets. Dit onderzoek behandelt drie kritieke taken: het extraheren van meerdere intentiegebieden uit vragen, het detecteren van meerdere intenties, en het ontwikkelen van een meertalige multi-label intentiedataset. We introduceren een nieuw multi-label multi-class intentie-detectiedataset (MLMCID-dataset) samengesteld uit bestaande benchmarkdatasets. We stellen ook een architectuur voor op basis van een pointer-netwerk (MLMCID) om intentiegebieden te extraheren en meerdere intenties te detecteren met grove en fijnkorrelige labels in de vorm van zestuplets. Een uitgebreide analyse toont de superioriteit van ons op pointer-netwerk gebaseerde systeem aan ten opzichte van basismethoden wat betreft nauwkeurigheid en F1-score over verschillende datasets.
Instructieafstemming is een begeleide fijnafstemmingsbenadering die aanzienlijk de capaciteit van grote taalmodellen (LLM's) verbetert om menselijke instructies te volgen. We stellen SelfCodeAlign voor, de eerste volledig transparante en toegankelijke pijplijn voor het zelfafstemmen van code LLM's zonder uitgebreide menselijke annotaties of destillatie. SelfCodeAlign maakt gebruik van hetzelfde basismodel voor inferentie gedurende het gegevensgeneratieproces. Het extrahereert eerst diverse codeerconcepten uit hoogwaardige seed-snippets om nieuwe taken te genereren. Vervolgens monsteren we meerdere reacties per taak, paren deze met testcases en valideren ze in een sandbox-omgeving. Ten slotte worden geslaagde voorbeelden geselecteerd voor instructieafstemming. In onze primaire experimenten gebruiken we SelfCodeAlign met CodeQwen1.5-7B om een dataset van 74k instructie-reactieparen te genereren. Fijnafstemming op deze dataset resulteert in een model dat een 67.1 pass@1 behaalt op HumanEval+, wat CodeLlama-70B-Instruct overtreft ondanks dat het tien keer kleiner is. Over alle benchmarks presteert dit gefinetunede model consequent beter dan de originele versie die is getraind met OctoPack, de vorige state-of-the-art methode voor instructieafstemming zonder menselijke annotaties of destillatie. Bovendien tonen we aan dat SelfCodeAlign effectief is bij LLM's van verschillende groottes, van 3B tot 33B, en dat de basismodellen meer baat kunnen hebben bij afstemming met hun eigen gegevensverdeling. We valideren verder de effectiviteit van elk component in onze pijplijn, waarbij we aantonen dat SelfCodeAlign beter presteert dan zowel directe destillatie van GPT-4o als toonaangevende destillatiemethoden op basis van GPT-3.5, zoals OSS-Instruct en Evol-Instruct. SelfCodeAlign heeft ook geleid tot de creatie van StarCoder2-Instruct, de eerste volledig transparante, permissief gelicenseerde en zelf-afgestemde code LLM die state-of-the-art codeerprestaties behaalt.
Grote taalmodellen (LLM's) hebben tal van toepassingen gerevolutioneerd, maar de implementatie ervan blijft uitgedaagd door geheugenbeperkingen op lokale apparaten. Hoewel schaalwetten de mogelijkheden van LLM's hebben verbeterd, is de voornaamste bottleneck verschoven van capaciteit naar beschikbaarheid, waarbij de noodzaak van efficiënt geheugenbeheer wordt benadrukt. Traditionele compressiemethoden, zoals kwantisatie, vereisen vaak vooraf gedefinieerde compressieverhoudingen en afzonderlijke compressieprocessen voor elke instelling, wat de implementatie in variabele geheugensituaties bemoeilijkt. In dit artikel introduceren we BitStack, een nieuw, op training-vrije gewichtscompressiebenadering die megabyte-niveau uitwisselingen mogelijk maakt tussen geheugengebruik en modelprestaties. Door gebruik te maken van gewichtsdecompositie kan BitStack dynamisch de modelgrootte aanpassen met minimaal transport tussen actief geheugen en opslagapparaten. Onze benadering decomposeert gewichtsmatrices iteratief met inachtneming van de significantie van elk parameter, resulterend in een residu blok van ongeveer 1 bit per parameter in elke decompositie iteratie. Deze blokken worden gesorteerd en gestapeld in opslag als basis transmissie-eenheden, waarbij verschillende hoeveelheden worden geladen op basis van de huidige geheugenbeschikbaarheid. Uitgebreide experimenten over een breed scala aan taken tonen aan dat, ondanks het bieden van fijnmazige groottecontrole, BitStack consequent overeenkomt met of beter presteert dan sterke kwantisatie baselines, met name bij extreme compressieverhoudingen. Voor zover wij weten, is dit de eerste decompositie-gebaseerde methode die effectief de kloof overbrugt naar praktische compressietechnieken zoals kwantisatie. De code is beschikbaar op https://github.com/xinghaow99/BitStack.
Grote taalmodellen (LLM's) hebben moeite om instructies met complexe beperkingen in formaat, lengte, enz. te volgen. Volgens de conventionele instructie-afstemmingspraktijk voeren eerdere werken post-training uit op complexe instructie-reactieparen die worden gegenereerd door geavanceerde LLM's te voeden met complexe instructies. Zelfs geavanceerde LLM's kunnen echter complexe instructies niet goed volgen, waardoor de kwaliteit van gegenereerde gegevens wordt beperkt. In dit werk ontdekken we dat bestaande datasets inherent impliciete complexe beperkingen bevatten en stellen we een nieuwe techniek voor gegevensgeneratie voor, genaamd constraint back-translation. Specifiek nemen we de hoogwaardige instructie-reactieparen in bestaande datasets en gebruiken alleen geavanceerde LLM's om complexe beperkingen toe te voegen die al worden voldaan door de reacties op de instructies, wat de kosten en gegevensruis natuurlijk vermindert. In de experimenten gebruiken we Llama3-70B-Instruct om beperkingen terug te vertalen en een hoogwaardige complexe instructie-reactiedataset te creëren, genaamd CRAB. We tonen aan dat post-training op CRAB de mogelijkheid van meerdere basis LLM's om complexe instructies te volgen verbetert, geëvalueerd op uitgebreide instructie-volg-benchmarks. We ontdekken verder dat constraint back-translation ook dient als een nuttig hulpdoel bij post-training. Onze code, gegevens en modellen zullen worden vrijgegeven om toekomstig onderzoek te vergemakkelijken.
Recente ontwikkelingen in Grote Taalmodellen (LLMs) hebben aanzienlijk bijgedragen aan hun vermogen om lange contexten te verwerken, maar er blijft een opmerkelijk hiaat bestaan in het genereren van lange, uitgelijnde uitvoer. Deze beperking komt voort uit een trainingskloof waarbij pre-training geen effectieve instructies biedt voor het genereren van lange tekst, en post-training data voornamelijk bestaat uit korte vraag-antwoordparen. Huidige benaderingen, zoals instructie-terugvertaling en gedragsimitatie, worden geconfronteerd met uitdagingen zoals datakwaliteit, auteursrechtenkwesties en beperkingen op het gebruik van eigen modellen. In dit artikel introduceren we een innovatief iteratief trainingskader genaamd Zelf-Verlengen dat uitsluitend gebruikmaakt van de intrinsieke kennis en vaardigheden van LLMs zonder de noodzaak van hulpdata of eigen modellen. Het kader bestaat uit twee rollen: de Generator en de Verlenger. De Generator produceert het initiële antwoord, dat vervolgens wordt gesplitst en uitgebreid door de Verlenger. Dit proces resulteert in een nieuw, langer antwoord, dat wordt gebruikt om zowel de Generator als de Verlenger iteratief te trainen. Via dit proces worden de modellen geleidelijk getraind om steeds langere antwoorden te verwerken. Experimenten op benchmarks en menselijke evaluaties tonen aan dat Zelf-Verlengen beter presteert dan bestaande methoden in het genereren van lange tekst, wanneer toegepast op toonaangevende open-source LLMs zoals Qwen2 en LLaMA3. Onze code is openbaar beschikbaar op https://github.com/QwenLM/Zelf-Verlengen.
De prestaties van neurale netwerken verbeteren wanneer er meer parameters worden gebruikt. Echter, de modelgroottes worden beperkt door het beschikbare geheugen op het apparaat tijdens training en inferentie. Hoewel technieken zoals kwantisatie de beperking kunnen verlichten, lijden ze aan prestatievermindering. In dit werk introduceren we NeuZip, een nieuw gewichtscompressieschema gebaseerd op de entropie van floating-point getallen in neurale netwerken. Met NeuZip zijn we in staat om geheugenefficiënte training en inferentie te bereiken zonder prestaties op te offeren. Opmerkelijk is dat we het geheugenverbruik voor het trainen van een Llama-3 8B-model aanzienlijk verminderen van 31 GB naar minder dan 16 GB, terwijl we de trainingsdynamiek volledig ongewijzigd houden. Bij inferentie kan onze methode het geheugengebruik meer dan halveren, terwijl de prestaties bijna verliesloos blijven. Onze code is openbaar beschikbaar.
In dit artikel laten we zien dat bruikbare videorepresentaties kunnen worden geleerd van synthetische video's en natuurlijke afbeeldingen, zonder natuurlijke video's in de training op te nemen. We stellen een reeks videodatasets voor die gesynthetiseerd zijn door eenvoudige generatieve processen, die een groeiende reeks eigenschappen van natuurlijke video's modelleren (bijv. beweging, versnelling en vormtransformaties). De prestatie van videomodellen die vooraf zijn getraind op deze gegenereerde datasets neemt geleidelijk toe met de voortgang van de datasets. Een VideoMAE-model dat vooraf is getraind op onze synthetische video's sluit 97,2% van de prestatiekloof op UCF101-actieclassificatie tussen training vanaf nul en zelfgestuurde voorafgaande training van natuurlijke video's, en presteert beter dan het vooraf getrainde model op HMDB51. Het introduceren van uitsneden van statische afbeeldingen in de voorafgaande trainingsfase resulteert in een vergelijkbare prestatie als UCF101-vooraftraining en overtreft het op UCF101 vooraf getrainde model op 11 van de 14 out-of-distribution datasets van UCF101-P. Door de eigenschappen van de datasets op laag niveau te analyseren, identificeren we correlaties tussen frame-diversiteit, gelijkenis van frames met natuurlijke data en downstream prestaties. Onze aanpak biedt een meer controleerbaar en transparant alternatief voor videogegevenscuratieprocessen voor voorafgaande training.
Diverse studies hebben de bekwaamheid van AI-systemen, met name grote taalmodellen (LLM's), beoordeeld in het ondersteunen van alledaagse taken zoals e-mail schrijven, vraagbeantwoording en het genereren van creatieve inhoud. Echter staan onderzoekers voor unieke uitdagingen en kansen bij het benutten van LLM's voor hun eigen werk, zoals het bedenken van onderzoeksideeën, het ontwerpen van experimenten en het schrijven of beoordelen van papers. In dit onderzoek introduceren we AAAR-1.0, een benchmark dataset ontworpen om LLM-prestaties te evalueren in drie fundamentele, expertise-intensieve onderzoekstaken: (i) EquationInference, waarbij de juistheid van vergelijkingen wordt beoordeeld op basis van de contextuele informatie in paperindieningen; (ii) ExperimentDesign, het ontwerpen van experimenten om onderzoeksideeën en oplossingen te valideren; (iii) PaperWeakness, het identificeren van zwakke punten in paperindieningen; en (iv) REVIEWCRITIQUE, het identificeren of elk segment in menselijke reviews gebrekkig is of niet. AAAR-1.0 verschilt van eerdere benchmarks op twee belangrijke manieren: ten eerste is het expliciet onderzoeksgericht, met taken die diepgaande domeinkennis vereisen; ten tweede is het onderzoekergericht, waarbij de primaire activiteiten worden weerspiegeld waar onderzoekers dagelijks mee bezig zijn. Een evaluatie van zowel open-source als gepatenteerde LLM's onthult hun potentieel evenals beperkingen bij het uitvoeren van geavanceerde onderzoekstaken. We zullen AAAR-1.0 blijven verbeteren naar nieuwe versies.
De opkomst van grote taalmodellen (LLM's) heeft de interacties van gebruikers met op kennis gebaseerde systemen gerevolutioneerd, waardoor chatbots enorme hoeveelheden informatie kunnen synthetiseren en kunnen helpen bij complexe, verkennende taken. LLM-gebaseerde chatbots hebben echter vaak moeite met het bieden van gepersonaliseerde ondersteuning, vooral wanneer gebruikers beginnen met vage vragen of onvoldoende contextuele informatie hebben. Dit artikel introduceert de Collaboratieve Assistent voor Gepersonaliseerde Verkenning (CARE), een systeem dat is ontworpen om personalisatie in verkennende taken te verbeteren door een multi-agent LLM-framework te combineren met een gestructureerde gebruikersinterface. De interface van CARE bestaat uit een Chatpaneel, Oplossingspaneel en Behoeftenpaneel, waardoor iteratieve verfijning van vragen en dynamische generatie van oplossingen mogelijk is. Het multi-agent framework werkt samen om zowel expliciete als impliciete gebruikersbehoeften te identificeren en op maat gemaakte, bruikbare oplossingen te leveren. In een gebruikersstudie met 22 deelnemers gaf CARE consequent de voorkeur boven een basis LLM-chatbot, waarbij gebruikers zijn vermogen prezen om de cognitieve belasting te verminderen, creativiteit te inspireren en meer op maat gemaakte oplossingen te bieden. Onze bevindingen benadrukken het potentieel van CARE om LLM-gebaseerde systemen te transformeren van passieve informatie-opvragers naar proactieve partners in gepersonaliseerde probleemoplossing en verkenning.
Medisch Vision-Language Pretraining (MedVLP) toont belofte in het leren van generaliseerbare en overdraagbare visuele representaties van gekoppelde en ongekoppelde medische beelden en verslagen. MedVLP kan nuttige functies bieden voor downstream taken en het aanpassen van taakspecifieke modellen aan nieuwe opstellingen vergemakkelijken met minder voorbeelden. Echter, bestaande MedVLP-methoden verschillen vaak qua datasets, voorbewerking en finetuning-implementaties. Dit vormt grote uitdagingen bij het evalueren van hoe goed een MedVLP-methode generaliseert naar verschillende klinisch relevante taken vanwege het ontbreken van een eenduidige, gestandaardiseerde en uitgebreide benchmark. Om deze leemte op te vullen, stellen we BenchX voor, een verenigd benchmarkkader dat een directe vergelijking en systematische analyse tussen MedVLP-methoden mogelijk maakt met behulp van openbare borst-X-ray-datasets. Specifiek bestaat BenchX uit drie componenten: 1) Uitgebreide datasets die negen datasets en vier medische taken beslaan; 2) Benchmark suites om gegevensvoorbewerking, train-test splitsingen en parameterselectie te standaardiseren; 3) Verenigde finetuning-protocollen die heterogene MedVLP-methoden accommoderen voor consistente taakaanpassing in respectievelijk classificatie, segmentatie en verslaggeneratie. Door gebruik te maken van BenchX stellen we baselines vast voor negen toonaangevende MedVLP-methoden en hebben we ontdekt dat de prestaties van sommige vroege MedVLP-methoden kunnen worden verbeterd om recentere te overtreffen, wat een herziening van de ontwikkelingen en conclusies uit eerdere werken in MedVLP aanmoedigt. Onze code is beschikbaar op https://github.com/yangzhou12/BenchX.
Het volgen van dichte 3D-bewegingen van monoculaire video's blijft uitdagend, vooral wanneer gestreefd wordt naar pixelnauwkeurigheid over lange sequenties. We introduceren \Approach, een innovatieve methode die efficiënt elk pixel in 3D-ruimte volgt, waardoor nauwkeurige bewegingsschatting over hele video's mogelijk is. Onze aanpak maakt gebruik van een gezamenlijk globaal-lokaal aandachtsmechanisme voor tracking op verminderde resolutie, gevolgd door een transformer-gebaseerde upsampler om voorspellingen op hoge resolutie te bereiken. In tegenstelling tot bestaande methoden, die beperkt worden door computationele inefficiëntie of schaarse tracking, levert \Approach dichte 3D-tracking op schaal, waarbij het meer dan 8 keer sneller werkt dan eerdere methoden en tegelijkertijd state-of-the-art nauwkeurigheid bereikt. Bovendien onderzoeken we de impact van diepterepresentatie op de trackingprestaties en identificeren we log-diepte als de optimale keuze. Uitgebreide experimenten tonen de superioriteit van \Approach aan op meerdere benchmarks, waarbij nieuwe state-of-the-art resultaten worden behaald in zowel 2D- als 3D-dichte trackingtaken. Onze methode biedt een robuuste oplossing voor toepassingen die fijnmazige, langdurige bewegingstracking in 3D-ruimte vereisen.
In real-world scenario's is het wenselijk dat belichaamde agenten de mogelijkheid hebben om menselijke taal te gebruiken om expliciete of impliciete kennis te verwerven voor leeropdrachten. Ondanks recente vooruitgang, nemen de meeste eerdere benaderingen eenvoudige laag-niveau instructies als taalinvoer aan, die mogelijk niet overeenkomen met natuurlijke menselijke communicatie. Het is niet duidelijk hoe rijk taalgebruik geïntegreerd kan worden om taakleren te vergemakkelijken. Om deze vraag aan te pakken, bestudeert dit artikel verschillende soorten taalinvoer om reinforcement learning (RL) belichaamde agenten te ondersteunen. Meer specifiek onderzoeken we hoe verschillende niveaus van taalinformatie (bijv. feedback op vorig gedrag en toekomstige begeleiding) en diversiteit (bijv. variatie van taaluitingen) van invloed zijn op het leren en redeneren van agenten. Onze empirische resultaten gebaseerd op vier RL benchmarks tonen aan dat agenten die getraind zijn met diverse en informatieve taalfeedback verbeterde generalisatie en snelle aanpassing aan nieuwe taken kunnen bereiken. Deze bevindingen benadrukken de cruciale rol van taalgebruik bij het aanleren van nieuwe taken aan belichaamde agenten in een open wereld. Project website: https://github.com/sled-group/Teachable_RL
Dit artikel onderzoekt een nieuw verliesgevend compressiekader dat werkt onder logaritmisch verlies, ontworpen om situaties aan te pakken waarbij de reconstructiedistributie afwijkt van de brondistributie. Dit kader is vooral relevant voor toepassingen die gezamenlijke compressie en ophaling vereisen, en in scenario's die te maken hebben met distributieverschuivingen als gevolg van verwerking. We tonen aan dat de voorgestelde formulering het klassieke minimum-entropiekoppelingskader uitbreidt door een bottleneck te integreren, waardoor een gecontroleerde mate van stochasticiteit in de koppeling mogelijk is. We onderzoeken de decompositie van het Minimum Entropy Coupling with Bottleneck (MEC-B) in twee afzonderlijke optimalisatieproblemen: Entropy-Bounded Information Maximization (EBIM) voor de encoder, en Minimum Entropy Coupling (MEC) voor de decoder. Via uitgebreide analyse bieden we een gulzig algoritme voor EBIM met gegarandeerde prestaties, en karakteriseren we de optimale oplossing bij functionele mappings, wat aanzienlijke theoretische inzichten oplevert in de structurele complexiteit van dit probleem. Bovendien illustreren we de praktische toepassing van MEC-B door experimenten in Markov Coding Games (MCG's) onder snelheidslimieten. Deze spellen simuleren een communicatiescenario binnen een Markov-beslissingsproces, waarbij een agent een gecomprimeerd bericht van een zender naar een ontvanger moet verzenden via zijn acties. Onze experimenten belichten de afwegingen tussen MDP-beloningen en ontvanger-nauwkeurigheid bij verschillende compressiesnelheden, waarbij de doeltreffendheid van onze methode wordt aangetoond in vergelijking met de conventionele compressie-baseline.
De behoefte aan grote tekstcorpora is toegenomen met de opkomst van vooraf getrainde taalmodellen en met name de ontdekking van schaalwetten voor deze modellen. De meeste beschikbare corpora hebben alleen voldoende gegevens voor talen met grote dominante gemeenschappen. Er is echter geen corpus beschikbaar dat (i) een breed scala aan minderheidstalen bestrijkt; (ii) wordt gegenereerd door een open-source reproduceerbare pipeline; en (iii) grondig is schoongemaakt van ruis, waardoor het betrouwbaar is om te gebruiken. Wij presenteren GlotCC, een schoon, op documentniveau, 2TB algemeen domeincorpus afgeleid van CommonCrawl, dat meer dan 1000 talen bestrijkt. Wij stellen GlotCC en het systeem dat gebruikt is om het te genereren - inclusief de pipeline, taalidentificatiemodel en filters - beschikbaar voor de onderzoeksgemeenschap. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.