Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Neurale Radiantievelden (NeRF) worden geconfronteerd met aanzienlijke uitdagingen in few-shot scenario's, voornamelijk vanwege overfitting en lange trainingsduur voor hoogwaardige rendering. Bestaande methoden, zoals FreeNeRF en SparseNeRF, maken gebruik van frequentieregularisatie of vooraf getrainde priori's, maar hebben moeite met complexe planning en vooringenomenheid. We introduceren FrugalNeRF, een nieuw few-shot NeRF-framework dat gewicht-delen voxels over meerdere schalen benut om scènedetails efficiënt weer te geven. Onze belangrijkste bijdrage is een cross-scale geometrisch aanpassingsschema dat pseudo grondwaarhedendiepte selecteert op basis van reprojection fouten over schalen. Dit stuurt de training aan zonder te vertrouwen op extern geleerde priori's, waardoor volledig gebruik wordt gemaakt van de trainingsgegevens. Het kan ook vooraf getrainde priori's integreren, de kwaliteit verbeteren zonder de convergentie te vertragen. Experimenten op LLFF, DTU en RealEstate-10K tonen aan dat FrugalNeRF andere few-shot NeRF-methoden overtreft terwijl de trainingsduur aanzienlijk wordt verkort, waardoor het een praktische oplossing is voor efficiënte en nauwkeurige 3D-scène reconstructie.
Het Segment Anything Model 2 (SAM 2) is naar voren gekomen als een krachtig basismodel voor objectsegmentatie in zowel afbeeldingen als video's, waardoor verschillende daaropvolgende videotoepassingen mogelijk worden. Het cruciale ontwerp van SAM 2 voor videosegmentatie is zijn geheugenmodule, die objectbewuste herinneringen uit eerdere frames oproept voor voorspellingen in het huidige frame. Echter, het geheugenontwerp met gretige selectie van SAM 2 lijdt aan het "foutenaccumulatie" probleem, waarbij een foutieve of gemiste masker zich kan verspreiden en invloed kan hebben op de segmentatie van de daaropvolgende frames, wat de prestaties van SAM 2 beperkt bij complexe langetermijnvideo's. Om dit aan te pakken, introduceren we SAM2Long, een verbeterde, trainingvrije strategie voor video-objectsegmentatie, die de segmentatieonzekerheid binnen elk frame in overweging neemt en de videoniveau optimale resultaten kiest uit meerdere segmentatiepaden op een beperkte boomzoekmanier. In de praktijk behouden we een vast aantal segmentatiepaden gedurende de video. Voor elk frame worden meerdere maskers voorgesteld op basis van de bestaande paden, wat resulteert in verschillende kandidaatvertakkingen. Vervolgens selecteren we hetzelfde vaste aantal vertakkingen met hogere cumulatieve scores als de nieuwe paden voor het volgende frame. Na verwerking van het laatste frame wordt het pad met de hoogste cumulatieve score gekozen als het uiteindelijke segmentatieresultaat. Dankzij het heuristische zoekontwerp is SAM2Long robuust tegen occlusies en objectheroptredens, en kan het objecten effectief segmenteren en volgen in complexe langetermijnvideo's. Opmerkelijk behaalt SAM2Long een gemiddelde verbetering van 3,0 punten in alle 24 directe vergelijkingen, met winsten tot 5,3 punten in J&F op langetermijnvideosegmentatie-benchmarks zoals SA-V en LVOS. De code is beschikbaar op https://github.com/Mark12Ding/SAM2Long.
Efficiënte en nauwkeurige evaluatie is cruciaal voor de voortdurende verbetering van grote taalmodellen (TMs). Onder verschillende beoordelingsmethoden heeft subjectieve evaluatie aanzienlijke aandacht gekregen vanwege de superieure afstemming op real-world gebruiksscenario's en menselijke voorkeuren. Menselijke evaluaties zijn echter kostbaar en missen reproduceerbaarheid, waardoor precieze geautomatiseerde beoordelaars essentieel zijn in dit proces. In dit rapport introduceren we CompassJudger-1, de eerste open-source alles-in-één beoordelaar TM. CompassJudger-1 is een algemeen TM dat opmerkelijke veelzijdigheid toont. Het is in staat tot: 1. Het uitvoeren van enkelvoudige scoring en het vergelijken van twee modellen als een beloningsmodel; 2. Het uitvoeren van evaluaties volgens gespecificeerde formats; 3. Het genereren van kritieken; 4. Het uitvoeren van diverse taken zoals een algemeen TM. Om de evaluatiemogelijkheden van verschillende beoordelingsmodellen onder een uniforme instelling te beoordelen, hebben we ook JudgerBench opgericht, een nieuwe benchmark die verschillende subjectieve evaluatietaken omvat en een breed scala aan onderwerpen bestrijkt. CompassJudger-1 biedt een allesomvattende oplossing voor verschillende evaluatietaken terwijl het de flexibiliteit behoudt om zich aan te passen aan diverse vereisten. Zowel CompassJudger als JudgerBench zijn vrijgegeven en beschikbaar voor de onderzoeksgemeenschap op https://github.com/open-compass/CompassJudger. We geloven dat door deze tools open-source te maken, we samenwerking kunnen bevorderen en vooruitgang kunnen versnellen in TM-evaluatiemethodologieën.
Met de vooruitgang in open-source modellen is het trainen (of finetunen) van modellen op aangepaste datasets een cruciaal onderdeel geworden van het ontwikkelen van oplossingen die zijn afgestemd op specifieke industriële of open-source toepassingen. Toch is er geen enkele tool die het proces van training over verschillende soorten modaliteiten of taken vereenvoudigt. We introduceren AutoTrain (ook bekend als AutoTrain Advanced) - een open-source, no-code tool/bibliotheek die kan worden gebruikt om modellen te trainen (of finetunen) voor verschillende soorten taken zoals: finetuning van grote taalmodellen (LLM), tekstclassificatie/regressie, tokenclassificatie, sequentie-taak, finetuning van zintransformatoren, finetuning van visuele taalmodellen (VLM), beeldclassificatie/regressie en zelfs classificatie- en regressietaken op tabulaire gegevens. AutoTrain Advanced is een open-source bibliotheek die best practices biedt voor het trainen van modellen op aangepaste datasets. De bibliotheek is beschikbaar op https://github.com/huggingface/autotrain-advanced. AutoTrain kan worden gebruikt in volledig lokale modus of op cloudmachines en werkt met tienduizenden modellen die worden gedeeld op het Hugging Face Hub en hun varianten.
Recente ontwikkelingen in multimodale grondslagmodellen hebben aanzienlijke vooruitgang geboekt in het begrijpen van visuele taal. Initiatieven hebben ook de potentie van multimodale grote taalmodellen (MLLM's) verkend voor het genereren van visuele inhoud. Bestaande werken hebben echter onvoldoende aandacht besteed aan de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-paradigma - van de diversiteit die nodig is bij tekst-naar-beeldgeneratie tot de precieze controleerbaarheid die nodig is bij beeldmanipulatie. In dit werk stellen we PUMA voor, waarmee Unified MLLM wordt versterkt met Multi-granulaire visuele generatie. PUMA verenigt multi-granulaire visuele kenmerken als zowel invoer als uitvoer van MLLM's, waarbij op elegante wijze wordt ingegaan op de verschillende granulariteitsvereisten van verschillende beeldgeneratietaken binnen een verenigd MLLM-framework. Na multimodale vooraftraining en taakspecifieke instructieafstemming toont PUMA bekwaamheid in een breed scala aan multimodale taken. Dit werk vertegenwoordigt een significante stap naar een werkelijk verenigd MLLM dat in staat is om zich aan te passen aan de granulariteitsvereisten van verschillende visuele taken. De code en het model zullen worden vrijgegeven op https://github.com/rongyaofang/PUMA.
We introduceren Baichuan Alignment, een gedetailleerde analyse van de aligneringstechnieken die worden toegepast in de Baichuan-serie van modellen. Dit vertegenwoordigt de eerste uitgebreide beschrijving van aligneringsmethodologieën in de industrie, en biedt waardevolle inzichten voor de vooruitgang van AI-onderzoek. We onderzoeken de cruciale componenten die de prestaties van modellen verbeteren tijdens het aligneringsproces, waaronder optimalisatiemethoden, gegevensstrategieën, capaciteitsverbeteringen en evaluatieprocessen. Het proces omvat drie belangrijke fasen: Prompt Augmentation System (PAS), Supervised Fine-Tuning (SFT), en Preference Alignment. De problemen die zich voordoen, de toegepaste oplossingen, en de verbeteringen die zijn aangebracht, worden grondig gedocumenteerd. Door vergelijkingen met goed ingeburgerde benchmarks benadrukken we de technologische vooruitgang die mogelijk is gemaakt door Baichuan Alignment. Baichuan-Instruct is een intern model, terwijl Qwen2-Nova-72B en Llama3-PBM-Nova-70B instruct-versies zijn van de basismodellen Qwen2-72B en Llama-3-70B, geoptimaliseerd via Baichuan Alignment. Baichuan-Instruct toont aanzienlijke verbeteringen in kernmogelijkheden, met gebruikerservaringswinsten variërend van 17% tot 28%, en presteert uitzonderlijk goed op gespecialiseerde benchmarks. In evaluaties van open-source benchmarks presteren zowel Qwen2-Nova-72B als Llama3-PBM-Nova-70B consequent beter dan hun respectievelijke officiële instruct-versies op bijna alle datasets. Dit rapport heeft tot doel de belangrijkste technologieën achter het aligneringsproces te verduidelijken, en zo een dieper begrip binnen de gemeenschap te bevorderen. Het Llama3-PBM-Nova-70B model is beschikbaar op https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
Supervised fine-tuning (SFT) is cruciaal bij het aanpassen van grote taalmodellen (LLM's) aan een specifiek domein of taak. Er is echter slechts een beperkte hoeveelheid gelabelde data beschikbaar in praktische toepassingen, wat een ernstige uitdaging vormt voor SFT om bevredigende resultaten op te leveren. Daarom wordt een data-efficiënt raamwerk dat gelabelde en ongelabelde data volledig kan benutten voor LLM-fine-tuning zeer verwacht. Met dit doel introduceren we een semi-supervised fine-tuning raamwerk genaamd SemiEvol voor LLM-aanpassing vanuit een propageren-en-selecteren benadering. Voor kennispropagatie neemt SemiEvol een tweeledige aanpak aan, waarbij kennis wordt overgedragen van gelabelde data naar ongelabelde data via zowel in-gewicht als in-context methoden. Voor kennisselectie omvat SemiEvol een samenwerkingsmechanisme, waarbij hogere kwaliteit pseudo-responsmonsters worden geselecteerd. We hebben experimenten uitgevoerd met GPT-4o-mini en Llama-3.1 op zeven algemene of domeinspecifieke datasets, waarbij significante verbeteringen in modelprestaties op doeldata werden aangetoond. Bovendien hebben we SemiEvol vergeleken met SFT en zelf-evolutiemethoden, waarbij de praktische toepasbaarheid ervan in hybride datasituaties werd benadrukt.
Ondanks recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft de ontwikkeling zich voornamelijk gericht op Engels- en op het Westen gerichte datasets en taken, waardoor de meeste talen ter wereld en diverse culturele contexten ondervertegenwoordigd blijven. Dit artikel introduceert Pangea, een meertalig multimodaal LLM getraind op PangeaIns, een divers instructiedataset van 6M die 39 talen beslaat. PangeaIns kenmerkt zich door: 1) hoogwaardige Engelse instructies, 2) zorgvuldig machinevertaalde instructies, en 3) cultureel relevante multimodale taken om een brede culturele dekking te waarborgen. Om de mogelijkheden van modellen grondig te beoordelen, introduceren we PangeaBench, een allesomvattende evaluatiesuite die 14 datasets omvat die 47 talen bestrijken. De resultaten tonen aan dat Pangea aanzienlijk beter presteert dan bestaande open-source modellen in meertalige omgevingen en diverse culturele contexten. Ablatieonderzoeken onthullen verder het belang van Engelse dataproporities, taalpopulariteit en het aantal multimodale trainingsvoorbeelden voor de algehele prestaties. We maken onze gegevens, code en getrainde checkpoints volledig open-source om de ontwikkeling van inclusieve en robuuste meertalige MLLM's te vergemakkelijken, en om gelijkheid en toegankelijkheid over een breder taalkundig en cultureel spectrum te bevorderen.
Beloningsmodellen zijn cruciaal in technieken zoals Versterkend Leren van Menselijke Feedback (RLHF) en Inferentieschaalwetten, waar ze de uitlijning van taalmodellen sturen en optimale reacties selecteren. Ondanks hun belang, beoordelen bestaande beloningsmodelbenchmarks modellen vaak door ze te vragen onderscheid te maken tussen reacties gegenereerd door modellen van verschillende kracht. Deze aanpak slaagt er echter niet in om beloningsmodellen te beoordelen op subtiele maar cruciale inhoudsveranderingen en variaties in stijl, wat resulteert in een lage correlatie met de prestaties van beleidsmodellen. Daartoe introduceren we RM-Bench, een nieuw benchmark ontworpen om beloningsmodellen te evalueren op basis van hun gevoeligheid voor subtiele inhoudsverschillen en weerstand tegen stijlvooroordelen. Uitgebreide experimenten tonen aan dat RM-Bench sterk correleert met de prestaties van beleidsmodellen, waardoor het een betrouwbare referentie is voor het selecteren van beloningsmodellen om taalmodellen effectief uit te lijnen. We evalueren bijna 40 beloningsmodellen op RM-Bench. Onze resultaten tonen aan dat zelfs state-of-the-art modellen slechts een gemiddelde prestatie van 46,6% behalen, wat lager is dan de willekeurige nauwkeurigheid (50%) wanneer ze te maken krijgen met stijlvooroordeelinterferentie. Deze bevindingen benadrukken de aanzienlijke ruimte voor verbetering in de huidige beloningsmodellen. Gerelateerde code en gegevens zijn beschikbaar op https://github.com/THU-KEG/RM-Bench.
Retrieval-Augmented Generation (RAG), terwijl het een levensvatbare aanvulling is op grote taalmodellen (LLM's), ziet vaak het cruciale aspect van tekstsegmentatie binnen zijn proces over het hoofd, wat de kwaliteit van kennisintensieve taken beïnvloedt. Dit artikel introduceert het concept van Meta-Chunking, dat verwijst naar een granulariteit tussen zinnen en alinea's, bestaande uit een verzameling zinnen binnen een alinea die diepe linguïstische logische verbindingen hebben. Om Meta-Chunking te implementeren, hebben we twee strategieën ontworpen op basis van LLM's: Margin Sampling Chunking en Perplexity Chunking. De eerste maakt gebruik van LLM's om binair te classificeren of opeenvolgende zinnen moeten worden gesegmenteerd, waarbij beslissingen worden genomen op basis van het waarschijnlijkheidsverschil verkregen uit margin sampling. De laatste identificeert nauwkeurig tekstsegmentgrenzen door de kenmerken van de perplexiteitsverdeling te analyseren. Daarnaast, gezien de inherente complexiteit van verschillende teksten, stellen we een strategie voor die Meta-Chunking combineert met dynamische samenvoeging om een balans te bereiken tussen fijnkorrelige en grofkorrelige tekstsegmentatie. Experimenten uitgevoerd op elf datasets tonen aan dat Meta-Chunking de prestaties van single-hop en multi-hop vraag-antwoordtaken op basis van RAG efficiënter kan verbeteren. Bijvoorbeeld, op de 2WikiMultihopQA-dataset presteert het beter dan similarity chunking met 1,32 terwijl het slechts 45,8% van de tijd kost. Onze code is beschikbaar op https://github.com/IAAR-Shanghai/Meta-Chunking.
Kennisdistantie (KD) heeft als doel kennis over te dragen van een grote docentmodel naar een kleiner studentmodel. Eerdere onderzoeken die KD toepassen in het veld van grote taalmodellen (LLM's) richtten zich typisch op de post-trainingfase, waar de student LLM rechtstreeks leert van instructies en bijbehorende reacties gegenereerd door het docentmodel. In dit artikel breiden we KD uit naar de pre-trainingfase van LLM's, genaamd pre-training distillatie (PD). We voeren eerst een voorlopig experiment uit met GLM-4-9B als het docent LLM om een student LLM met 1.9B parameters te distilleren, waarbij we de effectiviteit van PD valideren. Gezien de belangrijkste impactfactoren van distillatie, verkennen we systematisch de ontwerpruimte van pre-training distillatie over vier aspecten: logitverwerking, verliesselectie, schalingswet, en offline of online log-its. We voeren uitgebreide experimenten uit om de ontwerpruimte van pre-training distillatie te verkennen en betere configuraties en interessante conclusies te vinden, zoals dat grotere student LLM's over het algemeen meer profiteren van pre-training distillatie, terwijl een groter docent LLM niet noodzakelijkerwijs betere resultaten garandeert. We hopen dat onze verkenning van de ontwerpruimte toekomstige praktijken in pre-training distillatie zal informeren.
Het schrijven van formele bewijzen is zelfs voor ervaren experts uitdagend. Recente vooruitgang in Neuraal Stellingen Bewijzen (NSB) toont belofte om dit proces te versnellen. Echter, de formele corpora die beschikbaar zijn op het internet zijn beperkt in vergelijking met de algemene tekst, wat een aanzienlijke uitdaging vormt vanwege de schaarste aan data voor NSB. Om dit probleem aan te pakken, stelt dit werk Alchemie voor, een algemeen kader voor gegevenssynthese dat formele stellingen construeert door symbolische mutatie. Specifiek identificeren we voor elke kandidaatstelling in Mathlib alle oproepbare stellingen die kunnen worden gebruikt om deze te herschrijven of toe te passen. Vervolgens muteren we de kandidaatstelling door het overeenkomstige term in de verklaring te vervangen door de equivalente vorm of antecedent. Als gevolg hiervan vergroot onze methode het aantal stellingen in Mathlib met een orde van grootte, van 110k naar 6M. Bovendien voeren we voortdurende voortraining en begeleide fijnafstemming uit op dit uitgebreide corpus voor grote taalmodellen. Experimentele resultaten tonen de effectiviteit van onze aanpak aan, met een absoluut prestatieverbetering van 5% op de Leandojo benchmark. Daarnaast behalen onze synthetische gegevens een absoluut prestatievoordeel van 2.5% op de out-of-distribution miniF2F benchmark. Om verdere inzichten te bieden, voeren we een uitgebreide analyse uit van de samenstelling van synthetische gegevens en het trainingsparadigma, waarbij waardevolle richtlijnen worden geboden voor de ontwikkeling van een sterke stellingenbewijzer.
Grote Taalmodellen (LLM's) hebben de verwerking van natuurlijke taal gerevolutioneerd, maar hun toepassing op spraakgebaseerde taken blijft uitdagend vanwege de complexiteit van het integreren van audio- en tekstmodaliteiten. Dit artikel introduceert Ichigo, een gemengd-modale model dat naadloos intermitterende sequenties van spraak en tekst verwerkt. Door gebruik te maken van een getokeniseerde early-fusion benadering, kwantificeert Ichigo spraak in discrete tokens en maakt gebruik van een uniforme op transformer gebaseerde architectuur voor zowel spraak als tekstmodaliteiten. Deze methode maakt gezamenlijke redenering en generatie over modaliteiten mogelijk zonder de noodzaak van aparte adapters. We presenteren een uitgebreide trainingsmethodologie, inclusief voorafgaande training op meertalige spraakherkenningsdatasets en fine-tuning op een samengestelde instructiedataset. Ichigo toont state-of-the-art prestaties op spraakvraag-antwoord benchmarks, presterend beter dan bestaande open-source spraaktaalmodellen en vergelijkbare resultaten behalend met cascadesystemen. Opmerkelijk is dat Ichigo een latentie vertoont van slechts 111 ms tot de eerste token-generatie, aanzienlijk lager dan bij huidige modellen. Onze benadering bevordert niet alleen het veld van multimodale AI, maar biedt ook een raamwerk voor kleinere onderzoeksteams om effectief bij te dragen aan open-source spraaktaalmodellen.
De opkomende zero-shot mogelijkheden van Grote Taalmodellen (LLM's) hebben geleid tot hun toepassingen op gebieden die verder reiken dan taken voor natuurlijke taalverwerking. In reinforcement learning zijn LLM's veel gebruikt in op tekst gebaseerde omgevingen, maar hun integratie met continue toestandsruimtes is nog weinig onderzocht. In dit artikel onderzoeken we hoe vooraf getrainde LLM's kunnen worden benut om in context de dynamiek van continue Markov-beslissingsprocessen te voorspellen. We identificeren het omgaan met multivariate gegevens en het opnemen van het besturingsignaal als belangrijke uitdagingen die het potentieel van de inzet van LLM's in deze opstelling beperken en stellen Disentangled In-Context Learning (DICL) voor om deze aan te pakken. We presenteren proof-of-concept toepassingen in twee reinforcement learning-instellingen: op model gebaseerde beleidsevaluatie en data-verrijkte off-policy reinforcement learning, ondersteund door theoretische analyse van de voorgestelde methoden. Onze experimenten tonen verder aan dat onze aanpak goed gekalibreerde onzekerheidsschattingen oplevert. We stellen de code beschikbaar op https://github.com/abenechehab/dicl.
De uitbreiding van grote taalmodellen om effectief om te gaan met instructies met extreem lange contexten is nog niet volledig onderzocht. Het voornaamste obstakel ligt in het construeren van een hoogwaardige dataset voor het volgen van lange instructies, ontworpen voor het afstemmen van lange contexten. Bestaande studies hebben geprobeerd de beschikbare hoeveelheid data te vergroten door het synthetiseren van voorbeelden van het volgen van lange instructies. Echter, het willekeurig vergroten van de hoeveelheid data zonder een goed gedefinieerde strategie om de kwaliteit van de data te waarborgen kan leiden tot lage kwaliteit voorbeelden en de uiteindelijke prestaties beperken. Om deze kloof te overbruggen, richten we ons op de unieke uitdaging van het afstemmen van lange contexten, oftewel het modelleren van de lange-afstandsafhankelijkheden voor het omgaan met instructies en uitgebreide invoercontexten. We stellen GATEAU voor, een nieuw raamwerk dat is ontworpen om de invloedrijke en hoogwaardige voorbeelden te identificeren die verrijkt zijn met lange-afstandsafhankelijkheidsrelaties door gebruik te maken van de ontworpen Begeleiding van Homologe Modellen (HMG) en Contextueel Bewustzijnsmeting (CAM). Specifiek probeert HMG de moeilijkheid van het genereren van overeenkomstige reacties te meten als gevolg van de lange-afstandsafhankelijkheden, door gebruik te maken van de perplexiteitsscores van de reactie van twee homologe modellen met verschillende contextvensters. Ook heeft CAM als doel de moeilijkheid van het begrijpen van de lange invoercontexten als gevolg van lange-afstandsafhankelijkheden te meten door te evalueren of de aandacht van het model gericht is op belangrijke segmenten. Gebaseerd op beide voorgestelde methoden selecteren we de meest uitdagende voorbeelden als de invloedrijke data om effectief de lange-afstandsafhankelijkheden te structureren, waardoor een betere prestatie van LLMs wordt bereikt. Uitgebreide experimenten tonen aan dat GATEAU effectief voorbeelden identificeert die verrijkt zijn met lange-afstandsafhankelijkheidsrelaties en dat het model dat is getraind op deze geselecteerde voorbeelden betere vaardigheden vertoont op het gebied van het volgen van instructies en het begrijpen van lange contexten.
Tekst-naar-afbeeldingmodellen worden getraind met behulp van grote datasets die zijn verzameld door afbeelding-tekstparen van internet te schrapen. Deze datasets bevatten vaak privé-, auteursrechtelijk beschermd en gelicentieerd materiaal. Het trainen van modellen op dergelijke datasets stelt hen in staat afbeeldingen te genereren met dergelijke inhoud, wat in strijd kan zijn met auteursrechtwetten en individuele privacy. Dit fenomeen wordt imitatie genoemd - het genereren van afbeeldingen met inhoud die herkenbare gelijkenis vertoont met de trainingsafbeeldingen. In dit werk bestuderen we de relatie tussen de frequentie van een concept in de trainingsdataset en het vermogen van een model om het na te bootsen. We proberen het punt te bepalen waarop een model voldoende is getraind om een concept na te bootsen - de imitatie drempel. We stellen deze vraag als een nieuw probleem: het vinden van de Imitatiedrempel (FIT) en stellen een efficiënte aanpak voor die de imitatie drempel schat zonder de enorme kosten van het trainen van meerdere modellen vanaf nul. We experimenteren met twee domeinen - menselijke gezichten en kunststijlen - waarvoor we vier datasets maken, en evalueren drie tekst-naar-afbeeldingmodellen die zijn getraind op twee pretraining datasets. Onze resultaten tonen aan dat de imitatie drempel van deze modellen ligt in het bereik van 200-600 afbeeldingen, afhankelijk van het domein en het model. De imitatie drempel kan een empirische basis bieden voor claims van auteursrechtinbreuk en fungeert als een leidraad voor ontwikkelaars van tekst-naar-afbeeldingmodellen die willen voldoen aan auteursrecht- en privacywetten. We publiceren de code en data op https://github.com/vsahil/MIMETIC-2.git en de website van het project is te vinden op https://how-many-van-goghs-does-it-take.github.io.
We presenteren Agent-to-Sim (ATS), een framework voor het leren van interactieve gedragsmodellen van 3D-agenten uit informele longitudinale videocollecties. In tegenstelling tot eerdere werken die vertrouwen op marker-gebaseerde tracking en multiview-camera's, leert ATS natuurlijke gedragingen van dierlijke en menselijke agenten niet-invasief door middel van videoobservaties die gedurende een lange periode (bijv. een maand) in een enkele omgeving zijn opgenomen. Het modelleren van het 3D-gedrag van een agent vereist aanhoudende 3D-tracking (bijv. weten welk punt overeenkomt met welk punt) over een lange periode. Om dergelijke gegevens te verkrijgen, ontwikkelen we een grof-naar-fijne registratiemethode die de agent en de camera in de loop van de tijd volgt door middel van een canonieke 3D-ruimte, resulterend in een volledige en aanhoudende spacetime 4D-representatie. Vervolgens trainen we een generatief model van agentgedragingen met behulp van gepaarde gegevens van perceptie en beweging van een agent opgevraagd uit de 4D-reconstructie. ATS maakt real-to-sim-overdracht mogelijk van videoregistraties van een agent naar een interactieve gedragssimulator. We tonen resultaten op huisdieren (bijv. kat, hond, konijn) en mensen aan de hand van monoculaire RGBD-video's die zijn vastgelegd met een smartphone.
Er bestaat vandaag een aanzienlijke kloof tussen de behoeften van patiënten en de beschikbare mentale gezondheidssteun. In dit artikel streven we ernaar om grondig de potentie van het gebruik van Grote Taalmodellen (GTM's) te onderzoeken om professionele psychotherapie te ondersteunen. Hiertoe stellen we een nieuwe benchmark voor, CBT-BENCH, voor de systematische evaluatie van cognitieve gedragstherapie (CGT) ondersteuning. We omvatten drie niveaus van taken in CBT-BENCH: I: Basis CGT-kennisverwerving, met de taak van meerkeuzevragen; II: Begrip van cognitief model, met de taken van classificatie van cognitieve vertekening, classificatie van primaire kernovertuiging en gedetailleerde kernovertuigingsclassificatie; III: Generatie van therapeutische reacties, met de taak om reacties te genereren op de spraak van de patiënt in CGT-therapiesessies. Deze taken omvatten essentiële aspecten van CGT die mogelijk verbeterd kunnen worden door AI-ondersteuning, terwijl ook een hiërarchie van capaciteitseisen wordt geschetst, variërend van basiskennisreproductie tot deelname aan echte therapeutische gesprekken. We hebben representatieve GTM's geëvalueerd op onze benchmark. Experimentele resultaten geven aan dat hoewel GTM's goed presteren in het reproduceren van CGT-kennis, ze tekortschieten in complexe real-world scenario's diepgaande analyse van cognitieve structuren van patiënten vereisen en het genereren van effectieve reacties, wat wijst op potentieel toekomstig werk.
Traditionele transformer modellen wijzen vaak een vastgestelde hoeveelheid rekenbronnen toe aan elk invoertoken, wat leidt tot inefficiënte en onnodige berekeningen. Om dit aan te pakken, werd de Mixture of Depths (MoD) geïntroduceerd om dynamisch de berekeningsdiepte aan te passen door minder belangrijke lagen over te slaan. Ondanks de belofte blijven huidige MoD-benaderingen onderbelicht en worden geconfronteerd met twee belangrijke uitdagingen: (1) hoge trainingskosten als gevolg van de noodzaak om het volledige model samen met de routers die bepalen welke lagen moeten worden overgeslagen, te trainen, en (2) het risico op prestatievermindering wanneer belangrijke lagen worden omzeild. Als reactie op het eerste probleem stellen we Router-Tuning voor, een methode die alleen de router fijnafstemt op een kleine dataset, waardoor de rekenoverhead die gepaard gaat met het volledig trainen van het model drastisch wordt verminderd. Voor de tweede uitdaging stellen we MindSkip voor, dat Attention met Dynamische Dieptes implementeert. Deze methode behoudt de prestaties van het model terwijl de reken- en geheugenefficiëntie aanzienlijk worden verbeterd. Uitgebreide experimenten tonen aan dat onze aanpak concurrerende resultaten oplevert en tegelijkertijd de berekeningsefficiëntie aanzienlijk verbetert, bijvoorbeeld een versnelling van 21% en slechts een prestatiedaling van 0,2%. De code is beschikbaar op https://github.com/CASE-Lab-UMD/Router-Tuning.
Recente ontwikkelingen in spraak-taalmodellen hebben aanzienlijke verbeteringen opgeleverd in spraaktokenisatie en -synthese. Het effectief in kaart brengen van de complexe, multidimensionale kenmerken van spraak in discrete tokens blijft echter een uitdaging. Dit proces vereist akoestische, semantische en contextuele informatie voor nauwkeurige spraakrepresentaties. Bestaande spraakrepresentaties vallen over het algemeen in twee categorieën: akoestische tokens van audiocodecs en semantische tokens van spraakzelftoezichtlermodellen. Hoewel recente inspanningen akoestische en semantische tokens hebben verenigd voor verbeterde prestaties, verwaarlozen ze de cruciale rol van contextuele representatie in uitgebreide spraakmodellering. Onze empirische onderzoeken tonen aan dat het ontbreken van contextuele representaties leidt tot verhoogde Word Error Rate (WER) en Word Information Lost (WIL) scores in spraaktranscripties. Om deze beperkingen aan te pakken, stellen we twee nieuwe distillatiebenaderingen voor: (1) een distillatiemethode geleid door een taalmodel (LM) die contextuele informatie opneemt, en (2) een gecombineerde LM en zelftoezicht spraakmodel (SM)-geleide distillatietechniek die multimodale representaties (akoestisch, semantisch en contextueel) effectief distilleert tot een uitgebreide spraaktokenizer, genaamd DM-Codec. De DM-Codec-architectuur neemt een gestroomlijnd encoder-decoderkader aan met een Residual Vector Quantizer (RVQ) en neemt het LM en SM op tijdens het trainingsproces. Experimenten tonen aan dat DM-Codec aanzienlijk beter presteert dan state-of-the-art spraaktokeniseringsmodellen, waarbij WER met maximaal 13,46% wordt verlaagd, WIL met 9,82% en de spraakkwaliteit met 5,84% en de verstaanbaarheid met 1,85% worden verbeterd op de benchmarkdataset LibriSpeech. De code, voorbeelden en modelcontrolepunten zijn beschikbaar op https://github.com/mubtasimahasan/DM-Codec.
Het doel van machine learning is generalisatie. Hoewel de Stelling van Geen Gratis Lunch stelt dat we geen theoretische garanties voor generalisatie kunnen verkrijgen zonder verdere aannames, observeren we in de praktijk dat eenvoudige modellen die de trainingsgegevens verklaren het beste generaliseren: een principe dat bekend staat als Occam's scheermes. Ondanks de behoefte aan eenvoudige modellen, minimaliseren de meeste huidige benaderingen in machine learning alleen de trainingsfout, en bevorderen hoogstens indirect eenvoud door regularisatie of architectuurontwerp. Hier leggen we een verband tussen Occam's scheermes en in-context leren: een opkomende vaardigheid van bepaalde sequentiële modellen zoals Transformers om tijdens inferentie te leren van eerdere waarnemingen in een sequentie. In het bijzonder tonen we aan dat het verlies bij voorspelling van het volgende token dat wordt gebruikt om in-context leerlingen te trainen, rechtstreeks equivalent is aan een gegevenscompressietechniek genaamd prequential codering, en dat het minimaliseren van dit verlies neerkomt op het gezamenlijk minimaliseren van zowel de trainingsfout als de complexiteit van het model dat impliciet is geleerd uit de context. Onze theorie en de empirische experimenten die we gebruiken om deze te ondersteunen, bieden niet alleen een normatieve verklaring van in-context leren, maar verhelderen ook de tekortkomingen van huidige in-context leermethoden, waarbij wordt gesuggereerd op welke manieren ze kunnen worden verbeterd. We stellen onze code beschikbaar op https://github.com/3rdCore/PrequentialCode.
Naarmate grote taalmodellen (LLM's) steeds meer worden ingezet in verschillende sectoren, zijn er zorgen ontstaan over hun betrouwbaarheid, met name vanwege hallucinaties - uitvoer die feitelijk onjuist of irrelevant is voor de gebruikersinvoer. Ons onderzoek onderzoekt de relatie tussen het trainingsproces en het ontstaan van hallucinaties om een belangrijke lacune in bestaand onderzoek aan te pakken dat zich voornamelijk richt op post-hoc detectie- en mitigatiestrategieën. Met behulp van modellen uit de Pythia-suite (70M-12B parameters) en verschillende hallucinatiedetectiemetrieken analyseren we hallucinatietrends gedurende de training en verkennen we de interne dynamiek van LLM's. We introduceren SEnsitive Neuron Dropout (SeND), een nieuw trainingsprotocol dat is ontworpen om hallucinaties te verminderen door de variantie tijdens de training te verlagen. SeND bereikt dit door deterministisch neuronen te laten vallen met aanzienlijke variabiliteit in een dataset, aangeduid als Gevoelige Neuronen. Daarnaast ontwikkelen we een ongesuperviseerde hallucinatiedetectiemetrie, Efficiënte EigenScore (EES), die de traditionele EigenScore benadert met een snelheid van 2x. Deze efficiënte metriek is geïntegreerd in ons protocol, waardoor SeND zowel computationeel schaalbaar als effectief is in het verminderen van hallucinaties. Onze empirische evaluatie toont aan dat onze aanpak de betrouwbaarheid van LLM's bij testtijd met maximaal 40% verbetert in vergelijking met normale training, terwijl het ook een efficiënte methode biedt om de feitelijke nauwkeurigheid te verbeteren bij het aanpassen van LLM's aan domeinen zoals Wikipedia en medische datasets.
Het evalueren van door machines gegenereerde tekst blijft een significante uitdaging in NLP, vooral voor niet-Engelse talen. Huidige methodologieën, waaronder geautomatiseerde metrieken, menselijke beoordelingen en LLM-gebaseerde evaluaties, richten zich voornamelijk op het Engels, wat een aanzienlijke lacune blootlegt in multilinguale evaluatiekaders. We introduceren de Cross Lingual Auto Evaluation (CIA) Suite, een uitbreidbaar kader dat evaluator LLM's (Hercule) en een nieuw testset (Recon) omvat die specifiek zijn ontworpen voor multilinguale evaluatie. Onze testset bevat 500 menselijk geannoteerde instructies die verschillende taakmogelijkheden bestrijken, samen met menselijke beoordelingsscores in zes talen. Dit zou benchmarking van algemene multilinguale LLM's mogelijk maken en het meta-evalueren van Evaluator LLM's vergemakkelijken. Het voorgestelde model, Hercule, is een cross-linguale evaluatiemodel dat het gebrek aan referentieantwoorden in de doeltaal aanpakt door te leren scores toe te kennen aan antwoorden op basis van gemakkelijk beschikbare referentieantwoorden in het Engels. Onze experimenten tonen aan dat Hercule nauwer aansluit bij menselijke beoordelingen in vergelijking met eigen modellen, wat de effectiviteit van dergelijke cross-linguale evaluatie in situaties met beperkte middelen aantoont. Bovendien is het ook effectief in zero-shot evaluatie van ongeziene talen. Deze studie is de eerste uitgebreide analyse van cross-linguale evaluatie met behulp van LLM's, en presenteert een schaalbare en effectieve benadering voor multilinguale beoordeling. Alle code, datasets en modellen zullen openbaar beschikbaar worden gesteld om verder onderzoek op dit belangrijke gebied mogelijk te maken.