Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Retrieval-Augmented Generation (RAG) is een krachtig paradigma geworden voor het verbeteren van grote taalmodellen (LLMs) door externe kennisopvraging. Ondanks de brede aandacht richt bestaand academisch onderzoek zich voornamelijk op single-turn RAG, wat een aanzienlijke lacune laat in het aanpakken van de complexiteiten van multi-turn gesprekken die worden aangetroffen in real-world toepassingen. Om deze kloof te overbruggen, introduceren we CORAL, een grootschalige benchmark ontworpen om RAG-systemen te beoordelen in realistische multi-turn conversatie-instellingen. CORAL omvat diverse informatiezoekende gesprekken die automatisch zijn afgeleid van Wikipedia en behandelt belangrijke uitdagingen zoals open-domein dekking, kennisintensiteit, vrije vorm reacties en onderwerpverschuivingen. Het ondersteunt drie kerntaken van conversational RAG: passage retrieval, response generation en citation labeling. We stellen een verenigd kader voor om verschillende conversational RAG-methoden te standaardiseren en voeren een uitgebreide evaluatie van deze methoden uit op CORAL, waarbij aanzienlijke mogelijkheden worden aangetoond voor het verbeteren van bestaande benaderingen.
Transformers zijn de dominante architectuur geworden in basismodellen vanwege hun uitstekende prestaties in verschillende domeinen. Echter blijft de aanzienlijke kosten van het schalen van deze modellen een belangrijke zorg. Dit probleem ontstaat voornamelijk door hun afhankelijkheid van een vast aantal parameters binnen lineaire projecties. Wanneer architecturale aanpassingen (bijv. kanaaldimensies) worden geïntroduceerd, vereist het gehele model doorgaans opnieuw getraind te worden vanaf het begin. Naarmate de modelgroottes blijven groeien, leidt deze strategie tot steeds hogere computationele kosten en wordt onhoudbaar. Om dit probleem te overwinnen, introduceren we TokenFormer, een van nature schaalbare architectuur die het aandachtsmechanisme benut niet alleen voor berekeningen tussen invoertokens, maar ook voor interacties tussen tokens en modelparameters, waardoor de architecturale flexibiliteit wordt verbeterd. Door modelparameters te behandelen als tokens, vervangen we alle lineaire projecties in Transformers door onze token-parameter aandachtslaag, waarbij invoertokens fungeren als vragen en modelparameters als sleutels en waarden. Deze herformulering maakt progressief en efficiënt schalen mogelijk zonder de noodzaak van opnieuw trainen vanaf het begin. Ons model schaalt van 124M naar 1.4B parameters door geleidelijk nieuwe sleutel-waarde parameterparen toe te voegen, met prestaties vergelijkbaar met Transformers die vanaf het begin zijn getraind, terwijl de trainingskosten aanzienlijk worden verlaagd. Code en modellen zijn beschikbaar op https://github.com/Haiyang-W/TokenFormer.
In de afgelopen jaren is er een trend geweest in het veld van Reinforcement Learning (RL) naar grote actiemodellen die offline worden getraind op grootschalige datasets via sequentiemodellering. Bestaande modellen zijn voornamelijk gebaseerd op de Transformer-architectuur, wat resulteert in krachtige agenten. Echter, vanwege trage inferentietijden zijn op Transformer gebaseerde benaderingen onpraktisch voor realtime toepassingen, zoals robotica. Onlangs zijn moderne terugkerende architecturen, zoals xLSTM en Mamba, voorgesteld die parallelisatievoordelen vertonen tijdens training vergelijkbaar met de Transformer-architectuur, terwijl ze snelle inferentie bieden. In dit werk bestuderen we de geschiktheid van deze moderne terugkerende architecturen voor grote actiemodellen. Als gevolg hiervan stellen we een Groot Terugkerend Actiemodel (LRAM) voor met een xLSTM in de kern dat wordt geleverd met inferentiecomplexiteit in lineaire tijd en natuurlijke extrapolatievermogens van sequentielengte. Experimenten op 432 taken uit 6 domeinen tonen aan dat LRAM gunstig presteert ten opzichte van Transformers wat betreft prestaties en snelheid.
We presenteren REM, een framework voor het segmenteren van een breed scala aan concepten in video die kunnen worden beschreven met behulp van natuurlijke taal. Onze methode maakt gebruik van visueel-taalrepresentaties die zijn geleerd door videodiffusiemodellen op datasets op internetschaal. Een belangrijk inzicht van onze aanpak is het behouden van zoveel mogelijk van de oorspronkelijke representatie van het generatieve model, terwijl het wordt verfijnd op smal-domein Referral Object Segmentation-datasets. Als gevolg hiervan kan ons framework nauwkeurig zeldzame en ongeziene objecten segmenteren en volgen, ondanks dat het is getraind op objectmaskers uit een beperkte reeks categorieën. Bovendien kan het generaliseren naar niet-object dynamische concepten, zoals golven die breken in de oceaan, zoals gedemonstreerd in onze nieuw geïntroduceerde benchmark voor Referral Video Process Segmentation (Ref-VPS). Onze experimenten tonen aan dat REM vergelijkbaar presteert met state-of-the-art benaderingen op in-domeindatasets, zoals Ref-DAVIS, terwijl het ze overtreft met wel tot twaalf punten wat betreft regio-overeenkomst op out-of-domain data, waarbij het profiteert van de kracht van pre-training op internetschaal.
Grote taalmodellen (LLM's) behalen goede prestaties op uitdagende redeneeruitdagingen, maar kunnen ook basisredeneerfouten maken. Dit tegenstrijdige gedrag is verwarrend als het gaat om het begrijpen van de mechanismen achter de redeneervaardigheden van LLM's. Een hypothese is dat de steeds hogere en bijna verzadigde prestaties op gangbare redeneeruitdagingen te wijten kunnen zijn aan het memoriseren van vergelijkbare problemen. In dit artikel onderzoeken we systematisch deze hypothese met een kwantitatieve meting van memorisatie bij redeneertaken, met behulp van een dynamisch gegenereerde logische redeneeruitdrukking gebaseerd op Ridders en Leugenaars (K&K) puzzels. We ontdekten dat LLM's de trainingspuzzels kunnen interpoleren (bijna perfecte nauwkeurigheid behalen) na fijnafstemming, maar falen wanneer die puzzels licht verstoord zijn, wat suggereert dat de modellen zwaar leunen op memorisatie om die trainingspuzzels op te lossen. Aan de andere kant tonen we aan dat hoewel fijnafstemming leidt tot zware memorisatie, het ook consequent de generalisatieprestaties verbetert. Diepgaande analyses met verstoringstests, overdraagbaarheid tussen moeilijkheidsniveaus, het onderzoeken van modelinterne processen en fijnafstemming met verkeerde antwoorden suggereren dat de LLM's leren redeneren over K&K puzzels ondanks het memoriseren van trainingsgegevens. Dit fenomeen duidt erop dat LLM's een complex samenspel vertonen tussen memorisatie en echte redeneervaardigheden. Ten slotte werpt onze analyse met per-voorbeeld memorisatiescore licht op hoe LLM's schakelen tussen redeneren en memoriseren bij het oplossen van logische puzzels. Onze code en gegevens zijn beschikbaar op https://memkklogic.github.io.
Lezers kunnen verschillende doelen hebben met betrekking tot de tekst die ze lezen. Kunnen deze doelen worden ontcijferd uit het patroon van hun oogbewegingen over de tekst? In dit werk onderzoeken we voor het eerst of het mogelijk is om twee soorten leesdoelen te ontcijferen die veel voorkomen in het dagelijks leven: informatie zoeken en gewoon lezen. Met behulp van grootschalige eye-tracking gegevens passen we op deze taak een breed scala aan toonaangevende modellen toe voor oogbewegingen en tekst die verschillende architecturale en gegevensrepresentatiestrategieën bestrijken, en introduceren we verder een nieuw modelensemble. We evalueren systematisch deze modellen op drie niveaus van generalisatie: nieuw tekstueel item, nieuwe deelnemer, en de combinatie van beide. We constateren dat oogbewegingen zeer waardevolle signalen bevatten voor deze taak. We voeren verder een foutenanalyse uit die voortbouwt op eerdere empirische bevindingen over verschillen tussen gewoon lezen en informatie zoeken en gebruikmaakt van rijke tekstuele annotaties. Deze analyse onthult belangrijke eigenschappen van tekstuele items en de oogbewegingen van deelnemers die bijdragen aan de moeilijkheid van de taak.
Mixture-of-Experts (MoE) modellen verbeteren de efficiëntie en schaalbaarheid van dichte taalmodellen door elk token naar een klein aantal experts in elke laag te routeren. In dit artikel laten we zien hoe een tegenstander die ervoor kan zorgen dat hun vragen in dezelfde batch voorbeelden verschijnen als de vragen van een slachtoffer, Expert-Choice-Routing kan exploiteren om de volledige prompt van een slachtoffer bloot te leggen. We tonen succesvol de effectiviteit van deze aanval op een tweelaags Mixtral-model, waarbij we het gedrag van de torch.topk CUDA-implementatie voor het verwerken van gelijke waarden benutten. Onze resultaten tonen aan dat we de volledige prompt kunnen extraheren met O({VM}^2) vragen (met een woordenschatgrootte V en promptlengte M) of gemiddeld 100 vragen per token in de setting die we overwegen. Dit is de eerste aanval die architecturale zwakheden exploiteert met als doel het extraheren van gebruikersprompts, waarbij een nieuwe klasse van LLM-kwetsbaarheden wordt geïntroduceerd.
Open-source grote taalmodellen worden steeds meer beschikbaar en populair onder onderzoekers en professionals. Hoewel er aanzienlijke vooruitgang is geboekt met open-gewichtsmodellen, is open trainingsdata een praktijk die nog niet is overgenomen door de belangrijkste makers van open-gewichtsmodellen. Tegelijkertijd werken onderzoekers eraan om taalmodellen veiliger te maken. Wij stellen een gegevenscuratiepijplijn voor om schadelijke uitvoer van modellen die zijn getraind op openbare domeingegevens te verminderen. Er zijn unieke uitdagingen bij het werken met openbare domeingegevens, omdat deze bronnen verschillen van webtekst zowel in vorm als inhoud. Veel bronnen zijn historische documenten en zijn het resultaat van optische tekenherkenning (OCR). Als gevolg hiervan zijn de huidige state-of-the-art benaderingen voor toxiciteitsfiltering vaak onhaalbaar of ongeschikt voor open data modellen. In dit artikel introduceren we een nieuwe volledig open-source pijplijn voor het filteren van toxiciteit in open data. Onze bijdragen zijn drievoudig. We creëren een aangepaste trainingsdataset, ToxicCommons, die bestaat uit teksten die zijn geclassificeerd op vijf verschillende dimensies (raciale/origine-gebaseerde, gender/seks-gebaseerde, religieuze, op basis van vermogen gediscrimineerde en gewelddadige discriminatie). We gebruiken deze dataset om een aangepaste classifier, Celadon, te trainen die toxiciteit in open data efficiënter op grotere schaal kan detecteren. Tot slot beschrijven we de gebalanceerde benadering van inhoudsfiltratie die de veiligheidsfiltering optimaliseert met betrekking tot de gefilterde gegevens die beschikbaar zijn voor training.
Mensen zijn begiftigd met een aanvullend leersysteem, dat het trage leren van algemene wereldwijde dynamiek verbindt met de snelle opslag van episodisch geheugen van een nieuwe ervaring. Eerdere modellen voor videogeneratie richten zich echter voornamelijk op traag leren door vooraf te trainen op grote hoeveelheden gegevens, waarbij de snelle leermomenten die cruciaal zijn voor de opslag van episodisch geheugen over het hoofd worden gezien. Deze omissie leidt tot inconsistenties tussen temporale verre frames bij het genereren van langere video's, omdat deze frames buiten het contextvenster van het model vallen. Daartoe introduceren we SlowFast-VGen, een nieuw dual-speed leersysteem voor op actie gebaseerde lange videogeneratie. Onze aanpak omvat een gemaskeerd conditioneel video-diffusiemodel voor het trage leren van wereldwijde dynamiek, samen met een snelle leermethode op basis van een tijdelijke LoRA-module tijdens de inferentietijd. Specifiek werkt het snelle leerproces zijn tijdelijke LoRA-parameters bij op basis van lokale invoer en uitvoer, waardoor episodisch geheugen efficiënt wordt opgeslagen in zijn parameters. We stellen verder een langzaam-snel leeralgoritme voor dat de innerlijke snelle leercyclus naadloos integreert in de uiterlijke trage leercyclus, waardoor het terughalen van eerdere multi-episode-ervaringen voor contextbewust vaardigheidsleren mogelijk wordt. Om het trage leren van een benaderend wereldmodel te vergemakkelijken, verzamelen we een grootschalige dataset van 200k video's met taalactie-annotaties, die een breed scala aan scenario's bestrijken. Uitgebreide experimenten tonen aan dat SlowFast-VGen beter presteert dan baselines over verschillende metingen voor op actie gebaseerde videogeneratie, met een FVD-score van 514 in vergelijking met 782, en consistentie behoudt in langere video's, met een gemiddelde van 0,37 scènewisselingen versus 0,89. Het langzaam-snelle leeralgoritme verbetert ook aanzienlijk de prestaties bij langetermijnplanningstaken. Projectwebsite: https://slowfast-vgen.github.io
We presenteren een benchmark voor grote taalmodellen die zijn ontworpen om een van de meest kennisintensieve taken in datascience aan te pakken: het schrijven van code voor kenmerktechniek, wat domeinkennis vereist naast een diepgaand begrip van het onderliggende probleem en de gegevensstructuur. Het model krijgt een datasetbeschrijving in een prompt en wordt gevraagd code te genereren om deze te transformeren. De evaluatiescore is afgeleid van de verbetering die een XGBoost-model behaalt op de aangepaste dataset in vergelijking met de oorspronkelijke gegevens. Door een uitgebreide evaluatie van state-of-the-art modellen en vergelijking met gevestigde benchmarks, tonen we aan dat de FeatEng van ons voorstel op een goedkope en efficiënte manier de brede mogelijkheden van LLMs kan beoordelen, in tegenstelling tot de bestaande methoden.
Het ophalen van medische informatie (MIR) is essentieel voor het verkrijgen van relevante medische kennis uit diverse bronnen, waaronder elektronische patiëntendossiers, wetenschappelijke literatuur en medische databases. Het bereiken van effectieve zero-shot dense retrieval in het medische domein vormt echter aanzienlijke uitdagingen vanwege het gebrek aan relevant gelabelde gegevens. In dit artikel introduceren we een nieuw benadering genaamd Zelflerende Hypothetische Document Embeddings (SL-HyDE) om dit probleem aan te pakken. SL-HyDE maakt gebruik van grote taalmodellen (LLM's) als generatoren om hypothetische documenten te genereren op basis van een gegeven query. Deze gegenereerde documenten bevatten essentiële medische context, die een dense retriever begeleiden bij het identificeren van de meest relevante documenten. Het zelflerende raamwerk verfijnt progressief zowel de pseudo-documentgeneratie als de retrieval, waarbij ongelabelde medische corpora worden gebruikt zonder de noodzaak van enige relevant gelabelde gegevens. Daarnaast presenteren we de Chinese Medische Informatie Retrieval Benchmark (CMIRB), een uitgebreid evaluatiekader gebaseerd op realistische medische scenario's, met vijf taken en tien datasets. Door tien modellen te benchmarken op CMIRB, stellen we een rigoureuze standaard vast voor het evalueren van medische informatieretrievalsystemen. Experimentele resultaten tonen aan dat SL-HyDE aanzienlijk beter presteert dan bestaande methoden wat betreft retrieval-accuraatheid, terwijl het sterke generalisatie en schaalbaarheid vertoont over verschillende LLM- en retrieverconfiguraties. CMIRB-gegevens en evaluatiecode zijn openbaar beschikbaar op: https://github.com/CMIRB-benchmark/CMIRB.