Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Huidige benchmarks voor lange context richten zich voornamelijk op opvragingstests, waarbij van Grote Taalmodellen (GTM's) wordt verwacht dat ze specifieke informatie vinden binnen uitgebreide invoercontexten, zoals de naald-in-een-hooiberg (NIAH) benchmark. Lange-contextgeneratie verwijst naar het vermogen van een taalmodel om coherente en contextueel accurate tekst te genereren die zich uitstrekt over lange passages of documenten. Hoewel recente studies sterke prestaties laten zien op NIAH en andere opvragingsgerichte lange-context benchmarks, is er een aanzienlijk gebrek aan benchmarks voor het evalueren van de generatiemogelijkheden voor lange context. Om deze lacune te dichten en een uitgebreide beoordeling te bieden, introduceren we een synthetische benchmark, LongGenBench, die flexibele configuraties van aangepaste generatiecontextlengtes mogelijk maakt. LongGenBench gaat verder dan traditionele benchmarks door het herontwerpen van de vraagformaten en te eisen dat GTM's reageren met een enkel, samenhangend antwoord voor lange context. Bij uitgebreide evaluatie met LongGenBench observeren we dat: (1) zowel via API benaderde als open source modellen prestatievermindering vertonen in scenario's voor lange-contextgeneratie, variërend van 1,2% tot 47,1%; (2) verschillende series van GTM's vertonen verschillende trends van prestatievermindering, waarbij het Gemini-1.5-Flash model de minste degradatie vertoont onder de via API benaderde modellen, en de Qwen2 serie de minste degradatie vertoont in LongGenBench onder de open source modellen.
Het begrijpen en nauwkeurig opvolgen van instructies is cruciaal voor grote taalmodellen (LLM's) om effectief te zijn bij uiteenlopende taken. In dit werk onderzoeken we grondig de belangrijkste factoren die modellen in staat stellen te generaliseren naar ongeziene instructies, en bieden inzichten om de verzameling van gegevens voor instructie-afstemming te sturen. Via gecontroleerde experimenten, geïnspireerd door het Turing-volledige Markov-algoritme, tonen we aan dat dergelijke generalisatie alleen naar voren komt wanneer trainingsgegevens voldoende gediversifieerd zijn over semantische domeinen. Onze bevindingen tonen ook aan dat enkel diversifiëren binnen beperkte domeinen geen robuuste generalisatie garandeert. Daarentegen verbetert diversificatie van gegevens over domeinen heen, zelfs bij beperkte gegevensbudgetten, aanzienlijk de aanpasbaarheid van een model. We breiden onze analyse verder uit naar real-world scenario's, inclusief het verfijnen van specialistische en algemene modellen. In beide gevallen tonen we aan dat 1) betere prestaties kunnen worden behaald door de diversiteit van een vastgestelde dataset te vergroten terwijl de gegevensomvang constant blijft, en 2) bij het opschalen van de gegevens is het diversifiëren van de semantiek van instructies effectiever dan simpelweg de hoeveelheid vergelijkbare gegevens te vergroten. Ons onderzoek biedt belangrijke inzichten voor het verzamelen van datasets, met name bij het optimaliseren van modelprestaties door de trainingsgegevens uit te breiden voor zowel specialistische als algemene scenario's. We tonen aan dat zorgvuldige overweging van gegevensdiversificatie essentieel is: specialistische modellen trainen met gegevens die verder reiken dan hun kerngebied leidt tot aanzienlijke prestatieverbeteringen, terwijl algemene modellen profiteren van diverse gegevensmengsels die hun algehele instructie-opvolgcapaciteiten verbeteren over een breed scala van toepassingen. Onze resultaten benadrukken de cruciale rol van strategische diversificatie en bieden duidelijke richtlijnen voor het verbeteren van de gegevenskwaliteit.
Dit werk pakt de informatie-verlies bottleneck van vector-kwantisatie (VQ) autoregressieve beeldgeneratie aan door een nieuw modelarchitectuur te introduceren genaamd de 2-Dimensionale Autoregressie (DnD) Transformer. De DnD-Transformer voorspelt meer codes voor een afbeelding door een nieuwe autoregressie richting, model diepte, samen met de sequentie lengte richting te introduceren. Vergeleken met traditionele 1D autoregressie en eerdere werken die vergelijkbare 2D beelddecompositie gebruiken zoals de RQ-Transformer, is de DnD-Transformer een end-to-end model dat hogere kwaliteit afbeeldingen kan genereren met dezelfde basis model grootte en sequentie lengte, wat een nieuw optimalisatie perspectief opent voor autoregressieve beeldgeneratie. Bovendien tonen onze experimenten aan dat het potentieel van de DnD-Transformer zich uitstrekt voorbij het genereren van natuurlijke afbeeldingen. Het kan zelfs afbeeldingen genereren met rijke tekst- en grafische elementen op een zelf-toezicht manier, wat een begrip van deze gecombineerde modaliteiten aantoont. Dit is niet eerder aangetoond voor populaire vision generatieve modellen zoals diffusie modellen, wat een vonk van visie-taal intelligentie laat zien wanneer alleen getraind op afbeeldingen. Code, datasets en modellen zijn beschikbaar op https://github.com/chenllliang/DnD-Transformer.
Met aanzienlijke inspanningen in recente studies is LLM-als-rechter een kosteneffectief alternatief geworden voor menselijke beoordeling om de kwaliteit van tekstgeneratie te beoordelen in een breed scala van taken. Er blijft echter nog steeds een betrouwbaarheidskloof bestaan tussen LLM-als-rechter en menselijke beoordeling. Een belangrijke reden hiervoor is het ontbreken van begeleide orakels in het evaluatieproces. Geïnspireerd door de rol van referenties die veelvuldig worden gebruikt in klassieke tekstevaluatie, introduceren we RevisEval, een nieuw tekstgeneratie-evaluatieparadigma via de respons-aangepaste referenties. RevisEval wordt gedreven door de belangrijke observatie dat een ideale referentie de noodzakelijke relevantie moet behouden ten opzichte van de te beoordelen respons. Concreet maakt RevisEval gebruik van de tekstrevisiemogelijkheden van grote taalmodellen (LLM's) om adaptief de respons te herzien, waarna de herziene tekst wordt behandeld als de referentie (respons-aangepaste referentie) voor de daaropvolgende evaluatie. Uitgebreide experimenten tonen aan dat RevisEval beter presteert dan traditionele referentievrije en op referenties gebaseerde evaluatieparadigma's die LLM-als-rechter gebruiken bij NLG-taken en open instructievolgtaken. Belangrijker nog, onze respons-aangepaste referenties kunnen de klassieke tekstmetrieken, zoals BLEU en BERTScore, verder verbeteren in vergelijking met traditionele referenties en zelfs concurreren met LLM-als-rechter. Er wordt ook een gedetailleerde analyse uitgevoerd om de effectiviteit van RevisEval in biasvermindering, de impact van inferentiekosten en referentierelevantie te bevestigen.
Het verbeteren van de capaciteit van grote taalmodellen (LLM's) in redeneren heeft de afgelopen jaren aanzienlijke aandacht gekregen. Eerdere studies hebben de effectiviteit aangetoond van verschillende aanwijzingsstrategieën om LLM's te helpen bij redeneren (genaamd "redeneeracties"), zoals stapsgewijs denken, reflecteren voor het beantwoorden, oplossen met programma's en hun combinaties. Deze benaderingen pasten echter vaak statische, vooraf gedefinieerde redeneeracties uniform toe op alle vragen, zonder rekening te houden met de specifieke kenmerken van elke vraag of de capaciteit van de taakoplossende LLM. In dit artikel stellen we DOTS voor, een benadering die LLM's in staat stelt om dynamisch te redeneren via optimale redeneertrajectzoekopdrachten, afgestemd op de specifieke kenmerken van elke vraag en de inherente capaciteit van de taakoplossende LLM. Onze benadering omvat drie belangrijke stappen: i) het definiëren van atomaire redeneeractiemodules die kunnen worden samengesteld tot verschillende redeneeractietrajecten; ii) het zoeken naar het optimale actietraject voor elke trainingsvraag door iteratieve verkenning en evaluatie voor de specifieke taakoplossende LLM; en iii) het gebruiken van de verzamelde optimale trajecten om een LLM te trainen om te plannen voor de redeneertrajecten van ongeziene vragen. In het bijzonder stellen we twee leerparadigma's voor, namelijk het fijnafstemmen van een externe LLM als planner om de taakoplossende LLM te begeleiden, of rechtstreeks het fijnafstemmen van de taakoplossende LLM met een geïnternaliseerde capaciteit voor redeneeractieplanning. Onze experimenten over acht redeneertaken tonen aan dat onze methode consequent beter presteert dan statische redeneertechnieken en de standaard instructieafstemmingsbenadering. Verder onderzoek onthult dat onze methode LLM's in staat stelt hun berekeningen aan te passen op basis van probleemcomplexiteit, waarbij dieper denken en redeneren wordt toegewezen aan moeilijkere problemen.
Autoregressieve (AR) modellen hebben beeldgeneratie opnieuw geformuleerd als voorspelling van het volgende token, waarbij ze opmerkelijk potentieel hebben aangetoond en sterke concurrenten zijn geworden van diffusiemodellen. Echter, controle-naar-beeldgeneratie, vergelijkbaar met ControlNet, blijft grotendeels onontgonnen binnen AR-modellen. Hoewel een natuurlijke benadering, geïnspireerd door vooruitgang in Grote Taalmodellen, is om controlebeelden in tokens te tokeniseren en deze vooraf in te vullen in het autoregressieve model vóór het decoderen van beeldtokens, blijft het tekortschieten in generatiekwaliteit in vergelijking met ControlNet en heeft het last van inefficiëntie. Hier introduceren we daarom ControlAR, een efficiënt en effectief kader voor het integreren van ruimtelijke controles in autoregressieve beeldgeneratiemodellen. Allereerst verkennen we controle-encodering voor AR-modellen en stellen we een lichtgewicht controle-encoder voor om ruimtelijke invoergegevens (bijv. canny-lijnen of dieptekaarten) om te zetten in controle-tokens. Vervolgens maakt ControlAR gebruik van de conditionele decodeermethode om het volgende beeldtoken te genereren, geconditioneerd op de per-token fusie tussen controle- en beeldtokens, vergelijkbaar met positionele coderingen. In vergelijking met het vooraf invullen van tokens versterkt het gebruik van conditionele decodering aanzienlijk de controlecapaciteit van AR-modellen, maar behoudt het ook de efficiëntie van het model. Bovendien geeft de voorgestelde ControlAR AR-modellen verrassend genoeg de mogelijkheid tot beeldgeneratie met willekeurige resolutie via conditionele decodering en specifieke controles. Uitgebreide experimenten kunnen de controleerbaarheid van de voorgestelde ControlAR voor de autoregressieve controle-naar-beeldgeneratie aantonen over diverse invoergegevens, waaronder lijnen, dieptes en segmentatiemaskers. Bovendien geven zowel kwantitatieve als kwalitatieve resultaten aan dat ControlAR eerdere state-of-the-art controleerbare diffusiemodellen overtreft, bijvoorbeeld ControlNet++. Code, modellen en demo zullen binnenkort beschikbaar zijn op https://github.com/hustvl/ControlAR.
Het schalen van inferentieberekening heeft het potentieel van lang-contextuele grote taalmodellen (LLMs) ontsloten in uiteenlopende contexten. Voor kennisintensieve taken wordt de toegenomen rekenkracht vaak ingezet om meer externe kennis te integreren. Echter, zonder dergelijke kennis effectief te benutten, verbetert het louter vergroten van de context niet altijd de prestaties. In dit werk onderzoeken we inferentieschaling voor generatie met toegevoegde ophaling (RAG), waarbij we strategieën verkennen die verder gaan dan simpelweg het verhogen van de hoeveelheid kennis. We richten ons op twee inferentieschalingstrategieën: in-context leren en iteratieve aanwijzingen. Deze strategieën bieden extra flexibiliteit om de testtijd berekening te schalen (bijv. door het aantal opgehaalde documenten of generatiestappen te verhogen), waardoor de mogelijkheid van LLMs om contextuele informatie effectief te verwerven en te gebruiken wordt verbeterd. We behandelen twee belangrijke vragen: (1) Hoe profiteert RAG-prestatie van het schalen van inferentieberekening wanneer optimaal geconfigureerd? (2) Kunnen we de optimale toewijzing van testtijd berekening voorspellen voor een gegeven budget door het modelleren van de relatie tussen RAG-prestatie en inferentieparameters? Onze waarnemingen tonen aan dat het verhogen van inferentieberekening leidt tot bijna lineaire winsten in RAG-prestatie wanneer optimaal toegewezen, een relatie die we beschrijven als de inferentieschalingswetten voor RAG. Hierop voortbouwend ontwikkelen we het berekeningsallocatiemodel verder om RAG-prestatie te schatten over verschillende inferentieconfiguraties. Het model voorspelt optimale inferentieparameters onder verschillende berekeningsbeperkingen, die nauw aansluiten bij de experimentele resultaten. Door deze optimale configuraties toe te passen, tonen we aan dat het schalen van inferentieberekening op lange-context LLMs tot wel 58,9% winst behaalt op benchmark datasets in vergelijking met standaard RAG.
Grote taalmodellen (LLM's) hebben significante vooruitgang geboekt op diverse taken binnen natuurlijke taalverwerking (NLP), waarbij modellen met lange context steeds belangrijker worden voor het verwerken van uitgebreide invoer. Echter, de groeiende omvang van de sleutel-waarde (KV) cache die nodig is voor Transformer-architecturen intensiveert de geheugenbeperkingen, vooral tijdens de decoderingsfase, wat een aanzienlijke bottleneck creëert. Bestaande schaarse aandachtsmechanismen die zijn ontworpen om deze bottleneck aan te pakken, hebben twee beperkingen: (1) ze slagen er vaak niet in om betrouwbaar de meest relevante tokens voor aandacht te identificeren, en (2) ze zien de ruimtelijke samenhang van tokenselectie over opeenvolgende Transformer-lagen over het hoofd, wat kan leiden tot prestatievermindering en aanzienlijke overhead in tokenselectie. Dit artikel introduceert TidalDecode, een eenvoudig maar effectief algoritme en systeem voor snelle en nauwkeurige decodering van LLM's door middel van positie-persistente schaarse aandacht. TidalDecode maakt gebruik van de ruimtelijke samenhang van tokens geselecteerd door bestaande schaarse aandachtsmethoden en introduceert enkele tokenselectielagen die volledige aandacht uitvoeren om de tokens met de hoogste aandachtscores te identificeren, terwijl alle andere lagen schaarse aandacht uitvoeren met de vooraf geselecteerde tokens. Deze opzet stelt TidalDecode in staat om aanzienlijk de overhead van tokenselectie voor schaarse aandacht te verminderen zonder afbreuk te doen aan de kwaliteit van de gegenereerde resultaten. Evaluatie op een diverse reeks LLM's en taken toont aan dat TidalDecode de generatieve prestaties van methoden met volledige aandacht nauw benadert, terwijl de decoderingslatentie van LLM's met maximaal 2,1x wordt verminderd.
Reinforcement learning van menselijke feedback (RLHF) heeft effectiviteit aangetoond bij het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Echter, op token-niveau ondervindt RLHF problemen met het toekennen van krediet over lange sequenties, waar vertraagde beloningen het voor het model uitdagend maken om te bepalen welke acties hebben bijgedragen aan succesvolle resultaten. Dit belemmert de leerefficiëntie en vertraagt de convergentie. In dit artikel stellen we MA-RLHF voor, een eenvoudig maar effectief RLHF-framework dat macro-acties - sequenties van tokens of hoger niveau taalconstructies - opneemt in het leerproces. Door op dit hogere abstractieniveau te werken, vermindert onze aanpak de temporale afstand tussen acties en beloningen, wat zorgt voor snellere en nauwkeurigere toekenning van krediet. Dit resulteert in meer stabiele schattingen van beleidsgradiënten en verbetert de leerefficiëntie binnen elke episode, zonder de computationele complexiteit tijdens training of inferentie te verhogen. We valideren onze aanpak via uitgebreide experimenten over verschillende modelgroottes en taken, waaronder tekstsamenvatting, dialooggeneratie, vraagbeantwoording en programma-synthese. Onze methode behaalt aanzienlijke prestatieverbeteringen ten opzichte van standaard RLHF, met prestatiewinsten tot 30% bij tekstsamenvatting en codegeneratie, 18% bij dialoog en 8% bij vraagbeantwoordingstaken. Opmerkelijk bereikt onze aanpak gelijkwaardigheid met standaard RLHF 1,7x tot 2x sneller wat betreft trainingsduur en blijft het deze overtreffen met verdere training. We zullen onze code en gegevens openbaar beschikbaar maken op https://github.com/ernie-research/MA-RLHF.
Lang-context taalmodellen (LCLM), gekenmerkt door hun uitgebreide contextvenster, worden steeds populairder. Ondertussen presenteren veel lang-context benchmarks uitdagende taken die zelfs de meest geavanceerde LCLM-modellen moeite hebben om te voltooien. Echter, de onderliggende bronnen van verschillende uitdagende lang-context taken zijn zelden bestudeerd. Om deze kloof te overbruggen, voeren we experimenten uit om aan te geven dat hun moeilijkheid voornamelijk voortkomt uit twee basisproblemen: "multi-matching retrieval," wat vereist dat meerdere items tegelijk worden opgehaald, en "logica-gebaseerde retrieval," wat logisch oordeel binnen ophaalcriteria vereist. Deze twee problemen, ogenschijnlijk eenvoudig, overstijgen eigenlijk de mogelijkheden van LCLM-modellen omdat ze bewezen hyper-multi-step (veel stappen vereisen om op te lossen) van aard zijn. Deze bevinding zou kunnen verklaren waarom LLMs moeite hebben met meer geavanceerde lang-context taken, en biedt een nauwkeuriger perspectief voor het heroverwegen van oplossingen ervoor.
Bij generatieve modellering vereenvoudigt tokenisatie complexe gegevens tot compacte, gestructureerde representaties, waardoor een efficiënter, leerbaar ruimte ontstaat. Voor hoog-dimensionale visuele gegevens vermindert het redundantie en benadrukt het belangrijke kenmerken voor hoogwaardige generatie. Huidige visuele tokenisatiemethoden vertrouwen op een traditioneel auto-encoder framework, waarbij de encoder gegevens comprimeert tot latente representaties, en de decoder reconstrueert de oorspronkelijke invoer. In dit werk bieden we een nieuw perspectief door denoising voor te stellen als decodering, waarbij we verschuiven van enkelvoudige reconstructie naar iteratieve verfijning. Specifiek vervangen we de decoder door een diffusieproces dat iteratief ruis verfijnt om het oorspronkelijke beeld te herstellen, geleid door de latente representaties verstrekt door de encoder. We evalueren onze aanpak door zowel reconstructiekwaliteit (rFID) als generatiekwaliteit (FID) te beoordelen, waarbij we het vergelijken met de state-of-the-art auto-encoder benadering. We hopen dat dit werk nieuwe inzichten biedt in het integreren van iteratieve generatie en auto-encodering voor verbeterde compressie en generatie.
Gebeurtenisreeksen, gekenmerkt door onregelmatige bemonsteringsintervallen en een mix van categorische en numerieke kenmerken, zijn veelvoorkomende gegevensstructuren in verschillende real-world domeinen zoals gezondheidszorg, financiën en gebruikersinteractielogs. Ondanks vooruitgang in technieken voor het modelleren van temporele gegevens, bestaat er geen gestandaardiseerde benchmark voor het evalueren van hun prestaties op gebeurtenisreeksen. Dit bemoeilijkt het vergelijken van resultaten tussen verschillende papers vanwege variërende evaluatieprotocollen, wat mogelijk tot misleidende vooruitgang op dit gebied leidt. Wij introduceren EBES, een uitgebreid benchmarkingstool met gestandaardiseerde evaluatiescenario's en protocollen, gericht op regressie- en classificatieproblemen met doelen op sequentieniveau. Onze bibliotheek vereenvoudigt benchmarking, datasettoevoeging en methodenintegratie via een uniforme interface. Het bevat een nieuw synthetisch dataset en biedt voorbewerkte real-world datasets, inclusief de grootste openbaar beschikbare bankdataset. Onze resultaten bieden een diepgaande analyse van datasets, waarbij sommige als ongeschikt voor modelvergelijking worden geïdentificeerd. We onderzoeken het belang van het modelleren van temporele en sequentiële componenten, evenals de robuustheid en schaalbaarheid van de modellen. Deze bevindingen benadrukken potentiële richtingen voor toekomstig onderzoek. Ons benchmarkdoel is het vergemakkelijken van reproduceerbaar onderzoek, waardoor de vooruitgang wordt versneld en de impact in de echte wereld wordt vergroot.
Video Large Language Models (Video-LLMs) hebben opmerkelijke mogelijkheden aangetoond in grofkorrelige videobegrip, maar hebben moeite met fijnkorrelige temporele verankering. In dit artikel introduceren we Grounded-VideoLLM, een nieuw Video-LLM dat bedreven is in het waarnemen en redeneren over specifieke videomomenten op een fijnkorrelige manier. We identificeren dat huidige Video-LLMs beperkingen hebben voor fijnkorrelig videobegrip omdat ze geen effectieve temporele modellering en tijdstempelrepresentatie hebben. In het licht hiervan scherpen we ons model aan door (1) een extra temporale stroom toe te voegen om de relaties tussen frames te coderen en (2) discrete temporele tokens te verrijken met specifieke tijdkennis om tijdstempels te representeren. Om het trainen van Grounded-VideoLLM te optimaliseren, maken we gebruik van een meertraps trainingsmethode, beginnend met eenvoudige video-ondertitelings taken en geleidelijk invoeren van video temporele verankeringstaken van toenemende complexiteit. Om de temporele redeneervaardigheid van Grounded-VideoLLM verder te verbeteren, creëren we ook een gefundeerde VideoQA dataset via een automatisch annotatieproces. Uitgebreide experimenten tonen aan dat Grounded-VideoLLM niet alleen uitblinkt in fijnkorrelige verankeringstaken zoals temporale zinverankering, dichte videobijschriften en gefundeerde VideoQA, maar ook aanzienlijk potentieel toont als een veelzijdige videobegeleider voor algemeen videobegrip.