Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vorige methoden voor het vooraf trainen van taalmodellen pasten uniform een volgende-token-voorspellingsverlies toe op alle trainings-tokens. Deze norm uitdagend, stellen wij dat "Niet alle tokens in een corpus even belangrijk zijn voor het trainen van taalmodellen". Onze initiële analyse verdiept zich in de trainingsdynamiek op tokenniveau van taalmodellen, waarbij verschillende verliespatronen voor verschillende tokens worden onthuld. Gebruikmakend van deze inzichten introduceren we een nieuw taalmodel genaamd Rho-1. In tegenstelling tot traditionele taalmodellen die leren om elk volgend token in een corpus te voorspellen, gebruikt Rho-1 Selective Language Modeling (SLM), waarbij selectief getraind wordt op nuttige tokens die overeenkomen met de gewenste distributie. Deze aanpak omvat het scoren van vooraf getrainde tokens met behulp van een referentiemodel, en vervolgens het trainen van het taalmodel met een gericht verlies op tokens met een hoger excessief verlies. Bij voortgezet vooraf trainen op het 15B OpenWebMath-corpus behaalt Rho-1 een absolute verbetering in few-shot nauwkeurigheid van tot 30% in 9 wiskundige taken. Na fine-tuning behaalden Rho-1-1B en 7B state-of-the-art resultaten van respectievelijk 40,6% en 51,8% op de MATH dataset - wat overeenkomt met DeepSeekMath met slechts 3% van de vooraf getrainde tokens. Bovendien behaalt Rho-1 bij het vooraf trainen op 80B algemene tokens een gemiddelde verbetering van 6,8% over 15 diverse taken, waardoor zowel de efficiëntie als de prestaties van het vooraf trainen van het taalmodel worden verhoogd.
Autonome agents die complexe computertaken uitvoeren met minimale menselijke interventie hebben het potentieel om mens-computerinteractie te transformeren, waardoor toegankelijkheid en productiviteit aanzienlijk worden verbeterd. Bestaande benchmarks missen echter ofwel een interactieve omgeving, of zijn beperkt tot omgevingen die specifiek zijn voor bepaalde toepassingen of domeinen, waardoor ze niet de diverse en complexe aard van real-world computergebruik weerspiegelen. Dit beperkt de reikwijdte van taken en de schaalbaarheid van agents. Om dit probleem aan te pakken, introduceren we OSWorld, de eerste in zijn soort schaalbare, echte computeromgeving voor multimodale agents, die taakopzet, uitvoeringsgebaseerde evaluatie en interactief leren ondersteunt op verschillende besturingssystemen zoals Ubuntu, Windows en macOS. OSWorld kan dienen als een uniforme, geïntegreerde computeromgeving voor het beoordelen van open-ended computertaken die willekeurige toepassingen omvatten. Op basis van OSWorld creëren we een benchmark van 369 computertaken die echte web- en desktopapps in open domeinen, OS-bestands-I/O en workflows die meerdere toepassingen omvatten, bevatten. Elk taakvoorbeeld is afgeleid van real-world computergebruiksscenario's en omvat een gedetailleerde initiële staatopzetconfiguratie en een aangepast uitvoeringsgebaseerd evaluatiescript voor betrouwbare, reproduceerbare evaluatie. Uitgebreide evaluatie van state-of-the-art LLM/VLM-gebaseerde agents op OSWorld onthult aanzienlijke tekortkomingen in hun vermogen om als computerassistenten te dienen. Terwijl mensen meer dan 72,36% van de taken kunnen voltooien, behaalt het beste model slechts een succespercentage van 12,24%, waarbij het vooral moeite heeft met GUI-gronding en operationele kennis. Een uitgebreide analyse met behulp van OSWorld biedt waardevolle inzichten voor de ontwikkeling van multimodale generalistische agents die niet mogelijk waren met eerdere benchmarks. Onze code, omgeving, basismodellen en gegevens zijn openbaar beschikbaar op https://os-world.github.io.
Om de beheersbaarheid van tekst-naar-beeld diffusiemodellen te verbeteren, hebben bestaande inspanningen zoals ControlNet beeldgebaseerde conditionele controles geïntegreerd. In dit artikel tonen we aan dat bestaande methoden nog steeds aanzienlijke uitdagingen ondervinden bij het genereren van afbeeldingen die overeenkomen met de beeldconditionele controles. Daarom stellen we ControlNet++ voor, een nieuwe aanpak die de beheersbare generatie verbetert door expliciet pixel-niveau cyclusconsistentie tussen gegenereerde afbeeldingen en conditionele controles te optimaliseren. Specifiek gebruiken we voor een invoerconditionele controle een vooraf getraind discriminerend beloningsmodel om de corresponderende conditie van de gegenereerde afbeeldingen te extraheren, en optimaliseren we vervolgens het consistentieverlies tussen de invoerconditionele controle en de geëxtraheerde conditie. Een eenvoudige implementatie zou zijn om afbeeldingen te genereren uit willekeurige ruis en vervolgens het consistentieverlies te berekenen, maar een dergelijke aanpak vereist het opslaan van gradiënten voor meerdere samplingtijdstappen, wat aanzienlijke tijd- en geheugenkosten met zich meebrengt. Om dit aan te pakken, introduceren we een efficiënte beloningsstrategie die opzettelijk de invoerafbeeldingen verstoort door ruis toe te voegen, en vervolgens de enkelstaps ontruisde afbeeldingen gebruikt voor beloningsfine-tuning. Dit vermijdt de uitgebreide kosten die gepaard gaan met beeld sampling, waardoor efficiëntere beloningsfine-tuning mogelijk wordt. Uitgebreide experimenten tonen aan dat ControlNet++ de beheersbaarheid aanzienlijk verbetert onder verschillende conditionele controles. Het behaalt bijvoorbeeld verbeteringen ten opzichte van ControlNet van 7,9% mIoU, 13,4% SSIM en 7,6% RMSE voor respectievelijk segmentatiemasker, lijnkunstrand en dieptecondities.
We introduceren RecurrentGemma, een open taalmodel dat gebruikmaakt van Google's nieuwe Griffin-architectuur. Griffin combineert lineaire recurrenties met lokale aandacht om uitstekende prestaties op het gebied van taal te bereiken. Het heeft een vaste grootte van de toestand, wat het geheugengebruik vermindert en efficiënte inferentie op lange sequenties mogelijk maakt. We bieden een vooraf getraind model aan met 2B niet-embedding parameters en een variant die is afgestemd op instructies. Beide modellen bereiken vergelijkbare prestaties als Gemma-2B, ondanks dat ze zijn getraind op minder tokens.
Hoewel Ferret naadloos regionaal begrip integreert in het Large Language Model (LLM) om zijn verwijzings- en grondingsvermogen te vergemakkelijken, stelt het bepaalde beperkingen: het is beperkt door de vooraf getrainde vaste visuele encoder en presteert niet goed op bredere taken. In dit werk onthullen we Ferret-v2, een significante upgrade van Ferret, met drie belangrijke ontwerpen. (1) Gronding en verwijzing bij elke resolutie: Een flexibele aanpak die moeiteloos omgaat met hogere beeldresolutie, waardoor het vermogen van het model om beelden in groter detail te verwerken en te begrijpen, wordt verbeterd. (2) Multi-granulariteit visuele codering: Door de extra DINOv2-encoder te integreren, leert het model betere en diverse onderliggende contexten voor globale en fijnmazige visuele informatie. (3) Een driestappen trainingsparadigma: Naast beeld-bijschriftuitlijning wordt een extra fase voorgesteld voor hoogresolutie dichte uitlijning vóór de uiteindelijke instructieafstemming. Experimenten tonen aan dat Ferret-v2 aanzienlijke verbeteringen biedt ten opzichte van Ferret en andere state-of-the-art methoden, dankzij zijn hoogresolutie schaling en fijnmazige visuele verwerking.
Het succes van AI-modellen hangt af van de beschikbaarheid van grote, diverse en hoogwaardige datasets, die moeilijk te verkrijgen kunnen zijn vanwege dataschaarste, privacyzorgen en hoge kosten. Synthetische data is naar voren gekomen als een veelbelovende oplossing door kunstmatige data te genereren die real-world patronen nabootst. Dit artikel biedt een overzicht van onderzoek naar synthetische data, waarbij de toepassingen, uitdagingen en toekomstige richtingen worden besproken. We presenteren empirisch bewijs uit eerdere studies om de effectiviteit ervan aan te tonen en benadrukken het belang van het waarborgen van de feitelijkheid, betrouwbaarheid en onbevooroordeeldheid ervan. We benadrukken de noodzaak van een verantwoord gebruik van synthetische data om krachtigere, inclusievere en betrouwbaardere taalmodelen te bouwen.
Op het gebied van webagentonderzoek blijft het bereiken van zowel generalisatie als nauwkeurigheid een uitdagend probleem. Door de grote variatie in website-structuren falen bestaande benaderingen vaak. Bovendien slagen bestaande fine-tuning- en in-context learning-technieken er niet in om te generaliseren over meerdere websites. Wij introduceren Wilbur, een benadering die een differentieerbaar rangschikkingsmodel en een nieuwe instructiesynthesetechniek gebruikt om de prompt van een black-box groot taalmodel optimaal te vullen met taakdemonstraties uit eerdere uitvoeringen. Om de end-to-end slagingspercentages te maximaliseren, stellen we ook een intelligent backtracking-mechanisme voor dat leert van zijn fouten en deze herstelt. Ten slotte laten we zien dat ons rangschikkingsmodel getraind kan worden op gegevens van een generatief autocurriculum dat representatieve doelen bemonstert uit een LLM, de agent uitvoert en deze automatisch evalueert, zonder handmatige annotatie. Wilbur behaalt state-of-the-art resultaten op de WebVoyager-benchmark, waarbij tekstmodellen met 8% overall worden verslagen, en tot 36% op bepaalde websites. Op dezelfde benchmark zit Wilbur binnen 5% van een sterk multimodaal model, ondanks dat het alleen tekstuele invoer ontvangt, en verdere analyse toont aan dat een aanzienlijk aantal fouten te wijten is aan technische uitdagingen bij het bedienen van het web.
Het verwerken van lange contexten blijft een uitdaging voor grote taalmodellen (LLM's) vanwege de kwadratische reken- en geheugenoverhead van het self-attention-mechanisme en de aanzienlijke grootte van de KV-cache tijdens generatie. Wij stellen een nieuwe aanpak voor om dit probleem aan te pakken door contexten offline te leren via contextcompressie en domeinspecifieke parameter-efficiënte finetuning. Onze methode stelt een LLM in staat om een beknopte representatie van de oorspronkelijke context te creëren en efficiënt relevante informatie op te halen om vragen nauwkeurig te beantwoorden. Wij introduceren LLoCO, een techniek die contextcompressie, informatie-opvraging en parameter-efficiënte finetuning combineert met behulp van LoRA. Onze aanpak breidt het effectieve contextvenster van een 4k-token LLaMA2-7B-model uit tot het verwerken van maximaal 128k tokens. Wij evalueren onze aanpak op verschillende lange-context vraag-antwoorddatasets en tonen aan dat LLoCO aanzienlijk beter presteert dan in-context learning, terwijl het 30 keer minder tokens gebruikt tijdens inferentie. LLoCO bereikt een versnelling tot 7,62 keer en vermindert de kosten van vraag-antwoordtaken voor lange documenten aanzienlijk, waardoor het een veelbelovende oplossing is voor efficiënte verwerking van lange contexten. Onze code is publiekelijk beschikbaar op https://github.com/jeffreysijuntan/lloco.
Hiërarchisch gegate lineaire RNN (HGRN, Qin et al. 2023) heeft een concurrerende trainingssnelheid en prestaties aangetoond in taalmodelering, terwijl het efficiënte inferentie biedt. Echter, de grootte van de recurrente toestand van HGRN blijft relatief klein, wat de expressiviteit beperkt. Om dit probleem aan te pakken, geïnspireerd door lineaire aandacht, introduceren we een eenvoudig op outer-product gebaseerd mechanisme voor toestandsuitbreiding, zodat de grootte van de recurrente toestand aanzienlijk kan worden vergroot zonder extra parameters te introduceren. De lineaire aandachtvorm maakt ook hardware-efficiënte training mogelijk. Onze uitgebreide experimenten bevestigen het voordeel van HGRN2 ten opzichte van HGRN1 in taalmodelering, beeldclassificatie en de Long Range Arena. Ons grootste 3B HGRN2-model presteert lichtjes beter dan Mamba en LLaMa Architecture Transformer voor taalmodelering in een gecontroleerde experimentele setting; en presteert concurrerend met veel open-source 3B-modellen in downstream-evaluatie terwijl het veel minder totale trainings-tokens gebruikt.
Begeleiding is een cruciale techniek om de beste prestaties uit beeldgenererende diffusiemodellen te halen. Traditioneel wordt een constant begeleidingsgewicht toegepast gedurende de gehele bemonsteringsketen van een afbeelding. Wij tonen aan dat begeleiding duidelijk schadelijk is aan het begin van de keten (hoge ruisniveaus), grotendeels overbodig aan het einde (lage ruisniveaus), en alleen nuttig in het midden. Daarom beperken we het tot een specifiek bereik van ruisniveaus, wat zowel de inferentiesnelheid als de resultaatkwaliteit verbetert. Dit beperkte begeleidingsinterval verbetert het record-FID in ImageNet-512 aanzienlijk, van 1,81 naar 1,40. Wij tonen aan dat het zowel kwantitatief als kwalitatief voordelig is over verschillende bemonsteringsparameters, netwerkarchitecturen en datasets, inclusief de grootschalige setting van Stable Diffusion XL. Daarom stellen wij voor om het begeleidingsinterval als hyperparameter beschikbaar te stellen in alle diffusiemodellen die begeleiding gebruiken.
Lanedetectie is een fundamentele taak in autonoom rijden en heeft grote vooruitgang geboekt sinds de opkomst van deep learning. Eerdere ankergebaseerde methoden ontwerpen vaak dichte ankers, die sterk afhankelijk zijn van de trainingsdataset en tijdens de inferentie vast blijven. Wij analyseren dat dichte ankers niet noodzakelijk zijn voor lanedetectie en stellen een transformer-gebaseerd lanedetectiekader voor op basis van een spaarzaam ankermechanisme. Hiertoe genereren we spaarzame ankers met positiebewuste lane queries en hoekqueries in plaats van traditionele expliciete ankers. We gebruiken Horizontale Perceptuele Aandacht (HPA) om de lanekenmerken langs de horizontale richting te aggregeren en Lane-Hoek Kruis Aandacht (LACA) om interacties tussen lane queries en hoekqueries uit te voeren. We stellen ook Lane Perceptuele Aandacht (LPA) voor, gebaseerd op vervormbare kruisaandacht, om de lanevoorspellingen verder te verfijnen. Onze methode, genaamd Sparse Laneformer, is eenvoudig te implementeren en end-to-end trainbaar. Uitgebreide experimenten tonen aan dat Sparse Laneformer gunstig presteert in vergelijking met state-of-the-art methoden, bijvoorbeeld door Laneformer met 3,0% F1-score en O2SFormer met 0,7% F1-score te overtreffen met minder MACs op CULane met dezelfde ResNet-34 backbone.