Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen worden steeds meer een hoeksteen-technologie in kunstmatige intelligentie, de wetenschappen en de samenleving als geheel, maar de optimale strategieën voor dataset samenstelling en filtering blijven grotendeels ongrijpbaar. Veel van de best presterende modellen missen transparantie in hun dataset samenstelling en model ontwikkelingsprocessen, wat een obstakel vormt voor de ontwikkeling van volledig open taalmodellen. In dit artikel identificeren we drie kernuitdagingen met betrekking tot gegevens die moeten worden aangepakt om open-source taalmodellen te bevorderen. Deze omvatten (1) transparantie in modelontwikkeling, inclusief het gegevenscuratieproces, (2) toegang tot grote hoeveelheden hoogwaardige gegevens, en (3) beschikbaarheid van artefacten en metadata voor gegevenscuratie en -analyse. Om deze uitdagingen aan te pakken, brengen we RedPajama-V1 uit, een open reproductie van het LLaMA-trainingsdataset. Daarnaast brengen we RedPajama-V2 uit, een enorme dataset die alleen op het web bestaat en bestaat uit ruwe, ongefilterde tekstdatabestanden samen met kwaliteitssignalen en metadata. Samen omvatten de RedPajama-datasets meer dan 100 biljoen tokens die meerdere domeinen bestrijken en met hun kwaliteitssignalen de filtering van gegevens vergemakkelijken, met als doel de ontwikkeling van talrijke nieuwe datasets te inspireren. Tot op heden zijn deze datasets al gebruikt bij de training van sterke taalmodellen die in productie worden gebruikt, zoals Snowflake Arctic, Salesforce's XGen en AI2's OLMo. Om inzicht te geven in de kwaliteit van RedPajama, presenteren we een reeks analyses en ablatiestudies met alleen-decoder taalmodellen met maximaal 1,6 miljard parameters. Onze bevindingen tonen aan hoe kwaliteitssignalen voor webgegevens effectief kunnen worden benut om hoogwaardige subsets van de dataset te cureren, waarbij het potentieel van RedPajama wordt benadrukt om de ontwikkeling van transparante en hoog presterende taalmodellen op grote schaal te bevorderen.
Schetsanimaties bieden een krachtig medium voor visuele verhalen, van eenvoudige flipboekkrabbels tot professionele studio producties. Terwijl traditionele animatie teams van bekwame artiesten vereist om sleutelbeelden en tussenbeelden te tekenen, vergen bestaande automatiseringspogingen nog steeds aanzienlijke artistieke inspanning door precieze bewegingspaden of sleutelframe-specificaties. Wij presenteren FlipSketch, een systeem dat de magie van flipboekanimatie terugbrengt -- teken gewoon je idee en beschrijf hoe je wilt dat het beweegt! Onze aanpak maakt gebruik van bewegingsprioriteiten uit tekst-naar-video diffusiemodellen, waarbij ze worden aangepast om schetsanimaties te genereren via drie belangrijke innovaties: (i) fijnafstemming voor schetsstijl framegeneratie, (ii) een referentiekadermechanisme dat de visuele integriteit van de invoerschets behoudt door ruisverfijning, en (iii) een dubbele-aandachtopbouw die vloeiende beweging mogelijk maakt zonder visuele consistentie te verliezen. In tegenstelling tot beperkte vectoranimaties ondersteunen onze rasterranden dynamische schetsveranderingen, waarbij de expressieve vrijheid van traditionele animatie wordt vastgelegd. Het resultaat is een intuïtief systeem dat schetsanimatie net zo eenvoudig maakt als krabbelen en beschrijven, terwijl de artistieke essentie van handgetekende animatie behouden blijft.
Naarmate taalmodellen blijven schalen, hebben Grote Taalmodellen (LLMs) opkomende mogelijkheden getoond in In-Context Learning (ICL), waardoor ze taaltaken kunnen oplossen door een paar in-context demonstraties (ICDs) als context toe te voegen. Geïnspireerd door deze ontwikkelingen hebben onderzoekers deze technieken uitgebreid om Grote Multimodale Modellen (LMMs) met ICL-mogelijkheden te ontwikkelen. Echter, bestaande LMMs kampen met een kritisch probleem: ze slagen er vaak niet in om effectief gebruik te maken van de visuele context in multimodale demonstraties en volgen in plaats daarvan eenvoudigweg tekstuele patronen. Dit duidt erop dat LMMs geen effectieve afstemming bereiken tussen multimodale demonstraties en modeluitvoer. Om dit probleem aan te pakken, stellen we Symbol Demonstration Direct Preference Optimization (SymDPO) voor. Specifiek streeft SymDPO ernaar het traditionele paradigma van het construeren van multimodale demonstraties te doorbreken door willekeurige symbolen te gebruiken om tekstuele antwoorden binnen instanties te vervangen. Dit dwingt het model om de demonstratiebeelden zorgvuldig te begrijpen en een relatie tussen de beelden en de symbolen vast te stellen om vragen correct te beantwoorden. We valideren de effectiviteit van deze methode op meerdere benchmarks, waarbij we aantonen dat met SymDPO LMMs de multimodale context binnen voorbeelden effectiever kunnen begrijpen en deze kennis kunnen gebruiken om vragen beter te beantwoorden.
Continue-waardige Autoregressieve (AR) beeldgeneratiemodellen hebben aanzienlijke superioriteit aangetoond ten opzichte van hun discrete-token tegenhangers, waarbij ze aanzienlijke reconstructiekwaliteit en hogere generatiefideliteit tonen. Echter, de computationele eisen van het autoregressieve raamwerk leiden tot aanzienlijke inferentie-overhead. Hoewel speculatieve decodering effectief is gebleken bij het versnellen van Grote Taalmodellen (LLM's), is hun aanpassing aan continue-waardige visuele autoregressieve modellen nog onontgonnen terrein. Dit werk generaliseert het speculatieve decoderingsalgoritme van discrete tokens naar continue ruimte. Door de intrinsieke eigenschappen van de uitvoeringsverdeling te analyseren, stellen we een op maat gemaakte acceptatiecriterium vast voor de diffusieverdelingen die gangbaar zijn in dergelijke modellen. Om de inconsistentie die optrad in de uitvoeringsverdelingen van speculatieve decodering te overwinnen, introduceren we methoden voor het uitlijnen van denoising-trajecten en voor het vooraf invullen van tokens. Daarnaast identificeren we de moeilijk te monsteren verdeling in de afwijzingsfase. Om dit probleem te verlichten, stellen we een zorgvuldige acceptatie-afwijzingssteekproefmethode voor met een juiste bovengrens, waardoor complexe integratie wordt omzeild. Experimentele resultaten tonen aan dat onze continue speculatieve decodering een opmerkelijke 2,33 keer versnelling behaalt op kant-en-klare modellen, terwijl de uitvoeringsverdeling behouden blijft. De codes zullen beschikbaar zijn op https://github.com/MarkXCloud/CSpD
Recente ontwikkelingen in fundamentele Vision Language Models (VLM's) hebben het evaluatieparadigma in computervisietaken veranderd. Deze fundamentele modellen, met name CLIP, hebben het onderzoek naar computervisietaken met open woordenschat versneld, waaronder Open-Vocabulary Semantic Segmentation (OVSS). Hoewel de eerste resultaten veelbelovend zijn, vereisen de dichte voorspellingsmogelijkheden van VLM's nog verdere verbetering. In dit onderzoek verbeteren we de semantische segmentatieprestaties van CLIP door nieuwe modules en aanpassingen te introduceren: 1) architecturale veranderingen in de laatste laag van ViT en de incorporatie van aandachtskaarten van de middelste lagen met de laatste laag, 2) Beeldtechniek: het toepassen van gegevensaugmentaties om de invoerbeeldrepresentaties te verrijken, en 3) het gebruik van Grote Taalmodellen (LLM's) om definities en synoniemen te genereren voor elke klassenaam om te profiteren van de open-woordenschatmogelijkheden van CLIP. Onze trainingsvrije methode, ITACLIP, presteert beter dan de huidige state-of-the-art benaderingen op segmentatie-benchmarks zoals COCO-Stuff, COCO-Object, Pascal Context en Pascal VOC. Onze code is beschikbaar op https://github.com/m-arda-aydn/ITACLIP.
Deze paper verkent het snel evoluerende ecosysteem van publiekelijk beschikbare AI-modellen en hun mogelijke implicaties voor het beveiligings- en veiligheidslandschap. Naarmate AI-modellen steeds meer voorkomen, is het cruciaal om inzicht te hebben in hun potentiële risico's en kwetsbaarheden. We bekijken de huidige beveiligings- en veiligheidsscenario's en benadrukken uitdagingen zoals traceerbaarheidsproblemen, remediëring en het ogenschijnlijke gebrek aan processen voor de levenscyclus en eigendom van AI-modellen. Er worden uitgebreide strategieën voorgesteld om de beveiliging en veiligheid voor zowel modelontwikkelaars als eindgebruikers te verbeteren. Het doel van deze paper is om enkele van de fundamentele stukken te bieden voor meer gestandaardiseerde beveiliging, veiligheid en transparantie in de ontwikkeling en werking van AI-modellen en de grotere open ecosystemen en gemeenschappen die zich rondom hen vormen.
Dynamische manipulatie in de hand blijft een uitdagende taak voor zachte robotische systemen die voordelen hebben aangetoond in veilige interacties met compliantie, maar moeite hebben met dynamische taken op hoge snelheid. In dit werk presenteren we SWIFT, een systeem voor het leren van dynamische taken met behulp van een zachte en compliant robotische hand. In tegenstelling tot eerdere werken die vertrouwen op simulatie, quasi-statische acties en precieze objectmodellen, leert het voorgestelde systeem om een pen te laten draaien door middel van trial-and-error met alleen echte gegevens, zonder expliciete voorkennis van de fysieke eigenschappen van de pen. Met zelfgelabelde trials afkomstig uit de echte wereld ontdekt het systeem de set van pen grijp- en draaiparameters die een zachte hand in staat stellen om een pen robuust en betrouwbaar te laten draaien. Na 130 bemonsterde acties per object behaalt SWIFT een succespercentage van 100% over drie pennen met verschillende gewichten en gewichtsverdelingen, wat de generaliseerbaarheid en robuustheid van het systeem aantoont ten opzichte van veranderingen in objecteigenschappen. De resultaten benadrukken het potentieel voor zachte robotische eindeffectoren om dynamische taken uit te voeren, waaronder snelle manipulatie in de hand. We tonen ook aan dat SWIFT generaliseert naar het laten draaien van items met verschillende vormen en gewichten, zoals een borstel en een schroevendraaier, waarbij we respectievelijk een succespercentage behalen van 10/10 en 5/10. Video's, gegevens en code zijn beschikbaar op https://soft-spin.github.io.
Bestaande methoden voor het beoordelen van beeldkwaliteit (IQA) behalen opmerkelijk succes bij het analyseren van de algehele beeldkwaliteit, maar weinig onderzoeken richten zich op de kwaliteitsanalyse van Regio's van Interesse (ROIs). De kwaliteitsanalyse van ROIs kan gedetailleerde begeleiding bieden voor het verbeteren van de beeldkwaliteit en is cruciaal voor situaties die zich richten op kwaliteit op regio-niveau. Dit artikel stelt een nieuwe netwerk voor, SEAGULL, dat in staat is om ROIs te zien en te beoordelen met begeleiding van een groot vision-language model. SEAGULL integreert een vision-language model (VLM), maskers gegenereerd door het Segment Anything Model (SAM) om ROIs te specificeren, en een zorgvuldig ontworpen op maskers gebaseerde kenmerkextractor (MFE) om globale en lokale tokens voor gespecificeerde ROIs te extraheren, waardoor nauwkeurige gedetailleerde IQA voor ROIs mogelijk is. Bovendien construeert dit artikel twee op ROIs gebaseerde IQA datasets, SEAGULL-100w en SEAGULL-3k, voor het trainen en evalueren van op ROI's gebaseerde IQA. SEAGULL-100w bestaat uit ongeveer 100w synthetische vervormingsbeelden met 33 miljoen ROIs voor pre-training om de vaardigheid van het model in het waarnemen van regionale kwaliteit te verbeteren, en SEAGULL-3k bevat ongeveer 3k authentieke vervormde ROIs om de vaardigheid van het model in het waarnemen van echte wereldvervormingen te verbeteren. Na pre-training op SEAGULL-100w en fine-tuning op SEAGULL-3k, toont SEAGULL opmerkelijke prestaties bij de gedetailleerde beoordeling van ROI-kwaliteit. De code en datasets zijn openbaar beschikbaar op https://github.com/chencn2020/Seagull.
Grote Taalmodellen (LLM's) gebaseerd op transformer-architecturen hebben verschillende domeinen gerevolutioneerd, waarbij tokenisatie een cruciale rol speelt in hun voorverwerkings- en fijnafstemmingsfasen. In meertalige modellen, met name die zijn afgestemd op Indische talen, is effectieve tokenisatie essentieel voor het optimaliseren van de prestaties. Dit artikel presenteert een uitgebreide evaluatie van tokenizers die worden gebruikt door 12 LLM's in alle 22 officiële talen van India, met een focus op het vergelijken van de efficiëntie van hun tokeniseringsprocessen. We hebben de Genormaliseerde Sequentielengte (NSL) gebruikt als een belangrijke maatstaf in onze analyse. Onze bevindingen tonen aan dat de SUTRA-tokenizer beter presteert dan alle andere modellen, inclusief verschillende Indisch-specifieke modellen, met uitstekende resultaten in 14 talen. Opmerkelijke inzichten zijn onder meer de superieure verwerking van Indische talen door de SUTRA-tokenizer, de vooruitgang van GPT-4o ten opzichte van zijn voorganger GPT-4 in het verwerken van Indiase talen, en de beperkte prestaties van Project Indus in bepaalde talen. Deze studie benadrukt het cruciale belang van het ontwikkelen van gerichte tokeniseringsstrategieën voor meertalige en Indisch-gecentreerde modellen, waarbij de basis wordt gelegd voor toekomstige verbeteringen in het ontwerp van tokenizers om de taalkundige dekking en model efficiëntie te verbeteren.