Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren een uitgebreid rapport over het comprimeren van de Llama 3.1 8B en Mistral NeMo 12B modellen naar respectievelijk 4B en 8B parameters, met behulp van pruning en distillatie. We onderzoeken twee verschillende pruningstrategieën: (1) diepte-pruning en (2) gezamenlijke hidden/attention/MLP (breedte) pruning, en evalueren de resultaten op gangbare benchmarks uit de LM Evaluation Harness. De modellen worden vervolgens afgestemd met NeMo Aligner en getest in instruct-getunede versies. Deze aanpak resulteert in een overtuigend 4B model afgeleid van Llama 3.1 8B en een state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B voor de bondigheid) model afgeleid van Mistral NeMo 12B. We ontdekten dat het, zonder toegang tot de originele data, voordelig is om de leraarmodellen lichtelijk te finetunen op de distillatiedataset. We maken onze basismodelgewichten openbaar op Hugging Face onder een permissieve licentie.
In dit werk bespreken we het evalueren van video foundation models op een eerlijke en robuuste manier. In tegenstelling tot taal- of beeld-foundation models, worden veel video-foundation models geëvalueerd met verschillende parameters (zoals samplefrequentie, aantal frames, aantal pretrainingsstappen, enz.), wat eerlijke en robuuste vergelijkingen bemoeilijkt. Daarom presenteren we een zorgvuldig ontworpen evaluatieraamwerk voor het meten van twee kernvaardigheden van videobegrip: het begrijpen van uiterlijk en beweging. Onze bevindingen tonen aan dat bestaande video-foundation models, of ze nu tekstgesuperviseerd zijn zoals UMT of InternVideo2, of zelfgesuperviseerd zoals V-JEPA, beperkingen vertonen in ten minste één van deze vaardigheden. Als alternatief introduceren we TWLV-I, een nieuw video-foundation model dat robuuste visuele representaties construeert voor zowel op beweging als uiterlijk gebaseerde video's. Op basis van de gemiddelde top-1 nauwkeurigheid van lineaire probing op vijf actieherkenningsbenchmarks, enkel gepretraind op publiek toegankelijke datasets, toont ons model een verbetering van 4,6%p ten opzichte van V-JEPA (ViT-L) en een verbetering van 7,7%p ten opzichte van UMT (ViT-L). Zelfs in vergelijking met veel grotere modellen, demonstreert ons model een verbetering van 7,2%p ten opzichte van DFN (ViT-H), een verbetering van 2,7%p ten opzichte van V-JEPA (ViT-H) en een verbetering van 2,8%p ten opzichte van InternVideo2 (ViT-g). We bieden embeddingvectoren verkregen door TWLV-I van video's van verschillende veelgebruikte videobenchmarks, samen met evaluatiebroncode die deze embeddings direct kan gebruiken. De code is beschikbaar op "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Het in staat stellen van LLM's om nuttige informatie uit een lange context te benutten, is cruciaal voor veel downstream-toepassingen. Het bereiken van lange contextlengtes met de conventionele transformer-architectuur vereist echter aanzienlijke trainings- en inferentiebronnen. In dit artikel presenteren we FocusLLM, een framework ontworpen om de contextlengte van elke decoder-only LLM uit te breiden, waardoor het model zich kan richten op relevante informatie uit zeer lange sequenties. FocusLLM verwerkt lange tekstinvoeren door deze op te delen in chunks op basis van de oorspronkelijke contextlengte van het model, om het probleem van aandachtsafleiding te verlichten. Vervolgens voegt het de lokale context toe aan elke chunk als prompt om essentiële informatie uit elke chunk te extraheren op basis van een nieuw parallel decodeermechanisme, en integreert uiteindelijk de geëxtraheerde informatie in de lokale context. FocusLLM onderscheidt zich door grote trainings efficiëntie en veelzijdigheid: getraind met een invoerlengte van 8K met aanzienlijk minder trainingskosten dan vorige methoden, toont FocusLLM superieure prestaties over downstream lange-context taken en behoudt een sterke taalmodelleringsvaardigheid bij het verwerken van uitgebreide lange teksten, zelfs tot 400K tokens. Onze code is beschikbaar op https://github.com/leezythu/FocusLLM.
De afgelopen jaren is er aanzienlijke vooruitgang geboekt in op diffusie gebaseerde, controleerbare videogeneratie. Het bereiken van precieze controle in complexe scenario's, waaronder fijnmazige objectonderdelen, geavanceerde bewegingsbanen en samenhangende achtergrondbeweging, blijft echter een uitdaging. In dit artikel introduceren we TrackGo, een nieuwe aanpak die gebruikmaakt van vrij vormgegeven maskers en pijlen voor conditionele videogeneratie. Deze methode biedt gebruikers een flexibel en precies mechanisme om video-inhoud te manipuleren. We stellen ook de TrackAdapter voor voor de implementatie van controle, een efficiënte en lichtgewicht adapter die naadloos kan worden geïntegreerd in de temporele zelf-attentielagen van een voorgetraind videogeneratiemodel. Dit ontwerp maakt gebruik van onze observatie dat de aandachtkaart van deze lagen regio's die overeenkomen met beweging in video's nauwkeurig kan activeren. Onze experimentele resultaten tonen aan dat onze nieuwe aanpak, versterkt door de TrackAdapter, state-of-the-art prestaties bereikt op belangrijke metrieken zoals FVD, FID en ObjMC-scores. De projectpagina van TrackGo is te vinden op: https://zhtjtcz.github.io/TrackGo-Page/
Grote multimodale modellen (LMMs) hebben bekwaamheden getoond in diverse visuele taken. Hoewel er tal van bekende benchmarks bestaan om modelprestaties te evalueren, bieden deze steeds minder ruimte voor verbetering. Daarom is er een dringende behoefte aan een nieuwe generatie benchmarks die uitdagend genoeg zijn voor de volgende generatie LMMs. Een gebied waar LMMs potentieel tonen, is grafiekanalyse, specifiek de taken die een analist typisch zou uitvoeren bij het interpreteren van figuren, zoals het schatten van het gemiddelde, snijpunten of correlaties van functies en datareeksen. In dit werk introduceren we GRAB, een grafiekanalysebenchmark, geschikt voor huidige en toekomstige frontier LMMs. Onze benchmark is volledig synthetisch, wat zorgt voor hoogwaardige, ruisvrije vragen. GRAB bestaat uit 2170 vragen, verdeeld over vier taken en 23 grafiekeigenschappen. We evalueren 20 LMMs op GRAB en constateren dat het een uitdagende benchmark is, waarbij het best presterende model slechts een score van 21,7% behaalt. Ten slotte voeren we diverse ablatieonderzoeken uit om te onderzoeken waar de modellen slagen en waar ze moeite mee hebben. We maken GRAB openbaar om vooruitgang in dit belangrijke, groeiende domein te stimuleren.
Text-to-image (T2I) diffusiemodellen hebben indrukwekkende mogelijkheden getoond in het genereren van hoogwaardige afbeeldingen op basis van een tekstprompt. Het waarborgen van de prompt-afbeelding-alignering blijft echter een aanzienlijke uitdaging, dat wil zeggen, het genereren van afbeeldingen die nauwkeurig aansluiten bij de semantiek van de prompt. Recente werken proberen de betrouwbaarheid te verbeteren door de latente code te optimaliseren, wat er mogelijk toe kan leiden dat de latente code buiten de distributie valt en dus onrealistische afbeeldingen produceert. In dit artikel stellen we FRAP voor, een eenvoudige maar effectieve aanpak die gebaseerd is op het adaptief aanpassen van de promptgewichten per token om de prompt-afbeelding-alignering en de authenticiteit van de gegenereerde afbeeldingen te verbeteren. We ontwerpen een online algoritme om het gewichtscoëfficiënt van elke token adaptief bij te werken, wat wordt bereikt door het minimaliseren van een geïntegreerde doelstellingsfunctie die de aanwezigheid van objecten en de binding van object-modifier paren stimuleert. Door middel van uitgebreide evaluaties tonen we aan dat FRAP afbeeldingen genereert met een aanzienlijk hogere prompt-afbeelding-alignering voor prompts uit complexe datasets, terwijl het een lagere gemiddelde latentie heeft in vergelijking met recente methoden voor latente code-optimalisatie, bijvoorbeeld 4 seconden sneller dan D&B op de COCO-Subject dataset. Bovendien tonen we door visuele vergelijkingen en evaluatie op de CLIP-IQA-Real metriek aan dat FRAP niet alleen de prompt-afbeelding-alignering verbetert, maar ook meer authentieke afbeeldingen genereert met realistische verschijningen. We onderzoeken ook de combinatie van FRAP met prompt herschrijving door een LLM om hun verslechterde prompt-afbeelding-alignering te herstellen, waarbij we verbeteringen waarnemen in zowel de prompt-afbeelding-alignering als de beeldkwaliteit.
We pakken een hardnekkige uitdaging aan in tekst-naar-beeldmodellen: het nauwkeurig genereren van een gespecificeerd aantal objecten. Huidige modellen, die leren van beeld-tekstparen, hebben inherent moeite met tellen, omdat trainingsdata niet elk mogelijk aantal objecten voor een bepaald object kan weergeven. Om dit op te lossen, stellen we voor om het gegenereerde beeld te optimaliseren op basis van een telverlies afgeleid van een telmodel dat het potentieel van een object aggregeert. Het gebruik van een standaard telmodel is uitdagend om twee redenen: ten eerste vereist het model een schaalhyperparameter voor de potentieelaggregatie die varieert afhankelijk van het gezichtspunt van de objecten, en ten tweede vereisen technieken voor classificatorbegeleiding aangepaste modellen die werken op ruisvolle tussenstappen van diffusie. Om deze uitdagingen aan te pakken, stellen we een iteratieve online trainingsmodus voor die de nauwkeurigheid van afgeleide beelden verbetert terwijl de tekstconditioneringsembedding wordt aangepast en hyperparameters dynamisch worden bijgesteld. Onze methode biedt drie belangrijke voordelen: (i) het kan niet-afleidbare teltechnieken op basis van detectiemodellen overwegen, (ii) het is een zero-shot plug-and-play oplossing die snelle wijzigingen aan de teltechnieken en beeldgeneratiemethoden mogelijk maakt, en (iii) het geoptimaliseerde tel-token kan worden hergebruikt om nauwkeurige beelden te genereren zonder aanvullende optimalisatie. We evalueren de generatie van verschillende objecten en tonen significante verbeteringen in nauwkeurigheid. De projectpagina is beschikbaar op https://ozzafar.github.io/count_token.
Het detecteren van out-of-distribution (OOD) data is cruciaal in machine learning-toepassingen om het risico van overmatig vertrouwen van modellen te verminderen, waardoor de betrouwbaarheid en veiligheid van geïmplementeerde systemen wordt verbeterd. De meeste bestaande OOD-detectiemethoden richten zich voornamelijk op uni-modale invoer, zoals afbeeldingen of teksten. In de context van multi-modale documenten is er een opvallend gebrek aan uitgebreid onderzoek naar de prestaties van deze methoden, die voornamelijk zijn ontwikkeld met een focus op computervisietaken. Wij stellen een nieuwe methodologie voor, genaamd attention head masking (AHM), voor multi-modale OOD-taken in documentclassificatiesystemen. Onze empirische resultaten tonen aan dat de voorgestelde AHM-methode alle state-of-the-art benaderingen overtreft en het false positive rate (FPR) aanzienlijk verlaagt in vergelijking met bestaande oplossingen, tot wel 7,5%. Deze methodologie generaliseert goed naar multi-modale data, zoals documenten, waar visuele en tekstuele informatie worden gemodelleerd binnen hetzelfde Transformer-architectuur. Om het gebrek aan hoogwaardige, publiekelijk beschikbare documentdatasets aan te pakken en verder onderzoek naar OOD-detectie voor documenten aan te moedigen, introduceren we FinanceDocs, een nieuwe document AI-dataset. Onze code en dataset zijn publiekelijk beschikbaar.
Moderne machine learning-systemen vertrouwen op grote datasets om brede generalisatie te bereiken, en dit vormt vaak een uitdaging in robotleren, waar elk robotplatform en elke taak mogelijk slechts een kleine dataset heeft. Door een enkel beleid te trainen over vele verschillende soorten robots, kan een robotleermethode gebruikmaken van veel bredere en diversere datasets, wat op zijn beurt kan leiden tot betere generalisatie en robuustheid. Het trainen van een enkel beleid op multi-robotdata is echter uitdagend omdat robots sterk kunnen variëren in sensoren, actuatoren en besturingsfrequenties. Wij stellen CrossFormer voor, een schaalbare en flexibele transformer-gebaseerde policy die data van elke belichaming kan verwerken. We trainen CrossFormer op de grootste en meest diverse dataset tot nu toe, 900K trajecten over 20 verschillende robotbelichamingen. We demonstreren dat dezelfde netwerkgewichten sterk verschillende robots kunnen besturen, waaronder enkel- en dubbelarmige manipulatoren, wielrobots, quadcopters en viervoeters. In tegenstelling tot eerder werk vereist ons model geen handmatige afstemming van de observatie- of actieruimten. Uitgebreide experimenten in de echte wereld tonen aan dat onze methode de prestaties evenaart van specialistische policies die voor elke belichaming zijn afgestemd, terwijl het ook aanzienlijk beter presteert dan de vorige stand van de techniek in cross-embodiment leren.
Visuele retrievalsystemen worden geconfronteerd met aanzienlijke uitdagingen bij het updaten van modellen met verbeterde representaties vanwege een gebrek aan uitlijning tussen de oude en nieuwe representaties. Het kostbare en resource-intensieve backfilling-proces omvat het opnieuw berekenen van featurevectoren voor afbeeldingen in de galleryset wanneer een nieuw model wordt geïntroduceerd. Om dit aan te pakken, heeft eerder onderzoek zich gericht op backward-compatibele trainingsmethoden die directe vergelijkingen tussen nieuwe en oude representaties mogelijk maken zonder backfilling. Ondanks deze vooruitgang blijft het bereiken van een balans tussen backward-compatibiliteit en de prestaties van onafhankelijk getrainde modellen een open probleem. In dit artikel pakken we dit aan door de representatieruimte uit te breiden met extra dimensies en een orthogonale transformatie te leren om compatibiliteit met oude modellen te bereiken en tegelijkertijd nieuwe informatie te integreren. Deze transformatie behoudt de geometrie van de oorspronkelijke feature-ruimte, waardoor ons model aansluit bij eerdere versies terwijl het ook nieuwe data leert. Onze Orthogonal Compatible Aligned (OCA)-aanpak elimineert de noodzaak van herindexering tijdens modelupdates en zorgt ervoor dat features direct kunnen worden vergeleken tussen verschillende modelupdates zonder aanvullende mappingfuncties. Experimentele resultaten op CIFAR-100 en ImageNet-1k tonen aan dat onze methode niet alleen compatibiliteit met eerdere modellen behoudt, maar ook state-of-the-art nauwkeurigheid bereikt, waarbij verschillende bestaande methoden worden overtroffen.
Grote Taalmodellen (LLMs) hebben de neiging om maatschappelijke vooroordelen die in hun trainingsdata zijn ingebed over te nemen en te versterken, wat mogelijk schadelijke stereotypen met betrekking tot gender, beroep en andere gevoelige categorieën kan versterken. Dit probleem wordt bijzonder zorgwekkend omdat bevooroordeelde LLMs verstrekkende gevolgen kunnen hebben, wat kan leiden tot oneerlijke praktijken en sociale ongelijkheden kan verergeren in verschillende domeinen, zoals werving, moderatie van online content, of zelfs het strafrechtelijk systeem. Hoewel eerder onderzoek zich heeft gericht op het detecteren van vooroordelen in LLMs met behulp van gespecialiseerde datasets die ontworpen zijn om intrinsieke vooroordelen te benadrukken, is er een opvallend gebrek aan onderzoek geweest naar hoe deze bevindingen correleren met gezaghebbende datasets, zoals die van het U.S. National Bureau of Labor Statistics (NBLS). Om deze kloof te dichten, voeren we empirisch onderzoek uit dat LLMs evalueert in een "bias-out-of-the-box" setting, waarbij we analyseren hoe de gegenereerde uitkomsten zich verhouden tot de verdelingen die in NBLS-data worden gevonden. Bovendien stellen we een eenvoudig maar effectief mechanisme voor om vooroordelen te verminderen, dat direct NBLS-instanties incorporeert om vooroordelen binnen LLMs te mitigeren. Onze studie omvat zeven verschillende LLMs, waaronder instructable, base en mixture-of-expert modellen, en onthult aanzienlijke niveaus van vooroordelen die vaak over het hoofd worden gezien door bestaande technieken voor biasdetectie. Belangrijk is dat onze methode om vooroordelen te verminderen, die niet afhankelijk is van externe datasets, een aanzienlijke vermindering van bias-scores laat zien, wat de effectiviteit van onze aanpak benadrukt bij het creëren van eerlijkere en betrouwbaardere LLMs.
Als onderdeel van de gedeelde taken van het Open Language Data Initiative hebben we de FLORES+ evaluatieset uitgebreid met Emakhuwa, een taal met beperkte bronnen die veel wordt gesproken in Mozambique. We hebben de dev- en devtest-sets vertaald van Portugees naar Emakhuwa, en we beschrijven het vertaalproces en de kwaliteitsborgingsmaatregelen die zijn gebruikt. Onze methodologie omvatte diverse kwaliteitscontroles, waaronder nabewerking en beoordelingen van adequaatheid. De resulterende datasets bestaan uit meerdere referentiezinnen voor elke bron. We presenteren basislijnresultaten van het trainen van een Neural Machine Translation-systeem en het finetunen van bestaande meertalige vertaalmodellen. Onze bevindingen suggereren dat spellinginconsistenties een uitdaging blijven in Emakhuwa. Daarnaast presteerden de basislijnmodellen onder de maat op deze evaluatieset, wat de noodzaak benadrukt van verder onderzoek om de kwaliteit van machinaal vertalen voor Emakhuwa te verbeteren. De data is publiekelijk beschikbaar op https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.