Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in multimodale modellen benadrukken de waarde van herschreven bijschriften voor het verbeteren van de prestaties, maar er blijven belangrijke uitdagingen bestaan. Zo bieden synthetische bijschriften vaak superieure kwaliteit en afstemming van afbeeldingen en tekst, maar het is niet duidelijk of ze volledig AltTexts kunnen vervangen: de rol van synthetische bijschriften en hun interactie met originele AltTexts die zijn verkregen via web-crawling tijdens pre-training is nog niet goed begrepen. Bovendien kunnen verschillende multimodale basismodellen unieke voorkeuren hebben voor specifieke bijschriftformaten, maar inspanningen om de optimale bijschriften voor elk model te identificeren blijven beperkt. In dit werk stellen we een nieuw, controleerbaar en schaalbaar bijschriftenproces voor dat is ontworpen om diverse bijschriftformaten te genereren die zijn afgestemd op verschillende multimodale modellen. Door Short Synthetic Captions (SSC) naar Dense Synthetic Captions (DSC+) als casestudies te onderzoeken, verkennen we systematisch hun effecten en interacties met AltTexts over modellen zoals CLIP, multimodale LLM's en diffusiemodellen. Onze bevindingen tonen aan dat een hybride benadering die zowel synthetische bijschriften als AltTexts behoudt beter kan presteren dan het gebruik van alleen synthetische bijschriften, waarbij zowel de afstemming als de prestaties verbeteren, waarbij elk model voorkeuren laat zien voor specifieke bijschriftformaten. Deze uitgebreide analyse biedt waardevolle inzichten in het optimaliseren van bijschriftenstrategieën, waardoor de pre-training van multimodale basismodellen wordt bevorderd.
De transformer-architectuur domineert over verschillende modellen. Als het hart van de transformer heeft aandacht een computationele complexiteit van O(N^2), in vergelijking met O(N) voor lineaire transformaties. Bij het verwerken van lange sequentielengtes wordt aandacht de belangrijkste tijdrovende component. Hoewel kwantisatie effectief is gebleken voor het versnellen van modelinferentie, richten bestaande kwantisatiemethoden zich voornamelijk op het optimaliseren van de lineaire laag. Als reactie daarop analyseren we eerst gedetailleerd de haalbaarheid van kwantisatie in aandacht. Vervolgens stellen we SageAttention voor, een zeer efficiënte en nauwkeurige kwantisatiemethode voor aandacht. De OPS (bewerkingen per seconde) van onze aanpak presteert beter dan FlashAttention2 en xformers met respectievelijk ongeveer 2,1 keer en 2,7 keer. SageAttention behaalt ook superieure nauwkeurigheidsprestaties ten opzichte van FlashAttention3. Uitgebreide experimenten bevestigen dat onze aanpak vrijwel geen verlies van end-to-end metrieken met zich meebrengt over diverse modellen, waaronder die voor grote taalverwerking, beeldgeneratie en videogeneratie.
We presenteren een basismodel voor nul-shot metrische monoculaire diepteschatting. Ons model, Depth Pro, synthetiseert dieptekaarten met een hoge resolutie met ongeëvenaarde scherpte en details op hoge frequentie. De voorspellingen zijn metrisch, met absolute schaal, zonder te vertrouwen op de beschikbaarheid van metadata zoals cameraintrinsieken. En het model is snel, waarbij het in 0,3 seconden een dieptekaart van 2,25 megapixels genereert op een standaard GPU. Deze kenmerken worden mogelijk gemaakt door een aantal technische bijdragen, waaronder een efficiënte multi-schaal vision transformer voor dichte voorspelling, een trainingsprotocol dat echte en synthetische datasets combineert om hoge metrische nauwkeurigheid te bereiken naast fijne grenscontouren, toegewijde evaluatiemetrics voor grensnauwkeurigheid in geschatte dieptekaarten, en state-of-the-art scherpstelafstandsschatting vanuit een enkele afbeelding. Uitgebreide experimenten analyseren specifieke ontwerpkeuzes en tonen aan dat Depth Pro beter presteert dan eerdere werken langs meerdere dimensies. We publiceren de code en gewichten op https://github.com/apple/ml-depth-pro
De ontwikkeling van grote multimodale videomodellen (LMM's) is belemmerd door de moeilijkheid om grote hoeveelheden hoogwaardige ruwe data van het web te cureren. Om dit aan te pakken, stellen we een alternatieve benadering voor door een hoogwaardige synthetische dataset te creëren, specifiek voor het volgen van video-instructies, genaamd LLaVA-Video-178K. Deze dataset omvat belangrijke taken zoals gedetailleerde onderschriften, open vragen beantwoorden (QA) en meerkeuze QA. Door te trainen op deze dataset, in combinatie met bestaande visuele instructie-afstemmingsgegevens, introduceren we LLaVA-Video, een nieuw videomodel. Onze experimenten tonen aan dat LLaVA-Video sterke prestaties behaalt op verschillende videobenchmarks, waarbij de effectiviteit van onze dataset wordt benadrukt. We zijn van plan om de dataset, het generatieproces en de modelcontrolepunten vrij te geven.
Het is wenselijk maar uitdagend om inhoudsrijke lange video's op de schaal van minuten te genereren. Autoregressieve grote taalmodellen (LLM's) hebben grote successen behaald in het genereren van coherente en lange sequenties van tokens op het gebied van natuurlijke taalverwerking, terwijl de verkenning van autoregressieve LLM's voor videogeneratie beperkt is gebleven tot het genereren van korte video's van enkele seconden. In dit werk voeren we een diepgaande analyse uit van de uitdagingen die autoregressieve LLM-gebaseerde videogeneratoren belemmeren bij het genereren van lange video's. Op basis van de observaties en analyse stellen we Loong voor, een nieuwe autoregressieve LLM-gebaseerde videogenerator die minutenlange video's kan genereren. Specifiek modelleren we de teksttokens en videotokens als een geünificeerde sequentie voor autoregressieve LLM's en trainen het model vanaf nul. We stellen progressieve kort-naar-lang training voor met een verliesherwegingsschema om het probleem van verliesonevenwicht bij langdurige videotraining te verzachten. We onderzoeken verder inferentiestrategieën, waaronder video-token hercodering en bemonsteringsstrategieën, om foutenaccumulatie tijdens inferentie te verminderen. Onze voorgestelde Loong kan worden getraind op 10-seconden video's en worden uitgebreid om minutenlange video's te genereren op basis van tekstprompts, zoals gedemonstreerd door de resultaten. Meer voorbeelden zijn beschikbaar op: https://epiphqny.github.io/Loong-video.
Contrastive Language-Image Pre-training (CLIP) is een bejubelde methode voor het trainen van visuele encoders om afbeelding/tekst representaties te genereren die verschillende toepassingen vergemakkelijken. Onlangs is CLIP wijdverspreid aangenomen als de visuele basis van multimodale grote taalmodellen (MLLMs) om afbeeldingsinvoer te verbinden voor taalinteracties. Het succes van CLIP als een visueel-taal basismodel berust op het afstemmen van web-gecrawld ruisige tekstannotaties op afbeeldingsniveaus. Desalniettemin kunnen dergelijke criteria ontoereikend zijn voor downstream taken die fijnmazige visuele representaties vereisen, vooral wanneer regioniveau begrip veeleisend is voor MLLMs. In dit artikel verbeteren we de lokaliseringscapaciteit van CLIP met verschillende vooruitgangen. We stellen een pre-trainingsmethode voor genaamd Contrastive Localized Language-Image Pre-training (CLOC) door CLIP aan te vullen met regio-tekst contrastieve verlies en modules. We formuleren een nieuw concept, promptbare embeddings, waarvan de encoder afbeelding embeddings produceert die gemakkelijk te transformeren zijn naar regio representaties gegeven ruimtelijke hints. Om grootschalige pre-training te ondersteunen, ontwerpen we een visueel-verrijkt en ruimtelijk-gelokaliseerd bijschriftkader om effectief regio-tekst pseudo-labels op schaal te genereren. Door op te schalen naar miljarden geannoteerde afbeeldingen, maakt CLOC hoogwaardige regionale embeddings mogelijk voor taken zoals afbeeldingsregioherkenning en -terugvinding, en kan het een plug-in vervanging zijn van CLIP om MLLMs te verbeteren, vooral bij verwijzings- en grondingstaken.
We introduceren LLaVA-Critic, het eerste open-source grote multimodale model (LMM) dat is ontworpen als een generalistische evaluator om prestaties te beoordelen over een breed scala van multimodale taken. LLaVA-Critic is getraind met behulp van een hoogwaardige criticus-instructievolgdataset die diverse evaluatiecriteria en scenario's omvat. Onze experimenten tonen de effectiviteit van het model aan op twee belangrijke gebieden: (1) LMM-als-rechter, waar LLaVA-Critic betrouwbare evaluatiescores levert, presterend op hetzelfde niveau als of beter dan GPT-modellen op meerdere evaluatiebenchmarks; en (2) Voorkeursleren, waar het beloningssignalen genereert voor voorkeursleren, waardoor de mogelijkheden voor modeluitlijning worden verbeterd. Dit werk benadrukt het potentieel van open-source LMM's in zelfkritiek en evaluatie, en legt de basis voor toekomstig onderzoek naar schaalbare, bovenmenselijke uitlijningsfeedbackmechanismen voor LMM's.
Grote taalmodellen (LLM's) hebben zich opmerkelijk efficiënt bewezen, zowel bij een breed scala aan taken voor natuurlijke taalverwerking als ver daarbuiten. Een uitgebreide theoretische analyse van de oorsprong van hun indrukwekkende prestaties blijft echter ongrijpbaar. In dit artikel benaderen we deze uitdagende taak door een equivalentie te trekken tussen generieke autoregressieve taalmodellen met een woordenschat van omvang T en een contextvenster van omvang K, en Markovketens gedefinieerd op een eindige toestandsruimte van omvang O(T^K). We leiden verschillende verrassende bevindingen af met betrekking tot het bestaan van een stationaire verdeling van Markovketens die de inferentiekracht van LLM's vastleggen, hun snelheid van convergentie daarnaartoe, en de invloed van de temperatuur daarop. Vervolgens bewijzen we pre-training en in-context generalisatiegrenzen en tonen we hoe de getrokken equivalentie ons in staat stelt om hun interpretatie te verrijken. Tot slot illustreren we onze theoretische garanties met experimenten op verschillende recente LLM's om te benadrukken hoe ze het waargenomen gedrag in de praktijk vastleggen.
Classifier-vrije begeleiding (CVB) is cruciaal voor het verbeteren van zowel de generatiekwaliteit als de afstemming tussen de invoerconditie en de uiteindelijke uitvoer in diffusiemodellen. Hoewel over het algemeen een hoge begeleidingsschaal nodig is om deze aspecten te verbeteren, veroorzaakt dit ook oversaturatie en onrealistische artefacten. In dit artikel herzien we de CVB-update regel en introduceren we aanpassingen om dit probleem aan te pakken. We ontleden eerst de update-term in CVB in parallelle en orthogonale componenten ten opzichte van de voorspelling van het conditionele model en observeren dat de parallelle component voornamelijk oversaturatie veroorzaakt, terwijl de orthogonale component de beeldkwaliteit verbetert. Daarom stellen we voor om de parallelle component te verzwakken om hoogwaardige generaties te bereiken zonder oversaturatie. Daarnaast leggen we een verband tussen CVB en gradiëntopgang en introduceren we een nieuwe herschaling- en momentummethode voor de CVB-update regel op basis van dit inzicht. Onze benadering, genaamd adaptieve geprojecteerde begeleiding (APG), behoudt de kwaliteitsverhogende voordelen van CVB terwijl het gebruik van hogere begeleidingsschalen mogelijk is zonder oversaturatie. APG is eenvoudig te implementeren en introduceert praktisch geen extra rekenkundige overhead voor het bemonsteringsproces. Via uitgebreide experimenten tonen we aan dat APG compatibel is met verschillende conditionele diffusiemodellen en samplers, wat leidt tot verbeterde FID, recall en saturatiescores, terwijl de precisie vergelijkbaar is met CVB, waardoor onze methode een superieure plug-and-play alternatief is voor standaard classifier-vrije begeleiding.
Grote taalmodellen (LLM's) worden steeds vaker toegepast op complexe redeneertaken die het uitvoeren van meerdere complexe stappen vereisen voordat er enige beloning wordt ontvangen. Het correct toewijzen van krediet aan deze stappen is essentieel voor het verbeteren van de modelprestaties. Proximal Policy Optimization (PPO), een toonaangevend reinforcement learning (RL) algoritme dat wordt gebruikt voor het verfijnen van LLM's, maakt gebruik van waarde netwerken om de krediettoewijzing aan te pakken. Echter, waarde netwerken staan voor uitdagingen bij het nauwkeurig voorspellen van de verwachte cumulatieve beloningen bij complexe redeneertaken, wat vaak leidt tot updates met hoge variantie en suboptimale prestaties. In dit werk evalueren we systematisch de doeltreffendheid van waarde netwerken en onthullen we hun aanzienlijke tekortkomingen bij redeneer-intensieve LLM-taken, waarbij we aantonen dat ze nauwelijks beter presteren dan een willekeurige basislijn bij het vergelijken van alternatieve stappen. Om dit aan te pakken, stellen we VinePPO voor, een eenvoudige aanpak die gebruikmaakt van de flexibiliteit van taalomgevingen om onbevooroordeelde schattingen op basis van Monte Carlo te berekenen, waardoor de noodzaak voor grote waarde netwerken wordt omzeild. Onze methode presteert consequent beter dan PPO en andere RL-vrije basislijnen over de MATH en GSM8K datasets met minder gradiëntupdates (tot 9x), minder wandklok tijd (tot 3,0x). Deze resultaten benadrukken het belang van nauwkeurige krediettoewijzing bij RL-verfijning van LLM's en tonen het potentieel van VinePPO als een superieur alternatief.
Stemassistenten, zoals Siri en Google Assistent, modelleren doorgaans audio en tekst apart, wat leidt tot verloren spraakinformatie en verhoogde complexiteit. Recente inspanningen om dit aan te pakken met end-to-end Spraak Grote Taalmodellen (LLM's) die getraind zijn met begeleide fine-tuning (SFT) hebben ertoe geleid dat modellen "vergeten" capaciteiten van alleen-tekst LLM's. Ons werk stelt een alternatief paradigma voor voor het trainen van Spraak LLM's zonder instructiedata, door gebruik te maken van de reactie van een alleen-tekst LLM op transcripties als zelftoezicht. Belangrijk is dat dit proces kan worden uitgevoerd zonder geannoteerde reacties. We tonen aan dat onze Gedistilleerde Stemassistent (DiVA) generaliseert naar Gesproken Vraag-antwoord, Classificatie en Vertaling. Bovendien laten we zien dat DiVA beter voldoet aan de gebruikersvoorkeuren, met een winstpercentage van 72% in vergelijking met state-of-the-art modellen zoals Qwen 2 Audio, ondanks het gebruik van >100x minder trainingsberekeningen.
Dichte document embeddings zijn essentieel voor neurale informatieopvraging. De dominante aanpak is om embeddings te trainen en construeren door encoders rechtstreeks op individuele documenten uit te voeren. In dit werk betogen we dat deze embeddings, hoewel effectief, impliciet buiten context zijn voor gerichte gebruiksscenario's van opvraging, en dat een gecontextualiseerde document embedding rekening moet houden met zowel het document als naburige documenten in context - analoog aan gecontextualiseerde woord embeddings. We stellen twee aanvullende methoden voor gecontextualiseerde document embeddings voor: ten eerste, een alternatief contrastief leerdoel dat expliciet de documentburen opneemt in het intra-batch contextuele verlies; ten tweede, een nieuwe contextuele architectuur die expliciet buurdocumentinformatie codeert in de gecodeerde representatie. Resultaten tonen aan dat beide methoden betere prestaties behalen dan biencoders in verschillende scenario's, met name opvallend verschillend buiten het domein. We behalen state-of-the-art resultaten op de MTEB benchmark zonder hard negatieve mining, score distillatie, dataset-specifieke instructies, intra-GPU voorbeeld-deling, of extreem grote batchgroottes. Onze methode kan worden toegepast om prestaties te verbeteren op elk contrastief leerdataset en elke biencoder.
In de afgelopen jaren is Contrastieve Taal-Afbeelding Vooraftraining (CLIP) een hoeksteen geworden in multimodale intelligentie. Echter, recente studies hebben geïdentificeerd dat het informatieverlies in het CLIP encoderingsproces aanzienlijk is, en CLIP neigt alleen grofkorrelige kenmerken van de invoer vast te leggen. Deze tekortkoming beperkt aanzienlijk de mogelijkheid van een enkel CLIP-model om afbeeldingen met veel visuele details te verwerken. In dit werk stellen we een eenvoudige maar effectieve model-agnostische strategie voor, Diversified Multiplet Upcycling (DMU), voor CLIP. DMU stemt efficiënt een reeks CLIP-modellen af die verschillende kenmerkruimten vastleggen, vanuit een dicht vooraf getraind CLIP controlepunt, waarbij parameters worden gedeeld behalve voor het Feed-Forward Netwerk (FFN). Deze modellen kunnen vervolgens worden omgezet in een CLIP-MoE met een grotere modelcapaciteit, wat leidt tot aanzienlijk verbeterde prestaties met minimale computationele overhead. Voor zover wij weten, is Diversified Multiplet Upcycling de eerste benadering die spaarzaam geactiveerde MoE introduceert in CLIP-funderingsmodellen. Uitgebreide experimenten tonen de significante prestaties van CLIP-MoE aan bij verschillende zero-shot opvraging, zero-shot beeldclassificatietaken, en downstream Multimodaal Groot Taalmodel (MLLM) benchmarks door te dienen als een visie-encoder. Bovendien maakt Diversified Multiplet Upcycling de conversie van elk dicht CLIP-model naar CLIP-MoE mogelijk, die naadloos CLIP kan vervangen op een plug-and-play manier zonder verdere aanpassing in downstream raamwerken te vereisen. Via Diversified Multiplet Upcycling streven we ernaar waardevolle inzichten te bieden voor toekomstig onderzoek naar het ontwikkelen van efficiëntere en effectievere multimodale leersystemen.
Software-engineers schrijven voornamelijk code door bestaande programma's te bewerken. In tegenstelling hiermee synthetiseren grote taalmodellen (LLM's) autoregressief programma's in één keer. Een verklaring hiervoor is de schaarste aan open-source bewerkingsgegevens. Terwijl hoogwaardige instructiegegevens voor codesynthese al schaars zijn, zijn hoogwaardige bewerkingsgegevens nog schaarser. Om deze lacune op te vullen, hebben we een algoritme voor synthetische gegevensgeneratie ontwikkeld genaamd LintSeq. Dit algoritme refactort bestaande code tot een reeks codebewerkingen door een linter te gebruiken om procedureel te samplen over de foutloze invoegingen die kunnen worden gebruikt om programma's sequentieel te schrijven. Het geeft bewerkingsreeksen uit als tekstreeksen bestaande uit opeenvolgende programmaverschillen. Om LintSeq te testen, gebruiken we het om een dataset van instructie + programma-paren te refactoren tot instructie + programma-bewerkingsreeks-tuples. Vervolgens fine-tunen we een reeks kleinere LLM's variërend van 2,6B tot 14B parameters op zowel de herwerkte als de originele versies van deze dataset, waarbij we de prestaties bij nul-shot op codesynthese-benchmarks vergelijken. We tonen aan dat tijdens herhaaldelijk samplen, door bewerkingsreeksen gefinetunede modellen meer diverse programma's produceren dan baselines. Dit resulteert in een betere schaalbaarheid op inferentietijd voor benchmarkdekking als functie van monsters, d.w.z. het percentage problemen "pass@k" opgelost door een poging gegeven "k" pogingen. Bijvoorbeeld, op HumanEval pass@50, zijn kleine LLM's gefinetuned op synthetische bewerkingsreeksen concurrerend met GPT-4 en presteren ze beter dan modellen gefinetuned op de basisdataset met +20% (+/-3%) in absolute score. Tot slot, pretrainen we ook onze eigen kleine LM's voor codebegrip. We tonen aan dat het fine-tunen van kleine modellen op synthetische codebewerkingen resulteert in state-of-the-art codesynthese voor de on-device modelklasse. Onze 150M parameter bewerkingsreeks LM evenaart of overtreft code-modellen met twee keer zoveel parameters, zowel met als zonder herhaaldelijk samplen, inclusief Codex en AlphaCode.
Lang-contextmodellen (LCM's) hebben de afgelopen jaren opmerkelijke vooruitgang geboekt, waardoor gebruikers veel gemak hebben bij het omgaan met taken die lange context vereisen, zoals document samenvatting. Aangezien de gemeenschap steeds meer nadruk legt op de getrouwheid van gegenereerde resultaten, is het niet voldoende om alleen de nauwkeurigheid van LCM-uitvoer te waarborgen, aangezien het voor mensen erg uitdagend is om de resultaten van de extreem lange context te verifiëren. Hoewel er enige inspanningen zijn geleverd om te beoordelen of LCM's daadwerkelijk reageren op basis van de context, zijn deze werken ofwel beperkt tot specifieke taken of sterk afhankelijk van externe evaluatiemiddelen zoals GPT-4. In dit werk introduceren we L-CiteEval, een uitgebreide multi-task benchmark voor begrip van lange context met citaten, met als doel zowel de begripscapaciteit als de getrouwheid van LCM's te evalueren. L-CiteEval bestrijkt 11 taken uit diverse domeinen, met contextlengtes variërend van 8K tot 48K, en biedt een volledig geautomatiseerd evaluatiepakket. Door te testen met 11 toonaangevende gesloten en open-source LCM's, ontdekken we dat hoewel deze modellen kleine verschillen vertonen in hun gegenereerde resultaten, open-source modellen aanzienlijk achterblijven bij hun gesloten-source tegenhangers wat betreft citatienauwkeurigheid en recall. Dit suggereert dat huidige open-source LCM's vatbaar zijn voor reageren op basis van hun inherente kennis in plaats van de gegeven context, wat een aanzienlijk risico vormt voor de gebruikerservaring in praktische toepassingen. We evalueren ook de RAG-benadering en observeren dat RAG de getrouwheid van LCM's aanzienlijk kan verbeteren, zij het met een lichte afname in de generatiekwaliteit. Bovendien ontdekken we een correlatie tussen de aandachtsmechanismen van LCM's en het citatiegeneratieproces.
Het Retrieval-Augmented Generation (RAG) is aangetoond de feitelijke nauwkeurigheid van Grote Taalmodellen (LLM's) te verbeteren, maar bestaande methoden hebben vaak beperkte redeneervermogens bij het effectief gebruiken van het opgehaalde bewijs, vooral bij het gebruik van open-source LLM's. Om dit hiaat te verhelpen, introduceren we een nieuw raamwerk, Open-RAG, dat is ontworpen om redeneervermogens in RAG te verbeteren met open-source LLM's. Ons raamwerk transformeert een willekeurig dicht LLM in een parameter-efficiënt schaars mengmodel van experts (MoE) dat in staat is complexe redeneertaken aan te pakken, inclusief zowel enkelvoudige als meerstaps vragen. Open-RAG traint het model op unieke wijze om uitdagende afleiders te navigeren die relevant lijken maar misleidend zijn. Als gevolg hiervan maakt Open-RAG gebruik van latent leren, waarbij dynamisch relevante experts worden geselecteerd en externe kennis effectief wordt geïntegreerd voor nauwkeurigere en contextueel relevante antwoorden. Daarnaast stellen we een hybride adaptieve ophaalmethode voor om de noodzaak van ophalen te bepalen en de afweging tussen prestatiewinst en inferentiesnelheid in evenwicht te brengen. Experimentele resultaten tonen aan dat het op Llama2-7B gebaseerde Open-RAG beter presteert dan toonaangevende LLM's en RAG-modellen zoals ChatGPT, Self-RAG en Command R+ in verschillende kennisintensieve taken. We maken onze code en modellen open-source beschikbaar op https://openragmoe.github.io/
We onderzoeken de interne representaties van visie-taalmodellen (VLM's) om hallucinaties aan te pakken, een aanhoudende uitdaging ondanks vooruitgang in modelgrootte en training. We projecteren de interne beeldrepresentaties van VLM's op hun taalvocabulaire en observeren meer zelfverzekerde outputkansen op echte objecten dan op gehallucineerde objecten. We gebruiken deze outputkansen ook om echte objecten ruimtelijk te lokaliseren. Voortbouwend op deze aanpak introduceren we een kennisverwijderingsalgoritme dat hallucinaties verwijdert door beeldkenmerken lineair te orthogonaliseren ten opzichte van gehallucineerde objectkenmerken. We tonen aan dat gerichte aanpassingen aan de latente representaties van een model hallucinaties met maximaal 25,7% kunnen verminderen op de COCO2014-dataset, terwijl de prestaties behouden blijven. Onze bevindingen tonen aan hoe een dieper begrip van de latente representaties van VLM's de betrouwbaarheid kan verbeteren en nieuwe mogelijkheden kan bieden, zoals nul-shot segmentatie.
Grote Taalmodellen (LLM's), bekend om hun veelzijdigheid in tekstuele data, worden steeds vaker onderzocht vanwege hun potentieel om de segmentatie van medische beelden te verbeteren, een cruciale taak voor nauwkeurige diagnostische beeldvorming. Deze studie onderzoekt het verbeteren van Vision Transformers (ViTs) voor de segmentatie van medische beelden door het integreren van vooraf getrainde LLM-transformatorblokken. Onze benadering, die een bevroren LLM-transformatorblok opneemt in de encoder van een op ViT gebaseerd model, leidt tot aanzienlijke verbeteringen in de segmentatieprestaties over verschillende medische beeldvormingsmodaliteiten. We stellen een Hybride Aandachtsmechanisme voor dat wereldwijde en lokale kenmerkleren combineert met een Multi-Scale Fusieblok voor het samenvoegen van kenmerken over verschillende schalen. Het verbeterde model toont aanzienlijke prestatieverbeteringen, waaronder een gemiddelde Dice-scoreverhoging van 0,74 naar 0,79 en verbeteringen in nauwkeurigheid, precisie en de Jaccard-index. Deze resultaten tonen de effectiviteit van op LLM gebaseerde transformers bij het verfijnen van de segmentatie van medische beelden, waarbij hun potentieel wordt benadrukt om de modelnauwkeurigheid en robuustheid aanzienlijk te verbeteren. De broncode en onze implementatie zijn beschikbaar op: https://bit.ly/3zf2CVs
Autonome agenten hebben aanzienlijk potentieel aangetoond in het automatiseren van complexe meerstapsbeslissingstaken. Echter, zelfs geavanceerde visie-taalmodellen (VLM's), zoals GPT-4o, komen nog steeds tekort in prestaties op menselijk niveau, met name in ingewikkelde webomgevingen en langetermijnplanningstaken. Om deze beperkingen aan te pakken, introduceren we Reflective Monte Carlo Tree Search (R-MCTS), een nieuw algoritme voor testtijd dat is ontworpen om de mogelijkheden van AI-agenten, bijvoorbeeld aangedreven door GPT-4o, te verbeteren om beslissingsruimte dynamisch te verkennen. R-MCTS breidt traditionele MCTS uit door 1) contrastieve reflectie op te nemen, waardoor agenten kunnen leren van eerdere interacties en hun zoekefficiëntie dynamisch kunnen verbeteren; en 2) door het gebruik van multi-agent debat voor betrouwbare toestandsbeoordeling. Bovendien verbeteren we de prestaties van de agent door GPT-4o te verfijnen via zelfleren, met behulp van door R-MCTS gegenereerde boomtraversals zonder enige door mensen verstrekte labels. Op de uitdagende VisualWebArena-benchmark behaalt onze op GPT-4o gebaseerde R-MCTS-agent een relatieve verbetering van 6% tot 30% over verschillende taken in vergelijking met de vorige stand van de techniek. Bovendien tonen we aan dat de kennis die is opgedaan tijdens de zoektocht op testtijd effectief kan worden overgedragen naar GPT-4o via verfijning. De verfijnde GPT-4o evenaart 97% van de prestaties van R-MCTS en vermindert het gebruik van berekeningen met een factor vier op testtijd. Bovendien tonen kwalitatieve resultaten aan dat het verfijnde GPT-4o-model de mogelijkheid heeft om de omgeving te verkennen, een toestand te evalueren en terug te gaan naar haalbare wanneer het detecteert dat de huidige toestand niet tot succes kan leiden. Bovendien toont ons werk de eigenschappen van schaalvergroting van berekeningen in zowel training - gegevensverzameling met R-MCTS - als testtijd. Deze resultaten suggereren een veelbelovende onderzoeksrichting om de redenerings- en planningsmogelijkheden van VLM's voor agenttoepassingen te verbeteren via zoekopdrachten op testtijd en zelfleren.
Recente werken in volume rendering, zoals NeRF en 3D Gaussian Splatting (3DGS), bevorderen aanzienlijk de renderkwaliteit en efficiëntie met behulp van het geleerde impliciete neurale radiance-veld of 3D-Gaussianen. Door te renderen bovenop een expliciete representatie, leveren de standaard 3DGS en zijn varianten realtime efficiëntie door het optimaliseren van het parametrische model met single-view supervisie per iteratie tijdens de training, wat is overgenomen van NeRF. Als gevolg daarvan worden bepaalde weergaven overmatig aangepast, wat leidt tot onbevredigende verschijningen bij nieuw-weergave synthese en onnauwkeurige 3D-geometrieën. Om voornoemde problemen op te lossen, stellen we een nieuwe 3DGS-optimalisatiemethode voor met vier belangrijke nieuwe bijdragen: 1) We transformeren het conventionele single-view trainingsparadigma naar een multi-view trainingsstrategie. Met onze voorgestelde multi-view regulatie worden 3D-Gaussian attributen verder geoptimaliseerd zonder overfitting van bepaalde trainingsweergaven. Als algemene oplossing verbeteren we de algehele nauwkeurigheid in verschillende scenario's en verschillende Gaussian varianten. 2) Geïnspireerd door het voordeel van extra weergaven, stellen we verder een cross-intrinsieke begeleidingsschema voor, wat leidt tot een grof-naar-fijn trainingsprocedure met betrekking tot verschillende resoluties. 3) Gebaseerd op onze multi-view gereguleerde training, stellen we verder een cross-ray verdichtingsstrategie voor, waarbij meer Gaussian kernels worden verdicht in de ray-intersectiegebieden van een selectie van weergaven. 4) Door de verdichtingsstrategie verder te onderzoeken, hebben we vastgesteld dat het effect van verdichting moet worden versterkt wanneer bepaalde weergaven aanzienlijk verschillen. Als oplossing stellen we een nieuwe multi-view versterkte verdichtingsstrategie voor, waarbij 3D-Gaussianen worden aangemoedigd om naar een voldoende aantal te worden verdicht, resulterend in verbeterde reconstructienauwkeurigheid.
Er is de laatste tijd een groeiend sentiment dat moderne grote multimodale modellen (LMM's) de meeste van de belangrijkste uitdagingen met betrekking tot het begrijpen van korte video's hebben aangepakt. Als gevolg hiervan verleggen zowel de academische wereld als de industrie geleidelijk hun aandacht naar de complexere uitdagingen die worden gesteld door het begrijpen van lange video's. Maar is dit echt het geval? Onze studies geven aan dat LMM's nog steeds veel fundamentele redeneervaardigheden missen, zelfs bij het omgaan met korte video's. We introduceren Vinoground, een temporale tegenfeitelijke LMM-evaluatiebenchmark die 1000 korte en natuurlijke video-onderschriftparen omvat. We tonen aan dat bestaande LMM's ernstige moeite hebben om temporale verschillen tussen verschillende acties en objecttransformaties te onderscheiden. Zo behaalt het beste model GPT-4o slechts ~50% op onze tekst- en videoscores, wat een groot verschil laat zien ten opzichte van de menselijke basislijn van ~90%. Alle open-source multimodale modellen en op CLIP gebaseerde modellen presteren veel slechter, waarbij ze voornamelijk willekeurige prestaties leveren. Met dit werk werpen we licht op het feit dat temporeel redeneren in korte video's een probleem is dat nog niet volledig is opgelost. De dataset en evaluatiecode zijn beschikbaar op https://vinoground.github.io.
We onderzoeken de opkomst van intelligent gedrag in kunstmatige systemen door te onderzoeken hoe de complexiteit van op regels gebaseerde systemen van invloed is op de mogelijkheden van modellen die zijn getraind om deze regels te voorspellen. Onze studie richt zich op elementaire cellulaire automaten (ECA), eenvoudige maar krachtige een-dimensionale systemen die gedrag genereren variërend van triviaal tot zeer complex. Door verschillende Grote Taalmodellen (LLMs) te trainen op verschillende ECAs, hebben we de relatie geëvalueerd tussen de complexiteit van het gedrag van de regels en de intelligentie die wordt tentoongespreid door de LLMs, zoals weerspiegeld in hun prestaties op downstream taken. Onze bevindingen tonen aan dat regels met een hogere complexiteit leiden tot modellen die meer intelligentie vertonen, zoals aangetoond door hun prestaties op redeneer- en schaakzetvoorspellingstaken. Zowel uniforme als periodieke systemen, en vaak ook zeer chaotische systemen, resulteerden in slechtere downstream prestaties, waarbij een 'sweet spot' van complexiteit die bevorderlijk is voor intelligentie werd benadrukt. We vermoeden dat intelligentie voortkomt uit het vermogen om complexiteit te voorspellen en dat het creëren van intelligentie mogelijk alleen blootstelling aan complexiteit vereist.
We presenteren Synthio, een nieuwe benadering voor het uitbreiden van kleine audio classificatie datasets met synthetische data. Ons doel is om de nauwkeurigheid van audio classificatie te verbeteren met beperkte gelabelde data. Traditionele data augmentatie technieken, die kunstmatige transformaties toepassen (bijv. het toevoegen van willekeurig geluid of maskeren van segmenten), hebben moeite om data te creëren die de ware diversiteit in echte audio's vastlegt. Om dit tekort aan te pakken, stellen we voor om de dataset aan te vullen met synthetische audio die is gegenereerd uit tekst-naar-audio (T2A) diffusie modellen. Het synthetiseren van effectieve augmentaties is echter uitdagend omdat de gegenereerde data niet alleen akoestisch consistent moet zijn met de onderliggende kleine dataset, maar ook voldoende compositorische diversiteit moet hebben. Om het eerste probleem aan te pakken, stemmen we de generaties van het T2A model af op de kleine dataset met behulp van voorkeurs optimalisatie. Dit zorgt ervoor dat de akoestische kenmerken van de gegenereerde data consistent blijven met de kleine dataset. Om het tweede probleem aan te pakken, stellen we een nieuwe techniek voor voor het genereren van bijschriften die gebruik maakt van de redeneervermogens van Grote Taalmodellen om (1) diverse en betekenisvolle audio bijschriften te genereren en (2) iteratief hun kwaliteit te verfijnen. De gegenereerde bijschriften worden vervolgens gebruikt om het afgestemde T2A model aan te sturen. We evalueren Synthio uitgebreid op tien datasets en vier gesimuleerde beperkte data instellingen. De resultaten geven aan dat onze methode consequent beter presteert dan alle baselines met 0.1%-39% met behulp van een T2A model dat alleen is getraind op zwak-onderschreven AudioSet.
We tonen aan dat kleine voorgeleerde fundamentele generatieve taalmodellen met miljoenen parameters de latente regels van een proces kunnen leren van gegevens die verband houden met het proces. Geïnspireerd door de novelle "Schachnovelle" van Stefan Zweig, ook bekend als "Het Koninklijke Spel" in het Engels, laten we zien dat 28M en 125M parameter voorgeleerde fundamentele kleine taalmodellen (SLM's) kunnen worden instructie fijnafgestemd met 1.000 tot 1.000.000 voorbeelden om de regels van schaken te leren, legale zetten voor te stellen en schaakproblemen nauwkeurig op te lossen. We onderzoeken ook de impact van opeenvolgende taalmodel fijnafstemmingsepochen op verbeterde resultaten en tonen verminderingen in modelhallucinaties door het aantal instructie fijnafstemming voorbeelden te verhogen.
Model samenvoegen, zoals model samenvoegen, is de praktijk van het combineren van verschillende modellen met dezelfde architectuur zonder verdere training. In dit werk presenteren we een model samenvoegingsmethodologie die de moeilijkheid aanpakt van het fijnafstemmen van Grote Taalmodellen (GTM's) voor doeltaken in niet-Engelse talen, waar taakspecifieke gegevens vaak niet beschikbaar zijn. We richten ons op wiskundig redeneren en vergemakkelijken, zonder wiskundige gegevens in de taal, crosslinguale overdracht door taal- en wiskundige mogelijkheden te combineren. Vertrekkend van hetzelfde voorgeleerde model stemmen we aparte "experts" af op wiskunde-instructiegegevens in het Engels en op generieke instructiegegevens in de doeltaal. Vervolgens vervangen we de bovenste en onderste transformerlagen van de wiskunde-expert rechtstreeks met lagen van de taalexpert, wat de wiskundeprestaties in de doeltaal verbetert. De resulterende samengevoegde modellen presteren beter dan de afzonderlijke experts en andere samenvoegingsmethoden op de wiskundebenchmark, MGSM, met 10% over vier belangrijke talen waar wiskunde-instructiegegevens schaars zijn. Bovendien is deze laaguitwisseling eenvoudig, goedkoop en intuïtief, omdat deze gebaseerd is op een interpretatieve analyse van de belangrijkste parameterwijzigingen tijdens het fijnafstemmen van elke expert. De mogelijkheid om LLM's op succesvolle wijze opnieuw samen te stellen voor crosslinguale overdracht op deze manier opent toekomstige mogelijkheden om modeldeskundigheid te combineren, modulaire oplossingen te creëren en redeneervermogens over talen heen over te dragen, allemaal achteraf.
Recente ontwikkelingen in 3D Large Language Models (3DLLMs) hebben hun potentieel benadrukt bij het bouwen van algemene agenten in de driedimensionale echte wereld, maar er blijven uitdagingen bestaan door het gebrek aan hoogwaardige robuuste instructievolggegevens, wat leidt tot beperkte onderscheidingskracht en generalisatie van 3DLLMs. In dit artikel introduceren we Robin3D, een krachtige 3DLLM getraind op grootschalige instructievolggegevens gegenereerd door onze nieuwe gegevensengine, de Robuuste Instructiegeneratie (RIG) engine. RIG genereert twee belangrijke instructiegegevens: 1) de Tegenstander Instructievolggegevens, die gemengde negatieve en positieve voorbeelden bevatten om het onderscheidend begrip van het model te verbeteren. 2) de Diverse Instructievolggegevens, die verschillende instructiestijlen bevatten om de generalisatie van het model te verbeteren. Als gevolg hiervan construeren we 1 miljoen instructievolggegevens, bestaande uit 344K Tegenstander-voorbeelden, 508K Diverse voorbeelden en 165K voorbeelden van de benchmark-trainingsset. Om deze complexe instructies beter te verwerken, integreert Robin3D eerst een Relation-Augmented Projector om het ruimtelijk begrip te verbeteren, en versterkt vervolgens de objectverwijzing en verankering door ID-Feature Bonding. Robin3D presteert consequent beter dan eerdere methoden op vijf veelgebruikte 3D multimodale leerbenchmarks, zonder de noodzaak voor taakspecifieke fijnafstemming. Opmerkelijk is dat we een verbetering van 7,8% behalen in de verankeringstaak (Multi3DRefer) en een verbetering van 6,9% in de bijschriftentaak (Scan2Cap).
Prompt-gebaseerd fine-tunen is een essentiële methode geworden voor het onttrekken van informatie die gecodeerd is in vooraf getrainde taalmodellen voor verschillende taken, waaronder tekstclassificatie. Voor multi-class classificatietaken heeft prompt-gebaseerd fine-tunen in scenario's met weinig bronnen geleid tot prestatieniveaus die vergelijkbaar zijn met die van volledige fine-tuning methoden. Eerdere studies hebben op maat gemaakte prompt-sjablonen en verbalizers gebruikt, die van de labeltermenruimte naar de klasseruimte mappen, om het classificatieprobleem op te lossen als een taak voor gemaskeerd taalmodelleren. Echter, cross-domain en fijnkorrelig prompt-gebaseerd fine-tunen met een automatisch verrijkte verbalizer is nog onontgonnen terrein, voornamelijk vanwege de moeilijkheid en kosten van het handmatig selecteren van domeinlabeltermen voor de verbalizer, wat menselijke expertise op het gebied vereist. Om deze uitdaging aan te gaan, introduceren we SciPrompt, een raamwerk dat is ontworpen om automatisch wetenschappelijke onderwerpsgerelateerde termen op te halen voor tekstclassificatietaken met weinig bronnen. Hiervoor selecteren we semantisch gecorreleerde en domeinspecifieke labeltermen binnen de context van wetenschappelijke literatuur voor de verrijking van de verbalizer. Bovendien stellen we een nieuwe verbalisatiestrategie voor die correlatiescores gebruikt als extra gewichten om de voorspellingsprestaties van het taalmodel tijdens het afstemmen van het model te verbeteren. Onze methode overtreft state-of-the-art, prompt-gebaseerde fine-tuning methoden op wetenschappelijke tekstclassificatietaken in enkele en zero-shot instellingen, vooral bij het classificeren van fijnkorrelige en opkomende wetenschappelijke onderwerpen.