Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Informatie komt in diverse modaliteiten. Multimodale inheemse AI-modellen zijn essentieel om real-world informatie te integreren en een alomvattend begrip te bieden. Hoewel eigen multimodale inheemse modellen bestaan, legt hun gebrek aan openheid obstakels op voor adoptie, laat staan aanpassingen. Om deze lacune op te vullen, introduceren we Aria, een open multimodaal inheems model met eersteklas prestaties over een breed scala van multimodale, taal- en coderingstaken. Aria is een expertmodel met een mix van 3,9B en 3,5B geactiveerde parameters per visueel token en teksttoken, respectievelijk. Het presteert beter dan Pixtral-12B en Llama3.2-11B, en is concurrerend met de beste eigen modellen op verschillende multimodale taken. We trainen Aria vanaf nul volgens een 4-fasen-pijplijn, die het model geleidelijk voorziet van sterke capaciteiten in taalbegrip, multimodaal begrip, lange contextvensters en instructieopvolging. We stellen de modelgewichten open-source beschikbaar samen met een codebase die het gemakkelijk maakt om Aria aan te nemen en aan te passen in real-world toepassingen.
Grote Taalmodellen (LLM's) tonen aanzienlijk potentieel in economische en strategische interacties, waar communicatie via natuurlijke taal vaak voorkomt. Dit roept belangrijke vragen op: Gedragen LLM's zich rationeel? Kunnen ze menselijk gedrag nabootsen? Neigen ze naar een efficiënt en eerlijk resultaat? Wat is de rol van natuurlijke taal in de strategische interactie? Hoe beïnvloeden kenmerken van de economische omgeving deze dynamiek? Deze vragen worden cruciaal met betrekking tot de economische en maatschappelijke implicaties van het integreren van op LLM's gebaseerde agenten in op data gebaseerde systemen in de echte wereld, zoals online winkelplatforms en aanbevelingssystemen. Terwijl de ML-gemeenschap het potentieel van LLM's in dergelijke multi-agent opstellingen heeft onderzocht, maken variërende aannames, ontwerpkeuzes en evaluatiecriteria in studies het moeilijk om robuuste en betekenisvolle conclusies te trekken. Om dit aan te pakken, introduceren we een benchmark om onderzoek naar tweespelerige, opeenvolgende, op taal gebaseerde spellen te standaardiseren. Geïnspireerd door de economische literatuur definiëren we drie basale families van spellen met consistente parameterisatie, vrijheidsgraden en economische maatstaven om de prestaties van agenten (zelfwinst) en het spelresultaat (efficiëntie en rechtvaardigheid) te evalueren. We ontwikkelen een open-source raamwerk voor interactiesimulatie en -analyse, en gebruiken dit om een dataset van LLM vs. LLM-interacties over talrijke spelconfiguraties en een aanvullende dataset van mens vs. LLM-interacties te verzamelen. Door uitgebreid experimenten tonen we aan hoe ons raamwerk en dataset kunnen worden gebruikt om: (i) het gedrag van op LLM's gebaseerde agenten te vergelijken met menselijke spelers in verschillende economische contexten; (ii) agenten te evalueren op zowel individuele als collectieve prestatie-indicatoren; en (iii) het effect van de economische kenmerken van de omgevingen op het gedrag van agenten te kwantificeren.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) hebben aanzienlijke vooruitgang aangetoond; echter vertonen deze modellen een opmerkelijke beperking, die we "gezichtsblindheid" noemen. Specifiek kunnen ze deelnemen aan algemene gesprekken maar falen ze in het voeren van gepersonaliseerde dialogen gericht op specifieke individuen. Deze tekortkoming belemmert de toepassing van MLLM's in gepersonaliseerde omgevingen, zoals op maat gemaakte visuele assistenten op mobiele apparaten, of huishoudelijke robots die leden van het gezin moeten herkennen. In dit artikel introduceren we Personalized Visual Instruction Tuning (PVIT), een nieuw gegevenscuratie- en trainingskader dat is ontworpen om MLLM's in staat te stellen doelindividuen binnen een afbeelding te identificeren en deel te nemen aan gepersonaliseerde en coherente dialogen. Onze aanpak omvat de ontwikkeling van een geavanceerde pijplijn die autonoom trainingsgegevens genereert met gepersonaliseerde gesprekken. Deze pijplijn maakt gebruik van de mogelijkheden van diverse visuele experts, beeldgeneratiemodellen en (multimodale) grote taalmodellen. Om het gepersonaliseerde potentieel van MLLM's te evalueren, presenteren we een benchmark genaamd P-Bench, die verschillende soorten vragen met verschillende moeilijkheidsgraden omvat. De experimenten tonen een aanzienlijke verbetering in gepersonaliseerde prestaties na fijnafstemming met onze samengestelde dataset.
We introduceren Pixtral-12B, een 12 miljard parameters multimodaal taalmodel. Pixtral-12B is getraind om zowel natuurlijke afbeeldingen als documenten te begrijpen en behaalt toonaangevende prestaties op verschillende multimodale benchmarks, waarbij het een aantal grotere modellen overtreft. In tegenstelling tot veel open-source modellen is Pixtral ook een geavanceerd tekstmodel gezien zijn omvang, en doet geen concessies aan de prestaties in natuurlijke taal om uit te blinken in multimodale taken. Pixtral maakt gebruik van een nieuwe vision encoder die vanaf nul is getraind, waardoor het in staat is om afbeeldingen in hun natuurlijke resolutie en beeldverhouding te verwerken. Dit geeft gebruikers flexibiliteit in het aantal tokens dat wordt gebruikt om een afbeelding te verwerken. Pixtral is ook in staat om elk aantal afbeeldingen te verwerken in zijn lange contextvenster van 128K tokens. Pixtral 12B presteert aanzienlijk beter dan andere open modellen van vergelijkbare grootte (Llama-3.2 11B \& Qwen-2-VL 7B). Het presteert ook beter dan veel grotere open modellen zoals Llama-3.2 90B, terwijl het 7x kleiner is. We dragen verder bij aan een open-source benchmark, MM-MT-Bench, voor het evalueren van visie-taalmodellen in praktijksituaties, en bieden gedetailleerde analyse en code voor gestandaardiseerde evaluatieprotocollen voor multimodale LLM's. Pixtral-12B wordt uitgebracht onder de Apache 2.0-licentie.
Dit artikel introduceert F5-TTS, een volledig niet-autoregressief tekst-naar-spraak systeem gebaseerd op flow-matching met Diffusion Transformer (DiT). Zonder complexe ontwerpen zoals een duurmodel, tekstencoder en foneemuitlijning nodig te hebben, wordt de tekstinvoer eenvoudigweg opgevuld met vuller tokens tot dezelfde lengte als de spraakinvoer, waarna denoising wordt uitgevoerd voor spraakgeneratie, wat oorspronkelijk haalbaar werd bevonden door E2 TTS. De oorspronkelijke opzet van E2 TTS maakt het echter moeilijk te volgen vanwege de trage convergentie en lage robuustheid. Om deze problemen aan te pakken, modelleren we eerst de invoer met ConvNeXt om de tekstrepresentatie te verfijnen, waardoor het gemakkelijk uitgelijnd kan worden met de spraak. We stellen verder een inferentie-tijd Sway Sampling-strategie voor, die aanzienlijk de prestaties en efficiëntie van ons model verbetert. Deze bemonsteringsstrategie voor flow-stap kan gemakkelijk worden toegepast op bestaande op flow-matching gebaseerde modellen zonder opnieuw te trainen. Ons ontwerp maakt snellere training mogelijk en bereikt een inferentie RTF van 0.15, wat aanzienlijk verbeterd is in vergelijking met state-of-the-art diffusie-gebaseerde TTS-modellen. Getraind op een openbare 100K uur meertalige dataset, vertoont onze Fairytaler Fakes Fluent en Faithful spraak met Flow-matching (F5-TTS) een zeer natuurlijke en expressieve zero-shot mogelijkheid, naadloze code-switching mogelijkheid en efficiëntie in snelheidsregeling. Demonstratiemonsters zijn te vinden op https://SWivid.github.io/F5-TTS. We stellen alle code en checkpoints beschikbaar om de ontwikkeling in de gemeenschap te bevorderen.
Tekst-naar-video (T2V) modellen zoals Sora hebben aanzienlijke vooruitgang geboekt in het visualiseren van complexe instructies, wat steeds meer wordt gezien als een veelbelovende weg naar het construeren van de universele wereldsimulator. Cognitieve psychologen geloven dat de basis voor het bereiken van dit doel het vermogen is om intuïtieve natuurkunde te begrijpen. Echter, de capaciteit van deze modellen om intuïtieve natuurkunde nauwkeurig weer te geven blijft grotendeels onontgonnen. Om deze kloof te overbruggen, introduceren we PhyGenBench, een uitgebreide benchmark voor Natuurkunde Generatie ontworpen om de juistheid van fysiek gezond verstand in T2V generatie te evalueren. PhyGenBench omvat 160 zorgvuldig samengestelde instructies over 27 verschillende fysische wetten, die vier fundamentele domeinen bestrijken, en die modellen' begrip van fysiek gezond verstand uitgebreid kunnen beoordelen. Naast PhyGenBench stellen we een nieuw evaluatiekader voor genaamd PhyGenEval voor. Dit kader maakt gebruik van een hiërarchische evaluatiestructuur met behulp van passende geavanceerde visie-taal modellen en grote taalmodellen om fysiek gezond verstand te beoordelen. Via PhyGenBench en PhyGenEval kunnen we grootschalige geautomatiseerde beoordelingen uitvoeren van T2V modellen' begrip van fysiek gezond verstand, die nauw aansluiten bij menselijke feedback. Onze evaluatieresultaten en diepgaande analyse tonen aan dat huidige modellen moeite hebben om video's te genereren die voldoen aan fysiek gezond verstand. Bovendien is het eenvoudig schalen van modellen of het toepassen van instructietechnieken onvoldoende om volledig aan de uitdagingen van PhyGenBench (bijv. dynamische scenario's) te voldoen. We hopen dat deze studie de gemeenschap zal inspireren om het leren van fysiek gezond verstand in deze modellen te prioriteren, verder dan entertainmenttoepassingen. We zullen de gegevens en codes vrijgeven op https://github.com/OpenGVLab/PhyGenBench
Geavanceerde diffusiemodellen zoals RPG, Stable Diffusion 3 en FLUX hebben opmerkelijke vooruitgang geboekt in de generatie van tekst-naar-afbeelding op compositorische wijze. Deze methoden vertonen echter doorgaans verschillende sterke punten voor compositorische generatie, waarbij sommige uitblinken in het omgaan met attribuutbinding en anderen in ruimtelijke relaties. Deze discrepantie benadrukt de noodzaak van een benadering die de complementaire sterke punten van verschillende modellen kan benutten om de samenstellingsmogelijkheden uitgebreid te verbeteren. Met dit doel introduceren we IterComp, een nieuw raamwerk dat samenstellingsbewuste modelvoorkeuren van meerdere modellen verzamelt en een iteratieve feedback-leerbenadering gebruikt om de compositorische generatie te verbeteren. Specifiek stellen we een galerij samen van zes krachtige open-source diffusiemodellen en evalueren we hun drie belangrijkste compositorische metingen: attribuutbinding, ruimtelijke relaties en niet-ruimtelijke relaties. Op basis van deze metingen ontwikkelen we een dataset van samenstellingsbewuste modelvoorkeuren bestaande uit talrijke afbeelding-rangorde paren om samenstellingsbewuste beloningsmodellen te trainen. Vervolgens stellen we een iteratieve feedback-leermethode voor om de samenstelling te verbeteren op een gesloten-lusmanier, waardoor de progressieve zelfverfijning van zowel het basis diffusiemodel als de beloningsmodellen over meerdere iteraties mogelijk wordt. Een theoretisch bewijs toont de effectiviteit aan en uitgebreide experimenten tonen onze aanzienlijke superioriteit ten opzichte van eerdere SOTA-methoden (bijv. Omost en FLUX), met name in de samenstelling van objecten in meerdere categorieën en complexe semantische uitlijning. IterComp opent nieuwe onderzoekspaden in beloningsfeedbackleren voor diffusiemodellen en compositorische generatie. Code: https://github.com/YangLing0818/IterComp
Het genereren van video's vereist het modelleren van een uitgebreide ruimtetijd, wat aanzienlijke rekenkracht en datagebruik vereist. Om de complexiteit te verminderen, maken de heersende benaderingen gebruik van een trapsgewijze architectuur om directe training met volledige resolutie te vermijden. Ondanks het verminderen van de rekenvereisten, belemmert de afzonderlijke optimalisatie van elke subfase kennisdeling en flexibiliteit. Dit werk introduceert een verenigd piramidaal stroomovereenkomstalgoritme. Het herinterpreteert de oorspronkelijke denoising-trajectorie als een reeks piramidestadia, waarbij alleen het laatste stadium op volledige resolutie werkt, waardoor efficiëntere video-generatiemodellering mogelijk is. Door ons geavanceerde ontwerp kunnen de stromen van verschillende piramidestadia met elkaar worden verbonden om continuïteit te behouden. Bovendien creëren we autoregressieve videogeneratie met een temporele piramide om de volledige resolutiegeschiedenis te comprimeren. Het volledige raamwerk kan op een end-to-end manier worden geoptimaliseerd en met een enkele verenigde Diffusion Transformer (DiT). Uitgebreide experimenten tonen aan dat onze methode het genereren van hoogwaardige video's van 5 seconden (tot 10 seconden) ondersteunt op een resolutie van 768p en 24 FPS binnen 20,7k A100 GPU-trainingsuren. Alle code en modellen zullen open-source beschikbaar zijn op https://pyramid-flow.github.io.
We presenteren de Modality Integration Rate (MIR), een effectieve, robuuste en gegeneraliseerde metriek om de kwaliteit van multimodale voorafgaande training van Grote Visie Taalmodellen (LVLM's) aan te geven. Grootschalige voorafgaande training speelt een cruciale rol bij het opbouwen van capabele LVLM's, terwijl het evalueren van de trainingskwaliteit zonder de kostbare begeleide fijnafstemmingsfase onderbelicht blijft. Verlies, perplexiteit en in-context evaluatieresultaten worden vaak gebruikt als voorafgaande trainingsmetrieken voor Grote Taalmodellen (LLM's), terwijl we hebben waargenomen dat deze metrieken minder indicatief zijn bij het afstemmen van een goed getraind LLM met een nieuwe modaliteit. Vanwege het gebrek aan geschikte metrieken wordt het onderzoek naar LVLM's in de kritieke voorafgaande trainingsfase aanzienlijk belemmerd, inclusief de keuze van trainingsgegevens, efficiënt module-ontwerp, enzovoort. In dit artikel stellen we voor om de kwaliteit van de voorafgaande training te evalueren vanuit het perspectief van de afstand tussen intermodale distributies en presenteren we MIR, de Modality Integration Rate, die 1) Effectief is om de voorafgaande trainingskwaliteit te vertegenwoordigen en een positieve relatie laat zien met de benchmarkprestaties na begeleide fijnafstemming. 2) Robuust is ten opzichte van verschillende trainings-/evaluatiegegevens. 3) Generaliseert over verschillende trainingsconfiguraties en architectuurkeuzes. We voeren een reeks voorafgaande trainingsexperimenten uit om de effectiviteit van MIR te verkennen en observeren bevredigende resultaten waaruit blijkt dat MIR indicatief is voor de selectie van trainingsgegevens, trainingsstrategieplanning en modelarchitectuurontwerp om betere voorafgaande trainingsresultaten te behalen. We hopen dat MIR een nuttige metriek kan zijn voor het opbouwen van capabele LVLM's en het inspireren van verder onderzoek naar modaliteitsafstemming in verschillende gebieden. Onze code is te vinden op: https://github.com/shikiw/Modality-Integration-Rate.
In dit technische rapport presenteren we Falcon Mamba 7B, een nieuw basismodel voor grote taalmodellen gebaseerd op de innovatieve Mamba-architectuur. Falcon Mamba 7B is getraind op 5,8 biljoen tokens met zorgvuldig geselecteerde gegevensmengsels. Als een puur op Mamba gebaseerd model overtreft Falcon Mamba 7B toonaangevende open-gewichtsmodellen gebaseerd op Transformers, zoals Mistral 7B, Llama3.1 8B en Falcon2 11B. Het staat gelijk aan Gemma 7B en presteert beter dan modellen met verschillende architectuurontwerpen, zoals RecurrentGemma 9B en RWKV-v6 Finch 7B/14B. Op dit moment is Falcon Mamba 7B het best presterende Mamba-model in de literatuur op deze schaal, waarbij het zowel bestaande Mamba-modellen als hybride Mamba-Transformer-modellen overtreft, volgens de Open LLM Leaderboard. Vanwege de architectuur is Falcon Mamba 7B aanzienlijk sneller bij inferentie en vereist aanzienlijk minder geheugen voor het genereren van lange sequenties. Ondanks recente studies die suggereren dat hybride Mamba-Transformer-modellen beter presteren dan pure architectuurontwerpen, tonen we aan dat zelfs het pure Mamba-ontwerp vergelijkbare of zelfs superieure resultaten kan behalen in vergelijking met de Transformer- en hybride ontwerpen. We stellen de gewichten van onze implementatie van Falcon Mamba 7B openbaar beschikbaar op https://huggingface.co/tiiuae/falcon-mamba-7b, onder een permissieve licentie.
Dit artikel gaat in op de wisselwerking tussen visuele backbones en optimalisatoren, waarbij een onderling afhankelijk fenomeen genaamd \textbf{backbone-optimizer koppelingsbias} (BOCB) wordt onthuld. We merken op dat canonieke CNN's, zoals VGG en ResNet, een duidelijke onderlinge afhankelijkheid vertonen met SGD-families, terwijl recente architecturen zoals ViTs en ConvNeXt een nauwe koppeling hebben met de adaptieve leersnelheidsoptimalisatoren. We tonen verder aan dat BOCB zowel door optimalisatoren als bepaalde backbone-ontwerpen geïntroduceerd kan worden en aanzienlijke invloed kan hebben op het vooraf trainen en het fijnafstemmen van visiemodellen. Via diepgaande empirische analyse vatten we aanbevelingen samen over aanbevolen optimalisatoren en inzichten in robuuste visuele backbone-architecturen. We hopen dat dit werk de gemeenschap kan inspireren om lang gekoesterde aannames over backbones en optimalisatoren in twijfel te trekken, verdere verkenningen te stimuleren en zo bij te dragen aan meer robuuste visiesystemen. De broncode en modellen zijn openbaar beschikbaar op https://bocb-ai.github.io/.
Dit onderzoek heeft tot doel om op een allesomvattende manier een multimodaal fundamentmodel te verkennen voor het begrijpen van egocentrische video's. Om dit doel te bereiken, werken we aan drie fronten. Ten eerste, aangezien er een gebrek is aan QA-gegevens voor het begrijpen van egocentrische video's, ontwikkelen we een gegevensengine die efficiënt 7 miljoen hoogwaardige QA-voorbeelden genereert voor egocentrische video's van 30 seconden tot een uur lang, gebaseerd op door mensen geannoteerde gegevens. Dit is momenteel de grootste egocentrische QA-dataset. Ten tweede dragen we bij aan een uitdagende egocentrische QA-benchmark met 629 video's en 7.026 vragen om de mogelijkheid van modellen te evalueren om visuele details te herkennen en te onthouden in video's van verschillende lengtes. We introduceren een nieuwe de-biasing evaluatiemethode om te helpen bij het verminderen van de onvermijdelijke taalbias die aanwezig is in de modellen die worden geëvalueerd. Ten derde stellen we een gespecialiseerde multimodale architectuur voor met een nieuw mechanisme genaamd "Memory Pointer Prompting". Deze opzet omvat een globale blikstap om een overkoepelend begrip van de hele video te krijgen en belangrijke visuele informatie te identificeren, gevolgd door een fallback-stap die de belangrijke visuele informatie gebruikt om antwoorden te genereren. Dit stelt het model in staat om de uitgebreide videoinhoud effectiever te begrijpen. Met de gegevens, benchmark en model bouwen we met succes MM-Ego, een egocentrische multimodale LLM die krachtige prestaties laat zien op het begrijpen van egocentrische video's.
Het visualiseren van verhalen, de taak om coherente afbeeldingen te genereren op basis van een verhaal, heeft aanzienlijke vooruitgang gezien met de opkomst van tekst-naar-afbeelding modellen, met name diffusiemodellen. Het behouden van semantische consistentie, het genereren van hoogwaardige fijnmazige interacties en het waarborgen van computationele haalbaarheid blijven echter uitdagend, vooral bij langdurige verhaalvisualisatie (d.w.z. tot 100 frames). In dit werk stellen we een trainingsvrij en computationeel efficiënt raamwerk voor, genaamd Story-Adapter, om de generatieve capaciteit van lange verhalen te verbeteren. Specifiek stellen we een iteratief paradigma voor om elke gegenereerde afbeelding te verfijnen, waarbij zowel de tekstprompt als alle gegenereerde afbeeldingen van de vorige iteratie worden benut. Centraal in ons raamwerk staat een trainingsvrije globale referentie cross-attention module, die alle gegenereerde afbeeldingen van de vorige iteratie aggregeert om semantische consistentie over het hele verhaal te behouden, terwijl de computationele kosten worden geminimaliseerd met globale embeddings. Dit iteratieve proces optimaliseert het genereren van afbeeldingen progressief door herhaaldelijk tekstbeperkingen op te nemen, resulterend in meer precieze en fijnmazige interacties. Uitgebreide experimenten bevestigen de superioriteit van Story-Adapter in het verbeteren van zowel semantische consistentie als generatieve capaciteit voor fijnmazige interacties, met name in langdurige verhaalscenario's. De projectpagina en bijbehorende code zijn te vinden op https://jwmao1.github.io/storyadapter.
Door afstemming op menselijke voorkeuren hebben Grote Taalmodellen (LLM's) aanzienlijke vooruitgang geboekt in het genereren van eerlijke, onschadelijke en behulpzame reacties. Het verzamelen van hoogwaardige voorkeursgegevens is echter een arbeidsintensief en creativiteit-vragend proces, vooral voor de voortdurende verbetering van LLM's. We introduceren SynPO, een zelfversterkend paradigma dat synthetische voorkeursgegevens benut voor modelafstemming. SynPO maakt gebruik van een iteratief mechanisme waarbij een zelfpromptgenerator diverse prompts genereert, en een responsverbeteraar modelreacties progressief verfijnt. Deze aanpak traint LLM's om autonoom de generatieve beloningen voor hun eigen uitvoer te leren en elimineert de noodzaak voor grootschalige annotatie van prompts en menselijke voorkeuren. Na vier SynPO-iteraties vertonen Llama3-8B en Mistral-7B aanzienlijke verbeteringen in het opvolgen van instructies, met meer dan 22,1% winstverbeteringen op AlpacaEval 2.0 en ArenaHard. Tegelijkertijd verbetert SynPO de algemene prestaties van LLM's op verschillende taken, bevestigd door een gemiddelde scorestijging van 3,2 tot 5,0 op de bekende Open LLM-leiderbord.
Foundation modellen (FMs) worden vooraf getraind op grootschalige datasets en vervolgens fijn afgestemd op een downstream taak voor een specifieke toepassing. De meest succesvolle en meest gebruikte fijnafstemmingsmethode is het bijwerken van de vooraf getrainde gewichten via een lage-rang aanpassing (LoRA). LoRA introduceert nieuwe gewichtsmatrices die meestal willekeurig worden geïnitialiseerd met een uniforme rangverdeling over modelgewichten. Recente werken richten zich op gewichtsgestuurde initialisatie of het leren van adaptieve rangen tijdens training. Beide benaderingen zijn alleen afzonderlijk onderzocht, wat resulteert in langzame convergentie of een uniforme rangverdeling, wat op zijn beurt leidt tot suboptimale prestaties. Wij stellen voor om LoRA te verbeteren door de nieuwe gewichten op een datagestuurde manier te initialiseren door singular value decomposition te berekenen op minibatches van activatievectoren. Vervolgens initialiseren we de LoRA-matrices met de verkregen rechts-singuliere vectoren en herverdelen we rangen over alle gewichtsmatrices om de maximale hoeveelheid variantie te verklaren en het standaard LoRA fijnafstemmingsproces voort te zetten. Dit resulteert in onze nieuwe methode Explained Variance Adaptation (EVA). We passen EVA toe op een verscheidenheid aan fijnafstemmingstaken, variërend van taalgeneratie en -begrip tot beeldclassificatie en versterkend leren. EVA vertoont een snellere convergentie dan concurrenten en behaalt de hoogste gemiddelde score over een veelvoud aan taken per domein.
In dit artikel richten we ons op het verbeteren van een op diffusie gebaseerd tekst-naar-video (T2V) model tijdens de post-training fase door het destilleren van een zeer capabel consistentie model vanuit een voorgeleerd T2V model. Onze voorgestelde methode, T2V-Turbo-v2, introduceert een significante vooruitgang door verschillende supervisiesignalen te integreren, waaronder hoogwaardige trainingsdata, feedback van het beloningsmodel, en conditionele begeleiding, in het consistentie destillatieproces. Via uitgebreide ablatiestudies benadrukken we het cruciale belang van het aanpassen van datasets aan specifieke leerdoelen en de effectiviteit van het leren van diverse beloningsmodellen voor het verbeteren van zowel de visuele kwaliteit als de tekst-video uitlijning. Daarnaast benadrukken we de uitgebreide ontwerpruimte van conditionele begeleidingsstrategieën, die zich richt op het ontwerpen van een effectieve energiefunctie om de leraar ODE oplosser te versterken. We tonen het potentieel van deze aanpak aan door bewegingsbegeleiding uit de trainingsdatasets te extraheren en deze in de ODE oplosser op te nemen, waarbij we de effectiviteit ervan aantonen in het verbeteren van de bewegingskwaliteit van de gegenereerde video's met verbeterde bewegingsgerelateerde metrieken van VBench en T2V-CompBench. Empirisch gezien vestigt onze T2V-Turbo-v2 een nieuwe state-of-the-art resultaat op VBench, met een Totale score van 85.13, waarbij eigen systemen zoals Gen-3 en Kling worden overtroffen.
Grote taalmodellen zijn succesvol toegepast op programmeertaken, zoals code-aanvulling, code-invoeging en instructieve codebewerking. Echter blijven deze toepassingen onvoldoende geautomatiseerd en worstelen ze met het effectief integreren van verschillende soorten informatie tijdens het programmeringsproces, waaronder programmeergeschiedenis, huidige code en gebruikersinstructies. In dit werk stellen we een nieuw gesprekskader voor dat deze informatiebronnen uitgebreid integreert, verzamelen we gegevens om onze modellen te trainen en hun prestaties te evalueren. Ten eerste introduceren we een nieuwe benchmark, APEval (Assist Programming Eval), om de prestaties van modellen in programmeerhulptaken uitgebreid te beoordelen en te evalueren hoe goed modellen zich afstemmen op verschillende soorten informatie en de kwaliteit van hun uitvoer. Vervolgens ontwikkelen we voor gegevensverzameling een gegevensgeneratiepijplijn, Programming-Instruct, die trainingsgegevens synthetiseert uit diverse bronnen, zoals GitHub en online beoordelingsplatforms. Deze pijplijn kan automatisch verschillende soorten berichten genereren gedurende het programmeringsproces. Ten slotte genereren we met behulp van deze pijplijn 219K voorbeelden, verfijnen we meerdere modellen en ontwikkelen we de CursorCore-serie. We tonen aan dat CursorCore beter presteert dan andere modellen van vergelijkbare omvang. Dit kader verenigt toepassingen zoals inline chat en geautomatiseerde bewerking, draagt bij aan de vooruitgang van code-assistenten. Code, modellen en gegevens zijn vrij beschikbaar op https://github.com/TechxGenus/CursorCore.
Video Large Language Models (Video LLM's) hebben veelbelovende mogelijkheden getoond op het gebied van videobegrip, maar ze hebben moeite met het volgen van temporele veranderingen en het redeneren over temporele relaties. Terwijl eerdere onderzoeken deze beperking toeschreven aan de ineffectieve temporele codering van visuele invoer, onthult onze diagnostische studie dat videovoorstellingen voldoende informatie bevatten voor zelfs kleine proefclassifiers om perfecte nauwkeurigheid te bereiken. Verrassend genoeg vinden we dat de belangrijkste bottleneck in de temporele redeneervaardigheid van Video LLM's voortkomt uit de inherente moeilijkheid van de onderliggende LLM met temporele concepten, zoals blijkt uit de slechte prestaties op tekstuele temporele vraag-en-antwoordtaken. Voortbouwend op deze ontdekking introduceren we de Textuele Temporele Redeneeroverdracht (T3). T3 synthetiseert diverse temporele redeneertaken in puur tekstformaat van bestaande afbeelding-tekstdatasets, waarbij de schaarste aan videovoorbeelden met complexe temporele scenario's wordt aangepakt. Opmerkelijk genoeg verbetert T3 de temporele begripsvaardigheid van LongVA-7B zonder enig videomateriaal te gebruiken, wat resulteert in een absolute nauwkeurigheidsverbetering van 5.3 op de uitdagende TempCompass benchmark, waardoor ons model ShareGPT4Video-8B, getraind op 28.000 videovoorbeelden, overtreft. Bovendien behaalt het verbeterde LongVA-7B-model een concurrerende prestatie op uitgebreide videobenchmarks. Zo behaalt het een nauwkeurigheid van 49.7 op de Temporele Redeneertaak van Video-MME, waarbij krachtige grootschalige modellen zoals InternVL-Chat-V1.5-20B en VILA1.5-40B worden overtroffen. Verder onderzoek onthult een sterke correlatie tussen de prestaties van tekstuele en videotemporele taken, wat de doeltreffendheid van het overdragen van temporele redeneervaardigheden van tekst naar video domeinen bevestigt.
Recente vooruitgang in grootschalige tekst-naar-video (T2V) en afbeelding-naar-video (I2V) diffusiemodellen heeft de videogeneratie aanzienlijk verbeterd, vooral op het gebied van keyframe-interpolatie. Huidige afbeelding-naar-video diffusiemodellen, hoewel krachtig in het genereren van video's vanuit een enkel conditioneringsframe, moeten worden aangepast voor tweeframe (start & eind) geconditioneerde generatie, wat essentieel is voor effectieve begrensde interpolatie. Helaas lijden bestaande benaderingen die tijdelijk voorwaartse en achterwaartse paden parallel samenvoegen vaak aan off-manifold problemen, resulterend in artefacten of vereisen meerdere iteratieve her-ruisstappen. In dit werk introduceren we een nieuw, bidirectioneel bemonsteringsstrategie om deze off-manifold problemen aan te pakken zonder uitgebreide her-ruis of fijnafstemming te vereisen. Onze methode maakt gebruik van sequentieel bemonsteren langs zowel voorwaartse als achterwaartse paden, geconditioneerd op de start- en eindframes, wat zorgt voor meer coherente en on-manifold generatie van tussenliggende frames. Daarnaast nemen we geavanceerde begeleidingstechnieken, CFG++ en DDS, op om het interpolatieproces verder te verbeteren. Door deze te integreren, behaalt onze methode state-of-the-art prestaties, waarbij efficiënt hoogwaardige, vloeiende video's tussen keyframes worden gegenereerd. Op een enkele 3090 GPU kan onze methode 25 frames interpoleren op een resolutie van 1024 x 576 in slechts 195 seconden, waarmee het wordt gevestigd als een toonaangevende oplossing voor keyframe-interpolatie.
Ondanks aanzienlijke vooruitgang in het aanpassen van modellen voor het genereren van tekst-naar-afbeelding en video, blijft het genereren van afbeeldingen en video's die effectief meerdere gepersonaliseerde concepten integreren een uitdagende taak. Om dit aan te pakken, presenteren we TweedieMix, een nieuw methodiek voor het samenstellen van aangepaste diffusiemodellen tijdens de inferentiefase. Door de eigenschappen van reverse diffusion sampling te analyseren, verdeelt onze aanpak het bemonsteringsproces in twee fasen. Tijdens de initiële stappen passen we een techniek toe voor het bemonsteren met meerdere objecten om ervoor te zorgen dat de gewenste doelobjecten zijn opgenomen. In latere stappen mengen we de verschijningen van de aangepaste concepten in de gedenoisede afbeeldingsruimte met behulp van de formule van Tweedie. Onze resultaten tonen aan dat TweedieMix meerdere gepersonaliseerde concepten kan genereren met een hogere geloofwaardigheid dan bestaande methoden. Bovendien kan ons raamwerk moeiteloos worden uitgebreid naar diffusiemodellen van afbeelding-naar-video, waardoor de generatie van video's met meerdere gepersonaliseerde concepten mogelijk is. Resultaten en broncode zijn te vinden op onze anonieme projectpagina.
Instructieafstemming - begeleide fijnafstemming met behulp van instructie-responsparen - is een fundamentele stap bij het overgangen van vooraf getrainde Grote Taalmodellen (GTM's) naar behulpzame en veilige chatassistenten. Onze hypothese is dat het opzetten van een adequate uitvoerruimte zo'n overgang mogelijk kan maken gezien de inherente mogelijkheden van vooraf getrainde GTM's. Om dit te verifiëren, stellen we Responsafstemming (RA) voor, waarbij de instructie-conditioneringstap in instructieafstemming wordt geëlimineerd en de focus uitsluitend op supervisie van de responsruimte ligt. Onze experimenten tonen aan dat RA-modellen, enkel getraind met reacties, effectief kunnen reageren op een breed scala aan instructies en behulpzaamheid vertonen die vergelijkbaar is met die van hun instructie-afgestemde tegenhangers. Bovendien merken we op dat het controleren van de trainingsresponsverdeling hun gebruikersvoorkeur aanzienlijk kan verbeteren of doelgedragingen kan oproepen, zoals het weigeren van hulp bij onveilige vragen. Onze bevindingen verduidelijken de rol van het opzetten van een adequate uitvoerruimte in afstemming, waarbij het potentieel van de uitgebreide inherente mogelijkheden van vooraf getrainde GTM's wordt benadrukt.
In dit artikel stellen we AutoDAN-Turbo voor, een black-box jailbreak methode die automatisch zoveel mogelijk jailbreak strategieën kan ontdekken vanaf nul, zonder enige menselijke tussenkomst of vooraf gedefinieerde scopes (bijv. gespecificeerde kandidaat strategieën), en deze kan gebruiken voor red-teaming. Als gevolg hiervan kan AutoDAN-Turbo aanzienlijk beter presteren dan basismethoden, met een gemiddeld aanvalsuccespercentage dat 74,3% hoger ligt op openbare benchmarks. Opmerkelijk genoeg behaalt AutoDAN-Turbo een aanvalsuccespercentage van 88,5 op GPT-4-1106-turbo. Bovendien is AutoDAN-Turbo een geünificeerd framework dat bestaande door mensen ontworpen jailbreak strategieën op een plug-and-play manier kan opnemen. Door door mensen ontworpen strategieën te integreren, kan AutoDAN-Turbo zelfs een hoger aanvalsuccespercentage van 93,4 behalen op GPT-4-1106-turbo.
Recente ontwikkelingen in diffusiemodellen hebben uitzonderlijke capaciteiten aangetoond op het gebied van beeld- en videogeneratie, waardoor de effectiviteit van 4D-synthese verder is verbeterd. Bestaande 4D-generatiemethoden kunnen hoogwaardige 4D-objecten of scènes genereren op basis van gebruiksvriendelijke voorwaarden, wat ten goede komt aan de gaming- en video-industrie. Deze methoden hebben echter moeite met het synthetiseren van significante objectdeformatie van complexe 4D-overgangen en interacties binnen scènes. Om dit probleem aan te pakken, stellen we Trans4D voor, een nieuw tekst-naar-4D-synthesekader dat realistische complexe scènetransities mogelijk maakt. Specifiek gebruiken we eerst multimodale grote taalmodellen (MLLM's) om een fysisch-bewuste scènebeschrijving te produceren voor 4D-scène-initialisatie en effectieve planning van transitietiming. Vervolgens stellen we een geometrie-bewust 4D-transitienetwerk voor om een complexe scène-niveau 4D-overgang te realiseren op basis van het plan, wat expressieve geometrische objectdeformatie omvat. Uitgebreide experimenten tonen aan dat Trans4D consequent beter presteert dan bestaande state-of-the-art methoden bij het genereren van 4D-scènes met nauwkeurige en hoogwaardige overgangen, wat de effectiviteit ervan bevestigt. Code: https://github.com/YangLing0818/Trans4D
Multimodale Grote Taalmodellen (MGT's) evolueren snel en tonen indrukwekkende mogelijkheden als multimodale assistenten die interactie hebben met zowel mensen als hun omgeving. Echter, deze toegenomen complexiteit brengt aanzienlijke veiligheidszorgen met zich mee. In dit artikel presenteren we de eerste evaluatie en analyse van een nieuw veiligheidsuitdaging genaamd Multimodale Situationele Veiligheid, waarin wordt onderzocht hoe veiligheidsoverwegingen variëren op basis van de specifieke situatie waarin de gebruiker of agent zich bevindt. We betogen dat een MGT veilig moet kunnen reageren, of het nu gaat om taal of actie, door vaak de veiligheidsimplicaties van een taalvraag te beoordelen binnen de bijbehorende visuele context. Om deze capaciteit te evalueren, ontwikkelen we de Multimodale Situationele Veiligheidsbenchmark (MSSBench) om de situationele veiligheidsprestaties van huidige MGT's te beoordelen. Het dataset bestaat uit 1.820 taalvraag-afbeeldingsparen, waarbij de context van de helft van de afbeeldingen veilig is en de andere helft onveilig. We ontwikkelen ook een evaluatiekader dat belangrijke veiligheidsaspecten analyseert, waaronder expliciete veiligheidsredenering, visueel begrip en, cruciaal, situationele veiligheidsredenering. Onze bevindingen tonen aan dat huidige MGT's moeite hebben met dit genuanceerde veiligheidsprobleem in de instructievolgsetting en worstelen om deze situationele veiligheidsuitdagingen in één keer aan te pakken, wat wijst op een belangrijk onderzoeksgebied voor de toekomst. Bovendien ontwikkelen we multi-agent pipelines om veiligheidsuitdagingen gezamenlijk op te lossen, wat consistente verbetering in veiligheid laat zien ten opzichte van de oorspronkelijke MGT-reactie. Code en data: mssbench.github.io.
De tekst-naar-video (T2V) generatiemodellen, die handige visuele creatie bieden, hebben recentelijk steeds meer aandacht gekregen. Ondanks hun aanzienlijke potentieel kunnen de gegenereerde video's artefacten vertonen, waaronder structurele onwaarschijnlijkheid, temporele inconsistentie en een gebrek aan beweging, wat vaak resulteert in bijna stilstaande video's. In dit werk hebben we een correlatie geïdentificeerd tussen de discrepantie van temporele aandachtskaarten over verschillende blokken en het voorkomen van temporele inconsistenties. Daarnaast hebben we waargenomen dat de energie die aanwezig is in de temporele aandachtskaarten direct gerelateerd is aan de omvang van de bewegingsamplitude in de gegenereerde video's. Op basis van deze observaties presenteren we BroadWay, een trainingsvrije methode om de kwaliteit van tekst-naar-video generatie te verbeteren zonder extra parameters toe te voegen, geheugen uit te breiden of bemonsteringstijd te verhogen. Specifiek bestaat BroadWay uit twee hoofdonderdelen: 1) Temporele Zelfbegeleiding verbetert de structurele plausibiliteit en temporele consistentie van gegenereerde video's door de discrepantie tussen de temporele aandachtskaarten over verschillende decoderblokken te verminderen. 2) Bewegingsversterking op basis van Fourier verbetert de omvang en rijkdom van de beweging door de energie van de kaart te versterken. Uitgebreide experimenten tonen aan dat BroadWay aanzienlijke verbeteringen oplevert in de kwaliteit van tekst-naar-video generatie met verwaarloosbare extra kosten.
Generatieve modellen transformeren creatieve domeinen zoals muziekgeneratie, waarbij inferentiestrategieën zoals Classifier-Free Guidance (CFG) een cruciale rol spelen. Echter, CFG verdubbelt de inferentiekosten en beperkt de originaliteit en diversiteit van gegenereerde inhoud. In dit artikel introduceren we diversiteit-beloonde CFG-distantiëring, een nieuw verfijningsproces dat de sterke punten van CFG destilleert en tegelijkertijd de beperkingen ervan aanpakt. Onze aanpak optimaliseert twee trainingsdoelen: (1) een distillatiedoelstelling die het model alleen (zonder CFG) aanmoedigt om de voorspellingen van CFG na te bootsen, en (2) een RL-doelstelling met een diversiteitsbeloning die de generatie van diverse uitvoer voor een gegeven prompt bevordert. Door verfijning leren we modelgewichten die in staat zijn om hoogwaardige en diverse uitvoer te genereren, zonder enige inferentie-overhead. Dit ontsluit ook het potentieel van gewichtsgebaseerde model-samenvoegingsstrategieën: door te interpoleren tussen de gewichten van twee modellen (de eerste gericht op kwaliteit, de tweede op diversiteit), kunnen we de kwaliteit-diversiteit afweging tijdens implementatie controleren en zelfs de prestaties verder verbeteren. We voeren uitgebreide experimenten uit op het MusicLM (Agostinelli et al., 2023) tekst-naar-muziek generatieve model, waarbij onze aanpak CFG overtreft op het gebied van kwaliteit-diversiteit Pareto-optimaliteit. Volgens menselijke beoordelaars genereert ons verfijnde-en-verenigde model monsters met een hogere kwaliteit-diversiteit dan het basismodel aangevuld met CFG. Verken onze generaties op https://google-research.github.io/seanet/musiclm/diverse_music/.
Dit werk onderzoekt de selectie van hoogwaardige voorafgaande trainingsgegevens uit enorme corpora om de mogelijkheden van taalmodellen (LM's) voor downstream gebruik te verbeteren. We formuleren de gegevensselectie als een gegeneraliseerd Optimaal Besturingsprobleem, dat theoretisch kan worden opgelost met behulp van het Maximumprincipe van Pontryagin (PMP), wat resulteert in een reeks noodzakelijke voorwaarden die de relatie tussen optimale gegevensselectie en de dynamiek van LM-training karakteriseren. Op basis van deze theoretische resultaten introduceren we PMP-gebaseerde Gegevensselectie (PDS), een raamwerk dat optimale gegevensselectie benadert door de PMP-voorwaarden op te lossen. In onze experimenten passen we PDS toe om gegevens te selecteren uit CommmonCrawl en laten zien dat het door PDS geselecteerde corpus het leren van LM's versnelt en voortdurend hun prestaties verbetert op een breed scala van downstream taken over verschillende modelgroottes. Bovendien strekken de voordelen van PDS zich uit tot ~400B modellen getraind op ~10T tokens, zoals blijkt uit de extrapolatie van de testverliescurves volgens de Schalingswetten. PDS verbetert ook het gebruik van gegevens wanneer de voorafgaande trainingsgegevens beperkt zijn, door de vraag naar gegevens met 1,8 keer te verminderen, wat het snelle uitputten van beschikbare web-gecrawlede corpora vermindert. Onze code, gegevens en modelcontrolepunten zijn te vinden op https://github.com/microsoft/LMOps/tree/main/data_selection.
Video Temporal Grounding (VTG) is een cruciale capaciteit voor videomodellen voor begrip en speelt een vitale rol in downstream taken zoals video browsen en bewerken. Om verschillende taken effectief gelijktijdig aan te pakken en zero-shot voorspelling mogelijk te maken, is er een groeiende trend om videomodellen met taalmodellen op basis van video in te zetten voor VTG-taken. Echter, huidige videomodellen op basis van taalmodellen vertrouwen uitsluitend op natuurlijke taalgeneratie, wat hen het vermogen ontneemt om de duidelijke structuur die inherent is aan video's te modelleren, wat hun effectiviteit beperkt bij het aanpakken van VTG-taken. Om dit probleem aan te pakken, introduceert dit artikel eerst formeel een causaal gebeurtenismodel, dat video's voorstelt als sequenties van gebeurtenissen, en voorspelt de huidige gebeurtenis met behulp van eerdere gebeurtenissen, video-invoer en tekstuele instructies. Elke gebeurtenis bestaat uit drie componenten: tijdstempels, opvallende scores en tekstuele bijschriften. Vervolgens stellen we een nieuw taak-geïnterlinieerd videotaalmodel voor genaamd TRACE voor om het causale gebeurtenismodel in de praktijk effectief te implementeren. TRACE verwerkt visuele frames, tijdstempels, opvallende scores en tekst als afzonderlijke taken, waarbij verschillende encoders en decoderingskoppen voor elk worden gebruikt. Taaktokens worden gerangschikt in een geïnterlinieerde sequentie volgens de formulering van het causale gebeurtenismodel. Uitgebreide experimenten op verschillende VTG-taken en datasets tonen de superieure prestaties van TRACE aan in vergelijking met toonaangevende videomodellen op basis van taalmodellen. Ons model en code zijn beschikbaar op https://github.com/gyxxyg/TRACE.
Terwijl multimodale grote taalmodellen (MLLM's) blijven aantonen dat ze steeds competitievere prestaties leveren over een breed scala van taken, zijn er meer complexe en uitgebreide benchmarks ontwikkeld om deze geavanceerde modellen te beoordelen. Deze benchmarks introduceren nieuwe uitdagingen voor kerncapaciteiten zoals perceptie, redeneren en planning. Bestaande multimodale benchmarks schieten echter tekort in het bieden van een gerichte evaluatie van meerstapsplanning op basis van ruimtelijke relaties in afbeeldingen. Om deze lacune te overbruggen, presenteren we ING-VP, de eerste INteractive Game-based Vision Planning benchmark, specifiek ontworpen om de ruimtelijke verbeelding en meerstapsredeneervaardigheden van MLLM's te evalueren. ING-VP bevat 6 verschillende spellen, met in totaal 300 niveaus, elk met 6 unieke configuraties. Een enkel model neemt deel aan meer dan 60.000 rondes van interactie. Het benchmarkframework maakt verschillende vergelijkingsinstellingen mogelijk, waaronder afbeelding-tekst vs. alleen tekst invoer, enkelvoudige vs. meerstaps redenering, en met-geschiedenis vs. zonder-geschiedenis condities, wat waardevolle inzichten biedt in de mogelijkheden van het model. We hebben talrijke toonaangevende MLLM's geëvalueerd, waarbij het best presterende model, Claude-3.5 Sonnet, een gemiddelde nauwkeurigheid behaalde van slechts 3,37%, ver onder de verwachte standaard. Dit werk heeft tot doel een gespecialiseerd evaluatiekader te bieden om de capaciteit van MLLM's voor complex ruimtelijk redeneren en plannen te bevorderen. De code is openbaar beschikbaar op https://github.com/Thisisus7/ING-VP.git.
Het volgen van instructies is een essentiële vaardigheid voor LLM's. Echter, recente studies hebben aangetoond dat LLM's vaak moeite hebben met instructies die meerdere beperkingen bevatten (bijv. een verzoek om een social media bericht "op een grappige toon" te maken "zonder hashtag"). Ondanks dit, richten de meeste evaluaties zich uitsluitend op synthetische data. Om dit aan te pakken, introduceren we RealInstruct, de eerste benchmark ontworpen om de mogelijkheid van LLM's te evalueren om echte multi-beperkte instructies op te volgen door gebruik te maken van vragen die echte gebruikers aan AI-assistenten hebben gesteld. We onderzoeken ook op modellen gebaseerde evaluatie als een kosteneffectief alternatief voor menselijke annotatie voor deze taak. Onze bevindingen tonen aan dat zelfs het gepatenteerde GPT-4 model er niet in slaagt om te voldoen aan minstens één beperking bij meer dan 21% van de instructies, wat de beperkingen van state-of-the-art modellen benadrukt. Om de prestatiekloof tussen open-source en gepatenteerde modellen aan te pakken, stellen we het Decompose, Critique and Refine (DeCRIM) zelfcorrectieproces voor, dat de mogelijkheid van LLM's om beperkingen op te volgen verbetert. DeCRIM werkt door de oorspronkelijke instructie op te splitsen in een lijst van beperkingen en een Critic model te gebruiken om te beslissen wanneer en waar de reactie van de LLM verbetering nodig heeft. Onze resultaten tonen aan dat DeCRIM de prestaties van Mistral verbetert met 7.3% op RealInstruct en 8.0% op IFEval zelfs met zwakke feedback. Bovendien tonen we aan dat met sterke feedback open-source LLM's met DeCRIM GPT-4 kunnen overtreffen op beide benchmarks.
Naarmate tekst-naar-afbeelding diffusiemodellen geavanceerder worden voor commerciële toepassingen, groeit ook de bezorgdheid over hun potentieel voor kwaadwillend en schadelijk gebruik. Modelvergetelheid is voorgesteld om de zorgen te verminderen door ongewenste en potentieel schadelijke informatie uit het voorgeleerde model te verwijderen. Tot nu toe wordt het succes van vergetelheid voornamelijk gemeten aan de hand van de vraag of het vergeten model een doelconcept kan genereren terwijl de kwaliteit van de afbeelding behouden blijft. Echter, vergetelheid wordt meestal getest onder beperkte scenario's, en de neveneffecten van vergetelheid zijn nauwelijks bestudeerd in de huidige literatuur. In dit werk analyseren we grondig vergetelheid onder verschillende scenario's met vijf belangrijke aspecten. Ons onderzoek onthult dat elke methode bijwerkingen of beperkingen heeft, vooral in complexere en realistischere situaties. Door ons uitgebreide evaluatiekader met de broncodes en artefacten vrij te geven, hopen we verdere onderzoek in dit gebied te stimuleren, wat zal leiden tot meer betrouwbare en effectieve vergetelheidsmethoden.
Hoewel grote taalmodellen (LLM's) afbeeldingen hebben geïntegreerd, blijft het aanpassen ervan aan grafieken uitdagend, waardoor hun toepassingen in materiaal- en medicijnontwerp beperkt zijn. Deze moeilijkheid komt voort uit de noodzaak van coherente autoregressieve generatie over teksten en grafieken. Om dit aan te pakken, introduceren we Llamole, de eerste multimodale LLM die in staat is tot onderlinge generatie van tekst en grafieken, waardoor moleculair omgekeerd ontwerp met retrosynthetische planning mogelijk wordt. Llamole integreert een basis LLM met de Graph Diffusion Transformer en Graph Neural Networks voor multi-conditionele moleculaire generatie en reactie-inferentie binnen teksten, terwijl het LLM, met verbeterd moleculair begrip, flexibel de activatie tussen de verschillende grafische modules regelt. Daarnaast integreert Llamole A* zoekopdrachten met op LLM gebaseerde kostfuncties voor efficiënte retrosynthetische planning. We creëren benchmarkdatasets en voeren uitgebreide experimenten uit om Llamole te evalueren ten opzichte van in-context leren en begeleid finetunen. Llamole presteert aanzienlijk beter dan 14 aangepaste LLM's op 12 metrieken voor controleerbaar moleculair ontwerp en retrosynthetische planning.
Onlangs geïntroduceerde dialoogsystemen hebben een hoge bruikbaarheid aangetoond. Echter, ze schieten nog steeds tekort in het weerspiegelen van gespreksscenario's in de echte wereld. Huidige dialoogsystemen vertonen een onvermogen om de dynamische, continue, langdurige interacties met meerdere partners na te bootsen. Dit tekort ontstaat doordat er beperkte inspanningen zijn geweest om rekening te houden met beide aspecten van dialogen in de echte wereld: diepgaande interacties over de lange termijn en uitgebreide gespreksnetwerken met meerdere deelnemers. Met als doel deze aspecten te integreren, introduceren we Mixed-Session Conversation, een dialoogsysteem dat is ontworpen om gesprekken met verschillende partners in een multi-sessie dialoogopstelling te construeren. We stellen een nieuw dataset genaamd MiSC voor om dit systeem te implementeren. De dialoogafleveringen van MiSC bestaan uit 6 opeenvolgende sessies, waarbij vier sprekers (één hoofdspreker en drie partners) in elke aflevering verschijnen. Ook stellen we een nieuw dialoogmodel voor met een nieuw geheugenbeheermechanisme, genaamd Egocentrisch Geheugen Versterkte Mixed-Session Conversation Agent (EMMA). EMMA verzamelt en behoudt herinneringen vanuit het perspectief van de hoofdspreker tijdens gesprekken met partners, waardoor naadloze continuïteit in daaropvolgende interacties mogelijk is. Uitgebreide menselijke evaluaties bevestigen dat de dialogen in MiSC een naadloze conversatiestroom demonstreren, zelfs wanneer gesprekspartners in elke sessie veranderen. EMMA, getraind met MiSC, wordt ook geëvalueerd om een hoge herinnerbaarheid zonder tegenstrijdigheden gedurende het hele gesprek te behouden.
Het genereren van een lang verhaal van enkele duizenden woorden met narratieve samenhang met behulp van Grote Taalmodellen (LLM's) is een uitdagende taak gebleken. Eerdere onderzoeken hebben dit probleem aangepakt door verschillende kaders voor te stellen die een verhaalplan creëren en op basis daarvan een lang verhaal genereren. Echter, deze kaders hebben zich voornamelijk gericht op het behouden van narratieve samenhang in verhalen, waarbij vaak creativiteit in verhaalplanning en de expressiviteit van de gegenereerde verhalen vanuit die plannen over het hoofd worden gezien, wat wenselijke eigenschappen zijn om de interesse van lezers te wekken. In dit artikel stellen we het Collectieve Critici voor Creatieve Verhaalgeneratiekader (CritiCS) voor, dat bestaat uit een planningsverfijningsfase (CrPlan) en een verhaalgeneratiefase (CrText), om een collectief revisiemechanisme te integreren dat deze eigenschappen bevordert in het proces van het genereren van langere verhalen. Specifiek werkt in elke fase een groep LLM-critici en een leider samen om conceptversies van het plan en het verhaal stapsgewijs te verfijnen gedurende meerdere rondes. Uitgebreide menselijke evaluatie toont aan dat de CritiCS aanzienlijk de creativiteit van verhalen en de betrokkenheid van lezers kan verbeteren, terwijl ook de narratieve samenhang behouden blijft. Bovendien maakt het ontwerp van het kader actieve deelname mogelijk van menselijke schrijvers in elke rol binnen het kritiekproces, waardoor interactieve mens-machine samenwerking mogelijk is bij het schrijven van verhalen.
Wij stellen TextToon voor, een methode om een bestuurbaar getoonificeerd avatar te genereren. Gegeven een korte monoculair videosequentie en een geschreven instructie over de avatarstijl, kan ons model een getoonificeerd avatar van hoge kwaliteit genereren die in realtime kan worden bestuurd door een andere video met willekeurige identiteiten. Bestaande gerelateerde werken vertrouwen zwaar op multi-view modellering om geometrie te herstellen via textuur insluitingen, gepresenteerd op een statische manier, wat leidt tot beperkingen in de controle. De multi-view video-invoer maakt het ook moeilijk om deze modellen in real-world toepassingen in te zetten. Om deze problemen aan te pakken, nemen we een conditionele insluiting Tri-plane aan om realistische en gestileerde gezichtsrepresentaties te leren in een Gaussisch vervormingsveld. Daarnaast breiden we de stiliseringsmogelijkheden van 3D Gaussisch Splatting uit door een adaptief pixel-vertalingsneuraal netwerk te introduceren en gebruik te maken van patch-bewuste contrastieve leren om hoogwaardige afbeeldingen te bereiken. Om ons werk naar consumententoepassingen te brengen, ontwikkelen we een realtime systeem dat kan werken met 48 FPS op een GPU-machine en 15-18 FPS op een mobiele machine. Uitgebreide experimenten tonen de doeltreffendheid van onze benadering aan bij het genereren van getoonificeerde avatars ten opzichte van bestaande methoden op het gebied van kwaliteit en real-time animatie. Raadpleeg onze projectpagina voor meer details: https://songluchuan.github.io/TextToon/.
In-context leren (ICL) is het vermogen van een model om een nieuwe taak te leren door een paar voorbeelden in zijn context te observeren. Hoewel wijdverbreid in NLP, is deze mogelijkheid recentelijk ook waargenomen in Reinforcement Learning (RL) omgevingen. Eerdere in-context RL methoden vereisen echter volledige episodes in de context van de agent. Aangezien complexe omgevingen doorgaans leiden tot lange episodes met schaarse beloningen, zijn deze methoden beperkt tot eenvoudige omgevingen met korte episodes. Om deze uitdagingen aan te pakken, introduceren we de Retrieval-Augmented Decision Transformer (RA-DT). RA-DT maakt gebruik van een extern geheugenmechanisme om eerdere ervaringen op te slaan waaruit het alleen relevante sub-trajecten ophaalt voor de huidige situatie. Het ophaalcomponent in RA-DT vereist geen training en kan volledig domein-agnostisch zijn. We evalueren de mogelijkheden van RA-DT op grid-wereldomgevingen, robot simulaties en procedureel gegenereerde videospellen. Op grid-werelden presteert RA-DT beter dan baselines, terwijl het slechts een fractie van hun contextlengte gebruikt. Bovendien belichten we de beperkingen van huidige in-context RL methoden in complexe omgevingen en bespreken we toekomstige richtingen. Om toekomstig onderzoek te vergemakkelijken, stellen we datasets beschikbaar voor vier van de overwogen omgevingen.
Het onderzoek bouwt op en evalueert het tegenwerkende potentieel om gekopieerde code in te voeren of gehallucineerde AI-aanbevelingen voor kwaadaardige code in populaire code-repositories. Terwijl fundamentele grote taalmodellen (LLM's) van OpenAI, Google en Anthropic zich beschermen tegen zowel schadelijk gedrag als giftige strings, toont eerder werk aan dat wiskundige oplossingen die schadelijke aanwijzingen insluiten, aantonen dat de veiligheidsmaatregelen kunnen verschillen tussen expertcontexten. Deze achterdeurtjes zouden verschijnen in een mix van modellen van experts wanneer de context van de vraag verandert en minder kwaadaardige trainingsvoorbeelden zou kunnen bieden om giftige opmerkingen te filteren of aanbevolen aanstootgevende acties. Het huidige werk toont aan dat fundamentele modellen mogelijk weigeren om destructieve acties correct voor te stellen wanneer hier expliciet om wordt gevraagd, maar helaas hun waakzaamheid laten varen wanneer ze worden geconfronteerd met een plotselinge verandering van context, zoals het oplossen van een programmeeruitdaging. We tonen empirische voorbeelden met trojan-hosting repositories zoals GitHub, NPM, NuGet, en populaire content delivery-netwerken (CDN's) zoals jsDelivr die het aanvalsoppervlak vergroten. In de richtlijnen van de LLM om behulpzaam te zijn, stellen voorbeeldaanbevelingen applicatie-programmeerinterface (API) eindpunten voor die een vastberaden domeinkaper zou kunnen verkrijgen en een aanvalsmobiele infrastructuur opzetten die wordt geactiveerd vanuit de naïef gekopieerde code. We vergelijken deze aanval met eerder werk over contextverschuiving en contrasteren het aanvalsoppervlak als een nieuwe versie van "living off the land" aanvallen in de malware-literatuur. In het laatste geval kunnen fundamentele taalmodellen anderszins onschuldige gebruikersaanwijzingen kapen om acties aan te bevelen die in strijd zijn met de veiligheidsbeleidslijnen van hun eigenaars wanneer deze direct worden gesteld zonder het bijbehorende verzoek om coderingsondersteuning.
Piano spelen vereist behendige, precieze en gecoördineerde handcontrole die de grenzen van behendigheid oprekt. Handbewegingsmodellen met de verfijning om piano spelen nauwkeurig na te bootsen hebben een breed scala aan toepassingen in karakteranimatie, embodied AI, biomechanica en VR/AR. In dit artikel construeren we een unieke dataset op grote schaal die ongeveer 10 uur aan 3D handbeweging en audio bevat van 15 pianisten van eliteniveau die 153 stukken klassieke muziek spelen. Om natuurlijke uitvoeringen vast te leggen, hebben we een markerloze opstelling ontworpen waarin bewegingen worden gereconstrueerd uit multi-view video's met behulp van state-of-the-art pose-estimatiemodellen. De bewegingsgegevens worden verder verfijnd via inverse kinematica met behulp van de MIDI-toetsaanslaggegevens met hoge resolutie die zijn verkregen van sensoren in een gespecialiseerde Yamaha Disklavier-piano. Door gebruik te maken van de verzamelde dataset hebben we een proces ontwikkeld dat fysiek plausibele handbewegingen kan synthetiseren voor muziekstukken buiten de dataset. Onze aanpak maakt gebruik van een combinatie van imitatieleren en reinforcement learning om beleidsregels te verkrijgen voor op de natuurkunde gebaseerde bimanuele controle die de interactie tussen handen en pianotoetsen omvat. Om het probleem van de bemonsteringsefficiëntie met de grote bewegingsdataset op te lossen, gebruiken we een diffusiemodel om natuurlijke referentiebewegingen te genereren, die hoog-niveau traject- en vingerzettinginformatie bieden. Echter, de gegenereerde referentiebeweging alleen biedt niet voldoende nauwkeurigheid voor het modelleren van pianoprestaties. Vervolgens hebben we de gegevens verder aangevuld door muzikale gelijkenis te gebruiken om vergelijkbare bewegingen uit de vastgelegde dataset op te halen om de precisie van het RL-beleid te verhogen. Met de voorgestelde methode genereert ons model natuurlijke, behendige bewegingen die generaliseren naar muziek van buiten de trainingsdataset.
We introduceren MLE-bench, een benchmark om te meten hoe goed AI-agenten presteren in machine learning engineering. Hiervoor selecteren we 75 ML-engineering-gerelateerde competities van Kaggle, waarbij we een gevarieerde set uitdagende taken samenstellen die echte ML-engineeringvaardigheden testen, zoals het trainen van modellen, het voorbereiden van datasets en het uitvoeren van experimenten. We stellen menselijke baselines vast voor elke competitie aan de hand van de publiekelijk beschikbare leaderboards van Kaggle. We gebruiken open-source agent-scaffolds om verschillende geavanceerde taalmodellen te evalueren op onze benchmark en ontdekken dat de best presterende setup - OpenAI's o1-preview met AIDE-scaffolding - minstens het niveau van een Kaggle-bronsmedaille behaalt in 16,9% van de competities. Naast onze belangrijkste resultaten onderzoeken we verschillende vormen van resource scaling voor AI-agenten en de impact van besmetting door pre-training. We maken onze benchmarkcode open-source (github.com/openai/mle-bench/) om toekomstig onderzoek naar het begrijpen van de ML-engineeringcapaciteiten van AI-agenten te vergemakkelijken.
In softwareontwikkeling in de echte wereld kan onjuiste of ontbrekende uitzonderingsafhandeling de robuustheid en betrouwbaarheid van code ernstig beïnvloeden. Mechanismen voor uitzonderingsafhandeling vereisen dat ontwikkelaars uitzonderingen detecteren, vastleggen en beheren volgens hoge normen, maar veel ontwikkelaars worstelen met deze taken, wat leidt tot kwetsbare code. Dit probleem is met name zichtbaar in open source projecten en heeft invloed op de algehele kwaliteit van het software-ecosysteem. Om deze uitdaging aan te pakken, onderzoeken we het gebruik van grote taalmodellen (LLM's) om de uitzonderingsafhandeling in code te verbeteren. Door uitgebreide analyse identificeren we drie belangrijke problemen: Ongevoelige Detectie van Kwetsbare Code, Onnauwkeurige Vastlegging van Uitzonderingstypen, en Verstoorde Afhandelingsoplossingen. Deze problemen komen veel voor in repositories in de echte wereld, wat suggereert dat robuuste uitzonderingsafhandelingspraktijken vaak over het hoofd worden gezien of verkeerd worden behandeld. Als reactie stellen we Seeker voor, een multi-agent framework geïnspireerd door strategieën van ervaren ontwikkelaars voor uitzonderingsafhandeling. Seeker maakt gebruik van agents: Scanner, Detector, Predator, Ranker en Handler om LLM's te helpen bij het effectiever detecteren, vastleggen en oplossen van uitzonderingen. Ons werk is de eerste systematische studie naar het benutten van LLM's om uitzonderingsafhandelingspraktijken te verbeteren, en biedt waardevolle inzichten voor toekomstige verbeteringen in de betrouwbaarheid van code.
Het behouden van multi-view consistentie blijft een uitdaging voor beeldverspreidingsmodellen. Zelfs binnen het Tekst-naar-Textuur probleem, waar perfecte geometrische overeenkomsten a priori bekend zijn, falen veel methoden om uitgelijnde voorspellingen over verschillende weergaven te produceren, wat niet-triviale fusiemethoden noodzakelijk maakt om de resultaten in het oorspronkelijke mesh op te nemen. We onderzoeken dit probleem voor een Samenwerkende Controle workflow specifiek in PBR Tekst-naar-Textuur. Samenwerkende Controle modelleert rechtstreeks PBR beeldkansverdelingen, inclusief normale reliëfkaarten; naar ons weten het enige diffusiemodel dat rechtstreeks volledige PBR-stapels uitvoert. We bespreken de ontwerpbeslissingen die betrokken zijn bij het maken van dit model multi-view consistent, en tonen de effectiviteit van onze aanpak aan in ablatiestudies, evenals praktische toepassingen.
Mentale gezondheidsstoornissen behoren tot de ernstigste ziekten ter wereld. De meeste mensen met zo'n aandoening hebben geen toegang tot adequate zorg, wat het belang benadrukt van het trainen van modellen voor de diagnose en behandeling van mentale gezondheidsstoornissen. Echter, in het domein van de geestelijke gezondheid beperken privacyzorgen de toegankelijkheid van gepersonaliseerde behandelgegevens, waardoor het uitdagend is om krachtige modellen te bouwen. In dit artikel introduceren we MentalArena, een zelfspelkader om taalmodellen te trainen door domeinspecifieke gepersonaliseerde gegevens te genereren, waarbij we een beter model verkrijgen dat in staat is tot een gepersonaliseerde diagnose en behandeling (als therapeut) en het verstrekken van informatie (als patiënt). Om menselijke mentale gezondheidspatiënten nauwkeurig te modelleren, hebben we Symptoom Encoder bedacht, die een echte patiënt simuleert vanuit zowel cognitief als gedragsmatig perspectief. Om intentiebias tijdens patiënt-therapeutinteracties aan te pakken, stellen we Symptoom Decoder voor om gediagnosticeerde symptomen te vergelijken met gecodeerde symptomen, en het gesprek tussen patiënt en therapeut dynamisch te beheren op basis van de geïdentificeerde afwijkingen. We hebben MentalArena geëvalueerd tegen 6 benchmarks, waaronder biomedische vragen en taken op het gebied van geestelijke gezondheid, in vergelijking met 6 geavanceerde modellen. Onze modellen, fijn afgestemd op zowel GPT-3.5 als Llama-3-8b, presteren aanzienlijk beter dan hun tegenhangers, inclusief GPT-4o. We hopen dat ons werk toekomstig onderzoek naar gepersonaliseerde zorg kan inspireren. De code is beschikbaar op https://github.com/Scarelette/MentalArena/tree/main
Deze paper introduceert TinyEmo, een familie van kleine multimodale taalmodellen voor emotionele redenering en classificatie. Onze aanpak kenmerkt zich door: (1) een synthetische emotionele instructiedataset voor zowel pre-training als fine-tuning fasen, (2) een Metrische Projector die classificatie van het taalmodel delegeert, wat zorgt voor efficiëntere training en inferentie, (3) een multimodaal groot taalmodel (MM-LLM) voor emotionele redenering, en (4) een semi-geautomatiseerd framework voor biasdetectie. TinyEmo is in staat om emotieclassificatie en emotionele redenering uit te voeren, terwijl het aanzienlijk minder parameters gebruikt dan vergelijkbare modellen. Deze efficiëntie stelt ons in staat om vrijelijk meer diverse emotionele datasets op te nemen, waardoor sterke prestaties worden geleverd bij classificatietaken, waarbij ons kleinste model (700M parameters) beter presteert dan grotere state-of-the-art modellen gebaseerd op algemene multimodale taalmodellen met meer dan 7B parameters. Bovendien maakt de Metrische Projector interpretatie en indirecte biasdetectie mogelijk in grote modellen zonder extra training, wat een benadering biedt om AI-systemen te begrijpen en te verbeteren. We stellen code, modellen en dataset beschikbaar op https://github.com/ggcr/TinyEmo
Recente ontwikkelingen van grote taalmodellen (LLM's) hebben geleid tot beweringen dat AI mensen overtreft in natuurlijke taalverwerkingstaken zoals tekstbegrip en redeneren. Dit werk onderzoekt deze beweringen door CAIMIRA te introduceren, een nieuw raamwerk geworteld in itemresponsentheorie (IRT) dat kwantitatieve beoordeling en vergelijking van probleemoplossend vermogen van vraag-antwoord (QA) agenten mogelijk maakt: mensen en AI-systemen. Door analyse van meer dan 300.000 antwoorden van ~70 AI-systemen en 155 mensen op duizenden quizvragen, onthult CAIMIRA verschillende bekwaamheidspatronen in kennisdomeinen en redeneervaardigheden. Mensen presteren beter dan AI-systemen in kennisgebaseerd abductief en conceptueel redeneren, terwijl geavanceerde LLM's zoals GPT-4 en LLaMA superieure prestaties laten zien bij gerichte informatiewinning en op feiten gebaseerd redeneren, vooral wanneer informatie lacunes goed gedefinieerd zijn en kunnen worden aangepakt door patroonherkenning of gegevensopvraging. Deze bevindingen benadrukken de noodzaak voor toekomstige QA-taken om zich te richten op vragen die niet alleen hogere-orde redeneren en wetenschappelijk denken uitdagen, maar ook vragen om genuanceerde taalkundige interpretatie en kennis toepassing in verschillende contexten, om AI-ontwikkelingen vooruit te helpen die menselijke cognitieve vermogens in real-world probleemoplossing beter nabootsen of aanvullen.
Embedding modellen zijn cruciaal geweest bij het mogelijk maken van verschillende downstream taken zoals semantische gelijkenis, informatie ophalen en clustering. Onlangs is er een golf van interesse geweest in het ontwikkelen van universele tekst-embedding modellen die kunnen generaliseren over taken (bijv. MTEB). Echter, de vooruitgang in het leren van universele multimodale embedding modellen is relatief traag geweest ondanks hun belang. In dit werk streven we ernaar om het potentieel te verkennen voor het bouwen van universele embeddings die in staat zijn om een breed scala aan downstream taken aan te pakken. Onze bijdragen zijn tweeledig: (1) MMEB (Massive Multimodal Embedding Benchmark), die 4 meta-taken omvat (d.w.z. classificatie, visuele vraagbeantwoording, multimodale ophaling en visuele positionering) en 36 datasets, waaronder 20 trainings- en 16 evaluatiedatasets, en (2) VLM2Vec (Vision-Language Model -> Vector), een contrastief trainingskader dat elk state-of-the-art visueel-taalmodel omzet in een embedding model via training op MMEB. In tegenstelling tot eerdere modellen zoals CLIP en BLIP, kan VLM2Vec elke combinatie van afbeeldingen en tekst verwerken om een vaste-dimensionale vector te genereren op basis van taakinstructies. We bouwen een reeks VLM2Vec modellen op Phi-3.5-V en evalueren ze op de evaluatieset van MMEB. Onze resultaten tonen aan dat het model een absolute gemiddelde verbetering van 10% tot 20% behaalt ten opzichte van bestaande multimodale embedding modellen op zowel in-distributie als out-of-distributie datasets in MMEB.
Huidige benchmarks voor het beoordelen van visie-taalmodellen (VLM's) richten zich vaak op hun perceptie- of probleemoplossend vermogen en verwaarlozen andere kritieke aspecten zoals eerlijkheid, meertaligheid of toxiciteit. Bovendien verschillen ze in hun evaluatieprocedures en de reikwijdte van de evaluatie, waardoor het moeilijk is om modellen te vergelijken. Om deze problemen aan te pakken, breiden we het HELM-framework uit naar VLM's om de Holistische Evaluatie van Visie-Taalmodellen (VHELM) te presenteren. VHELM bundelt verschillende datasets om een of meer van de 9 aspecten te bestrijken: visuele perceptie, kennis, redenering, vooringenomenheid, eerlijkheid, meertaligheid, robuustheid, toxiciteit en veiligheid. Op deze manier bieden we een uitgebreid, multidimensionaal beeld van de mogelijkheden van de VLM's over deze belangrijke factoren. Bovendien standaardiseren we de standaard inferentieparameters, methoden van aanmoediging en evaluatiemetrics om eerlijke vergelijkingen tussen modellen mogelijk te maken. Ons framework is ontworpen om lichtgewicht en automatisch te zijn, zodat evaluatieruns goedkoop en snel zijn. Onze eerste run evalueert 22 VLM's op 21 bestaande datasets om een holistische momentopname van de modellen te bieden. We ontdekken nieuwe belangrijke bevindingen, zoals het feit dat efficiëntiegerichte modellen (bijv. Claude 3 Haiku of Gemini 1.5 Flash) aanzienlijk slechter presteren dan hun volledige modellen (bijv. Claude 3 Opus of Gemini 1.5 Pro) op de vooringenomenheidsbenchmark, maar niet wanneer ze worden geëvalueerd op de andere aspecten. Voor transparantie publiceren we de ruwe modelgeneraties en volledige resultaten op onze website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is bedoeld als een levende benchmark en we hopen in de loop van de tijd nieuwe datasets en modellen toe te blijven voegen.
Engels-gecentreerde grote taalmodellen (LLM's) tonen vaak sterke meertalige mogelijkheden. De meertalige prestaties van deze modellen blijven echter onduidelijk en worden niet grondig geëvalueerd voor veel talen. De meeste benchmarks voor meertaligheid richten zich op klassieke NLP-taken of bestrijken een minimaal aantal talen. We introduceren MEXA, een methode om de meertalige mogelijkheden van vooraf getrainde Engels-gecentreerde LLM's te beoordelen met behulp van parallelle zinnen, die beschikbaar zijn voor meer talen dan bestaande downstream taken. MEXA maakt gebruik van het feit dat Engels-gecentreerde LLM's Engels gebruiken als een soort scharnierpunttaal in hun tussenliggende lagen. Het berekent de afstemming tussen Engels en niet-Engelse talen met behulp van parallelle zinnen om de overdracht van taalbegrip van Engels naar andere talen te evalueren. Deze afstemming kan worden gebruikt om de modelprestaties in andere talen te schatten. We voeren studies uit met verschillende parallelle datasets (FLORES-200 en Bijbel), modellen (Llama-familie, Gemma-familie, Mistral en OLMo), en gevestigde downstream taken (Belebele, m-MMLU en m-ARC). We verkennen verschillende methoden om embeddings te berekenen in alleen-decodermodellen. Onze resultaten tonen aan dat MEXA, in de standaardinstellingen, een statistisch significante gemiddelde Pearson-correlatie van 0.90 behaalt met drie gevestigde downstream taken over negen modellen en twee parallelle datasets. Dit suggereert dat MEXA een betrouwbare methode is voor het schatten van de meertalige mogelijkheden van Engels-gecentreerde LLM's, waardoor een duidelijker inzicht wordt geboden in hun meertalige potentieel en de interne werking van LLM's. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
Een essentieel voordeel van recurrente neurale netwerken (RNN's) ten opzichte van op transformatoren gebaseerde taalmodellen is hun lineaire rekenkundige complexiteit met betrekking tot de sequentielengte, waardoor ze veel sneller zijn in het verwerken van lange sequenties tijdens inferentie. Echter, de meeste publiekelijk beschikbare RNN's (bijv. Mamba en RWKV) zijn getraind op sequenties met minder dan 10K tokens, en hun effectiviteit in langere contexten blijft tot nu toe grotendeels onbevredigend. In dit artikel bestuderen we de oorzaak van het onvermogen van RNN's om lange contexten te verwerken en suggereren we kritieke verlichtingen. We onderzoeken twee praktische zorgen bij het toepassen van state-of-the-art RNN's op lange contexten: (1) het onvermogen om te extrapoleren naar invoer langer dan de trainingslengte en (2) de bovengrens van geheugencapaciteit. Om de eerste zorg aan te pakken, onderzoeken we eerst *state collapse* (SC), een fenomeen dat leidt tot ernstige prestatievermindering bij sequentielengtes die niet tijdens de training zijn tegengekomen. Met gecontroleerde experimenten schrijven we dit toe aan overfitting als gevolg van de overparameterisatie van de recurrente staat voor de trainingslengte. Voor de tweede zorg trainen we een reeks Mamba-2 modellen op lange documenten om empirisch de recurrente staatcapaciteit in taalmodellering en passkey-opvraging te schatten. Vervolgens worden drie SC-verminderingsmethoden voorgesteld om de lengtegeneraliseerbaarheid van Mamba-2 te verbeteren, waardoor het model meer dan 1M tokens kan verwerken zonder SC. We vinden ook dat de recurrente staatcapaciteit bij passkey-opvraging exponentieel schaalt met de staatgrootte, en we trainen empirisch een Mamba-2 370M met bijna perfecte passkey-opvraagnauwkeurigheid op een contextlengte van 256K. Dit wijst op een veelbelovende toekomst voor op RNN's gebaseerde modellering van lange contexten.
Nog niet. We presenteren SPACE, een benchmark die systematisch ruimtelijk denken evalueert in grensverleggende modellen. Onze benchmark bouwt voort op tientallen jaren onderzoek in cognitieve wetenschap. Het evalueert de mapping-vaardigheden op grote schaal die worden ingezet wanneer een organisme fysieke omgevingen doorkruist, redeneren op kleinere schaal over objectvormen en -indelingen, en cognitieve infrastructuur zoals ruimtelijke aandacht en geheugen. Voor veel taken instantiëren we parallelle presentaties via tekst en afbeeldingen, waardoor we zowel grote taalmodellen als grote multimodale modellen kunnen beoordelen. Resultaten suggereren dat hedendaagse grensverleggende modellen tekortschieten in de ruimtelijke intelligentie van dieren, waarbij ze op een aantal klassieke tests van dierlijke cognitie bijna op kansniveau presteren.