Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het effectief vooraf trainen van grote taalmodellen (LLM's) is uitdagend gebleken vanwege de immense resource-eisen en de complexiteit van de technische processen die erbij betrokken zijn. Dit artikel presenteert een gedetailleerd technisch rapport over YuLan-Mini, een zeer capabel basismodel met 2,42 miljard parameters dat topklasse prestaties behaalt onder modellen van vergelijkbare parameterschaal. Onze vooraf trainingsbenadering richt zich op het verbeteren van de trainingsdoeltreffendheid door middel van drie belangrijke technische bijdragen: een uitgebreide datapijplijn combineert gegevensreiniging met gegevensplanningstrategieën, een robuuste optimalisatiemethode om trainingsinstabiliteit te verminderen, en een effectieve gloeimethode die gerichte gegevensselectie en langdurige contexttraining omvat. Opmerkelijk genoeg behaalt YuLan-Mini, getraind op 1,08T tokens, prestaties die vergelijkbaar zijn met toonaangevende modellen in de industrie die aanzienlijk meer gegevens vereisen. Om reproductie te vergemakkelijken, publiceren we alle details van de gegevenssamenstelling voor elke trainingsfase. Projectdetails zijn te vinden op de volgende link: https://github.com/RUC-GSAI/YuLan-Mini.
In dit werk bieden we een grondig onderzoek naar gist-gebaseerde contextcompressiemethoden om de verwerking van lange contexten in grote taalmodellen te verbeteren. We richten ons op twee belangrijke vragen: (1) Hoe goed kunnen deze methoden volledige aandachtsmodellen vervangen? en (2) Welke potentiële foutpatronen ontstaan door compressie? Door uitgebreide experimenten tonen we aan dat gist-gebaseerde compressie bij taken zoals ophalingsversterkte generatie en vraag-antwoord over lange documenten bijna verliesloze prestaties kan behalen, maar uitdagingen ondervindt bij taken zoals synthetische herinnering. Bovendien identificeren we drie belangrijke foutpatronen: verloren bij de grens, verloren bij verrassing en onderweg verloren. Om deze problemen te verminderen, stellen we twee effectieve strategieën voor: fijnmazige auto-encodering, die de reconstructie van originele tokeninformatie verbetert, en segmentgewijze schatting van tokenbelang, die de optimalisatie aanpast op basis van tokenafhankelijkheden. Ons werk biedt waardevolle inzichten in het begrip van gist-token-gebaseerde contextcompressie en biedt praktische strategieën voor het verbeteren van compressiemogelijkheden.
Met de vooruitgang in fundamentele en visie-taalmodellen, en effectieve fine-tuning technieken, zijn er een groot aantal zowel algemene als specifiek ontwikkelde modellen ontwikkeld voor verschillende visuele taken. Ondanks de flexibiliteit en toegankelijkheid van deze modellen, is geen enkel model in staat om alle taken en/of toepassingen aan te pakken die door potentiële gebruikers kunnen worden bedacht. Recente benaderingen, zoals visuele programmering en multimodale LLM's met geïntegreerde tools, richten zich op het aanpakken van complexe visuele taken door middel van programma synthese. Echter, dergelijke benaderingen houden geen rekening met gebruikersbeperkingen (bijv. prestatie-/rekenbehoeften), produceren op testtijd specifieke oplossingen die moeilijk te implementeren zijn, en vereisen soms laag-niveau instructies die misschien buiten het bereik liggen van een onervaren gebruiker. Om deze beperkingen aan te pakken, introduceren we MMFactory, een universeel framework dat model- en metrische routeringscomponenten omvat, die fungeren als een oplossingszoekmachine over verschillende beschikbare modellen. Op basis van een taakbeschrijving en een paar voorbeeld in- en uitvoerparen en (optioneel) bron- en/of prestatiebeperkingen, kan MMFactory een gevarieerde pool van programmatische oplossingen voorstellen door visueel-talige tools uit zijn modelrepository te instantiëren en combineren. Naast het synthetiseren van deze oplossingen, stelt MMFactory ook metrieken voor en benchmarkt prestatie-/bronkarakteristieken, zodat gebruikers een oplossing kunnen kiezen die voldoet aan hun unieke ontwerpbeperkingen. Vanuit technisch oogpunt hebben we ook een oplossingsvoorsteller op basis van een commissie geïntroduceerd die gebruikmaakt van multi-agent LLM-gesprekken om uitvoerbare, gevarieerde, universele en robuuste oplossingen voor de gebruiker te genereren. Experimentele resultaten tonen aan dat MMFactory bestaande methoden overtreft door state-of-the-art oplossingen te leveren die zijn afgestemd op de specificaties van het gebruikersprobleem. De projectpagina is beschikbaar op https://davidhalladay.github.io/mmfactory_demo.
Sequentiële aanbevelingssystemen (SR-systemen) zijn aanzienlijk geëvolueerd in het afgelopen decennium, waarbij ze zijn overgestapt van traditionele samenwerkingsfiltering naar diepgaande leermethoden en, meer recentelijk, naar grote taalmodellen (LLM's). Hoewel de adoptie van LLM's aanzienlijke vooruitgang heeft geboekt, ontberen deze modellen inherent samenwerkingsfilterinformatie, waarbij ze voornamelijk vertrouwen op tekstuele inhoudsgegevens en andere modaliteiten verwaarlozen, waardoor ze niet optimaal presteren bij aanbevelingen. Om deze beperking aan te pakken, stellen we Molar voor, een Multimodaal groot taalsequentieel aanbevelingskader dat meerdere inhoudsmodaliteiten integreert met ID-informatie om samenwerkingsignalen effectief vast te leggen. Molar maakt gebruik van een MLLM om eenduidige itemrepresentaties te genereren uit zowel tekstuele als niet-tekstuele gegevens, waardoor uitgebreide multimodale modellering mogelijk is en item-embeddings worden verrijkt. Daarnaast bevat het samenwerkingsfilteringsignalen door middel van een post-aligneringsmechanisme, dat gebruikersrepresentaties uit op inhoud gebaseerde en ID-gebaseerde modellen op elkaar afstemt, wat zorgt voor nauwkeurige personalisatie en robuuste prestaties. Door naadloos multimodale inhoud te combineren met samenwerkingsfilterinzichten, legt Molar zowel gebruikersbelangen als contextuele semantiek vast, wat leidt tot een superieure aanbevelingsnauwkeurigheid. Uitgebreide experimenten bevestigen dat Molar aanzienlijk beter presteert dan traditionele en op LLM's gebaseerde baselines, waarbij de kracht van het benutten van multimodale gegevens en samenwerkingsignalen voor sequentiële aanbevelingstaken wordt benadrukt. De broncode is beschikbaar op https://anonymous.4open.science/r/Molar-8B06/.