Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement learning (RL) is naar voren gekomen als een veelbelovende aanpak om het redeneervermogen van grote taalmodellen (LLM's) te verbeteren, maar de meeste open initiatieven richten zich vooral op wiskunde en code, wat ons begrip van de bredere toepasbaarheid op algemeen redeneren beperkt. Een belangrijke uitdaging ligt in het gebrek aan betrouwbare, schaalbare RL-beloningssignalen over diverse redeneerdomeinen. Wij introduceren Guru, een gecureerde RL-redeneercorpus van 92K verifieerbare voorbeelden die zes redeneerdomeinen beslaan—Wiskunde, Code, Wetenschap, Logica, Simulatie en Tabelgegevens—elk opgebouwd via domeinspecifiek beloningsontwerp, deduplicatie en filtering om betrouwbaarheid en effectiviteit voor RL-training te waarborgen. Op basis van Guru onderzoeken we systematisch gevestigde bevindingen in RL voor LLM-redenering en observeren we aanzienlijke variatie tussen domeinen. Terwijl eerder werk suggereert dat RL voornamelijk bestaande kennis uit vooraf getrainde modellen naar voren haalt, laten onze resultaten een genuanceerder patroon zien: domeinen die vaak tijdens de voorafgaande training zijn gezien (Wiskunde, Code, Wetenschap) profiteren gemakkelijk van cross-domein RL-training, terwijl domeinen met beperkte blootstelling tijdens de voorafgaande training (Logica, Simulatie en Tabelgegevens) domeinspecifieke training vereisen om betekenisvolle prestatieverbeteringen te bereiken, wat suggereert dat RL waarschijnlijk echte vaardigheidsverwerving faciliteert. Ten slotte presenteren we Guru-7B en Guru-32B, twee modellen die state-of-the-art prestaties behalen onder open modellen die RL-getraind zijn met publiek beschikbare data, en die de beste baseline-modellen overtreffen met respectievelijk 7,9% en 6,7% op onze evaluatiesuite van 17 taken over zes redeneerdomeinen. We laten ook zien dat onze modellen de Pass@k-prestaties van hun basismodellen effectief verbeteren, vooral bij complexe taken die minder waarschijnlijk in voorafgaande trainingsdata voorkomen. We maken data, modellen, trainings- en evaluatiecode beschikbaar om algemeen redeneren te faciliteren op: https://github.com/LLM360/Reasoning360.
Dit artikel presenteert verbeterde native geünificeerde multimodale modellen, genaamd Show-o2, die gebruikmaken van autoregressieve modellering en flow matching. Gebaseerd op een 3D causaal variatie-autoencoder ruimte, worden geünificeerde visuele representaties geconstrueerd via een dubbelpad van ruimtelijke (-temporele) fusie, waardoor schaalbaarheid over beeld- en videomodaliteiten wordt mogelijk gemaakt terwijl effectieve multimodale begripsvorming en generatie wordt gewaarborgd. Gebaseerd op een taalmodel, worden autoregressieve modellering en flow matching natively toegepast op respectievelijk de taalhead en de flow head, om teksttokenvoorspelling en beeld/video-generatie te faciliteren. Een tweefasen trainingsrecept is ontworpen om effectief te leren en op te schalen naar grotere modellen. De resulterende Show-o2-modellen tonen veelzijdigheid in het omgaan met een breed scala aan multimodale begripsvorming en generatietaken over diverse modaliteiten, waaronder tekst, beelden en video's. Code en modellen zijn vrijgegeven op https://github.com/showlab/Show-o.
De vooruitgang in tekst-naar-spraak en audiogeneratiemodellen vereist robuuste benchmarks voor het evalueren van de emotionele begripscapaciteiten van AI-systemen. Huidige datasets voor spraakemotieherkenning (SER) vertonen vaak beperkingen in emotionele granulariteit, privacyzorgen of een afhankelijkheid van gespeelde uitbeeldingen. Dit artikel introduceert EmoNet-Voice, een nieuwe bron voor spraakemotiedetectie, die bestaat uit EmoNet-Voice Big, een grootschalige pre-trainingsdataset (met meer dan 4.500 uur spraak over 11 stemmen, 40 emoties en 4 talen), en EmoNet-Voice Bench, een nieuwe benchmarkdataset met annotaties van menselijke experts. EmoNet-Voice is ontworpen om SER-modellen te evalueren op een fijnmazig spectrum van 40 emotiecategorieën met verschillende intensiteitsniveaus. Door gebruik te maken van state-of-the-art stemgeneratie hebben we synthetische audioclips samengesteld die acteurs simuleren die scènes uitbeelden die specifieke emoties moeten oproepen. Cruciaal is dat we een rigoureuze validatie hebben uitgevoerd door psychologie-experts die waargenomen intensiteitslabels hebben toegewezen. Deze synthetische, privacybeschermende aanpak maakt het mogelijk om gevoelige emotionele toestanden op te nemen die vaak ontbreken in bestaande datasets. Tot slot introduceren we Empathic Insight Voice-modellen die een nieuwe standaard zetten in spraakemotieherkenning met een hoge overeenstemming met menselijke experts. Onze evaluaties in het huidige modellenlandschap tonen waardevolle bevindingen, zoals het feit dat hoog-arousalemoties zoals woede veel gemakkelijker te detecteren zijn dan laag-arousalstatussen zoals concentratie.
Onlangs hebben multimodale grote taalmodellen (MLLMs) steeds meer onderzoeksaandacht getrokken vanwege hun krachtige visuele begripscapaciteiten. Hoewel ze indrukwekkende resultaten hebben behaald bij diverse visuele taken, blijft hun prestaties bij het genereren van code uit grafieken suboptimaal. Deze taak vereist dat MLLMs uitvoerbare code genereren die een gegeven grafiek kan reproduceren, wat niet alleen een nauwkeurig visueel begrip vereist, maar ook een accurate vertaling van visuele elementen naar gestructureerde code. Het direct aansturen van MLLMs om deze complexe taak uit te voeren, levert vaak onbevredigende resultaten op. Om deze uitdaging aan te pakken, stellen we {ChartIR} voor, een iteratieve verfijningsmethode gebaseerd op gestructureerde instructies. Ten eerste onderscheiden we twee taken: visueel begrip en codevertaling. Om het visuele begrip te realiseren, ontwerpen we twee soorten gestructureerde instructies: beschrijving en verschil. De beschrijvingsinstructie vangt de visuele elementen van de referentiegrafiek, terwijl de verschilinstructie de discrepanties tussen de referentiegrafiek en de gegenereerde grafiek karakteriseert. Deze instructies transformeren effectief visuele kenmerken in taalrepresentaties, waardoor het daaropvolgende codevertalingsproces wordt vergemakkelijkt. Ten tweede splitsen we de algehele grafiekgeneratiepijplijn op in twee fasen: initiële codegeneratie en iteratieve verfijning, waardoor een progressieve verbetering van het uiteindelijke resultaat mogelijk wordt. Experimentele resultaten tonen aan dat, in vergelijking met andere methoden, onze methode superieure prestaties behaalt bij zowel het open-source model Qwen2-VL als het closed-source model GPT-4o.
Gedetailleerde bijschriften die de kenmerken van een muziekstuk nauwkeurig weergeven, kunnen muziekdatabases verrijken en onderzoek naar muziek-AI vooruithelpen. Dit artikel introduceert een multi-task muziekbijschriftmodel, SonicVerse, dat bijschriftgeneratie integreert met aanvullende muziekkenmerkdetectietaken zoals toonsoortdetectie, vocalendetectie en meer, om zowel laagniveau akoestische details als hoog-niveau muzikale attributen direct vast te leggen. De belangrijkste bijdrage is een op projectie gebaseerde architectuur die audio-invoer omzet in taaltokens, terwijl tegelijkertijd muziekkenmerken worden gedetecteerd via toegewijde aanvullende heads. De uitvoer van deze heads wordt ook geprojecteerd in taaltokens, om de invoer voor het bijschrift te versterken. Dit framework produceert niet alleen rijke, beschrijvende bijschriften voor korte muziekfragmenten, maar maakt ook direct de generatie mogelijk van gedetailleerde tijdgebonden beschrijvingen voor langere muziekstukken, door de uitvoer te koppelen met behulp van een groot-taalmodel. Om het model te trainen, hebben we de MusicBench-dataset uitgebreid door deze te annoteren met muziekkenmerken met behulp van MIRFLEX, een modulaire muziekkenmerkextractor, wat resulteerde in gepaarde audio, bijschriften en muziekkenmerkdata. Experimentele resultaten tonen aan dat het op deze manier incorporeren van kenmerken de kwaliteit en detaillering van de gegenereerde bijschriften verbetert.
Recente Large Language Models (LLMs) hebben een hoge nauwkeurigheid gerapporteerd op redeneerbenchmarks. Het is echter nog steeds onduidelijk of de waargenomen resultaten voortkomen uit echt redeneren of uit statistische herinnering van de trainingsset. Geïnspireerd door de ladder van causaliteit (Pearl, 2009) en de drie niveaus daarvan (associaties, interventies en tegenfeitelijkheden), introduceert dit artikel RE-IMAGINE, een raamwerk om een hiërarchie van redeneervaardigheden in LLMs te karakteriseren, samen met een geautomatiseerde pipeline om probleemvariaties te genereren op verschillende niveaus van de hiërarchie. Door problemen te wijzigen in een intermediaire symbolische representatie, genereert RE-IMAGINE willekeurig veel problemen die niet oplosbaar zijn door alleen memorisatie. Bovendien is het raamwerk algemeen en kan het werken over verschillende redeneerdomeinen, waaronder wiskunde, code en logica. We demonstreren ons raamwerk op vier veelgebruikte benchmarks om verschillende families van LLMs te evalueren, en observeren verminderingen in prestaties wanneer de modellen worden bevraagd met probleemvariaties. Deze beoordelingen duiden op een zekere mate van afhankelijkheid van statistische herinnering voor eerdere prestaties, en openen de deur voor verder onderzoek gericht op vaardigheden over de redeneerhiërarchie.