Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren MiniMax-Speech, een autoregressief Transformer-gebaseerd Text-to-Speech (TTS) model dat hoogwaardige spraak genereert. Een belangrijke innovatie is onze leerbare spreker-encoder, die timbrekenmerken uit een referentie-audio extraheert zonder de transcriptie ervan nodig te hebben. Hierdoor kan MiniMax-Speech zeer expressieve spraak produceren met een timbre dat consistent is met de referentie op een zero-shot manier, terwijl het ook one-shot voice cloning ondersteunt met een uitzonderlijk hoge gelijkenis aan de referentiestem. Daarnaast wordt de algehele kwaliteit van de gesynthetiseerde audio verbeterd door de voorgestelde Flow-VAE. Ons model ondersteunt 32 talen en toont uitstekende prestaties op meerdere objectieve en subjectieve evaluatiemetrics. Het behaalt met name state-of-the-art (SOTA) resultaten op objectieve voice cloning metrics (Word Error Rate en Speaker Similarity) en heeft de top positie veroverd op het publieke TTS Arena leaderboard. Een andere belangrijke sterkte van MiniMax-Speech, mogelijk gemaakt door de robuuste en ontvlochten representaties van de spreker-encoder, is de uitbreidbaarheid zonder het basismodel aan te passen, wat verschillende toepassingen mogelijk maakt, zoals: willekeurige stememotiecontrole via LoRA; tekst naar stem (T2V) door timbrekenmerken direct uit een tekstbeschrijving te synthetiseren; en professionele voice cloning (PVC) door timbrekenmerken te finetunen met aanvullende data. We moedigen lezers aan om https://minimax-ai.github.io/tts_tech_report te bezoeken voor meer voorbeelden.
Text-to-audio-systemen, hoewel steeds performanter, zijn traag tijdens inferentie, waardoor hun latentie onpraktisch is voor veel creatieve toepassingen. Wij presenteren Adversarial Relativistic-Contrastive (ARC) post-training, het eerste adversariële versnellingsalgoritme voor diffusie-/flow-modellen dat niet gebaseerd is op distillatie. Terwijl eerdere adversariële post-trainingsmethoden moeite hadden om zich te meten met hun dure distillatie-tegenhangers, is ARC post-training een eenvoudige procedure die (1) een recente relativistische adversariële formulering uitbreidt naar diffusie-/flow post-training en (2) deze combineert met een nieuw contrastief discriminator-doel om betere prompt-naleving te bevorderen. We combineren ARC post-training met een aantal optimalisaties voor Stable Audio Open en bouwen een model dat in staat is om ongeveer 12 seconden 44,1 kHz stereo-audio te genereren in ongeveer 75 ms op een H100, en ongeveer 7 seconden op een mobiel edge-apparaat, het snelste text-to-audio-model naar onze kennis.
We presenteren AM-Thinking-v1, een 32B dense taalmodel dat de grenzen van redeneren verlegt en de collaboratieve geest van open-source innovatie belichaamt. Met betere prestaties dan DeepSeek-R1 en een uitdaging voor toonaangevende Mixture-of-Experts (MoE) modellen zoals Qwen3-235B-A22B en Seed1.5-Thinking, behaalt AM-Thinking-v1 indrukwekkende scores van 85.3 op AIME 2024, 74.4 op AIME 2025 en 70.3 op LiveCodeBench, wat state-of-the-art wiskundige en programmeercapaciteiten aantoont onder open-source modellen van vergelijkbare schaal. Volledig gebouwd op basis van het open-source Qwen2.5-32B basismodel en publiekelijk beschikbare queries, maakt AM-Thinking-v1 gebruik van een zorgvuldig ontworpen post-trainingspijplijn – een combinatie van supervised fine-tuning en reinforcement learning – om uitzonderlijke redeneercapaciteiten te leveren. Dit werk toont aan dat de open-source gemeenschap hoge prestaties kan bereiken op de 32B schaal, een praktisch ideaal punt voor implementatie en fine-tuning. Door een balans te vinden tussen top-tier prestaties en bruikbaarheid in de praktijk, hopen we dat AM-Thinking-v1 verdere collaboratieve inspanningen inspireert om mid-schaal modellen te benutten, de grenzen van redeneren te verleggen terwijl toegankelijkheid centraal blijft staan in innovatie. We hebben ons model open-source gemaakt op https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
Het bouwen van multimodale taalmodellen is fundamenteel uitdagend: het vereist het afstemmen van visuele en taalkundige modaliteiten, het samenstellen van hoogwaardige instructiedata, en het voorkomen van achteruitgang van bestaande tekstgerichte mogelijkheden zodra visie wordt geïntroduceerd. Deze moeilijkheden worden verder vergroot in de meertalige context, waar de behoefte aan multimodale data in verschillende talen bestaande dataschaarste verergert, machinevertaling vaak de betekenis vervormt, en catastrofale vergetelheid meer uitgesproken is. Om de bovengenoemde uitdagingen aan te pakken, introduceren we nieuwe technieken die zowel data als modellering omvatten. Ten eerste ontwikkelen we een synthetisch annotatieraamwerk dat hoogwaardige, diverse meertalige multimodale instructiedata samenstelt, waardoor Aya Vision-modellen natuurlijke, door mensen geprefereerde reacties kunnen produceren op multimodale inputs in vele talen. Hieraan aanvullend stellen we een cross-modale modelmergingtechniek voor die catastrofale vergetelheid vermindert, waardoor tekstgerichte mogelijkheden effectief behouden blijven terwijl tegelijkertijd de multimodale generatieve prestaties worden verbeterd. Aya-Vision-8B behaalt de beste prestaties in zijn klasse in vergelijking met sterke multimodale modellen zoals Qwen-2.5-VL-7B, Pixtral-12B, en zelfs veel grotere modellen zoals Llama-3.2-90B-Vision. We schalen deze aanpak verder op met Aya-Vision-32B, dat modellen overtreft die meer dan twee keer zo groot zijn, zoals Molmo-72B en LLaMA-3.2-90B-Vision. Ons werk bevordert de meertalige vooruitgang op het multimodale front en biedt inzichten in technieken die effectief de behoefte aan rekenkracht verminderen terwijl ze uitzonderlijk hoge prestaties leveren.
Instructievolging evalueert grote taalmodellen (LLMs) op hun vermogen om uitvoer te genereren die voldoet aan door de gebruiker gedefinieerde beperkingen. Bestaande benchmarks maken echter vaak gebruik van gestandaardiseerde beperkingsprompts, die de diversiteit van real-world gebruik missen en een gedetailleerde prestatiebeoordeling beperken. Om deze leemte op te vullen, stellen we een multidimensionaal beperkingskader voor dat drie beperkingspatronen, vier beperkingscategorieën en vier moeilijkheidsniveaus omvat. Op basis van dit kader ontwikkelen we een geautomatiseerde instructiegeneratiepijplijn die beperkingsuitbreiding, conflictdetectie en instructieherformulering uitvoert, wat resulteert in 1.200 code-verifieerbare testvoorbeelden voor instructievolging. We evalueren 19 LLMs uit zeven modelfamilies en ontdekken aanzienlijke variatie in prestaties tussen verschillende beperkingsvormen. Zo daalt de gemiddelde prestatie bijvoorbeeld van 77,67% op Niveau I naar 32,96% op Niveau IV. Bovendien tonen we de bruikbaarheid van onze aanpak aan door deze te gebruiken om gegevens te genereren voor reinforcement learning, wat aanzienlijke verbeteringen in instructievolging oplevert zonder de algemene prestaties te verslechteren. Diepgaande analyse geeft aan dat deze verbeteringen voornamelijk voortkomen uit aanpassingen in de parameters van de aandachtmodules van het model, wat de herkenning en naleving van beperkingen verbetert. Code en gegevens zijn beschikbaar op https://github.com/Junjie-Ye/MulDimIF.
We presenteren gg-bench, een verzameling spelomgevingen ontworpen om algemene redeneervaardigheden in taalmodelen te evalueren. In tegenstelling tot de meeste statische benchmarks, is gg-bench een datageneratieproces waarbij nieuwe evaluatie-instanties naar believen kunnen worden gegenereerd. In het bijzonder wordt gg-bench synthetisch gegenereerd door (1) een groot taalmodel (LLM) te gebruiken om natuurlijke taal beschrijvingen van nieuwe spellen te genereren, (2) het LLM te gebruiken om elk spel in code te implementeren als een Gym-omgeving, en (3) reinforcement learning (RL) agenten te trainen via zelfspel op de gegenereerde spellen. We evalueren taalmodelen op basis van hun winrate tegen deze RL-agenten door modellen te voorzien van de spelbeschrijving, de huidige bordstatus en een lijst van geldige zetten, waarna modellen de zetten uitvoeren die ze willen nemen. gg-bench is uitdagend: state-of-the-art LLM's zoals GPT-4o en Claude 3.7 Sonnet behalen winrates van 7-9% op gg-bench met in-context learning, terwijl redeneermodellen zoals o1, o3-mini en DeepSeek-R1 gemiddelde winrates van 31-36% behalen. We geven de gegenereerde spellen, het datageneratieproces en de evaluatiecode vrij om toekomstig modelwerk en uitbreiding van onze benchmark te ondersteunen.
Vision-Language Models (VLMs) combineren visuele waarneming met de algemene capaciteiten, zoals redeneren, van Large Language Models (LLMs). De mechanismen waarbij deze twee vaardigheden gecombineerd kunnen worden en bijdragen, blijven echter slecht begrepen. In dit werk onderzoeken we hoe waarneming en redeneren samengesteld kunnen worden door modelmerging, waarbij parameters van verschillende modellen worden verbonden. In tegenstelling tot eerdere werken die zich vaak richten op het samenvoegen van modellen van hetzelfde type, stellen we voor om modellen over verschillende modaliteiten heen te mergen, waardoor de redeneercapaciteiten van LLMs in VLMs kunnen worden geïntegreerd. Door uitgebreide experimenten tonen we aan dat modelmerging een succesvolle weg biedt om redeneervaardigheden van LLMs naar VLMs over te dragen op een trainingsvrije manier. Bovendien gebruiken we de samengevoegde modellen om het interne mechanisme van waarneming en redeneren te begrijpen en hoe merging dit beïnvloedt. We ontdekken dat waarnemingscapaciteiten voornamelijk gecodeerd zijn in de vroege lagen van het model, terwijl redeneren vooral wordt gefaciliteerd door de middelste tot late lagen. Na het samenvoegen observeren we dat alle lagen beginnen bij te dragen aan redeneren, terwijl de verdeling van waarnemingsvaardigheden over de lagen grotendeels onveranderd blijft. Deze observaties werpen licht op het potentieel van modelmerging als een tool voor multimodale integratie en interpretatie.
Dit onderzoek behandelt de kritieke leemte in de natuurlijke taalverwerking van het Arabisch door een effectief Arabisch Omgekeerd Woordenboek (RD) systeem te ontwikkelen dat gebruikers in staat stelt woorden te vinden op basis van hun beschrijvingen of betekenissen. We presenteren een nieuwe transformer-gebaseerde aanpak met een semi-encoder neurale netwerkarchitectuur die gebruik maakt van geometrisch afnemende lagen en die state-of-the-art resultaten behaalt voor Arabische RD-taken. Onze methodologie omvat een uitgebreid proces voor datasetconstructie en stelt formele kwaliteitsnormen vast voor Arabische lexicografische definities. Experimenten met verschillende vooraf getrainde modellen tonen aan dat Arabisch-specifieke modellen aanzienlijk beter presteren dan algemene meertalige embeddings, waarbij ARBERTv2 de beste rangschikkingsscore behaalt (0,0644). Daarnaast bieden we een formele abstractie van de omgekeerde woordenboektaak die het theoretisch begrip vergroot en ontwikkelen we een modulaire, uitbreidbare Python-bibliotheek (RDTL) met configureerbare trainingspijplijnen. Onze analyse van de datasetkwaliteit onthult belangrijke inzichten voor het verbeteren van de constructie van Arabische definities, wat leidt tot acht specifieke normen voor het bouwen van hoogwaardige omgekeerde woordenboekbronnen. Dit werk draagt aanzienlijk bij aan de computationele taalkunde van het Arabisch en biedt waardevolle hulpmiddelen voor taalverwerving, academisch schrijven en professionele communicatie in het Arabisch.
Navigatie leren in dynamische open-wereldomgevingen is een belangrijke maar uitdagende vaardigheid voor robots. De meeste eerdere methoden vertrouwen op precieze lokalisatie en mapping of leren van dure demonstraties in de echte wereld. In dit artikel stellen we de Navigation Diffusion Policy (NavDP) voor, een end-to-end framework dat uitsluitend in simulatie wordt getraind en zonder aanpassingen kan worden overgedragen naar verschillende uitvoeringen in diverse echte wereldomgevingen. Het belangrijkste ingrediënt van NavDP's netwerk is de combinatie van diffusiegebaseerde trajectgeneratie en een criticusfunctie voor trajectselectie, die alleen worden bepaald door lokale observatietokens die zijn gecodeerd vanuit een gedeelde policy transformer. Gegeven de geprivilegieerde informatie van de globale omgeving in simulatie, schalen we de demonstraties van hoge kwaliteit op om het diffusiebeleid te trainen en formuleren we de criticuswaardefunctiedoelen met contrastieve negatieve voorbeelden. Onze aanpak voor het genereren van demonstraties bereikt ongeveer 2.500 trajecten/GPU per dag, wat 20 keer efficiënter is dan het verzamelen van gegevens in de echte wereld, en resulteert in een grootschalige navigatiedataset met 363,2 km aan trajecten over 1244 scènes. Getraind met deze simulatie dataset, behaalt NavDP state-of-the-art prestaties en een consistent uitstekende generalisatiecapaciteit op viervoetige, wielgedreven en humanoïde robots in diverse binnen- en buitenomgevingen. Daarnaast presenteren we een eerste poging om Gaussian Splatting te gebruiken voor in-domein real-to-sim fine-tuning om de sim-to-real kloof verder te overbruggen. Experimenten tonen aan dat het toevoegen van dergelijke real-to-sim gegevens het slagingspercentage met 30\% kan verbeteren zonder de generalisatiecapaciteit aan te tasten.
De toenemende adoptie van agent-gebaseerde workflows in diverse domeinen brengt een kritische behoefte met zich mee om de complexe sporen die deze systemen genereren op een schaalbare en systematische manier te evalueren. Huidige evaluatiemethoden zijn afhankelijk van handmatige, domeinspecifieke menselijke analyse van uitgebreide workflowsporen - een aanpak die niet meeschaalt met de groeiende complexiteit en het volume van agent-gebaseerde outputs. Foutanalyse in deze contexten wordt verder bemoeilijkt door de interactie tussen externe tool-outputs en redeneringen van taalmodellen, wat het uitdagender maakt dan traditionele softwaredebugging. In dit werk (1) benadrukken we de noodzaak van robuuste en dynamische evaluatiemethoden voor agent-gebaseerde workflowsporen, (2) introduceren we een formele taxonomie van fouttypes die worden aangetroffen in agent-systemen, en (3) presenteren we een set van 148 grote, door mensen geannoteerde sporen (TRAIL) die zijn opgebouwd met behulp van deze taxonomie en verankerd zijn in gevestigde agent-gebaseerde benchmarks. Om ecologische validiteit te waarborgen, hebben we sporen samengesteld van zowel single- als multi-agent systemen, met een focus op real-world toepassingen zoals software engineering en open-world informatie retrieval. Onze evaluaties laten zien dat moderne lange-context LLMs slecht presteren bij het debuggen van sporen, waarbij het beste Gemini-2.5-pro model slechts 11% scoort op TRAIL. Onze dataset en code zijn publiekelijk beschikbaar gemaakt om toekomstig onderzoek naar schaalbare evaluatie voor agent-gebaseerde workflows te ondersteunen en te versnellen.
We bewijzen theoretisch dat generalisatie niet alleen verbetert door schaalvergroting van data, maar ook door het comprimeren van interne representaties. Om dit inzicht operationeel te maken, introduceren we het Information Bottleneck Language Modeling (IBLM)-doel, dat taalmodellering herformuleert als een geoptimaliseerd beperkingsprobleem: het minimaliseren van representatie-entropie onder voorwaarde van optimale voorspellingsprestaties. Empirisch observeren we een opkomende memorisatie-compressiecyclus tijdens LLM-pre-training, wat blijkt uit de oscillatie van positieve/negatieve gradiëntuitlijning tussen kruis-entropie en Matrix-Based Entropy (MBE), een maat voor representatie-entropie. Dit patroon weerspiegelt nauwkeurig de voorspellings-compressieafweging die door IBLM wordt voorgeschreven en loopt ook parallel met de biologische afwisseling tussen wakker leren en slaapconsolidatie. Gemotiveerd door deze observatie stellen we Gated Phase Transition (GAPT) voor, een trainingsalgoritme dat adaptief schakelt tussen memorisatie- en compressiefasen. Wanneer toegepast op GPT-2-pre-training op de FineWeb-dataset, reduceert GAPT MBE met 50% en verbetert het kruis-entropie met 4,8%. GAPT verbetert OOD-generalizatie met 35% in een pre-trainings taak voor rekenkundige vermenigvuldiging. In een setting die is ontworpen om catastrofaal vergeten te simuleren, vermindert GAPT interferentie door representaties te comprimeren en te scheiden, wat resulteert in een verbetering van 97% in scheiding – wat parallel loopt met de functionele rol van slaapconsolidatie.
Het beoordelen van menselijke vaardigheidsniveaus in complexe activiteiten is een uitdagend probleem met toepassingen in sport, revalidatie en training. In dit werk presenteren we SkillFormer, een parameter-efficiënte architectuur voor uniforme multi-view vaardigheidsinschatting vanuit egocentrische en exocentrische video's. Gebaseerd op de TimeSformer-backbone introduceert SkillFormer een CrossViewFusion-module die viewspecifieke kenmerken combineert met behulp van multi-head cross-attention, leerbare gating en adaptieve zelfkalibratie. We maken gebruik van Low-Rank Adaptation om slechts een kleine subset van parameters te finetunen, waardoor de trainingskosten aanzienlijk worden verlaagd. In feite behaalt SkillFormer, wanneer geëvalueerd op de EgoExo4D-dataset, state-of-the-art nauwkeurigheid in multi-view instellingen, terwijl het opmerkelijke computationele efficiëntie demonstreert, met 4,5x minder parameters en 3,75x minder trainingsepochs dan eerdere baselines. Het presteert uitstekend in meerdere gestructureerde taken, wat de waarde van multi-view integratie voor gedetailleerde vaardigheidsbeoordeling bevestigt.
Grote taalmodelen bereiken een hoge taakprestatie, maar hallucineren vaak of vertrouwen op verouderde kennis. Retrieval-augmented generation (RAG) lost deze tekortkomingen op door generatie te combineren met externe zoekopdrachten. We analyseren hoe hyperparameters snelheid en kwaliteit beïnvloeden in RAG-systemen, waarbij we Chroma- en Faiss-vectorstores, chunkingbeleid, cross-encoder herrangschikking en temperatuur behandelen, en we evalueren zes metrieken: geloofwaardigheid, antwoordcorrectheid, antwoordrelevantie, contextprecisie, contextherinnering en antwoordgelijkenis. Chroma verwerkt queries 13% sneller, terwijl Faiss een hogere retrievaliditeit oplevert, wat een duidelijke snelheid-nauwkeurigheid afweging blootlegt. Naïeve chunking met vaste lengte en kleine vensters met minimale overlap presteert beter dan semantische segmentatie en blijft de snelste optie. Herrangschikking biedt bescheiden verbeteringen in retrievaliditeit, maar verhoogt de looptijd met ongeveer een factor 5, dus het nut ervan hangt af van latentiebeperkingen. Deze resultaten helpen beoefenaars bij het afwegen van rekencapaciteit en nauwkeurigheid bij het afstemmen van RAG-systemen voor transparante, actuele reacties. Tot slot her-evalueren we de topconfiguraties met een corrigerend RAG-werkproces en tonen we aan dat hun voordelen standhouden wanneer het model iteratief aanvullend bewijs kan aanvragen. We behalen een bijna perfecte contextprecisie (99%), wat aantoont dat RAG-systemen extreem hoge retrievaliditeit kunnen bereiken met de juiste combinatie van hyperparameters, met significante implicaties voor toepassingen waar retrievaliditeit direct van invloed is op downstream taakprestaties, zoals klinische beslissingsondersteuning in de gezondheidszorg.
Multimodale Review Helpfulness Prediction (MRHP) is een essentiële taak in aanbevelingssystemen, met name op e-commerceplatforms. Het bepalen van de nuttigheid van door gebruikers gegenereerde reviews verbetert de gebruikerservaring en ondersteunt consumenten bij het nemen van beslissingen. Bestaande datasets richten zich echter voornamelijk op Engels en Indonesisch, wat resulteert in een gebrek aan linguïstische diversiteit, vooral voor talen met beperkte bronnen zoals Vietnamees. In dit artikel introduceren we ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), een grootschalige benchmarkdataset voor de MRHP-taak in het Vietnamees. Deze dataset beslaat vier domeinen, met 2K producten en 46K reviews. Het opbouwen van een grootschalige dataset vereist echter aanzienlijke tijd en kosten. Om het annotatieproces te optimaliseren, maken we gebruik van AI om annotatoren te ondersteunen bij het samenstellen van de ViMRHP-dataset. Met AI-ondersteuning wordt de annotatietijd verkort (van 90 tot 120 seconden per taak naar 20 tot 40 seconden per taak) terwijl de data kwaliteit behouden blijft en de totale kosten met ongeveer 65% worden verlaagd. AI-gegenereerde annotaties hebben echter nog steeds beperkingen bij complexe annotatietaken, wat we verder onderzoeken via een gedetailleerde prestatieanalyse. In ons experiment met ViMRHP evalueren we baseline-modellen op door mensen geverifieerde en AI-gegenereerde annotaties om de kwaliteitsverschillen te beoordelen. De ViMRHP-dataset is publiekelijk beschikbaar op https://github.com/trng28/ViMRHP.
We introduceren WebApp1K, een nieuwe benchmark voor het evalueren van grote taalmodellen (LLMs) in testgedreven ontwikkelings (TDD) taken, waarbij testgevallen zowel als prompt als verificatie dienen voor codegeneratie. In tegenstelling tot traditionele benaderingen die vertrouwen op natuurlijke taalprompts, benadrukt onze benchmark het vermogen van LLMs om functionaliteit direct vanuit testgevallen te interpreteren en te implementeren, wat echte softwareontwikkelingspraktijken weerspiegelt. De benchmark bestaat uit 1000 diverse uitdagingen verspreid over 20 toepassingsdomeinen en evalueert LLMs op hun vermogen om compacte, functionele code te genereren binnen de beperkingen van contextlengte en multifunctionele complexiteit. Onze bevindingen benadrukken het volgen van instructies en in-context leren als cruciale vaardigheden voor TDD-succes, die het belang van algemene codeervaardigheid of voorkennis overtreffen. Door een uitgebreide evaluatie van 19 toonaangevende modellen onthullen we prestatieknelpunten, zoals instructieverlies bij lange prompts, en bieden we een gedetailleerde foutenanalyse die meerdere oorzaken omvat. Dit werk onderstreept de praktische waarde van TDD-specifieke benchmarks en legt de basis voor het verbeteren van LLM-vaardigheden in rigoureuze, toepassingsgerichte coderingsscenario's.