Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multimodale Large Language Models (MLLMs) hebben indrukwekkende capaciteiten getoond in diverse taken, maar worstelen nog steeds met complex wiskundig redeneren. Bestaand onderzoek richt zich voornamelijk op datasetconstructie en methode-optimalisatie, waarbij vaak twee cruciale aspecten over het hoofd worden gezien: een uitgebreide kennisgedreven ontwerp en modelgecentreerde dataruimtemodellering. In dit artikel introduceren we We-Math 2.0, een geïntegreerd systeem dat een gestructureerd wiskundig kennissysteem, modelgecentreerde dataruimtemodellering en een op reinforcement learning (RL) gebaseerd trainingsparadigma combineert om de wiskundige redeneervaardigheden van MLLMs uitgebreid te verbeteren. De belangrijkste bijdragen van We-Math 2.0 zijn vierledig: (1) MathBook Kennissysteem: We construeren een vijf niveaus tellend hiërarchisch systeem dat 491 kennispunten en 1.819 fundamentele principes omvat. (2) MathBook-Standard & Pro: We ontwikkelen MathBook-Standard, een dataset die brede conceptuele dekking en flexibiliteit waarborgt door middel van dubbele uitbreiding. Daarnaast definiëren we een driedimensionale moeilijkheidsruimte en genereren we 7 progressieve varianten per probleem om MathBook-Pro te bouwen, een uitdagende dataset voor robuuste training. (3) MathBook-RL: We stellen een tweefasen RL-raamwerk voor bestaande uit: (i) Cold-Start Fine-tuning, dat het model afstemt op kennisgerichte keten-van-gedachten-redenering; en (ii) Progressieve Afstemming RL, dat gebruikmaakt van gemiddelde-beloning-leren en dynamische datascheduling om progressieve afstemming over moeilijkheidsniveaus te bereiken. (4) MathBookEval: We introduceren een uitgebreide benchmark die alle 491 kennispunten dekt met diverse redeneerstapdistributies. Experimentele resultaten tonen aan dat MathBook-RL concurrerend presteert met bestaande baseline-modellen op vier veelgebruikte benchmarks en sterke resultaten behaalt op MathBookEval, wat wijst op veelbelovende generalisatie in wiskundig redeneren.
Bestaande autoregressieve (AR) modellen voor tekst-naar-beeldgeneratie vertrouwen ofwel op zware, rekenintensieve diffusiemodellen om continue beeldtokens te verwerken, of maken gebruik van vectorquantisatie (VQ) om discrete tokens te verkrijgen met quantisatieverlies. In dit artikel brengen we het autoregressieve paradigma verder met NextStep-1, een 14B autoregressief model gekoppeld aan een 157M flow matching head, dat getraind wordt op discrete teksttokens en continue beeldtokens met next-token voorspellingsdoelen. NextStep-1 behaalt state-of-the-art prestaties voor autoregressieve modellen in tekst-naar-beeldgeneratietaken, waarbij het sterke mogelijkheden toont in hoogwaardige beeldgeneratie. Bovendien laat onze methode sterke prestaties zien in beeldbewerking, wat de kracht en veelzijdigheid van onze geïntegreerde aanpak benadrukt. Om open onderzoek te bevorderen, zullen we onze code en modellen vrijgeven aan de gemeenschap.
We introduceren PRELUDE, een benchmark voor het evalueren van begrip van lange contexten via de taak om te bepalen of een prequelverhaal van een personage consistent is met het canonieke verhaal van het oorspronkelijke boek. Onze taak stelt sterkere eisen aan globaal begrip en diepgaand redeneren dan bestaande benchmarks -- aangezien de prequels geen deel uitmaken van het oorspronkelijke verhaal, vereist het beoordelen van hun geloofwaardigheid doorgaans het zoeken en integreren van informatie die slechts indirect gerelateerd is. Empirisch gezien vereist 88% van de gevallen bewijs uit meerdere delen van het verhaal. Experimentele resultaten benadrukken de uitdaging van onze taak: in-context leren, RAG en in-domein training met state-of-the-art LLM's, en commerciële DeepResearch-services, blijven meer dan 15% achter bij mensen. Een verder menselijk onderzoek toont aan dat modellen vaak correcte antwoorden produceren met gebrekkige redenering, wat leidt tot een kloof van meer dan 30% in redeneernauwkeurigheid vergeleken met mensen. Deze bevindingen onderstrepen de aanzienlijke ruimte voor verbetering in het begrip van lange contexten en redeneren.
Traditionele productie van cartoons en anime omvat fasen zoals keyframing, inbetweening en inkleuring, die intensieve handmatige inspanning vereisen. Ondanks recente vooruitgang in AI, behandelen bestaande methoden deze fasen vaak afzonderlijk, wat leidt tot foutaccumulatie en artefacten. Zo hebben inbetweening-benaderingen moeite met grote bewegingen, terwijl inkleurmethoden dichte schetsen per frame vereisen. Om dit aan te pakken, introduceren we ToonComposer, een generatief model dat inbetweening en inkleuring verenigt in een enkele post-keyframing fase. ToonComposer maakt gebruik van een mechanisme voor het injecteren van sparse schetsen om precieze controle te bieden met behulp van keyframe-schetsen. Daarnaast past het een cartoon-aanpassingsmethode toe met de spatial low-rank adapter om een modern videofoundationmodel aan te passen aan het cartoon-domein, terwijl de temporele prior intact blijft. Met slechts één schets en een gekleurd referentieframe presteert ToonComposer uitstekend met sparse inputs, terwijl het ook meerdere schetsen op elke temporele locatie ondersteunt voor preciezere bewegingscontrole. Deze dubbele mogelijkheid vermindert de handmatige werkdruk en verbetert de flexibiliteit, waardoor kunstenaars in realistische scenario's worden ondersteund. Om ons model te evalueren, hebben we PKBench ontwikkeld, een benchmark met door mensen getekende schetsen die realistische gebruiksscenario's simuleren. Onze evaluatie toont aan dat ToonComposer bestaande methoden overtreft in visuele kwaliteit, bewegingsconsistentie en productie-efficiëntie, en biedt zo een superieure en flexibelere oplossing voor AI-ondersteunde cartoonproductie.
We presenteren UI-Venus, een native UI-agent die alleen schermafbeeldingen als invoer gebruikt, gebaseerd op een multimodaal groot taalmodel. UI-Venus behaalt state-of-the-art (SOTA) prestaties op zowel UI-gronding- als navigatietaken met slechts enkele honderdduizend hoogwaardige trainingsvoorbeelden via reinforcement finetuning (RFT) gebaseerd op Qwen2.5-VL. Specifiek behalen de 7B- en 72B-varianten van UI-Venus respectievelijk 94,1% / 50,8% en 95,3% / 61,9% op de standaard gronding benchmarks, namelijk Screenspot-V2 / Pro, waarmee ze de vorige SOTA-baselines overtreffen, inclusief open-source GTA1 en closed-source UI-TARS-1.5. Om het samenvattings- en planningsvermogen van UI-Venus te demonstreren, evalueren we het ook op AndroidWorld, een online UI-navigatiearena, waar onze 7B- en 72B-varianten een succespercentage van respectievelijk 49,1% en 65,9% behalen, wat eveneens de bestaande modellen overtreft. Om dit te bereiken, introduceren we zorgvuldig ontworpen beloningsfuncties voor zowel UI-gronding- als navigatietaken en bijbehorende efficiënte datacleaningstrategieën. Om de navigatieprestaties verder te verbeteren, stellen we Self-Evolving Trajectory History Alignment & Sparse Action Enhancement voor, die historische redeneersporen verfijnen en de verdeling van schaarse maar kritieke acties in evenwicht brengen, wat leidt tot coherentere planning en betere generalisatie in complexe UI-taken. Onze bijdragen omvatten de publicatie van SOTA open-source UI-agenten, uitgebreide datacleaningprotocollen en een nieuw zelf-evoluerend framework voor het verbeteren van navigatieprestaties, wat verder onderzoek en ontwikkeling in de gemeenschap stimuleert. Code is beschikbaar op https://github.com/antgroup/UI-Venus.
Diffusie Taalmodellen (DLMs) doen zich snel gelden als een krachtig en veelbelovend alternatief voor het dominante autoregressieve (AR) paradigma. Door tokens parallel te genereren via een iteratief denoisingsproces, beschikken DLMs over inherente voordelen in het verminderen van inferentielatentie en het vastleggen van bidirectionele context, waardoor fijnmazige controle over het generatieproces mogelijk wordt gemaakt. Terwijl ze een versnelling met meerdere factoren bereiken, hebben recente ontwikkelingen het mogelijk gemaakt dat DLMs prestaties laten zien die vergelijkbaar zijn met hun autoregressieve tegenhangers, wat hen een aantrekkelijke keuze maakt voor diverse natuurlijke taalverwerkingstaken. In dit overzicht bieden we een holistisch beeld van het huidige DLM-landschap. We volgen de evolutie en de relatie met andere paradigma's, zoals autoregressieve en gemaskeerde taalmodellen, en behandelen zowel fundamentele principes als state-of-the-art modellen. Ons werk biedt een actuele, uitgebreide taxonomie en een diepgaande analyse van huidige technieken, van pre-trainingsstrategieën tot geavanceerde post-trainingsmethoden. Een andere bijdrage van dit overzicht is een grondige bespreking van DLM-inferentiestrategieën en -optimalisaties, waaronder verbeteringen in decodeerparallelisme, cachingmechanismen en generatiekwaliteit. We belichten ook de nieuwste benaderingen voor multimodale uitbreidingen van DLMs en schetsen hun toepassingen in diverse praktijkscenario's. Bovendien gaat onze discussie in op de beperkingen en uitdagingen van DLMs, waaronder efficiëntie, het omgaan met lange sequenties en infrastructuurvereisten, terwijl we toekomstige onderzoeksrichtingen schetsen om de vooruitgang in dit snel evoluerende veld te ondersteunen. Het project GitHub is beschikbaar op https://github.com/VILA-Lab/Awesome-DLMs.
Moderne interactieve applicaties vragen steeds vaker om dynamische 3D-inhoud, maar de transformatie van statische 3D-modellen naar geanimeerde assets vormt een aanzienlijk knelpunt in contentcreatiepijplijnen. Hoewel recente vooruitgang in generatieve AI de creatie van statische 3D-modellen heeft gerevolutioneerd, blijven rigging en animatie sterk afhankelijk van expertinterventie. Wij presenteren Puppeteer, een uitgebreid framework dat zowel automatische rigging als animatie voor diverse 3D-objecten aanpakt. Ons systeem voorspelt eerst plausibele skeletstructuren via een autoregressieve transformer die een joint-gebaseerde tokenisatiestrategie introduceert voor compacte representatie en een hiërarchische ordeningsmethodologie met stochastische perturbatie die bidirectionele leerprestaties versterkt. Vervolgens worden skinning-gewichten afgeleid via een aandacht-gebaseerde architectuur die topologiebewuste joint-attention incorporeert, waarbij inter-joint-relaties expliciet worden gecodeerd op basis van skeletgrafiekafstanden. Ten slotte vullen we deze rigging-verbeteringen aan met een differentieerbare optimalisatie-gebaseerde animatiepijplijn die stabiele, hoogwaardige animaties genereert en tegelijkertijd computationeel efficiënter is dan bestaande benaderingen. Uitgebreide evaluaties over meerdere benchmarks tonen aan dat onze methode aanzienlijk beter presteert dan state-of-the-art technieken in zowel skeletvoorspellingsnauwkeurigheid als skinningkwaliteit. Het systeem verwerkt robuust diverse 3D-inhoud, variërend van professioneel ontworpen game-assets tot AI-gegenereerde vormen, en produceert temporeel coherente animaties die de trillingsproblemen die veel voorkomen in bestaande methoden, elimineren.
We presenteren STream3R, een nieuwe benadering voor 3D-reconstructie die het voorspellen van puntenkaarten herformuleert als een decoder-only Transformer-probleem. Bestaande state-of-the-art methoden voor multi-view reconstructie zijn ofwel afhankelijk van kostbare globale optimalisatie of vertrouwen op simplistische geheugenmechanismen die slecht schalen met sequentielengte. In tegenstelling introduceert STream3R een streaming-framework dat beeldsequenties efficiënt verwerkt met behulp van causale aandacht, geïnspireerd door vooruitgang in moderne taalmodellering. Door geometrische priors te leren uit grootschalige 3D-datasets, generaliseert STream3R goed naar diverse en uitdagende scenario's, inclusief dynamische scènes waar traditionele methoden vaak falen. Uitgebreide experimenten tonen aan dat onze methode consistent beter presteert dan eerder werk op zowel statische als dynamische scène-benchmarks. Bovendien is STream3R inherent compatibel met LLM-stijl trainingsinfrastructuur, wat efficiënte grootschalige voorpretraining en fine-tuning mogelijk maakt voor diverse downstream 3D-taken. Onze resultaten onderstrepen het potentieel van causale Transformer-modellen voor online 3D-perceptie, wat de weg vrijmaakt voor real-time 3D-begrip in streaming-omgevingen. Meer details zijn te vinden op onze projectpagina: https://nirvanalan.github.io/projects/stream3r.
Reinforcement learning met verifieerbare beloningen (RLVR), dat doorgaans Pass@1 als beloning hanteert, heeft te maken gehad met problemen bij het balanceren van exploratie en exploitatie, wat beleidsmodellen ertoe aanzet conservatieve acties te verkiezen en te convergeren naar een lokaal optimum. Het identificeren van een geschikte beloningsmetriek is daarom cruciaal. Wat betreft eerder werk, hoewel Pass@k is gebruikt bij evaluatie, is de connectie met de exploratiecapaciteit van LLM's in RLVR grotendeels over het hoofd gezien. Om dit te onderzoeken, gebruiken we eerst Pass@k als beloning om het beleidsmodel te trainen (d.w.z. Pass@k Training), en observeren we de verbetering in de exploratiecapaciteit. Vervolgens leiden we een analytische oplossing af voor het voordeel van Pass@k Training, wat resulteert in een efficiënt en effectief proces. Op basis hiervan laat onze analyse zien dat exploratie en exploitatie niet inherent tegenstrijdige doelstellingen zijn, maar elkaar juist kunnen versterken. Bovendien houdt Pass@k Training met analytische afleiding in wezen in dat de voordelenfunctie direct wordt ontworpen. Geïnspireerd door dit, verkennen we voorlopig het ontwerp van voordelen voor RLVR, wat veelbelovende resultaten laat zien en een mogelijke toekomstige richting benadrukt.
Hoewel Multimodale Grote Taalmodellen (MLLMs) enorme belofte tonen voor het bereiken van echt mensachtige interacties, wordt de vooruitgang belemmerd door het gebrek aan fijnmazige evaluatiekaders voor mensgerichte scenario's, die zowel het begrip van complexe menselijke intenties als het bieden van empathische, contextbewuste reacties omvatten. Hier introduceren we HumanSense, een uitgebreide benchmark ontworpen om de mensgerichte perceptie- en interactiecapaciteiten van MLLMs te evalueren, met een bijzondere focus op diepgaand begrip van uitgebreide multimodale contexten en het formuleren van rationele feedback. Onze evaluatie toont aan dat toonaangevende MLLMs nog aanzienlijke ruimte voor verbetering hebben, vooral voor geavanceerde interactiegerichte taken. Het aanvullen van visuele input met audio- en tekstinformatie levert aanzienlijke verbeteringen op, en Omni-modale modellen tonen voordelen bij deze taken. Verder stellen we dat passende feedback voortkomt uit een contextuele analyse van de behoeften en emoties van de gesprekspartner, waarbij redeneervermogen de sleutel is om dit te ontgrendelen. Dienovereenkomstig gebruiken we een meerfasige, modaliteitsprogressieve reinforcement learning om de redeneervermogens van een Omni-model te verbeteren, wat aanzienlijke winsten oplevert in de evaluatieresultaten. Daarnaast observeren we dat succesvolle redeneerprocessen zeer consistente denkpatronen vertonen. Door bijbehorende prompts te ontwerpen, verbeteren we ook de prestaties van niet-redeneermodellen op een trainingsvrije manier. Projectpagina: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Eerder onderzoek heeft de robuustheid van visuele encoders geanalyseerd ten opzichte van beeldtransformaties en corrupties, met name in gevallen waarin dergelijke aanpassingen niet tijdens de training zijn gezien. Wanneer dit gebeurt, introduceren ze een vorm van distributieverschuiving tijdens de testfase, wat vaak leidt tot prestatievermindering. De primaire focus lag hierbij op ernstige corrupties die, wanneer ze agressief worden toegepast, nuttige signalen vervormen die nodig zijn voor nauwkeurige semantische voorspellingen. Wij nemen een ander perspectief door parameters van het beeldverwervingsproces en transformaties te analyseren die subtiel of zelfs onmerkbaar kunnen zijn voor het menselijk oog. We ontdekken dat dergelijke parameters systematisch worden gecodeerd in de geleerde visuele representaties en eenvoudig kunnen worden hersteld. Nog opvallender is dat hun aanwezigheid een diepgaande impact kan hebben, zowel positief als negatief, op semantische voorspellingen. Dit effect hangt af van of er een sterke correlatie of anti-correlatie bestaat tussen semantische labels en deze op verwerving of verwerking gebaseerde labels. Onze code en gegevens zijn beschikbaar op: https://github.com/ryan-caesar-ramos/visual-encoder-traces
Recente vooruitgang in machine learning heeft een groeiende interesse gewekt in geautomatiseerde kwaliteitsbeoordeling van tolken. Desalniettemin lijdt bestaand onderzoek aan onvoldoende onderzoek naar de kwaliteit van taalgebruik, onbevredigende modelleereffectiviteit door schaarste en onbalans van data, en een gebrek aan inspanningen om modelvoorspellingen te verklaren. Om deze tekortkomingen aan te pakken, stellen we een multidimensionaal modelleerkader voor dat feature engineering, data-augmentatie en uitlegbare machine learning integreert. Deze benadering geeft prioriteit aan uitlegbaarheid boven "black box"-voorspellingen door alleen construct-relevante, transparante features te gebruiken en Shapley Value (SHAP)-analyse uit te voeren. Onze resultaten tonen sterke voorspellende prestaties op een nieuwe Engels-Chinese consecutieve tolkdataset, waarbij BLEURT- en CometKiwi-scores worden geïdentificeerd als de sterkste voorspellende features voor getrouwheid, pauze-gerelateerde features voor vloeiendheid, en Chinees-specifieke fraseologische diversiteitsmetrieken voor taalgebruik. Over het algemeen presenteren we, door bijzondere nadruk te leggen op uitlegbaarheid, een schaalbare, betrouwbare en transparante alternatief voor traditionele menselijke evaluatie, wat de verstrekking van gedetailleerde diagnostische feedback voor leerlingen vergemakkelijkt en zelfgereguleerde leervoordelen ondersteunt die niet worden geboden door geautomatiseerde scores op zichzelf.
In het onderzoek naar betrouwbare Natural Language Processing (NLP) zijn een aantal belangrijke onderzoeksgebieden naar voren gekomen, waaronder uitlegbaarheid en privacy. Hoewel de onderzoeksinteresse in zowel uitlegbare als privacybeschermende NLP de afgelopen jaren aanzienlijk is toegenomen, ontbreekt het nog steeds aan onderzoek op het snijvlak van deze twee gebieden. Dit laat een aanzienlijke leemte in het begrip van of het bereiken van zowel uitlegbaarheid als privacy mogelijk is, of dat deze twee met elkaar in conflict zijn. In dit werk voeren we een empirisch onderzoek uit naar de afweging tussen privacy en uitlegbaarheid in de context van NLP, geleid door de populaire overkoepelende methoden van Differentiële Privacy (DP) en Post-hoc Uitlegbaarheid. Onze bevindingen omvatten een inzicht in de ingewikkelde relatie tussen privacy en uitlegbaarheid, die wordt gevormd door een aantal factoren, waaronder de aard van de downstream-taak en de keuze van de tekstprivatiserings- en uitlegbaarheidsmethode. Hierin benadrukken we het potentieel voor privacy en uitlegbaarheid om naast elkaar te bestaan, en vatten we onze bevindingen samen in een verzameling praktische aanbevelingen voor toekomstig onderzoek op dit belangrijke snijvlak.