Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) blinken uit in redeneren, maar post-training blijft cruciaal om hun gedrag af te stemmen op taakdoelen. Bestaande methoden voor reinforcement learning (RL) zijn vaak afhankelijk van kostbare menselijke annotaties of externe beloningsmodellen. Wij stellen Reinforcement Learning via Zelfvertrouwen (RLSC) voor, dat het eigen vertrouwen van het model gebruikt als beloningssignalen, waardoor labels, voorkeursmodellen of beloningsengineering overbodig worden. Toegepast op Qwen2.5-Math-7B met slechts 16 samples per vraag en 10 of 20 trainingsstappen, verbetert RLSC de nauwkeurigheid met +13,4% op AIME2024, +21,2% op MATH500, +21,7% op Minerva Math, +20,8% op Olympiadbench en +9,7% op AMC23. RLSC biedt een eenvoudige, schaalbare post-trainingsmethode voor inferentiemodellen, waarvoor slechts een klein aantal samples en ongelabelde supervisie nodig is.
Opmerkelijke doorbraken in diffusiemodellering hebben snelle verbeteringen in videogeneratie mogelijk gemaakt, maar huidige fundamentele modellen kampen nog steeds met kritieke uitdagingen bij het gelijktijdig balanceren van promptvolging, bewegingsgeloofwaardigheid en visuele kwaliteit. In dit rapport introduceren we Seedance 1.0, een hoogwaardig en inferentie-efficiënt videogeneratiemodel dat verschillende kerntechnische verbeteringen integreert: (i) multi-source datacuratie versterkt met nauwkeurige en betekenisvolle videobeschrijvingen, waardoor uitgebreid leren over diverse scenario's mogelijk wordt; (ii) een efficiënt ontwerp van de architectuur met een voorgesteld trainingsparadigma, dat native ondersteuning biedt voor multi-shot generatie en gezamenlijk leren van zowel tekst-naar-video als beeld-naar-video taken; (iii) zorgvuldig geoptimaliseerde post-trainingsbenaderingen die gebruikmaken van fijnmazige supervised fine-tuning en video-specifieke RLHF met multidimensionale beloningsmechanismen voor algehele prestatieverbeteringen; (iv) uitstekende modelversnelling die een ~10x inferentiesnelheidsverbetering bereikt door middel van meerfasige distillatiestrategieën en systeemniveau-optimalisaties. Seedance 1.0 kan een 5 seconden durende video genereren in 1080p resolutie in slechts 41,4 seconden (NVIDIA-L20). Vergeleken met state-of-the-art videogeneratiemodellen, onderscheidt Seedance 1.0 zich door hoogwaardige en snelle videogeneratie met superieure spatiotemporele vloeiendheid en structurele stabiliteit, nauwkeurige instructievolging in complexe multi-subject contexten, en native multi-shot narratieve samenhang met consistente subjectrepresentatie.
Bestaande grootschalige videogeneratiemodellen zijn rekenintensief, wat adoptie in realtime en interactieve toepassingen belemmert. In dit werk stellen we autoregressieve adversariële na-training (AAPT) voor om een vooraf getraind latent videodiffusiemodel om te zetten in een realtime, interactieve videogenerator. Ons model genereert autoregressief één latent frame per keer met behulp van een enkele neurale functie-evaluatie (1NFE). Het model kan het resultaat in realtime naar de gebruiker streamen en interactieve reacties ontvangen als controles om het volgende latent frame te genereren. In tegenstelling tot bestaande benaderingen, verkent onze methode adversariële training als een effectief paradigma voor autoregressieve generatie. Dit stelt ons niet alleen in staat om een architectuur te ontwerpen die efficiënter is voor éénstapsgeneratie terwijl de KV-cache volledig wordt benut, maar maakt het ook mogelijk om het model te trainen in een student-forcing-manier, wat effectief blijkt te zijn in het verminderen van foutaccumulatie tijdens lange videogeneratie. Onze experimenten tonen aan dat ons 8B-model realtime, 24fps, streaming videogeneratie bereikt bij een resolutie van 736x416 op een enkele H100, of 1280x720 op 8xH100 tot een minuut lang (1440 frames). Bezoek onze onderzoekswebsite op https://seaweed-apt.com/2.
Autoregressieve Large Language Models (AR-LLMs) vertonen vaak impliciete paralleliteit in sequentiële generatie. Geïnspireerd door dit fenomeen introduceren we Multiverse, een nieuw generatief model dat native parallelle generatie mogelijk maakt. Multiverse internaliseert een MapReduce-paradigma en genereert automatisch in drie fasen: (i) een Map-fase voor adaptieve taakdecompositie, (ii) een Process-fase voor parallelle uitvoering van subtaken, en (iii) een Reduce-fase voor verliesvrije resultaat-synthese. Vervolgens bouwen we een real-world Multiverse-redeneermodel met een co-design van data, algoritme en systeem, waardoor een snelle en naadloze overgang van toonaangevende AR-LLMs mogelijk wordt. Uitgaande van sequentiële redeneerketens creëren we Multiverse 1K door deze om te zetten in gestructureerde trainingsdata met behulp van een geautomatiseerde LLM-ondersteunde pijplijn, waardoor kostbare menselijke annotaties worden vermeden. Algoritmisch ontwerpen we Multiverse Attention om parallelle redeneerstappen te scheiden, terwijl compatibiliteit met causale aandacht behouden blijft voor efficiënte training. Systematisch implementeren we Multiverse Engine om parallelle inferentie mogelijk te maken. Deze beschikt over een toegewijde scheduler die dynamisch schakelt tussen sequentiële en parallelle generatie, direct geactiveerd door het model. Na een fine-tuning van 3 uur met 1K voorbeelden staat onze Multiverse-32B als het enige open-source niet-AR-model dat prestaties levert die vergelijkbaar zijn met toonaangevende AR-LLMs van dezelfde schaal, wat wordt aangetoond door AIME24 & 25-scores van respectievelijk 54% en 46%. Bovendien tonen onze budgetcontrole-experimenten aan dat Multiverse-32B superieure schaalbaarheid vertoont, met een gemiddelde outperformance van 1,87% ten opzichte van AR-LLMs bij dezelfde contextlengte. Deze schaalbaarheid leidt verder tot praktische efficiëntiewinst, met een versnelling tot 2x over verschillende batchgroottes. We hebben het volledige Multiverse-ecosysteem open-source gemaakt, inclusief data, modelgewichten, engine, ondersteunende tools, evenals complete data-curatieprompts en gedetailleerde trainings- en evaluatierecepten.
AI-gegenereerde inhoud is geëvolueerd van monolithische modellen naar modulaire workflows, met name op platforms zoals ComfyUI, wat maatwerk in creatieve pipelines mogelijk maakt. Het ontwerpen van effectieve workflows vereist echter grote expertise om tal van gespecialiseerde componenten te coördineren, wat een steile leercurve voor gebruikers met zich meebrengt. Om deze uitdaging aan te pakken, introduceren we ComfyUI-R1, het eerste grote redeneermodel voor geautomatiseerde workflowgeneratie. Beginnend met onze gecureerde dataset van 4K workflows, construeren we lange ketens van gedachten (CoT) redeneerdata, inclusief nodeselectie, workflowplanning en code-level workflowrepresentatie. ComfyUI-R1 wordt getraind via een tweestapsraamwerk: (1) CoT fine-tuning voor een koude start, waarbij modellen worden aangepast aan het ComfyUI-domein; (2) reinforcement learning om de redeneercapaciteit te stimuleren, geleid door een fijnmazige regel-metriek hybride beloning, die de geldigheid van het formaat, structurele integriteit en node-level trouw waarborgt. Experimenten tonen aan dat ons 7B-parameter model een formaatgeldigheidspercentage van 97\% bereikt, samen met hoge slagingspercentages, node-level en graph-level F1-scores, wat aanzienlijk beter is dan eerdere state-of-the-art methoden die gebruikmaken van toonaangevende closed-source modellen zoals GPT-4o en de Claude-serie. Verdere analyse benadrukt de cruciale rol van het redeneerproces en het voordeel van het omzetten van workflows in code. Kwalitatieve vergelijking toont onze kracht in het synthetiseren van ingewikkelde workflows met diverse nodes, wat het potentieel van lange CoT-redenering in AI-kunstcreatie onderstreept.
We introduceren PlayerOne, de eerste egocentrische realistische wereld-simulator, die een meeslepende en onbeperkte verkenning binnen levendige, dynamische omgevingen mogelijk maakt. Gegeven een egocentrische scène-afbeelding van de gebruiker, kan PlayerOne de corresponderende wereld nauwkeurig construeren en egocentrische video's genereren die strikt zijn afgestemd op de echte scène-bewegingen van de gebruiker, vastgelegd door een exocentrische camera. PlayerOne wordt getraind in een grof-naar-fijn pijplijn, waarbij eerst vooraf wordt getraind op grootschalige egocentrische tekst-video-paren voor een grof niveau van egocentrisch begrip, gevolgd door finetuning op synchrone beweging-video-data die is geëxtraheerd uit egocentrische-exocentrische video-datasets met onze automatische constructiepijplijn. Daarnaast, rekening houdend met de variërende belangrijkheid van verschillende componenten, ontwerpen we een part-ontwarrende beweging-injectieschema, waardoor nauwkeurige controle op deel-niveau bewegingen mogelijk wordt. Bovendien ontwikkelen we een gezamenlijk reconstructiekaderwerk dat zowel de 4D-scène als de videobeelden progressief modelleert, wat zorgt voor scèneconsistentie in de langdurige videogeneratie. Experimentele resultaten tonen de grote generalisatiecapaciteit aan in de precieze controle van verschillende menselijke bewegingen en wereldconsistente modellering van diverse scenario's. Het markeert de eerste poging tot egocentrische real-world simulatie en kan de weg vrijmaken voor de gemeenschap om nieuwe grenzen van wereldmodellering en zijn diverse toepassingen te verkennen.
Recente vooruitgang in tekst-naar-muziek-generatie heeft modellen in staat gesteld om hoogwaardige muzieksegmenten, volledige composities te synthetiseren en zelfs te reageren op fijnmazige controle-signalen, zoals akkoordprogressies. State-of-the-art (SOTA) systemen verschillen aanzienlijk op vele vlakken, zoals trainingsdatasets, modelleringsparadigma's en architecturale keuzes. Deze diversiteit bemoeilijkt inspanningen om modellen eerlijk te evalueren en te bepalen welke ontwerpkeuzes de prestaties het meest beïnvloeden. Hoewel factoren zoals data en architectuur belangrijk zijn, richten we ons in deze studie uitsluitend op het modelleringsparadigma. We voeren een systematische empirische analyse uit om de effecten ervan te isoleren, waarbij we inzichten bieden in gerelateerde afwegingen en opkomende gedragingen die toekomstige tekst-naar-muziek-generatiesystemen kunnen sturen. Specifiek vergelijken we de twee wellicht meest voorkomende modelleringsparadigma's: Auto-Regressief decoderen en Conditionele Flow-Matching. We voeren een gecontroleerde vergelijking uit door alle modellen vanaf nul te trainen met identieke datasets, trainingsconfiguraties en vergelijkbare backbone-architecturen. De prestaties worden geëvalueerd langs meerdere assen, waaronder generatiekwaliteit, robuustheid tegen inferentieconfiguraties, schaalbaarheid, naleving van zowel tekstuele als tijdelijk uitgelijnde conditionering, en bewerkingsmogelijkheden in de vorm van audio-inpainting. Deze vergelijkende studie werpt licht op de verschillende sterke en zwakke punten van elk paradigma, en biedt praktische inzichten die toekomstige architecturale en trainingsbeslissingen kunnen informeren in het evoluerende landschap van tekst-naar-muziek-generatie. Audio-voorbeelden zijn beschikbaar op: https://huggingface.co/spaces/ortal1602/ARvsFM
We introduceren SeerAttention-R, een raamwerk voor sparse aandacht dat specifiek is afgestemd op het lange decoderen van redeneermodellen. Als uitbreiding van SeerAttention behoudt SeerAttention-R het ontwerp van het leren van aandachts-sparsiteit via een zelfgedistilleerd gatingmechanisme, terwijl query-pooling wordt verwijderd om auto-regressief decoderen mogelijk te maken. Met een lichtgewicht plug-in gating is SeerAttention-R flexibel en kan het eenvoudig worden geïntegreerd in bestaande voorgetrainde modellen zonder de oorspronkelijke parameters aan te passen. We tonen aan dat SeerAttention-R, getraind op slechts 0,4B tokens, bijna verliesvrije redeneernauwkeurigheid behoudt met een budget van 4K tokens in de AIME-benchmark onder grote sparse aandachtsblokgroottes (64/128). Met behulp van TileLang ontwikkelen we een sterk geoptimaliseerde sparse decodeerkernel die bijna theoretische snelheidsverbeteringen tot 9x bereikt ten opzichte van FlashAttention-3 op de H100 GPU bij 90% sparsiteit. Code is beschikbaar op: https://github.com/microsoft/SeerAttention.
Grote Redeneermodellen (LRMs) zoals o1 en DeepSeek-R1 hebben opmerkelijke vooruitgang geboekt in natuurlijke taalredenering met lange ketens van gedachten (CoT), maar ze blijven inefficiënt of onnauwkeurig bij het verwerken van complexe wiskundige bewerkingen. Het aanpakken van deze beperkingen via computationele tools (bijvoorbeeld rekenbibliotheken en symbolische oplossers) is veelbelovend, maar introduceert een technische uitdaging: de Code Interpreter (CI) brengt externe kennis in die verder gaat dan de interne tekstrepresentaties van het model, waardoor een directe combinatie niet efficiënt is. Dit artikel introduceert CoRT, een post-trainingsframework voor het aanleren van LRMs om CI effectief en efficiënt te benutten. Als eerste stap pakken we het probleem van dataschaarste aan door code-geïntegreerde redeneergegevens te synthetiseren via Hint-Engineering, waarbij strategisch verschillende hints op geschikte posities worden ingevoegd om de LRM-CI-interactie te optimaliseren. We maken handmatig 30 hoogwaardige voorbeelden, waarop we modellen met een bereik van 1,5B tot 32B parameters post-trainen, met supervised fine-tuning, rejection fine-tuning en reinforcement learning. Onze experimentele resultaten tonen aan dat Hint-Engineering-modellen absolute verbeteringen van 4% en 8% behalen op respectievelijk DeepSeek-R1-Distill-Qwen-32B en DeepSeek-R1-Distill-Qwen-1.5B, over vijf uitdagende wiskundige redeneerdatasets. Bovendien gebruiken Hint-Engineering-modellen ongeveer 30% minder tokens voor het 32B-model en 50% minder tokens voor het 1.5B-model in vergelijking met de natuurlijke taalmodellen. De modellen en code zijn beschikbaar op https://github.com/ChengpengLi1003/CoRT.
Grote Taalmodellen (LLMs) zijn inmiddels onmisbaar in diverse domeinen en hebben indrukwekkende prestaties geleverd. Vooruitgang berust echter op de veronderstelling dat benchmarkscores zowel nauwkeurig als reproduceerbaar zijn. Wij tonen aan dat de reproduceerbaarheid van LLM-prestaties kwetsbaar is: veranderingen in systeemconfiguratie, zoals evaluatiebatchgrootte, aantal GPU's en GPU-versie, kunnen aanzienlijke verschillen in de gegenereerde reacties veroorzaken. Dit probleem is vooral prominent aanwezig in redeneermodellen, waar kleine afrondingsverschillen in vroege tokens kunnen uitmonden in uiteenlopende denkketens, wat uiteindelijk de nauwkeurigheid beïnvloedt. Bijvoorbeeld, onder bfloat16-precisie met gretige decodering, kan een redeneermodel zoals DeepSeek-R1-Distill-Qwen-7B tot 9% variatie in nauwkeurigheid en een verschil van 9.000 tokens in reactielengte vertonen als gevolg van verschillen in het aantal GPU's, het type GPU en de evaluatiebatchgrootte. Wij herleiden de oorzaak van deze variabiliteit naar het niet-associatieve karakter van floating-point rekenkunde onder beperkte numerieke precisie. Dit werk presenteert het eerste systematische onderzoek naar hoe numerieke precisie de reproduceerbaarheid in LLM-inferentie beïnvloedt. Door zorgvuldig gecontroleerde experimenten over verschillende hardware-, software- en precisie-instellingen, kwantificeren wij wanneer en hoe modeluitvoeren uiteenlopen. Onze analyse onthult dat floating-point precisie – hoewel cruciaal voor reproduceerbaarheid – vaak over het hoofd wordt gezien in evaluatiepraktijken. Geïnspireerd door dit inzicht, ontwikkelen wij een lichtgewicht inferentiepijplijn, genaamd LayerCast, die gewichten opslaat in 16-bit precisie maar alle berekeningen uitvoert in FP32, waardoor een balans wordt gevonden tussen geheugenefficiëntie en numerieke stabiliteit. Code is beschikbaar op https://github.com/nanomaoli/llm_reproducibility.
We introduceren **SWE-Flow**, een nieuw raamwerk voor datasynthese gebaseerd op Test-Driven Development (TDD). In tegenstelling tot bestaande software-engineeringdata die afhankelijk zijn van door mensen ingediende issues, leidt **SWE-Flow** automatisch incrementele ontwikkelingsstappen af direct vanuit unittests, die inherent hoogwaardige vereisten omvatten. De kern van **SWE-Flow** is de constructie van een Runtime Dependency Graph (RDG), die nauwkeurig functie-interacties vastlegt, waardoor de generatie van een gestructureerd, stapsgewijs *ontwikkelingsschema* mogelijk wordt. Bij elke stap produceert **SWE-Flow** een gedeeltelijke codebase, de bijbehorende unittests, en de benodigde codewijzigingen, wat resulteert in volledig verifieerbare TDD-taken. Met deze aanpak hebben we 16.061 trainingsinstanties en 2.020 testinstanties gegenereerd uit real-world GitHub-projecten, waardoor de **SWE-Flow-Eval** benchmark is gecreëerd. Onze experimenten tonen aan dat het finetunen van open modellen op deze dataset de prestaties aanzienlijk verbetert bij TDD-gebaseerd programmeren. Om verder onderzoek te faciliteren, maken we alle code, datasets, modellen en Docker-images beschikbaar op [Github](https://github.com/Hambaobao/SWE-Flow).
End-to-end menselijke animatie met rijke multimodale voorwaarden, zoals tekst, afbeeldingen en audio, heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. De meeste bestaande methoden kunnen echter slechts één onderwerp animeren en voorwaarden op een globale manier injecteren, waarbij scenario's worden genegeerd waarin meerdere concepten in dezelfde video kunnen voorkomen met rijke mens-mens-interacties en mens-object-interacties. Deze globale aanname verhindert een precieze en per-identiteit controle van meerdere concepten, inclusief mensen en objecten, en belemmert daardoor toepassingen. In dit werk verwerpen we de aanname van een enkele entiteit en introduceren we een nieuw framework dat een sterke, regiospecifieke binding van voorwaarden van modaliteiten aan het spatiotemporele voetafdruk van elke identiteit afdwingt. Gegeven referentieafbeeldingen van meerdere concepten, kan onze methode automatisch lay-outinformatie afleiden door gebruik te maken van een maskervoorspeller om uiterlijke kenmerken tussen de ontruisde video en elk referentie-uiterlijk te matchen. Bovendien injecteren we een lokale audiovoorwaarde in het corresponderende gebied om lay-out-uitgelijnde modaliteitsmatching op een iteratieve manier te garanderen. Dit ontwerp maakt de hoogwaardige generatie van beheersbare multi-concept mensgerichte video's mogelijk. Empirische resultaten en ablatiestudies valideren de effectiviteit van onze expliciete lay-outcontrole voor multimodale voorwaarden in vergelijking met impliciete tegenhangers en andere bestaande methoden.
LLM's worden voornamelijk gebruikt in synchrone communicatie, waarbij een menselijke gebruiker en een model om beurten communiceren. Daarentegen zijn veel real-world situaties inherent asynchroon. Bijvoorbeeld in groepschats, online teamvergaderingen of sociale spellen is er geen inherent begrip van beurten; daarom vormt de beslissing van wanneer te spreken een cruciaal onderdeel van de besluitvorming van de deelnemer. In dit werk ontwikkelen we een adaptieve asynchrone LLM-agent die, naast het bepalen van wat te zeggen, ook beslist wanneer het te zeggen. Om onze agent te evalueren, verzamelen we een unieke dataset van online Mafia-spellen, met zowel menselijke deelnemers als onze asynchrone agent. Over het algemeen presteert onze agent op hetzelfde niveau als menselijke spelers, zowel in spelprestaties als in het vermogen om zich te mengen met de andere menselijke spelers. Onze analyse toont aan dat het gedrag van de agent bij het beslissen van wanneer te spreken nauw aansluit bij menselijke patronen, hoewel er verschillen ontstaan in berichtinhoud. We maken al onze data en code vrij beschikbaar om verder onderzoek te ondersteunen en aan te moedigen voor meer realistische asynchrone communicatie tussen LLM-agenten. Dit werk baant de weg voor de integratie van LLM's in realistische menselijke groepsomgevingen, van assistentie bij teamdiscussies tot educatieve en professionele omgevingen waar complexe sociale dynamieken moeten worden genavigeerd.
Ondanks de snelle vooruitgang van multimodale grote taalmodellen (MLLMs), hebben ze grotendeels het belang van visuele verwerking over het hoofd gezien. In een eenvoudig maar veelzeggend experiment vinden we interessant genoeg dat taalmodellen, wanneer ze worden voorzien van beeldbeschrijvingen, vergelijkbare of zelfs betere prestaties kunnen bereiken dan MLLMs die ruwe visuele invoer verwerken. Dit suggereert dat huidige MLLMs weliswaar nauwkeurige visuele beschrijvingen kunnen genereren, maar deze niet effectief kunnen integreren tijdens het redeneren. Gemotiveerd door dit inzicht, stellen we een eenvoudig raamwerk voor visuele perturbatie voor dat de perceptuele robuustheid verbetert zonder algoritmische aanpassingen of aanvullende trainingsgegevens te vereisen. Onze aanpak introduceert drie gerichte perturbaties: distractor-concatenatie, dominantie-behoudende mixup en willekeurige rotatie, die eenvoudig kunnen worden geïntegreerd in bestaande post-trainingspijplijnen, waaronder SFT, DPO en GRPO. Door middel van uitgebreide experimenten over meerdere datasets tonen we consistente verbeteringen aan in wiskundig redeneervermogen, met winsten die vergelijkbaar zijn met die bereikt door algoritmische wijzigingen. Daarnaast behalen we competitieve prestaties onder open-source 7B RL-afgestemde modellen door Qwen2.5-VL-7B te trainen met visuele perturbatie. Via uitgebreide ablatiestudies analyseren we de effectiviteit van verschillende perturbatiestrategieën, waarbij blijkt dat elk perturbatietype uniek bijdraagt aan verschillende aspecten van visueel redeneren. Onze bevindingen benadrukken de cruciale rol van visuele perturbatie in multimodaal wiskundig redeneren: beter redeneren begint met beter zien. Onze code is beschikbaar op https://github.com/YutingLi0606/Vision-Matters.
Hoewel vision-language-action modellen (VLA's) veelbelovend robotgedrag hebben getoond bij een diverse set van manipulatietaken, behalen ze beperkte succespercentages wanneer ze out-of-the-box worden ingezet voor nieuwe taken. Om ervoor te zorgen dat deze beleidsregels veilig kunnen interageren met hun omgeving, hebben we een foutdetector nodig die tijdig een waarschuwing geeft, zodat de robot kan stoppen, terugkeren of om hulp kan vragen. Bestaande foutdetectoren worden echter alleen getraind en getest op één of enkele specifieke taken, terwijl VLA's vereisen dat de detector generaliseert en ook fouten detecteert in onbekende taken en nieuwe omgevingen. In dit artikel introduceren we het probleem van multitask-foutdetectie en stellen we SAFE voor, een foutdetector voor generalistische robotbeleidsregels zoals VLA's. We analyseren de VLA-featureruimte en ontdekken dat VLA's voldoende hoogwaardige kennis hebben over taaksucces en -falen, wat generiek is voor verschillende taken. Op basis van dit inzicht ontwerpen we SAFE om te leren van interne VLA-features en een enkele scalar te voorspellen die de waarschijnlijkheid van taakfalen aangeeft. SAFE wordt getraind op zowel geslaagde als mislukte rollouts en wordt geëvalueerd op onbekende taken. SAFE is compatibel met verschillende beleidsarchitecturen. We testen het uitgebreid op OpenVLA, pi_0 en pi_0-FAST in zowel gesimuleerde als real-world omgevingen. We vergelijken SAFE met diverse baselines en tonen aan dat SAFE state-of-the-art foutdetectieprestaties behaalt en de beste balans tussen nauwkeurigheid en detectietijd biedt door gebruik te maken van conformal prediction. Meer kwalitatieve resultaten zijn te vinden op https://vla-safe.github.io/.
Taal biedt een natuurlijke interface om prestaties op visuele taken te specificeren en te evalueren. Om deze mogelijkheid te realiseren, moeten vision language models (VLMs) visuele en linguïstische informatie succesvol integreren. Ons werk vergelijkt VLMs met een directe uitlezing van hun visuele encoders om hun vermogen om deze modaliteiten te integreren te begrijpen. Over een reeks visueel gerichte benchmarks (bijvoorbeeld diepteschatting, correspondentie) vinden we dat VLMs aanzienlijk slechter presteren dan hun visuele encoders, waarbij de prestaties tot bijna kansniveau dalen. We onderzoeken deze resultaten via een reeks analyses over de gehele VLM: namelijk 1) de degradatie van visuele representaties, 2) broosheid ten opzichte van taakprompts, en 3) de rol van het taalmodel bij het oplossen van de taak. We constateren dat de bottleneck bij het uitvoeren van deze visueel gerichte taken in deze derde categorie ligt; VLMs maken niet effectief gebruik van visuele informatie die gemakkelijk toegankelijk is in het gehele model, en ze erven de taalprioriteiten die aanwezig zijn in het LLM. Ons werk helpt bij het diagnosticeren van de faalmodi van open-source VLMs, en presenteert een reeks evaluaties die nuttig zijn voor toekomstig onderzoek naar visueel begrip binnen VLMs.
Recente vooruitgang in 3D-objectgeneratie heeft zowel de kwaliteit als de efficiëntie aanzienlijk verbeterd. De meeste bestaande methoden genereren echter een enkel mesh waarin alle onderdelen samengesmolten zijn, wat de mogelijkheid beperkt om individuele onderdelen te bewerken of te manipuleren. Een belangrijke uitdaging is dat verschillende objecten een variërend aantal onderdelen kunnen hebben. Om dit aan te pakken, stellen we een nieuw end-to-end framework voor voor 3D-objectgeneratie op onderdeelniveau. Gegeven een enkele invoerafbeelding genereert onze methode hoogwaardige 3D-objecten met een willekeurig aantal complete en semantisch betekenisvolle onderdelen. We introduceren een duale volume-packingstrategie die alle onderdelen organiseert in twee complementaire volumes, waardoor de creatie van complete en verweven onderdelen mogelijk wordt die samen het uiteindelijke object vormen. Experimenten tonen aan dat ons model betere kwaliteit, diversiteit en generalisatie bereikt dan eerdere beeldgebaseerde methoden voor generatie op onderdeelniveau.
Dichte beeldcorrespondentie is essentieel voor veel toepassingen, zoals visuele odometrie, 3D-reconstructie, objectassociatie en heridentificatie. Historisch gezien is dichte correspondentie afzonderlijk aangepakt voor wide-baseline scenario's en optische stroomschatting, ondanks het gemeenschappelijke doel om inhoud tussen twee afbeeldingen te matchen. In dit artikel ontwikkelen we een Unified Flow & Matching model (UFM), dat wordt getraind op geünificeerde gegevens voor pixels die zichtbaar zijn in zowel de bron- als de doelafbeelding. UFM gebruikt een eenvoudige, generieke transformer-architectuur die direct de (u,v)-stroom regresseert. Het is eenvoudiger te trainen en nauwkeuriger voor grote stromen in vergelijking met de typische coarse-to-fine kostenvolumes in eerder werk. UFM is 28% nauwkeuriger dan state-of-the-art stroommethoden (Unimatch), terwijl het ook 62% minder fouten heeft en 6,7x sneller is dan dichte wide-baseline matchers (RoMa). UFM is het eerste model dat aantoont dat geünificeerde training gespecialiseerde benaderingen in beide domeinen kan overtreffen. Dit resultaat maakt snelle, algemene correspondentie mogelijk en opent nieuwe richtingen voor multimodale, langeafstands- en real-time correspondentietaken.
Gaze-referentiële inferentie--het vermogen om af te leiden waar anderen naar kijken--is een cruciaal onderdeel van een theory of mind die natuurlijke mens-AI-interactie ondersteunt. In een gecontroleerde studie evalueerden we deze vaardigheid bij 111 Vision Language Models (VLMs) met behulp van foto's die met gemanipuleerde moeilijkheidsgraad en variabiliteit zijn genomen, vergeleken de prestaties met die van menselijke deelnemers (N = 65), en analyseerden het gedrag met gemengde-effectenmodellen. We ontdekten dat 94 van de 111 VLMs niet beter presteerden dan willekeurig gissen, terwijl mensen een bijna maximale nauwkeurigheid bereikten. VLMs reageren zelfs met elke keuze bijna even vaak. Gissen ze willekeurig? Hoewel de meeste VLMs moeite hebben, ontdekten we dat, wanneer we inzoomen op vijf van de top-VLMs met boven-kansprestaties, hun prestaties afnamen met toenemende taakmoeilijkheid maar slechts licht varieerden bij verschillende prompts en scèneobjecten. Deze gedragskenmerken kunnen niet worden verklaard door ze als willekeurige gissers te beschouwen. In plaats daarvan gebruiken ze waarschijnlijk een combinatie van heuristieken en gissen, waardoor hun prestaties afhankelijk zijn van de taakmoeilijkheid maar robuust zijn tegen perceptuele variaties. Dit suggereert dat VLMs, zonder gaze-inferentievermogen, nog geen technologieën zijn die natuurlijk kunnen interacteren met mensen, maar het potentieel blijft bestaan.
Het finetunen van Video Diffusion Models (VDMs) op gebruikersniveau om video's te genereren die specifieke kenmerken van de trainingsdata weerspiegelen, brengt aanzienlijke uitdagingen met zich mee, maar blijft ondanks het praktische belang onderbelicht. Ondertussen heeft recent werk, zoals Representation Alignment (REPA), veelbelovende resultaten laten zien in het verbeteren van de convergentie en kwaliteit van DiT-gebaseerde beelddiffusiemodellen door de interne verborgen toestanden af te stemmen op, of te assimileren met, externe vooraf getrainde visuele kenmerken, wat suggereert dat het potentieel heeft voor het finetunen van VDMs. In dit werk stellen we eerst een eenvoudige aanpassing van REPA voor VDMs voor en tonen empirisch aan dat, hoewel effectief voor convergentie, het suboptimaal is in het behouden van semantische consistentie tussen frames. Om deze beperking aan te pakken, introduceren we Cross-frame Representation Alignment (CREPA), een nieuwe regularisatietechniek die de verborgen toestanden van een frame afstemt op externe kenmerken van naburige frames. Empirische evaluaties op grootschalige VDMs, waaronder CogVideoX-5B en Hunyuan Video, tonen aan dat CREPA zowel de visuele kwaliteit als de semantische samenhang tussen frames verbetert wanneer het wordt gefinetuned met parameter-efficiënte methoden zoals LoRA. We valideren CREPA verder over diverse datasets met uiteenlopende kenmerken, wat de brede toepasbaarheid ervan bevestigt. Projectpagina: https://crepavideo.github.io
Het is belangrijk dat grote taalmodelen zich bewust zijn van de grenzen van hun kennis en het mechanisme om bekende en onbekende vragen te identificeren. Dit type bewustzijn kan modellen helpen om adaptieve inferentie uit te voeren, zoals het aanroepen van RAG, het aangaan van langzaam en diep nadenken, of het toepassen van het onthoudingsmechanisme, wat gunstig is voor de ontwikkeling van efficiënte en betrouwbare AI. In dit werk stellen we een methode voor om kennisgrenzen te detecteren via Query-Level Onzekerheid, die tot doel heeft te bepalen of het model in staat is een gegeven vraag te beantwoorden zonder tokens te genereren. Hiertoe introduceren we een nieuwe en trainingsvrije methode genaamd Interne Betrouwbaarheid, die gebruikmaakt van zelfevaluaties over lagen en tokens. Empirische resultaten op zowel feitelijke QA- als wiskundige redeneertaken tonen aan dat onze interne betrouwbaarheid verschillende baselines kan overtreffen. Bovendien laten we zien dat onze voorgestelde methode kan worden gebruikt voor efficiënte RAG en modelcascadering, wat in staat is om inferentiekosten te verlagen terwijl de prestaties behouden blijven.
Kunstmatige intelligentie (AI) is een fundamenteel hulpmiddel geworden om clinici te ondersteunen bij het analyseren van oftalmische beelden, zoals optische coherentietomografie (OCT). Het ontwikkelen van AI-modellen vereist echter vaak uitgebreide annotaties, en bestaande modellen presteren doorgaans minder goed op onafhankelijke, onbekende gegevens. Foundation models (FM's), grote AI-modellen die getraind zijn op enorme ongeannoteerde datasets, hebben potentie getoond om deze uitdagingen te overwinnen. Toch ontbreekt het aan uitgebreide validatie van beschikbare FM's voor oftalmologie, met name voor segmentatietaken, en richten ze zich op een enkele beeldvormingsmodaliteit. In deze context stellen we MIRAGE voor, een nieuwe multimodale FM voor de analyse van OCT- en scanning laser ophthalmoscopy (SLO)-beelden. Daarnaast introduceren we een nieuwe evaluatiebenchmark met OCT/SLO-classificatie- en segmentatietaken. De vergelijking met algemene en gespecialiseerde FM's en segmentatiemethoden toont de superioriteit van MIRAGE in beide soorten taken, wat zijn geschiktheid als basis voor de ontwikkeling van robuuste AI-systemen voor retinale OCT-beeldanalyse onderstreept. Zowel MIRAGE als de evaluatiebenchmark zijn publiekelijk beschikbaar: https://github.com/j-morano/MIRAGE.
Hoewel grote taalmmodellen (LLMs) de snelle vooruitgang van kunstmatige intelligentie aandrijven, blijft het effectief en betrouwbaar trainen van deze grote modellen een van de belangrijkste uitdagingen in het vakgebied. Om deze uitdaging aan te pakken, stellen we POET voor, een nieuw reParameterized trainingsalgoritme dat Orthogonale Equivalentie Transformatie gebruikt om neuronen te optimaliseren. Specifiek herparameteriseert POET elk neuron met twee leerbare orthogonale matrices en een vaste willekeurige gewichtsmatrix. Vanwege het bewezen behoud van spectrale eigenschappen van gewichtsmatrices, kan POET de doelfunctie stabiel optimaliseren met verbeterde generalisatie. We ontwikkelen verder efficiënte benaderingen die POET flexibel en schaalbaar maken voor het trainen van grootschalige neurale netwerken. Uitgebreide experimenten valideren de effectiviteit en schaalbaarheid van POET bij het trainen van LLMs.
Medisch Visueel Vraag-Antwoord (MedVQA) is een veelbelovend veld voor de ontwikkeling van klinische beslissingsondersteunende systemen, maar de vooruitgang wordt vaak beperkt door de beschikbare datasets, die klinische complexiteit en visuele diversiteit kunnen missen. Om deze tekortkomingen aan te pakken, introduceren we Kvasir-VQA-x1, een nieuwe, grootschalige dataset voor gastro-intestinale (GI) endoscopie. Ons werk breidt de oorspronkelijke Kvasir-VQA aanzienlijk uit door het toevoegen van 159.549 nieuwe vraag-antwoordparen die zijn ontworpen om dieper klinisch redeneren te testen. We hebben een systematische methode ontwikkeld met behulp van grote taalmodellen om deze vragen te genereren, die zijn gestratificeerd op complexiteit om de inferentiecapaciteiten van een model beter te beoordelen. Om ervoor te zorgen dat onze dataset modellen voorbereidt op realistische klinische scenario's, hebben we ook een verscheidenheid aan visuele augmentaties geïntroduceerd die veelvoorkomende beeldartefacten nabootsen. De dataset is gestructureerd om twee hoofd evaluatietracks te ondersteunen: één voor standaard VQA-prestaties en een andere om de robuustheid van modellen tegen deze visuele verstoringen te testen. Door een uitdagender en klinisch relevanter benchmark te bieden, streeft Kvasir-VQA-x1 ernaar de ontwikkeling van betrouwbaardere en effectievere multimodale AI-systemen voor gebruik in klinische omgevingen te versnellen. De dataset is volledig toegankelijk en voldoet aan de FAIR data-principes, waardoor het een waardevolle bron is voor de bredere onderzoeksgemeenschap. Code en data: https://github.com/Simula/Kvasir-VQA-x1 en https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
Het voorspellen van de tussenliggende trajecten tussen een initiële en doelverdeling is een centraal probleem in generatieve modellering. Bestaande benaderingen, zoals flow matching en Schr\"odinger Bridge Matching, leren effectief afbeeldingen tussen twee verdelingen door een enkel stochastisch pad te modelleren. Deze methoden zijn echter inherent beperkt tot unimodale overgangen en kunnen geen vertakte of divergerende evolutie van een gemeenschappelijke oorsprong naar meerdere verschillende uitkomsten vastleggen. Om dit aan te pakken, introduceren we Branched Schr\"odinger Bridge Matching (BranchSBM), een nieuw raamwerk dat vertakte Schr\"odinger-bruggen leert. BranchSBM parametriseert meerdere tijdsafhankelijke snelheidsvelden en groeiprocessen, waardoor de representatie van populatieniveau divergentie naar meerdere terminale verdelingen mogelijk wordt gemaakt. We tonen aan dat BranchSBM niet alleen expressiever is, maar ook essentieel voor taken waarbij multi-pad oppervlaknavigatie, het modelleren van celfate-bifurcaties vanuit homogene voorloperstaten, en het simuleren van divergerende cellulaire reacties op verstoringen betrokken zijn.
Grote taalmodellen komen vaak conflicten tegen tussen hun parametrische kennis en contextuele invoer, wat regelmatig resulteert in feitelijke inconsistenties of hallucinaties. Wij stellen Self-Reflective Debate for Contextual Reliability (SR-DCR) voor, een lichtgewicht raamwerk dat token-level zelfvertrouwen integreert met een asymmetrisch multi-agent debat om dergelijke conflicten te beslechten. Een criticus, verstoken van context, daagt een verdediger uit die argumenteert vanuit het gegeven fragment; een rechtermodel beoordeelt het debat en bepaalt de betrouwbaarheid van de context. Het uiteindelijke antwoord wordt geselecteerd door de uitspraak te combineren met het vertrouwen van het model. Experimenten op de ClashEval-benchmark tonen aan dat SR-DCR consistent de robuustheid tegen misleidende context verbetert, terwijl de nauwkeurigheid op betrouwbare invoer behouden blijft, en zowel klassieke debatten als vertrouwensgerichte basislijnen overtreft met minimale rekenkundige overhead. De code is beschikbaar op https://github.com/smiles724/Self-Reflective-Debates.
Grote redeneermodellen (LRMs) hebben indrukwekkende redeneervaardigheden getoond over een breed scala aan taken, waaronder wiskundige problemen op Olympiadeniveau, wat wijst op bewijs van hun complexe redeneervermogen. Hoewel veel redeneerbenchmarks zich richten op het STEM-domein, blijft het vermogen van LRMs om correct te redeneren in bredere taakdomeinen onderbelicht. In dit werk introduceren we TTT-Bench, een nieuwe benchmark die is ontworpen om basisstrategische, ruimtelijke en logische redeneervaardigheden in LRMs te evalueren via een reeks van vier tweespelers Tic-Tac-Toe-achtige spellen die mensen moeiteloos kunnen oplossen vanaf jonge leeftijd. We stellen een eenvoudige maar schaalbare programmatische aanpak voor voor het genereren van verifieerbare tweespelers spelproblemen voor TTT-Bench. Hoewel deze spellen triviaal zijn voor mensen, vereisen ze redeneren over de intenties van de tegenstander, evenals de ruimtelijke configuraties van het spelbord, om een overwinning te garanderen. We evalueren een diverse set van state-of-the-art LRMs, en ontdekken dat de modellen die uitblinken in moeilijke wiskundeproblemen vaak falen in deze eenvoudige redeneerspellen. Verdere tests onthullen dat onze geëvalueerde redeneermodellen gemiddeld downarrow 41\% \& downarrow 5\% lager scoren op TTT-Bench vergeleken met MATH 500 \& AIME 2024 respectievelijk, waarbij grotere modellen hogere prestaties behalen met kortere redeneersporen, waar de meeste modellen worstelen met langetermijnstrategische redeneersituaties in eenvoudige en nieuwe TTT-Bench-taken.
Recente verbeteringen in grote taalmodellen (LLMs) hebben veel onderzoekers ertoe aangezet zich te richten op het bouwen van volledig autonome AI-agenten. Dit position paper betwijfelt of deze aanpak de juiste weg vooruit is, aangezien deze autonome systemen nog steeds problemen hebben met betrouwbaarheid, transparantie en het begrijpen van de werkelijke behoeften van mensen. Wij stellen een andere benadering voor: LLM-gebaseerde Mens-Agent Systemen (LLM-HAS), waarbij AI samenwerkt met mensen in plaats van hen te vervangen. Door mensen betrokken te houden om richting te geven, vragen te beantwoorden en controle te behouden, kunnen deze systemen betrouwbaarder en aanpasbaarder zijn. Aan de hand van voorbeelden uit de gezondheidszorg, financiën en softwareontwikkeling laten we zien hoe mens-AI-samenwerking complexe taken beter kan aanpakken dan AI alleen. We bespreken ook de uitdagingen van het bouwen van deze collaboratieve systemen en bieden praktische oplossingen. Dit paper betoogt dat vooruitgang in AI niet moet worden gemeten aan de hand van hoe onafhankelijk systemen worden, maar aan hoe goed ze kunnen samenwerken met mensen. De meest veelbelovende toekomst voor AI ligt niet in systemen die menselijke rollen overnemen, maar in systemen die menselijke capaciteiten versterken door betekenisvolle partnerschap.