Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vakgebied van 4D-wereldmodellering - gericht op het gezamenlijk vastleggen van ruimtelijke geometrie en temporele dynamiek - heeft de afgelopen jaren aanzienlijke vooruitgang geboekt, aangedreven door ontwikkelingen in grootschalige generatieve modellen en multimodale leertechnieken. De ontwikkeling van echt algemene 4D-wereldmodellen blijft echter fundamenteel beperkt door de beschikbaarheid van hoogwaardige data. Bestaande datasets en benchmarks missen vaak de dynamische complexiteit, multidomein-diversiteit en ruimtelijk-temporele annotaties die nodig zijn om sleuteltaken zoals 4D-geometrische reconstructie, toekomstvoorspelling en camera-gestuurde videogeneratie te ondersteunen. Om deze kloof te dichten, introduceren we OmniWorld, een grootschalige, multidomein, multimodale dataset die specifiek is ontworpen voor 4D-wereldmodellering. OmniWorld bestaat uit een nieuw verzamelde OmniWorld-Game dataset en verschillende gecureerde publieke datasets die diverse domeinen bestrijken. In vergelijking met bestaande synthetische datasets biedt OmniWorld-Game rijkere modaliteitsdekking, een grotere schaal en meer realistische dynamische interacties. Op basis van deze dataset stellen we een uitdagende benchmark op die de beperkingen van huidige state-of-the-art (SOTA) benaderingen in het modelleren van complexe 4D-omgevingen blootlegt. Bovendien leidt het finetunen van bestaande SOTA-methoden op OmniWorld tot aanzienlijke prestatieverbeteringen bij 4D-reconstructie en videogeneratietaken, wat OmniWorld sterk valideert als een krachtige bron voor training en evaluatie. We zien OmniWorld als een katalysator voor het versnellen van de ontwikkeling van algemene 4D-wereldmodellen, wat uiteindelijk het holistische begrip van machines van de fysieke wereld zal bevorderen.
Grote taalmmodellen (LLMs) boeken aanzienlijke vooruitgang in emotionele intelligentie (EI) en het begrijpen van lange contexten. Bestaande benchmarks negeren echter vaak bepaalde aspecten van EI in scenario's met lange contexten, vooral onder realistische, praktische omstandigheden waarbij interacties lang, divers en vaak rumoerig zijn. Om naar dergelijke realistische omstandigheden toe te werken, presenteren we LongEmotion, een benchmark die specifiek is ontworpen voor EI-taken met lange contexten. Het omvat een diverse set taken, waaronder Emotieclassificatie, Emotiedetectie, Emotie-QA, Emotieconversatie, Emotiesamenvatting en Emotie-expressie. Gemiddeld bereikt de invoerlengte voor deze taken 8.777 tokens, waarbij langere tekstgeneratie vereist is voor Emotie-expressie. Om de prestaties onder realistische beperkingen te verbeteren, integreren we Retrieval-Augmented Generation (RAG) en Collaborative Emotional Modeling (CoEM), en vergelijken we deze met standaard prompt-gebaseerde methoden. In tegenstelling tot conventionele benaderingen, maakt onze RAG-methode gebruik van zowel de gesprekscontext als het grote taalmodel zelf als bronnen voor retrieval, waardoor afhankelijkheid van externe kennisbanken wordt vermeden. De CoEM-methode verbetert de prestaties verder door de taak op te splitsen in vijf fasen, waarbij zowel retrieval-augmentatie als beperkte kennisinjectie worden geïntegreerd. Experimentele resultaten tonen aan dat zowel RAG als CoEM consistent de EI-gerelateerde prestaties verbeteren bij de meeste taken met lange contexten, waardoor LLMs dichter bij praktische en real-world EI-toepassingen komen. Bovendien hebben we een vergelijkende casestudy-experiment uitgevoerd op de GPT-serie om de verschillen tussen verschillende modellen op het gebied van EI te demonstreren. De code is beschikbaar op GitHub via https://github.com/LongEmotion/LongEmotion, en de projectpagina is te vinden op https://longemotion.github.io/.
Graphical User Interface (GUI)-agents hebben aanzienlijke vooruitgang geboekt in het automatiseren van complexe gebruikersinterface-interacties via reinforcement learning. Huidige benaderingen staan echter voor een fundamenteel dilemma: offline RL maakt stabiele training mogelijk op vooraf verzamelde trajecten, maar worstelt met de uitvoering van meerstappentaken vanwege het ontbreken van trajectniveau beloningssignalen; online RL vangt deze signalen op via interactie met de omgeving, maar lijdt onder schaarse beloningen en prohibitief hoge implementatiekosten. Om dit aan te pakken, presenteren we Semi-online Reinforcement Learning, een nieuw paradigma dat online RL simuleert op offline trajecten. Tijdens elk rollout-proces behouden we de oorspronkelijke modeloutput binnen de meerzijdige dialoog, waarbij een Patch Module adaptief de divergentie tussen rollout- en experttrajecten herstelt. Om langetermijntrainingssignalen vast te leggen, introduceert Semi-online RL verdisconteerde toekomstige opbrengsten in de beloningsberekening en optimaliseert het beleid met gewogen stapniveau- en episodeniveau-voordelen. We introduceren verder Semi-Online Performance (SOP), een metriek die beter aansluit bij de werkelijke online prestaties en dient als een praktisch en effectief alternatief voor evaluatie in de echte wereld. Experimenten tonen aan dat onze Semi-online RL state-of-the-art prestaties behaalt onder 7B-modellen op vier dynamische benchmarks, met aanzienlijke verbeteringen ten opzichte van het basismodel (bijv. +12,0% op AndroidWorld, +23,8% op AITW), wat significante vooruitgang demonstreert in het overbruggen van de kloof tussen offline trainingsefficiëntie en online meerzijdig redeneren. De code is beschikbaar op https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
De vooruitgang van Embodied AI is sterk afhankelijk van grootschalige, simuleerbare 3D-scenedatasets die worden gekenmerkt door scènediversiteit en realistische indelingen. Bestaande datasets kampen echter doorgaans met beperkingen in dataschaal of diversiteit, gesaneerde indelingen die kleine objecten missen, en ernstige objectbotsingen. Om deze tekortkomingen aan te pakken, introduceren we InternScenes, een nieuwe grootschalige simuleerbare dataset voor binnenruimtes die ongeveer 40.000 diverse scènes omvat door drie verschillende scènebronnen te integreren: real-world scans, procedureel gegenereerde scènes en door ontwerpers gemaakte scènes, inclusief 1,96 miljoen 3D-objecten en 15 veelvoorkomende scènetypen en 288 objectklassen. We hebben specifiek een groot aantal kleine objecten in de scènes behouden, wat resulteert in realistische en complexe indelingen met gemiddeld 41,5 objecten per regio. Onze uitgebreide dataverwerkingspipeline zorgt voor simuleerbaarheid door real-to-sim replica's te maken voor real-world scans, verbetert de interactiviteit door interactieve objecten in deze scènes op te nemen, en lost objectbotsingen op door middel van fysieke simulaties. We demonstreren de waarde van InternScenes met twee benchmarktoepassingen: scène-indelingsgeneratie en puntdoelnavigatie. Beide tonen de nieuwe uitdagingen die worden opgeworpen door de complexe en realistische indelingen. Belangrijker nog, InternScenes effent de weg voor het opschalen van modeltraining voor beide taken, waardoor generatie en navigatie in dergelijke complexe scènes mogelijk worden. We zijn vastbesloten om de data, modellen en benchmarks open source te maken ten behoeve van de hele gemeenschap.
Vision-language modellen (VLMs) verwerken visuele invoer vaak via een vooraf getrainde visuele encoder, gevolgd door een projectie in de embeddingruimte van het taalmodel via een verbindingscomponent. Hoewel cruciaal voor het samenvoegen van modaliteiten, blijft het potentiële informatieverlies veroorzaakt door deze projectiestap en het directe effect ervan op de modelcapaciteiten onderbelicht. We introduceren twee complementaire benaderingen om dit verlies te onderzoeken en te kwantificeren door de latente representatieruimte te analyseren. Ten eerste evalueren we het behoud van semantische informatie door veranderingen in k-nearest neighbor-relaties tussen beeldrepresentaties te analyseren, voor en na de projectie. Ten tweede meten we informatieverlies direct door visuele embeddings te reconstrueren vanuit de geprojecteerde representatie, waarbij het verlies op patch-niveau van een afbeelding wordt gelokaliseerd. Experimenten tonen aan dat verbindingscomponenten de lokale geometrie van visuele representaties aanzienlijk verstoren, waarbij k-nearest neighbors met 40-60\% afwijken na projectie, wat correleert met een verslechtering in de retrievalprestaties. De reconstructie van embeddings op patch-niveau biedt interpreteerbare inzichten voor het gedrag van modellen bij visueel onderbouwde vraag-antwoordtaken, waarbij gebieden met hoog informatieverlies betrouwbaar voorspellen waar modellen moeite hebben.
De afhankelijkheid van impliciete puntmatching via aandacht is een kernbeperking geworden in drag-based editing, wat resulteert in een fundamenteel compromis tussen verzwakte inversiekracht en kostbare test-time optimalisatie (TTO). Dit compromis beperkt de generatieve mogelijkheden van diffusiemodellen aanzienlijk, waardoor hoogwaardige inpainting en tekstgeleide creatie worden onderdrukt. In dit artikel introduceren we LazyDrag, de eerste drag-based beeldbewerkingsmethode voor Multi-Modale Diffusie Transformers, die de afhankelijkheid van impliciete puntmatching direct elimineert. Concreet genereert onze methode een expliciete correspondentiekaart op basis van gebruikersdraginputs als een betrouwbare referentie om de aandachtcontrole te versterken. Deze betrouwbare referentie opent de mogelijkheid voor een stabiel inversieproces op volle sterkte, wat een primeur is in de drag-based bewerkingstaak. Het maakt TTO overbodig en ontgrendelt de generatieve capaciteit van modellen. Daarom verenigt LazyDrag van nature precieze geometrische controle met tekstbegeleiding, waardoor complexe bewerkingen mogelijk worden die voorheen onbereikbaar waren: de mond van een hond openen en het interieur inpainten, nieuwe objecten genereren zoals een "tennisbal", of bij ambigue drags contextbewuste wijzigingen aanbrengen zoals een hand in een zak steken. Bovendien ondersteunt LazyDrag multi-round workflows met gelijktijdige verplaats- en schaalbewerkingen. Geëvalueerd op de DragBench, overtreft onze methode de baseline-methoden in drag-nauwkeurigheid en perceptuele kwaliteit, zoals gevalideerd door VIEScore en menselijke evaluatie. LazyDrag vestigt niet alleen nieuwe state-of-the-art prestaties, maar baant ook een nieuwe weg naar bewerkingsparadigma's.
Supervised Fine-Tuning (SFT) is essentieel voor het trainen van grote taalmodel- len (LLM's) en verbetert aanzienlijk cruciale vaardigheden zoals het volgen van instructies en in-context leren. Desalniettemin blijft het creëren van geschikte trainingsdatasets die zijn afgestemd op specifieke domeinen een uitdaging vanwege unieke domeinbeperkingen en dataschaarste. In dit artikel stellen we SearchInstruct voor, een innovatieve methode die specifiek is ontworpen om hoogwaardige instructie- datasets voor SFT te construeren. Onze aanpak begint met een beperkte set van domein- specifieke, door mensen gegenereerde vragen, die systematisch worden uitgebreid met behulp van een groot taalmodel. Vervolgens worden domeinrelevante bronnen dynamisch opgehaald om nauwkeurige en contextueel passende antwoorden te genereren voor elke uitgebreide vraag. Experimentele evaluatie toont aan dat SearchInstruct zowel de diversiteit als de kwaliteit van SFT-datasets verbetert, wat leidt tot meetbare verbeteringen in de prestaties van LLM's binnen gespecialiseerde domeinen. Daarnaast laten we zien dat de voorgestelde methode, naast datasetgeneratie, ook effectief taken zoals modelbewerking kan faciliteren, waardoor efficiënte updates aan bestaande modellen mogelijk worden. Om reproduceerbaarheid en adoptie door de gemeenschap te bevorderen, bieden we volledige implementatiedetails, de volledige set gegenereerde instructie-antwoordparen en de broncode aan in een publiek toegankelijke Git-repository: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
Eerdere werken in multi-doelstelling reinforcement learning gebruiken typisch lineaire beloningsscalarisatie met vaste gewichten, wat bewezen niet in staat is om niet-convexe Pareto-fronten vast te leggen en dus suboptimale resultaten oplevert. Deze beperking wordt vooral kritisch bij online voorkeursafstemming voor grote taalmodellen. Hier creëren stochastische trajecten gegenereerd door geparametriseerde beleidsregels sterk niet-lineaire en niet-convexe afbeeldingen van parameters naar doelstellingen, waar geen enkel statisch gewichtingsschema optimale afwegingen kan vinden. Wij pakken deze beperking aan door dynamische beloningsgewichting te introduceren, die de beloningsgewichten adaptief aanpast tijdens het online reinforcement learning-proces. In tegenstelling tot bestaande benaderingen die vertrouwen op vaste-gewicht interpolatie, balanceert en prioriteert onze dynamische gewichting continu doelstellingen tijdens de training, wat effectieve exploratie van Pareto-fronten in de doelruimte mogelijk maakt. Wij introduceren twee benaderingen van toenemende verfijning en generaliseerbaarheid: (1) hypervolume-geleide gewichtsaanpassing en (2) op gradienten gebaseerde gewichtsoptimalisatie, wat een veelzijdige toolkit biedt voor online multi-doelstelling afstemming. Onze uitgebreide experimenten tonen hun compatibiliteit met veelgebruikte online reinforcement learning-algoritmen (inclusief GRPO, REINFORCE en RLOO), effectiviteit over meerdere wiskundige redeneerdatasets, en toepasbaarheid op verschillende modelfamilies, waarbij consequent Pareto-dominante oplossingen worden bereikt met minder trainingsstappen dan vaste-gewicht lineaire scalariseringsbaselines.
Onder generatieve modellen zijn diffusiemodellen bijzonder intrigerend vanwege het bestaan van een gesloten-vorm optimale minimalisator van hun trainingsdoel, vaak aangeduid als de optimale denoiser. Echter, diffusie met deze optimale denoiser reproduceert slechts afbeeldingen uit de trainingsset en slaagt er daarom niet in het gedrag van diepe diffusiemodellen vast te leggen. Recent werk heeft geprobeerd deze kloof tussen de optimale denoiser en diepe diffusiemodellen te karakteriseren, door analytische, trainingsvrije modellen voor te stellen die afbeeldingen kunnen genereren die lijken op die gegenereerd door een getrainde UNet. De best presterende methode veronderstelt dat shift-equivariantie en localiteitsinductieve biases van convolutionele neurale netwerken de oorzaak zijn van de prestatiekloof, en neemt deze aannames daarom op in zijn analytische model. In dit werk presenteren we bewijs dat de localiteit in diepe diffusiemodellen voortkomt als een statistische eigenschap van de afbeeldingsdataset, en niet door de inductieve bias van convolutionele neurale netwerken. Specifiek tonen we aan dat een optimale parametrische lineaire denoiser vergelijkbare localiteitseigenschappen vertoont als de diepe neurale denoisers. We laten verder zien, zowel theoretisch als experimenteel, dat deze localiteit direct voortkomt uit de pixelcorrelaties die aanwezig zijn in natuurlijke afbeeldingsdatasets. Ten slotte gebruiken we deze inzichten om een analytische denoiser te ontwerpen die beter overeenkomt met scores voorspeld door een diep diffusiemodel dan het eerder door experts ontworpen alternatief.
Hallucinaties in multimodale grote taalmodellen (MLLMs) -- waarbij het model inhoud genereert die inconsistent is met de invoerafbeelding -- vormen aanzienlijke risico's in praktische toepassingen, van desinformatie in visuele vraagbeantwoording tot onveilige fouten in besluitvorming. Bestaande benchmarks testen voornamelijk de herkenningsnauwkeurigheid, d.w.z. of modellen het juiste antwoord kunnen selecteren tussen afleiders. Dit negeert een even kritieke vaardigheid voor betrouwbare AI: herkennen wanneer geen van de gegeven opties correct is, een gedrag dat epistemische bescheidenheid weerspiegelt. Wij presenteren HumbleBench, een nieuwe hallucinatiebenchmark ontworpen om het vermogen van MLLMs te evalueren om plausibele maar incorrecte antwoorden af te wijzen over drie hallucinatietypes: object, relatie en attribuut. Gebouwd vanuit een panoptische scènegrafiekdataset, benutten we gedetailleerde scènegrafiekaanwijzingen om grondwaarheid-entiteiten en -relaties te extraheren, en vragen we GPT-4-Turbo om meerkeuzevragen te genereren, gevolgd door een rigoureus handmatig filterproces. Elke vraag bevat een "Geen van bovenstaande" optie, wat vereist dat modellen niet alleen correcte visuele informatie herkennen, maar ook identificeren wanneer geen van de gegeven antwoorden geldig is. We evalueren een verscheidenheid aan state-of-the-art MLLMs -- inclusief zowel algemene als gespecialiseerde redeneermodellen -- op HumbleBench en delen waardevolle bevindingen en inzichten met de gemeenschap. Door expliciete afwijzing van foute opties te incorporeren, vult HumbleBench een belangrijk gat in huidige evaluatiesuites, en biedt het een realistischer maatstaf voor de betrouwbaarheid van MLLMs in veiligheidskritieke situaties. Onze code en dataset zijn openbaar vrijgegeven en kunnen worden geraadpleegd op https://github.com/maifoundations/HumbleBench.
Embodied navigatie vereist dat agenten perceptie, redenering en actie integreren voor robuuste interactie in complexe 3D-omgevingen. Bestaande benaderingen kampen vaak met incoherente en instabiele redeneersporen die generalisatie over diverse omgevingen belemmeren, en met moeilijkheden bij het balanceren van semantische redenering op lange termijn met low-latency controle voor realtime navigatie. Om deze uitdagingen aan te pakken, stellen we Nav-R1 voor, een embodied foundation-model dat redenering in embodied omgevingen verenigt. We construeren eerst Nav-CoT-110K, een grootschalige dataset van stapsgewijze Chains-of-Thought (CoT) voor embodied taken, die een koude-start initialisatie met gestructureerde redenering mogelijk maakt. Op deze basis ontwerpen we een GRPO-gebaseerd reinforcement learning-raamwerk met drie complementaire beloningen: formaat, begrip en navigatie, om structurele naleving, semantische verankering en padgetrouwheid te verbeteren. Bovendien introduceren we een Fast-in-Slow redeneerparadigma, waarbij bewuste semantische redenering wordt losgekoppeld van low-latency reactieve controle voor efficiënte maar coherente navigatie. Uitgebreide evaluaties op embodied AI-benchmarks tonen aan dat Nav-R1 consistent sterke baseline-methoden overtreft, met een gemiddelde verbetering van meer dan 8% in redeneer- en navigatieprestaties. Implementatie in de echte wereld op een mobiele robot valideert verder de robuustheid onder beperkte onboard-resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
Recente vooruitgang in tekstgebaseerd "langzaam-denken" redeneren heeft inspanningen gestimuleerd om deze capaciteit over te dragen naar visueel-taalmodelen (VLMs), voor het trainen van visuele redeneermodellen (VRMs). Echter, een dergelijke overdracht stuit op kritieke uitdagingen: Effectief "langzaam denken" in VRMs vereist visuele reflectie, het vermogen om het redeneerproces te controleren op basis van visuele informatie. Door kwantitatieve analyse observeren we dat huidige VRMs beperkte visuele reflectie vertonen, aangezien hun aandacht voor visuele informatie snel afneemt bij langere gegenereerde reacties. Om deze uitdaging aan te pakken, stellen we een nieuw VRM voor, Reflection-V, dat visuele reflectie verbetert op basis van redeneerdata-constructie voor cold-start en beloningsontwerp voor reinforcement learning (RL). Ten eerste construeren we visie-gecentreerde redeneerdata door gebruik te maken van een agent die interacteert tussen VLMs en redeneer-LLMs, waardoor cold-start leren van visuele reflectiepatronen mogelijk wordt. Ten tweede wordt tijdens RL een beloningsmodel gebaseerd op visuele aandacht ingezet om redeneren op basis van visuele informatie te stimuleren. Hierdoor toont Reflection-V significante verbeteringen op meerdere visuele redeneerbenchmarks. Bovendien behoudt Reflection-V een sterkere en consistentere afhankelijkheid van visuele informatie tijdens visueel redeneren, wat wijst op een effectieve verbetering van de visuele reflectiecapaciteiten.
Het begrijpen van menselijke gedragskenmerken is essentieel voor toepassingen in mens-computerinteractie, computationele sociale wetenschappen en gepersonaliseerde AI-systemen. Zo'n begrip vereist vaak de integratie van meerdere modaliteiten om genuanceerde patronen en relaties vast te leggen. Bestaande bronnen bieden echter zelden datasets die gedragsdescriptoren combineren met aanvullende modaliteiten zoals gezichtskenmerken en biografische informatie. Om deze leemte te vullen, presenteren we PersonaX, een verzameling van zorgvuldig samengestelde multimodale datasets die een uitgebreide analyse van publieke kenmerken over verschillende modaliteiten mogelijk maakt. PersonaX bestaat uit (1) CelebPersona, met 9444 publieke figuren uit diverse beroepen, en (2) AthlePersona, dat 4181 professionele atleten uit 7 grote sportcompetities omvat. Elke dataset bevat gedragskenmerkanalyses die zijn afgeleid door drie hoogpresterende grote taalmodellen, naast gezichtsafbeeldingen en gestructureerde biografische kenmerken. We analyseren PersonaX op twee complementaire niveaus. Ten eerste abstraheren we hoogwaardige kenmerkscores uit tekstbeschrijvingen en passen we vijf statistische onafhankelijkheidstests toe om hun relaties met andere modaliteiten te onderzoeken. Ten tweede introduceren we een nieuw causaal representatieleerframework (CRL) dat is toegesneden op multimodale en multi-meetdata, met theoretische identificeerbaarheidsgaranties. Experimenten op zowel synthetische als real-world data tonen de effectiviteit van onze aanpak aan. Door gestructureerde en ongestructureerde analyse te verenigen, legt PersonaX de basis voor het bestuderen van door LLM afgeleide gedragskenmerken in combinatie met visuele en biografische attributen, wat bijdraagt aan multimodale kenmerkanalyse en causaal redeneren.
De opkomst van gedecentraliseerde sociale mediaplatforms biedt nieuwe mogelijkheden en uitdagingen voor realtime-analyse van publiek discours. Deze studie introduceert CognitiveSky, een open-source en schaalbaar framework ontworpen voor sentiment-, emotie- en narratieve analyse op Bluesky, een gefedereerd alternatief voor Twitter of X.com. Door gegevens te verwerken via Bluesky's Application Programming Interface (API), past CognitiveSky transformer-gebaseerde modellen toe om grootschalige door gebruikers gegenereerde inhoud te annoteren en gestructureerde en analyseerbare uitvoer te produceren. Deze samenvattingen sturen een dynamisch dashboard aan dat evoluerende patronen in emotie, activiteit en gespreksonderwerpen visualiseert. Volledig gebouwd op infrastructuur van het gratis segment, bereikt CognitiveSky zowel lage operationele kosten als hoge toegankelijkheid. Hoewel hier gedemonstreerd voor het monitoren van mentale gezondheidsdiscours, maakt de modulaire ontwerp ervan toepassingen mogelijk in domeinen zoals desinformatiedetectie, crisismanagement en analyse van burgerlijk sentiment. Door grote taalmodelen te verbinden met gedecentraliseerde netwerken, biedt CognitiveSky een transparant, uitbreidbaar hulpmiddel voor computationele sociale wetenschappen in een tijdperk van veranderende digitale ecosystemen.
Spraak-tokenisatie maakt discrete representatie mogelijk en vergemakkelijkt spraaktaalmodellering. Bestaande neurale codecs vangen echter laagniveau akoestische kenmerken op, waarbij de semantische en contextuele aanwijzingen die inherent zijn aan menselijke spraak over het hoofd worden gezien. Hoewel recente inspanningen semantische representaties hebben geïntroduceerd uit zelf-superviserende spraakmodellen of contextuele representaties hebben geïntegreerd uit vooraf getrainde taalmodellen, blijven er uitdagingen bestaan in het afstemmen en verenigen van de semantische en contextuele representaties. Wij introduceren FuseCodec, dat akoestische, semantische en contextuele representaties verenigt door sterke cross-modale afstemming en globaal geïnformeerde supervisie. Wij stellen drie complementaire technieken voor: (i) Latent Representation Fusion, waarbij semantische en contextuele kenmerken direct worden geïntegreerd in de latentie-ruimte van de encoder voor robuuste en verenigde representatieleer; (ii) Global Semantic-Contextual Supervision, waarbij discrete tokens worden gesuperviseerd met globaal gepoolde en uitgezonden representaties om temporele consistentie en cross-modale afstemming te verbeteren; en (iii) Temporally Aligned Contextual Supervision, waarbij de afstemming wordt versterkt door contextuele en spraaktokens dynamisch te matchen binnen een lokaal venster voor fijnmazige token-level supervisie. Wij introduceren verder FuseCodec-TTS, dat de toepasbaarheid van onze methodologie op zero-shot spraaksynthese aantoont. Empirisch gezien behaalt FuseCodec state-of-the-art prestaties in LibriSpeech, waarbij EnCodec, SpeechTokenizer en DAC worden overtroffen in transcriptienauwkeurigheid, perceptuele kwaliteit, verstaanbaarheid en spreker-gelijkenis. Resultaten benadrukken de effectiviteit van contextueel en semantisch geleide tokenisatie voor spraak-tokenisatie en downstream taken. Code en vooraf getrainde modellen zijn beschikbaar op https://github.com/mubtasimahasan/FuseCodec.
Domeinspecifieke embeddingmodellen hebben veelbelovende resultaten getoond voor toepassingen die gespecialiseerd semantisch begrip vereisen, zoals coderingsagenten en financiële retrievalsystemen, waarbij ze vaak hogere prestatieverbeteringen behalen dan algemene modellen. State-of-the-art embeddingmodellen zijn echter meestal gebaseerd op LLM's (Large Language Models), die miljarden parameters bevatten, wat implementatie in omgevingen met beperkte middelen uitdagend maakt. Modelcompressie door pruning biedt een veelbelovende oplossing, maar bestaande pruningmethoden behandelen alle parameters uniform, zonder onderscheid te maken tussen algemene semantische representaties en domeinspecifieke patronen, wat leidt tot suboptimale pruningbeslissingen. Daarom stellen we GAPrune voor, een pruningframework dat deze uitdaging aanpakt door zowel domeinbelang als het behoud van een algemene linguïstische basis in overweging te nemen. Onze methode gebruikt Fisher-informatie om het belang te meten en alignering van gradiënten in het algemene domein om parametergedrag te beoordelen, en combineert deze signalen met behulp van onze Domain Alignment Importance (DAI)-score. Lagere DAI-scores geven aan dat de parameter minder belangrijk is voor de domeintaak of conflicten creëert tussen domein- en algemene doelstellingen. Experimenten op twee domeinbenchmarks, FinMTEB en ChemTEB, laten zien dat GAPrune de prestaties binnen 2,5% van dichte modellen behoudt bij one-shot pruning met 50% sparsity, terwijl het alle baseline-methoden overtreft. Met hertraining in 100 stappen behaalt GAPrune een verbetering van +4,51% op FinMTEB en +1,73% op ChemTEB, wat aantoont dat onze pruningstrategie niet alleen domeinspecifieke capaciteiten behoudt, maar ook versterkt. Onze bevindingen tonen aan dat principiële pruningstrategieën modelcompressie en verbeterde domeinspecialisatie kunnen bereiken, wat de onderzoeksgemeenschap een nieuwe benadering biedt voor ontwikkeling.
Naarmate grote taalmmodellen (LLM's) steeds meer interactie hebben met externe tools, is beloningsmodellering voor toolgebruik een cruciaal maar onderbelicht gebied geworden. Bestaande beloningsmodellen, voornamelijk getraind op natuurlijke taaloutputs, hebben moeite om toolgebaseerd redeneren en uitvoering te evalueren. Om deze kloof te kwantificeren, introduceren we FC-RewardBench, de eerste benchmark die is ontworpen om systematisch de prestaties van beloningsmodellen in tool-aanroepscenario's te beoordelen. Onze analyse toont aan dat huidige beloningsmodellen vaak belangrijke signalen van effectief toolgebruik missen, wat de noodzaak voor domeinspecifieke modellering benadrukt. Om dit aan te pakken, stellen we een trainingsframework voor voor uitkomstgebaseerde beloningsmodellen met behulp van gegenereerde data van permissief gelicentieerde, open-weight LLM's. We trainen modellen variërend van 1,7B tot 14B parameters en evalueren ze over zeven out-of-domain benchmarks. Deze modellen presteren consistent beter dan algemene basislijnen, met een gemiddelde verbetering van tot 25\% in downstream taakprestaties en maken data-efficiënte fine-tuning mogelijk door middel van beloningsgestuurde filtering.
De inzet van grote taalmodellen (LLMs) binnen de geestelijke gezondheidszorg en andere gevoelige domeinen roept dringende vragen op over ethisch redeneren, eerlijkheid en verantwoorde afstemming. Toch vangen bestaande benchmarks voor morele en klinische besluitvorming niet adequaat de unieke ethische dilemma's die zich voordoen in de geestelijke gezondheidszorg, waar vertrouwelijkheid, autonomie, weldadigheid en vooroordelen vaak met elkaar verweven zijn. Om deze kloof te dichten, introduceren we Ethical Reasoning in Mental Health (EthicsMH), een pilotdataset van 125 scenario's die is ontworpen om te evalueren hoe AI-systemen omgaan met ethisch beladen situaties in therapeutische en psychiatrische contexten. Elk scenario is verrijkt met gestructureerde velden, waaronder meerdere besluitopties, expert-afgestemde redeneringen, verwacht modelgedrag, impact in de praktijk en multi-stakeholder perspectieven. Deze structuur maakt het mogelijk om niet alleen de nauwkeurigheid van beslissingen te evalueren, maar ook de kwaliteit van uitleg en afstemming met professionele normen. Hoewel bescheiden in omvang en ontwikkeld met model-geassisteerde generatie, biedt EthicsMH een taakraamwerk dat AI-ethiek en besluitvorming in de geestelijke gezondheidszorg met elkaar verbindt. Door deze dataset vrij te geven, streven we ernaar een startbron te bieden die kan worden uitgebreid door bijdragen van de gemeenschap en experts, en zo de ontwikkeling van AI-systemen te bevorderen die in staat zijn om op verantwoorde wijze om te gaan met enkele van de meest delicate beslissingen in de samenleving.
Recente vooruitgang in grote videomodellen (LVMs) heeft het begrip van video's aanzienlijk verbeterd. Deze modellen blijven echter last houden van hallucinaties, waarbij ze inhoud produceren die in strijd is met de invoervideo's. Om dit probleem aan te pakken, stellen we Dr.V voor, een hiërarchisch raamwerk dat perceptieve, temporele en cognitieve niveaus omvat om videohallucinaties te diagnosticeren door middel van fijnmazige ruimtelijk-temporele verankering. Dr.V bestaat uit twee belangrijke componenten: een benchmarkdataset Dr.V-Bench en een satellietvideo-agent Dr.V-Agent. Dr.V-Bench bevat 10.000 instanties afkomstig uit 4.974 video's die diverse taken bestrijken, elk verrijkt met gedetailleerde ruimtelijk-temporele annotaties. Dr.V-Agent detecteert hallucinaties in LVMs door systematisch fijnmazige ruimtelijk-temporele verankering toe te passen op perceptief en temporeel niveau, gevolgd door redenering op cognitief niveau. Deze stapsgewijze pipeline bootst menselijk videobegrip na en identificeert hallucinaties effectief. Uitgebreide experimenten tonen aan dat Dr.V-Agent effectief is in het diagnosticeren van hallucinaties, terwijl het de interpreteerbaarheid en betrouwbaarheid verbetert, en biedt een praktisch blauwdruk voor robuust videobegrip in realistische scenario's. Al onze data en code zijn beschikbaar op https://github.com/Eurekaleo/Dr.V.
Dit artikel presenteert ons systeem voor Taak 3 van het CLEF 2025 CheckThat! Lab, dat zich richt op het verifiëren van numerieke en temporele beweringen met behulp van opgehaald bewijsmateriaal. We onderzoeken twee complementaire benaderingen: zero-shot prompting met instructie-geoptimaliseerde grote taalmodellen (LLMs) en supervised fine-tuning met behulp van parameter-efficiënte LoRA. Om de kwaliteit van het bewijsmateriaal te verbeteren, onderzoeken we verschillende selectiestrategieën, waaronder volledige documentinvoer en top-k zin filtering met BM25 en MiniLM. Ons best presterende model, LLaMA, gefinetuned met LoRA, behaalt sterke prestaties op de Engelse validatieset. Een opvallende daling in de testset benadrukt echter een generalisatie-uitdaging. Deze bevindingen onderstrepen het belang van bewijsgranulariteit en modelaanpassing voor robuuste numerieke feitenverificatie.