Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hallucineren vaak bij vraag-antwoordtaken (QA). Een belangrijke maar onderbelichte factor die hieraan bijdraagt, is de temporaliteit van vragen -- of ze evergreen zijn (antwoorden blijven stabiel in de tijd) of veranderlijk (antwoorden veranderen). In dit werk introduceren we EverGreenQA, de eerste meertalige QA-dataset met evergreen-labels, die zowel evaluatie als training ondersteunt. Met behulp van EverGreenQA testen we 12 moderne LLMs om te beoordelen of ze vraag-temporaliteit expliciet coderen (via verbaal uitgesproken oordelen) of impliciet (via onzekerheidssignalen). We trainen ook EG-E5, een lichtgewicht meertalige classificator die state-of-the-art prestaties behaalt voor deze taak. Tot slot demonstreren we de praktische bruikbaarheid van evergreen-classificatie in drie toepassingen: het verbeteren van zelfkennis-schatting, het filteren van QA-datasets en het verklaren van het ophaalgedrag van GPT-4o.
We introduceren PartCrafter, het eerste gestructureerde 3D-generatieve model dat meerdere semantisch betekenisvolle en geometrisch verschillende 3D-meshes gezamenlijk synthetiseert vanuit een enkele RGB-afbeelding. In tegenstelling tot bestaande methoden die ofwel monolithische 3D-vormen produceren ofwel tweestaps pijplijnen volgen, d.w.z. eerst een afbeelding segmenteren en vervolgens elk segment reconstrueren, neemt PartCrafter een uniforme, compositionele generatie-architectuur aan die niet afhankelijk is van vooraf gesegmenteerde invoer. Geconditioneerd op een enkele afbeelding, denoiseert het gelijktijdig meerdere 3D-onderdelen, waardoor end-to-end part-aware generatie van zowel individuele objecten als complexe multi-objectscènes mogelijk wordt. PartCrafter bouwt voort op een vooraf getrainde 3D-mesh diffusie transformer (DiT) die is getraind op hele objecten, waarbij de vooraf getrainde gewichten, encoder en decoder worden geërfd, en introduceert twee belangrijke innovaties: (1) Een compositionele latente ruimte, waarin elk 3D-onderdeel wordt gerepresenteerd door een set ontvlochten latente tokens; (2) Een hiërarchisch aandachtmechanisme dat gestructureerde informatie-uitwisseling mogelijk maakt, zowel binnen individuele onderdelen als tussen alle onderdelen, waardoor globale samenhang wordt gewaarborgd terwijl onderdeelniveau-detail tijdens de generatie behouden blijft. Om toezicht op onderdeelniveau te ondersteunen, hebben we een nieuwe dataset samengesteld door annotaties op onderdeelniveau te extraheren uit grootschalige 3D-objectdatasets. Experimenten tonen aan dat PartCrafter bestaande benaderingen overtreft in het genereren van ontbindbare 3D-meshes, inclusief onderdelen die niet direct zichtbaar zijn in invoerafbeeldingen, wat de kracht aantoont van part-aware generatieve priors voor 3D-begrip en -synthese. Code en trainingsgegevens zullen worden vrijgegeven.
Hoewel multimodale grote taalmodellen (MLLMs) aanzienlijke vooruitgang hebben geboekt in complexe redeneertaken via reinforcement learning, wordt algemeen aangenomen dat uitgebreide trainingsdata noodzakelijk is om de multimodale redeneervaardigheid te verbeteren, wat onvermijdelijk leidt tot dataredundantie en aanzienlijke rekenkosten. Maar kunnen kleinere datasets met een hoge waarde de volledige corpora evenaren of overtreffen voor multimodaal redeneren in MLLMs? In dit werk dagen we deze aanname uit via een belangrijke observatie: zinvol multimodaal redeneren wordt slechts getriggerd door een schaarse subset van trainingsvoorbeelden, genaamd cognitieve voorbeelden, terwijl de meerderheid marginaal bijdraagt. Op basis van dit inzicht stellen we een nieuw dataselectieparadigma voor, genaamd Reasoning Activation Potential (RAP), dat cognitieve voorbeelden identificeert door het potentieel van elk voorbeeld om echt multimodaal redeneren te stimuleren te schatten via twee complementaire schatters: 1) de Causal Discrepancy Estimator (CDE), gebaseerd op het principe van het potentiële uitkomstmodel, elimineert voorbeelden die te veel vertrouwen op taalpriors door de uitvoer tussen multimodale en tekstuele invoer te vergelijken; 2) de Attention Confidence Estimator (ACE), die token-level zelf-attentie benut om voorbeelden te verwijderen die worden gedomineerd door irrelevante maar overbenadrukte tokens in tussenliggende redeneerstappen. Bovendien introduceren we een Difficulty-aware Replacement Module (DRM) om triviale instanties te vervangen door cognitief uitdagende, waardoor complexiteit wordt gewaarborgd voor robuust multimodaal redeneren. Experimenten op zes datasets tonen aan dat onze RAP-methode consistent superieure prestaties behaalt met slechts 9,3% van de trainingsdata, terwijl de rekenkosten met meer dan 43% worden verlaagd. Onze code is beschikbaar op https://github.com/Leo-ssl/RAP.
De prestaties van grote taalmodelen in domeinspecifieke taken vereisen fine-tuning, wat rekenkundig duur en technisch uitdagend is. Dit artikel richt zich op parameter-efficiënte fine-tuning met behulp van soft prompting, een veelbelovende aanpak die vooraf getrainde modellen aanpast aan downstream taken door een kleine set parameters te leren. Wij stellen een nieuwe Input Dependent Soft Prompting techniek voor met een self-Attention Mechanism (ID-SPAM) die soft prompts genereert op basis van de invoertokens en verschillende tokens met variërend belang aandacht geeft. Onze methode is eenvoudig en efficiënt, waarbij het aantal trainbare parameters klein blijft. We tonen de voordelen van de voorgestelde aanpak in vergelijking met state-of-the-art technieken op verschillende taken en laten de verbeterde zero-shot domeinoverdrachtsmogelijkheid zien.
Ondanks snelle vooruitgang in visie-taalmodellen (VLMs), schieten huidige benchmarks voor multimodale redenering tekort in drie belangrijke dimensies. Ten eerste vertrouwen ze overweldigend op statische afbeeldingen, waardoor ze de temporele complexiteit van realistische omgevingen niet vastleggen. Ten tweede richten ze zich nauw op wiskundig probleemoplossen, waarbij het bredere spectrum van redeneervaardigheden — inclusief abstracte, fysieke, plannings-, ruimtelijke en temporele vaardigheden — die nodig zijn voor robuuste multimodale intelligentie, wordt verwaarloosd. Ten derde raken veel benchmarks snel verzadigd, wat beperkte ruimte biedt voor het diagnosticeren van faalmodi of het meten van voortdurende vooruitgang. We introduceren MORSE-500 (Multimodal Reasoning Stress-test Environment), een videobenchmark bestaande uit 500 volledig gescripte clips met ingebedde vragen die zes complementaire redeneercategorieën beslaan. Elk geval wordt programmatisch gegenereerd met behulp van deterministische Python-scripts (via Manim, Matplotlib, MoviePy), generatieve videomodellen en gecureerde echte beelden. Dit scriptgestuurde ontwerp maakt fijnmazige controle mogelijk over visuele complexiteit, afleidingsdichtheid en temporele dynamiek — waardoor de moeilijkheidsgraad systematisch kan worden geschaald naarmate modellen verbeteren. In tegenstelling tot statische benchmarks die verouderd raken zodra ze verzadigd zijn, is MORSE-500 gebouwd om te evolueren: de controleerbare generatiepijplijn ondersteunt het creëren van willekeurig uitdagende nieuwe gevallen, waardoor het ideaal is geschikt voor het stresstesten van modellen van de volgende generatie. Initiële experimenten met state-of-the-art systemen — waaronder verschillende Gemini 2.5 Pro en OpenAI o3, die de sterkste beschikbare modellen op dat moment vertegenwoordigen, naast sterke open-source modellen — onthullen aanzienlijke prestatiekloof in alle categorieën, met name grote tekortkomingen in abstracte en plannings taken. We geven de volledige dataset, generatiescripts en evaluatieharnas vrij om transparant, reproduceerbaar en toekomstgericht onderzoek naar multimodale redenering te ondersteunen.
Hoogwaardige, grootschalige audiobeschrijving is cruciaal voor het bevorderen van audiobegrip, maar huidige geautomatiseerde methoden genereren vaak beschrijvingen die fijnmazige details en contextuele nauwkeurigheid missen, voornamelijk vanwege hun afhankelijkheid van beperkte unimodale of oppervlakkige multimodale informatie. Geïnspireerd door de menselijke auditieve waarneming, die op vaardige wijze kruismodale signalen integreert en geavanceerde auditieve scène-analyse uitvoert, introduceren we een nieuwe tweefasen geautomatiseerde pijplijn. Deze pijplijn maakt eerst gebruik van gespecialiseerde vooraf getrainde modellen om diverse contextuele signalen te extraheren (bijvoorbeeld spraak, muziek, algemene geluiden en visuele informatie uit bijbehorende video). Een groot taalmodel (LLM) synthetiseert vervolgens deze rijke, multimodale inputs om gedetailleerde en contextbewuste audiobeschrijvingen te genereren. Belangrijke bijdragen van dit werk omvatten: (1) de voorgestelde schaalbare methode voor het genereren van fijnmazige audiobeschrijvingen; (2) FusionAudio, een nieuwe grootschalige dataset bestaande uit 1,2 miljoen van dergelijke gedetailleerde beschrijvingen, gecombineerd met 6 miljoen vraag-antwoordparen; en (3) verbeterde audiomodellen ontwikkeld met FusionAudio, specifiek een CLAP-gebaseerde audio-encoder met superieure audio-tekstuitlijning en instructievolging. Dit artikel bereidt de weg voor een genuanceerder en nauwkeuriger geautomatiseerd begrip van complexe audio-omgevingen. Code en data zijn te vinden op https://github.com/satsuki2486441738/FusionAudio.
Grote Taalmodellen (LLMs) worden steeds krachtiger, maar blijven kwetsbaar voor prompt injection-aanvallen, waarbij kwaadaardige invoer het model doet afwijken van de beoogde instructies. Dit artikel introduceert Sentinel, een nieuw detectiemodel, qualifire/prompt-injection-sentinel, gebaseerd op de \answerdotai/ModernBERT-large-architectuur. Door gebruik te maken van de geavanceerde functies van ModernBERT en afstemming op een uitgebreide en diverse dataset die enkele open-source en privécollecties omvat, bereikt Sentinel state-of-the-art prestaties. Deze dataset combineert verschillende aanvalstypen, van role-playing en instructiekaping tot pogingen om bevooroordeelde inhoud te genereren, naast een breed scala aan goedaardige instructies, waarbij privé-datasets specifiek gericht zijn op genuanceerde foutcorrectie en real-world misclassificaties. Op een uitgebreide, onbekende interne testset toont Sentinel een gemiddelde nauwkeurigheid van 0,987 en een F1-score van 0,980. Bovendien presteert het bij evaluatie op openbare benchmarks consistent beter dan sterke baselines zoals protectai/deberta-v3-base-prompt-injection-v2. Dit werk beschrijft gedetailleerd de architectuur van Sentinel, de zorgvuldige curatie van de dataset, de trainingsmethodologie en een grondige evaluatie, waarbij de superieure detectiecapaciteiten worden benadrukt.
Omni-modale taalmodellen (OLMs) streven ernaar om diverse invoermodaliteiten—zoals tekst, afbeeldingen, video en audio—te integreren en te redeneren, terwijl ze sterke taalvaardigheden behouden. Ondanks recente vooruitgang blijven bestaande modellen, met name open-source modellen, ver verwijderd van echte omni-modaliteit. Ze hebben moeite om verder te generaliseren dan de specifieke modaliteitsparen waarop ze zijn getraind of om sterke prestaties te behalen bij het verwerken van multimodale invoer. We bestuderen het effect van modaliteitsuitbreiding, de dominante techniek voor het trainen van multimodale modellen, waarbij een standaard taalmodel wordt verfijnd op doelgebied- en taalgegevens. Specifiek onderzoeken we drie belangrijke vragen: (1) Compromitteert modaliteitsuitbreiding de kern taalvaardigheden? (2) Kan modelmerging onafhankelijk verfijnde modaliteitsspecifieke modellen effectief integreren om omni-modaliteit te bereiken? (3) Leidt omni-modaliteitsuitbreiding tot betere kennisuitwisseling en generalisatie vergeleken met sequentiële uitbreiding? Door middel van uitgebreide experimenten analyseren we deze afwegingen en bieden we inzichten in de haalbaarheid van het bereiken van echte omni-modaliteit met behulp van huidige benaderingen.
We presenteren STARFlow, een schaalbare generatieve model gebaseerd op normaliserende stromen dat sterke prestaties behaalt in de synthese van hoogresolutiebeelden. De kern van STARFlow is Transformer Autoregressive Flow (TARFlow), dat de expressieve kracht van normaliserende stromen combineert met de gestructureerde modelleringscapaciteiten van Autoregressive Transformers. We beginnen met het vaststellen van de theoretische universaliteit van TARFlow voor het modelleren van continue verdelingen. Op basis van deze fundering introduceren we verschillende belangrijke architectonische en algoritmische innovaties om de schaalbaarheid aanzienlijk te verbeteren: (1) een diep-ondiep ontwerp, waarbij een diep Transformer-blok het grootste deel van de representatiecapaciteit van het model vastlegt, aangevuld door enkele ondiepe Transformer-blokken die computationeel efficiënt zijn maar toch aanzienlijk voordelig; (2) modellering in de latente ruimte van vooraf getrainde auto-encoders, wat effectiever blijkt dan directe pixelgebaseerde modellering; en (3) een nieuw begeleidingsalgoritme dat de kwaliteit van de gegenereerde monsters aanzienlijk verbetert. Cruciaal is dat ons model een end-to-end normaliserende stroom blijft, waardoor exacte maximum likelihood training in continue ruimten mogelijk is zonder discretisering. STARFlow behaalt competitieve prestaties in zowel klasse-conditionele als tekst-conditionele beeldgeneratietaken, en benadert de kwaliteit van state-of-the-art diffusiemodellen. Voor zover wij weten, is dit werk de eerste succesvolle demonstratie van normaliserende stromen die effectief werken op deze schaal en resolutie.
Het bieden van effectieve behandelingen en het nemen van weloverwogen klinische beslissingen zijn essentiële doelstellingen van de moderne geneeskunde en klinische zorg. Wij zijn geïnteresseerd in het simuleren van ziekte dynamiek voor klinische besluitvorming, waarbij we gebruikmaken van recente vooruitgang in grote generatieve modellen. Hiertoe introduceren we het Medical World Model (MeWM), het eerste wereldmodel in de geneeskunde dat visueel toekomstige ziektebeelden voorspelt op basis van klinische beslissingen. MeWM bestaat uit (i) vision-language modellen die dienen als beleidsmodellen, en (ii) tumor generatieve modellen als dynamiekmodellen. Het beleidsmodel genereert actieplannen, zoals klinische behandelingen, terwijl het dynamiekmodel de progressie of regressie van tumoren simuleert onder gegeven behandelingsomstandigheden. Hierop voortbouwend stellen we het inverse dynamiekmodel voor, dat overlevingsanalyse toepast op de gesimuleerde post-behandelingstumor, waardoor de effectiviteit van de behandeling kan worden geëvalueerd en het optimale klinische actieplan kan worden geselecteerd. Als resultaat simuleert het voorgestelde MeWM ziekte dynamiek door het synthetiseren van post-behandelingstumoren, met state-of-the-art specificiteit in Turingtests die door radiologen worden geëvalueerd. Tegelijkertijd presteert het inverse dynamiekmodel beter dan medisch gespecialiseerde GPT's in het optimaliseren van geïndividualiseerde behandelprotocollen op alle metrieken. Opmerkelijk is dat MeWM de klinische besluitvorming voor interventionele artsen verbetert, waardoor de F1-score bij het selecteren van het optimale TACE-protocol met 13% stijgt, en zo de weg vrijmaakt voor toekomstige integratie van medische wereldmodellen als tweede lezers.
Audio-aware grote taalmodellen (ALLMs) kunnen de tekstuele en niet-tekstuele informatie in audio-invoer begrijpen. In dit artikel onderzoeken we het gebruik van ALLMs als automatische beoordelaar om de spreekstijlen van toespraken te beoordelen. We gebruiken ALLM-beoordelaars om de toespraken te evalueren die door SLMs zijn gegenereerd voor twee taken: het volgen van stemstijlinstructies en rollenspel. De spreekstijl die we beschouwen omvat emotie, volume, spreektempo, woordnadruk, toonhoogtebeheersing en non-verbale elementen. We gebruiken vier gesproken taalmodellen (SLMs) om de twee taken uit te voeren en laten zowel mensen als ALLMs de reacties van de SLMs beoordelen. We vergelijken twee ALLM-beoordelaars, GPT-4o-audio en Gemini-2.5-pro, met de resultaten van menselijke evaluaties en laten zien dat de overeenstemming tussen Gemini en menselijke beoordelaars vergelijkbaar is met de overeenstemming tussen menselijke evaluatoren. Deze veelbelovende resultaten tonen aan dat ALLMs kunnen worden gebruikt als beoordelaar om SLMs te evalueren. Onze resultaten laten ook zien dat huidige SLMs, zelfs GPT-4o-audio, nog ruimte voor verbetering hebben in het beheersen van de spreekstijl en het genereren van natuurlijke dialogen.
De ontwikkeling van moderne Kunstmatige Intelligentie (AI)-modellen, met name diffusiegebaseerde modellen die worden ingezet bij computervisie- en beeldgeneratietaken, ondergaat een paradigmatische verschuiving in ontwikkelingsmethodologieën. Traditioneel gedomineerd door een "Model Centric"-benadering, waarbij prestatieverbeteringen voornamelijk werden nagestreefd door steeds complexere modelarchitecturen en hyperparameteroptimalisatie, erkent het veld nu een meer genuanceerde "Data-Centric"-benadering. Dit opkomende kader plaatst de kwaliteit, structuur en relevantie van trainingsgegevens als de belangrijkste drijfveer van modelprestaties. Om deze paradigmaverschuiving operationeel te maken, introduceren we de DataSeeds.AI-steekproefdataset (de "DSD"), aanvankelijk bestaande uit ongeveer 10.610 hoogwaardige, door mensen beoordeelde fotografische afbeeldingen, vergezeld van uitgebreide, meerlagige annotaties. De DSD is een fundamentele computervisie-dataset die is ontworpen om een nieuwe standaard in te luiden voor commerciële beelddatasets. Als een klein deel van DataSeed.AI's catalogus van meer dan 100 miljoen afbeeldingen, biedt de DSD een schaalbare basis die noodzakelijk is voor robuuste commerciële en multimodale AI-ontwikkeling. Door middel van deze diepgaande verkennende analyse documenteren we de kwantitatieve verbeteringen die de DSD genereert bij specifieke modellen ten opzichte van bekende benchmarks, en stellen we de code en de getrainde modellen die in onze evaluatie zijn gebruikt, openbaar beschikbaar.
Het waarnemen van de wereld vanuit zowel egocentrisch (eerste persoon) als exocentrisch (derde persoon) perspectief is fundamenteel voor de menselijke cognitie, wat een rijk en complementair begrip van dynamische omgevingen mogelijk maakt. De laatste jaren is het toestaan van machines om het synergetische potentieel van deze dubbele perspectieven te benutten, naar voren gekomen als een boeiende onderzoeksrichting in videobegrip. In dit overzicht bieden we een uitgebreide review van videobegrip vanuit zowel exocentrisch als egocentrisch perspectief. We beginnen met het benadrukken van de praktische toepassingen van het integreren van egocentrische en exocentrische technieken, waarbij we hun potentiële samenwerking in verschillende domeinen voorstellen. Vervolgens identificeren we belangrijke onderzoeks taken om deze toepassingen te realiseren. Daarna organiseren en bespreken we systematisch recente vooruitgang in drie hoofdonderzoeksrichtingen: (1) het benutten van egocentrische gegevens om exocentrisch begrip te verbeteren, (2) het gebruik van exocentrische gegevens om egocentrische analyse te versterken, en (3) gezamenlijke leerframeworks die beide perspectieven verenigen. Voor elke richting analyseren we een diverse set van taken en relevante werken. Daarnaast bespreken we benchmarkdatasets die onderzoek in beide perspectieven ondersteunen, waarbij we hun reikwijdte, diversiteit en toepasbaarheid evalueren. Tot slot bespreken we beperkingen in huidige werken en stellen we veelbelovende toekomstige onderzoeksrichtingen voor. Door inzichten uit beide perspectieven te synthetiseren, is ons doel om vooruitgang in videobegrip en kunstmatige intelligentie te inspireren, waardoor machines dichter bij het waarnemen van de wereld op een menselijke manier komen. Een GitHub-repo van gerelateerde werken is te vinden op https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
LLM's staan op het punt de gezondheidszorg te transformeren met geavanceerde beslissingsondersteuning en flexibele chatassistenten. Echter, LLM's hebben de neiging om onnauwkeurige medische inhoud te genereren. Om LLM's te verankeren in hoogwaardige medische kennis, zijn ze uitgerust met externe kennis via RAG, waarbij ongestructureerde medische kennis wordt opgesplitst in kleine tekstfragmenten die selectief kunnen worden opgehaald en geïntegreerd in de context van de LLM's. Toch vertrouwen bestaande RAG-pijplijnen op ruwe, ongestructureerde medische tekst, die lawaaierig, ongecurateerd en moeilijk te benutten kan zijn voor LLM's. Systematische benaderingen om medische kennis zo te organiseren dat deze optimaal aan LLM's wordt gepresenteerd, ontbreken over het algemeen. Om deze uitdagingen aan te pakken, introduceren we MIRIAD, een grootschalige, gecurateerde corpus van 5.821.948 medische vraag-antwoordparen, elk herformuleerd en verankerd in een passage uit peer-reviewed medische literatuur met behulp van een semi-geautomatiseerde pijplijn die LLM-generatie, filtering, verankering en menselijke annotatie combineert. In tegenstelling tot eerdere medische corpora, die vertrouwen op ongestructureerde tekst, vat MIRIAD web-schaal medische kennis samen in een operationeel vraag-antwoordformaat, wat gerichtere retrievel mogelijk maakt. Experimenten op uitdagende medische vraag-antwoordbenchmarks tonen aan dat het verrijken van LLM's met MIRIAD de nauwkeurigheid met tot 6,7% verbetert in vergelijking met ongestructureerde RAG-baselines met dezelfde broncorpus en dezelfde hoeveelheid opgehaalde tekst. Bovendien verbeterde MIRIAD het vermogen van LLM's om medische hallucinaties te detecteren met 22,5 tot 37% (toename in F1-score). We introduceren verder MIRIAD-Atlas, een interactieve kaart van MIRIAD die 56 medische disciplines omvat, waardoor klinische gebruikers visueel medische kennis kunnen verkennen, zoeken en verfijnen. MIRIAD belooft een schat aan downstream-toepassingen te ontsluiten, waaronder medische informatie-retrievers, verbeterde RAG-toepassingen en kennis-gebaseerde chatinterfaces, wat uiteindelijk betrouwbaardere LLM-toepassingen in de gezondheidszorg mogelijk maakt.
Competitive programming, vanwege de hoge redeneercomplexiteit en precieze correctheidsfeedback, is een belangrijke taak geworden voor zowel het trainen als het evalueren van de redeneervaardigheden van grote taalmodellen (LLMs). Hoewel er echter een grote hoeveelheid openbare probleemgegevens beschikbaar is, zoals probleemstellingen en oplossingen, zijn de testgevallen van deze problemen vaak moeilijk te verkrijgen. Daarom is het genereren van testgevallen een noodzakelijke taak voor het opbouwen van grootschalige datasets, en de kwaliteit van de testgevallen bepaalt direct de nauwkeurigheid van de evaluatie. In dit artikel introduceren we een LLM-gebaseerd agentsysteem dat hoogwaardige testgevallen creëert voor competitive programming problemen. We passen dit systeem toe op de CodeContests-dataset en stellen een nieuwe versie voor met verbeterde testgevallen, genaamd CodeContests+. We hebben de kwaliteit van de testgevallen in CodeContestsPlus geëvalueerd. Eerst hebben we 1,72 miljoen inzendingen met geslaagd/mislukt-labels gebruikt om de nauwkeurigheid van deze testgevallen in de evaluatie te onderzoeken. De resultaten toonden aan dat CodeContests+ een aanzienlijk hogere nauwkeurigheid bereikt dan CodeContests, met name een opmerkelijk hogere True Positive Rate (TPR). Vervolgens bevestigden onze experimenten in LLM Reinforcement Learning (RL) verder dat verbeteringen in de kwaliteit van testgevallen aanzienlijke voordelen opleveren voor RL.
Het creëren van nauwkeurige, fysieke simulaties direct vanuit de bewegingen van echte robots is van grote waarde voor veilig, schaalbaar en betaalbaar robotleren, maar blijft buitengewoon uitdagend. Echte robotgegevens lijden onder occlusies, ruis in cameraposities en dynamische scène-elementen, wat de creatie van geometrisch nauwkeurige en fotorealistische digitale tweelingen van onbekende objecten belemmert. Wij introduceren een nieuw real-to-sim raamwerk dat al deze uitdagingen tegelijk aanpakt. Onze belangrijkste inzicht is een hybride scène-representatie die het fotorealistische renderen van 3D Gaussian Splatting combineert met expliciete objectmeshes die geschikt zijn voor fysica-simulatie binnen een enkele representatie. We stellen een end-to-end optimalisatiepijplijn voor die differentieerbaar renderen en differentieerbare fysica binnen MuJoCo benut om alle scènecomponenten gezamenlijk te verfijnen - van objectgeometrie en -uiterlijk tot robotposities en fysische parameters - direct vanuit ruwe en onnauwkeurige robotbanen. Deze geïntegreerde optimalisatie stelt ons in staat om tegelijkertijd hoogwaardige objectmesh-reconstructie te bereiken, fotorealistische nieuwe aanzichten te genereren en annotatievrije robotposekalibratie uit te voeren. We demonstreren de effectiviteit van onze aanpak zowel in simulatie als op uitdagende real-world sequenties met behulp van een ALOHA 2 bi-manuele manipulator, waardoor praktischer en robuustere real-to-simulation pijplijnen mogelijk worden.
Manipulatie is al lang een uitdagende taak voor robots, terwijl mensen moeiteloos complexe interacties met objecten kunnen uitvoeren, zoals het ophangen van een kopje aan de bekerhouder. Een belangrijke reden hiervoor is het ontbreken van een grote en uniforme dataset voor het aanleren van manipulatietechnieken aan robots. Huidige robotdatasets registreren vaak robotacties in verschillende actieruimtes binnen een eenvoudige scène. Dit belemmert het vermogen van de robot om een uniforme en robuuste actierepresentatie te leren voor verschillende robots in diverse scènes. Door te observeren hoe mensen een manipulatietaak begrijpen, ontdekken we dat het begrijpen van hoe objecten in de 3D-ruimte moeten bewegen een cruciaal aanknopingspunt is voor het sturen van acties. Dit aanknopingspunt is onafhankelijk van de belichaming en geschikt voor zowel mensen als verschillende robots. Gemotiveerd door dit inzicht, streven we ernaar een 3D-stroomwereldmodel te leren van zowel menselijke als robotmanipulatiedata. Dit model voorspelt de toekomstige beweging van de interagerende objecten in de 3D-ruimte, wat de actieplanning voor manipulatie begeleidt. Specifiek synthetiseren we een grootschalige 3D-optische stroomdataset, genaamd ManiFlow-110k, via een pijplijn voor automatische detectie van bewegende objecten. Een op videodiffusie gebaseerd wereldmodel leert vervolgens de fysica van manipulatie uit deze data, waarbij het 3D-optische stroomtrajecten genereert die zijn geconditioneerd op taalinstellingen. Met de gegenereerde 3D-objectoptische stroom stellen we een stroomgestuurd renderingsmechanisme voor, dat de voorspelde eindtoestand weergeeft en GPT-4o gebruikt om te beoordelen of de voorspelde stroom overeenkomt met de taakbeschrijving. Dit voorziet de robot van een gesloten-lusplanningvermogen. Ten slotte beschouwen we de voorspelde 3D-optische stroom als beperkingen voor een optimalisatiebeleid om een reeks robotacties voor manipulatie te bepalen. Uitgebreide experimenten tonen een sterke generalisatie aan over diverse robotmanipulatietaken en betrouwbare cross-embodiment-aanpassing zonder hardware-specifieke training.
AI voor levenscyclusbeheer van industriële activa heeft als doel complexe operationele workflows te automatiseren – zoals conditiemonitoring, onderhoudsplanning en interventieplanning – om de menselijke werklast te verminderen en systeemuitval te minimaliseren. Traditionele AI/ML-benaderingen hebben deze problemen voornamelijk geïsoleerd aangepakt, waarbij specifieke taken binnen het bredere operationele proces werden opgelost. Daarentegen bieden de opkomst van AI-agenten en grote taalmodellen (LLMs) een nieuwe generatie mogelijkheden: het mogelijk maken van end-to-end automatisering over de gehele levenscyclus van activa. Dit artikel schetst een toekomst waarin AI-agenten taken autonoom beheren die voorheen specifieke expertise en handmatige coördinatie vereisten. Hiertoe introduceren we AssetOpsBench – een uniform raamwerk en omgeving ontworpen om de ontwikkeling, orchestratie en evaluatie van domeinspecifieke agenten te begeleiden, afgestemd op Industry 4.0-toepassingen. We beschrijven de belangrijkste vereisten voor dergelijke holistische systemen en bieden praktische inzichten voor het bouwen van agenten die perceptie, redenering en controle integreren voor real-world industriële operaties. De software is beschikbaar op https://github.com/IBM/AssetOpsBench.
Snelle vooruitgang in Large Language Models (LLM's) stimuleert de ontwikkeling van autonome Multi-Agent Systemen (MAS). Huidige frameworks missen echter vaak flexibiliteit, resourcebewustzijn, modeldiversiteit en autonome toolcreatie. Dit artikel introduceert HASHIRU (Hierarchical Agent System for Hybrid Intelligent Resource Utilization), een nieuw MAS-framework dat flexibiliteit, resource-efficiëntie en aanpassingsvermogen verbetert. HASHIRU beschikt over een "CEO"-agent die gespecialiseerde "werknemer"-agenten dynamisch beheert, geïnstantieerd op basis van taakbehoeften en resourcebeperkingen (kosten, geheugen). De hybride intelligentie geeft prioriteit aan kleinere, lokale LLM's (via Ollama) terwijl het flexibel externe API's en grotere modellen gebruikt wanneer nodig. Een economisch model met aanwervings-/ontslagkosten bevordert teamstabiliteit en efficiënte resourceallocatie. Het systeem omvat ook autonome API-toolcreatie en een geheugenfunctie. Evaluaties van taken zoals academische paperreview (58% succes), veiligheidsbeoordelingen (100% op een JailbreakBench-subset) en complex redeneren (beter presterend dan Gemini 2.0 Flash op GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%) demonstreren de mogelijkheden van HASHIRU. Casestudies illustreren de zelfverbetering via autonome kostenmodelgeneratie, toolintegratie en budgetbeheer. HASHIRU biedt een veelbelovende aanpak voor robuustere, efficiëntere en aanpasbaardere MAS door dynamische hiërarchische controle, resourcebewuste hybride intelligentie en autonome functionele uitbreiding. Broncode en benchmarks zijn beschikbaar op https://github.com/HASHIRU-AI/HASHIRU en https://github.com/HASHIRU-AI/HASHIRUBench respectievelijk, en een live demo is beschikbaar op https://hashiruagentx-hashiruai.hf.space op verzoek.
Grote Multimodale Modellen (LMMs) hebben indrukwekkende vooruitgang geboekt in visuele waarneming en redenering. Wanneer ze echter worden geconfronteerd met visueel dubbelzinnige of niet-semantische scènetekst, hebben ze vaak moeite om de inhoud nauwkeurig te herkennen en te begrijpen, waarbij ze vaak semantisch plausibele maar visueel incorrecte antwoorden genereren, wat we semantische hallucinatie noemen. In dit werk onderzoeken we de onderliggende oorzaken van semantische hallucinatie en identificeren we een belangrijk inzicht: Transformer-lagen in LLM met een sterkere aandacht voor scènetekstregio's zijn minder gevoelig voor het produceren van semantische hallucinaties. Daarom stellen we een trainingsvrij raamwerk voor om semantische hallucinatie te verminderen, bestaande uit twee belangrijke componenten: (1) ZoomText, een grof-naar-fijn strategie die potentiële tekstregio's identificeert zonder externe detectoren; en (2) Grounded Layer Correction, dat adaptief gebruikmaakt van de interne representaties van lagen die minder gevoelig zijn voor hallucinatie om het decoderen te begeleiden, waardoor hallucinerende uitvoer voor niet-semantische voorbeelden wordt gecorrigeerd terwijl de semantiek van betekenisvolle voorbeelden behouden blijft. Om een rigoureuze evaluatie mogelijk te maken, introduceren we TextHalu-Bench, een benchmark van meer dan 1.730 voorbeelden die zowel semantische als niet-semantische gevallen omvat, met handmatig samengestelde vraag-antwoordparen die zijn ontworpen om modelhallucinaties te onderzoeken. Uitgebreide experimenten tonen aan dat onze methode niet alleen effectief semantische hallucinatie vermindert, maar ook sterke prestaties levert op openbare benchmarks voor het herkennen en begrijpen van scènetekst.
Group Relative Policy Optimization (GRPO) verbetert het leren van beleid door gradiënten te berekenen uit relatieve vergelijkingen tussen kandidaat-uitvoeren die een gemeenschappelijk invoervoorvoegsel delen. Ondanks de effectiviteit introduceert GRPO aanzienlijke rekenkundige overhead bij het verwerken van lange gedeelde voorvoegsels, die voor elk groepslid redundant gecodeerd moeten worden. Deze inefficiëntie wordt een grote schaalbaarheidsbelemmering in scenario's met lange contexten. Wij stellen Prefix Grouper voor, een efficiënt GRPO-trainingsalgoritme dat redundante voorvoegselberekeningen elimineert via een Shared-Prefix Forward-strategie. In het bijzonder, door self-attention op te splitsen in twee delen, maakt onze methode het mogelijk dat het gedeelde voorvoegsel slechts één keer wordt gecodeerd, terwijl volledige differentieerbaarheid en compatibiliteit met end-to-end training behouden blijven. Wij leveren zowel theoretisch als empirisch bewijs dat Prefix Grouper trainingsequivalent is aan standaard GRPO: het levert identieke voorwaartse uitvoeren en achterwaartse gradiënten op, waardoor de optimalisatiedynamiek en de uiteindelijke beleidsprestaties ongewijzigd blijven. Empirisch bevestigen onze experimenten dat Prefix Grouper consistente resultaten behaalt terwijl de rekenkundige kosten van het trainen aanzienlijk worden verlaagd, vooral in scenario's met lange voorvoegsels. De voorgestelde methode is volledig plug-and-play: het is compatibel met bestaande GRPO-gebaseerde architecturen en kan naadloos worden geïntegreerd in huidige trainingspijplijnen als een drop-in vervanging, zonder structurele aanpassingen en met slechts minimale wijzigingen aan invoerconstructie en aandachtberekening. Prefix Grouper maakt het gebruik van grotere groepsgroottes mogelijk binnen hetzelfde rekenkundige budget, waardoor de schaalbaarheid van GRPO naar complexere taken en grotere modellen wordt verbeterd. Code is nu beschikbaar op https://github.com/johncaged/PrefixGrouper.
Recente vooruitgang in AI-redenering heeft aanzienlijke verbeteringen teweeggebracht in diverse taken. Een kritieke open vraag is of deze verbeteringen ook leiden tot betere kennisoverdracht: het vermogen van modellen om redeneringen op een manier te communiceren die mensen kunnen begrijpen, toepassen en van kunnen leren. Om dit te onderzoeken, introduceren we Knowledge Integration and Transfer Evaluation (KITE), een conceptueel en experimenteel raamwerk voor mens-AI-kennisoverdracht, en voeren we de eerste grootschalige menselijke studie (N=118) uit die expliciet is ontworpen om dit te meten. In onze tweefasenopzet werken mensen eerst samen met een AI aan het bedenken van probleemoplossende strategieën, waarna ze onafhankelijk oplossingen implementeren, waardoor de invloed van modelverklaringen op menselijk begrip wordt geïsoleerd. Onze bevindingen laten zien dat hoewel modelprestaties in benchmarks correleren met collaboratieve resultaten, deze relatie opvallend inconsistent is, met significante uitschieters, wat aangeeft dat kennisoverdracht gerichte optimalisatie vereist. Onze analyse identificeert gedrags- en strategische factoren die succesvolle kennisoverdracht bemiddelen. We maken onze code, dataset en evaluatieraamwerk beschikbaar om toekomstig werk aan communicatief afgestemde modellen te ondersteunen.
Informatie-extractie (IE) systemen zijn traditioneel domeinspecifiek, waardoor kostbare aanpassingen nodig zijn die expertschema-ontwerp, gegevensannotatie en modeltraining vereisen. Hoewel grote taalmodelen potentie hebben getoond in zero-shot IE, neemt de prestaties aanzienlijk af in onbekende domeinen waar labeldefinities verschillen. Dit artikel introduceert GUIDEX, een nieuwe methode die automatisch domeinspecifieke schema's definieert, richtlijnen afleidt en synthetisch gelabelde instanties genereert, waardoor betere generalisatie buiten het domein mogelijk wordt. Het finetunen van Llama 3.1 met GUIDEX stelt een nieuwe state-of-the-art in zeven zero-shot Named Entity Recognition benchmarks. Modellen getraind met GUIDEX behalen tot 7 F1-punten meer dan vorige methoden zonder door mensen gelabelde gegevens, en bijna 2 F1-punten hoger wanneer ze hiermee gecombineerd worden. Modellen getraind op GUIDEX tonen een verbeterd begrip van complexe, domeinspecifieke annotatieschema's. Code, modellen en synthetische datasets zijn beschikbaar op neilus03.github.io/guidex.com.
State-space modellen (SSMs) bieden een veelbelovende architectuur voor sequentiemodellering en vormen een alternatief voor Transformers door dure zelf-attentie te vervangen met lineaire recurrenties. In dit artikel introduceren we een eenvoudige maar effectieve truc om SSMs te verbeteren binnen gegeven rekenbudgetten door ze te versparsen. Onze intuïtie is dat tokens in SSMs sterk redundant zijn vanwege geleidelijke recurrentie-updates, en dat dichte recurrentie-operaties de overdracht van informatie uit het verleden blokkeren. In het bijzonder merken we op dat de bovenste lagen van SSMs vaak meer redundant zijn omdat ze globale informatie coderen, terwijl de onderste lagen lokale informatie coderen. Gemotiveerd door dit inzicht introduceren we Simba, een hiërarchische versparsingsmethode voor SSMs gebaseerd op token pruning. Simba versparst de bovenste lagen meer dan de onderste lagen, waardoor de bovenste lagen zich meer als snelwegen gaan gedragen. Om dit te bereiken, stellen we een nieuw token pruning-criterium voor SSMs voor, dat de globale impact van tokens op de uiteindelijke uitvoer meet door lokale recurrenties op te tellen. We demonstreren dat Simba het baseline-model, Mamba, overtreft met hetzelfde aantal FLOPS in verschillende natuurlijke-taaltaken. Bovendien illustreren we het effect van snelwegen, waarbij we aantonen dat Simba niet alleen de efficiëntie verbetert, maar ook de informatiestroom over lange sequenties optimaliseert. Code is beschikbaar op https://github.com/woominsong/Simba.