Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate Large Language Models (LLMs) zich snel ontwikkelen, wordt het geven van nauwkeurige feedback en schaalbare controle op hun uitvoer een urgent en kritisch probleem. Het inzetten van LLMs als kritiekmodellen om geautomatiseerd toezicht te bereiken, is een veelbelovende oplossing. In dit werk richten we ons op het bestuderen en verbeteren van de wiskundige kritiekvaardigheid van LLMs. Huidige LLM-critici leveren kritiek die te oppervlakkig is voor elke stap, wat leidt tot een lage beoordelingsnauwkeurigheid en moeite om voldoende feedback te geven voor de LLM-generator om fouten te corrigeren. Om dit probleem aan te pakken, stellen we een nieuw en effectief tweestappenframework voor om LLM-critici te ontwikkelen die in staat zijn om bewust kritiek te leveren op elke redeneerstap van wiskundige oplossingen. In de eerste fase gebruiken we Qwen2.5-72B-Instruct om 4.5K uitgebreide kritieken te genereren als startgegevens voor supervised fine-tuning. Elke startkritiek bestaat uit bewuste stap-voor-stap kritieken die multi-perspectief verificaties omvatten, evenals diepgaande kritieken van initiële kritieken voor elke redeneerstap. Vervolgens voeren we reinforcement learning uit op het fijn afgestemde model met bestaande door mensen gelabelde gegevens van PRM800K of onze automatisch geannoteerde gegevens verkregen via Monte Carlo sampling-gebaseerde correctheidsschatting, om de kritiekvaardigheid verder te stimuleren. Ons ontwikkelde kritiekmodel, gebouwd op Qwen2.5-7B-Instruct, presteert niet alleen aanzienlijk beter dan bestaande LLM-critici (inclusief dezelfde grootte DeepSeek-R1-distill modellen en GPT-4o) op verschillende foutidentificatiebenchmarks, maar helpt ook effectiever de LLM-generator om foutieve stappen te verfijnen door meer gedetailleerde feedback.
Interactieve Generatieve Video (IGV) is naar voren gekomen als een cruciale technologie als reactie op de groeiende vraag naar hoogwaardige, interactieve video-inhoud in verschillende domeinen. In dit artikel definiëren we IGV als een technologie die generatieve mogelijkheden combineert om diverse hoogwaardige video-inhoud te produceren met interactieve functies die gebruikersbetrokkenheid mogelijk maken via controlesignalen en responsieve feedback. We geven een overzicht van de huidige toepassingen van IGV, met de focus op drie belangrijke domeinen: 1) gaming, waar IGV oneindige verkenning in virtuele werelden mogelijk maakt; 2) embodied AI, waar IGV dient als een fysica-bewuste omgevingssynthesizer voor het trainen van agents in multimodale interactie met dynamisch evoluerende scènes; en 3) autonoom rijden, waar IGV gesloten-lus simulatiemogelijkheden biedt voor veiligheidskritische tests en validatie. Om toekomstige ontwikkeling te begeleiden, stellen we een uitgebreid raamwerk voor dat een ideaal IGV-systeem opsplitst in vijf essentiële modules: Generatie, Controle, Geheugen, Dynamiek en Intelligentie. Bovendien analyseren we systematisch de technische uitdagingen en toekomstige richtingen voor het realiseren van elk onderdeel van een ideaal IGV-systeem, zoals het bereiken van real-time generatie, het mogelijk maken van open-domein controle, het behouden van langetermijncoherentie, het simuleren van nauwkeurige fysica en het integreren van causaal redeneren. We geloven dat deze systematische analyse toekomstig onderzoek en ontwikkeling op het gebied van IGV zal bevorderen, waardoor de technologie uiteindelijk wordt geavanceerd naar meer verfijnde en praktische toepassingen.
Recente ontwikkelingen in grote taalmodellen hebben aangetoond hoe chain-of-thought (CoT) en reinforcement learning (RL) de prestaties kunnen verbeteren. Het toepassen van dergelijke redeneerstrategieën in het domein van visuele generatie is echter grotendeels onontgonnen gebied. In dit artikel presenteren we T2I-R1, een nieuw redeneerversterkt tekst-naar-beeld generatiemodel, aangedreven door RL met een tweelaags CoT-redeneerproces. Specifiek identificeren we twee niveaus van CoT die kunnen worden gebruikt om verschillende fasen van de generatie te verbeteren: (1) het semantische niveau CoT voor hoogwaardige planning van de prompt en (2) het token-niveau CoT voor laagwaardige pixelverwerking tijdens patch-voor-patch generatie. Om deze twee niveaus van CoT beter op elkaar af te stemmen, introduceren we BiCoT-GRPO met een ensemble van generatiebeloningen, dat beide generatie-CoTs naadloos optimaliseert binnen dezelfde trainingsstap. Door onze redeneerstrategieën toe te passen op het basismodel, Janus-Pro, behalen we superieure prestaties met een verbetering van 13% op T2I-CompBench en 19% op de WISE-benchmark, waarbij we zelfs het state-of-the-art model FLUX overtreffen. De code is beschikbaar op: https://github.com/CaraJ7/T2I-R1.
Veel methoden voor het verbeteren van Large Language Model (LLM) agents voor sequentiële besluitvormingstaken zijn afhankelijk van taakspecifieke kennisengineering—zoals prompt tuning, zorgvuldig geselecteerde in-context voorbeelden, of aangepaste observatie- en actieruimtes. Bij deze benaderingen verbetert de prestaties van de agent naarmate de kwaliteit of hoeveelheid van de geïnvesteerde kennisengineering toeneemt. In plaats daarvan onderzoeken wij hoe LLM agents hun prestaties automatisch kunnen verbeteren door in-context te leren van hun eigen succesvolle ervaringen op vergelijkbare taken. In plaats van te vertrouwen op taakspecifieke kennisengineering, richten wij ons op het opbouwen en verfijnen van een database van zelf gegenereerde voorbeelden. Wij tonen aan dat zelfs een naïeve accumulatie van succesvolle trajecten over trainingstaken de testprestaties op drie benchmarks verbetert: ALFWorld (73% tot 89%), Wordcraft (55% tot 64%), en InterCode-SQL (75% tot 79%)—wat overeenkomt met de prestaties die de initiële agent bereikt als deze twee tot drie pogingen per taak mag uitvoeren. Vervolgens introduceren wij twee uitbreidingen: (1) database-level selectie via population-based training om hoogpresterende voorbeeldcollecties te identificeren, en (2) exemplar-level selectie die individuele trajecten behoudt op basis van hun empirische nut als in-context voorbeelden. Deze uitbreidingen verbeteren de prestaties verder, met een score van 91% op ALFWorld—wat overeenkomt met complexere benaderingen die taakspecifieke componenten en prompts gebruiken. Onze resultaten tonen aan dat de automatische constructie van een trajectdatabase een overtuigend alternatief biedt voor arbeidsintensieve kennisengineering.
Lip-synchronisatie, bekend als de taak om lipbewegingen in een bestaande video af te stemmen op nieuwe invoeraudio, wordt doorgaans gezien als een eenvoudigere variant van audio-gestuurde gezichtsanimatie. Echter, naast de gebruikelijke problemen bij het genereren van pratende hoofden (bijvoorbeeld temporele consistentie), brengt lip-synchronisatie aanzienlijke nieuwe uitdagingen met zich mee, zoals expressielekkage vanuit de invoervideo en gezichtsocclusies, die een grote impact kunnen hebben op real-world toepassingen zoals geautomatiseerd nasynchroniseren, maar die vaak worden verwaarloosd in bestaande werken. Om deze tekortkomingen aan te pakken, presenteren we KeySync, een tweestapsframework dat erin slaagt het probleem van temporele consistentie op te lossen, terwijl het ook oplossingen biedt voor lekkage en occlusies door middel van een zorgvuldig ontworpen maskeringsstrategie. We laten zien dat KeySync state-of-the-art resultaten behaalt in lipreconstructie en cross-synchronisatie, waarbij de visuele kwaliteit wordt verbeterd en expressielekkage wordt verminderd volgens LipLeak, onze nieuwe lekkagemetriek. Bovendien demonstreren we de effectiviteit van onze nieuwe maskeringsaanpak bij het omgaan met occlusies en valideren we onze architectonische keuzes door middel van verschillende ablatiestudies. Code en modelgewichten zijn te vinden op https://antonibigata.github.io/KeySync.
Onlangs behalen lang-denkende redeneermodellen sterke prestaties op complexe redeneertaken, maar brengen ze vaak aanzienlijke inferentie-overhead met zich mee, wat efficiëntie tot een kritieke zorg maakt. Onze empirische analyse toont aan dat het voordeel van het gebruik van Long-CoT varieert tussen problemen: terwijl sommige problemen uitgebreid redeneren vereisen, laten andere geen verbetering zien of zelfs een verminderde nauwkeurigheid. Dit motiveert adaptieve redeneerstrategieën die de redeneerdiepte aanpassen aan de invoer. Eerdere werkzaamheden beperken zich echter voornamelijk tot het verminderen van redundantie binnen lange redeneerpaden, wat de verkenning van efficiëntere strategieën buiten het Long-CoT-paradigma beperkt. Om dit aan te pakken, stellen we een nieuw tweestapsraamwerk voor voor adaptief en efficiënt redeneren. Ten eerste construeren we een hybride redeneermodel door lange en korte CoT-modellen te combineren om diverse redeneerstijlen mogelijk te maken. Ten tweede passen we bi-level voorkeurstraining toe om het model te begeleiden bij het selecteren van geschikte redeneerstijlen (groepsniveau) en het prefereren van beknopt en correct redeneren binnen elke stijlgroep (instantieniveau). Experimenten tonen aan dat onze methode de inferentiekosten aanzienlijk verlaagt in vergelijking met andere baseline-benaderingen, terwijl de prestaties behouden blijven. Opmerkelijk is dat op vijf wiskundige datasets de gemiddelde lengte van het redeneren met meer dan 50% wordt verminderd, wat het potentieel van adaptieve strategieën benadrukt om de redeneerefficiëntie in grote taalmodellen te optimaliseren. Onze code zal binnenkort beschikbaar zijn op https://github.com/StarDewXXX/AdaR1.
Morele verhalen zijn een beproefd middel om waarden over te dragen, maar moderne NLP beschikt niet over een grote, gestructureerde corpus die samenhangende verhalen koppelt aan expliciete ethische lessen. Wij dichten deze leemte met TF1-EN-3M, de eerste open dataset van drie miljoen Engelstalige fabels die uitsluitend zijn gegenereerd door instructie-getrainde modellen van niet meer dan 8B parameters. Elk verhaal volgt een zes-slot structuur (personage -> eigenschap -> setting -> conflict -> oplossing -> moraal), geproduceerd via een combinatorische prompt-engine die genregetrouwheid garandeert terwijl een breed thematisch spectrum wordt bestreken. Een hybride evaluatiepijplijn combineert (i) een GPT-gebaseerde criticus die grammatica, creativiteit, morele duidelijkheid en sjabloontrouw beoordeelt met (ii) referentievrije diversiteits- en leesbaarheidsmetrieken. Onder tien open-weight kandidaten levert een 8B-parameter Llama-3 variant de beste kwaliteit-snelheid verhouding, waarbij hoogscorende fabels worden geproduceerd op een enkele consumenten-GPU (<24 GB VRAM) tegen ongeveer 13,5 cent per 1.000 fabels. Wij publiceren de dataset, generatiecode, evaluatiescripts en volledige metadata onder een permissieve licentie, wat exacte reproduceerbaarheid en kostenbenchmarking mogelijk maakt. TF1-EN-3M opent nieuwe mogelijkheden voor onderzoek in instructievolging, narratieve intelligentie, waardenafstemming en kindvriendelijke educatieve AI, en toont aan dat grootschalige morele vertelling niet langer afhankelijk is van propriëtaire gigantische modellen.
Grote Taalmodellen (LLMs) hebben software engineering getransformeerd, maar hun toepassing in fysieke technische domeinen blijft onderbelicht. Dit artikel evalueert de mogelijkheden van LLMs in het ontwerp van krachtige raketten via RocketBench, een benchmark die LLMs verbindt met hoogwaardige raket-simulaties. We testen modellen op twee steeds complexere ontwerptaken: optimalisatie van doelhoogte en precisielandingsuitdagingen. Onze bevindingen tonen aan dat, hoewel state-of-the-art LLMs een sterke basiskennis van engineering demonstreren, ze moeite hebben om hun ontwerpen te herzien op basis van simulatie-resultaten en uiteindelijk een plateau bereiken onder het niveau van menselijke prestaties. Wanneer echter versterkt met reinforcement learning (RL), laten we zien dat een model met 7B parameters zowel de huidige foundation-modellen als menselijke experts overtreft. Dit onderzoek toont aan dat met RL getrainde LLMs effectieve tools kunnen zijn voor complexe technische optimalisatie, wat mogelijk technische domeinen buiten softwareontwikkeling kan transformeren.
Scripting-interfaces stellen gebruikers in staat om taken te automatiseren en softwareworkflows aan te passen, maar het maken van scripts vereist traditioneel programmeerexpertise en vertrouwdheid met specifieke API's, wat voor veel gebruikers een barrière vormt. Hoewel Large Language Models (LLM's) code kunnen genereren op basis van natuurlijke taalvragen, wordt runtime-codegeneratie ernstig beperkt door ongeverifieerde code, beveiligingsrisico's, langere reactietijden en hogere rekenkosten. Om deze kloof te overbruggen, stellen we een offline simulatiekader voor om een software-specifieke vaardighedenverzameling, een collectie van geverifieerde scripts, samen te stellen door gebruik te maken van LLM's en publiek beschikbare scriptinggidsen. Ons kader bestaat uit twee componenten: (1) taakcreatie, waarbij top-down functionaliteitsbegeleiding en bottom-up API-synergie-exploratie worden gebruikt om nuttige taken te genereren; en (2) vaardighedengeneratie met proeven, waarbij scripts worden verfijnd en gevalideerd op basis van uitvoeringsfeedback. Om efficiënt door het uitgebreide API-landschap te navigeren, introduceren we een op Graph Neural Networks (GNN) gebaseerd linkvoorspellingsmodel om API-synergie vast te leggen, waardoor het mogelijk wordt om vaardigheden te genereren die onderbenutte API's omvatten en de diversiteit van de vaardighedenverzameling te vergroten. Experimenten met Adobe Illustrator tonen aan dat ons kader de automatiseringssuccespercentages aanzienlijk verbetert, de reactietijd verkort en runtime-tokenkosten bespaart in vergelijking met traditionele runtime-codegeneratie. Dit is de eerste poging om software-scripting-interfaces te gebruiken als testomgeving voor LLM-gebaseerde systemen, wat de voordelen benadrukt van het benutten van uitvoeringsfeedback in een gecontroleerde omgeving en waardevolle inzichten biedt in het afstemmen van AI-mogelijkheden op gebruikersbehoeften in gespecialiseerde softwaredomeinen.
Stel je voor dat je in een drukke ruimte bent waar mensen een andere taal spreken, en dat je hoorapparaten hebt die de auditieve ruimte omzetten naar je moedertaal, terwijl de ruimtelijke aanwijzingen voor alle sprekers behouden blijven. Wij introduceren ruimtelijke spraakvertaling, een nieuw concept voor hoorapparaten dat sprekers in de omgeving van de drager vertaalt, terwijl de richting en unieke stemkenmerken van elke spreker in het binaurale geluid behouden blijven. Om dit te bereiken, pakken we verschillende technische uitdagingen aan, waaronder blinde bronseparatie, lokalisatie, real-time expressieve vertaling en binaurale weergave om de richting van de sprekers in de vertaalde audio te behouden, terwijl we real-time inferentie bereiken op de Apple M2-silicium. Onze proof-of-concept-evaluatie met een prototype binaural hoofdtelefoon laat zien dat we, in tegenstelling tot bestaande modellen die falen bij interferentie, een BLEU-score van maximaal 22,01 behalen bij het vertalen tussen talen, ondanks sterke interferentie van andere sprekers in de omgeving. Gebruikersstudies bevestigen verder de effectiviteit van het systeem in het ruimtelijk weergeven van de vertaalde spraak in voorheen onbekende, reverbererende omgevingen in de echte wereld. Als we een stap terug nemen, markeert dit werk de eerste stap naar het integreren van ruimtelijke waarneming in spraakvertaling.
Data-augmentatie is essentieel in medische beeldvorming voor het verbeteren van classificatienauwkeurigheid, laesiedetectie en orgaansegmentatie onder beperkte dataomstandigheden. Er blijven echter twee belangrijke uitdagingen bestaan. Ten eerste kan een aanzienlijk domeingat tussen natuurlijke foto's en medische beelden kritieke ziektekenmerken verstoren. Ten tweede zijn augmentatiestudies in medische beeldvorming gefragmenteerd en beperkt tot enkele taken of architecturen, waardoor de voordelen van geavanceerde mix-gebaseerde strategieën onduidelijk blijven. Om deze uitdagingen aan te pakken, stellen we een uniform evaluatiekader voor met zes mix-gebaseerde augmentatiemethoden geïntegreerd met zowel convolutionele als transformer-backbones op MRI-datasets van hersentumoren en fundusdatasets van oogziekten. Onze bijdragen zijn drievoudig. (1) We introduceren MediAug, een uitgebreide en reproduceerbare benchmark voor geavanceerde data-augmentatie in medische beeldvorming. (2) We evalueren systematisch MixUp, YOCO, CropMix, CutMix, AugMix en SnapMix met ResNet-50 en ViT-B-backbones. (3) We tonen door uitgebreide experimenten aan dat MixUp de grootste verbetering oplevert voor de hersentumorclassificatietaak met ResNet-50 met een nauwkeurigheid van 79,19% en SnapMix de grootste verbetering voor ViT-B met een nauwkeurigheid van 99,44%, en dat YOCO de grootste verbetering oplevert voor de oogziekteclassificatietaak met ResNet-50 met een nauwkeurigheid van 91,60% en CutMix de grootste verbetering voor ViT-B met een nauwkeurigheid van 97,94%. Code zal beschikbaar zijn op https://github.com/AIGeeksGroup/MediAug.
Visiesensoren worden steeds belangrijker in Intelligente Transport Systemen (ITS) voor verkeersmonitoring, -beheer en -optimalisatie, aangezien het aantal netwerkcamera's blijft toenemen. Het handmatig volgen en matchen van objecten over meerdere niet-overlappende camera's vormt echter aanzienlijke uitdagingen in stedelijke verkeersscenario's op stadsniveau. Deze uitdagingen omvatten het omgaan met diverse voertuigkenmerken, occlusies, variaties in belichting, schaduwen en verschillende videoresoluties. Om deze problemen aan te pakken, stellen we een efficiënt en kosteneffectief deep learning-gebaseerd framework voor voor Multi-Object Multi-Camera Tracking (MO-MCT). Het voorgestelde framework maakt gebruik van Mask R-CNN voor objectdetectie en past Non-Maximum Suppression (NMS) toe om doelobjecten te selecteren uit overlappende detecties. Transfer learning wordt gebruikt voor heridentificatie, waardoor de associatie en generatie van voertuigtracklets over meerdere camera's mogelijk wordt. Bovendien benutten we geschikte verliesfuncties en afstandsmaten om uitdagingen zoals occlusie, belichting en schaduwen aan te pakken. De module voor definitieve oplossingsidentificatie voert kenmerkextractie uit met behulp van ResNet-152 in combinatie met Deep SORT-gebaseerd voertuigvolgen. Het voorgestelde framework wordt geëvalueerd op de dataset van de 5e AI City Challenge (Track 3), bestaande uit 46 camerafeeds. Van deze 46 camerastromen worden er 40 gebruikt voor modeltraining en -validatie, terwijl de overige zes worden gebruikt voor modeltesten. Het voorgestelde framework behaalt een competitieve prestatie met een IDF1-score van 0,8289, en precisie- en recall-scores van respectievelijk 0,9026 en 0,8527, wat de effectiviteit aantoont in robuust en nauwkeurig voertuigvolgen.