Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Chain-of-Thought (CoT) prompting is aangetoond dat het de prestaties van Large Language Models (LLM's) bij diverse taken verbetert. Met deze aanpak lijken LLM's mensachtige redeneerstappen te produceren voordat ze antwoorden geven (ook wel CoT-redenering genoemd), wat vaak de indruk wekt dat ze bewuste inferentiële processen uitvoeren. Echter suggereren enkele eerste bevindingen dat CoT-redenering oppervlakkiger kan zijn dan het lijkt, wat ons motiveert om dit verder te onderzoeken. In dit artikel bestuderen we CoT-redenering vanuit een datadistributieperspectief en onderzoeken we of CoT-redenering een gestructureerde inductieve bias weerspiegelt die is geleerd uit in-distributiegegevens, waardoor het model conditioneel redeneerpaden kan genereren die lijken op die welke tijdens de training zijn gezien. Daarom is de effectiviteit ervan fundamenteel beperkt door de mate van distributieverschil tussen de trainingsgegevens en de testvragen. Met dit perspectief ontleden we CoT-redenering langs drie dimensies: taak, lengte en formaat. Om elke dimensie te onderzoeken, ontwerpen we DataAlchemy, een geïsoleerde en gecontroleerde omgeving om LLM's vanaf nul te trainen en ze systematisch te testen onder verschillende distributieomstandigheden. Onze resultaten onthullen dat CoT-redenering een broos luchtspiegeling is die verdwijnt wanneer het verder wordt geduwd dan de trainingsdistributies. Dit werk biedt een dieper inzicht in waarom en wanneer CoT-redenering faalt, en benadrukt de voortdurende uitdaging om echt en generaliseerbaar redeneren te bereiken.
Recente studies hebben zich verdiept in het construeren van autonome agents die in staat zijn complexe computer taken uit te voeren op basis van een Grafische Gebruikersinterface (GUI), met het potentieel om de mens-computerinteractie te revolutioneren. Ondanks bemoedigende resultaten richten bestaande inspanningen zich voornamelijk op kortetermijninteracties en vertrouwen ze op verificatie van alleen het eindresultaat, wat hun schaalbaarheid beperkt in realistische GUI-toepassingen die langetermijntaakdecompositie en -uitvoering vereisen. In dit werk introduceren we VeriGUI, een nieuw verifieerbaar langketen-GUI-dataset ontworpen om de ontwikkeling en evaluatie van generalistische GUI-agents in realistische computeromgevingen te vergemakkelijken. Onze dataset benadrukt twee kritische dimensies: (1) langketencomplexiteit, waarbij taken worden opgedeeld in een reeks onderling afhankelijke subtaken die honderden stappen omvatten, expliciet ontworpen om elke subtask als een geldig startpunt te laten dienen; en (2) subtaskniveau-verifieerbaarheid, wat diverse verkenningsstrategieën binnen elke subtask mogelijk maakt, terwijl ervoor wordt gezorgd dat elk subtaskniveau-doel verifieerbaar en consistent blijft. De dataset bestaat uit GUI-taaktrajecten op zowel desktop- als webomgevingen, geannoteerd door menselijke experts. Uitgebreide experimenten met VeriGUI met behulp van verschillende agents met verschillende foundationmodellen onthullen aanzienlijke prestatiekloof in het omgaan met langetermijntaken, wat de noodzaak benadrukt voor robuustere plannings- en besluitvormingscapaciteiten in GUI-agents.
De opmerkelijke capaciteiten van agenten aangedreven door Large Language Models (LLM) hebben geavanceerde systemen in staat gesteld om complexe, meerstaps taken aan te pakken, maar hun stijgende kosten vormen een bedreiging voor schaalbaarheid en toegankelijkheid. Dit werk presenteert de eerste systematische studie van de efficiëntie-effectiviteit afweging in moderne agentsystemen, waarbij de kritieke behoefte aan kosteneffectieve ontwerpen zonder prestatieverlies wordt aangepakt. We onderzoeken drie belangrijke vragen: (1) Hoeveel complexiteit vereisen agenttaken inherent? (2) Wanneer leveren aanvullende modules afnemende meeropbrengsten op? (3) Hoeveel efficiëntie kan worden behaald door het ontwerp van efficiënte agentframeworks? Door middel van een empirische analyse op de GAIA-benchmark evalueren we de impact van de selectie van LLM-backbones, het ontwerp van agentframeworks en schaalstrategieën tijdens testen. Met behulp van de cost-of-pass metriek kwantificeren we de efficiëntie-prestatie afweging over deze dimensies. Onze bevindingen informeren de ontwikkeling van Efficient Agents, een nieuw agentframework met een optimale complexiteit die aansluit bij taakeisen. Efficient Agents behoudt 96,7% van de prestaties van OWL, een toonaangevend open-source agentframework, terwijl de operationele kosten worden verlaagd van 0,398 naar 0,228, wat resulteert in een verbetering van 28,4% in cost-of-pass. Ons werk biedt praktische inzichten voor het ontwerpen van efficiënte, hoogpresterende agentsystemen, waardoor de toegankelijkheid en duurzaamheid van AI-gedreven oplossingen worden bevorderd.
We presenteren Agent Lightning, een flexibel en uitbreidbaar framework dat Reinforcement Learning (RL)-gebaseerde training van Large Language Models (LLMs) mogelijk maakt voor elk AI-agent. In tegenstelling tot bestaande methoden die RL-training nauw koppelen aan een specifieke agent of afhankelijk zijn van sequentieconcatenatie met masking, bereikt Agent Lightning een volledige ontkoppeling tussen agentuitvoering en training. Dit maakt naadloze integratie mogelijk met bestaande agents die op diverse manieren zijn ontwikkeld (bijvoorbeeld met frameworks zoals LangChain, OpenAI Agents SDK, AutoGen, en vanaf scratch gebouwd) met vrijwel GEEN codeaanpassingen. Door agentuitvoering te formuleren als een Markov-beslissingsproces, definiëren we een uniforme data-interface en stellen we een hiërarchisch RL-algoritme voor, LightningRL, dat een credit assignment-module bevat. Hierdoor kunnen we trajecten die door ELKE agent worden gegenereerd, ontbinden in trainingsovergangen. Dit stelt RL in staat om complexe interactielogica te verwerken, zoals multi-agent scenario's en dynamische workflows. Voor het systeemontwerp introduceren we een Training-Agent Disaggregation-architectuur en integreren we agent-observability frameworks in de agentruntime, wat een gestandaardiseerd interface biedt voor het finetunen van agents. Experimenten met tekst-naar-SQL, retrieval-augmented generation en wiskundige tool-use taken tonen stabiele, continue verbeteringen, wat het potentieel van het framework aantoont voor training en implementatie van agents in de praktijk.
Het hergebruiken van grote visie-taalmodellen (LVLMs) als computergebruiksagenten (CUAs) heeft aanzienlijke doorbraken opgeleverd, voornamelijk gedreven door door mensen gelabelde data. Deze modellen hebben echter vaak moeite met nieuwe en gespecialiseerde software, vooral in scenario's zonder menselijke annotaties. Om deze uitdaging aan te pakken, stellen we SEAgent voor, een zelf-evoluerend agentisch raamwerk dat CUAs in staat stelt om autonoom te evolueren door interacties met onbekende software. Specifiek stelt SEAgent computergebruiksagenten in staat om autonoom nieuwe softwareomgevingen te beheersen via ervaringsgericht leren, waarbij agenten nieuwe software verkennen, leren door iteratieve trial-and-error, en geleidelijk aan automatisch gegenereerde taken aanpakken die van eenvoudig naar complex zijn georganiseerd. Om dit doel te bereiken, ontwerpen we een World State Model voor stapsgewijze trajectbeoordeling, samen met een Curriculum Generator die steeds diversere en uitdagendere taken genereert. Het beleid van de agent wordt bijgewerkt via ervaringsgericht leren, bestaande uit adversariale imitatie van mislukte acties en Group Relative Policy Optimization (GRPO) op succesvolle acties. Bovendien introduceren we een specialist-naar-generalist trainingsstrategie die individuele ervaringsinzichten van specialistische agenten integreert, wat de ontwikkeling van een sterkere generalistische CUA mogelijk maakt die in staat is tot continue autonome evolutie. Deze verenigde agent overtreft uiteindelijk de prestaties van ensembles van individuele specialistische agenten op hun gespecialiseerde software. We valideren de effectiviteit van SEAgent in vijf nieuwe softwareomgevingen binnen OS-World. Onze aanpak behaalt een significante verbetering van 23,2% in slagingspercentage, van 11,3% naar 34,5%, ten opzichte van een competitieve open-source CUA, namelijk UI-TARS.
Onderzoek naar de toepassing van Reinforcement Learning (RL) op Large Language Models (LLMs) heeft zich voornamelijk gericht op enkelvoudige problemen, zoals wiskundig redeneren of eenmalige codegeneratie. Hoewel deze problemen kunnen worden gezien als token-level multi-turn MDPs (Markov Decision Processes), komt dit overeen met een gedegenereerd geval van multi-turn interactie waarbij de omgeving geen feedback geeft. Dit staat in contrast met veel real-world domeinen, zoals software engineering (SWE), die rijke multi-turn interacties vereisen met een stateful omgeving die reageert op elke actie met een niet-triviale observatie. Om deze kloof te overbruggen, demonstreren we de succesvolle toepassing van RL op dit algemene regime. Met behulp van een aangepast Decoupled Advantage Policy Optimization (DAPO) algoritme trainen we een agent gebaseerd op Qwen2.5-72B-Instruct om real-world software engineering taken op te lossen. Onze aanpak verhoogt het slagingspercentage van de agent op de SWE-bench Verified benchmark van een 20% afgewezen fine-tuned baseline naar 39%, zonder te vertrouwen op enige teacher-modellen. Op SWE-rebench presteert onze agent gelijk aan of beter dan toonaangevende open-weight modellen zoals DeepSeek-V3-0324 en Qwen3-235B-A22B met een identieke scaffolding, wat een haalbare weg biedt naar het bouwen van capabelere autonome agents voor complexe real-world problemen op basis van open modellen.
Interactieve multimodale agents moeten ruwe visuele observaties omzetten in samenhangende reeksen van taal-geconditioneerde acties — een vaardigheid die huidige vision-language modellen (VLMs) nog steeds ontberen. Eerdere inspanningen op het gebied van reinforcement learning (RL) zouden in principe VLMs kunnen voorzien van dergelijke vaardigheden, maar ze hebben zelden getest of de aangeleerde gedragingen generaliseren buiten hun trainingssimulators, en ze zijn afhankelijk van kwetsbare hyperparameterafstemming of van omgevingen met dichte beloningen en lage staatvariabiliteit. Wij introduceren Vision-Language Decoupled Actor-Critic (VL-DAC), een lichtgewicht, hyperparameter-vrij RL-algoritme. VL-DAC past PPO-updates toe op actietokens terwijl het waarde alleen op het niveau van omgevingsstappen leert: een opzet die, voor zover wij weten, nog niet eerder is verkend voor grote VLMs of LLMs. Deze eenvoudige ontkoppeling verwijdert instabiele wegingstermen en resulteert in snellere, betrouwbaardere convergentie. Het trainen van een enkel VLM met VL-DAC in één goedkope simulator tegelijk (MiniWorld, Gym-Cards, ALFWorld of WebShop) produceert al beleidsregels die breed generaliseren: +50\% relatief op BALROG (game-gecentreerde agentische controle), +5\% relatief op het moeilijkste deel van VSI-Bench (ruimtelijke planning), en +2\% op VisualWebBench (webnavigatie), allemaal zonder de algemene beeldbegripsnauwkeurigheid te verslechteren. Deze resultaten leveren het eerste bewijs dat een eenvoudig RL-algoritme VLMs volledig kan trainen in goedkope synthetische werelden, terwijl het meetbare verbeteringen oplevert op benchmarks voor agentische controle, ruimtelijk redeneren en webnavigatie met echte beelden.
Giftigheid van geneesmiddelen blijft een grote uitdaging in de farmaceutische ontwikkeling. Recente machine learning-modellen hebben in silico toxiciteitsvoorspelling verbeterd, maar hun afhankelijkheid van geannoteerde data en gebrek aan interpreteerbaarheid beperken hun toepasbaarheid. Dit beperkt hun vermogen om orgaanspecifieke toxiciteiten te vatten die worden aangedreven door complexe biologische mechanismen. Grote taalmodellen (LLM's) bieden een veelbelovend alternatief door stapsgewijs redeneren en integratie van tekstuele data, maar eerdere benaderingen missen biologische context en een transparante redenering. Om dit probleem aan te pakken, stellen we CoTox voor, een nieuw framework dat LLM integreert met chain-of-thought (CoT) redenering voor multi-toxiciteitsvoorspelling. CoTox combineert chemische structuurdata, biologische pathways en genontologie (GO) termen om interpreteerbare toxiciteitsvoorspellingen te genereren via stapsgewijs redeneren. Met GPT-4o laten we zien dat CoTox zowel traditionele machine learning- als deep learning-modellen overtreft. We onderzoeken verder de prestaties over verschillende LLM's om te identificeren waar CoTox het meest effectief is. Daarnaast ontdekken we dat het representeren van chemische structuren met IUPAC-namen, die voor LLM's begrijpelijker zijn dan SMILES, het redeneervermogen van het model versterkt en de voorspellende prestaties verbetert. Om de praktische bruikbaarheid in geneesmiddelenontwikkeling aan te tonen, simuleren we de behandeling van relevante celtypen met een geneesmiddel en integreren we de resulterende biologische context in het CoTox-framework. Deze aanpak stelt CoTox in staat om toxiciteitsvoorspellingen te genereren die aansluiten bij fysiologische reacties, zoals getoond in een casestudy. Dit resultaat benadrukt het potentieel van LLM-gebaseerde frameworks om de interpreteerbaarheid te verbeteren en vroege veiligheidsbeoordeling van geneesmiddelen te ondersteunen. De code en prompts die in dit werk zijn gebruikt, zijn beschikbaar op https://github.com/dmis-lab/CoTox.
Sociale intelligentie is een cruciale vaardigheid geworden voor grote taalmmodellen (LLMs), waardoor ze effectief kunnen deelnemen aan real-world sociale taken zoals accommodatie, overtuiging, samenwerking en onderhandeling. Reinforcement learning (RL) is een natuurlijke keuze voor het trainen van sociaal intelligente agents, omdat het modellen in staat stelt om geavanceerde strategieën direct te leren via sociale interacties. Sociale interacties hebben echter twee belangrijke kenmerken die barrières vormen voor RL-training: (1) gedeeltelijke observeerbaarheid, waarbij uitingen indirecte en vertraagde effecten hebben die de toewijzing van credits bemoeilijken, en (2) multidimensioneelheid, waarbij gedragingen zoals het opbouwen van een band of het zoeken naar kennis indirect bijdragen aan het bereiken van doelen. Deze kenmerken maken RL gebaseerd op Markov-beslissingsprocessen (MDP) met eendimensionale beloningen op episodeniveau inefficiënt en instabiel. Om deze uitdagingen aan te pakken, stellen we Sotopia-RL voor, een nieuw framework dat grove feedback op episodeniveau verfijnt naar uiting-niveau, multidimensionale beloningen. Toewijzing van credits op uiting-niveau vermindert gedeeltelijke observeerbaarheid door uitkomsten toe te schrijven aan individuele uitingen, terwijl multidimensionale beloningen de volledige rijkdom van sociale interacties vastleggen en beloningsmanipulatie verminderen. Experimenten in Sotopia, een open-ended sociale leeromgeving, tonen aan dat Sotopia-RL state-of-the-art scores behaalt voor het voltooien van sociale doelen (7.17 op Sotopia-hard en 8.31 op Sotopia-full), wat aanzienlijk beter is dan bestaande benaderingen. Ablatiestudies bevestigen de noodzaak van zowel toewijzing van credits op uiting-niveau als het ontwerp van multidimensionale beloningen voor RL-training. Onze implementatie is publiekelijk beschikbaar op: https://github.com/sotopia-lab/sotopia-rl.
Multimodale grootschalige modellen hebben de ontwikkeling van webagents aanzienlijk bevorderd, waardoor perceptie en interactie met digitale omgevingen mogelijk worden gemaakt die vergelijkbaar zijn met menselijke cognitie. In dit artikel stellen we dat webagents eerst voldoende kennis moeten verwerven om effectief deel te nemen aan cognitief redeneren. Daarom verdelen we de capaciteiten van een webagent in twee essentiële fasen: kennisinhoud leren en cognitieve processen. Om dit te formaliseren, stellen we het Web-CogKnowledge Framework voor, waarin kennis wordt gecategoriseerd als Feitelijk, Conceptueel en Procedureel. In dit framework komt kennisinhoud leren overeen met de processen van het agent om te Memoreren en Begrijpen, die afhankelijk zijn van de eerste twee kennissoorten, die het "wat" van het leren vertegenwoordigen. Daarentegen komen cognitieve processen overeen met Exploreren, gebaseerd op Procedurele kennis, wat het "hoe" van redeneren en handelen definieert. Om kennisverwerving te vergemakkelijken, construeren we de Web-CogDataset, een gestructureerde bron samengesteld uit 14 real-world websites, ontworpen om systematisch de kernkennis die nodig is voor een webagent bij te brengen. Deze dataset dient als het conceptuele fundament van de agent – de "zelfstandige naamwoorden" waarop begrip is gebouwd – evenals de basis voor het leren hoe te redeneren en te handelen. Op basis van deze fundering operationaliseren we deze processen door middel van een nieuw kennisgedreven Chain-of-Thought (CoT) redeneerframework, waarbij we onze voorgestelde agent, de Web-CogReasoner, ontwikkelen en trainen. Uitgebreide experimenten tonen aan dat deze aanzienlijk superieur is aan bestaande modellen, vooral in het generaliseren naar onbekende taken waar gestructureerde kennis beslissend is. Om rigoureuze evaluatie mogelijk te maken, introduceren we de Web-CogBench, een uitgebreide evaluatiesuite ontworpen om de prestaties van agents te beoordelen en te vergelijken binnen de afgebakende kennisdomeinen en cognitieve capaciteiten. Onze code en data zijn open source beschikbaar op https://github.com/Gnonymous/Web-CogReasoner.
Het omzetten van webpaginadesigns naar code (design-to-code) speelt een cruciale rol in de ontwikkeling van gebruikersinterfaces (UI) voor front-end ontwikkelaars, waarbij het de kloof overbrugt tussen visueel design en functionele implementatie. Hoewel recente Multimodale Large Language Models (MLLMs) aanzienlijk potentieel hebben getoond in design-to-code taken, slagen ze er vaak niet in om de lay-out nauwkeurig te behouden tijdens het genereren van code. Daarom putten we inspiratie uit de Chain-of-Thought (CoT) redenering in de menselijke cognitie en stellen we LaTCoder voor, een nieuwe aanpak die het behoud van de lay-out in webpaginadesigns tijdens het genereren van code verbetert met Layout-as-Thought (LaT). Specifiek introduceren we eerst een eenvoudig maar efficiënt algoritme om het webpaginadesign in beeldblokken te verdelen. Vervolgens gebruiken we een CoT-gebaseerde aanpak om MLLMs aan te sturen om code voor elk blok te genereren. Ten slotte passen we twee assemblagestrategieën toe - absolute positionering en een MLLM-gebaseerde methode - gevolgd door dynamische selectie om de optimale uitvoer te bepalen. We evalueren de effectiviteit van LaTCoder met behulp van meerdere backbone MLLMs (d.w.z. DeepSeek-VL2, Gemini en GPT-4o) op zowel een openbare benchmark als een nieuw geïntroduceerde, meer uitdagende benchmark (CC-HARD) die complexe lay-outs bevat. De experimentele resultaten op automatische metrieken tonen significante verbeteringen aan. Specifiek namen de TreeBLEU-scores met 66,67% toe en de MAE nam met 38% af bij het gebruik van DeepSeek-VL2, vergeleken met directe prompting. Bovendien geven de resultaten van de menselijke voorkeurevaluatie aan dat annotatoren in meer dan 60% van de gevallen de voorkeur geven aan de webpagina's die door LaTCoder zijn gegenereerd, wat sterk bewijs levert voor de effectiviteit van onze methode.
Het evalueren van tekst-naar-beeldgeneratiemodellen vereist afstemming met de menselijke perceptie, maar bestaande mensgerichte metrieken worden beperkt door beperkte datadekking, suboptimale feature-extractie en inefficiënte verliesfuncties. Om deze uitdagingen aan te pakken, introduceren we Human Preference Score v3 (HPSv3). (1) We brengen HPDv3 uit, de eerste breedspectrum menselijke voorkeursdataset die 1,08 miljoen tekst-beeldparen en 1,17 miljoen geannoteerde paarsgewijze vergelijkingen integreert van state-of-the-art generatieve modellen en real-world beelden van lage tot hoge kwaliteit. (2) We introduceren een VLM-gebaseerd voorkeursmodel getraind met een onzekerheidsbewuste rangschikkingsverlies voor fijnmazige rangschikking. Daarnaast stellen we Chain-of-Human-Preference (CoHP) voor, een iteratieve beeldverfijningsmethode die de kwaliteit verbetert zonder extra data, door HPSv3 te gebruiken om het beste beeld in elke stap te selecteren. Uitgebreide experimenten tonen aan dat HPSv3 een robuuste metriek is voor breedspectrum beeldbeoordeling, en CoHP biedt een efficiënte en mensgerichte aanpak om de kwaliteit van beeldgeneratie te verbeteren. De code en dataset zijn beschikbaar op de HPSv3 Homepage.
In dit artikel presenteren we een nieuw framework voor video-naar-4D-generatie dat hoogwaardige dynamische 3D-inhoud creëert vanuit enkele video-inputs. Directe 4D-diffusiemodellering is extreem uitdagend vanwege de kostbare dataconstructie en de hoogdimensionale aard van het gezamenlijk representeren van 3D-vorm, uiterlijk en beweging. We gaan deze uitdagingen aan door een Direct 4DMesh-to-GS Variation Field VAE te introduceren die canonieke Gaussian Splats (GS) en hun temporele variaties direct codeert vanuit 3D-animatiedata zonder per-instantie aanpassing, en hoogdimensionale animaties comprimeert naar een compacte latente ruimte. Op basis van deze efficiënte representatie trainen we een Gaussian Variation Field-diffusiemodel met een temporeel bewuste Diffusion Transformer, geconditioneerd op inputvideo's en canonieke GS. Getraind op zorgvuldig geselecteerde animeerbare 3D-objecten uit de Objaverse-dataset, toont ons model superieure generatiekwaliteit in vergelijking met bestaande methoden. Het vertoont ook opmerkelijke generalisatie naar video-inputs uit de echte wereld, ondanks dat het uitsluitend op synthetische data is getraind, wat de weg vrijmaakt voor het genereren van hoogwaardige geanimeerde 3D-inhoud. Projectpagina: https://gvfdiffusion.github.io/.
Video virtual try-on (VVT)-technologie heeft aanzienlijke academische belangstelling gewekt vanwege de veelbelovende toepassingen in e-commerceadvertenties en entertainment. De meeste bestaande end-to-end-methoden zijn echter sterk afhankelijk van schaarse, gekoppelde datasets die gericht zijn op kleding en slagen er niet in om voorafgaande kennis van geavanceerde visuele modellen en testtijdinputs effectief te benutten. Dit maakt het uitdagend om fijnmazige kledingdetails nauwkeurig te behouden en temporele consistentie te handhaven in onbeperkte scenario's. Om deze uitdagingen aan te pakken, stellen we DreamVVT voor, een zorgvuldig ontworpen tweestapsraamwerk gebaseerd op Diffusion Transformers (DiTs), dat van nature in staat is om diverse ongepaarde mensgerichte data te benutten om de aanpassingsvermogen in real-world scenario's te vergroten. Om voorafgaande kennis van vooraf getrainde modellen en testtijdinputs verder te benutten, nemen we in de eerste fase representatieve frames uit de invoervideo en gebruiken we een multi-frame try-on-model geïntegreerd met een vision-language model (VLM) om hoogwaardige en semantisch consistente keyframe try-on-afbeeldingen te synthetiseren. Deze afbeeldingen dienen als aanvullende uiterlijke begeleiding voor de daaropvolgende videogeneratie. In de tweede fase worden skeletkaarten samen met fijnmazige bewegingen en uiterlijke beschrijvingen uit de invoerinhoud geëxtraheerd, en deze worden samen met de keyframe try-on-afbeeldingen ingevoerd in een vooraf getraind videogeneratiemodel dat is versterkt met LoRA-adapters. Dit zorgt voor langdurige temporele samenhang voor onbekende regio's en maakt zeer plausibele dynamische bewegingen mogelijk. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen aan dat DreamVVT bestaande methoden overtreft in het behouden van gedetailleerde kledinginhoud en temporele stabiliteit in real-world scenario's. Onze projectpagina is te vinden op https://virtu-lab.github.io/.
Grote taalmodellen (LLMs) maken lang-context taken mogelijk, maar kampen met efficiëntieproblemen door de groeiende key-value (KV) cache. Wij stellen LeanK voor, een op leren gebaseerde methode die onbelangrijke key (K) cache-kanalen snoeit door gebruik te maken van statische kanaalsparsheid. Met een innovatief tweestaps trainingsproces leert LeanK een kanaalgewijs statisch masker dat aan specifieke sparsityratio's en hardware-uitlijningsvereisten voldoet. LeanK vermindert het GPU-geheugen en versnelt het decoderen zonder de nauwkeurigheid op te offeren. Experimenten tonen een reductie van tot 70% in K-cache en 16%-18% in V-cache geheugen aan. Een aangepaste decoderingkernel zorgt voor een 1,3x versnelling van de aandachtberekening. We bieden ook inzichten in modelkanalen en aandachtkoppen tijdens lang-context inferentie door de geleerde belangrijkheidsverdeling te analyseren. Onze code is beschikbaar op https://aka.ms/LeanK.
Conferenties over Kunstmatige Intelligentie (AI) zijn essentieel voor het bevorderen van onderzoek, het delen van kennis en het versterken van de academische gemeenschap. Hun snelle groei heeft het gecentraliseerde conferentiemodel echter steeds onhoudbaarder gemaakt. Dit artikel biedt een data-gedreven diagnose van een structurele crisis die de fundamentele doelstellingen van wetenschappelijke verspreiding, gelijkheid en gemeenschapswelzijn bedreigt. We identificeren vier belangrijke drukpunten: (1) wetenschappelijk, waarbij het aantal publicaties per auteur in het afgelopen decennium meer dan verdubbeld is tot meer dan 4,5 artikelen per jaar; (2) ecologisch, waarbij de ecologische voetafdruk van een enkele conferentie de dagelijkse uitstoot van de gaststad overschrijdt; (3) psychologisch, waarbij 71% van de online gemeenschapsdiscours negatieve sentimenten weerspiegelt en 35% verwijst naar mentale gezondheidsproblemen; en (4) logistiek, waarbij de aanwezigheid bij toonaangevende conferenties zoals NeurIPS 2024 de capaciteit van de locaties begint te overtreffen. Deze drukpunten wijzen op een systeem dat niet langer in lijn is met zijn kernmissie. Als reactie hierop stellen we het Community-Federated Conference (CFC)-model voor, waarbij peer review, presentatie en netwerken worden gescheiden in wereldwijd gecoördineerde maar lokaal georganiseerde componenten, wat een duurzamere, inclusievere en veerkrachtigere weg vooruit biedt voor AI-onderzoek.
Grote taalmodelen stellen agents in staat om autonoom taken uit te voeren in open webomgevingen. Echter, naarmate verborgen bedreigingen op het web evolueren, worden webagents geconfronteerd met de uitdaging om taakprestaties te balanceren met opkomende risico's tijdens langdurige operaties. Hoewel deze uitdaging cruciaal is, blijft het huidige onderzoek beperkt tot enkelvoudige doeloptimalisatie of scenario's met één beurt, en ontbreekt het aan de mogelijkheid voor gezamenlijke optimalisatie van zowel veiligheid als nut in webomgevingen. Om deze kloof te overbruggen, stellen we HarmonyGuard voor, een multi-agent samenwerkingsframework dat gebruikmaakt van beleidsverbetering en doeloptimalisatie om zowel nut als veiligheid gezamenlijk te verbeteren. HarmonyGuard beschikt over een multi-agent architectuur die wordt gekenmerkt door twee fundamentele capaciteiten: (1) Adaptieve Beleidsverbetering: We introduceren de Policy Agent binnen HarmonyGuard, die automatisch gestructureerde beveiligingsbeleidsregels extraheert en onderhoudt uit ongestructureerde externe documenten, terwijl het beleid continu wordt bijgewerkt in reactie op evoluerende bedreigingen. (2) Duale Doeloptimalisatie: Gebaseerd op de dubbele doelstellingen van veiligheid en nut, voert de Utility Agent die is geïntegreerd in HarmonyGuard Markoviaanse real-time redenering uit om de doelstellingen te evalueren en maakt gebruik van metacognitieve capaciteiten voor hun optimalisatie. Uitgebreide evaluaties op meerdere benchmarks tonen aan dat HarmonyGuard de naleving van beleid met tot 38% verbetert en de taakvoltooiing met tot 20% ten opzichte van bestaande baselines, terwijl het een naleving van beleid van meer dan 90% behaalt voor alle taken. Ons project is hier beschikbaar: https://github.com/YurunChen/HarmonyGuard.
Grote Taalmodellen (LLMs) lijden aan een aanzienlijke prestatievermindering bij het verwerken van lange contexten als gevolg van proactieve interferentie, waarbij irrelevante informatie in eerdere delen van de context het redeneren en het geheugen oproepen verstoort. Terwijl het meeste onderzoek zich richt op externe geheugensystemen om de mogelijkheden van LLMs te vergroten, stellen wij een complementaire aanpak voor: het uitrusten van LLMs met Active Context Management (ACM)-tools om hun interne werkgeheugen actief te vormen. We introduceren Sculptor, een raamwerk dat LLMs uitrust met drie categorieën tools: (1) contextfragmentatie, (2) samenvatten, verbergen en herstellen, en (3) intelligente zoekopdrachten. Onze aanpak stelt LLMs in staat om hun aandacht en werkgeheugen proactief te beheren, vergelijkbaar met hoe mensen selectief focussen op relevante informatie terwijl ze afleidingen filteren. Experimentele evaluatie op informatie-arme benchmarks—PI-LLM (proactieve interferentie) en NeedleBench Multi-Needle Reasoning—toont aan dat Sculptor de prestaties aanzienlijk verbetert, zelfs zonder specifieke training, door gebruik te maken van de inherente tool-aanroepgeneraliseringsmogelijkheden van LLMs. Door Active Context Management mogelijk te maken, vermindert Sculptor niet alleen proactieve interferentie, maar biedt het ook een cognitieve basis voor betrouwbaarder redeneren over diverse lange-context taken—waarbij wordt benadrukt dat expliciete contextcontrole-strategieën, in plaats van slechts grotere tokenvensters, de sleutel zijn tot robuustheid op schaal.
Huidige benaderingen voor grote audio-taalmodelen (LALMs) zijn vaak afhankelijk van gesloten databronnen of propriëtaire modellen, wat hun generalisatie en toegankelijkheid beperkt. Dit artikel introduceert MiDashengLM, een nieuw open audio-taalmodel dat is ontworpen voor efficiënte en uitgebreide audio-interpretatie door het gebruik van algemene audiobeschrijvingen met behulp van onze nieuwe ACAVCaps-trainingsdataset. MiDashengLM maakt uitsluitend gebruik van publiek beschikbare pretrainings- en supervised fine-tuning (SFT)-datasets, waardoor volledige transparantie en reproduceerbaarheid worden gegarandeerd. In de kern integreert MiDashengLM Dasheng, een open-source audio-encoder, die specifiek is ontwikkeld om diverse auditieve informatie effectief te verwerken. In tegenstelling tot eerdere werken die zich vooral richtten op audio-tekstuitlijning gebaseerd op automatische spraakherkenning (ASR), richt onze strategie zich op algemene audiobeschrijvingen, waarbij spraak, geluid en muziekinformatie worden samengevoegd tot één tekstuele representatie, wat een holistische tekstuele weergave van complexe audio-scènes mogelijk maakt. Tot slot biedt MiDashengLM een versnelling tot 4x in termen van tijd-tot-eerste-token (TTFT) en tot 20x hogere doorvoer dan vergelijkbare modellen. Checkpoints zijn online beschikbaar op https://huggingface.co/mispeech/midashenglm-7b en https://github.com/xiaomi-research/dasheng-lm.
Instance segmentation is van cruciaal belang in biomedische beeldvorming om individuele objecten zoals cellen nauwkeurig te onderscheiden, die vaak overlappen en in grootte variëren. Recente query-gebaseerde methoden, waarbij objectqueries de segmentatie sturen, hebben sterke prestaties getoond. Hoewel U-Net een veelgebruikte architectuur is in medische beeldsegmentatie, blijft het potentieel ervan in query-gebaseerde benaderingen grotendeels onontgonnen. In dit werk presenteren we IAUNet, een nieuwe query-gebaseerde U-Net-architectuur. De kern van het ontwerp bestaat uit een volledige U-Net-architectuur, versterkt door een nieuwe lichtgewicht convolutionele Pixel-decoder, waardoor het model efficiënter wordt en het aantal parameters wordt verminderd. Daarnaast stellen we een Transformer-decoder voor die object-specifieke kenmerken verfijnt over meerdere schalen. Tot slot introduceren we de 2025 Revvity Full Cell Segmentation Dataset, een unieke bron met gedetailleerde annotaties van overlappende celcytoplasma in helderveldbeelden, wat een nieuwe standaard zet voor biomedische instance segmentation. Experimenten op meerdere openbare datasets en onze eigen dataset tonen aan dat IAUNet de meeste state-of-the-art volledig convolutionele, transformer-gebaseerde en query-gebaseerde modellen, evenals celsegmentatie-specifieke modellen, overtreft, en zo een sterke basis legt voor cel instance segmentation-taken. De code is beschikbaar op https://github.com/SlavkoPrytula/IAUNet.
Reinforcement Learning met Verifieerbare Beloning (RLVR) heeft de complexe redeneervaardigheden van Large Language Models (LLMs) aanzienlijk verbeterd. Het lukt echter niet om de inherente capaciteitsgrenzen van het basis-LLM te doorbreken, vanwege de in wezen on-policy strategie in combinatie met de enorme actieruimte en schaarse beloning van het LLM. Kritisch is dat RLVR kan leiden tot het instorten van de capaciteitsgrens, waardoor het probleemoplossend vermogen van het LLM wordt ingeperkt. Om dit probleem aan te pakken, stellen we RL-PLUS voor, een nieuwe hybride-policy optimalisatiebenadering voor LLMs die interne exploitatie combineert met externe data om sterkere redeneervaardigheden te bereiken en de grenzen van basismodellen te overstijgen. RL-PLUS integreert twee kerncomponenten, namelijk Multiple Importance Sampling om distributiemismatch van externe data aan te pakken, en een Exploration-Based Advantage Function om het model te leiden naar hoogwaardige, onontgonnen redeneerpaden. We bieden zowel theoretische analyse als uitgebreide experimenten om de superioriteit en generaliseerbaarheid van onze aanpak aan te tonen. In vergelijking met bestaande RLVR-methoden behaalt RL-PLUS 1) state-of-the-art prestaties op zes wiskundige redeneerbenchmarks; 2) superieure prestaties op zes out-of-distribution redeneertaken; 3) consistente en significante verbeteringen over diverse modelfamilies, met gemiddelde relatieve verbeteringen tot 69,2\%. Bovendien geeft de analyse van Pass@k-curven aan dat RL-PLUS het probleem van het instorten van de capaciteitsgrens effectief oplost.
Autoformalizatie heeft als doel om wiskundige uitspraken in natuurlijke taal te vertalen naar een formele taal. Hoewel LLM's de vooruitgang op dit gebied hebben versneld, lijden bestaande methoden nog steeds aan een lage nauwkeurigheid. Wij identificeren twee cruciale vaardigheden voor effectieve autoformalizatie: een uitgebreide beheersing van domeinkennis in formele taal, en het redeneervermogen om natuurlijke taalproblemen te begrijpen en informele-formele afstemming te realiseren. Zonder de eerste kan een model de juiste formele objecten niet identificeren; zonder de tweede heeft het moeite om real-world contexten te interpreteren en deze precies in formele uitdrukkingen om te zetten. Om deze tekortkomingen aan te pakken, introduceren we ThinkingF, een gegevenssynthese- en trainingspijplijn die beide vaardigheden verbetert. Eerst construeren we twee datasets: één door grootschalige voorbeelden die rijk zijn aan formele kennis te destilleren en te selecteren, en een andere door informele-naar-formele redeneertrajecten te genereren die worden geleid door door experts ontworpen sjablonen. Vervolgens passen we SFT en RLVR toe met deze datasets om de twee vaardigheden verder te integreren en te verfijnen. De resulterende 7B- en 32B-modellen vertonen zowel uitgebreide formele kennis als sterk informele-naar-formeel redeneervermogen. Opmerkelijk is dat StepFun-Formalizer-32B SOTA BEq@1-scores behaalt van 40,5% op FormalMATH-Lite en 26,7% op ProverBench, waarmee het alle voorgaande algemene en gespecialiseerde modellen overtreft.
Rust's compile-time veiligheidsgaranties maken het ideaal voor veiligheidskritische systemen, wat de vraag naar het vertalen van legacy C-codebases naar Rust heeft doen toenemen. Hoewel er verschillende benaderingen voor deze taak zijn ontstaan, kampen ze met inherente afwegingen: op regels gebaseerde oplossingen hebben moeite om te voldoen aan de eisen voor codeveiligheid en idiomatisch gebruik, terwijl LLM-gebaseerde oplossingen vaak falen in het genereren van semantisch equivalente Rust-code, vanwege de zware afhankelijkheden van modules in de gehele codebase. Recente studies hebben aangetoond dat beide oplossingen beperkt zijn tot kleinschalige programma's. In dit artikel stellen we EvoC2Rust voor, een geautomatiseerd framework voor het omzetten van volledige C-projecten naar equivalente Rust-projecten. EvoC2Rust maakt gebruik van een skeletgeleide vertaalstrategie voor projectniveau vertaling. De pijplijn bestaat uit drie evolutionaire fasen: 1) het decomposeert eerst het C-project in functionele modules, gebruikt een feature-mapping-versterkte LLM om definities en macro's te transformeren en genereert type-gecontroleerde functiestubs, die een compileerbaar Rust-skelet vormen; 2) het vertaalt vervolgens incrementeel de functie, waarbij de corresponderende stub-placeholder wordt vervangen; 3) ten slotte repareert het compilatiefouten door LLM en statische analyse te integreren. Door evolutionaire augmentatie combineert EvoC2Rust de voordelen van zowel op regels gebaseerde als LLM-gebaseerde oplossingen. Onze evaluatie op open-source benchmarks en zes industriële projecten toont de superieure prestaties van EvoC2Rust in projectniveau C-naar-Rust vertaling. Gemiddeld behaalt het 17,24% en 14,32% verbeteringen in syntactische en semantische nauwkeurigheid ten opzichte van LLM-gebaseerde benaderingen, samen met een 96,79% hogere codeveiligheidsratio dan de op regels gebaseerde tools. Op moduleniveau bereikt EvoC2Rust 92,25% compilatie- en 89,53% test-slaagpercentages op industriële projecten, zelfs voor complexe codebases en lange functies.
Named-entity recognition (NER) is essentieel voor het extraheren van gestructureerde informatie uit de >80% van de gezondheidszorgdata die zich bevindt in ongestructureerde klinische notities en biomedische literatuur. Ondanks recente vooruitgang met grote taalmodelen, blijft het bereiken van state-of-the-art prestaties over diverse entiteitstypen terwijl rekenefficiëntie behouden blijft een aanzienlijke uitdaging. Wij introduceren OpenMed NER, een suite van open-source, domeinaangepaste transformermodellen die lichtgewicht domeinaanpassende voorafgaande training (DAPT) combineren met parameter-efficiënte Low-Rank Adaptation (LoRA). Onze aanpak voert kosteneffectieve DAPT uit op een corpus van 350.000 passages samengesteld uit ethisch verkregen, publiekelijk beschikbare onderzoeksrepositories en geanonimiseerde klinische notities (PubMed, arXiv, en MIMIC-III) met behulp van DeBERTa-v3, PubMedBERT, en BioELECTRA backbones. Dit wordt gevolgd door taakspecifieke fine-tuning met LoRA, die minder dan 1,5% van de modelparameters bijwerkt. We evalueren onze modellen op 12 gevestigde biomedische NER benchmarks die chemicaliën, ziekten, genen en soorten omvatten. OpenMed NER behaalt nieuwe state-of-the-art micro-F1 scores op 10 van deze 12 datasets, met aanzienlijke verbeteringen over diverse entiteitstypen. Onze modellen verbeteren de state-of-the-art op fundamentele ziekte- en chemische benchmarks (bijv. BC5CDR-Ziekte, +2,70 pp), terwijl ze nog grotere verbeteringen van meer dan 5,3 en 9,7 procentpunten leveren op meer gespecialiseerde gen- en klinische cellijn corpora. Dit werk toont aan dat strategisch aangepaste open-source modellen gesloten bronoplossingen kunnen overtreffen. Deze prestaties worden bereikt met opmerkelijke efficiëntie: de training wordt voltooid in minder dan 12 uur op een enkele GPU met een lage koolstofvoetafdruk (< 1,2 kg CO2e), waarbij permissief gelicentieerde, open-source checkpoints worden geproduceerd die ontworpen zijn om professionals te helpen bij het faciliteren van naleving van opkomende gegevensbescherming en AI-regelgeving, zoals de EU AI Act.
We presenteren DPoser-X, een op diffusie gebaseerd prior model voor 3D volledige lichaamsmenselijke poses. Het bouwen van een veelzijdig en robuust prior model voor volledige lichaamsmenselijke poses blijft een uitdaging vanwege de inherente complexiteit van gearticuleerde menselijke poses en de schaarste aan hoogwaardige datasets voor volledige lichaamsposes. Om deze beperkingen aan te pakken, introduceren we een diffusiemodel als lichaams-pose-prior (DPoser) en breiden we dit uit naar DPoser-X voor expressieve modellering van volledige lichaamsmenselijke poses. Onze aanpak verenigt verschillende pose-gerelateerde taken als inverse problemen en lost deze op via variatie-diffusie-steekproeven. Om de prestaties bij downstream-toepassingen te verbeteren, introduceren we een nieuwe afgekapte tijdsstap-schedulingsmethode die specifiek is ontworpen voor de kenmerken van posedata. We stellen ook een gemaskerd trainingsmechanisme voor dat effectief volledige lichaams- en deel-specifieke datasets combineert, waardoor ons model de onderlinge afhankelijkheden tussen lichaamsdelen kan vastleggen zonder te overfitten op specifieke acties. Uitgebreide experimenten tonen de robuustheid en veelzijdigheid van DPoser-X aan over meerdere benchmarks voor lichaams-, hand-, gezichts- en volledige lichaams-pose-modellering. Ons model presteert consistent beter dan state-of-the-art alternatieven en stelt een nieuwe standaard voor prior modellering van volledige lichaamsmenselijke poses.
Root Cause Analysis (RCA) in mobiele netwerken blijft een uitdagende taak vanwege de behoefte aan interpreteerbaarheid, domeinkennis en causaal redeneren. In dit werk stellen we een lichtgewicht framework voor dat gebruikmaakt van Large Language Models (LLMs) voor RCA. Hiervoor introduceren we TeleLogs, een gecureerde dataset van geannoteerde probleemoplossingsscenario's die zijn ontworpen om RCA-capaciteiten te benchmarken. Onze evaluatie toont aan dat bestaande open-source redeneer-LLMs moeite hebben met deze problemen, wat de noodzaak van domeinspecifieke aanpassing benadrukt. Om dit probleem aan te pakken, stellen we een tweestaps trainingsmethodologie voor die supervised fine-tuning combineert met reinforcement learning om de nauwkeurigheid en redeneerkwaliteit van LLMs te verbeteren. De voorgestelde aanpak fine-tunt een reeks RCA-modellen om domeinkennis te integreren en gestructureerde, meerstaps diagnostische verklaringen te genereren, wat zowel de interpreteerbaarheid als de effectiviteit verbetert. Uitgebreide experimenten met verschillende LLM-groottes laten significante prestatieverbeteringen zien ten opzichte van state-of-the-art redeneer- en niet-redeneermodellen, inclusief sterke generalisatie naar gerandomiseerde testvarianten. Deze resultaten tonen de belofte aan van domein-aangepaste, redeneerversterkte LLMs voor praktische en uitlegbare RCA in netwerkoperatie en -beheer.
Autonoom rijden vereist een nauwkeurig begrip van de omgeving, inclusief weggeometrie, verkeersdeelnemers en hun semantische relaties. In scenario's voor online HD-mapgeneratie zijn rastergebaseerde representaties goed geschikt voor visionmodellen, maar missen ze geometrische precisie, terwijl grafiekgebaseerde representaties structurele details behouden maar instabiel worden zonder precieze kaarten. Om de complementaire sterke punten van beide te benutten, stellen we DiffSemanticFusion voor -- een fusiekader voor multimodale trajectvoorspelling en planning. Onze aanpak redeneert over een semantisch rastergefuseerde BEV-ruimte, versterkt door een mapdiffusiemodule die zowel de stabiliteit als de expressiviteit van online HD-maprepresentaties verbetert. We valideren ons kader op twee downstreamtaken: trajectvoorspelling en planning-georiënteerd end-to-end autonoom rijden. Experimenten op real-world benchmarks voor autonoom rijden, nuScenes en NAVSIM, tonen verbeterde prestaties aan ten opzichte van verschillende state-of-the-art methoden. Voor de voorspellingstaak op nuScenes integreren we DiffSemanticFusion met de online HD-map-geïnformeerde QCNet, wat een prestatieverbetering van 5,1\% oplevert. Voor end-to-end autonoom rijden in NAVSIM behaalt DiffSemanticFusion state-of-the-art resultaten, met een prestatieverbetering van 15\% in NavHard-scenario's. Daarnaast tonen uitgebreide ablatie- en gevoeligheidsstudies aan dat onze mapdiffusiemodule naadloos kan worden geïntegreerd in andere vectorgebaseerde benaderingen om de prestaties te verbeteren. Alle artefacten zijn beschikbaar op https://github.com/SunZhigang7/DiffSemanticFusion.
Visuele grounding heeft als doel objecten of regio's in een scène te identificeren op basis van natuurlijke taal beschrijvingen, wat essentieel is voor ruimtelijk bewuste perceptie in autonoom rijden. Bestaande visuele grounding taken zijn echter doorgaans afhankelijk van begrenzingsvakken die vaak niet in staat zijn om fijnmazige details vast te leggen. Niet alle voxels binnen een begrenzingsvak zijn bezet, wat resulteert in onnauwkeurige objectrepresentaties. Om dit aan te pakken, introduceren we een benchmark voor 3D occupancy grounding in uitdagende buitenomgevingen. Gebaseerd op de nuScenes dataset, integreert het natuurlijke taal met voxel-niveau occupancy annotaties, wat een nauwkeurigere objectperceptie biedt in vergelijking met de traditionele grounding taak. Bovendien stellen we GroundingOcc voor, een end-to-end model ontworpen voor 3D occupancy grounding door middel van multi-modale learning. Het combineert visuele, tekstuele en point cloud kenmerken om de objectlocatie en occupancy informatie van grof naar fijn te voorspellen. Specifiek bestaat GroundingOcc uit een multimodale encoder voor kenmerk extractie, een occupancy head voor voxel-gewijze voorspellingen, en een grounding head om de lokalisatie te verfijnen. Daarnaast verbeteren een 2D grounding module en een diepte schattingsmodule het geometrische begrip, waardoor de modelprestaties worden verhoogd. Uitgebreide experimenten op de benchmark tonen aan dat onze methode de bestaande baselines overtreft op 3D occupancy grounding. De dataset is beschikbaar op https://github.com/RONINGOD/GroundingOcc.
Text-to-3D (T23D)-generatie heeft digitale contentcreatie getransformeerd, maar blijft beperkt door blinde trial-and-error-promptprocessen die onvoorspelbare resultaten opleveren. Hoewel visuele promptengineering in tekst-naar-beeld-domeinen is gevorderd, brengt de toepassing ervan op 3D-generatie unieke uitdagingen met zich mee die multi-view consistentie-evaluatie en ruimtelijk begrip vereisen. Wij presenteren Sel3DCraft, een visueel promptengineeringsysteem voor T23D dat ongestructureerde exploratie omzet in een begeleid visueel proces. Onze aanpak introduceert drie belangrijke innovaties: een dual-branch-structuur die retrieval en generatie combineert voor diverse kandidaat-exploratie; een multi-view hybride scoringsmethode die MLLM's benut met innovatieve hoogwaardige metrieken om 3D-modellen te beoordelen met menselijk-expertconsistentie; en een prompt-gestuurde visuele analyse-suite die intuïtieve defectidentificatie en verfijning mogelijk maakt. Uitgebreide tests en gebruikersstudies tonen aan dat Sel3DCraft andere T23D-systemen overtreft in het ondersteunen van creativiteit voor ontwerpers.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) verbetert de instructievolgcapaciteiten van grote taalmmodellen (LLMs), maar lijdt onder trainingsinefficiëntie door ontoereikende moeilijkheidsbeoordeling. Bovendien is RLVR gevoelig voor over-optimalisatie, waarbij LLMs verificatiesnelwegen exploiteren zonder zich te richten op de daadwerkelijke intentie van gebruikersinstructies. Wij introduceren de Instruction Following Decorator (IFDecorator), een raamwerk dat RLVR-training verpakt in een robuuste en sample-efficiënte pijplijn. Het bestaat uit drie componenten: (1) een coöperatief-adversariële data-flywheel die instructies en hybride verificaties co-evolueert, waardoor progressief uitdagendere instructie-verificatieparen worden gegenereerd; (2) IntentCheck, een bypass-module die intentie-uitlijning afdwingt; en (3) trip wires, een diagnostisch mechanisme dat beloningsmanipulatie detecteert via valinstructies, die snelweg-exploitatiegedrag activeren en vastleggen. Onze Qwen2.5-32B-Instruct-IFDecorator behaalt een nauwkeurigheid van 87,43% op IFEval, wat beter presteert dan grotere propriëtaire modellen zoals GPT-4o. Daarnaast tonen we aanzienlijke verbeteringen op FollowBench aan, terwijl algemene capaciteiten behouden blijven. Onze trip wires laten significante reducties zien in beloningsmanipulatiepercentages. Wij zullen modellen, code en data vrijgeven voor toekomstig onderzoek.
Hoewel de vooruitgang in de redeneervaardigheden van LLM's hun prestaties bij het oplossen van wiskundige problemen, programmeertaken en algemene puzzels aanzienlijk heeft verbeterd, blijft hun effectiviteit in het nauwkeurig opvolgen van instructies inconsistent, vooral bij complexere richtlijnen. Ons onderzoek identificeert lui redeneren tijdens de denkfase als de belangrijkste factor die bijdraagt aan slechte instructieopvolging. Om dit probleem te verlichten, stellen we een uitgebreid framework voor dat is ontworpen om rigoureuze redeneerprocessen mogelijk te maken, inclusief vooruitblikken en zelfcontrole, essentieel voor het voldoen aan strikte instructiebeperkingen. Specifiek genereren we eerst instructies met complexe beperkingen en passen we een filterproces toe om geldige prompts te verkrijgen, wat resulteert in drie verschillende promptdatasets gecategoriseerd als moeilijk, gemakkelijk en geslaagd. Vervolgens gebruiken we rejection sampling op de geslaagde prompts om een kleine maar hoogwaardige dataset samen te stellen, waardoor een koude-start initialisatie van het model mogelijk wordt en de aanpassing aan effectieve redeneerpatronen wordt vergemakkelijkt. Daarna passen we een entropiebehoudende supervised fine-tuning (Entropy-SFT) strategie toe, gecombineerd met token-wise entropie-adaptieve (TEA-RL) reinforcement learning, geleid door regelgebaseerde dichte beloningen. Deze aanpak moedigt het model aan om zijn redeneermechanisme te transformeren, wat uiteindelijk generaliseerbare redeneervaardigheden bevordert die vooruitblikken en zelfcontrole omvatten. Uitgebreide experimenten uitgevoerd op benchmarks voor instructieopvolging laten opmerkelijke prestatieverbeteringen zien over verschillende modelschalen. Opvallend is dat ons Light-IF-32B model zowel grotere open-source modellen zoals DeepSeek-R1 als closed-source modellen zoals Doubao-1.6 overtreft.
3D Anomaliedetectie (AD) heeft groot potentieel getoond in het detecteren van anomalieën of defecten in hoogwaardige industriële producten. Bestaande methoden worden echter doorgaans getraind op een klasse-specifieke manier en missen het vermogen om te leren van opkomende klassen. In deze studie hebben we een continu leerframework voorgesteld genaamd Continual 3D Anomaly Detection (C3D-AD), dat niet alleen gegeneraliseerde representaties kan leren voor multi-klasse puntenwolken, maar ook nieuwe klassen kan verwerken die in de loop van de tijd ontstaan. Specifiek wordt in de feature-extractiemodule, om efficiënt gegeneraliseerde lokale features te extraheren uit diverse producttypen van verschillende taken, de Kernel Attention met random feature Layer (KAL) geïntroduceerd, die de feature-ruimte normaliseert. Vervolgens wordt, om data correct en continu te reconstrueren, een efficiënte Kernel Attention met learnable Advisor (KAA) mechanisme voorgesteld, dat informatie leert van nieuwe categorieën terwijl overbodige oude informatie wordt weggefilterd, zowel in de encoder als de decoder. Ten slotte wordt, om de representatieconsistentie over taken te behouden, een Reconstruction with Parameter Perturbation (RPP) module voorgesteld door een representatie-rehearsal verliesfunctie te ontwerpen, die ervoor zorgt dat het model eerdere categorie-informatie onthoudt en categorie-adaptieve representaties teruggeeft. Uitgebreide experimenten op drie publieke datasets tonen de effectiviteit van de voorgestelde methode aan, met een gemiddelde prestatie van 66,4%, 83,1% en 63,4% AUROC op respectievelijk Real3D-AD, Anomaly-ShapeNet en MulSen-AD.
Evaluatie van feitelijkheid op lange termijn beoordeelt het vermogen van modellen om nauwkeurige, uitgebreide antwoorden te genereren op korte prompts. Bestaande benchmarks missen vaak menselijke verificatie, wat kan leiden tot potentiële kwaliteitsproblemen. Om deze beperking aan te pakken, introduceren we FACTORY, een grootschalige, door mensen geverifieerde promptset. Ontwikkeld met een model-in-the-loop aanpak en verfijnd door mensen, bevat FACTORY uitdagende prompts die feitgericht, beantwoordbaar en eenduidig zijn. We voeren menselijke evaluaties uit op 6 state-of-the-art taalmodellen met behulp van FACTORY en bestaande datasets. Onze resultaten laten zien dat FACTORY een uitdagende benchmark is: ongeveer 40% van de beweringen in de antwoorden van SOTA-modellen zijn niet feitelijk, vergeleken met slechts 10% voor andere datasets. Onze analyse identificeert de sterke punten van FACTORY ten opzichte van eerdere benchmarks, waarbij de nadruk ligt op de betrouwbaarheid ervan en de noodzaak voor modellen om te redeneren over lange-staart feiten.
In dit artikel bespreken we benaderingen om bias systematisch te beheersen, te beoordelen en te kwantificeren gedurende de volledige levenscyclus van machine learning-modellen, vanaf de initiële ontwikkeling en validatie tot voortdurende monitoring in productie en de implementatie van beveiligingsmaatregelen. Voortbouwend op ons fundamentele werk aan de Bias Evaluation and Assessment Test Suite (BEATS) voor Large Language Models, delen de auteurs veelvoorkomende hiaten op het gebied van bias en eerlijkheid in Large Language Models (LLM's) en bespreken ze een data- en AI-governancekader om Bias, Ethiek, Eerlijkheid en Feitelijkheid binnen LLM's aan te pakken. De data- en AI-governancebenadering die in dit artikel wordt besproken, is geschikt voor praktische, real-world toepassingen, waardoor rigoureuze benchmarking van LLM's mogelijk wordt vóór productie-implementatie, continue real-time evaluatie wordt gefaciliteerd en LLM-gegenereerde reacties proactief worden beheerd. Door data- en AI-governance te implementeren gedurende de levenscyclus van AI-ontwikkeling, kunnen organisaties de veiligheid en verantwoordelijkheid van hun GenAI-systemen aanzienlijk verbeteren, waardoor risico's op discriminatie effectief worden beperkt en potentiële reputatie- of merkgerelateerde schade wordt voorkomen. Uiteindelijk streven we er met dit artikel naar bij te dragen aan de vooruitgang van het creëren en implementeren van sociaal verantwoordelijke en ethisch afgestemde toepassingen die worden aangedreven door generatieve kunstmatige intelligentie.
Muziekopnames kampen vaak met problemen in de audiokwaliteit, zoals overmatige galm, vervorming, clipping, tonale onevenwichtigheden en een vernauwd stereobeeld, vooral wanneer ze worden gemaakt in niet-professionele omgevingen zonder gespecialiseerde apparatuur of expertise. Deze problemen worden doorgaans gecorrigeerd met behulp van afzonderlijke gespecialiseerde tools en handmatige aanpassingen. In dit artikel introduceren we SonicMaster, het eerste geïntegreerde generatieve model voor muziekrestauratie en mastering dat een breed scala aan audio-artefacten aanpakt met tekstgebaseerde controle. SonicMaster wordt gestuurd door natuurlijke taal-instructies om gerichte verbeteringen toe te passen, of kan werken in een automatische modus voor algemene restauratie. Om dit model te trainen, hebben we de SonicMaster-dataset samengesteld, een grote dataset van gepaarde gedegradeerde en hoogwaardige nummers door veelvoorkomende degradatietypes te simuleren met negentien degradatiefuncties behorend tot vijf verbeteringsgroepen: equalisatie, dynamiek, galm, amplitude en stereo. Onze aanpak maakt gebruik van een flow-matching generatief trainingsparadigma om een audiotransformatie te leren die gedegradeerde invoer mapt naar hun opgekuiste, gemasterde versies, geleid door tekstprompts. Objectieve audiokwaliteitsmetingen tonen aan dat SonicMaster de geluidskwaliteit aanzienlijk verbetert in alle artefactcategorieën. Bovendien bevestigen subjectieve luistertests dat luisteraars de verbeterde uitvoer van SonicMaster verkiezen boven de oorspronkelijke gedegradeerde audio, wat de effectiviteit van onze geïntegreerde aanpak benadrukt.
Text-to-image diffusiemodellen hebben opmerkelijke capaciteiten getoond in het genereren van artistieke inhoud door te leren van miljarden afbeeldingen, waaronder populaire kunstwerken. De fundamentele vraag hoe deze modellen concepten intern representeren, zoals inhoud en stijl in schilderijen, blijft echter onontgonnen. Traditionele computervisie gaat ervan uit dat inhoud en stijl orthogonaal zijn, maar diffusiemodellen krijgen tijdens de training geen expliciete begeleiding over dit onderscheid. In dit werk onderzoeken we hoe transformer-gebaseerde text-to-image diffusiemodellen inhoud- en stijlconcepten coderen bij het genereren van kunstwerken. We maken gebruik van cross-attention heatmaps om pixels in gegenereerde afbeeldingen toe te schrijven aan specifieke prompttokens, waardoor we beeldregio's kunnen isoleren die worden beïnvloed door inhoudsbeschrijvende versus stijlbeschrijvende tokens. Onze bevindingen onthullen dat diffusiemodellen verschillende gradaties van inhoud-stijl scheiding vertonen, afhankelijk van de specifieke artistieke prompt en de gevraagde stijl. In veel gevallen beïnvloeden inhoudstokens voornamelijk objectgerelateerde regio's, terwijl stijltokens de achtergrond en textuurgebieden beïnvloeden, wat wijst op een emergent begrip van het inhoud-stijl onderscheid. Deze inzichten dragen bij aan ons begrip van hoe grootschalige generatieve modellen complexe artistieke concepten intern representeren zonder expliciete supervisie. We delen de code en dataset, samen met een verkennend hulpmiddel voor het visualiseren van aandachtmaps op https://github.com/umilISLab/artistic-prompt-interpretation.