Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opkomst van grote taalmodellen (LLM's) heeft een transformerende verschuiving in kunstmatige intelligentie teweeggebracht, waardoor de weg is geefbaand voor geavanceerde intelligente agenten die in staat zijn tot geavanceerd redeneren, robuuste perceptie en veelzijdige actie in diverse domeinen. Naarmate deze agenten steeds meer AI-onderzoek en praktische toepassingen sturen, vormen hun ontwerp, evaluatie en continue verbetering complexe, veelzijdige uitdagingen. Dit overzicht biedt een uitgebreide blik, waarbij intelligente agenten worden ingekaderd binnen een modulaire, door de hersenen geïnspireerde architectuur die principes integreert uit de cognitieve wetenschap, neurowetenschappen en computationeel onderzoek. We structureren onze verkenning in vier onderling verbonden delen. Ten eerste duiken we in de modulaire basis van intelligente agenten, waarbij we hun cognitieve, perceptuele en operationele modules systematisch in kaart brengen op analoge menselijke hersenfuncties, en kerncomponenten zoals geheugen, wereldmodellering, beloningsverwerking en emotie-achtige systemen verhelderen. Ten tweede bespreken we zelfverbeterings- en adaptieve evolutiemechanismen, waarbij we onderzoeken hoe agenten hun capaciteiten autonoom verfijnen, zich aanpassen aan dynamische omgevingen en continu leren door geautomatiseerde optimalisatieparadigma's, waaronder opkomende AutoML- en LLM-gestuurde optimalisatiestrategieën. Ten derde onderzoeken we collaboratieve en evolutionaire multi-agent systemen, waarbij we de collectieve intelligentie die voortkomt uit interacties, samenwerking en sociale structuren van agenten onderzoeken, met parallellen naar menselijke sociale dynamiek. Tot slot gaan we in op de kritieke noodzaak van het bouwen van veilige, beveiligde en voordelige AI-systemen, waarbij we intrinsieke en extrinsieke beveiligingsbedreigingen, ethische afstemming, robuustheid en praktische mitigatiestrategieën benadrukken die nodig zijn voor betrouwbare inzet in de echte wereld.
Het trainen van grote taalmmodellen (LLMs) brengt tal van uitdagingen met zich mee, waaronder gradientinstabiliteit en verliespieken. Deze fenomenen kunnen leiden tot catastrofale divergentie, wat kostbare herstelpunten en het overslaan van databatches vereist. Traditionele gradientclippingtechnieken, zoals constante of normgebaseerde methoden, slagen er niet in deze problemen effectief aan te pakken vanwege hun afhankelijkheid van vaste drempels of heuristieken, wat resulteert in inefficiënt leren en frequente handmatige interventie vereist. In dit werk stellen we ZClip voor, een adaptief gradientclippingalgoritme dat dynamisch de clippingdrempel aanpast op basis van statistische eigenschappen van gradientnormen over tijd. In tegenstelling tot eerdere reactieve strategieën, past ZClip proactief aan aan de trainingsdynamiek zonder voorafgaande aannames te doen over de schaal en de temporele evolutie van gradientnormen. In de kern maakt het gebruik van z-score-gebaseerde anomaliedetectie om grote gradientpieken te identificeren en te mitigeren, waardoor schadelijke verliespieken worden voorkomen zonder de convergentie anderszins te verstoren. Onze code is beschikbaar op: https://github.com/bluorion-com/ZClip.
Grote Multimodale Modellen (LMMs) hebben aanzienlijke vooruitgang geboekt in visueel begrip en generatie, maar ze blijven uitdagingen ondervinden bij Algemeen Visueel Bewerken, met name in het volgen van complexe instructies, het behouden van uiterlijke consistentie en het ondersteunen van flexibele invoerformaten. Om deze kloof te overbruggen, introduceren we RISEBench, de eerste benchmark voor het evalueren van Reasoning-Informed viSual Editing (RISE). RISEBench richt zich op vier belangrijke redeneertypen: Temporeel, Causaal, Ruimtelijk en Logisch Redeneren. We hebben hoogwaardige testcases samengesteld voor elke categorie en stellen een evaluatieraamwerk voor dat Instructie Redeneren, Uiterlijke Consistentie en Visuele Geloofwaardigheid beoordeelt met zowel menselijke beoordelaars als een LMM-als-beoordelaar-benadering. Onze experimenten laten zien dat GPT-4o-Native aanzienlijk beter presteert dan andere open-source en propriëtaire modellen, maar zelfs dit state-of-the-art systeem worstelt met logische redeneertaken, wat een onderbelicht gebied blijft. Als eerste stap beoogt RISEBench fundamentele inzichten te bieden in redeneringsbewust visueel bewerken en toekomstig onderzoek te stimuleren. Hoewel het nog in de beginfase is, zijn we vastbesloten om de benchmark continu uit te breiden en te verfijnen om meer uitgebreide, betrouwbare en schaalbare evaluaties van next-generation multimodale systemen te ondersteunen. Onze code en gegevens zullen worden vrijgegeven op https://github.com/PhoenixZ810/RISEBench.
De recente doorbraken in OpenAI's GPT4o-model hebben verrassend goede mogelijkheden aangetoond op het gebied van beeldgeneratie en -bewerking, wat heeft geleid tot aanzienlijke opwinding in de gemeenschap. Dit technische rapport presenteert een eerste evaluatiebenchmark (genaamd GPT-ImgEval), die kwantitatief en kwalitatief de prestaties van GPT-4o diagnosticeert op drie kritieke dimensies: (1) generatiekwaliteit, (2) bewerkingsvaardigheid, en (3) semantische synthese op basis van wereldkennis. Op alle drie de taken laat GPT-4o sterke prestaties zien, waarbij het bestaande methoden aanzienlijk overtreft in zowel beeldgeneratiecontrole als uitvoerkwaliteit, terwijl het ook uitzonderlijke kennisredeneervaardigheden tentoonspreidt. Bovendien stellen we, gebaseerd op de gegenereerde data van GPT-4o, een classificatiemodel-gebaseerde aanpak voor om de onderliggende architectuur van GPT-4o te onderzoeken, waarbij onze empirische resultaten suggereren dat het model bestaat uit een autoregressief (AR) gecombineerd met een diffusiegebaseerde kop voor beelddecodering, in plaats van VAR-achtige architecturen. We bieden ook een complete speculatie over de algehele architectuur van GPT-4o. Daarnaast voeren we een reeks analyses uit om de specifieke beperkingen van GPT-4o en de synthetische artefacten die vaak worden waargenomen bij de beeldgeneratie te identificeren en te visualiseren. We presenteren ook een vergelijkende studie van meerdere ronden beeldbewerking tussen GPT-4o en Gemini 2.0 Flash, en bespreken de veiligheidsimplicaties van de uitvoer van GPT-4o, met name de detecteerbaarheid ervan door bestaande beeldforensische modellen. We hopen dat ons werk waardevolle inzichten kan bieden en een betrouwbare benchmark kan leveren om toekomstig onderzoek te begeleiden, reproduceerbaarheid te bevorderen en innovatie op het gebied van beeldgeneratie en daarbuiten te versnellen. De codes en datasets die worden gebruikt voor de evaluatie van GPT-4o zijn te vinden op https://github.com/PicoTrex/GPT-ImgEval.
Dit artikel introduceert JavisDiT, een nieuwe Joint Audio-Video Diffusion Transformer die is ontworpen voor gesynchroniseerde audio-videogeneratie (JAVG). Gebaseerd op de krachtige Diffusion Transformer (DiT)-architectuur, is JavisDiT in staat om hoogwaardige audio- en videocontent gelijktijdig te genereren vanuit open-ended gebruikersprompts. Om optimale synchronisatie te garanderen, introduceren we een fijnmazig spatio-temporeel uitlijningsmechanisme via een Hiërarchische Spatio-Temporele Gesynchroniseerde Prior (HiST-Sypo) Estimator. Deze module extraheert zowel globale als fijnmazige spatio-temporele priors, die de synchronisatie tussen de visuele en auditieve componenten begeleiden. Bovendien stellen we een nieuwe benchmark voor, JavisBench, bestaande uit 10.140 hoogwaardige tekstgeannoteerde geluidsvideo's die diverse scènes en complexe real-world scenario's omvatten. Verder ontwikkelen we specifiek een robuuste metriek voor het evalueren van de synchronisatie tussen gegenereerde audio-videoparen in complexe real-world content. Experimentele resultaten tonen aan dat JavisDiT bestaande methoden significant overtreft door zowel hoogwaardige generatie als precieze synchronisatie te garanderen, waarmee een nieuwe standaard wordt gezet voor JAVG-taken. Onze code, model en dataset zullen publiekelijk beschikbaar worden gesteld op https://javisdit.github.io/.
Versterkend leren (Reinforcement Learning, RL) wordt op grote schaal toegepast bij het na-trainen van grote taalmodel(len) (Large Language Models, LLMs). Recent onderzoek naar het stimuleren van redeneervaardigheden in LLMs via RL suggereert dat geschikte leermethoden effectieve schaalbaarheid tijdens inferentie mogelijk kunnen maken. Een belangrijke uitdaging bij RL is het verkrijgen van nauwkeurige beloningssignalen voor LLMs in verschillende domeinen, verder dan verifieerbare vragen of kunstmatige regels. In dit werk onderzoeken we hoe beloningsmodellering (Reward Modeling, RM) kan worden verbeterd met meer rekencapaciteit tijdens inferentie voor algemene queries, d.w.z. de schaalbaarheid tijdens inferentie van generalistische RM, en verder, hoe de effectiviteit van prestatie-rekenschaalbaarheid kan worden verbeterd met geschikte leermethoden. Voor de RM-aanpak gebruiken we puntgewijze generatieve beloningsmodellering (Generative Reward Modeling, GRM) om flexibiliteit te bieden voor verschillende invoertypen en potentieel voor schaalbaarheid tijdens inferentie. Voor de leermethode stellen we Self-Principled Critique Tuning (SPCT) voor om schaalbare beloningsgeneratiegedragingen in GRMs te bevorderen via online RL, om principes adaptief en kritieken nauwkeurig te genereren, wat resulteert in DeepSeek-GRM-modellen. Bovendien gebruiken we voor effectieve schaalbaarheid tijdens inferentie parallelle sampling om het rekengebruik uit te breiden, en introduceren we een meta-RM om het stemproces te begeleiden voor betere schaalprestaties. Empirisch tonen we aan dat SPCT de kwaliteit en schaalbaarheid van GRMs aanzienlijk verbetert, bestaande methoden en modellen overtreft in verschillende RM-benchmarks zonder ernstige vooroordelen, en betere prestaties kan bereiken in vergelijking met schaalbaarheid tijdens training. DeepSeek-GRM ondervindt nog steeds uitdagingen in sommige taken, waarvan we geloven dat deze kunnen worden aangepakt door toekomstige inspanningen in generalistische beloningssystemen. De modellen zullen worden vrijgegeven en open-source gemaakt.
Het synthetiseren van pratende hoofden is essentieel voor virtuele avatars en mens-computerinteractie. De meeste bestaande methoden zijn echter doorgaans beperkt tot het accepteren van controle vanuit één primaire modaliteit, wat hun praktische bruikbaarheid beperkt. Daarom introduceren we ACTalker, een end-to-end videodiffusiekader dat zowel multi-signaalcontrole als enkelvoudige signaalcontrole ondersteunt voor het genereren van pratende hoofdvideo's. Voor meervoudige controle hebben we een parallelle mamba-structuur ontworpen met meerdere takken, waarbij elke tak een apart stuursignaal gebruikt om specifieke gezichtsregio's te besturen. Een poortmechanisme wordt toegepast over alle takken, wat flexibele controle biedt over de videogeneratie. Om een natuurlijke coördinatie van de gecontroleerde video zowel temporeel als ruimtelijk te waarborgen, gebruiken we de mamba-structuur, waardoor stuursignalen feature-tokens in beide dimensies in elke tak kunnen manipuleren. Daarnaast introduceren we een masker-dropstrategie die ervoor zorgt dat elk stuursignaal onafhankelijk zijn corresponderende gezichtsregio binnen de mamba-structuur kan besturen, waardoor controleconflicten worden voorkomen. Experimentele resultaten tonen aan dat onze methode natuurlijk ogende gezichtsvideo's produceert die worden aangestuurd door diverse signalen en dat de mambalaag naadloos meerdere stuurmodaliteiten integreert zonder conflicten.
Dit artikel presenteert SkyReels-A2, een controleerbaar videogeneratieframework dat in staat is willekeurige visuele elementen (bijv. personages, objecten, achtergronden) te assembleren tot gesynthetiseerde video's op basis van tekstuele prompts, terwijl strikte consistentie met referentiebeelden voor elk element wordt behouden. We noemen deze taak elements-to-video (E2V), waarvan de belangrijkste uitdagingen liggen in het behouden van de trouw van elk referentie-element, het waarborgen van een samenhangende compositie van de scène en het bereiken van natuurlijke uitvoer. Om deze uitdagingen aan te pakken, ontwerpen we eerst een uitgebreide datapijplijn om prompt-referentie-video-triplets te construeren voor modeltraining. Vervolgens stellen we een nieuw beeld-tekst gezamenlijk inbeddingsmodel voor om multi-elementrepresentaties in het generatieve proces te injecteren, waarbij een balans wordt gevonden tussen elementspecifieke consistentie, globale samenhang en tekstuitlijning. We optimaliseren ook de inferentiepijplijn voor zowel snelheid als uitvoerstabiliteit. Bovendien introduceren we een zorgvuldig samengestelde benchmark voor systematische evaluatie, genaamd A2 Bench. Experimenten tonen aan dat ons framework diverse, hoogwaardige video's kan genereren met precieze elementcontrole. SkyReels-A2 is het eerste open-source commerciële model voor de generatie van E2V, dat gunstig presteert in vergelijking met geavanceerde closed-source commerciële modellen. We verwachten dat SkyReels-A2 creatieve toepassingen zoals drama en virtuele e-commerce zal bevorderen, waardoor de grenzen van controleerbare videogeneratie worden verlegd.
We presenteren de uitdagende taak om automatisch een hoogwaardig Wikipedia-stijl artikel te creëren dat informatie samenvoegt uit meerdere diverse video's over real-world gebeurtenissen, zoals natuurrampen of politieke verkiezingen. Video's zijn intuïtieve bronnen voor retrieval-augmented generation (RAG), maar de meeste hedendaagse RAG-workflows richten zich sterk op tekst en bestaande methoden voor video-gebaseerde samenvatting focussen op laag-niveau scènebegrip in plaats van hoog-niveau gebeurtenissemantiek. Om deze kloof te dichten, introduceren we WikiVideo, een benchmark bestaande uit door experts geschreven artikelen en dicht geannoteerde video's die bewijs leveren voor de claims in de artikelen, waardoor de integratie van video in RAG-pipelines wordt gefaciliteerd en de creatie van diepgaande inhoud die gegrond is in multimodale bronnen mogelijk wordt gemaakt. We stellen verder Collaborative Article Generation (CAG) voor, een nieuwe interactieve methode voor het creëren van artikelen uit meerdere video's. CAG maakt gebruik van een iteratieve interactie tussen een r1-stijl redeneermodel en een VideoLLM om hogere niveau inferenties te trekken over de doelgebeurtenis dan mogelijk is met VideoLLMs alleen, die zich fixeren op laag-niveau visuele kenmerken. We benchmarken state-of-the-art VideoLLMs en CAG in zowel oracle retrieval- als RAG-instellingen en vinden dat CAG consistent beter presteert dan alternatieve methoden, terwijl het intrigerende mogelijkheden voor toekomstig werk suggereert.
Reinforcement learning (RL) heeft recentelijk sterk potentieel getoond in het verbeteren van de redeneervaardigheden van grote taalmodel(len) en wordt nu actief uitgebreid naar visueel-taalmodel(len) (VLMs). Bestaande RL-toepassingen in VLMs zijn echter vaak afhankelijk van zwaar geconstrueerde frameworks die reproduceerbaarheid en toegankelijkheid belemmeren, terwijl gestandaardiseerde evaluatieprotocollen ontbreken, wat het vergelijken van resultaten of het interpreteren van trainingsdynamieken bemoeilijkt. Dit werk introduceert een transparant, from-scratch framework voor RL in VLMs, dat een minimaal maar functioneel vierstappenpijplijn biedt, gevalideerd over meerdere modellen en datasets. Daarnaast wordt een gestandaardiseerd evaluatieschema voorgesteld om trainingsdynamieken en reflectief gedrag te beoordelen. Uitgebreide experimenten op visuele redeneertaken onthullen belangrijke empirische bevindingen: responslengte is gevoelig voor willekeurige seeds, reflectie correleert met uitvoerlengte, en RL presteert consistent beter dan supervised fine-tuning (SFT) in generalisatie, zelfs met hoogwaardige data. Deze bevindingen, samen met het voorgestelde framework, beogen een reproduceerbare basislijn te creëren en bredere betrokkenheid bij RL-gebaseerd VLM-onderzoek te ondersteunen.
Bestaande schaalanalyses van Spraaktaalmodellen (SLMs) schetsen een somber beeld. Ze voorspellen dat SLMs aanzienlijk meer rekenkracht en data vereisen in vergelijking met tekst, wat sommigen doet twijfelen aan de haalbaarheid van het trainen van hoogwaardige SLMs. Moderne SLMs worden echter vaak geïnitialiseerd vanuit vooraf getrainde Teksttaalmodellen (TextLMs) met behulp van spraak-tekst-interleaving om kennisoverdracht mogelijk te maken. Dit roept de vraag op: Schaalden geïnterleefde SLMs efficiënter dan tekstloze SLMs? In dit paper beantwoorden we deze vraag met een volmondig ja! We voeren een schaalanalyse uit van geïnterleefde SLMs door tientallen modellen te trainen en de schaaltrends te analyseren. We zien dat SLMs onder deze opzet efficiënter schalen met rekenkracht. Daarnaast geven onze resultaten aan dat de schaaldynamiek aanzienlijk verschilt van die van tekstloze SLMs, wat suggereert dat men aanzienlijk meer van het rekenbudget zou moeten toewijzen aan het vergroten van het model in plaats van het aantal trainings-tokens. We onderzoeken ook de rol van synthetische data en TextLM-model families in het ontsluiten van dit potentieel. De resultaten suggereren dat ons opgeschaalde model vergelijkbare prestaties behaalt met toonaangevende modellen op semantische spraakmetrieken, terwijl het minder rekenkracht en data gebruikt dan andere benaderingen. We maken modellen, samples en data openbaar - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Multimodale Large Language Models (MLLMs) kampen met hoge rekenkosten vanwege hun enorme omvang en het grote aantal visuele tokens. In dit artikel onderzoeken we laaggewijze redundantie in MLLMs door een nieuwe metriek te introduceren, Layer Contribution (LC), die de impact van de transformaties van een laag op respectievelijk visuele en teksttokens kwantificeert. De berekening van LC houdt in dat de divergentie in de modeloutput wordt gemeten die ontstaat door de transformaties van de laag op de gespecificeerde tokens te verwijderen. Ons pilotexperiment toont aan dat veel lagen van MLLMs een minimale bijdrage leveren tijdens de verwerking van visuele tokens. Gemotiveerd door deze observatie stellen we ShortV voor, een trainingsvrije methode die LC gebruikt om ineffectieve lagen te identificeren en de updates van visuele tokens in deze lagen te bevriezen. Experimenten tonen aan dat ShortV visuele tokens in ongeveer 60\% van de MLLM-lagen kan bevriezen, waardoor de rekenkosten voor het updaten van visuele tokens aanzienlijk worden verlaagd. Zo wordt bijvoorbeeld een reductie van 50\% in FLOPs bereikt op LLaVA-NeXT-13B, terwijl de superieure prestaties behouden blijven. De code zal publiekelijk beschikbaar zijn op https://github.com/icip-cas/ShortV.
Diffusiemodellen bieden indrukwekkende aanpasbaarheid voor beeldtaken, voornamelijk door ruisvoorspellingen die taakspecifieke informatie coderen en classificatorvrije begeleiding die instelbare schaling mogelijk maakt. Dit schaalmechanisme definieert impliciet een "schaalruimte" waarvan het potentieel voor fijnmazige semantische manipulatie nog onvoldoende is onderzocht. Wij onderzoeken deze ruimte, beginnend met inversiegebaseerde bewerking waarbij het verschil tussen voorwaardelijke/onvoorwaardelijke ruisvoorspellingen cruciale semantische informatie bevat. Onze kernbijdrage komt voort uit een Fourier-analyse van ruisvoorspellingen, waaruit blijkt dat de lage- en hoge-frequentiecomponenten verschillend evolueren tijdens het diffusieproces. Op basis van dit inzicht introduceren we FreSca, een eenvoudige methode die begeleidingsschaling onafhankelijk toepast op verschillende frequentiebanden in het Fourier-domein. FreSca verbetert aantoonbaar bestaande beeldbewerkingsmethoden zonder hertraining. Opwindend is dat de effectiviteit ervan zich uitstrekt tot beeldbegriptaken zoals diepteschatting, wat kwantitatieve verbeteringen oplevert over meerdere datasets.
Modelselectie is een cruciale stap in tijdreeksvoorspelling, wat traditioneel uitgebreide prestatie-evaluaties over verschillende datasets vereist. Meta-learningbenaderingen streven ernaar dit proces te automatiseren, maar ze zijn doorgaans afhankelijk van vooraf opgestelde prestatiematrices, die kostbaar zijn om te bouwen. In dit werk stellen we voor om Large Language Models (LLMs) te benutten als een lichtgewicht alternatief voor modelselectie. Onze methode elimineert de noodzaak van expliciete prestatiematrices door gebruik te maken van de inherente kennis en redeneervaardigheden van LLMs. Door middel van uitgebreide experimenten met LLaMA, GPT en Gemini tonen we aan dat onze aanpak traditionele meta-learningtechnieken en heuristische basislijnen overtreft, terwijl de rekenkundige overhead aanzienlijk wordt verminderd. Deze bevindingen onderstrepen het potentieel van LLMs in efficiënte modelselectie voor tijdreeksvoorspelling.
Sinds de opkomst van redeneringsgebaseerde grote taalmodellen, hebben velen groot succes geboekt door redeneervaardigheden te destilleren in studentmodellen. Dergelijke technieken hebben de kloof tussen redenering en standaard LLM's aanzienlijk verkleind bij coderings taken. Desondanks blijft veel van de vooruitgang op het gebied van het destilleren van redeneermodellen achter gesloten deuren van propriëtaire datasets of ontbreekt het aan details over datacuratie, filtering en daaropvolgende training. Om dit aan te pakken, hebben we een superieure supervised fine-tuning (SFT) dataset geconstrueerd die we gebruiken om state-of-the-art coderingsvaardigheden te bereiken in modellen van verschillende groottes. Onze gedestilleerde modellen gebruiken alleen SFT om 61,8% te behalen op LiveCodeBench en 24,6% op CodeContests, wat alternatieven die getraind zijn met reinforcement learning overtreft. Vervolgens voeren we een analyse uit van de databronnen die gebruikt zijn om onze dataset te construeren, de impact van code-uitvoeringsfiltering, en het belang van instructie-/oplossingsdiversiteit. We observeren dat uitvoeringsfiltering een negatief effect had op de benchmarknauwkeurigheid, wat ons ertoe bracht om instructiediversiteit boven oplossingscorrectheid te prioriteren. Tot slot analyseren we ook de token-efficiëntie en de redeneerpatronen die door deze modellen worden gebruikt. We zullen deze datasets en gedestilleerde modellen opensource aan de gemeenschap.
Recente ontwikkelingen in Large Language Models (LLMs) hebben aangetoond dat het veelbelovend is om Process Reward Models (PRMs) als verificatiemodellen te gebruiken om de prestaties van LLMs te verbeteren. Huidige PRMs kampen echter met drie belangrijke uitdagingen: (1) beperkte procesbegeleiding en generalisatiecapaciteiten, (2) afhankelijkheid van voorspellingen van scalaire waarden zonder gebruik te maken van de generatieve mogelijkheden van LLMs, en (3) onvermogen om de rekencapaciteit van PRMs tijdens testtijd op te schalen. In dit werk introduceren we GenPRM, een generatief procesbeloningsmodel dat expliciete Chain-of-Thought (CoT)-redenering uitvoert met codeverificatie voordat het een oordeel geeft voor elke redeneerstap. Om hoogwaardige procesbegeleidingslabels en redeneringsdata te verkrijgen, stellen we Relative Progress Estimation (RPE) en een redeneringssyntheseframework voor dat codeverificatie integreert. Experimentele resultaten op ProcessBench en verschillende wiskundige redeneertaken laten zien dat GenPRM aanzienlijk beter presteert dan eerdere PRMs met slechts 23K trainingsdata uit de MATH-dataset. Door opschaling tijdens testtijd presteert een 1,5B GenPRM beter dan GPT-4o, en een 7B GenPRM overtreft Qwen2.5-Math-PRM-72B op ProcessBench. Daarnaast toont GenPRM sterke capaciteiten om als criticusmodel te dienen voor de verfijning van beleidsmodellen. Dit werk vestigt een nieuw paradigma voor procesbegeleiding dat de kloof overbrugt tussen PRMs en criticusmodellen in LLMs. Onze code, model en data zullen beschikbaar zijn op https://ryanliu112.github.io/GenPRM.
We presenteren het eerste mechanistische bewijs dat modelvrije reinforcement learning-agents kunnen leren plannen. Dit wordt bereikt door een methodologie toe te passen die gebaseerd is op concept-gebaseerde interpreteerbaarheid op een modelvrije agent in Sokoban -- een veelgebruikte benchmark voor het bestuderen van plannen. Specifiek tonen we aan dat DRC, een generieke modelvrije agent geïntroduceerd door Guez et al. (2019), geleerde conceptrepresentaties gebruikt om intern plannen te formuleren die zowel de langetermijneffecten van acties op de omgeving voorspellen als de actiekeuze beïnvloeden. Onze methodologie omvat: (1) het onderzoeken van planning-relevante concepten, (2) het onderzoeken van planvorming binnen de representaties van de agent, en (3) het verifiëren dat ontdekte plannen (in de representaties van de agent) een causaal effect hebben op het gedrag van de agent door interventies. We laten ook zien dat het ontstaan van deze plannen samenhangt met het ontstaan van een planning-achtige eigenschap: het vermogen om te profiteren van extra rekentijd tijdens het testen. Tot slot voeren we een kwalitatieve analyse uit van het planningsalgoritme dat door de agent is geleerd en ontdekken we een sterke gelijkenis met parallelle bidirectionele zoekalgoritmen. Onze bevindingen dragen bij aan het begrip van de interne mechanismen die ten grondslag liggen aan planningsgedrag in agents, wat belangrijk is gezien de recente trend van emergent plannen en redeneervermogen in LLM's door RL.
Wetenschappelijke ontdekking staat op het punt om snel vooruitgang te boeken dankzij geavanceerde robotica en kunstmatige intelligentie. Huidige wetenschappelijke praktijken kampen met aanzienlijke beperkingen, aangezien handmatig experimenteren tijdrovend en resource-intensief blijft, terwijl multidisciplinair onderzoek integratie van kennis vereist die verder gaat dan de expertisegrenzen van individuele onderzoekers. Hier schetsen we het concept van een autonome generalistische wetenschapper (Autonomous Generalist Scientist, AGS) dat agent-gebaseerde AI en belichaamde robotica combineert om de volledige onderzoekscyclus te automatiseren. Dit systeem zou dynamisch kunnen interageren met zowel fysieke als virtuele omgevingen, terwijl het de integratie van kennis over diverse wetenschappelijke disciplines faciliteert. Door deze technologieën in elke onderzoeksfase in te zetten – van literatuuronderzoek en hypothesegeneratie tot experimentatie en manuscriptschrijven – en interne reflectie te combineren met externe feedback, streeft dit systeem ernaar de tijd en middelen die nodig zijn voor wetenschappelijke ontdekking aanzienlijk te verminderen. Voortbouwend op de evolutie van virtuele AI-wetenschappers naar veelzijdige, op AI gebaseerde robotwetenschappers, belooft AGS baanbrekend potentieel. Naarmate deze autonome systemen steeds meer geïntegreerd raken in het onderzoeksproces, veronderstellen we dat wetenschappelijke ontdekking mogelijk nieuwe schaalwetten zou kunnen volgen, potentieel gevormd door het aantal en de capaciteiten van deze autonome systemen, wat nieuwe perspectieven biedt op hoe kennis wordt gegenereerd en evolueert. De aanpassingsvermogen van belichaamde robots aan extreme omgevingen, in combinatie met het vliegwiel-effect van opgebouwde wetenschappelijke kennis, belooft voortdurend zowel fysieke als intellectuele grenzen te verleggen.
3D Gaussian Splatting (3DGS) toont superieure kwaliteit en renderingsnelheid, maar vereist miljoenen 3D Gaussians en brengt aanzienlijke opslag- en transmissiekosten met zich mee. Recente 3DGS-compressiemethoden richten zich voornamelijk op het comprimeren van Scaffold-GS, wat indrukwekkende prestaties oplevert, maar met een extra voxelstructuur en een complexe coderings- en kwantiseringsstrategie. In dit artikel streven we ernaar een eenvoudige maar effectieve methode te ontwikkelen, genaamd NeuralGS, die op een andere manier de originele 3DGS comprimeert tot een compacte representatie zonder de voxelstructuur en complexe kwantiseringsstrategieën. Onze observatie is dat neurale velden zoals NeRF complexe 3D-scènes kunnen weergeven met Multi-Layer Perceptron (MLP) neurale netwerken met slechts enkele megabytes. NeuralGS maakt daarom effectief gebruik van de neurale veldrepresentatie om de attributen van 3D Gaussians te coderen met MLP's, wat slechts een kleine opslagruimte vereist, zelfs voor een grootschalige scène. Om dit te bereiken, hanteren we een clusteringstrategie en passen we de Gaussians aan met verschillende kleine MLP's voor elke cluster, gebaseerd op belangrijkheidsscores van Gaussians als aanpassingsgewichten. We experimenteren met meerdere datasets en behalen een gemiddelde modelgroottereductie van 45 keer zonder de visuele kwaliteit aan te tasten. De compressieprestaties van onze methode op de originele 3DGS zijn vergelijkbaar met de specifieke Scaffold-GS-gebaseerde compressiemethoden, wat het enorme potentieel aantoont van het direct comprimeren van de originele 3DGS met neurale velden.
Sparse Autoencoders (SAEs) zijn recentelijk aangetoond als effectief voor het verbeteren van interpreteerbaarheid en stuurbaarheid in Large Language Models (LLMs). In dit werk breiden we de toepassing van SAEs uit naar Vision-Language Models (VLMs), zoals CLIP, en introduceren we een uitgebreid raamwerk voor het evalueren van monosemantie in visuele representaties. Onze experimentele resultaten laten zien dat SAEs die zijn getraind op VLMs de monosemantie van individuele neuronen aanzienlijk verbeteren, terwijl ze ook hiërarchische representaties vertonen die goed aansluiten bij door experts gedefinieerde structuren (bijv. iNaturalist-taxonomie). Opvallend is dat we aantonen dat het toepassen van SAEs om in te grijpen in een CLIP-visie-encoder, de output van multimodale LLMs (bijv. LLaVA) direct kan sturen zonder enige aanpassingen aan het onderliggende model. Deze bevindingen benadrukken de praktische bruikbaarheid en effectiviteit van SAEs als een onbewaakte aanpak voor het verbeteren van zowel de interpreteerbaarheid als de controle van VLMs.
Automatische spraakherkenningssystemen hebben ontegenzeggelijk vooruitgang geboekt met de integratie van meertalige en multitask-modellen zoals Whisper, die een veelbelovend vermogen hebben getoond om spraak in een breed scala aan talen te begrijpen en te verwerken. Ondanks hun robuustheid schieten deze modellen vaak tekort in het omgaan met de linguïstische nuances van minderheidstalen. Deze studie behandelt deze kloof door traditionele en nieuwe taalmodelen te integreren met fijn afgestemde Whisper-modellen om hun prestaties in minder bestudeerde talen te verbeteren. Door rigoureuze fine-tuning en evaluatie over meerdere datasets tonen we aanzienlijke verbeteringen in de woordfoutratio aan, vooral in scenario's met beperkte bronnen. Onze benadering maakt niet alleen gebruik van de uitgebreide gegevens waarop Whisper is voorgetraind, maar vult de linguïstische aanpassingsvermogen aan door taalmodelen te incorporeren. We behaalden verbeteringen tot 51\% voor in-distributie datasets en tot 34\% voor out-of-distributie zinnen met behulp van statistische taalmodelen, terwijl grote taalmodelen matige maar consistent robuuste verbeteringen boden in diverse linguïstische contexten. De bevindingen onthullen dat, hoewel de integratie betrouwbaar voordelen biedt voor alle modelgroottes, de omvang van de verbetering varieert, wat het belang van geoptimaliseerde taalmodelparameters benadrukt. Tot slot benadrukken we het belang van het selecteren van geschikte evaluatieparameters bij het rapporteren van resultaten met transformer-gebaseerde ASR-modellen. Samenvattend effent dit onderzoek de weg voor meer inclusieve ASR-technologieën die beter presteren over talen heen door hun linguïstische kennis te verrijken. Voor verdere implementatiedetails van deze studie zijn de technische documentatie en broncode beschikbaar op http://www.github.com/hitz-zentroa/whisper-lm.
Het leren genereren van neurale netwerkparameters, geconditioneerd op taakbeschrijvingen en architectuurspecificaties, is cruciaal voor het bevorderen van modelaanpasbaarheid en transfer learning. Bestaande methoden, met name die gebaseerd op diffusiemodellen, kampen met beperkte schaalbaarheid naar grote architecturen, rigiditeit bij het omgaan met variërende netwerkdieptes, en onsamenhangende parametergeneratie die de samenhang tussen lagen ondermijnt. In dit werk stellen we IGPG (Instruction Guided Parameter Generation) voor, een autoregressief raamwerk dat parametersynthese verenigt over diverse taken en architecturen. IGPG maakt gebruik van een VQ-VAE en een autoregressief model om neurale netwerkparameters te genereren, geconditioneerd op taakinstructies, dataset en architectuurdetails. Door autoregressief tokens van neurale netwerkgewichten te genereren, zorgt IGPG voor samenhang tussen lagen en maakt het efficiënte aanpassing mogelijk over modellen en datasets heen. Door op tokenniveau te werken, vangt IGPG effectief complexe parameterverdelingen op die zijn samengevoegd uit een breed spectrum van vooraf getrainde modellen. Uitgebreide experimenten op meerdere vision-datasets tonen aan dat IGPG diverse vooraf getrainde modellen consolideert in een enkel, flexibel generatief raamwerk. De gesynthetiseerde parameters behalen competitieve of superieure prestaties ten opzichte van state-of-the-art methoden, met name wat betreft schaalbaarheid en efficiëntie bij toepassing op grote architecturen. Deze resultaten onderstrepen het potentieel van IGPG als een krachtig hulpmiddel voor het ophalen van vooraf getrainde gewichten, modelselectie en snelle taakspecifieke fine-tuning.
Onbewaakte panoptische segmentatie heeft als doel een afbeelding op te delen in semantisch betekenisvolle regio's en afzonderlijke objectinstanties zonder training op handmatig geannoteerde data. In tegenstelling tot eerder werk op het gebied van onbewaakte panoptische scènebegrip, elimineren we de noodzaak voor objectgerichte trainingsdata, waardoor het onbewaakte begrip van complexe scènes mogelijk wordt. Hiertoe presenteren we de eerste onbewaakte panoptische methode die direct traint op scènegerichte afbeeldingen. In het bijzonder stellen we een aanpak voor om hoogwaardige panoptische pseudo-labels te verkrijgen op complexe scènegerichte data, waarbij visuele representaties, diepte en bewegingssignalen worden gecombineerd. Door zowel pseudo-labeltraining als een panoptische zelf-trainingsstrategie te benutten, ontstaat een nieuwe aanpak die nauwkeurig panoptische segmentatie van complexe scènes voorspelt zonder enige menselijke annotaties te vereisen. Onze aanpak verbetert de panoptische kwaliteit aanzienlijk, bijvoorbeeld door de recente state-of-the-art in onbewaakte panoptische segmentatie op Cityscapes met 9,4 procentpunt in PQ te overtreffen.