Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opmerkelijke zero-shot-mogelijkheden van Large Language Models (LLM's) hebben natuurlijke taalverwerking getransformeerd van taakspecifieke modellen naar verenigde, generalistische foundation-modellen. Deze transformatie is ontstaan uit eenvoudige principes: grote, generatieve modellen getraind op web-schaal data. Opvallend genoeg gelden dezelfde principes voor de huidige generatieve videomodellen. Kunnen videomodellen zich ontwikkelen in de richting van algemeen bruikbaar visueel begrip, net zoals LLM's algemeen bruikbaar taalbegrip ontwikkelden? We tonen aan dat Veo 3 een breed scala aan taken kan oplossen waar het niet expliciet voor is getraind: objecten segmenteren, randen detecteren, afbeeldingen bewerken, fysieke eigenschappen begrijpen, objectaffordances herkennen, gereedschapsgebruik simuleren, en meer. Deze vermogens om de visuele wereld waar te nemen, te modelleren en te manipuleren maken vroege vormen van visueel redeneren mogelijk, zoals het oplossen van doolhoven en symmetrieën. De emergentie van zero-shot-mogelijkheden bij Veo suggereert dat videomodellen op weg zijn om verenigde, generalistische vision foundation-modellen te worden.
Impliciete Chain-of-Thought (CoT)-methoden bieden een veelbelovend, token-efficiënt alternatief voor expliciete CoT-redenering in Large Language Models (LLMs), maar een aanhoudende prestatiekloof heeft de toepassing van impliciete CoT beperkt. Wij identificeren een kernprobleem van latente instabiliteit door het schalen van het rekenbudget van impliciete CoT-benaderingen: naarmate we het aantal impliciete redeneertokens verhogen om de prestaties te verbeteren, wordt het trainingsproces vaak instabiel en stort het in. Onze analyse toont aan dat deze instabiliteit ontstaat doordat de latente representaties homogeen worden en hun semantische diversiteit verliezen, een falen dat wordt veroorzaakt door onvoldoende stap-voor-stap-supervisie in bestaande impliciete CoT-benaderingen. Om dit probleem aan te pakken, stellen we SIM-CoT voor, een plug-and-play trainingsmodule die stap-voor-stap-supervisie introduceert om de latente redeneerruimte te stabiliseren en te verrijken. Specifiek maakt SIM-CoT tijdens de training gebruik van een hulpdecoder om elk impliciet token uit te lijnen met de bijbehorende expliciete redeneerstap, waardoor wordt gegarandeerd dat latente toestanden onderscheidende en betekenisvolle informatie vastleggen. De voorgestelde hulpdecoder wordt tijdens de inferentie verwijderd, waardoor de rekenkundige efficiëntie van impliciete CoT-methoden behouden blijft zonder extra overhead. Bovendien biedt de hulpdecoder interpreteerbaarheid van impliciete redenering door elk latent token te projecteren op een expliciete redeneervocabulaire, waardoor stap-voor-stap-visualisatie van semantische rollen en diagnose mogelijk wordt. SIM-CoT verbetert zowel de nauwkeurigheid binnen het domein als de stabiliteit buiten het domein van verschillende impliciete CoT-methoden aanzienlijk, waarbij baseline-methoden zoals Coconut met +8,2% op GPT-2 en CODI met +3,0% op LLaMA-3.1 8B worden verbeterd. Met een sterke schaalbaarheid overtreft SIM-CoT ook de expliciete CoT-baseline op GPT-2 met 2,1% bij een 2,3× grotere token-efficiëntie, terwijl de prestatiekloop op grotere modellen zoals LLaMA-3.1 8B aanzienlijk wordt verkleind.
We introduceren EmbeddingGemma, een nieuw lichtgewicht, open tekstembeddingmodel gebaseerd op de Gemma 3-taalmodel familie. Ons innovatieve trainingsrecept vangt strategisch kennis van grotere modellen via encoder-decoder initialisatie en geometrische embeddingdistillatie. We verbeteren de robuustheid en expressiviteit van het model met een spread-out regularizer en zorgen voor generaliseerbaarheid door checkpoints te combineren uit gevarieerde, geoptimaliseerde mengsels. Geëvalueerd op de Massive Text Embedding Benchmark (MTEB) over meertalige, Engelse en code domeinen, behaalt EmbeddingGemma (300M) state-of-the-art resultaten. Opmerkelijk is dat het eerdere topmodellen, zowel propriëtair als open, overtreft met minder dan 500M parameters, en prestaties biedt die vergelijkbaar zijn met modellen van dubbele grootte, wat een uitzonderlijke prestatie-kostenverhouding biedt. Deze voorsprong blijft bestaan bij het kwantiseren van modelgewichten of het inkorten van embeddinguitvoer. Dit maakt EmbeddingGemma bijzonder geschikt voor gebruiksscenario's met lage latentie en hoge doorvoer, zoals toepassingen op apparaten. We bieden ablatiestudies die onze belangrijkste ontwerpkeuzes onderzoeken. We geven EmbeddingGemma vrij aan de gemeenschap om verder onderzoek te bevorderen.
In dit artikel introduceren we een methode gebaseerd op Group Relative Policy Optimization (GRPO) voor het trainen van Speech-Aware Large Language Models (SALLMs) op open-formaat spraakbegriptaken, zoals Gesproken Vraagbeantwoording en Automatische Spraakvertaling. SALLMs hebben zich zeer effectief bewezen voor spraakbegriptaken. GRPO heeft recentelijk aan populariteit gewonnen vanwege de efficiëntie bij het trainen van LLMs, en eerder onderzoek heeft de toepassing ervan op SALLMs verkend, voornamelijk in meerkeuzetaken. Hierop voortbouwend, richten we ons op open-formaattaken die beter de generatieve capaciteiten van de modellen weerspiegelen. Onze aanpak maakt gebruik van GRPO met BLEU als beloningssignaal om SALLMs te optimaliseren, en we tonen empirisch aan dat het standaard SFT overtreft op verschillende belangrijke metrieken. Tot slot onderzoeken we de mogelijkheid om off-policy samples binnen GRPO te integreren voor deze taken, waarbij we mogelijkheden voor verdere verbetering en onderzoek belichten.
Recente ontwikkelingen in foundation-modellen benadrukken een duidelijke trend naar unificatie en schaalvergroting, waarbij emergente capaciteiten worden getoond in diverse domeinen. Hoewel beeldgeneratie en -bewerking snel zijn overgegaan van taakspecifieke naar geünificeerde frameworks, blijven videogeneratie en -bewerking gefragmenteerd vanwege architectonische beperkingen en schaarste aan data. In dit werk introduceren we EditVerse, een geünificeerd framework voor beeld- en videogeneratie en -bewerking binnen een enkel model. Door alle modaliteiten, d.w.z. tekst, beeld en video, te representeren als een geünificeerde tokenreeks, maakt EditVerse gebruik van self-attention om robuuste in-context learning, natuurlijke cross-modale kennisoverdracht en flexibele verwerking van inputs en outputs met willekeurige resoluties en duur te bereiken. Om het gebrek aan trainingsdata voor videobewerking aan te pakken, hebben we een schaalbare datapijplijn ontworpen die 232K videobewerkingsmonsters selecteert en combineert met grootschalige beeld- en videodatasets voor gezamenlijke training. Bovendien presenteren we EditVerseBench, de eerste benchmark voor instructiegebaseerde videobewerking die diverse taken en resoluties omvat. Uitgebreide experimenten en gebruikersstudies tonen aan dat EditVerse state-of-the-art prestaties bereikt, bestaande open-source en commerciële modellen overtreft, en tegelijkertijd emergente bewerkings- en generatiecapaciteiten over modaliteiten vertoont.
Baanbrekende technieken op het gebied van Kunstmatige Intelligentie (AI) blijven ons wereldbeeld hervormen. Toepassingen gebaseerd op Large Language Models (LLMs), zoals ChatGPT, hebben bijvoorbeeld het vermogen getoond om mensachtige gesprekken te voeren over een breed scala aan onderwerpen. Vanwege de indrukwekkende prestaties op diverse taalgerelateerde taken (bijvoorbeeld open-domein vraagbeantwoording, vertaling en documentensamenvatting), kan men de verreikende impact voorstellen die LLMs kunnen hebben met bredere toepassingen in de echte wereld (bijvoorbeeld klantenservice, onderwijs en toegankelijkheid, en wetenschappelijke ontdekking). Geïnspireerd door hun succes, biedt dit artikel een overzicht van state-of-the-art LLMs en hun integratie in een breed scala aan academische disciplines, waaronder: (1) kunst, letteren en recht (bijvoorbeeld geschiedenis, filosofie, politieke wetenschappen, kunst en architectuur, recht), (2) economie en bedrijfskunde (bijvoorbeeld financiën, economie, accounting, marketing), en (3) wetenschap en techniek (bijvoorbeeld wiskunde, natuurkunde en werktuigbouwkunde, scheikunde en chemische technologie, levenswetenschappen en bio-engineering, aardwetenschappen en civiele techniek, informatica en elektrotechniek). Door menselijkheid en technologie te integreren, zullen we in dit artikel onderzoeken hoe LLMs onderzoek en praktijk in deze velden vormgeven, terwijl we ook belangrijke beperkingen, openstaande uitdagingen en toekomstige richtingen bespreken in het tijdperk van generatieve AI. De bespreking van hoe LLMs betrokken zijn in verschillende disciplines – samen met belangrijke observaties en inzichten – kan onderzoekers en praktijkmensen helpen die geïnteresseerd zijn in het benutten van LLMs om hun werk in diverse real-world toepassingen te bevorderen.
Bestaande videogeneratiemodellen blinken uit in het produceren van fotorealistische video's op basis van tekst of afbeeldingen, maar missen vaak fysische geloofwaardigheid en 3D-bestuurbaarheid. Om deze beperkingen te overwinnen, introduceren we PhysCtrl, een nieuw raamwerk voor fysica-gebaseerde beeld-naar-videogeneratie met fysische parameters en krachtbesturing. De kern bestaat uit een generatief fysica-netwerk dat de verdeling van fysische dynamiek leert over vier materialen (elastisch, zand, plasticine en rigide) via een diffusiemodel dat is geconditioneerd op fysicaparameters en uitgeoefende krachten. We representeren fysische dynamiek als 3D-punttrajectorieën en trainen op een grootschalige synthetische dataset van 550K animaties gegenereerd door fysicasimulators. We versterken het diffusiemodel met een nieuw spatiotemporeel aandachtblok dat deeltjesinteracties nabootst en fysica-gebaseerde beperkingen tijdens de training incorporeert om fysische geloofwaardigheid te waarborgen. Experimenten tonen aan dat PhysCtrl realistische, fysica-gebaseerde bewegingsbanen genereert die, wanneer gebruikt om beeld-naar-videomodellen aan te sturen, hoogwaardige, bestuurbare video's opleveren die bestaande methoden overtreffen in zowel visuele kwaliteit als fysische geloofwaardigheid. Projectpagina: https://cwchenwang.github.io/physctrl
Wij presenteren Lavida-O, een geünificeerd Masked Diffusion Model (MDM) voor multimodale begripsvorming en generatie. In tegenstelling tot bestaande multimodale MDM's zoals MMaDa en Muddit, die alleen eenvoudige beeldniveau-begripstaken en generatie van afbeeldingen met lage resolutie ondersteunen, biedt Lavida-O een enkel raamwerk dat beeldniveau-begrip, objectlokalisatie, beeldbewerking en tekst-naar-beeld-synthese met hoge resolutie (1024px) mogelijk maakt. Lavida-O integreert een innovatieve Elastic Mixture-of-Transformers (Elastic-MoT) architectuur die een lichtgewicht generatietak koppelt aan een grotere begripstak, ondersteund door tokencompressie, universele tekstconditionering en gelaagde steekproeven voor efficiënte en hoogwaardige generatie. Lavida-O voegt verder planning en iteratieve zelfreflectie toe in beeldgeneratie- en bewerkingstaken, waardoor de generatiekwaliteit naadloos wordt verbeterd met zijn begripsmogelijkheden. Lavida-O behaalt state-of-the-art prestaties op een breed scala aan benchmarks, waaronder RefCOCO objectlokalisatie, GenEval tekst-naar-beeld-generatie en ImgEdit beeldbewerking, en overtreft bestaande autoregressieve modellen en continue diffusiemodellen zoals Qwen2.5-VL en FluxKontext-dev, terwijl het een aanzienlijke versnelling biedt tijdens inferentie. Deze vooruitgang positioneert Lavida-O als een nieuw paradigma voor schaalbare multimodale redenering en generatie.
Eiwitvouwmodellen hebben baanbrekende resultaten bereikt, meestal door een combinatie van het integreren van domeinkennis in de architectuurblokken en trainingspijplijnen. Gezien het succes van generatieve modellen bij verschillende maar verwante problemen, is het echter natuurlijk om de vraag te stellen of deze architectuurontwerpen een noodzakelijke voorwaarde zijn om presterende modellen te bouwen. In dit artikel introduceren we SimpleFold, het eerste op flow-matching gebaseerde eiwitvouwmodel dat uitsluitend gebruikmaakt van algemene transformerblokken. Eiwitvouwmodellen gebruiken doorgaans rekenintensieve modules die driehoekige updates, expliciete paarrepresentaties of meerdere trainingsdoelstellingen omvatten die specifiek voor dit domein zijn ontworpen. In plaats daarvan maakt SimpleFold gebruik van standaard transformerblokken met adaptieve lagen en wordt het getraind via een generatief flow-matching doel met een aanvullende structurele term. We schalen SimpleFold op naar 3B parameters en trainen het op ongeveer 9M gedistilleerde eiwitstructuren samen met experimentele PDB-gegevens. Op standaard vouwbenchmarks behaalt SimpleFold-3B competitieve prestaties vergeleken met state-of-the-art baselines. Daarnaast toont SimpleFold sterke prestaties in ensemblevoorspellingen, wat doorgaans moeilijk is voor modellen die getraind zijn via deterministische reconstructiedoelstellingen. Door zijn algemene architectuur toont SimpleFold efficiëntie in implementatie en inferentie op consumentenhardware. SimpleFold daagt de afhankelijkheid van complexe domeinspecifieke architectuurontwerpen in eiwitvouwen uit en opent een alternatieve ontwerpruimte voor toekomstige vooruitgang.
Open-source Large Language Models (LLMs) specialiseren zich steeds meer per domein (bijv. wiskunde, code, algemeen redeneren), wat systemen motiveert die complementaire sterktes van verschillende modellen benutten. Eerdere multi-LLM-benaderingen doen ofwel (i) een query doorsturen naar één of enkele experts en genereren onafhankelijk, (ii) aggregeren uitvoer van elk model via kostbare multi-turn uitwisselingen, of (iii) fuseren gewichten in één model, wat meestal architectonische homogeniteit vereist. Wij introduceren Mixture of Thoughts (MoT), een eenvoudige methode voor latente samenwerking tussen heterogene experts onder een globaal routeringsschema. Voor elke query selecteert een lichtgewicht router de top-K experts en wijst een primaire expert aan; uniform geplaatste interactielagen projecteren verborgen toestanden in een gedeelde latente ruimte waar de primaire expert cross-attention uitvoert over zijn actieve (geselecteerde) peers. Vooraf getrainde experts blijven bevroren; alleen de router en de lichtgewicht interactielagen worden getraind met een nieuw gezamenlijk trainingsdoel dat zowel de expertselectie als de inter-expert samenwerking verbetert. Over vijf in-distributie (ID) en drie out-of-distributie (OOD) benchmarks overtreft MoT de huidige state-of-the-art op basis van routering en aggregatie, Avengers, met respectievelijk +0,38% en +2,92%. Bovendien presteert MoT aanzienlijk beter dan het best presterende individuele model. Dit wordt bereikt met single-pass inferentie, een looptijd vergelijkbaar met routeringsbaselines, en zonder de overhead van iteratieve aggregatie. MoT biedt een eenvoudig latent-ruimte-mechanisme voor het combineren van heterogene LLMs, een praktische stap naar bredere multi-LLM-samenwerking. Onze code is publiekelijk beschikbaar op https://github.com/jacobfa/mot.
Recente ontwikkelingen in Grote Visueel-Taalmodellen (LVLM) hebben aanzienlijke vooruitgang geboekt in documentparsing-taken. In vergelijking met traditionele pipeline-gebaseerde methoden hebben end-to-end-paradigma's hun uitmuntendheid getoond in het omzetten van PDF-afbeeldingen naar gestructureerde uitvoer via geïntegreerde Optical Character Recognition (OCR), tabelherkenning, wiskundige formuleherkenning en meer. Het ontbreken van expliciete analytische fasen voor documentlay-outs en leesvolgordes beperkt echter het vermogen van LVLM's om complexe documenttypen zoals meerkolomskranten of posters te verwerken. Om deze beperking aan te pakken, stellen we in dit rapport Logics-Parsing voor: een end-to-end LVLM-gebaseerd model versterkt met reinforcement learning. Ons model bevat zorgvuldig ontworpen beloningsmechanismen om complexe lay-outanalyse en leesvolgorde-inferentie te optimaliseren. Daarnaast vergroten we de veelzijdigheid van het model door diverse gegevenstypen zoals chemische formules en handgeschreven Chinese karakters op te nemen in supervised fine-tuning. Tot slot introduceren we, om een rigoureuze evaluatie van onze aanpak mogelijk te maken, LogicsParsingBench, een gecureerde set van 1.078 pagina-niveau PDF-afbeeldingen die negen hoofdcategorieën en meer dan twintig subcategorieën omvat, die later wordt vrijgegeven. Uitgebreide experimenten uitgevoerd op LogicsParsingBench hebben de effectiviteit en State-of-the-art (SOTA) prestaties van ons voorgestelde model in diverse documentanalyse-scenario's gevalideerd. Projectpagina: https://github.com/alibaba/Logics-Parsing
Grote taalmodellen (LLMs) worden steeds vaker geïntegreerd in softwareontwikkelingsprocessen. De mogelijkheid om code te genereren en pull requests in te dienen met minimale menselijke tussenkomst, door het gebruik van autonome AI-agents, staat op het punt een standaardpraktijk te worden. Er is echter weinig bekend over de praktische bruikbaarheid van deze pull requests en in hoeverre hun bijdragen worden geaccepteerd in real-world projecten. In dit artikel bestuderen we empirisch 567 GitHub pull requests (PR's) die zijn gegenereerd met behulp van Claude Code, een agent-gebaseerd coderingshulpmiddel, verspreid over 157 diverse open-source projecten. Onze analyse toont aan dat ontwikkelaars de neiging hebben om agents in te zetten voor taken zoals refactoring, documentatie en testen. De resultaten geven aan dat 83,8% van deze agent-ondersteunde PR's uiteindelijk worden geaccepteerd en samengevoegd door projectbeheerders, waarbij 54,9% van de samengevoegde PR's zonder verdere aanpassingen worden geïntegreerd. De overige 45,1% vereist aanvullende wijzigingen en profiteert van menselijke revisies, vooral voor bugfixes, documentatie en naleving van project-specifieke standaarden. Deze bevindingen suggereren dat hoewel agent-ondersteunde PR's grotendeels acceptabel zijn, ze nog steeds baat hebben bij menselijk toezicht en verfijning.
We presenteren een open-source Python-bibliotheek voor het simuleren van tweedimensionale, onsamendrukbare Kelvin-Helmholtz-instabiliteiten in gelaagde schuifstromingen. De solver maakt gebruik van een fractionele-stap projectiemethode met spectrale Poisson-oplossing via de Fast Sine Transform, wat resulteert in een ruimtelijke nauwkeurigheid van de tweede orde. De implementatie benut NumPy, SciPy en Numba JIT-compilatie voor efficiënte berekeningen. Vier canonieke testcases onderzoeken Reynolds-getallen van 1000–5000 en Richardson-getallen van 0.1–0.3: een klassieke schuiflaag, een dubbele schuifconfiguratie, roterende stroming en geforceerde turbulentie. Statistische analyse met behulp van Shannon-entropie en complexiteitsindices toont aan dat dubbele schuiflagen 2,8 keer hogere mengsnelheden bereiken dan geforceerde turbulentie, ondanks lagere Reynolds-getallen. De solver draait efficiënt op standaard desktop-hardware, waarbij simulaties op een 384×192-rooster in ongeveer 31 minuten worden voltooid. De resultaten tonen aan dat mengingsefficiëntie afhangt van de generatiepaden van instabiliteiten in plaats van alleen intensiteitsmaten, wat Richardson-getal-gebaseerde parameterisaties uitdaagt en verfijningen suggereert voor de representatie van subgrid-schaal in klimaatmodellen.
Nauwkeurige classificatie van producten volgens het Geharmoniseerd Systeem (GS) is een kritieke knelpunt in de wereldhandel, maar heeft tot nu toe weinig aandacht gekregen van de machine learning-gemeenschap. Verkeerde classificatie kan zendingen volledig stilleggen, waarbij grote postbedrijven leveringen aan de VS opschorten vanwege onvolledige douanedocumentatie. Wij introduceren de eerste benchmark voor GS-codeclassificatie, afgeleid van het U.S. Customs Rulings Online Search System (CROSS). Na evaluatie van toonaangevende LLM's, blijkt dat ons fijn afgestelde Atlas-model (LLaMA-3.3-70B) 40 procent volledig correcte 10-cijferige classificaties en 57,5 procent correcte 6-cijferige classificaties behaalt, wat een verbetering is van 15 punten ten opzichte van GPT-5-Thinking en 27,5 punten ten opzichte van Gemini-2.5-Pro-Thinking. Naast nauwkeurigheid is Atlas ongeveer vijf keer goedkoper dan GPT-5-Thinking en acht keer goedkoper dan Gemini-2.5-Pro-Thinking, en kan het zelf worden gehost om gegevensprivacy te garanderen in hoogwaardige handels- en compliancewerkstromen. Hoewel Atlas een sterke basis legt, blijft de benchmark zeer uitdagend, met slechts 40 procent nauwkeurigheid op 10-cijferig niveau. Door zowel de dataset als het model vrij te geven, streven we ernaar om GS-classificatie te positioneren als een nieuwe gemeenschapsbenchmarktaak en nodigen we toekomstig onderzoek uit op het gebied van retrieval, redenering en afstemming.