Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Low-Rank Adaptation (LoRA) heeft een aanzienlijke vooruitgang geboekt in het parameter-efficiënt finetunen van grote vooraf getrainde modellen. LoRA breidt de vooraf getrainde gewichten van een model uit door het product van twee kleinere matrices toe te voegen, die samen een laag-rang matrix-update vormen. Recent onderzoek heeft aangetoond dat schaalverschillen tussen deze twee matrices vaak leiden tot onstabiele trainingsdynamiek, wat resulteert in suboptimale prestaties. In dit artikel stellen we SingLoRA voor, dat low-rank adaptation herformuleert door de gewichten-update te leren als een decompositie van een enkele laag-rang matrix vermenigvuldigd met zijn transponering. Dit eenvoudige ontwerp verwijdert inherent schaalconflicten tussen matrices, zorgt voor stabiele optimalisatie en halveert ruwweg het aantal parameters. We analyseren SingLoRA binnen het raamwerk van oneindig brede neurale netwerken en laten zien dat het door constructie stabiele feature learning garandeert. Uitgebreide experimenten op meerdere taken valideren deze voordelen. In redenering op basis van gezond verstand bereikt het finetunen van LLama 7B op MNLI met SingLoRA een nauwkeurigheid van 91,3% - wat LoRA (89,1%) en LoRA+ (90,2%) overtreft - terwijl slechts 60% van hun parameterbudget wordt gebruikt. Bij beeldgeneratie verbetert het finetunen van Stable Diffusion met SingLoRA de beeldkwaliteit aanzienlijk op DreamBooth, met een DINO-gelijkheids score van 0,151, vergeleken met scores van 0,148 en 0,143 voor DoRA en LoRA, respectievelijk.
Grote Taalmodellen (LLMs) hebben indrukwekkende redeneervaardigheden getoond, vooral wanneer ze worden begeleid door expliciete keten-van-gedachten (CoT) redenering die tussenliggende stappen verbaal uitdrukt. Hoewel CoT zowel de interpreteerbaarheid als de nauwkeurigheid verbetert, beperkt de afhankelijkheid van natuurlijke taalredenering de expressieve bandbreedte van het model. Latente redenering lost dit knelpunt op door meerstaps inferentie volledig uit te voeren in de continue verborgen toestand van het model, waardoor toezicht op tokenniveau wordt geëlimineerd. Om onderzoek naar latente redenering vooruit te helpen, biedt dit overzicht een uitgebreid beeld van het opkomende veld van latente redenering. We beginnen met het onderzoeken van de fundamentele rol van neurale netwerklagen als het computationele substraat voor redenering, waarbij we benadrukken hoe hiërarchische representaties complexe transformaties ondersteunen. Vervolgens verkennen we diverse methodologieën voor latente redenering, waaronder activatie-gebaseerde herhaling, propagatie van verborgen toestanden en fine-tuning strategieën die expliciete redeneersporen comprimeren of internaliseren. Ten slotte bespreken we geavanceerde paradigma's zoals oneindig-diepe latente redenering via gemaskeerde diffusiemodellen, die wereldwijd consistente en omkeerbare redeneerprocessen mogelijk maken. Door deze perspectieven te verenigen, streven we ernaar het conceptuele landschap van latente redenering te verhelderen en toekomstige onderzoeksrichtingen aan de frontlinie van LLM-cognitie uit te stippelen. Een bijbehorende GitHub-repository met de nieuwste papers en repos is beschikbaar op: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
Het creëren van 3D-assets met expliciete, bewerkbare onderdeelstructuren is cruciaal voor het bevorderen van interactieve toepassingen, maar de meeste generatieve methoden produceren slechts monolithische vormen, wat hun bruikbaarheid beperkt. Wij introduceren OmniPart, een nieuw raamwerk voor part-aware 3D-objectgeneratie, ontworpen om een hoge semantische ontkoppeling tussen componenten te bereiken terwijl robuuste structurele samenhang behouden blijft. OmniPart ontkoppelt deze complexe taak uniek in twee synergetische fasen: (1) een autoregressieve structuurplanningsmodule genereert een controleerbare, variabele-lengte reeks van 3D-onderdeelbegrenzingsvakken, kritisch geleid door flexibele 2D-onderdeelmaskers die intuïtieve controle over onderdeelontleding mogelijk maken zonder directe correspondenties of semantische labels te vereisen; en (2) een ruimtelijk geconditioneerd rectified flow-model, efficiënt aangepast van een vooraf getrainde holistische 3D-generator, synthetiseert alle 3D-onderdelen gelijktijdig en consistent binnen de geplande lay-out. Onze aanpak ondersteunt door de gebruiker gedefinieerde onderdeelgranulariteit, precieze lokalisatie, en maakt diverse downstream-toepassingen mogelijk. Uitgebreide experimenten tonen aan dat OmniPart state-of-the-art prestaties bereikt, wat de weg vrijmaakt voor meer interpreteerbare, bewerkbare en veelzijdige 3D-inhoud.
LLM-gebaseerde webagents hebben recentelijk aanzienlijke vooruitgang geboekt, maar veel daarvan heeft plaatsgevonden in gesloten bronsystemen, waardoor de kloof met open-source alternatieven is vergroot. De vooruitgang is belemmerd door twee belangrijke uitdagingen: ten eerste een nauwe focus op enkelstaps taken die de complexiteit van meerstaps webinteracties over het hoofd ziet; en ten tweede de hoge rekenkosten die nodig zijn voor het na-trainen van LLM-gebaseerde webagents. Om dit aan te pakken, presenteren we de eerste statistisch onderbouwde studie over rekenallocatie voor het na-trainen van LLM-webagents. Onze aanpak gebruikt een tweestappenpijplijn, waarbij een Llama 3.1 8B student wordt getraind om een Llama 3.3 70B leraar te imiteren via supervised fine-tuning (SFT), gevolgd door on-policy reinforcement learning. We ontdekken dat dit proces zeer gevoelig is voor de keuze van hyperparameters, waardoor uitgebreide zoektochten onpraktisch zijn. Om anderen dure trial-and-error te besparen, nemen we 1.370 configuraties steekproefsgewijs en gebruiken we bootstrapping om effectieve hyperparameters te schatten. Onze resultaten laten zien dat het combineren van SFT met on-policy RL consistent beter presteert dan elk van de benaderingen afzonderlijk op zowel WorkArena als MiniWob++. Bovendien vereist deze strategie slechts 55% van de rekenkracht om de piekprestatie van pure SFT op MiniWob++ te evenaren, waardoor effectief de reken-prestatie Pareto-grens wordt verlegd, en is het de enige strategie die de kloof met gesloten bronmodellen kan dichten.
Vision-and-Language Navigation (VLN) in real-world settings vereist dat agents continue visuele stromen verwerken en acties met lage latentie genereren die zijn verankerd in taal instructies. Hoewel Video-based Large Language Models (Video-LLMs) recente vooruitgang hebben gestimuleerd, worden huidige VLN-methoden gebaseerd op Video-LLM vaak geconfronteerd met afwegingen tussen gedetailleerd visueel begrip, langetermijncontextmodellering en computationele efficiëntie. Wij introduceren StreamVLN, een streaming VLN-framework dat een hybride langzaam-snel contextmodelleringsstrategie gebruikt om multimodale redenering over verweven visuele, taal- en actie-invoer te ondersteunen. De snel-streamende dialoogcontext vergemakkelijkt responsieve actiegeneratie via een schuifvenster van actieve dialogen, terwijl de langzaam bijgewerkte geheugencontext historische visuele toestanden comprimeert met behulp van een 3D-aware token pruning-strategie. Met dit langzaam-snel ontwerp bereikt StreamVLN coherente meerzijdige dialogen door efficiënt hergebruik van KV-cache, waardoor lange videostreams worden ondersteund met een begrensde contextgrootte en inferentiekosten. Experimenten op VLN-CE benchmarks tonen state-of-the-art prestaties met stabiele lage latentie, wat robuustheid en efficiëntie in real-world implementatie waarborgt. De projectpagina is: https://streamvln.github.io/{https://streamvln.github.io/}.
Het vertalen van wiskundige uitspraken in natuurlijke taal naar formele, uitvoerbare code is een fundamentele uitdaging in geautomatiseerd bewijzen. Hoewel eerder werk zich heeft gericht op het succes van generatie en compilatie, is er weinig aandacht besteed aan de criticusfase: de evaluatie of gegenereerde formalisaties daadwerkelijk de semantische intentie van het oorspronkelijke probleem weergeven. In dit artikel introduceren we CriticLean, een nieuw criticus-gestuurd reinforcement learning-framework dat de rol van de criticus verheft van een passieve validator naar een actief leercomponent. Specifiek stellen we eerst de CriticLeanGPT voor, getraind via supervised fine-tuning en reinforcement learning, om de semantische trouw van Lean 4-formalisaties rigoureus te beoordelen. Vervolgens introduceren we CriticLeanBench, een benchmark ontworpen om het vermogen van modellen te meten om semantisch correcte van incorrecte formalisaties te onderscheiden, en tonen we aan dat onze getrainde CriticLeanGPT-modellen aanzienlijk beter presteren dan sterke open- en closed-source baselines. Op basis van het CriticLean-framework construeren we FineLeanCorpus, een dataset met meer dan 285K problemen die een rijke domeindiversiteit, brede moeilijkheidsgraad en hoge correctheid vertoont op basis van menselijke evaluatie. Over het geheel genomen benadrukken onze bevindingen dat het optimaliseren van de criticusfase essentieel is voor het produceren van betrouwbare formalisaties, en we hopen dat onze CriticLean waardevolle inzichten zal bieden voor toekomstige vooruitgang in formeel wiskundig redeneren.
Grote taalmodellen (LLMs) blinken uit in logisch en algoritmisch redeneren, maar hun emotionele intelligentie (EQ) blijft ver achter bij hun cognitieve vaardigheden. Hoewel reinforcement learning met verifieerbare beloningen (RLVR) in andere domeinen vooruitgang heeft geboekt, blijft de toepassing ervan in dialogen—met name voor emotionele intelligentie—onderbelicht. In dit werk introduceren we RLVER, het eerste end-to-end reinforcement learning-framework dat gebruikmaakt van verifieerbare emotiebeloningen van gesimuleerde gebruikers om hogere-orde empathische vaardigheden in LLMs te ontwikkelen. Binnen dit framework nemen zelfconsistente affectieve gesimuleerde gebruikers deel aan dialoogrollouts en produceren deterministische emotiescores tijdens gesprekken, die dienen als beloningssignalen om het leren van het LLM te sturen. Het finetunen van het publiek beschikbare Qwen2.5-7B-Instruct-model met PPO verhoogt de Sentient-Benchmark-score van 13,3 naar 79,2, terwijl de wiskundige en programmeervaardigheden grotendeels behouden blijven. Uitgebreide experimenten onthullen dat: (i) RLVER consistent meerdere dialoogvaardigheden verbetert; (ii) Denkende en niet-denkende modellen verschillende trends vertonen—denkende modellen excelleren in empathie en inzicht, terwijl niet-denkende modellen de voorkeur geven aan actie; (iii) GRPO vaak stabiele verbeteringen oplevert, terwijl PPO bepaalde vaardigheden naar een hoger niveau kan tillen; (iv) Uitdagendere omgevingen zijn niet altijd beter—gematigde omgevingen kunnen sterkere resultaten opleveren. Onze resultaten tonen aan dat RLVER een praktische route is naar emotioneel intelligente en breed capabele taalagentschappen.
Recente vooruitgang in videogeneratie heeft opmerkelijke vooruitgang geboekt in open-domeininstellingen, maar medische videogeneratie blijft grotendeels onderbelicht. Medische video's zijn cruciaal voor toepassingen zoals klinische training, onderwijs en simulatie, waarbij niet alleen een hoge visuele kwaliteit maar ook strikte medische nauwkeurigheid vereist is. Huidige modellen produceren echter vaak onrealistische of foutieve inhoud wanneer ze worden toegepast op medische prompts, voornamelijk vanwege het ontbreken van grootschalige, hoogwaardige datasets die specifiek zijn afgestemd op het medische domein. Om deze kloof te overbruggen, introduceren we MedVideoCap-55K, de eerste grootschalige, diverse en rijkelijk voorziene dataset voor medische videogeneratie. Deze dataset bestaat uit meer dan 55.000 gecureerde clips die realistische medische scenario's omvatten, en biedt een solide basis voor het trainen van algemene modellen voor medische videogeneratie. Gebaseerd op deze dataset ontwikkelen we MedGen, dat toonaangevende prestaties behaalt onder open-source modellen en concurreert met commerciële systemen op meerdere benchmarks, zowel wat betreft visuele kwaliteit als medische nauwkeurigheid. We hopen dat onze dataset en model kunnen dienen als een waardevolle bron en kunnen helpen bij het stimuleren van verder onderzoek in medische videogeneratie. Onze code en data zijn beschikbaar op https://github.com/FreedomIntelligence/MedGen.
Grafische gebruikersinterface (GUI) agents opereren autonoom op verschillende platforms (bijv. Linux) om taken uit te voeren door interactie met visuele elementen. Specifiek wordt een gebruikersinstructie opgedeeld in een reeks actievoorstellen, waarbij elk overeenkomt met een interactie met de GUI. Na elke actie observeert de agent de bijgewerkte GUI-omgeving om de volgende stap te plannen. Er doen zich echter twee belangrijke uitdagingen voor: i) het oplossen van ambiguïteit in taakplanning (d.w.z. de reeks actievoorstellen), waarbij het selecteren van een geschikt plan niet triviaal is, aangezien er veel geldige plannen kunnen bestaan; ii) het nauwkeurig verankeren van acties in complexe en hoogresolutie-interfaces, d.w.z. precies interageren met visuele doelen. Dit artikel onderzoekt de twee bovengenoemde uitdagingen met onze GUI Test-time Scaling Agent, genaamd GTA1. Ten eerste introduceren we een test-time scaling methode om het meest geschikte actievoorstel te selecteren. Bij elke stap nemen we meerdere kandidaat-actievoorstellen en gebruiken we een beoordelingsmodel om het meest geschikte te evalueren en te selecteren. Dit wisselt rekenkracht in voor betere beslissingskwaliteit door gelijktijdige steekproeven, verkorting van taakuitvoeringsstappen en verbetering van de algehele prestaties. Ten tweede stellen we een model voor dat een verbeterde nauwkeurigheid bereikt bij het verankeren van het geselecteerde actievoorstel aan de bijbehorende visuele elementen. Onze belangrijkste inzicht is dat reinforcement learning (RL) visuele verankering vergemakkelijkt door inherente doelafstemmingen, waarbij succesvolle klikken op interface-elementen worden beloond. Experimenteel vestigt onze methode state-of-the-art prestaties op diverse benchmarks. GTA1-7B behaalt bijvoorbeeld nauwkeurigheden van 50,1%, 92,4% en 67,7% op respectievelijk Screenspot-Pro, Screenspot-V2 en OSWorld-G. Wanneer het wordt gecombineerd met een planner die onze test-time scaling strategie toepast, vertoont het state-of-the-art agentprestaties (bijv. een taaksuccespercentage van 45,2% op OSWorld). We maken onze code en modellen hier openbaar.
Het Wereldmodel, het veronderstelde algoritmische surrogaat van de echte wereldomgeving waar biologische agenten mee interacteren en op handelen, is de afgelopen jaren een opkomend onderwerp geworden vanwege de groeiende behoefte aan het ontwikkelen van virtuele agenten met kunstmatige (algemene) intelligentie. Er is veel discussie geweest over wat een wereldmodel precies is, hoe het te bouwen, hoe het te gebruiken en hoe het te evalueren. In dit essay, beginnend bij de verbeelding in het beroemde sciencefictionklassieker Dune, en geïnspireerd door het concept van "hypothetisch denken" in de psychologische literatuur, bieden we kritiek op verschillende denkrichtingen over wereldmodellering en stellen we dat het primaire doel van een wereldmodel is om alle uitvoerbare mogelijkheden van de echte wereld te simuleren voor doelgericht redeneren en handelen. Op basis van deze kritiek stellen we een nieuwe architectuur voor voor een algemeen toepasbaar wereldmodel, gebaseerd op hiërarchische, multi-level en gemengde continue/discrete representaties, en een generatief en zelfsuperviserend leerframework, met een vooruitblik op een Fysiek, Agentgericht en Genest (PAN) AGI-systeem dat door zo'n model mogelijk wordt gemaakt.
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in codegeneratie, maar hun werkelijke programmeercompetentie blijft onderbelicht. We introduceren het Code Triangle-raamwerk, dat LLMs systematisch evalueert langs drie fundamentele dimensies: redactionele analyse, code-implementatie en testcasegeneratie. Door uitgebreide experimenten op benchmarks voor competitief programmeren, tonen we aan dat LLMs weliswaar een zelfconsistent systeem kunnen vormen over deze dimensies, maar dat hun oplossingen vaak de diversiteit en robuustheid van menselijke programmeurs missen. We identificeren een significante verschuiving in de verdeling tussen modelcognitie en menselijke expertise, waarbij modelfouten de neiging hebben te clusteren vanwege biases in de trainingsdata en beperkte overdracht van redenering. Onze studie toont aan dat het incorporeren van door mensen gegenereerde redactionele analyses, oplossingen en diverse testcases, evenals het benutten van modelmengsels, zowel de prestaties als de robuustheid van LLMs aanzienlijk kunnen verbeteren. Bovendien onthullen we zowel de consistentie als de inconsistentie in de cognitie van LLMs die zelfreflectie en zelfverbetering kunnen faciliteren, wat een mogelijke richting biedt voor de ontwikkeling van krachtigere coderingsmodellen.
Dataschaling heeft opmerkelijke successen geboekt bij foundation-modellen voor Natural Language Processing (NLP) en Computer Vision (CV), maar de principes van effectieve dataschaling bij robotmanipulatie zijn nog onvoldoende begrepen. In dit werk onderzoeken we de genuanceerde rol van datadiversiteit in robotleren door drie kritische dimensies te onderzoeken: taak (wat te doen), embodiment (welke robot te gebruiken) en expert (wie demonstreert), waarbij we het conventionele idee van "hoe diverser, hoe beter" uitdagen. Door uitgebreide experimenten op verschillende robotplatforms onthullen we dat (1) taakdiversiteit belangrijker blijkt dan de hoeveelheid demonstraties per taak, wat voordelen biedt bij de overdracht van diverse pre-trainingtaken naar nieuwe downstreamscenario's; (2) multi-embodiment pre-trainingsdata optioneel is voor cross-embodiment overdracht—modellen getraind op hoogwaardige single-embodimentdata kunnen efficiënt overgedragen worden naar verschillende platforms, waarbij ze tijdens fine-tuning een wenselijkere schaaleigenschap vertonen dan multi-embodiment pre-getrainde modellen; en (3) expertdiversiteit, voortkomend uit individuele operationele voorkeuren en stochastische variaties in menselijke demonstraties, verwarrend kan zijn voor beleidsleren, waarbij snelheidsmultimodaliteit naar voren komt als een belangrijke bijdragende factor. Op basis van dit inzicht stellen we een distributie-debiasingmethode voor om snelheidsambiguïteit te verminderen, waarbij de resulterende GO-1-Pro aanzienlijke prestatieverbeteringen van 15% behaalt, wat overeenkomt met het gebruik van 2,5 keer zoveel pre-trainingsdata. Collectief bieden deze bevindingen nieuwe perspectieven en praktische richtlijnen over hoe robotmanipulatiedatasets effectief geschaald kunnen worden.
We introduceren Nile-Chat-4B, 3x4B-A6B en 12B, een verzameling van grote taalmodel(len) (LLMs) voor het Egyptische dialect, die uniek zijn ontworpen om teksten geschreven in zowel Arabisch als Latijns schrift te begrijpen en te genereren. Specifiek introduceren we met Nile-Chat-3x4B-A6B een nieuwe aanpak voor taaladaptatie door gebruik te maken van de Branch-Train-MiX-strategie om scriptgespecialiseerde experts samen te voegen tot één MoE-model (Mixture of Experts). Onze Nile-Chat-modellen presteren aanzienlijk beter dan toonaangevende meertalige en Arabische LLMs, zoals LLaMa, Jais en ALLaM, op onze nieuw geïntroduceerde Egyptische evaluatiebenchmarks, die zowel begrips- als generatieve taken omvatten. Opmerkelijk is dat ons 12B-model een prestatieverbetering van 14,4% behaalt ten opzichte van Qwen2.5-14B-Instruct op benchmarks voor Latijns schrift. Al onze bronnen zijn publiekelijk beschikbaar. Wij geloven dat dit werk een uitgebreide methodologie biedt voor het aanpassen van LLMs aan tweeschrift-talen, waarbij een vaak over het hoofd gezien aspect in de moderne ontwikkeling van LLMs wordt aangepakt.
Sequentiemodellen zoals Transformers en RNN's besteden vaak te veel aandacht aan irrelevante context, wat leidt tot ruis in de tussenliggende representaties. Dit vermindert de capaciteiten van LLM's door hallucinaties te bevorderen, het vermogen voor langeafstandsrelaties en retrieval te verzwakken, en de robuustheid te verminderen. Recent onderzoek heeft aangetoond dat differentieel ontwerp dit probleem in Transformers kan mitigeren, waardoor hun effectiviteit in diverse toepassingen verbetert. In dit artikel onderzoeken we of deze technieken, oorspronkelijk ontwikkeld voor Transformers, kunnen worden toegepast op Mamba, een recente architectuur gebaseerd op selectieve state-space lagen die Transformer-niveau prestaties behaalt met grotere efficiëntie. We laten zien dat een naïeve aanpassing van differentieel ontwerp aan Mamba onvoldoende is en zorgvuldige architectonische aanpassingen vereist. Om dit aan te pakken, introduceren we een nieuw differentieel mechanisme voor Mamba, empirisch gevalideerd op taalmodelleringsbenchmarks, dat verbeterde retrieval-capaciteiten en superieure prestaties ten opzichte van standaard Mamba aantoont. Tot slot voeren we uitgebreide ablatiestudies en empirische analyses uit om onze ontwerpkeuzes te rechtvaardigen en bewijs te leveren dat onze aanpak het probleem van overmatige aandachtstoewijzing in Mamba-gebaseerde modellen effectief mitigeert. Onze code is publiekelijk beschikbaar.
Kunstmatige intelligentie (AI) heeft aanzienlijk potentieel in gezondheidszorgtoepassingen, maar de training en implementatie ervan worden geconfronteerd met uitdagingen vanwege de diverse gegevens in de gezondheidszorg, complexe taken en de noodzaak om privacy te waarborgen. Foundation-modellen die goed presteren op medische taken en minder taakspecifieke afstemmingsgegevens vereisen, zijn cruciaal om de ontwikkeling van AI-toepassingen in de gezondheidszorg te versnellen. Wij introduceren MedGemma, een verzameling medische vision-language foundation-modellen gebaseerd op Gemma 3 4B en 27B. MedGemma toont geavanceerd medisch begrip en redeneren op afbeeldingen en tekst, waarbij het de prestaties van vergelijkbare generatieve modellen aanzienlijk overtreft en de prestaties van taakspecifieke modellen benadert, terwijl de algemene mogelijkheden van de Gemma 3-basismodellen behouden blijven. Voor taken buiten de distributie bereikt MedGemma een verbetering van 2,6-10% op medische multimodale vraagbeantwoording, 15,5-18,1% verbetering op classificatie van thoraxfoto-bevindingen en 10,8% verbetering op agentische evaluaties in vergelijking met de basismodellen. Fine-tuning van MedGemma verbetert de prestaties verder in subdomeinen, waarbij fouten in het ophalen van elektronische gezondheidsdossiers met 50% worden verminderd en vergelijkbare prestaties worden bereikt als bestaande gespecialiseerde state-of-the-art methoden voor pneumothoraxclassificatie en histopathologie patchclassificatie. We introduceren ook MedSigLIP, een medisch afgestemde vision-encoder afgeleid van SigLIP. MedSigLIP ondersteunt de visuele begripsmogelijkheden van MedGemma en presteert als encoder vergelijkbaar of beter dan gespecialiseerde medische beeldencoders. Samengevat biedt de MedGemma-collectie een sterke basis van medische beeld- en tekstmogelijkheden, met het potentieel om medisch onderzoek en de ontwikkeling van downstream-toepassingen aanzienlijk te versnellen. De MedGemma-collectie, inclusief tutorials en modelgewichten, is te vinden op https://goo.gle/medgemma.
Grote Taalmodellen (LLM's) zijn recentelijk toegepast op herrangschikkingstaken in informatiezoektoepassingen, waarbij ze sterke prestaties hebben geleverd. Hun hoge rekenkundige eisen vormen echter vaak een belemmering voor praktische inzet. Bestaande studies evalueren de efficiëntie van LLM-gebaseerde herrangschikkers met behulp van indirecte metrieken zoals latentie, het aantal voorwaartse passes, invoertokens en uitvoertokens. Deze metrieken zijn echter afhankelijk van hardware- en runtime-keuzes (bijv. parallel of niet, batchgrootte, enz.) en houden vaak geen rekening met de grootte van het model, wat het interpreteren bemoeilijkt en de evaluatie van de afweging tussen efficiëntie en effectiviteit vertroebelt. Om dit probleem aan te pakken, stellen we E2R-FLOPs voor voor LLM-gebaseerde herrangschikkers: rangschikkingsmetrieken per PetaFLOP (RPP) voor relevantie per rekenkracht en queries per PetaFLOP (QPP) voor hardware-onafhankelijke doorvoer. Samen met deze nieuwe metrieken is een interpreteerbare FLOPs-schatter ontwikkeld om de FLOPs van een LLM-gebaseerde herrangschikker te schatten, zelfs zonder experimenten uit te voeren. Op basis van de voorgestelde metrieken voeren we uitgebreide experimenten uit om een breed scala aan LLM-gebaseerde herrangschikkers met verschillende architecturen te evalueren, waarbij we de afweging tussen efficiëntie en effectiviteit bestuderen en deze kwestie onder de aandacht van de onderzoeksgemeenschap brengen.
Recente vooruitgang in diffusie-transformatormodellen voor beweging-gestuurde videogeneratie, zoals Tora, heeft aanzienlijke vooruitgang laten zien. In dit artikel presenteren we Tora2, een verbeterde versie van Tora, die verschillende ontwerpverbeteringen introduceert om de mogelijkheden voor zowel uiterlijk als beweging aan te passen. Specifiek introduceren we een ontkoppelde personalisatie-extractor die uitgebreide personalisatie-embeddings genereert voor meerdere open-set entiteiten, waardoor fijnmazige visuele details beter behouden blijven in vergelijking met eerdere methoden. Hierop voortbouwend ontwerpen we een gegate self-attention-mechanisme om traject, tekstuele beschrijving en visuele informatie voor elke entiteit te integreren. Deze innovatie vermindert de uitlijning in multimodale conditionering tijdens de training aanzienlijk. Bovendien introduceren we een contrastief verlies dat gezamenlijk de trajectdynamiek en entiteitsconsistentie optimaliseert door expliciete mapping tussen beweging en personalisatie-embeddings. Tora2 is, voor zover wij weten, de eerste methode die gelijktijdige multi-entiteit-aanpassing van uiterlijk en beweging voor videogeneratie bereikt. Experimentele resultaten tonen aan dat Tora2 concurrerende prestaties bereikt met state-of-the-art aanpassingsmethoden, terwijl het geavanceerde bewegingscontrolemogelijkheden biedt, wat een kritische vooruitgang markeert in multi-condition videogeneratie. Projectpagina: https://github.com/alibaba/Tora.
Diepgaand leren-gebaseerde computationele methoden hebben veelbelovende resultaten behaald in het voorspellen van eiwit-eiwitinteracties (PPIs). Bestaande benchmarks richten zich echter voornamelijk op geïsoleerde paarsgewijze evaluaties, waarbij het vermogen van een model om biologisch betekenisvolle PPI-netwerken te reconstrueren over het hoofd wordt gezien, wat cruciaal is voor biologisch onderzoek. Om deze kloof te overbruggen, introduceren we PRING, de eerste uitgebreide benchmark die eiwit-eiwitinteractievoorspelling evalueert vanuit een grafiekniveau perspectief. PRING stelt een hoogwaardige, multi-soort PPI-netwerkdataset samen, bestaande uit 21.484 eiwitten en 186.818 interacties, met goed doordachte strategieën om zowel dataredundantie als -lekkage aan te pakken. Op basis van deze gouden standaarddataset stellen we twee complementaire evaluatieparadigma's vast: (1) topologiegerichte taken, die de intra- en cross-soort PPI-netwerkconstructie beoordelen, en (2) functiegerichte taken, waaronder voorspelling van eiwitcomplexpaden, GO-moduleanalyse en rechtvaardiging van essentiële eiwitten. Deze evaluaties weerspiegelen niet alleen het vermogen van het model om de netwerktopologie te begrijpen, maar vergemakkelijken ook eiwitfunctieannotatie, detectie van biologische modules en zelfs analyse van ziekte mechanismen. Uitgebreide experimenten op vier representatieve modelcategorieën, bestaande uit sequentie-gelijkenis-gebaseerde, naïeve sequentie-gebaseerde, eiwit-taalmodel-gebaseerde en structuur-gebaseerde benaderingen, tonen aan dat huidige PPI-modellen potentiële beperkingen hebben in het herstellen van zowel structurele als functionele eigenschappen van PPI-netwerken, wat de kloof in het ondersteunen van real-world biologische toepassingen benadrukt. Wij geloven dat PRING een betrouwbaar platform biedt om de ontwikkeling van effectievere PPI-voorspellingsmodellen voor de gemeenschap te begeleiden. De dataset en broncode van PRING zijn beschikbaar op https://github.com/SophieSarceau/PRING.
Recente "segment anything"-inspanningen tonen belofte door te leren van grootschalige data, maar het direct aanpassen van dergelijke modellen aan medische beelden blijft uitdagend vanwege de complexiteit van medische data, onnauwkeurige annotaties en de voortdurende leervereisten over diverse modaliteiten en anatomische structuren. In dit werk stellen we SAMed-2 voor, een nieuw foundation-model voor medische beeldsegmentatie gebaseerd op de SAM-2-architectuur. Specifiek introduceren we een temporele adapter in de beeldencoder om beeldcorrelaties vast te leggen en een vertrouwensgedreven geheugenmechanisme om hoogzekere kenmerken op te slaan voor latere terugvinding. Deze geheugenstrategie gaat de alomtegenwoordige ruis in grootschalige medische datasets tegen en vermindert catastrofaal vergeten bij het tegenkomen van nieuwe taken of modaliteiten. Om SAMed-2 te trainen en evalueren, hebben we MedBank-100k samengesteld, een uitgebreide dataset die zeven beeldvormingsmodaliteiten en 21 medische segmentatietaken omvat. Onze experimenten op zowel interne benchmarks als 10 externe datasets tonen superieure prestaties aan ten opzichte van state-of-the-art baselines in multitask-scenario's. De code is beschikbaar op: https://github.com/ZhilingYan/Medical-SAM-Bench.
State-of-the-art grote multimodale modellen (LMMs) worden geconfronteerd met uitdagingen bij het verwerken van hoogresolutiebeelden, aangezien deze invoer wordt omgezet in enorme visuele tokens, waarvan vele irrelevant zijn voor de downstream-taak. In dit artikel stellen we Multi-turn Grounding-based Policy Optimization (MGPO) voor, een end-to-end reinforcement learning (RL) framework dat LMMs in staat stelt om iteratief te focussen op belangrijke visuele regio's door automatisch subafbeeldingen uit te snijden, gebaseerd op door het model voorspelde grondingscoördinaten binnen een multi-turn conversatieframework. In vergelijking met supervised fine-tuning (SFT), dat kostbare aanvullende grondingsannotaties vereist, benadrukt onze aanpak dat LMMs robuuste grondingsvaardigheden kunnen ontwikkelen tijdens het RL-trainingsproces, waarbij alleen een binaire beloningsfunctie wordt gebruikt die is afgeleid van de juistheid van het uiteindelijke antwoord. Daarnaast merken we op dat LMMs moeite hebben om visuele gronding autonoom te activeren tijdens het rollout-proces. Om dit cold start-probleem aan te pakken, ontwerpen we een multi-turn conversatiesjabloon en beperken we de berekening van het beleidsverlies tot modeluitvoer die wordt gegenereerd over meerdere dialoogronden, waardoor stabiele optimalisatie wordt bevorderd. Uitgebreide experimenten tonen aan dat, wanneer getraind op standaard visuele-vraag-kort-antwoordgegevens zonder grondingsannotaties, MGPO effectief sterkere grondingsvaardigheden oproept in vergelijking met GRPO, wat leidt tot een verbetering van 5,4% op in-distributie MME-Realworld en 5,2% verbetering op de uitdagende out-of-distribution (OOD) V* Bench. Opmerkelijk is dat MGPO na training op Qwen2.5-VL-7B met 21K samples de OpenAI o1 en GPT-4o modellen overtreft op de OOD V* Bench. Codes zijn beschikbaar op https://github.com/EvolvingLMMs-Lab/MGPO.
Lang-contextverwerking is een fundamentele capaciteit geworden voor grote taalmodelen (LLMs). Om de lang-contextprestaties van modellen te beoordelen, zijn tal van lang-contextevaluatiebenchmarks voorgesteld. Variaties in evaluatie-instellingen tussen deze benchmarks leiden echter tot inconsistente resultaten, wat het moeilijk maakt om betrouwbare vergelijkingen te trekken. Daarnaast vormen de hoge rekenkosten van lang-contextevaluatie een aanzienlijke barrière voor de gemeenschap om uitgebreide beoordelingen van lang-contextmodellen uit te voeren. In dit artikel stellen we LOOM-Scope voor, een uitgebreid en efficiënt raamwerk voor lang-contextevaluatie. LOOM-Scope standaardiseert evaluatie-instellingen over diverse benchmarks, ondersteunt de implementatie van efficiënte versnellingsmethoden voor lang-contextinferentie, en introduceert een holistische maar lichtgewicht benchmarksuite om modellen uitgebreid te evalueren. Homepage: https://loomscope.github.io
We presenteren any4, een geleerde 4-bit gewichtskwantisatieoplossing voor grote taalmmodellen (LLMs) die willekeurige numerieke representaties biedt zonder voorafgaande verwerking van gewichten of activaties. any4 levert een hogere nauwkeurigheid op in vergelijking met andere gerelateerde 4-bit numerieke representatietypen: int4, fp4 en nf4, zoals geëvalueerd op een reeks modelgroottes, generaties en families (Llama 2, Llama 3, Mistral en Mixtral). Hoewel any4 geen voorbewerking van gewichten of activaties vereist, is het ook concurrerend met orthogonale technieken die dergelijke voorbewerking wel vereisen (bijv. AWQ en GPTQ). We experimenteren ook met any3 en any2 en tonen concurrentievermogen bij lagere bits. Daarnaast laten we zien dat we kunnen kalibreren met behulp van een enkele zorgvuldig samengestelde diverse steekproef in plaats van honderden steekproeven uit een dataset, zoals gebruikelijk is in de meeste kwantisatiebenaderingen. We open sourcen ook tinygemm, een latentie-geoptimaliseerde GPU-matrixvermenigvuldigingsbibliotheek voor LLMs, die any4 implementeert met behulp van een GPU-efficiënte lookup-tabelstrategie, samen met andere veelgebruikte kwantisatiemethoden. We open sourcen onze code op https://github.com/facebookresearch/any4.
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond voor een breed scala aan taken, maar ze vertonen ook een neiging tot het onthouden van hun trainingsdata. Dit fenomeen roept kritische vragen op over modelgedrag, privacyrisico's en de grens tussen leren en onthouden. In dit artikel worden recente studies samengevat en wordt het landschap van onthouding onderzocht, evenals de factoren die hierop van invloed zijn en methoden voor detectie en beperking ervan. We verkennen belangrijke drijvende krachten, waaronder duplicatie van trainingsdata, trainingsdynamiek en fine-tuningprocedures die dataonthouding beïnvloeden. Daarnaast onderzoeken we methodologieën zoals prefix-gebaseerde extractie, lidmaatschapsinferentie en adversariële prompting, waarbij we hun effectiviteit beoordelen in het detecteren en meten van onthouden content. Naast technische analyse verkennen we ook de bredere implicaties van onthouding, waaronder de juridische en ethische gevolgen. Tot slot bespreken we beperkingsstrategieën, zoals datareiniging, differentiële privacy en post-training 'unlearning', waarbij we openstaande uitdagingen belichten in het vinden van een balans tussen het minimaliseren van schadelijke onthouding en het behoud van nut. Dit artikel biedt een uitgebreid overzicht van de huidige stand van onderzoek naar onthouding in LLM's, zowel op technisch, privacy- als prestatievlak, en identificeert kritische richtingen voor toekomstig werk.
Semantische scènevoltooiing (SSC) heeft als doel zowel de 3D-geometrie als de semantiek van een scène af te leiden uit enkele afbeeldingen. In tegenstelling tot eerder werk over SSC dat sterk afhankelijk is van kostbare grondwaarheidannotaties, benaderen wij SSC in een onbewaakte setting. Onze nieuwe methode, SceneDINO, past technieken uit zelfbewaakte representatieleer en 2D onbewaakte scènebegrip toe op SSC. Onze training maakt uitsluitend gebruik van multi-view consistentie zelfbewaking zonder enige vorm van semantische of geometrische grondwaarheid. Gegeven een enkele invoerafbeelding, leidt SceneDINO de 3D-geometrie en expressieve 3D DINO-features op een feed-forward manier af. Door een nieuwe 3D-feature-distillatieaanpak verkrijgen we onbewaakte 3D-semantiek. In zowel 3D als 2D onbewaakt scènebegrip bereikt SceneDINO state-of-the-art segmentatienauwkeurigheid. Lineair testen van onze 3D-features komt overeen met de segmentatienauwkeurigheid van een huidige bewaakte SSC-aanpak. Daarnaast tonen we de domeingeneralizatie en multi-view consistentie van SceneDINO aan, waarmee we de eerste stappen zetten naar een sterke basis voor 3D-scènebegrip uit enkele afbeeldingen.
Vooruitgang in tekst-naar-beeldgeneratie is voornamelijk Engelstalig geweest, wat barrières creëert voor niet-Engelssprekenden en digitale ongelijkheden in stand houdt. Hoewel bestaande systemen vertaalpipelines gebruiken, introduceren deze semantische verschuiving, rekenkundige overhead en culturele misalignering. Wij introduceren NeoBabel, een innovatief meertalig beeldgeneratieframework dat een nieuwe Pareto-grens stelt op het gebied van prestaties, efficiëntie en inclusiviteit, met ondersteuning voor zes talen: Engels, Chinees, Nederlands, Frans, Hindi en Perzisch. Het model wordt getraind met een combinatie van grootschalige meertalige voorafgaande training en hoogwaardige instructieafstemming. Om de mogelijkheden te evalueren, breiden we twee Engelstalige benchmarks uit naar meertalige equivalenten: m-GenEval en m-DPG. NeoBabel behaalt state-of-the-art meertalige prestaties terwijl het sterke Engelse capaciteiten behoudt, met scores van 0,75 op m-GenEval en 0,68 op m-DPG. Opvallend is dat het gelijke tred houdt met toonaangevende modellen op Engelstalige taken, terwijl het hen overtreft met +0,11 en +0,09 op meertalige benchmarks, zelfs al zijn deze modellen gebouwd op meertalige basis-LLM's. Dit toont de effectiviteit aan van onze gerichte afstemmingstraining voor het behoud en de uitbreiding van crosslinguale generalisatie. We introduceren verder twee nieuwe metrieken om meertalige afstemming en robuustheid tegen code-gemengde prompts rigoureus te beoordelen. Opvallend is dat NeoBabel gelijke tred houdt met of Engelstalige modellen overtreft, terwijl het 2-4x kleiner is. We geven een open toolkit vrij, inclusief alle code, modelcheckpoints, een gecureerde dataset van 124M meertalige tekst-beeldparen en gestandaardiseerde meertalige evaluatieprotocollen, om inclusief AI-onderzoek te bevorderen. Ons werk toont aan dat meertalige capaciteit geen compromis is, maar een katalysator voor verbeterde robuustheid, efficiëntie en culturele trouw in generatieve AI.
We ontwerpen en implementeren AXLearn, een productiesysteem voor deep learning dat schaalbare en hoogwaardige training van grote deep learning-modellen mogelijk maakt. In vergelijking met andere state-of-the-art deep learning-systemen heeft AXLearn een unieke focus op modulariteit en ondersteuning voor heterogene hardware-infrastructuur. De interne interfaces tussen softwarecomponenten in AXLearn volgen strikte encapsulatie, waardoor verschillende componenten kunnen worden samengesteld om snelle modelontwikkeling en experimenten op heterogene rekeninfrastructuur te faciliteren. We introduceren een nieuwe methode om modulariteit te kwantificeren via Lines-of-Code (LoC)-complexiteit, wat aantoont hoe ons systeem een constante complexiteit behoudt terwijl we de componenten in het systeem opschalen, in tegenstelling tot lineaire of kwadratische complexiteit in andere systemen. Hierdoor kunnen functies zoals Rotary Position Embeddings (RoPE) in AXLearn worden geïntegreerd over honderden modules met slechts 10 regels code, vergeleken met honderden die in andere systemen nodig zijn. Tegelijkertijd behoudt AXLearn een vergelijkbare prestatieniveau als state-of-the-art trainingssystemen. Tot slot delen we onze ervaringen met de ontwikkeling en het operationele beheer van AXLearn.
Compositioneel begrip is cruciaal voor menselijke intelligentie, maar het blijft onduidelijk of hedendaagse vision-modellen dit vertonen. Het dominante machine learning-paradigma is gebaseerd op het uitgangspunt dat het opschalen van data en modelgroottes de prestaties buiten de distributie zal verbeteren, inclusief compositionele generalisatie. We testen dit uitgangspunt door middel van gecontroleerde experimenten die systematisch variëren in dataschaal, conceptdiversiteit en combinatiedekking. We ontdekken dat compositionele generalisatie wordt aangedreven door datadiversiteit, niet slechts door dataschaal. Toegenomen combinatorische dekking dwingt modellen om een lineair gefactoriseerde representatiestructuur te ontdekken, waarbij concepten ontbinden in additieve componenten. We bewijzen dat deze structuur essentieel is voor efficiëntie, waardoor perfecte generalisatie mogelijk wordt vanuit weinig waargenomen combinaties. Bij het evalueren van vooraf getrainde modellen (DINO, CLIP) vinden we boven-gemiddelde maar onvolmaakte prestaties, wat suggereert dat deze structuur gedeeltelijk aanwezig is. Ons werk motiveert een sterkere nadruk op het construeren van diverse datasets voor compositionele generalisatie, en het overwegen van het belang van representatiestructuur die efficiënt compositioneel leren mogelijk maakt. Code beschikbaar op https://github.com/oshapio/visual-compositional-generalization.
Recente vooruitgang in grafische diffusiemodellen (GDMs) heeft de synthese van realistische netwerkstructuren mogelijk gemaakt, maar het waarborgen van eerlijkheid in de gegenereerde data blijft een kritieke uitdaging. Bestaande oplossingen proberen bias te verminderen door de GDMs opnieuw te trainen met ad-hoc eerlijkheidsbeperkingen. Daarentegen stellen wij met dit werk FAROS voor, een nieuw FAir graph geneRatiOn raamwerk dat gebruikmaakt van attribuut Switching mechanismen en direct in het generatieproces van het vooraf getrainde GDM werkt. Technisch gezien werkt onze aanpak door gevoelige attributen van nodes tijdens de generatie aan te passen. Hiertoe berekent FAROS de optimale fractie van te switchen nodes en selecteert het de diffusiestap om de switch uit te voeren door op maat gemaakte multi-criteria beperkingen in te stellen om het node-topologieprofiel van de oorspronkelijke distributie te behouden (een proxy voor nauwkeurigheid) terwijl de onafhankelijkheid van de randen op de gevoelige attributen voor de gegenereerde grafiek wordt gewaarborgd (een proxy voor eerlijkheid). Onze experimenten op benchmarkdatasets voor linkvoorspelling tonen aan dat de voorgestelde aanpak effectief eerlijkheidsdiscrepanties vermindert terwijl vergelijkbare (of zelfs hogere) nauwkeurigheidsprestaties worden behouden ten opzichte van andere vergelijkbare baselines. Opmerkelijk is dat FAROS in sommige van de geteste instellingen onder het Pareto-optimaliteitsconcept ook een betere nauwkeurigheid-eerlijkheid afweging kan maken dan andere concurrenten, wat de effectiviteit van de opgelegde multi-criteria beperkingen aantoont.