Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben indrukwekkende veelzijdigheid getoond als algemene modellen. Hun brede toepasbaarheid gaat echter gepaard met een hoge rekentijd, met name bij auto-regressieve decodering, waarbij elke stap een forward pass vereist. In domeinspecifieke situaties zijn algemene mogelijkheden overbodig en kunnen ze worden ingeruild voor efficiëntie. In dit werk nemen we een nieuw perspectief op domeinadaptatie, waarbij we de latentie en rekentijd verminderen door het vocabulaire aan te passen aan specifieke interessegebieden. We introduceren AdaptiVocab, een end-to-end benadering voor vocabulaire-adaptatie, ontworpen om de efficiëntie van LLMs in domeinen met beperkte bronnen te verbeteren. AdaptiVocab kan worden toegepast op elke tokenizer en architectuur, waarbij het vocabulaire wordt aangepast door tokens te vervangen door domeinspecifieke n-gram-gebaseerde tokens, waardoor het aantal benodigde tokens voor zowel inputverwerking als outputgeneratie wordt verminderd. AdaptiVocab initialiseert nieuwe n-token-embeddings met behulp van een exponentieel gewogen combinatie van bestaande embeddings en maakt gebruik van een lichtgewicht fine-tuningfase die efficiënt kan worden uitgevoerd op een enkele GPU. We evalueren twee 7B LLMs in drie niche-domeinen, waarbij we de efficiëntie, generatiekwaliteit en eindtaakprestaties beoordelen. Onze resultaten laten zien dat AdaptiVocab het tokengebruik met meer dan 25% vermindert zonder in te leveren op prestaties.
Reinforcement Learning from Human Feedback (RLHF) is cruciaal voor het afstemmen van grote taalmodelen op menselijke voorkeuren. Hoewel recent onderzoek zich heeft gericht op algoritmische verbeteringen, is het belang van de constructie van prompt-data over het hoofd gezien. Dit artikel behandelt deze leemte door datagestuurde knelpunten in de schaalbaarheid van RLHF-prestaties te onderzoeken, met name reward hacking en afnemende responsdiversiteit. We introduceren een hybride beloningssysteem dat reasoning task verifiers (RTV) en een generatief beloningsmodel (GenRM) combineert om reward hacking te beperken. We stellen ook een nieuwe prompt-selectiemethode voor, Pre-PPO, om de responsdiversiteit te behouden en de leer effectiviteit te verbeteren. Daarnaast ontdekken we dat het prioriteren van wiskundige en programmeertaken vroeg in de RLHF-training de prestaties aanzienlijk verbetert. Experimenten met twee modelgroottes valideren de effectiviteit en schaalbaarheid van onze methoden. De resultaten tonen aan dat RTV het meest resistent is tegen reward hacking, gevolgd door GenRM met grondwaarheid, en vervolgens GenRM met SFT Best-of-N-responsen. Onze strategieën maken het mogelijk om snel subtiele taakspecifieke onderscheidingen vast te leggen, wat leidt tot aanzienlijke verbeteringen in de algehele RLHF-prestaties. Dit werk benadrukt het belang van zorgvuldige dataconstructie en biedt praktische methoden om prestatiebarrières in RLHF te overwinnen.
Recente Large Reasoning Models (LRMs), zoals DeepSeek-R1 en OpenAI o1, hebben sterke prestatieverbeteringen laten zien door de lengte van Chain-of-Thought (CoT)-redenering tijdens inferentie op te schalen. Een groeiende zorg is echter hun neiging om excessief lange redeneersporen te produceren, die vaak gevuld zijn met overbodige inhoud (bijvoorbeeld herhaalde definities), overmatige analyse van eenvoudige problemen, en oppervlakkige verkenning van meerdere redeneerpaden voor moeilijkere taken. Deze inefficiëntie brengt aanzienlijke uitdagingen met zich mee voor training, inferentie en praktische implementatie (bijvoorbeeld in agent-gebaseerde systemen), waar token-economie van cruciaal belang is. In dit overzicht bieden we een uitgebreid beeld van recente inspanningen om de redeneerefficiëntie in LRMs te verbeteren, met speciale aandacht voor de unieke uitdagingen die in dit nieuwe paradigma ontstaan. We identificeren veelvoorkomende patronen van inefficiëntie, onderzoeken methoden die zijn voorgesteld in de gehele levenscyclus van LRMs, van pretraining tot inferentie, en bespreken veelbelovende toekomstige onderzoeksrichtingen. Om de voortdurende ontwikkeling te ondersteunen, houden we ook een real-time GitHub-repository bij die de recente vooruitgang in het veld volgt. We hopen dat dit overzicht als basis dient voor verder onderzoek en innovatie inspireert in dit snel evoluerende gebied.
Sequentiële Aanbeveling (SeqRec) heeft als doel het volgende item te voorspellen door sequentiële patronen te herkennen uit de historische interacties van gebruikers, wat een cruciale rol speelt in veel real-world aanbevelingssystemen. Bestaande benaderingen hanteren echter voornamelijk een directe voorwaartse rekenparadigma, waarbij de laatste verborgen toestand van de sequentie-encoder dient als gebruikersrepresentatie. Wij stellen dat dit inferentieparadigma, vanwege de beperkte reken diepte, moeite heeft om de complexe, evoluerende aard van gebruikersvoorkeuren te modelleren en een genuanceerd begrip mist van long-tail items, wat leidt tot suboptimale prestaties. Om dit probleem aan te pakken, stellen we ReaRec voor, het eerste inferentie-tijd rekenframework voor aanbevelingssystemen, dat gebruikersrepresentaties verbetert door impliciete meerstaps redenering. Specifiek voert ReaRec de laatste verborgen toestand van de sequentie autoregressief terug in de sequentiële aanbeveler, terwijl speciale redeneringspositie-embeddings worden geïntegreerd om de originele itemcoderingsruimte te ontkoppelen van de meerstaps redeneringsruimte. Bovendien introduceren we twee lichtgewicht, op redenering gebaseerde leermethoden, Ensemble Reasoning Learning (ERL) en Progressive Reasoning Learning (PRL), om het redeneringspotentieel van ReaRec verder effectief te benutten. Uitgebreide experimenten op vijf openbare real-world datasets en verschillende SeqRec-architecturen demonstreren de algemeenheid en effectiviteit van ons voorgestelde ReaRec. Opmerkelijk is dat post-hoc analyses aantonen dat ReaRec de prestatieplafonds van meerdere sequentiële aanbevelingsbackbones aanzienlijk verhoogt met ongeveer 30\%-50\%. Wij geloven daarom dat dit werk een nieuwe en veelbelovende weg kan openen voor toekomstig onderzoek naar inferentie-tijd rekenen voor sequentiële aanbeveling.
Multimodale Large Language Models (MLLMs) hebben aanzienlijke aandacht gekregen vanwege hun vermogen om diverse soorten invoergegevens te verwerken en samenhangende, contextueel relevante uitvoer te genereren voor verschillende toepassingen. Hoewel supervised fine-tuning (SFT) de overheersende benadering is geweest om de mogelijkheden van MLLMs te verbeteren voor taakspecifieke optimalisatie, schiet het vaak tekort in het bevorderen van cruciale gegeneraliseerde redeneervaardigheden. Hoewel reinforcement learning (RL) veelbelovend is om deze beperkingen te overwinnen, stuit het op twee belangrijke uitdagingen: (1) de gegeneraliseerde capaciteiten in multimodale taken zijn grotendeels onontgonnen, en (2) de trainingsbeperkingen, waaronder de constante Kullback-Leibler-divergentie of de clamp-strategie, resulteren vaak in suboptimale knelpunten. Om deze uitdagingen aan te pakken, stellen we OThink-MR1 voor, een geavanceerde MLLM die is uitgerust met diepgaand begrip en redeneervaardigheden voor multimodale taken. Specifiek introduceren we Group Relative Policy Optimization met een dynamische Kullback-Leibler-strategie (GRPO-D), die de prestaties van reinforcement learning (RL) aanzienlijk verbetert. Voor Qwen2-VL-2B-Instruct behaalt GRPO-D een relatieve verbetering van meer dan 5,72% ten opzichte van SFT en meer dan 13,59% ten opzichte van GRPO in dezelfde-taakevaluatie op twee aangepaste datasets. Bovendien toont GRPO-D opmerkelijke cross-task generalisatiecapaciteiten, met een gemiddelde relatieve verbetering van meer dan 61,63% ten opzichte van SFT in cross-task evaluatie. Deze resultaten benadrukken dat de MLLM die met GRPO-D is getraind op één multimodale taak effectief kan worden overgedragen naar een andere taak, wat de superieure gegeneraliseerde redeneervaardigheden van ons voorgestelde OThink-MR1-model onderstreept.
We introduceren ORIGEN, de eerste zero-shot methode voor 3D oriëntatiebepaling in tekst-naar-beeld generatie voor meerdere objecten en diverse categorieën. Terwijl eerder werk over ruimtelijke positionering in beeldgeneratie zich voornamelijk richtte op 2D-positionering, ontbreekt het aan controle over 3D-oriëntatie. Om dit aan te pakken, stellen we een beloningsgeleide steekproefmethode voor die gebruikmaakt van een vooraf getraind discriminerend model voor 3D-oriëntatieschatting en een eenstaps tekst-naar-beeld generatief stroommodel. Hoewel optimalisatie op basis van gradiëntstijging een natuurlijke keuze is voor beloningsgeleide begeleiding, heeft het moeite om de realistische weergave van beelden te behouden. In plaats daarvan hanteren we een steekproefgebaseerde aanpak met behulp van Langevin-dynamica, die gradiëntstijging uitbreidt door simpelweg willekeurige ruis toe te voegen—wat slechts één extra regel code vereist. Daarnaast introduceren we adaptieve tijdsherschaling op basis van de beloningsfunctie om de convergentie te versnellen. Onze experimenten tonen aan dat ORIGEN zowel trainingsgebaseerde als testtijd-begeleidingsmethoden overtreft op basis van kwantitatieve metrieken en gebruikersstudies.
Recente ontwikkelingen in spraakgestuurde 3D-talking head-generatie hebben aanzienlijke vooruitgang geboekt in lipsynchronisatie. Bestaande modellen hebben echter nog steeds moeite om de perceptuele afstemming tussen verschillende spraakkenmerken en de bijbehorende lipbewegingen vast te leggen. In dit werk stellen wij dat drie criteria -- Temporele Synchronisatie, Lipleesbaarheid en Expressiviteit -- cruciaal zijn voor het bereiken van perceptueel nauwkeurige lipbewegingen. Gemotiveerd door onze hypothese dat er een gewenste representatieruimte bestaat die aan deze drie criteria voldoet, introduceren wij een spraak-mesh gesynchroniseerde representatie die ingewikkelde overeenkomsten tussen spraaksignalen en 3D-gezichtsmeshes vastlegt. Wij ontdekten dat onze geleerde representatie gewenste eigenschappen vertoont, en wij integreren deze in bestaande modellen als een perceptueel verlies om lipbewegingen beter af te stemmen op de gegeven spraak. Daarnaast gebruiken wij deze representatie als een perceptuele metriek en introduceren wij twee andere fysiek onderbouwde lipsynchronisatiemetrics om te beoordelen hoe goed de gegenereerde 3D-talking heads aan deze drie criteria voldoen. Experimenten tonen aan dat het trainen van 3D-talking head-generatiemodellen met ons perceptuele verlies alle drie de aspecten van perceptueel nauwkeurige lipsynchronisatie aanzienlijk verbetert. Codes en datasets zijn beschikbaar op https://perceptual-3d-talking-head.github.io/.
We presenteren Free4D, een nieuw afstemningsvrij raamwerk voor 4D-scènegeneratie vanuit een enkele afbeelding. Bestaande methodes richten zich ofwel op objectniveau-generatie, waardoor scèneniveau-generatie onhaalbaar wordt, of vertrouwen op grootschalige multi-view videodatasets voor kostbare training, met beperkte generalisatiecapaciteit vanwege de schaarste aan 4D-scènedata. In tegenstelling hiermee is onze belangrijkste inzicht het destilleren van vooraf getrainde foundation-modellen voor consistente 4D-scèneweergave, wat veelbelovende voordelen biedt zoals efficiëntie en generaliseerbaarheid. 1) Om dit te bereiken, animeren we eerst de invoerafbeelding met behulp van beeld-naar-video diffusiemodellen, gevolgd door 4D geometrische structuurinitialisatie. 2) Om deze grove structuur om te zetten in ruimtelijk-temporeel consistente multiview video's, ontwerpen we een adaptief begeleidingsmechanisme met een puntgeleide denoisingstrategie voor ruimtelijke consistentie en een nieuwe latente vervangingsstrategie voor temporele samenhang. 3) Om deze gegenereerde observaties om te zetten in een consistente 4D-weergave, stellen we een op modulatie gebaseerde verfijning voor om inconsistenties te verminderen terwijl de gegenereerde informatie volledig wordt benut. De resulterende 4D-weergave maakt real-time, bestuurbaar renderen mogelijk, wat een significante vooruitgang markeert in 4D-scènegeneratie op basis van een enkele afbeelding.
Vision Transformers (ViTs) hebben opmerkelijke prestaties en schaalbaarheid getoond bij diverse computer vision-taken. Om single-scale ViTs toe te passen op beeldsegmentatie, gebruiken bestaande methoden een convolutionele adapter om multi-scale features te genereren, een pixeldecoder om deze features samen te voegen, en een Transformer-decoder die de samengevoegde features gebruikt om voorspellingen te maken. In dit artikel laten we zien dat de inductieve biases die door deze taakspecifieke componenten worden geïntroduceerd, in plaats daarvan door de ViT zelf kunnen worden geleerd, mits voldoende grote modellen en uitgebreide pre-training worden gebruikt. Op basis van deze bevindingen introduceren we de Encoder-only Mask Transformer (EoMT), die de standaard ViT-architectuur hergebruikt om beeldsegmentatie uit te voeren. Met grootschalige modellen en pre-training behaalt EoMT een segmentatienauwkeurigheid die vergelijkbaar is met state-of-the-art modellen die taakspecifieke componenten gebruiken. Tegelijkertijd is EoMT aanzienlijk sneller dan deze methoden vanwege zijn architecturale eenvoud, bijvoorbeeld tot 4x sneller met ViT-L. Over een reeks modelgroottes toont EoMT een optimale balans tussen segmentatienauwkeurigheid en voorspellingssnelheid, wat suggereert dat rekenbronnen beter kunnen worden besteed aan het schalen van de ViT zelf in plaats van het toevoegen van architecturale complexiteit. Code: https://www.tue-mps.org/eomt/.
Samenvattingsverfijning ondervindt uitdagingen bij uitbreiding naar meerdere dimensies. In dit artikel introduceren we ReFeed, een krachtige pijplijn voor samenvattingsverfijning die meerdere dimensies verbetert door reflectief redeneren op basis van feedback. Hiervoor brengen we SumFeed-CoT uit, een grootschalige Long-CoT-gebaseerde dataset geoptimaliseerd voor het trainen van een lichtgewicht model met reflectief redeneren. Onze experimenten laten zien hoe het aantal dimensies, blootstelling aan feedback en redeneerbeleid de verfijningsprestaties beïnvloeden, waarbij reflectief redeneren en het gelijktijdig aanpakken van meerdere feedbackpunten cruciaal zijn om de afweging tussen dimensies te verminderen. Bovendien is ReFeed robuust tegen ruis in feedback en de volgorde van feedback. Tot slot benadrukt onze bevinding dat het creëren van data met een passend doel en richtlijnen een fundamentele pijler vormt voor effectief redeneren. De dataset en het model zullen worden vrijgegeven.
Onlangs is multi-view of 4D-videogeneratie naar voren gekomen als een belangrijk onderzoeksonderwerp. Toch worstelen recente benaderingen voor 4D-generatie nog steeds met fundamentele beperkingen, aangezien ze voornamelijk vertrouwen op het inzetten van meerdere video-diffusiemodellen met aanvullende training of rekenintensieve training van een volledig 4D-diffusiemodel, waarbij beperkte real-world 4D-data en hoge rekenkosten een rol spelen. Om deze uitdagingen aan te pakken, stellen wij hier de eerste trainingsvrije methode voor 4D-videogeneratie voor, die gebruikmaakt van kant-en-klare video-diffusiemodellen om multi-view video's te genereren vanuit een enkele invoervideo. Onze aanpak bestaat uit twee belangrijke stappen: (1) Door de randframes in het spatio-temporele bemonsteringsraster als sleutelframes aan te wijzen, synthetiseren we deze eerst met behulp van een video-diffusiemodel, waarbij een op diepte gebaseerde warping-techniek wordt gebruikt voor begeleiding. Deze aanpak zorgt voor structurele consistentie over de gegenereerde frames, waarbij ruimtelijke en temporele samenhang behouden blijft. (2) Vervolgens interpoleren we de resterende frames met behulp van een video-diffusiemodel, waardoor een volledig gevuld en temporeel coherent bemonsteringsraster wordt geconstrueerd, terwijl ruimtelijke en temporele consistentie behouden blijft. Met deze aanpak breiden we een enkele video uit naar een multi-view video langs nieuwe cameratrajecten, waarbij spatio-temporele consistentie behouden blijft. Onze methode is trainingsvrij en maakt volledig gebruik van een kant-en-klaar video-diffusiemodel, wat een praktische en effectieve oplossing biedt voor multi-view videogeneratie.
Het segmenteren van bewegende objecten is een cruciale taak voor het verkrijgen van een hoog niveau van begrip van visuele scènes en heeft talrijke toepassingen. Mensen kunnen moeiteloos bewegende objecten in video's segmenteren. Eerder werk heeft grotendeels vertrouwd op optische stroming om bewegingsinformatie te leveren; deze aanpak resulteert echter vaak in onvolmaakte voorspellingen vanwege uitdagingen zoals gedeeltelijke beweging, complexe vervormingen, bewegingsonscherpte en achtergrondafleidingen. Wij stellen een nieuwe aanpak voor voor het segmenteren van bewegende objecten die langetermijn trajectoriebewegingsinformatie combineert met DINO-gebaseerde semantische kenmerken en SAM2 benut voor pixel-niveau maskerdensificatie via een iteratieve promptstrategie. Ons model maakt gebruik van Spatio-Temporele Trajectorie Aandacht en Beweging-Semantiek Ontkoppelde Embedding om beweging te prioriteren terwijl semantische ondersteuning wordt geïntegreerd. Uitgebreide tests op diverse datasets tonen state-of-the-art prestaties aan, met uitmuntende resultaten in uitdagende scenario's en fijnmazige segmentatie van meerdere objecten. Onze code is beschikbaar op https://motion-seg.github.io/.
We introduceren PHYSICS, een uitgebreide benchmark voor het oplossen van problemen op universitair niveau in de natuurkunde. Het bevat 1297 expert-geannoteerde problemen die zes kerngebieden beslaan: klassieke mechanica, kwantummechanica, thermodynamica en statistische mechanica, elektromagnetisme, atoomfysica en optica. Elk probleem vereist geavanceerde natuurkundige kennis en wiskundig redeneren. We ontwikkelen een robuust geautomatiseerd evaluatiesysteem voor nauwkeurige en betrouwbare validatie. Onze evaluatie van toonaangevende foundationmodellen onthult aanzienlijke beperkingen. Zelfs het meest geavanceerde model, o3-mini, behaalt slechts 59,9% nauwkeurigheid, wat de aanzienlijke uitdagingen bij het oplossen van hoogwaardige wetenschappelijke problemen benadrukt. Door middel van uitgebreide foutenanalyse, het verkennen van diverse promptingstrategieën en kennisuitbreiding op basis van Retrieval-Augmented Generation (RAG), identificeren we belangrijke verbeteringsgebieden, wat de basis legt voor toekomstige vooruitgang.
Gedeeltelijk gemotiveerd door hun relevantie voor training met lage precisie en kwantisatie, zijn massieve activaties in grote taalmodellen (LLMs) recentelijk naar voren gekomen als een onderwerp van interesse. Bestaande analyses zijn echter beperkt in omvang, en de generaliseerbaarheid over verschillende architecturen is onduidelijk. Dit artikel helpt enkele van deze hiaten aan te pakken door een analyse uit te voeren van massieve activaties in een breed scala aan LLMs, inclusief zowel GLU-gebaseerde als niet-GLU-gebaseerde architecturen. Onze bevindingen dagen verschillende eerdere aannames uit, waarvan de belangrijkste zijn: (1) niet alle massieve activaties zijn schadelijk, d.w.z. het onderdrukken ervan leidt niet tot een explosie van perplexiteit of een ineenstorting van de prestaties op downstream taken; (2) voorgestelde mitigatiestrategieën zoals Attention KV bias zijn modelspecifiek en in bepaalde gevallen niet effectief. We onderzoeken daarom nieuwe hybride mitigatiestrategieën; in het bijzonder het combineren van Target Variance Rescaling (TVR) met Attention KV bias of Dynamic Tanh (DyT) blijkt succesvol in het balanceren van de mitigatie van massieve activaties met behoud van downstream modelprestaties in de door ons onderzochte scenario's. Onze code is beschikbaar op: https://github.com/bluorion-com/refine_massive_activations.
Met de groeiende vraag naar hoogwaardige 3D-modellen op basis van 2D-beelden, kampen bestaande methoden nog steeds met aanzienlijke uitdagingen bij het nauwkeurig reproduceren van fijnmazige geometrische details vanwege beperkingen in domeinkloof en inherente ambiguïteiten in RGB-beelden. Om deze problemen aan te pakken, stellen we Hi3DGen voor, een nieuw raamwerk voor het genereren van hoogwaardige 3D-geometrie uit beelden via normal bridging. Hi3DGen bestaat uit drie belangrijke componenten: (1) een beeld-naar-normaal schatter die het laag-hoogfrequent beeldpatroon ontkoppelt met ruisinjectie en dual-stream training om generaliseerbare, stabiele en scherpe schattingen te bereiken; (2) een normaal-naar-geometrie leerbenadering die gebruikmaakt van normal-gereguleerd latent diffusie leren om de kwaliteit van 3D-geometriegeneratie te verbeteren; en (3) een 3D-datasynthesepijplijn die een hoogwaardige dataset construeert om de training te ondersteunen. Uitgebreide experimenten tonen de effectiviteit en superioriteit van ons raamwerk aan bij het genereren van rijke geometrische details, waarbij het state-of-the-art methoden overtreft op het gebied van kwaliteit. Ons werk biedt een nieuwe richting voor het genereren van hoogwaardige 3D-geometrie uit beelden door normal maps te gebruiken als een tussenliggende representatie.
In dit artikel introduceren we een methode voor het reconstrueren van 3D-menselijke modellen vanuit een enkele afbeelding met behulp van een biomechanisch nauwkeurig skeletmodel. Om dit te bereiken, trainen we een transformer die een afbeelding als invoer neemt en de parameters van het model schat. Vanwege het gebrek aan trainingsdata voor deze taak, bouwen we een pijplijn om pseudo-ground-truth-modelparameters voor enkele afbeeldingen te genereren en implementeren we een trainingsprocedure die deze pseudo-labels iteratief verfijnt. Vergeleken met state-of-the-art methoden voor het herstellen van 3D-menselijke meshes, behaalt ons model competitieve prestaties op standaard benchmarks, terwijl het hen aanzienlijk overtreft in situaties met extreme 3D-poses en gezichtspunten. Daarnaast tonen we aan dat eerdere reconstructiemethoden vaak de gewrichtshoeklimieten schenden, wat leidt tot onnatuurlijke rotaties. In tegenstelling hiermee maakt onze aanpak gebruik van biomechanisch plausibele bewegingsvrijheden, waardoor realistischere schattingen van gewrichtsrotaties worden gemaakt. We valideren onze aanpak op meerdere benchmarks voor menselijke pose-estimatie. We maken de code, modellen en data beschikbaar op: https://isshikihugh.github.io/HSMR/
Het creëren van hoogwaardige 3D-meshes met willekeurige topologie, inclusief open oppervlakken en complexe interieurs, blijft een grote uitdaging. Bestaande methoden op basis van impliciete velden vereisen vaak kostbare en detailverlagende waterdichte conversie, terwijl andere benaderingen moeite hebben met hoge resoluties. Dit artikel introduceert SparseFlex, een nieuwe isosurface-representatie met een sparse-structuur die differentieerbare mesh-reconstructie mogelijk maakt bij resoluties tot 1024^3, direct vanuit renderingverliezen. SparseFlex combineert de nauwkeurigheid van Flexicubes met een sparse voxelstructuur, waarbij de berekening wordt gericht op oppervlak-aanliggende regio's en open oppervlakken efficiënt worden verwerkt. Cruciaal is dat we een frustum-aware sectionele voxel-trainingsstrategie introduceren die alleen relevante voxels activeert tijdens het renderen, waardoor het geheugengebruik aanzienlijk wordt verminderd en training op hoge resolutie mogelijk wordt gemaakt. Hierdoor wordt voor het eerst ook de reconstructie van mesh-interieurs mogelijk gemaakt met alleen renderingsupervisie. Hierop voortbouwend demonstreren we een complete vormmodelleringspipeline door een variational autoencoder (VAE) en een rectified flow transformer te trainen voor hoogwaardige 3D-vormgeneratie. Onze experimenten tonen state-of-the-art reconstructienauwkeurigheid, met een ~82% reductie in Chamfer Distance en een ~88% toename in F-score vergeleken met eerdere methoden, en demonstreren de generatie van hoogwaardige, gedetailleerde 3D-vormen met willekeurige topologie. Door differentieerbare mesh-reconstructie en -generatie op hoge resolutie mogelijk te maken met renderingverliezen, zet SparseFlex de standaard voor 3D-vormrepresentatie en -modellering aanzienlijk verder.
Multimodale Large Language Models (MLLMs) hebben indrukwekkende mogelijkheden getoond voor het begrijpen van 2D-beelden/video's. Er zijn echter geen gestandaardiseerde benchmarks beschikbaar om de vaardigheden van MLLMs te beoordelen in het begrijpen van 4D-objecten (3D-objecten met temporele evolutie over tijd). In dit artikel introduceren we 4D-Bench, de eerste benchmark om de capaciteiten van MLLMs in 4D-objectbegrip te evalueren, met taken in 4D-object Vraag & Antwoord (4D-object QA) en 4D-objectbeschrijving. 4D-Bench biedt 4D-objecten met diverse categorieën, hoogwaardige annotaties en taken die een multiview ruimtelijk-temporeel begrip vereisen, wat verschilt van bestaande 2D-beeld/video-gebaseerde benchmarks. Met 4D-Bench evalueren we een breed scala aan open-source en closed-source MLLMs. De resultaten van het 4D-objectbeschrijvingsexperiment geven aan dat MLLMs over het algemeen een zwakker temporeel begrip vertonen in vergelijking met hun uiterlijkbegrip, waarbij open-source modellen de prestaties van closed-source modellen benaderen in uiterlijkbegrip, maar grotere prestatiekloof laten zien in temporeel begrip. 4D-object QA levert verrassende bevindingen op: zelfs met eenvoudige single-object video's presteren MLLMs slecht, waarbij state-of-the-art GPT-4o slechts 63\% nauwkeurigheid behaalt in vergelijking met de menselijke baseline van 91\%. Deze bevindingen benadrukken een aanzienlijke kloof in 4D-objectbegrip en de noodzaak voor verdere vooruitgang in MLLMs.
Het ontwikkelen van betrouwbare AI-systemen om menselijke clinici te ondersteunen bij multi-modale medische diagnoses is al lang een belangrijk doel voor onderzoekers. Onlangs hebben Multi-modale Large Language Models (MLLMs) aanzienlijke aandacht gekregen en succes geboekt in verschillende domeinen. Met sterke redeneervaardigheden en de mogelijkheid om diverse taken uit te voeren op basis van gebruikersinstructies, bieden ze groot potentieel voor het verbeteren van medische diagnoses. Het direct toepassen van MLLMs in de medische sector brengt echter nog steeds uitdagingen met zich mee. Ze hebben een beperkt gedetailleerd begrip van visuele inputs, wat hun vermogen om kwantitatieve beeldanalyses uit te voeren beperkt, wat cruciaal is voor medische diagnostiek. Bovendien vertonen MLLMs vaak hallucinaties en inconsistenties in redeneringen, terwijl klinische diagnoses strikt moeten voldoen aan vastgestelde criteria. Om deze uitdagingen aan te pakken, stellen we MedAgent-Pro voor, een op bewijs gebaseerd redeneersysteem dat is ontworpen om betrouwbare, verklaarbare en precieze medische diagnoses te bereiken. Dit wordt gerealiseerd door een hiërarchische workflow: op taakniveau genereren kennisgebaseerde redeneringen betrouwbare diagnostische plannen voor specifieke ziekten volgens opgehaalde klinische criteria. Op casusniveau verwerken meerdere toolagents multi-modale inputs, analyseren verschillende indicatoren volgens het plan en bieden een definitieve diagnose op basis van zowel kwantitatieve als kwalitatieve bewijzen. Uitgebreide experimenten op zowel 2D- als 3D-medische diagnosetaken demonstreren de superioriteit en effectiviteit van MedAgent-Pro, terwijl casestudies de betrouwbaarheid en interpreteerbaarheid verder benadrukken. De code is beschikbaar op https://github.com/jinlab-imvr/MedAgent-Pro.
Traditionele beeldclassificatie vereist een vooraf gedefinieerde lijst van semantische categorieën. In tegenstelling daarmee kunnen Large Multimodal Models (LMMs) deze vereiste omzeilen door afbeeldingen direct te classificeren met behulp van natuurlijke taal (bijvoorbeeld door de vraag "Wat is het hoofdobject in de afbeelding?" te beantwoorden). Ondanks deze opmerkelijke mogelijkheid zijn de meeste bestaande studies over de classificatieprestaties van LMMs verrassend beperkt in reikwijdte, waarbij vaak wordt uitgegaan van een gesloten wereld met een vooraf gedefinieerde set categorieën. In dit werk pakken we deze leemte aan door de classificatieprestaties van LMMs grondig te evalueren in een werkelijk open wereld. We formaliseren eerst de taak en introduceren een evaluatieprotocol, waarbij we verschillende metrieken definiëren om de overeenstemming tussen voorspelde en grondwaarheidklassen te beoordelen. Vervolgens evalueren we 13 modellen over 10 benchmarks, waarbij prototypische, niet-prototypische, fijnmazige en zeer fijnmazige klassen worden meegenomen, wat de uitdagingen illustreert waar LMMs bij deze taak voor staan. Verdere analyses op basis van de voorgestelde metrieken onthullen de soorten fouten die LMMs maken, waarbij uitdagingen met betrekking tot granulariteit en fijnmazige mogelijkheden worden belicht, en laten zien hoe aangepaste prompting en redenering deze kunnen verlichten.
AI voor software engineering heeft recentelijk opmerkelijke vooruitgang geboekt en is uitgegroeid tot een opvallend succes binnen generatieve AI. Desondanks zijn er nog steeds veel uitdagingen die moeten worden aangepakt voordat geautomatiseerde software engineering zijn volledige potentieel bereikt. Het zou mogelijk moeten zijn om hoge niveaus van automatisering te bereiken waarbij mensen zich kunnen concentreren op de kritieke beslissingen over wat te bouwen en hoe moeilijke afwegingen in balans te brengen, terwijl het meeste routinematige ontwikkelingswerk wordt geautomatiseerd. Het bereiken van dit niveau van automatisering zal aanzienlijke onderzoeks- en technische inspanningen vereisen, zowel in de academische wereld als in de industrie. In dit artikel streven we ernaar om de voortgang hiernaar op drie manieren te bespreken. Ten eerste bieden we een gestructureerde taxonomie van concrete taken binnen AI voor software engineering, waarbij we de nadruk leggen op de vele andere taken in software engineering naast codegeneratie en -completering. Ten tweede schetsen we enkele belangrijke knelpunten die de huidige benaderingen beperken. Tot slot geven we een beargumenteerde lijst van veelbelovende onderzoeksrichtingen om vooruitgang te boeken op deze knelpunten, in de hoop toekomstig onderzoek in dit snel volwassen wordende veld te inspireren.
Vierdimensionale computertomografie (4D CT) reconstructie is cruciaal voor het vastleggen van dynamische anatomische veranderingen, maar wordt beperkt door inherente tekortkomingen van conventionele fase-binning workflows. Huidige methoden discretiseren de temporele resolutie in vaste fasen met behulp van ademhalingsgating-apparaten, wat bewegingsoverlapping introduceert en de klinische praktische bruikbaarheid beperkt. In dit artikel stellen we X^2-Gaussian voor, een nieuw raamwerk dat continue-tijd 4D-CT reconstructie mogelijk maakt door dynamische radiërende Gaussian splatting te integreren met zelfgesuperviseerd ademhalingsbewegingsleren. Onze aanpak modelleert anatomische dynamiek via een spatiotemporeel encoder-decoder architectuur die tijdsafhankelijke Gaussian vervormingen voorspelt, waardoor fase-discretisatie wordt geëlimineerd. Om de afhankelijkheid van externe gating-apparaten te verwijderen, introduceren we een fysiologie-gestuurd periodiek consistentieverlies dat patiëntspecifieke ademhalingscycli direct vanuit projecties leert via differentieerbare optimalisatie. Uitgebreide experimenten tonen state-of-the-art prestaties aan, met een PSNR-winst van 9.93 dB ten opzichte van traditionele methoden en een verbetering van 2.25 dB ten opzichte van eerdere Gaussian splatting-technieken. Door continue bewegingsmodellering te verenigen met hardwarevrij periodeleren, bevordert X^2-Gaussian hoogwaardige 4D CT reconstructie voor dynamische klinische beeldvorming. Projectwebsite: https://x2-gaussian.github.io/.
Intentie, doorgaans duidelijk geformuleerd en gepland, fungeert als een cognitief raamwerk voor redeneren en probleemoplossing. Dit artikel introduceert het concept van Spreken met Intentie (SWI) in grote taalmodellen (LLMs), waarbij de expliciet gegenereerde intentie de onderliggende bedoeling van het model omvat en hoogwaardige planning biedt om de daaropvolgende analyse en communicatie te sturen. Door bewuste en doelgerichte gedachten in de menselijke geest na te bootsen, wordt verondersteld dat SWI de redeneervaardigheden en generatiekwaliteit van LLMs verbetert. Uitgebreide experimenten op wiskundige redeneerbenchmarks tonen consistent de superioriteit van Spreken met Intentie aan ten opzichte van Baseline (d.w.z., generatie zonder expliciete intentie). Bovendien presteert SWI beter dan antwoord-trigger promptmethoden zoals Chain-of-Thought en Plan-and-Solve en behoudt het competitieve prestaties met de sterke methode ARR (Analyzing, Retrieving, and Reasoning). Daarnaast worden de effectiviteit en generaliseerbaarheid van SWI bevestigd op redeneerintensieve vraag-antwoord (QA) en tekstsamenvattingsbenchmarks, waarbij SWI consistente verbeteringen brengt ten opzichte van Baseline-generatie. Bij tekstsamenvattingen vertonen SWI-gegenereerde samenvattingen grotere nauwkeurigheid, bondigheid en feitelijke correctheid, met minder hallucinaties. Bovendien bevestigen menselijke evaluaties de samenhang, effectiviteit en interpreteerbaarheid van de intentie geproduceerd door SWI. Deze proof-of-concept studie opent een nieuwe weg voor het verbeteren van de redeneervaardigheden van LLMs met cognitieve noties.