Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vakgebied van medische diagnostiek heeft een aanzienlijke transformatie ondergaan met de opkomst van grote taalmmodellen (LLM's), maar de uitdagingen rondom interpreteerbaarheid binnen deze modellen blijven grotendeels onopgelost. Deze studie introduceert Chain-of-Diagnosis (CoD) om de interpreteerbaarheid van LLM-gebaseerde medische diagnostiek te verbeteren. CoD transformeert het diagnostische proces in een diagnostische keten die het denkproces van een arts weerspiegelt, waardoor een transparant redeneerpad ontstaat. Daarnaast geeft CoD de ziektevertrouwensverdeling weer om transparantie in de besluitvorming te waarborgen. Deze interpreteerbaarheid maakt modeldiagnostiek beheersbaar en helpt bij het identificeren van kritieke symptomen voor verder onderzoek door middel van entropiereductie van vertrouwenswaarden. Met CoD hebben we DiagnosisGPT ontwikkeld, dat in staat is om 9604 ziekten te diagnosticeren. Experimentele resultaten tonen aan dat DiagnosisGPT andere LLM's overtreft op diagnostische benchmarks. Bovendien biedt DiagnosisGPT interpreteerbaarheid terwijl het de beheersbaarheid van diagnostische nauwkeurigheid waarborgt.
Dit artikel introduceert geen nieuwe methode. In plaats daarvan biedt het een eerlijkere en uitgebreidere vergelijking van KAN- en MLP-modellen voor verschillende taken, waaronder machine learning, computer vision, audioverwerking, natuurlijke taalverwerking en symbolische formule-representatie. Specifiek controleren we het aantal parameters en FLOPs om de prestaties van KAN en MLP te vergelijken. Onze belangrijkste observatie is dat, met uitzondering van taken voor symbolische formule-representatie, MLP over het algemeen beter presteert dan KAN. We voeren ook ablatiestudies uit op KAN en ontdekken dat het voordeel in symbolische formule-representatie voornamelijk voortkomt uit de B-spline-activatiefunctie. Wanneer B-spline wordt toegepast op MLP, verbetert de prestaties in symbolische formule-representatie aanzienlijk, waardoor deze die van KAN overtreft of evenaart. Echter, in andere taken waar MLP al beter presteert dan KAN, verbetert B-spline de prestaties van MLP niet substantieel. Bovendien constateren we dat het vergeetprobleem van KAN ernstiger is dan dat van MLP in een standaard class-incremental continual learning-setting, wat afwijkt van de bevindingen die in het KAN-artikel worden gerapporteerd. We hopen dat deze resultaten inzichten bieden voor toekomstig onderzoek naar KAN en andere alternatieven voor MLP. Projectlink: https://github.com/yu-rp/KANbeFair
Recente vooruitgang in videogeneratie heeft voornamelijk gebruikgemaakt van diffusiemodellen voor kortdurende inhoud. Deze benaderingen schieten echter vaak tekort in het modelleren van complexe verhalen en het behouden van karakterconsistentie over langere perioden, wat essentieel is voor langdurige videoproductie zoals films. Wij stellen MovieDreamer voor, een nieuw hiërarchisch raamwerk dat de sterke punten van autoregressieve modellen combineert met diffusiegebaseerde rendering om langdurige videogeneratie met ingewikkelde plotontwikkelingen en hoge visuele kwaliteit te pionieren. Onze aanpak maakt gebruik van autoregressieve modellen voor globale narratieve samenhang, waarbij sequenties van visuele tokens worden voorspeld die vervolgens worden omgezet in hoogwaardige videobeelden via diffusierendering. Deze methode is vergelijkbaar met traditionele filmproductieprocessen, waarbij complexe verhalen worden opgedeeld in beheersbare scènes. Bovendien gebruiken we een multimodale script die scènebeschrijvingen verrijkt met gedetailleerde karakterinformatie en visuele stijl, waardoor continuïteit en karakteridentiteit tussen scènes worden verbeterd. We presenteren uitgebreide experimenten in verschillende filmgenres, die aantonen dat onze aanpak niet alleen superieure visuele en narratieve kwaliteit bereikt, maar ook de duur van gegenereerde inhoud aanzienlijk verlengt vergeleken met huidige mogelijkheden. Homepage: https://aim-uofa.github.io/MovieDreamer/.
Virtual Try-On (VTON) is uitgegroeid tot een transformerende technologie die gebruikers in staat stelt om met mode te experimenteren zonder fysiek kleding te hoeven passen. Bestaande methoden hebben echter vaak moeite met het genereren van hoogwaardige en detailconsistente resultaten. Hoewel diffusiemodellen, zoals de Stable Diffusion-serie, hun vermogen hebben getoond om hoogwaardige en fotorealistische afbeeldingen te creëren, ondervinden ze aanzienlijke uitdagingen in conditionele generatiescenario's zoals VTON. Deze modellen hebben specifiek moeite om een balans te behouden tussen controle en consistentie bij het genereren van afbeeldingen voor virtuele kledingpassessies. OutfitAnyone overbrugt deze beperkingen door gebruik te maken van een tweestromig conditioneel diffusiemodel, waardoor het in staat is om kledingvervorming op een levensechte manier te hanteren. Het onderscheidt zich door schaalbaarheidsmodulerende factoren zoals houding, lichaamsvorm en brede toepasbaarheid, variërend van anime tot afbeeldingen in natuurlijke omgevingen. De prestaties van OutfitAnyone in diverse scenario's onderstrepen de bruikbaarheid en gereedheid voor implementatie in de praktijk. Voor meer details en geanimeerde resultaten, zie https://humanaigc.github.io/outfit-anyone/.
Text-to-video (T2V)-generatiemodellen hebben aanzienlijke vooruitgang geboekt, maar hun vermogen om verschillende objecten, attributen, acties en bewegingen in een video samen te stellen, blijft nog onontgonnen. Eerdere benchmarks voor text-to-video negeren ook dit belangrijke vermogen voor evaluatie. In dit werk voeren we de eerste systematische studie uit naar compositionele text-to-video-generatie. We introduceren T2V-CompBench, de eerste benchmark die specifiek is ontworpen voor compositionele text-to-video-generatie. T2V-CompBench omvat diverse aspecten van compositionaliteit, waaronder consistente attribuutbinding, dynamische attribuutbinding, ruimtelijke relaties, bewegingbinding, actiebinding, objectinteracties en generatieve numeriek. We ontwerpen verder zorgvuldig evaluatiemetrics op basis van MLLM-gebaseerde metrics, detectiegebaseerde metrics en trackinggebaseerde metrics, die de kwaliteit van compositionele text-to-video-generatie beter kunnen weerspiegelen voor zeven voorgestelde categorieën met 700 tekstprompts. De effectiviteit van de voorgestelde metrics wordt geverifieerd door correlatie met menselijke evaluaties. We benchmarken ook verschillende text-to-video-generatieve modellen en voeren een diepgaande analyse uit over verschillende modellen en verschillende compositionele categorieën. We constateren dat compositionele text-to-video-generatie zeer uitdagend is voor huidige modellen, en we hopen dat onze poging toekomstig onderzoek in deze richting zal inspireren.
Bestaande 3D datasets en modellen voor mens-object interactie (HOI) richten zich eenvoudigweg op het uitlijnen van globale beschrijvingen met de lange HOI-sequentie, terwijl ze een gedetailleerd begrip van tussenliggende staten en de overgangen tussen staten missen. In dit artikel stellen we dat fijnmazige semantische uitlijning, waarbij beschrijvingen op staatsniveau worden gebruikt, een veelbelovend paradigma biedt voor het leren van semantisch rijke HOI-representaties. Om dit te bereiken, introduceren we Semantic-HOI, een nieuwe dataset die meer dan 20K gepaarde HOI-staten omvat met gedetailleerde beschrijvingen voor elke HOI-staat en de lichaamsbewegingen die tussen twee opeenvolgende staten plaatsvinden. Gebruikmakend van de voorgestelde dataset, ontwerpen we drie staatsniveau HOI-taken om fijnmazige semantische uitlijning binnen de HOI-sequentie te realiseren. Daarnaast stellen we een uniform model genaamd F-HOI voor, ontworpen om multimodale instructies te benutten en het Multimodale Grote Taalmodel in staat te stellen diverse HOI-taken efficiënt te verwerken. F-HOI biedt meerdere voordelen: (1) Het hanteert een uniforme taakformulering die het gebruik van veelzijdige multimodale invoer ondersteunt. (2) Het handhaaft consistentie in HOI over 2D, 3D en linguïstische ruimtes. (3) Het maakt gebruik van fijnmazige tekstuele supervisie voor directe optimalisatie, waardoor complexe modellering van HOI-staten wordt vermeden. Uitgebreide experimenten tonen aan dat F-HOI effectief HOI-staten uitlijnt met gedetailleerde semantische beschrijvingen en vaardig omgaat met taken op het gebied van begrip, redenering, generatie en reconstructie.
Met de vooruitgang in de beschikbaarheid van gegevens en rekenbronnen hebben Multimodale Grote Taalmodellen (MLLMs) hun capaciteiten getoond op diverse gebieden. De kwadratische complexiteit van de visuele encoder in MLLMs beperkt echter de resolutie van invoerafbeeldingen. De meeste huidige benaderingen verlichten dit probleem door hoogresolutieafbeeldingen te verknippen in kleinere subafbeeldingen, die vervolgens onafhankelijk door de visuele encoder worden verwerkt. Hoewel deze subafbeeldingen voldoende lokale details vastleggen, ontbreekt het hen aan globale context en kunnen ze niet met elkaar interacteren. Om deze beperking aan te pakken, stellen we een nieuw MLLM voor, INF-LLaVA, ontworpen voor effectieve waarneming van hoogresolutieafbeeldingen. INF-LLaVA bevat twee innovatieve componenten. Ten eerste introduceren we een Dual-perspectief Verknippingsmodule (DCM), die ervoor zorgt dat elke subafbeelding continue details bevat vanuit een lokaal perspectief en uitgebreide informatie vanuit een globaal perspectief. Ten tweede introduceren we een Dual-perspectief Versterkingsmodule (DEM) om de wederzijdse versterking van globale en lokale kenmerken mogelijk te maken, waardoor INF-LLaVA hoogresolutieafbeeldingen effectief kan verwerken door tegelijkertijd gedetailleerde lokale informatie en uitgebreide globale context vast te leggen. Uitgebreide ablatiestudies valideren de effectiviteit van deze componenten, en experimenten op een diverse set van benchmarks tonen aan dat INF-LLaVA bestaande MLLMs overtreft. Code en vooraf getraind model zijn beschikbaar op https://github.com/WeihuangLin/INF-LLaVA.
Ondanks de beschikbaarheid van internationale prijzengeldcompetities, geschaalde voertuigen en simulatieomgevingen, is onderzoek naar autonoom racen en de besturing van sportwagens die opereren aan de grens van de beheersbaarheid beperkt gebleven door de hoge kosten van voertuigverwerving en -beheer, evenals de beperkte fysica-nauwkeurigheid van open-source simulatoren. In dit artikel stellen we een racesimulatieplatform voor, gebaseerd op de simulator Assetto Corsa, om autonome rij-algoritmen, waaronder reinforcement learning (RL) en klassieke Model Predictive Control (MPC), te testen, valideren en benchmarken in realistische en uitdagende scenario's. Onze bijdragen omvatten de ontwikkeling van dit simulatieplatform, verschillende state-of-the-art algoritmen die zijn afgestemd op de raceomgeving, en een uitgebreide dataset die is verzameld van menselijke bestuurders. Daarnaast evalueren we algoritmen in de offline RL-instelling. Alle benodigde code (inclusief omgeving en benchmarks), werkende voorbeelden, datasets en video's zijn openbaar vrijgegeven en zijn te vinden op: https://assetto-corsa-gym.github.io.
Video-gebaseerde voorafgaande training biedt enorm potentieel voor het leren van sterke visuele representaties op een ongekende schaal. Onlangs hebben gemaskeerde videomodelleermethoden veelbelovende schaalbaarheid getoond, maar schieten ze tekort in het vastleggen van hogere semantiek vanwege het reconstrueren van vooraf gedefinieerde laagniveau-doelen zoals pixels. Om dit aan te pakken, presenteren we Sinkhorn-guided Masked Video Modelling (SIGMA), een nieuwe videovoorafgaande trainingsmethode die gezamenlijk het videomodel leert naast een doelkenmerkruimte met behulp van een projectienetwerk. Deze eenvoudige aanpassing betekent echter dat het reguliere L2-reconstructieverlies tot triviale oplossingen zal leiden, aangezien beide netwerken gezamenlijk worden geoptimaliseerd. Als oplossing verdelen we kenmerken van ruimte-tijdbuizen gelijkmatig over een beperkt aantal leerbare clusters. Door dit als een optimaal transportprobleem te formuleren, dwingen we een hoge entropie af in de gegenereerde kenmerken over de batch, waardoor semantische en temporele betekenis in de kenmerkruimte wordt geïnfuseerd. De resulterende clustertoewijzingen worden gebruikt als doelen voor een symmetrische voorspellingstaak waarbij het videomodel de clustertoewijzing van het projectienetwerk voorspelt en vice versa. Experimentele resultaten op tien datasets over drie benchmarks valideren de effectiviteit van SIGMA in het leren van performantere, temporeel bewuste en robuuste videorepresentaties, die verbeteringen bieden ten opzichte van state-of-the-art methoden. Onze projectwebsite met code is beschikbaar op: https://quva-lab.github.io/SIGMA.
Het inzetten van taalmodellen (LMs) vereist dat de uitvoer zowel van hoge kwaliteit is als voldoet aan veiligheidsrichtlijnen. Hoewel Inference-Time Guardrails (ITG) oplossingen bieden die de uitvoerdistributies van modellen richting naleving verschuiven, constateren we dat huidige methoden moeite hebben om een balans te vinden tussen veiligheid en behulpzaamheid. ITG-methoden die niet-nalevende queries veilig aanpakken, vertonen een lagere behulpzaamheid, terwijl methoden die behulpzaamheid prioriteren inboeten op veiligheid. We verwijzen naar deze afweging als de guardrail tax, analoog aan de alignment tax. Om dit aan te pakken, stellen we PrimeGuard voor, een nieuwe ITG-methode die gestructureerde controleflow gebruikt. PrimeGuard leidt verzoeken naar verschillende zelf-instantiaties van het LM met variërende instructies, waarbij het gebruik maakt van de inherente instructievolgende capaciteiten en in-context leren. Onze afstemningsvrije aanpak compileert dynamisch richtlijnen van systeemontwerpers voor elke query. We construeren en publiceren safe-eval, een diverse red-team veiligheidsbenchmark. Uitgebreide evaluaties tonen aan dat PrimeGuard, zonder afstemming, de guardrail tax overwint door (1) de weerstand tegen iteratieve jailbreak-aanvallen aanzienlijk te verhogen en (2) state-of-the-art resultaten te behalen in veiligheidsbeveiliging, terwijl (3) de behulpzaamheidsscores van afgestemde modellen worden geëvenaard. Uitgebreide evaluaties tonen aan dat PrimeGuard, zonder afstemming, alle concurrerende baselines overtreft en de guardrail tax overwint door het aandeel veilige reacties te verbeteren van 61% naar 97% en de gemiddelde behulpzaamheidsscores te verhogen van 4.17 naar 4.29 op de grootste modellen, terwijl het aanvalssuccespercentage wordt teruggebracht van 100% naar 8%. De implementatie van PrimeGuard is beschikbaar op https://github.com/dynamofl/PrimeGuard en de safe-eval dataset is beschikbaar op https://huggingface.co/datasets/dynamoai/safe_eval.
De toepassing van vision-language modellen (VLMs) heeft indrukwekkende successen behaald in diverse robotica-taken, maar er zijn weinig verkenningen gedaan naar foundation modellen die worden gebruikt in de navigatie van viervoetige robots. Wij introduceren het Cross Anything System (CAS), een innovatief systeem dat bestaat uit een hoog-niveau redeneermodule en een laag-niveau controlebeleid, waardoor de robot in staat is om complexe 3D-terreinen te doorkruisen en de doelpositie te bereiken. Voor hoog-niveau redenering en bewegingsplanning stellen we een nieuw algoritmisch systeem voor dat gebruikmaakt van een VLM, met een ontwerp van taakdecompositie en een gesloten-lus uitvoeringsmechanisme voor subtaken. Voor laag-niveau voortbewegingscontrole maken we gebruik van de Probability Annealing Selection (PAS)-methode om een controlebeleid te trainen door middel van reinforcement learning. Talrijke experimenten tonen aan dat ons hele systeem nauwkeurig en robuust kan navigeren over complexe 3D-terreinen, en zijn sterke generalisatievermogen zorgt voor toepassingen in diverse binnen- en buitenscenario's en terreinen. Projectpagina: https://cross-anything.github.io/