Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Benchmarks zijn belangrijke tools voor het bijhouden van de snelle vooruitgang in de mogelijkheden van grote taalmodellen (LLM's). Echter, benchmarks houden geen gelijke tred wat betreft moeilijkheidsgraad: LLM's behalen nu meer dan 90\% nauwkeurigheid op populaire benchmarks zoals MMLU, wat de geïnformeerde meting van state-of-the-art LLM-mogelijkheden beperkt. Als reactie introduceren we Humanity's Last Exam (HLE), een multimodaal benchmark aan de grens van menselijke kennis, ontworpen als de laatste gesloten academische benchmark in zijn soort met een breed onderwerpbereik. HLE bestaat uit 3.000 vragen over tientallen onderwerpen, waaronder wiskunde, geesteswetenschappen en de natuurwetenschappen. HLE wordt wereldwijd ontwikkeld door vakexperts en bestaat uit meerkeuze- en korte-antwoordvragen die geschikt zijn voor geautomatiseerde beoordeling. Elke vraag heeft een bekende oplossing die ondubbelzinnig en gemakkelijk verifieerbaar is, maar niet snel via internet kan worden opgezocht. State-of-the-art LLM's tonen lage nauwkeurigheid en kalibratie op HLE, wat wijst op een aanzienlijke kloof tussen de huidige LLM-mogelijkheden en de expertise van mensen op gesloten academische vragen. Om onderzoek en beleidsvorming te informeren met een duidelijk begrip van de modelmogelijkheden, stellen we HLE openbaar beschikbaar op https://lastexam.ai.
Dit artikel introduceert een benadering voor het trainen van o1-achtige RAG-modellen die relevante informatie stap voor stap ophalen en redeneren voordat het uiteindelijke antwoord wordt gegenereerd. Conventionele RAG-methoden voeren meestal een enkele ophaalstap uit vóór het generatieproces, wat hun effectiviteit beperkt bij het behandelen van complexe vragen als gevolg van onvolmaakte ophaalresultaten. In tegenstelling hiermee maakt onze voorgestelde methode, CoRAG (Chain-of-Retrieval Augmented Generation), het mogelijk voor het model om dynamisch de vraag te herformuleren op basis van de evoluerende toestand. Om CoRAG effectief te trainen, maken we gebruik van afwijzingssteekproeven om automatisch tussenliggende ophaalketens te genereren, waardoor bestaande RAG-datasets worden aangevuld die alleen het juiste eindantwoord verstrekken. Bij het testen stellen we verschillende decoderingsstrategieën voor om de testtijd van het model te schalen door de lengte en het aantal bemonsterde ophaalketens te regelen. Experimentele resultaten over meerdere benchmarks bevestigen de doeltreffendheid van CoRAG, met name bij meerstapsvraag-antwoordtaken, waar we meer dan 10 punten verbetering in de EM-score waarnemen in vergelijking met sterke baselines. Op de KILT-benchmark vestigt CoRAG een nieuwe state-of-the-art prestatie over een divers scala van kennisintensieve taken. Bovendien bieden we uitgebreide analyses om het schaalgedrag van CoRAG te begrijpen, waarbij we de basis leggen voor toekomstig onderzoek gericht op het ontwikkelen van feitelijke en gefundeerde basismodellen.
Kritieken zijn belangrijk voor het verbeteren van de prestaties van Grote Taalmodellen (GTM's), waardoor zowel zelfverbetering als constructieve feedback voor anderen mogelijk wordt door gebreken te identificeren en verbeteringen voor te stellen. Het evalueren van de kritiekcapaciteiten van GTM's vormt echter een aanzienlijke uitdaging vanwege de open aard van de taak. In dit werk introduceren we een nieuwe benchmark die is ontworpen om de kritiekcapaciteiten van GTM's te beoordelen. In tegenstelling tot bestaande benchmarks, die doorgaans functioneren op een open-loop manier, maakt onze benadering gebruik van een gesloten-lus methodologie die de kwaliteit van correcties beoordeelt die voortkomen uit kritieken. Bovendien omvat de benchmark functies zoals zelfkritiek, kruiskritiek en iteratieve kritiek, die cruciaal zijn voor het onderscheiden van de capaciteiten van geavanceerde redeneringsmodellen van meer klassieke modellen. We implementeren deze benchmark met behulp van acht uitdagende redeneertaken. We hebben verschillende interessante bevindingen. Ten eerste, ondanks het tonen van vergelijkbare prestaties in directe gedachtenganggeneratie, blijven klassieke GTM's aanzienlijk achter bij het op redenering gebaseerde model o1-mini in alle kritiekscenario's. Ten tweede, in zelfkritiek en iteratieve kritiekinstellingen kunnen klassieke GTM's zelfs onderpresteren ten opzichte van hun basiscapaciteiten. We hopen dat deze benchmark zal dienen als een waardevolle bron om toekomstige ontwikkelingen te begeleiden. De code en gegevens zijn beschikbaar op https://github.com/tangzhy/RealCritic.
Met de snelle iteratie van Multi-modaliteit Grote Taalmodellen (MLLM's) en de evoluerende eisen van het vakgebied, is het aantal benchmarks dat jaarlijks wordt geproduceerd gestegen tot in de honderden. De snelle groei heeft onvermijdelijk geleid tot aanzienlijke redundantie tussen benchmarks. Daarom is het cruciaal om een stap terug te nemen en kritisch de huidige staat van redundantie te beoordelen en gerichte principes voor het construeren van effectieve MLLM-benchmarks voor te stellen. In dit artikel richten we ons op redundantie vanuit drie belangrijke perspectieven: 1) Redundantie van benchmark capaciteitsdimensies, 2) Redundantie in het aantal testvragen, en 3) Cross-benchmark redundantie binnen specifieke domeinen. Door de uitgebreide analyse van de prestaties van honderden MLLM's over meer dan 20 benchmarks, streven we ernaar kwantitatief te meten in welke mate redundantie aanwezig is in bestaande MLLM-evaluaties, waardevolle inzichten te bieden om de toekomstige ontwikkeling van MLLM-benchmarks te sturen, en strategieën aan te bieden om redundantie effectief te verfijnen en aan te pakken.
Wat als kunstmatige intelligentie niet alleen problemen kon oplossen waarvoor het is getraind, maar ook kon leren zichzelf te onderwijzen om nieuwe problemen op te lossen (d.w.z. meta-leren)? In dit onderzoek tonen we aan dat een vooraf getrainde transformer, verfijnd met versterkend leren over meerdere afleveringen, de vaardigheid ontwikkelt om problemen op te lossen die het nog nooit eerder is tegengekomen - een opkomende vaardigheid genaamd In-Context Reinforcement Learning (ICRL). Deze krachtige meta-leraar excelleert niet alleen in het oplossen van ongeziene omgevingen binnen de distributie met opmerkelijke steekproefefficiëntie, maar vertoont ook sterke prestaties in omgevingen buiten de distributie. Bovendien tonen we aan dat het robuustheid vertoont ten opzichte van de kwaliteit van zijn trainingsgegevens, gedragingen naadloos samenvoegt uit de context en zich aanpast aan niet-stationaire omgevingen. Deze gedragingen tonen aan dat een met RL getrainde transformer iteratief kan verbeteren op zijn eigen oplossingen, waardoor het een uitstekende algemene probleemoplosser is.
Wij stellen Relightable Full-Body Gaussian Codec Avatars voor, een nieuwe benadering voor het modelleren van relightable full-body avatars met fijne details, waaronder het gezicht en de handen. De unieke uitdaging bij het relighten van full-body avatars ligt in de grote vervormingen veroorzaakt door lichaamsarticulatie en de resulterende impact op het uiterlijk door lichttransport. Veranderingen in lichaamshouding kunnen de oriëntatie van lichaamsoppervlakken ten opzichte van lichten drastisch veranderen, wat zowel lokale uiterlijke veranderingen veroorzaakt door veranderingen in lokale lichttransportfuncties, als niet-lokale veranderingen door occlusie tussen lichaamsdelen. Om hiermee om te gaan, ontleden we het lichttransport in lokale en niet-lokale effecten. Lokale uiterlijke veranderingen worden gemodelleerd met behulp van leerbaar zonale harmonischen voor diffuse stralingsreflectie. In tegenstelling tot sferische harmonischen zijn zonale harmonischen zeer efficiënt om te roteren bij articulatie. Dit stelt ons in staat om diffuse stralingsreflectie te leren in een lokaal coördinatenstelsel, waardoor we de lokale stralingsreflectie kunnen scheiden van de articulatie van het lichaam. Om niet-lokale uiterlijke veranderingen te verwerken, introduceren we een schaduwnetwerk dat schaduwen voorspelt op basis van vooraf berekende inkomende stralingsdichtheid op een basismesh. Dit vergemakkelijkt het leren van niet-lokale schaduwen tussen de lichaamsdelen. Ten slotte gebruiken we een uitgestelde shadingbenadering om specular stralingsreflectie te modelleren en reflecties en hooglichten zoals oogreflecties beter vast te leggen. We tonen aan dat onze benadering succesvol zowel het lokale als niet-lokale lichttransport modelleert dat nodig is voor relightable full-body avatars, met een superieure generalisatiecapaciteit onder nieuwe verlichtingsomstandigheden en ongeziene poses.
Gezondheidszorgsystemen genereren voortdurend enorme hoeveelheden elektronische patiëntendossiers (EHR's), die doorgaans worden opgeslagen in de standaard voor Snelle Gezondheidsinteroperabiliteit Resources (FHIR). Ondanks de overvloed aan informatie in deze dossiers, maken hun complexiteit en omvang het moeilijk voor gebruikers om cruciale gezondheidsinzichten op te halen en te interpreteren. Recente ontwikkelingen in Grote Taalmodellen (LLM's) bieden een oplossing door semantische vraagbeantwoording (QA) over medische gegevens mogelijk te maken, waardoor gebruikers effectiever kunnen omgaan met hun gezondheidsdossiers. Het waarborgen van privacy en naleving vereist echter implementaties van LLM's aan de rand en privé. Dit artikel stelt een nieuwe benadering voor van semantische QA over EHR's door eerst de meest relevante FHIR-bronnen voor een gebruikersquery te identificeren (Taak1) en vervolgens de query te beantwoorden op basis van deze bronnen (Taak2). We onderzoeken de prestaties van privé gehoste, fijnafgestemde LLM's en evalueren ze tegen benchmarkmodellen zoals GPT-4 en GPT-4o. Onze resultaten tonen aan dat fijnafgestemde LLM's, hoewel 250x kleiner in omvang, GPT-4-familiemodellen overtreffen met 0,55% in F1-score op Taak1 en 42% op de Meteor-taak in Taak2. Daarnaast onderzoeken we geavanceerde aspecten van LLM-gebruik, waaronder sequentieel fijnafstemmen, modelzelfevaluatie (narcistische evaluatie) en de impact van trainingsgegevensomvang op prestaties. De modellen en datasets zijn hier beschikbaar: https://huggingface.co/genloop
Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben fijngemalen grounding erkend als een essentiële factor voor visueel begrip en dialoog. Echter, de voordelen van dergelijke representatie in LMM's zijn beperkt tot het natuurlijke beelddomein, en deze modellen presteren slecht voor remote sensing (RS). Het afwijkende bovenaanzicht, schaalvariatie en aanwezigheid van kleine objecten in hoogwaardige RS-beelden vormen een unieke uitdaging voor regionaal begrip. Bovendien wordt de ontwikkeling van de grounding-conversatiecapaciteit van LMM's binnen RS belemmerd door het gebrek aan gedetailleerde, op RS-domein specifieke, geaarde gegevens. Om deze beperkingen aan te pakken, stellen we GeoPixel voor - de eerste end-to-end hoge resolutie RS-LMM die pixelniveau grounding ondersteunt. Deze capaciteit maakt fijngemeten visuele perceptie mogelijk door het genereren van geïnterlinieerde maskers in gesprekken. GeoPixel ondersteunt tot 4K HD-resolutie in elk aspectratio, ideaal voor hoogwaardige RS-beeldanalyse. Om de grounded conversatiegeneratie (GCG) in RS-beelden te ondersteunen, stellen we een visueel geaarde dataset GeoPixelD samen via een semi-geautomatiseerd proces dat gebruikmaakt van set-of-marks prompting en ruimtelijke prioriteiten die zijn afgestemd op RS-gegevens om het datageneratieproces methodisch te controleren. GeoPixel toont superieure prestaties in pixelniveau begrip, waarbij bestaande LMM's worden overtroffen in zowel enkelvoudige als meervoudige segmentatietaken. Onze methodologische ablatiestudies bevestigen de effectiviteit van elk onderdeel in de algehele architectuur. Onze code en gegevens zullen openbaar worden vrijgegeven.
Visie foundation modellen, met name de ViT-familie, hebben de beeldbegrip gerevolutioneerd door rijke semantische kenmerken te bieden. Echter, ondanks hun succes in 2D begrip, zijn hun vermogens om 3D ruimtelijke relaties te begrijpen nog steeds onduidelijk. In dit werk evalueren en verbeteren we het 3D bewustzijn van op ViT gebaseerde modellen. We beginnen met systematisch hun vermogen te beoordelen om 3D equivariante kenmerken te leren, waarbij we specifiek de consistentie van semantische insluitingen over verschillende gezichtspunten onderzoeken. Onze bevindingen geven aan dat verbeterde 3D equivariantie leidt tot betere prestaties op verschillende downstream taken, waaronder houdingschatting, tracking en semantische overdracht. Voortbouwend op deze inzichten stellen we een eenvoudige maar effectieve fine-tuning strategie voor op basis van 3D overeenkomsten, die aanzienlijk het begrip van 3D overeenkomsten van bestaande visiemodellen verbetert. Opmerkelijk is dat zelfs fine-tuning op een enkel object voor slechts één iteratie resulteert in aanzienlijke prestatieverbeteringen. Alle code en bronnen zullen openbaar beschikbaar worden gesteld ter ondersteuning van verdere vooruitgang in 3D-bewuste visiemodellen. Onze code is beschikbaar op https://github.com/qq456cvb/3DCorrEnhance.
Virtual try-on (VTON) technologie heeft aandacht gekregen vanwege het potentieel om online winkelen te transformeren door realistische kledingvisualisatie van afbeeldingen en video's mogelijk te maken. Echter, de meeste bestaande methoden hebben moeite om hoogwaardige resultaten te behalen bij zowel afbeelding- als videotry-on taken, vooral in lange videoscenario's. In dit werk introduceren we CatV2TON, een eenvoudige en effectieve op visie gebaseerde virtuele try-on (V2TON) methode die zowel afbeelding- als videotry-on taken ondersteunt met een enkel diffusie-transformermodel. Door kleding- en persoonsinvoer temporeel te concatenaten en te trainen op een mix van afbeeldings- en videodatasets, bereikt CatV2TON robuuste try-on prestaties in zowel statische als dynamische omgevingen. Voor efficiënte generatie van lange video's stellen we een overlappende clip-gebaseerde inferentiestrategie voor die sequentiële framebegeleiding gebruikt en Adaptieve Clip Normalisatie (AdaCN) om temporele consistentie te behouden met verminderde resource-eisen. We presenteren ook ViViD-S, een verfijnde videotry-on dataset, bereikt door het filteren van achterwaarts gerichte frames en het toepassen van 3D-masker smoothing voor verbeterde temporele consistentie. Uitgebreide experimenten tonen aan dat CatV2TON bestaande methoden overtreft in zowel afbeelding- als videotry-on taken, en biedt een veelzijdige en betrouwbare oplossing voor realistische virtuele try-ons in diverse scenario's.
Bij het proces van beeldverwerving worden vaak verschillende vormen van degradatie geïntroduceerd, zoals ruis, waas en regen. Deze degradaties ontstaan doorgaans door de inherente beperkingen van camera's of ongunstige omgevingsomstandigheden. Om schone beelden te herstellen vanuit verslechterde versies, zijn tal van gespecialiseerde herstelmethoden ontwikkeld, elk gericht op een specifiek type degradatie. Onlangs hebben alles-in-één algoritmes aanzienlijke aandacht gekregen door verschillende soorten degradaties binnen één model aan te pakken zonder voorafgaande informatie over het type degradatie van de invoer te vereisen. Echter, deze methoden werken uitsluitend in het ruimtelijke domein en gaan niet in op de verschillende frequentievariaties die inherent zijn aan verschillende degradatietypes. Om deze lacune aan te pakken, stellen wij een adaptief alles-in-één beeldherstelnetwerk voor op basis van frequentie-analyse en modulatie. Onze aanpak is gemotiveerd door de observatie dat verschillende degradatietypes de beeldinhoud beïnvloeden op verschillende frequentie-subbanden, wat verschillende behandelingen vereist voor elk hersteltaken. Specifiek halen we eerst lage- en hoge-frequentie informatie uit de invoerkenmerken, geleid door de adaptief ontkoppelde spectra van het verslechterde beeld. De geëxtraheerde kenmerken worden vervolgens gemoduleerd door een bidirectionele operator om interacties tussen verschillende frequentiecomponenten te vergemakkelijken. Tenslotte worden de gemoduleerde kenmerken samengevoegd met de oorspronkelijke invoer voor een geleid herstelproces. Met deze aanpak bereikt het model adaptieve reconstructie door de informatieve frequentie-subbanden te benadrukken volgens verschillende invoer degradaties. Uitgebreide experimenten tonen aan dat de voorgestelde methode state-of-the-art prestaties behaalt op verschillende beeldhersteltaken, waaronder denoising, dehazing, deraining, motion deblurring en low-light beeldverbetering. Onze code is beschikbaar op https://github.com/c-yn/AdaIR.
Hoewel op machine learning gebaseerde methoden voor beeldherstel aanzienlijke vooruitgang hebben geboekt, hebben ze nog steeds moeite met beperkte generalisatie naar echte scenario's vanwege de aanzienlijke domeinverschillen die worden veroorzaakt door training op synthetische gegevens. Bestaande methoden pakken dit probleem aan door data synthese pipelines te verbeteren, de degradatiekernels te schatten, diep intern leren toe te passen, en domeinaanpassing en regulering uit te voeren. Vorige domeinaanpassingsmethoden hebben geprobeerd het domeinverschil te overbruggen door domein-invariante kennis te leren in zowel kenmerk- als pixelruimte. Deze technieken hebben echter vaak moeite om uit te breiden naar laag-niveau visietaken binnen een stabiel en compact kader. In dit artikel laten we zien dat het mogelijk is om domeinaanpassing uit te voeren via de ruimte van ruis met behulp van diffusiemodellen. In het bijzonder, door gebruik te maken van de unieke eigenschap van hoe hulpconditionele invoer de meerstaps denoising proces beïnvloedt, leiden we een betekenisvolle diffusieverlies af die het herstelmodel begeleidt bij het geleidelijk afstemmen van zowel herstelde synthetische als echte uitvoer op een doeldistributie. We verwijzen naar deze methode als denoising als aanpassing. Om shortcuts tijdens gezamenlijke training te voorkomen, presenteren we cruciale strategieën zoals kanaal-shuffling laag en residu-swap contrastief leren in het diffusiemodel. Ze vervagen impliciet de grenzen tussen geconditioneerde synthetische en echte gegevens en voorkomen dat het model vertrouwt op gemakkelijk herkenbare kenmerken. Experimentele resultaten op drie klassieke beeldhersteltaken, namelijk denoising, deblurring en deraining, tonen de effectiviteit van de voorgestelde methode aan.