Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multimodale foundation models, zoals GPT-4o, hebben recentelijk opmerkelijke vooruitgang geboekt, maar het is niet duidelijk waar deze modellen precies staan op het gebied van visueel begrip. In dit artikel evalueren we de prestaties van populaire multimodale foundation models (GPT-4o, o4-mini, Gemini 1.5 Pro en Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) op standaard computervisietaken (semantische segmentatie, objectdetectie, beeldclassificatie, diepte- en oppervlaktenormaalvoorspelling) met behulp van gevestigde datasets (bijv. COCO, ImageNet en zijn varianten, enz.). De belangrijkste uitdagingen bij het uitvoeren hiervan zijn: 1) de meeste modellen zijn getraind om tekst uit te voeren en kunnen van nature geen veelzijdige domeinen uitdrukken, zoals segmenten of 3D-geometrie, en 2) veel toonaangevende modellen zijn propriëtair en alleen toegankelijk op API-niveau, d.w.z. er is geen toegang tot de gewichten om ze aan te passen. We pakken deze uitdagingen aan door standaard visietaken te vertalen naar equivalente tekst-promptbare en API-compatibele taken via prompt-chaining om een gestandaardiseerd benchmarkframework te creëren. We observeren dat 1) de modellen niet in de buurt komen van de state-of-the-art specialistische modellen bij welke taak dan ook. Echter, 2) ze zijn respectabele generalisten; dit is opmerkelijk omdat ze vermoedelijk voornamelijk getraind zijn op beeld-tekst-gebaseerde taken. 3) Ze presteren aanzienlijk beter bij semantische taken dan bij geometrische. 4) Hoewel de prompt-chainingtechnieken de prestaties beïnvloeden, tonen betere modellen minder gevoeligheid voor promptvariaties. 5) GPT-4o presteert het beste onder de niet-redenerende modellen en behaalt de top positie in 4 van de 6 taken, 6) redenerende modellen, zoals o3, laten verbeteringen zien bij geometrische taken, en 7) een voorlopige analyse van modellen met native beeldgeneratie, zoals de nieuwste GPT-4o, toont aan dat ze eigenaardigheden vertonen zoals hallucinaties en ruimtelijke misaligneringen.
De hoge rekenkosten van diffusiemodellen tijdens inferentie belemmeren hun gebruik als snelle fysica-emulatoren. In de context van beeld- en videogeneratie is dit rekenkundige nadeel aangepakt door te genereren in de latente ruimte van een auto-encoder in plaats van in de pixelruimte. In dit werk onderzoeken we of een vergelijkbare strategie effectief kan worden toegepast op de emulatie van dynamische systemen en tegen welke kosten. We ontdekken dat de nauwkeurigheid van emulatie in de latente ruimte verrassend robuust is voor een breed scala aan compressieverhoudingen (tot 1000x). We laten ook zien dat op diffusie gebaseerde emulatoren consistent nauwkeuriger zijn dan niet-generatieve tegenhangers en onzekerheid in hun voorspellingen compenseren met een grotere diversiteit. Tot slot bespreken we praktische ontwerpkeuzes, variërend van architecturen tot optimalisatoren, die we cruciaal vonden voor het trainen van emulatoren in de latente ruimte.
De snelle vooruitgang van Large Language Models (LLMs) heeft de behoefte aan evaluatieframeworks die verder gaan dan Engelstalige benchmarks en tegemoetkomen aan de eisen van taalkundig diverse regio's zoals India, versterkt. Wij presenteren EKA-EVAL, een uniform en productieklaar evaluatieframework dat meer dan 35 benchmarks integreert, waaronder 10 Indic-specifieke datasets, die categorieën zoals redeneren, wiskunde, toolgebruik, langetermijncontextbegrip en leesbegrip omvatten. In vergelijking met bestaande evaluatietools voor Indiase talen biedt EKA-EVAL een bredere dekking van benchmarks, met ingebouwde ondersteuning voor gedistribueerde inferentie, kwantisatie en multi-GPU-gebruik. Onze systematische vergelijking positioneert EKA-EVAL als de eerste end-to-end, uitbreidbare evaluatiesuite die is afgestemd op zowel globale als Indic LLMs, waardoor de drempel voor meertalige benchmarking aanzienlijk wordt verlaagd. Het framework is open-source en publiekelijk beschikbaar op https://github.com/lingo-iitgn/eka-eval en maakt deel uit van het lopende EKA-initiatief (https://eka.soket.ai), dat tot doel heeft uit te breiden naar meer dan 100 benchmarks en een robuust, meertalig evaluatie-ecosysteem voor LLMs te creëren.
Het evalueren van creatief schrijven gegenereerd door grote taalmodellen (LLMs) blijft een uitdaging omdat open-einde verhalen geen vaste referentiepunten hebben. Zonder effectieve geautomatiseerde evaluatiemethoden worden kant-en-klare (OTS) taalmodellen ingezet als zero-shot beoordelaars, maar hun betrouwbaarheid in deze context is onduidelijk. Om robuuste evaluatie van creatief schrijven te bevorderen, introduceren we LitBench, de eerste gestandaardiseerde benchmark en bijbehorende dataset voor creatief schrijven verificatie, bestaande uit een afgezonderde testset van 2.480 ongebiaseerde, door mensen gelabelde verhaalvergelijkingen afkomstig van Reddit en een trainingscorpus van 43.827 paren met menselijke voorkeurslabels. Met LitBench (i) benchmarken we zero-shot LLM-beoordelaars, (ii) trainen we Bradley Terry- en generatieve beloningsmodellen, en (iii) voeren we een online menselijke studie uit om de rangschikkingen van beloningsmodellen te valideren op nieuw door LLM-gegenereerde verhalen. Onze benchmark identificeert Claude-3.7-Sonnet als de sterkste kant-en-klare beoordelaar, met een overeenstemming van 73% met menselijke voorkeuren; onder de getrainde beloningsmodellen behalen zowel Bradley-Terry- als generatieve beloningsmodellen een nauwkeurigheid van 78%, wat beter is dan alle kant-en-klare beoordelaars. Een online menselijke studie bevestigt verder dat onze getrainde beloningsmodellen consistent overeenkomen met menselijke voorkeuren in nieuwe door LLM-gegenereerde verhalen. We maken LitBench en de beloningsmodellen beschikbaar op https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, en bieden hiermee een gevalideerde bron voor betrouwbare, geautomatiseerde evaluatie en optimalisatie van creatief schrijfsystemen.