Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het mogelijk maken voor LLMs om hun outputs te verbeteren door meer rekentijd tijdens het testen te gebruiken, is een cruciale stap naar het bouwen van algemeen zelfverbeterende agents die kunnen opereren in open-einde natuurlijke taal. In dit artikel bestuderen we de schaalbaarheid van rekentijd tijdens de inferentie in LLMs, met de focus op het beantwoorden van de vraag: als een LLM een vast maar niet-triviaal hoeveelheid rekentijd tijdens de inferentie mag gebruiken, hoeveel kan het dan zijn prestaties op een uitdagende prompt verbeteren? Het beantwoorden van deze vraag heeft implicaties niet alleen op de haalbare prestaties van LLMs, maar ook op de toekomst van LLM-pre-training en hoe men rekentijd tijdens de inferentie en pre-training moet afwegen. Ondanks het belang ervan, is er weinig onderzoek gedaan om de schaalbaarheidsgedragingen van verschillende inferentiemethoden tijdens het testen te begrijpen. Bovendien biedt het huidige werk grotendeels negatieve resultaten voor een aantal van deze strategieën. In dit werk analyseren we twee primaire mechanismen om rekentijd tijdens het testen te schalen: (1) zoeken tegen dichte, procesgebaseerde verifiërende beloningsmodellen; en (2) het adaptief updaten van de verdeling van het model over een respons, gegeven de prompt tijdens het testen. We vinden dat in beide gevallen de effectiviteit van verschillende benaderingen om rekentijd tijdens het testen te schalen kritisch varieert afhankelijk van de moeilijkheidsgraad van de prompt. Deze observatie motiveert het toepassen van een "rekentijd-optimale" schaalstrategie, die erop gericht is om rekentijd tijdens het testen het meest effectief adaptief per prompt toe te wijzen. Door deze rekentijd-optimale strategie te gebruiken, kunnen we de efficiëntie van het schalen van rekentijd tijdens het testen met meer dan 4x verbeteren in vergelijking met een best-of-N baseline. Daarnaast vinden we in een FLOPs-gelijke evaluatie dat op problemen waar een kleiner basismodel enigszins niet-triviale succespercentages behaalt, rekentijd tijdens het testen gebruikt kan worden om een 14x groter model te overtreffen.
Het vermogen om meerdere afbeeldingen te verwerken is cruciaal voor Grote Vision-Taalmodellen (LVLMs) om een grondiger en genuanceerder begrip van een scène te ontwikkelen. Recente multi-image LVLMs zijn begonnen aan deze behoefte tegemoet te komen. Echter, hun evaluatie heeft geen gelijke tred gehouden met hun ontwikkeling. Om deze leemte op te vullen, introduceren we de Multimodale Multi-image Understanding (MMIU) benchmark, een uitgebreide evaluatiesuite ontworpen om LVLMs te beoordelen over een breed scala aan multi-image taken. MMIU omvat 7 soorten multi-image relaties, 52 taken, 77K afbeeldingen en 11K zorgvuldig samengestelde meerkeuzevragen, waardoor het de meest uitgebreide benchmark in zijn soort is. Onze evaluatie van 24 populaire LVLMs, waaronder zowel open-source als propriëtaire modellen, onthult aanzienlijke uitdagingen in multi-image begrip, met name in taken die ruimtelijk inzicht vereisen. Zelfs de meest geavanceerde modellen, zoals GPT-4o, behalen slechts 55,7% nauwkeurigheid op MMIU. Door middel van veelzijdige analytische experimenten identificeren we belangrijke prestatiekloofjes en beperkingen, wat waardevolle inzichten biedt voor toekomstige model- en dataverbeteringen. Wij streven ernaar dat MMIU de grens van LVLM-onderzoek en -ontwikkeling verlegt, en ons dichter brengt bij het bereiken van geavanceerde multimodale multi-image gebruikersinteracties.
We presenteren LLaVA-OneVision, een familie van open grote multimodale modellen (LMMs) die zijn ontwikkeld door onze inzichten in data, modellen en visuele representaties uit de LLaVA-NeXT blogserie te consolideren. Onze experimentele resultaten tonen aan dat LLaVA-OneVision het eerste enkele model is dat tegelijkertijd de prestatiegrenzen van open LMMs kan verleggen in drie belangrijke computervisiescenario's: enkelvoudige afbeeldingen, meervoudige afbeeldingen en videoscenario's. Belangrijk is dat het ontwerp van LLaVA-OneVision sterke transfer learning mogelijk maakt over verschillende modaliteiten/scenario's, wat nieuwe opkomende capaciteiten oplevert. In het bijzonder worden sterke video-begrip en cross-scenario capaciteiten gedemonstreerd door taakoverdracht van afbeeldingen naar video's.
We introduceren een nieuwe aanpak voor het genereren van realistische 3D-modellen met UV-mapping via een representatie genaamd "Object Images." Deze aanpak omvat oppervlaktegeometrie, uiterlijk en patchstructuren binnen een 64x64 pixel afbeelding, waardoor complexe 3D-vormen effectief worden omgezet in een beter hanteerbaar 2D-formaat. Hiermee pakken we de uitdagingen aan van zowel geometrische als semantische onregelmatigheden die inherent zijn aan polygonale meshes. Deze methode stelt ons in staat om beeldgeneratiemodellen, zoals Diffusion Transformers, direct te gebruiken voor 3D-vormgeneratie. Geëvalueerd op de ABO-dataset, bereiken onze gegenereerde vormen met patchstructuren een puntwolk-FID die vergelijkbaar is met recente 3D-generatieve modellen, terwijl ze van nature PBR-materiaalgeneratie ondersteunen.
Dit artikel introduceert MedTrinity-25M, een uitgebreide, grootschalige multimodale dataset voor de geneeskunde, die meer dan 25 miljoen afbeeldingen omvat over 10 modaliteiten, met multigranulaire annotaties voor meer dan 65 ziekten. Deze verrijkte annotaties omvatten zowel globale tekstuele informatie, zoals ziekte/letseltype, modaliteit, regiospecifieke beschrijvingen en interregionale relaties, als gedetailleerde lokale annotaties voor regio's van belang (ROI's), inclusief begrenzingsvakken en segmentatiemaskers. In tegenstelling tot bestaande benaderingen die beperkt worden door de beschikbaarheid van beeld-tekstparen, hebben wij de eerste geautomatiseerde pijplijn ontwikkeld die multimodale data opschaalt door multigranulaire visuele en tekstuele annotaties te genereren (in de vorm van beeld-ROI-beschrijving triplets) zonder de noodzaak van gepaarde tekstbeschrijvingen. Specifiek zijn data van meer dan 90 verschillende bronnen verzameld, voorbewerkt en verankerd met domeinspecifieke expertmodellen om ROI's gerelateerd aan abnormale regio's te identificeren. Vervolgens bouwen we een uitgebreide kennisbank en stimuleren we multimodale grote taalmodellen om retrieval-augmented generatie uit te voeren met de geïdentificeerde ROI's als leidraad, wat resulteert in multigranulaire tekstuele beschrijvingen. Vergeleken met bestaande datasets biedt MedTrinity-25M de meest verrijkte annotaties, die een breed scala aan multimodale taken ondersteunen, zoals bijschriften en rapportgeneratie, evenals visiegerichte taken zoals classificatie en segmentatie. Door vooraf te trainen op MedTrinity-25M bereikt ons model state-of-the-art prestaties op VQA-RAD en PathVQA, waarbij zowel multimodale grote taalmodellen als andere representatieve SoTA-benaderingen worden overtroffen. Deze dataset kan ook worden gebruikt om grootschalige voorafgaande training van multimodale medische AI-modellen te ondersteunen, wat bijdraagt aan de ontwikkeling van toekomstige foundationmodellen in het medische domein.
Diffusiemodellen blijven de grenzen van state-of-the-art beeldgeneratie verleggen, maar het proces is moeilijk met nuance te controleren: de praktijk bewijst dat tekstuele prompts onvoldoende zijn om beeldstijl of fijne structurele details (zoals gezichten) nauwkeurig te beschrijven. ControlNet en IPAdapter pakken dit tekort aan door het generatieve proces te conditioneren op beeldmateriaal, maar elk individueel geval is beperkt tot het modelleren van een enkele conditionele posterior: voor praktische use-cases, waar meerdere verschillende posteriors gewenst zijn binnen dezelfde workflow, is het trainen en gebruiken van meerdere adapters omslachtig. Wij stellen IPAdapter-Instruct voor, dat beeldconditionering combineert met ``Instruct''-prompts om te schakelen tussen interpretaties voor hetzelfde conditionerende beeld: stijloverdracht, objectextractie, beide, of nog iets anders? IPAdapter-Instruct leert efficiënt meerdere taken aan met minimaal kwaliteitsverlies in vergelijking met specifieke per-taakmodellen.
Er is een groeiende onderzoekslijn gericht op het verifiëren van de correctheid van de uitvoer van taalmodel(len). Tegelijkertijd worden taalmodel(len) ingezet om complexe vragen aan te pakken die redenering vereisen. Wij introduceren CoverBench, een uitdagende benchmark die zich richt op het verifiëren van taalmodeluitvoer in complexe redeneersettings. Datasets die hiervoor gebruikt kunnen worden, zijn vaak ontworpen voor andere complexe redeneertaken (bijv. vraag-antwoord) die gericht zijn op specifieke use-cases (bijv. financiële tabellen), waardoor transformaties, negatieve sampling en selectie van moeilijke voorbeelden nodig zijn om zo'n benchmark te verzamelen. CoverBench biedt een gediversifieerde evaluatie voor complexe claimverificatie in verschillende domeinen, soorten redenering, relatief lange invoer, en een verscheidenheid aan standaardisaties, zoals meerdere representaties voor tabellen waar beschikbaar, en een consistent schema. Wij controleren de data handmatig op kwaliteit om een laag niveau van labelruis te waarborgen. Tot slot rapporteren we een verscheidenheid aan competitieve basislijnresultaten om aan te tonen dat CoverBench uitdagend is en aanzienlijke ruimte voor verbetering biedt. De data is beschikbaar op https://huggingface.co/datasets/google/coverbench.
Dit artikel demonstreert hoe generatieve modellen die zijn getraind voor beeld-synthese kunnen worden gebruikt als hulpmiddelen voor visuele data mining. Ons inzicht is dat, aangezien hedendaagse generatieve modellen een nauwkeurige representatie van hun trainingsdata leren, we deze kunnen gebruiken om de data samen te vatten door te zoeken naar visuele patronen. Concreet laten we zien dat na het finetunen van conditionele diffusiemodellen om beelden te synthetiseren vanuit een specifieke dataset, we deze modellen kunnen gebruiken om een typiciteitsmaat te definiëren voor die dataset. Deze maat beoordeelt hoe typisch visuele elementen zijn voor verschillende datalabels, zoals geografische locatie, tijdstempels, semantische labels, of zelfs de aanwezigheid van een ziekte. Deze analyse-door-synthese benadering van data mining heeft twee belangrijke voordelen. Ten eerste schaalt het veel beter dan traditionele op correspondentie gebaseerde benaderingen, omdat het niet vereist om alle paren van visuele elementen expliciet te vergelijken. Ten tweede, terwijl de meeste eerdere werken over visuele data mining zich richten op een enkele dataset, werkt onze benadering op diverse datasets in termen van inhoud en schaal, waaronder een historische auto-dataset, een historische gezichten-dataset, een grote wereldwijde straatbeeld-dataset, en een nog grotere scène-dataset. Bovendien maakt onze benadering het mogelijk om visuele elementen te vertalen tussen klasse-labels en consistente veranderingen te analyseren.
Lip-syncvideo's maken met gegeven audio vormt de basis voor diverse toepassingen, waaronder het creëren van virtuele presentatoren of artiesten. Hoewel recente studies hoogwaardige lip-sync verkennen met verschillende technieken, vereisen hun taakgerichte modellen ofwel langdurige video's voor clipspecifieke training of vertonen ze zichtbare artefacten. In dit artikel stellen we een uniform en effectief framework voor, genaamd ReSyncer, dat gegeneraliseerde audio-visuele gezichtsinformatie synchroniseert. De kern van het ontwerp is het herzien en herconfigureren van de Style-based generator om efficiënt 3D-gezichts dynamiek te integreren die wordt voorspeld door een principieel style-injected Transformer. Door simpelweg de informatie-invoermechanismen binnen de ruis- en stijlruimte te herconfigureren, combineert ons framework beweging en uiterlijk met uniforme training. Uitgebreide experimenten tonen aan dat ReSyncer niet alleen hoogwaardige lip-syncvideo's produceert op basis van audio, maar ook meerdere aantrekkelijke eigenschappen ondersteunt die geschikt zijn voor het creëren van virtuele presentatoren en artiesten, waaronder snelle gepersonaliseerde fine-tuning, video-gestuurde lip-sync, de overdracht van spreekstijlen en zelfs gezichtsverwisseling. Bronnen zijn te vinden op https://guanjz20.github.io/projects/ReSyncer.
Evaluatie is de stok die de ontwikkeling van grote taalmodellen aanstuurt. Huidige evaluaties maken doorgaans gebruik van een enkelvoudige beoordelingsparadigma voor elk atomair testdoel, wat moeite heeft om te bepalen of een model daadwerkelijk over de vereiste capaciteiten beschikt of slechts de antwoorden op specifieke vragen uit het hoofd heeft geleerd of raadt. Om dit aan te pakken, stellen we een nieuw evaluatieraamwerk voor, genaamd StructEval. Uitgaande van een atomair testdoel, verdiept en verbreedt StructEval de evaluatie door een gestructureerde beoordeling uit te voeren over meerdere cognitieve niveaus en kritieke concepten, en biedt zo een uitgebreide, robuuste en consistente evaluatie voor grote taalmodellen (LLMs). Experimenten op drie veelgebruikte benchmarks tonen aan dat StructEval een betrouwbaar instrument is om het risico van datacontaminatie te weerstaan en de invloed van mogelijke vooroordelen te verminderen, waardoor betrouwbaardere en consistentere conclusies over modelcapaciteiten worden geboden. Ons raamwerk werpt ook licht op het ontwerp van toekomstige principiële en betrouwbare evaluatieprotocollen voor grote taalmodellen.
Het prestatieverschil tussen open-source en closed-source grote taalmodellen (LLMs) blijft een uitdaging bij tekst-naar-SQL-taken. In dit artikel introduceren we een synthetische data-aanpak die data geproduceerd door grotere, krachtigere modellen (sterke modellen) combineert met foutinformatie gegenereerd door kleinere, minder goed afgestemde modellen (zwakke modellen). Deze methode verbetert niet alleen de domeingeneralizatie van tekst-naar-SQL-modellen, maar onderzoekt ook het potentieel van foutdatasupervisie via voorkeursleren. Bovendien passen we de synthetische data-aanpak toe voor instructieafstemming op open-source LLMs, wat resulteert in SENSE, een gespecialiseerd tekst-naar-SQL-model. De effectiviteit van SENSE wordt aangetoond door state-of-the-art resultaten op de SPIDER- en BIRD-benchmarks, waardoor het prestatieverschil tussen open-source modellen en methoden aangestuurd door closed-source modellen wordt overbrugd.
Onlangs hebben transformer-gebaseerde modellen opmerkelijke prestaties getoond bij audio-visuele segmentatie (AVS) taken. Hun hoge rekenkosten maken echter real-time inferentie onpraktisch. Door de aandachtkaarten van het netwerk te karakteriseren, identificeren we twee belangrijke obstakels in AVS-modellen: 1) aandachtverspreiding, wat overeenkomt met de overmatig geconcentreerde aandachtgewichten door Softmax binnen beperkte frames, en 2) een inefficiënte, belastende transformer-decoder, veroorzaakt door smalle focuspatronen in de vroege fasen. In dit artikel introduceren we AVESFormer, de eerste real-time Audio-Visuele Efficiënte Segmentatie transformer die snel, efficiënt en lichtgewicht is. Ons model maakt gebruik van een efficiënte prompt query generator om het gedrag van cross-attention te corrigeren. Daarnaast stellen we de ELF-decoder voor om grotere efficiëntie te bereiken door convoluties die geschikt zijn voor lokale kenmerken te faciliteren, waardoor de rekenlast wordt verminderd. Uitgebreide experimenten tonen aan dat onze AVESFormer de modelprestaties aanzienlijk verbetert, met scores van 79,9% op S4, 57,9% op MS3 en 31,2% op AVSS, wat de vorige state-of-the-art overtreft en een uitstekende balans tussen prestaties en snelheid bereikt. De code is te vinden op https://github.com/MarkXCloud/AVESFormer.git.