Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren phi-4, een taalmodel met 14 miljard parameters ontwikkeld met een trainingsmethode die centraal gericht is op datakwaliteit. In tegenstelling tot de meeste taalmodellen, waarbij pre-training voornamelijk gebaseerd is op organische gegevensbronnen zoals webinhoud of code, omvat phi-4 strategisch synthetische data gedurende het trainingsproces. Terwijl eerdere modellen in de Phi-familie grotendeels de mogelijkheden van een docentmodel (specifiek GPT-4) destilleren, overtreft phi-4 aanzienlijk zijn docentmodel op STEM-gerichte QA-mogelijkheden, wat aantoont dat onze data-generatie- en post-trainingsmethoden verder gaan dan distillatie. Ondanks minimale wijzigingen aan de architectuur van phi-3, behaalt phi-4 sterke prestaties in verhouding tot zijn omvang - vooral op redeneringgerichte benchmarks - dankzij verbeterde data, trainingscurriculum en innovaties in het post-trainingschema.
Het creëren van AI-systemen die over lange periodes met omgevingen kunnen interageren, vergelijkbaar met menselijke cognitie, is een langdurig onderzoeksdoel geweest. Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft aanzienlijke stappen gezet in het begrijpen van de open wereld. Echter, de uitdaging van continue en gelijktijdige streaming perceptie, geheugen en redenering blijft grotendeels onontgonnen. Huidige MLLM's worden beperkt door hun sequentie-naar-sequentie architectuur, wat hun vermogen beperkt om inputs te verwerken en tegelijkertijd reacties te genereren, vergelijkbaar met niet kunnen denken tijdens het waarnemen. Bovendien is het vertrouwen op lange contexten om historische gegevens op te slaan onpraktisch voor langdurige interacties, aangezien het behouden van alle informatie kostbaar en inefficiënt wordt. Daarom, in plaats van te vertrouwen op een enkel basismodel om alle functies uit te voeren, haalt dit project inspiratie uit het concept van de Gespecialiseerde Generalistische AI en introduceert het ontvlochten streaming perceptie, redenering en geheugenmechanismen, waardoor real-time interactie met streaming video- en audio-invoer mogelijk is. Het voorgestelde raamwerk InternLM-XComposer2.5-OmniLive (IXC2.5-OL) bestaat uit drie belangrijke modules: (1) Streaming Perceptiemodule: Verwerkt multimodale informatie in real-time, slaat belangrijke details op in het geheugen en activeert redenering als reactie op gebruikersvragen. (2) Multi-modale Lange Geheugenmodule: Integreert kortetermijn- en langetermijngeheugen, comprimeert kortetermijnherinneringen tot langetermijnherinneringen voor efficiënte ophaling en verbeterde nauwkeurigheid. (3) Redeneringsmodule: Beantwoordt vragen en voert redeneertaken uit, in samenwerking met de perceptie- en geheugenmodules. Dit project simuleert menselijke cognitie, waardoor multimodale grote taalmodellen continue en aanpasbare service kunnen bieden in de loop van de tijd.
Multimodale grote taalmodellen (MLLM's) hebben de afgelopen jaren snelle vooruitgang geboekt, maar blijven worstelen met laag-niveau visuele perceptie (LLVP) - met name het vermogen om de geometrische details van een afbeelding nauwkeurig te beschrijven. Deze capaciteit is cruciaal voor toepassingen op gebieden zoals robotica, medische beeldanalyse en productie. In dit artikel introduceren we eerst Geoperception, een benchmark ontworpen om de mogelijkheid van een MLLM om nauwkeurig 2D-geometrische informatie van een afbeelding over te nemen, te evalueren. Met behulp van deze benchmark tonen we de beperkingen van toonaangevende MLLM's aan, en voeren vervolgens een uitgebreide empirische studie uit om strategieën te verkennen voor het verbeteren van hun prestaties op geometrische taken. Onze bevindingen benadrukken de voordelen van bepaalde modelarchitecturen, trainingsmethoden en gegevensstrategieën, inclusief het gebruik van hoogwaardige synthetische gegevens en meertraps training met een gegevenscurriculum. Opmerkelijk is dat we constateren dat een gegevenscurriculum modellen in staat stelt uitdagende geometrie begripstaken te leren die ze niet vanaf nul kunnen leren. Door gebruik te maken van deze inzichten ontwikkelen we Euclid, een familie van modellen die specifiek zijn geoptimaliseerd voor sterke laag-niveau geometrische perceptie. Hoewel puur getraind op synthetische multimodale gegevens, toont Euclid een sterke generalisatiecapaciteit naar nieuwe geometrische vormen. Zo presteert Euclid beter dan het beste gesloten-bronmodel, Gemini-1.5-Pro, met maximaal 58,56% op bepaalde Geoperception benchmarktaken en gemiddeld 10,65% op alle taken.
Naarmate Multi-modale Grote Taalmodellen (MLLM's) evolueren, is het essentieel om uit te breiden buiten enkelvoudige domeinmogelijkheden om te voldoen aan de eisen voor meer veelzijdige en efficiënte AI. Echter, eerdere omni-modellen hebben onvoldoende de spraak verkend, waarbij de integratie met multi-modaliteit wordt verwaarloosd. Wij introduceren Lyra, een efficiënt MLLM dat multimodale mogelijkheden verbetert, waaronder geavanceerde lange-spraakbegrip, geluidsinterpretatie, kruis-modaliteitsefficiëntie en naadloze spraakinteractie. Om efficiëntie en spraakgerichte mogelijkheden te bereiken, maakt Lyra gebruik van drie strategieën: (1) gebruikmaking van bestaande open-source grote modellen en een voorgestelde multi-modaliteit LoRA om trainingskosten en data-eisen te verminderen; (2) het gebruik van een latente multi-modaliteit regularisator en extractor om de relatie tussen spraak en andere modaliteiten te versterken, waardoor de modelprestaties worden verbeterd; en (3) het construeren van een hoogwaardige, uitgebreide dataset die 1,5M multi-modale (taal, visie, audio) datasamples en 12K lange spraaksamples bevat, waardoor Lyra complexe lange spraakinvoer kan verwerken en een robuustere omni-cognitie kan bereiken. In vergelijking met andere omni-methoden behaalt Lyra state-of-the-art prestaties op verschillende visie-taal, visie-spraak en spraak-taal benchmarks, terwijl het ook minder rekenbronnen en minder trainingsdata gebruikt.
Multimodale generatieve modellen vereisen een geünificeerde aanpak om zowel discrete gegevens (bijv. tekst en code) als continue gegevens (bijv. afbeeldingen, audio, video) te verwerken. In dit werk stellen we Latente Taalmodellering (LatentLM) voor, die naadloos continue en discrete gegevens integreert met behulp van causale Transformers. Specifiek maken we gebruik van een variational autoencoder (VAE) om continue gegevens voor te stellen als latente vectoren en introduceren we next-token diffusie voor autoregressieve generatie van deze vectoren. Daarnaast ontwikkelen we sigma-VAE om de uitdagingen van variantie-instorting aan te pakken, wat cruciaal is voor autoregressieve modellering. Uitgebreide experimenten tonen de effectiviteit van LatentLM aan over verschillende modaliteiten. Bij beeldgeneratie overtreft LatentLM zowel Diffusion Transformers in prestaties als schaalbaarheid. Wanneer geïntegreerd in multimodale grote taalmodellen, biedt LatentLM een algemene interface die multimodale generatie en begrip verenigt. Experimentele resultaten tonen aan dat LatentLM gunstige prestaties behaalt in vergelijking met Transfusion en vectorgekwantiseerde modellen bij het opschalen van trainings-tokens. Bij tekst-naar-spraak synthese presteert LatentLM beter dan het state-of-the-art VALL-E 2 model op het gebied van sprekersgelijkenis en robuustheid, terwijl het 10x minder decodeerstappen vereist. De resultaten vestigen LatentLM als een zeer effectieve en schaalbare benadering om grote multimodale modellen te bevorderen.
Grafische gebruikersinterface (GUI) agenten hebben veel potentieel om complexe taken te automatiseren in diverse digitale omgevingen, van webapplicaties tot desktopsoftware. De ontwikkeling van dergelijke agenten wordt echter belemmerd door het gebrek aan hoogwaardige, meerstaps trajectdata die nodig zijn voor effectieve training. Bestaande benaderingen vertrouwen op dure en arbeidsintensieve menselijke annotatie, waardoor ze op grote schaal onhoudbaar zijn. Om dit probleem aan te pakken, stellen we AgentTrek voor, een schaalbaar gegevenssyntheseproces dat hoogwaardige GUI-agenttrajecten genereert door gebruik te maken van webtutorials. Onze methode verzamelt automatisch tutorial-achtige teksten van internet, transformeert ze in taakdoelen met stapsgewijze instructies en maakt gebruik van een visueel-taalmodelagent om hun uitvoering in een echte digitale omgeving te simuleren. Een op VLM gebaseerde evaluator zorgt voor de juistheid van de gegenereerde trajecten. We tonen aan dat het trainen van GUI-agenten met deze gesynthetiseerde trajecten aanzienlijk de verankering en planningsprestaties verbetert ten opzichte van de huidige modellen. Bovendien is onze benadering kostenefficiënter in vergelijking met traditionele menselijke annotatiemethoden. Dit werk benadrukt het potentieel van begeleide herhaling met webtutorials als een levensvatbare strategie voor grootschalige training van GUI-agenten, waardoor de weg wordt vrijgemaakt voor meer capabele en autonome digitale agenten.
Bestaande tekst-naar-afbeelding (T2I) diffusiemodellen hebben verschillende beperkingen, waaronder grote modelgroottes, trage uitvoeringstijden en lage kwaliteit van gegenereerde afbeeldingen op mobiele apparaten. Dit artikel heeft tot doel al deze uitdagingen aan te pakken door een uiterst klein en snel T2I-model te ontwikkelen dat hoogwaardige en scherpe afbeeldingen genereert op mobiele platforms. We stellen verschillende technieken voor om dit doel te bereiken. Ten eerste onderzoeken we systematisch de ontwerpkeuzes van de netwerkarchitectuur om het aantal modelparameters en latentie te verminderen, terwijl we zorgen voor hoogwaardige generatie. Ten tweede, om de generatiekwaliteit verder te verbeteren, passen we cross-architectuur kennisdistillatie toe vanuit een veel groter model, met een multi-level benadering om de training van ons model vanaf nul te begeleiden. Ten derde stellen we een generatie in een paar stappen mogelijk door adversariële begeleiding te integreren met kennisdistillatie. Voor het eerst laat ons model SnapGen de generatie van 1024x1024 px afbeeldingen op een mobiel apparaat zien in ongeveer 1.4 seconden. Op ImageNet-1K behaalt ons model, met slechts 372M parameters, een FID van 2.06 voor 256x256 px generatie. Op T2I-benchmarks (bijv. GenEval en DPG-Bench), overtreft ons model met slechts 379M parameters grootschalige modellen met miljarden parameters met aanzienlijk kleinere omvang (bijv. 7x kleiner dan SDXL, 14x kleiner dan IF-XL).
Er zijn significante prestaties geboekt op het gebied van personalisatie van diffusiemodellen. Traditionele afstemmingsvrije methoden coderen meestal meerdere referentieafbeeldingen door hun afbeeldingsembeddings te gemiddelen als injectieconditie, maar een dergelijke afbeelding-onafhankelijke bewerking kan geen interactie tussen afbeeldingen uitvoeren om consistente visuele elementen binnen meerdere referenties vast te leggen. Hoewel de afstemmingsgebaseerde Low-Rank Adaptation (LoRA) effectief consistente elementen binnen meerdere afbeeldingen kan extraheren tijdens het trainingsproces, vereist het specifieke finetuning voor elke afzonderlijke afbeeldingsgroep. Dit artikel introduceert EasyRef, een nieuw plug-and-play aanpassingsmethode die diffusiemodellen in staat stelt geconditioneerd te worden door meerdere referentieafbeeldingen en de tekstprompt. Om effectief consistente visuele elementen binnen meerdere afbeeldingen te benutten, maken we gebruik van de multimodale grote taalmodel (MLLM) voor multi-afbeelding begrip en instructievolgcapaciteiten, waarbij het wordt aangespoord om consistente visuele elementen vast te leggen op basis van de instructie. Bovendien kan het injecteren van de representaties van de MLLM in het diffusieproces via adapters gemakkelijk generaliseren naar ongeziene domeinen, waarbij de consistente visuele elementen binnen ongeziene gegevens worden geëxploiteerd. Om de computationele kosten te verminderen en de fijnkorrelige detailbehoud te verbeteren, introduceren we een efficiënte referentie-aggregatiestrategie en een progressief trainingsplan. Ten slotte introduceren we MRBench, een nieuwe benchmark voor het genereren van multi-referentieafbeeldingen. Experimentele resultaten tonen aan dat EasyRef zowel afstemmingsvrije methoden zoals IP-Adapter als afstemmingsgebaseerde methoden zoals LoRA overtreft, met superieure esthetische kwaliteit en robuuste zero-shot generalisatie over diverse domeinen.
Gezien de snelle vooruitgang van generatieve AI is er een dringende behoefte om systematisch de talrijke modellen en configuraties te vergelijken en te kiezen. De schaal en veelzijdigheid van dergelijke evaluaties maken het gebruik van op LLM gebaseerde beoordelaars tot een overtuigende oplossing voor deze uitdaging. Belangrijk is dat deze benadering eerst de kwaliteit van de LLM-beoordelaar zelf moet valideren. Eerdere onderzoeken hebben zich gericht op instantie-gebaseerde beoordeling van LLM-beoordelaars, waarbij een beoordelaar wordt geëvalueerd over een reeks reacties, of reactieparen, terwijl ze onverschillig zijn ten opzichte van hun bronsystemen. Wij betogen dat deze instelling cruciale factoren over het hoofd ziet die van invloed zijn op de rangschikking op systeemniveau, zoals een positieve of negatieve vooringenomenheid van een beoordelaar ten opzichte van bepaalde systemen. Om deze lacune aan te pakken, voeren we de eerste grootschalige studie uit van LLM-beoordelaars als systeemrangschikkers. Systeemscores worden gegenereerd door beoordelingsscores over meerdere systeemuitvoer samen te voegen, en de kwaliteit van de beoordelaar wordt beoordeeld door de resulterende systeemrangschikking te vergelijken met een op mensen gebaseerde rangschikking. Naast de algehele beoordeling van de beoordelaar biedt onze analyse een gedetailleerde karakterisering van het gedrag van de beoordelaar, inclusief hun besluitvaardigheid en vooringenomenheid.
De benadering van Partiële Differentiaalvergelijkingen (PDE's) met behulp van neurale netwerken heeft aanzienlijke vooruitgang geboekt door middel van Fysisch-Geïnformeerde Neurale Netwerken (PINNs). Ondanks hun eenvoudige optimalisatiekader en flexibiliteit bij het implementeren van verschillende PDE's, hebben PINNs vaak te lijden onder beperkte nauwkeurigheid als gevolg van de spectrale bias van Multi-Layer Perceptrons (MLP's), die moeite hebben om hoogfrequente en niet-lineaire componenten effectief te leren. Onlangs zijn parametrische maasrepresentaties in combinatie met neurale netwerken onderzocht als een veelbelovende aanpak om de inductieve biases van neurale netwerken te elimineren. Ze vereisen echter meestal zeer hoge-resolutie roosters en een groot aantal collocatiepunten om een hoge nauwkeurigheid te bereiken en overpassing te vermijden. Bovendien beperken de vaste posities van de maasparameters hun flexibiliteit, waardoor het uitdagend is om complexe PDE's nauwkeurig te benaderen. Om deze beperkingen te overwinnen, stellen wij Fysisch-Geïnformeerde Gaussians (PIGs) voor, die kenmerk-embeddings combineren met Gauss-functies met behulp van een lichtgewicht neuraal netwerk. Onze benadering maakt gebruik van trainbare parameters voor het gemiddelde en de variantie van elke Gauss, waardoor dynamische aanpassing van hun posities en vormen tijdens de training mogelijk is. Deze aanpasbaarheid stelt ons model in staat om PDE-oplossingen optimaal te benaderen, in tegenstelling tot modellen met vaste parameterposities. Bovendien behoudt de voorgestelde benadering hetzelfde optimalisatiekader dat wordt gebruikt in PINNs, waardoor we kunnen profiteren van hun uitstekende eigenschappen. Experimentele resultaten tonen de competitieve prestaties van ons model bij verschillende PDE's, wat de potentie ervan als een robuust hulpmiddel voor het oplossen van complexe PDE's aantoont. Onze projectpagina is beschikbaar op https://namgyukang.github.io/Physics-Informed-Gaussians/
Het herstellen van de geometrie en materialen van objecten uit een enkele afbeelding is uitdagend vanwege de onderbepaalde aard ervan. In dit artikel presenteren we Neural LightRig, een nieuw raamwerk dat intrinsieke schatting verbetert door gebruik te maken van aanvullende multi-verlichtingscondities van 2D-diffusiepriors. Specifiek, 1) maken we eerst gebruik van verlichtingspriors van grootschalige diffusiemodellen om ons multi-verlichtingsdiffusiemodel te bouwen op een synthetische verlichtingsdataset met speciale ontwerpen. Dit diffusiemodel genereert meerdere consistente afbeeldingen, elk verlicht door puntlichtbronnen in verschillende richtingen. 2) Door deze gevarieerde verlichtingsafbeeldingen te gebruiken om schattingsonzekerheid te verminderen, trainen we een groot G-buffermodel met een U-Net ruggengraat om nauwkeurig oppervlaktenormalen en materialen te voorspellen. Uitgebreide experimenten bevestigen dat onze aanpak aanzienlijk beter presteert dan state-of-the-art methoden, waardoor nauwkeurige oppervlaktenormalen en PBR-materiaalschattingen mogelijk zijn met levendige verlichtingseffecten. Code en dataset zijn beschikbaar op onze projectpagina op https://projects.zxhezexin.com/neural-lightrig.
Deze studie presenteert een nieuwe beeld-superresolutie (SR) techniek gebaseerd op diffusie-inversie, met als doel de rijke beeldpriori's die zijn ingekapseld in grote vooraf getrainde diffusiemodellen te benutten om de SR-prestaties te verbeteren. We ontwerpen een strategie voor Gedeeltelijke ruisvoorspelling om een tussenliggende toestand van het diffusiemodel te construeren, die dient als het startpunt van de bemonstering. Centraal in onze aanpak staat een diepe ruisvoorspeller om de optimale ruiskaarten te schatten voor het voorwaartse diffusieproces. Eenmaal getraind, kan deze ruisvoorspeller worden gebruikt om het bemonsteringsproces gedeeltelijk langs de diffusietraject te initialiseren, waardoor het gewenste hoogwaardige resultaat wordt gegenereerd. In vergelijking met bestaande benaderingen biedt onze methode een flexibel en efficiënt bemonsteringsmechanisme dat een willekeurig aantal bemonsteringsstappen ondersteunt, variërend van één tot vijf. Zelfs met één bemonsteringsstap vertoont onze methode superieure of vergelijkbare prestaties ten opzichte van recente state-of-the-art benaderingen. De code en het model zijn openbaar beschikbaar op https://github.com/zsyOAOA/InvSR.
Moderne sensoren produceren steeds rijkere stromen van data met hoge resolutie. Vanwege beperkte middelen verwerpen machine learning systemen het overgrote deel van deze informatie door middel van resolutievermindering. Leren in het gecomprimeerde domein stelt modellen in staat om te werken met compacte latente representaties, waardoor een hogere effectieve resolutie wordt bereikt binnen hetzelfde budget. Bestaande compressiesystemen zijn echter niet ideaal voor gecomprimeerd leren. Lineaire transformatiecodering en end-to-end geleerde compressiesystemen verminderen de bitrate, maar verminderen niet uniform de dimensionaliteit; hierdoor wordt de efficiëntie niet betekenisvol verhoogd. Generatieve auto-encoders verminderen de dimensionaliteit, maar hun tegenstrijdige of perceptuele doelstellingen leiden tot aanzienlijk informatieverlies. Om deze beperkingen aan te pakken, introduceren we WaLLoC (Wavelet Learned Lossy Compression), een neurale codec-architectuur die lineaire transformatiecodering combineert met niet-lineaire dimensionaal reducerende auto-encoders. WaLLoC plaatst een ondiepe, asymmetrische auto-encoder en entropie bottleneck tussen een omkeerbare wavelet-pakkettransformatie. Op verschillende belangrijke metrieken presteert WaLLoC beter dan de auto-encoders die worden gebruikt in state-of-the-art latente diffusiemodellen. WaLLoC heeft geen perceptuele of tegenstrijdige verliezen nodig om hoge-frequentie details weer te geven, wat compatibiliteit biedt met modaliteiten buiten RGB-afbeeldingen en stereo-audio. De encoder van WaLLoC bestaat bijna volledig uit lineaire bewerkingen, waardoor het uitzonderlijk efficiënt is en geschikt voor mobiel rekenen, remote sensing en rechtstreeks leren van gecomprimeerde data. We demonstreren de capaciteit van WaLLoC voor leren in het gecomprimeerde domein over verschillende taken, waaronder beeldclassificatie, kleurweergave, documentbegrip en scheiding van muziekbronnen. Onze code, experimenten en vooraf getrainde audio- en beeldcodecs zijn beschikbaar op https://ut-sysml.org/walloc.
Met de groeiende adoptie en mogelijkheden van visie-taalmodellen (VLM's) is er behoefte aan benchmarks die authentieke gebruiker-VLM-interacties vastleggen. Als reactie hierop creëren we VisionArena, een dataset van 230K gesprekken in de echte wereld tussen gebruikers en VLM's. Verzameld van Chatbot Arena - een open-source platform waar gebruikers met VLM's communiceren en voorkeursstemmen indienen - bestrijkt VisionArena 73K unieke gebruikers, 45 VLM's en 138 talen. Onze dataset bevat drie subsets: VisionArena-Chat, 200k enkele en multi-turn gesprekken tussen een gebruiker en een VLM; VisionArena-Battle, 30K gesprekken waarin twee anonieme VLM's worden vergeleken met voorkeursstemmen van gebruikers; en VisionArena-Bench, een automatische benchmark van 500 diverse gebruikersprompts die de live Chatbot Arena modelranglijsten efficiënt benaderen. Daarnaast belichten we de soorten vragen die door gebruikers worden gesteld, de invloed van de reactiestijl op voorkeur, en gebieden waar modellen vaak tekortschieten. We constateren dat taken zonder specifieke eindpunten zoals bijschriften en humor sterk afhankelijk zijn van de stijl, en dat huidige VLM's moeite hebben met ruimtelijk redeneren en plannen. Tot slot tonen we aan dat het fine-tunen van hetzelfde basismodel op VisionArena-Chat beter presteert dan Llava-Instruct-158K, met een winst van 17 punten op MMMU en een winst van 46 punten op de WildVision benchmark. Dataset op https://huggingface.co/lmarena-ai.
De standaardpraktijk voor het ontwikkelen van hedendaagse MLLM's is om kenmerken van visuele encoders in de LLM te voeren en te trainen met natuurlijke taalsupervisie. In dit werk stellen we een over het hoofd gezien kans voor om de tussenliggende LLM-representaties te optimaliseren door een visueel perspectief (doel), d.w.z. uitsluitend natuurlijke taalsupervisie is suboptimaal voor het visuele begripsvermogen van de MLLM. Met dat doel stellen we OLA-VLM voor, de eerste benadering die kennis destilleert in de verborgen representaties van de LLM uit een reeks doelvisuele representaties. Ten eerste formuleren we het doel tijdens de pretrainingfase in MLLM's als een gekoppelde optimalisatie van voorspellende visuele insluiting en voorspelling van het volgende tekst-token. Ten tweede onderzoeken we MLLM's die uitsluitend zijn getraind met natuurlijke taalsupervisie en identificeren we een positieve correlatie tussen de kwaliteit van visuele representaties binnen deze modellen en hun prestaties stroomafwaarts. Bovendien, bij het onderzoeken van onze OLA-VLM, observeren we een verbeterde representatiekwaliteit als gevolg van de insluitingsoptimalisatie. Ten derde tonen we aan dat onze OLA-VLM de enkele en multi-encoder baselines overtreft, waarbij we de superioriteit van onze benadering aantonen ten opzichte van het expliciet voeren van de overeenkomstige kenmerken aan de LLM. In het bijzonder verbetert OLA-VLM de prestaties met een gemiddelde marge tot 2,5% op verschillende benchmarks, met een opmerkelijke verbetering van 8,7% op de Dieptetaak in CV-Bench. Onze code is open-source beschikbaar op https://github.com/SHI-Labs/OLA-VLM.
Woordbetekenisontwarring (WSD) is de taak om een woord in een gegeven context te associëren met de meest geschikte betekenis uit een reeks mogelijke kandidaten. Hoewel de taak recentelijk hernieuwde interesse heeft gekend, met systemen die prestaties behalen boven de geschatte overeenstemming tussen annotatoren, worstelt het nog steeds om toepassingen in de praktijk te vinden op het moment van schrijven. We betogen dat een van de redenen hiervoor de moeilijkheid is om WSD toe te passen op gewone tekst. Inderdaad, in de standaard formulering werken modellen onder de aannames dat a) alle te ontwarren stukken al zijn geïdentificeerd, en b) alle mogelijke kandidaatbetekenissen van elk stuk worden verstrekt, beide vereisten die verre van triviaal zijn. In dit werk presenteren we een nieuwe taak genaamd Woordbetekeniskoppeling (WSL) waarbij, gegeven een invoertekst en een referentiebetekenisinventaris, systemen zowel moeten identificeren welke stukken moeten worden ontward als deze vervolgens moeten koppelen aan hun meest geschikte betekenis. We introduceren een op transformer gebaseerde architectuur voor de taak en evalueren grondig zowel de prestaties ervan als die van state-of-the-art WSD-systemen geschaald naar WSL, waarbij we iteratief de aannames van WSD versoepelen. We hopen dat ons werk gemakkelijkere integratie van lexicale semantiek in toepassingen in de praktijk zal bevorderen.
Dit artikel introduceert RuleArena, een nieuw en uitdagend benchmark ontworpen om de vaardigheid van grote taalmodellen (GTM's) te evalueren in het volgen van complexe, real-world regels in redenering. RuleArena bestrijkt drie praktische domeinen - luchtvaartbagagekosten, NBA-transacties en belastingvoorschriften - en beoordeelt de bekwaamheid van GTM's in het omgaan met ingewikkelde natuurlijke taalinstructies die lang-contextueel begrip, logisch redeneren en nauwkeurige wiskundige berekeningen vereisen. Twee belangrijke kenmerken onderscheiden RuleArena van traditionele op regels gebaseerde redeneerbenchmarks: (1) het gaat verder dan standaard eerstegraads logische representaties, en (2) het is gebaseerd op authentieke, praktische scenario's, wat inzicht biedt in de geschiktheid en betrouwbaarheid van GTM's voor real-world toepassingen. Onze bevindingen onthullen verschillende opmerkelijke beperkingen in GTM's: (1) ze hebben moeite met het identificeren en toepassen van de juiste regels, vaak in de war rakend door vergelijkbare maar onderscheidende voorschriften, (2) ze kunnen niet consistent nauwkeurige wiskundige berekeningen uitvoeren, zelfs wanneer ze de relevante regels correct identificeren, en (3) over het algemeen presteren ze slecht in de benchmark. Deze resultaten benadrukken aanzienlijke uitdagingen bij het verbeteren van de op regels gebaseerde redeneervaardigheden van GTM's in real-life toepassingen.
Het gebruik van auteursrechtelijk beschermd materiaal bij het trainen van generatieve taalmodellen roept kritische juridische en ethische vragen op. Dit artikel presenteert een kader voor en de resultaten van het empirisch beoordelen van de impact van auteursrechtelijk beschermd materiaal op de prestaties van grote taalmodellen (LLM's) voor het Noors. We hebben vastgesteld dat zowel boeken als kranten een positieve bijdrage leveren wanneer de modellen worden geëvalueerd op een divers scala van Noorse benchmarks, terwijl fictiewerken mogelijk leiden tot verminderde prestaties. Onze experimenten zouden kunnen bijdragen aan de ontwikkeling van een compensatieregeling voor auteurs wiens werken bijdragen aan de ontwikkeling van AI.
Normalizing Flows (NFs) zijn op waarschijnlijkheid gebaseerde modellen voor continue invoergegevens. Ze hebben veelbelovende resultaten laten zien op zowel dichtheidsraming als generatieve modelleringstaken, maar hebben de laatste jaren relatief weinig aandacht gekregen. In dit werk tonen we aan dat NFs krachtiger zijn dan voorheen werd gedacht. We presenteren TarFlow: een eenvoudige en schaalbare architectuur die zeer presterende NF-modellen mogelijk maakt. TarFlow kan worden beschouwd als een op Transformer gebaseerde variant van Masked Autoregressive Flows (MAFs): het bestaat uit een stapel autoregressieve Transformer-blokken op beeldpatches, waarbij de autoregressie-richting tussen lagen wordt afgewisseld. TarFlow is eenvoudig end-to-end te trainen en in staat om pixels direct te modelleren en genereren. We stellen ook drie belangrijke technieken voor om de kwaliteit van de steekproeven te verbeteren: Gaussische ruisaugmentatie tijdens de training, een denoising-procedure na de training, en een effectieve begeleidingsmethode voor zowel klasse-geconditioneerde als ongeconditioneerde instellingen. Door deze te combineren, stelt TarFlow nieuwe state-of-the-art resultaten vast voor waarschijnlijkheidsschattingen van beelden, waarbij de vorige beste methoden ver worden overtroffen, en genereert steekproeven met kwaliteit en diversiteit vergelijkbaar met diffusiemodellen, voor het eerst met een op zichzelf staand NF-model. We stellen onze code beschikbaar op https://github.com/apple/ml-tarflow.
Controleerbare menselijke beeldanimatie heeft als doel video's te genereren vanuit referentiebeelden met behulp van sturende video's. Vanwege de beperkte besturingsignalen die worden geleverd door schaarse begeleiding (bijv. skeletpose), hebben recente werken geprobeerd om aanvullende dichte voorwaarden (bijv. dieptekaart) te introduceren om bewegingsuitlijning te waarborgen. Echter, dergelijke strikte dichte begeleiding tast de kwaliteit van de gegenereerde video aan wanneer de lichaamsvorm van het referentiepersonage aanzienlijk verschilt van die van de sturende video. In dit artikel presenteren we DisPose om meer generaliseerbare en effectieve besturingsignalen te verkrijgen zonder aanvullende dichte invoer, die de schaarse skeletpose in menselijke beeldanimatie ontwarren in bewegingsveldbegeleiding en keypoints-correspondentie. Specifiek genereren we een dicht bewegingsveld vanuit een schaars bewegingsveld en het referentiebeeld, dat regioniveau dichte begeleiding biedt terwijl de generalisatie van de schaarse posebesturing behouden blijft. We extraheren ook diffusiekenmerken die overeenkomen met pose keypoints van het referentiebeeld, en vervolgens worden deze puntkenmerken overgebracht naar de doelpose om onderscheidende identiteitsinformatie te bieden. Om naadloos te integreren in bestaande modellen, stellen we een plug-and-play hybride ControlNet voor dat de kwaliteit en consistentie van gegenereerde video's verbetert terwijl de bestaande modelparameters worden bevroren. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de superioriteit van DisPose in vergelijking met huidige methoden aan. Code: https://github.com/lihxxx/DisPose.
Bestaande modellen voor reconstructie van schaars beeld vertrouwen zwaar op nauwkeurige bekende cameraposities. Het afleiden van cameraparameters uit schaars beeld presenteert echter aanzienlijke uitdagingen. In dit werk presenteren we FreeSplatter, een zeer schaalbaar, feedforward reconstructiekader dat in staat is om hoogwaardige 3D-Gaussianen te genereren uit ongekalibreerde schaars beeld en hun cameraparameters in enkele seconden te herstellen. FreeSplatter is gebouwd op een gestroomlijnde transformer-architectuur, bestaande uit opeenvolgende zelfaandachtblokken die informatie-uitwisseling vergemakkelijken tussen multi-view beeldtokens en deze decoderen tot pixelgewijze 3D-Gaussian-primitieven. De voorspelde Gaussian-primitieven zijn geplaatst in een uniform referentiekader, wat zorgt voor hoogwaardige 3D-modellering en directe schatting van cameraparameters met behulp van standaardoplossers. Om zowel objectgerichte als scène-niveau reconstructie te ondersteunen, trainen we twee modelvarianten van FreeSplatter op uitgebreide datasets. In beide scenario's presteert FreeSplatter beter dan state-of-the-art baselines wat betreft reconstructiekwaliteit en nauwkeurigheid van pose-estimatie. Bovendien laten we zien dat FreeSplatter potentie heeft om de productiviteit van downstream-toepassingen, zoals tekst-/beeld-naar-3D-contentcreatie, te verbeteren.
Recente ontwikkelingen in tekst-naar-afbeelding aanpassing hebben hoogwaardige, contextrijke generatie van gepersonaliseerde afbeeldingen mogelijk gemaakt, waardoor specifieke concepten in verschillende scenario's kunnen verschijnen. Echter, huidige methoden worstelen met het combineren van meerdere gepersonaliseerde modellen, wat vaak leidt tot attribuutverstrengeling of het vereisen van aparte training om conceptonderscheidendheid te behouden. Wij presenteren LoRACLR, een nieuw benadering voor multi-concept afbeeldingsgeneratie die meerdere LoRA modellen samenvoegt, elk fijnafgestemd voor een afzonderlijk concept, in één, verenigd model zonder extra individuele fijnafstemming. LoRACLR maakt gebruik van een contrastieve doelstelling om de gewichtsruimtes van deze modellen uit te lijnen en samen te voegen, waarbij compatibiliteit wordt gegarandeerd terwijl interferentie wordt geminimaliseerd. Door onderscheidende maar samenhangende representaties voor elk concept af te dwingen, maakt LoRACLR efficiënte, schaalbare modelcompositie mogelijk voor hoogwaardige, multi-concept afbeeldingssynthese. Onze resultaten benadrukken de effectiviteit van LoRACLR bij het nauwkeurig samenvoegen van meerdere concepten, waarmee de mogelijkheden van gepersonaliseerde afbeeldingsgeneratie worden uitgebreid.
Traditionele vaste testsets schieten tekort bij het evalueren van open-ended mogelijkheden van foundation modellen. Om dit aan te pakken, stellen we ONEBench (OpeN-Ended Benchmarking) voor, een nieuw testparadigma dat individuele evaluatiedatasets consolideert in een verenigde, steeds groter wordende steekproefpool. ONEBench stelt gebruikers in staat om op maat gemaakte, open-ended evaluatiebenchmarks te genereren vanuit deze pool, die overeenkomen met specifieke interessante mogelijkheden. Door steekproeven over testsets te aggregaten, maakt ONEBench de beoordeling van diverse mogelijkheden mogelijk die verder gaan dan die gedekt door de oorspronkelijke testsets, terwijl overpassing en datasetbias worden verminderd. Belangrijker nog, het kader stelt modelbeoordeling voor als een collectief proces van selectie en aggregatie van steekproefniveau tests. De verschuiving van taakspecifieke benchmarks naar ONEBench introduceert twee uitdagingen: (1) heterogeniteit en (2) onvolledigheid. Heterogeniteit verwijst naar de aggregatie over diverse metrieken, terwijl onvolledigheid het vergelijken van modellen beschrijft die geëvalueerd zijn op verschillende gegevenssubsets. Om deze uitdagingen aan te pakken, onderzoeken we algoritmes om schaarse metingen te aggregaten tot betrouwbare modelscores. Ons aggregatiealgoritme zorgt voor identificeerbaarheid (asymptotisch herstellen van de grondwaarheidsscores) en snelle convergentie, waardoor nauwkeurige modelranglijsten mogelijk zijn met minder gegevens. Op homogene datasets tonen we aan dat ons aggregatiealgoritme ranglijsten levert die sterk correleren met die geproduceerd door gemiddelde scores. We tonen ook robuustheid aan tegen ~95% van ontbrekende metingen, waardoor de evaluatiekosten tot 20x worden verlaagd met weinig tot geen verandering in modelranglijsten. We introduceren ONEBench-LLM voor taalmodellen en ONEBench-LMM voor visie-taalmodellen, waarmee evaluaties worden verenigd over deze domeinen. Over het algemeen presenteren we een techniek voor open-ended evaluatie, die incomplete, heterogene steekproefniveau metingen kan aggregaten om continu een benchmark te laten groeien naast de snel ontwikkelende foundation modellen.
Het academische veld van leren met instructiegestuurde visuele navigatie kan over het algemeen worden onderverdeeld in hoog-niveau categorie-specifieke zoekopdrachten en laag-niveau taalgestuurde navigatie, afhankelijk van de granulariteit van de taalinstructie, waarbij de eerste de nadruk legt op het verkenningproces, terwijl de laatste zich richt op het volgen van gedetailleerde tekstuele commando's. Ondanks de verschillende focus van deze taken, blijven de onderliggende vereisten van het interpreteren van instructies, het begrijpen van de omgeving en het afleiden van actiebeslissingen consistent. Dit artikel consolideert diverse navigatietaken in een verenigd en generiek kader - we onderzoeken de kernmoeilijkheden van het delen van algemene kennis en het benutten van taakspecifieke mogelijkheden bij het leren van navigatie en stellen een nieuw State-Adaptive Mixture of Experts (SAME) model voor dat een agent effectief in staat stelt beslissingen af te leiden op basis van taal met verschillende granulariteit en dynamische observaties. Aangedreven door SAME, presenteren we een veelzijdige agent die in staat is om zeven navigatietaken tegelijkertijd aan te pakken, die beter presteert dan of een zeer vergelijkbare prestatie behaalt ten opzichte van taakspecifieke agenten.
We richten ons op het probleem van het schatten van het kijkdoel, dat tot doel heeft te voorspellen waar een persoon naar kijkt in een scène. Het voorspellen van het kijkdoel van een persoon vereist redeneren over zowel het uiterlijk van de persoon als de inhoud van de scène. Eerdere werken hebben steeds complexere, handmatig samengestelde pipelines ontwikkeld voor het schatten van het kijkdoel, waarbij zorgvuldig kenmerken worden samengevoegd van afzonderlijke scène-encoders, hoofd-encoders en hulpmodellen voor signalen zoals diepte en houding. Geïnspireerd door het succes van algemene kenmerkextractors voor een verscheidenheid aan visuele taken, stellen we Gaze-LLE voor, een nieuw transformer-framework dat het schatten van het kijkdoel stroomlijnt door gebruik te maken van kenmerken van een bevroren DINOv2-encoder. We extraheren een enkele kenmerkrepresentatie voor de scène en passen een persoonspecifieke positionele prompt toe om het kijkdoel te decoderen met een lichtgewicht module. We tonen toonaangevende prestaties op verschillende kijkdoel-benchmarks en bieden uitgebreide analyses om onze ontwerpkeuzes te valideren. Onze code is beschikbaar op: http://github.com/fkryan/gazelle.
Neurale Machinevertaling (NMT) modellen worden doorgaans getraind op datasets met beperkte blootstelling aan wetenschappelijke, technische en educatieve domeinen. Vertaalmodellen hebben daarom over het algemeen moeite met taken die wetenschappelijk inzicht of technisch jargon vereisen. Hun prestaties blijken zelfs nog slechter te zijn voor laag-geresourceerde Indiase talen. Het vinden van een vertaaldataset die zich specifiek op deze domeinen richt, vormt een moeilijke uitdaging. In dit artikel pakken we dit aan door een meertalig parallel corpus te creëren met meer dan 2,8 miljoen rijen met hoogwaardige vertaalparen van Engels naar Indisch en van Indisch naar Indisch over 8 Indiase talen. We bereiken dit door bitext mining van menselijke vertaalde transcripties van NPTEL videolessen. We finetunen en evalueren ook NMT modellen met behulp van dit corpus en overtreffen alle andere publiekelijk beschikbare modellen bij taken binnen het domein. We tonen ook het potentieel aan voor generalisatie naar taken buiten het domein door de baseline met meer dan 2 BLEU gemiddeld te verbeteren voor deze Indiase talen op de Flores+ benchmark. We zijn verheugd om ons model en dataset vrij te geven via deze link: https://huggingface.co/SPRINGLab.