Dagelijks geselecteerde AI onderzoekspapers met vertalingen
PaliGemma 2 is een upgrade van het PaliGemma open Vision-Language Model (VLM) gebaseerd op de Gemma 2 familie van taalmodellen. We combineren de SigLIP-So400m vision encoder die ook werd gebruikt door PaliGemma met de volledige reeks Gemma 2 modellen, van de 2B tot aan het 27B model. We trainen deze modellen op drie resoluties (224px, 448px en 896px) in meerdere stadia om ze uit te rusten met brede kennis voor overdracht via fine-tuning. De resulterende familie van basismodellen die verschillende modelgroottes en resoluties bestrijken, stelt ons in staat om factoren die de overdrachtsprestaties beïnvloeden (zoals leersnelheid) te onderzoeken en de wisselwerking tussen het type taak, modelgrootte en resolutie te analyseren. We vergroten verder het aantal en de breedte van overdrachttaken buiten het bereik van PaliGemma, inclusief verschillende OCR-gerelateerde taken zoals herkenning van tabelstructuur, herkenning van moleculaire structuur, herkenning van muziekscores, evenals gedetailleerde bijschriftgeneratie en radiografieverslaggeneratie, waarop PaliGemma 2 state-of-the-art resultaten behaalt.
Recente benaderingen hebben veelbelovende resultaten opgeleverd bij het destilleren van meerstaps tekst-naar-afbeelding diffusiemodellen tot éénstapsmodellen. De state-of-the-art efficiënte destillatietechniek, d.w.z. SwiftBrushv2 (SBv2), overtreft zelfs de prestaties van het docentmodel met beperkte middelen. Onze studie onthult echter de instabiliteit ervan bij het omgaan met verschillende diffusiemodelruggengraat vanwege het gebruik van een vaste begeleidingsschaal binnen de Variational Score Destillatie (VSD) verlies. Een andere zwakte van de bestaande éénstaps diffusiemodellen is het ontbreken van ondersteuning voor negatieve promptbegeleiding, wat cruciaal is bij praktische beeldgeneratie. Dit artikel presenteert SNOOPI, een nieuw raamwerk dat is ontworpen om deze beperkingen aan te pakken door de begeleiding in éénstaps diffusiemodellen te verbeteren tijdens zowel training als inferentie. Ten eerste verbeteren we effectief de trainingsstabiliteit door Proper Guidance-SwiftBrush (PG-SB), dat een benadering zonder willekeurige schaalclassificatievrije begeleiding gebruikt. Door de begeleidingsschaal van zowel docentmodellen te variëren, verbreden we hun uitvoerdistributies, resulterend in een robuuster VSD-verlies dat SB in staat stelt effectief te presteren over diverse ruggengraten, terwijl concurrerende prestaties behouden blijven. Ten tweede stellen we een trainingsvrije methode voor genaamd Negative-Away Steer Attention (NASA), die negatieve prompts integreert in éénstaps diffusiemodellen via kruislingse aandacht om ongewenste elementen in gegenereerde afbeeldingen te onderdrukken. Onze experimentele resultaten tonen aan dat onze voorgestelde methoden de basislijnmodellen aanzienlijk verbeteren over verschillende metrieken. Opmerkelijk is dat we een HPSv2-score van 31.08 behalen, waarmee we een nieuwe state-of-the-art benchmark voor éénstaps diffusiemodellen vaststellen.
We presenteren TokenFlow, een nieuwe verenigde beeldtokenizer die de lang bestaande kloof tussen multimodale begrip en generatie overbrugt. Eerdere onderzoeken hebben geprobeerd om een enkele reconstructiegerichte Vector Quantization (VQ) encoder in te zetten om deze twee taken te verenigen. We constateren dat begrip en generatie fundamenteel verschillende granulariteiten van visuele informatie vereisen. Dit leidt tot een kritische afweging, waarbij met name de prestaties bij multimodale begripstaken in het gedrang komen. TokenFlow pakt deze uitdaging aan door middel van een innovatieve dubbele codeboekarchitectuur die semantisch en pixelniveau kenmerkleren ontkoppelt, terwijl hun uitlijning wordt behouden via een gedeeld toewijzingsmechanisme. Deze ontwerp maakt directe toegang mogelijk tot zowel hoog-niveau semantische representaties die cruciaal zijn voor begriptaken als fijnkorrelige visuele kenmerken die essentieel zijn voor generatie via gedeelde indices. Onze uitgebreide experimenten tonen de superioriteit van TokenFlow op meerdere dimensies aan. Door gebruik te maken van TokenFlow tonen we voor het eerst aan dat discrete visuele invoer de prestaties van LLaVA-1.5 13B in begrip overtreft, met een gemiddelde verbetering van 7,2%. Voor beeldreconstructie behalen we een sterke FID-score van 0,63 bij een resolutie van 384*384. Bovendien vestigt TokenFlow een state-of-the-art prestatie in autoregressieve beeldgeneratie met een GenEval-score van 0,55 bij een resolutie van 256*256, vergelijkbare resultaten behalend als SDXL.
360^circ video's bieden een hyper-immersieve ervaring waarmee kijkers een dynamische scène vanuit alle 360 graden kunnen verkennen. Om een meer gebruikersvriendelijke en gepersonaliseerde contentcreatie in 360^circ videoformaat te bereiken, streven we ernaar om standaard perspectiefvideo's om te zetten in 360^circ equirectangular video's. Met dit doel introduceren we Imagine360, het eerste kader voor het genereren van perspectief-naar-360^circ video's dat hoogwaardige 360^circ video's met rijke en diverse bewegingspatronen creëert vanuit videobronnen. Imagine360 leert gedetailleerde sferische visuele en bewegingspatronen van beperkte 360^circ videogegevens met verschillende belangrijke ontwerpen. 1) Allereerst nemen we het dual-branch ontwerp aan, met een perspectief- en een panorama videodenoising-tak om lokale en globale beperkingen te bieden voor 360^circ video-generatie, met een bewegingsmodule en ruimtelijke LoRA-lagen fijnafgestemd op uitgebreide web 360^circ video's. 2) Daarnaast is een antipodale masker ontwikkeld om langeafstandsbewegingsafhankelijkheden vast te leggen, waardoor de omgekeerde camerabeweging tussen antipodale pixels over hemisferen wordt verbeterd. 3) Om diverse perspectiefvideo-ingangen aan te pakken, stellen we ontwerpen voor die rekening houden met elevatie, die zich aanpassen aan variërende videomaskering als gevolg van veranderende elevaties over frames. Uitgebreide experimenten tonen aan dat Imagine360 superieure grafische kwaliteit en bewegingscoherentie bereikt ten opzichte van state-of-the-art 360^circ video-generatiemethoden. Wij geloven dat Imagine360 veelbelovend is voor het bevorderen van gepersonaliseerde, meeslepende 360^circ video-creatie.
Diffusiemodellen zijn toegepast op 3D LiDAR scène-aanvulling vanwege hun sterke trainingsstabiliteit en hoge kwaliteit van aanvulling. Echter, de trage bemonsteringssnelheid beperkt de praktische toepassing van op diffusie gebaseerde scène-aanvullingsmodellen aangezien autonome voertuigen een efficiënte perceptie van hun omgeving vereisen. Dit artikel stelt een nieuw distillatiemethode voor die is afgestemd op 3D LiDAR scène-aanvullingsmodellen, genaamd ScoreLiDAR, die efficiënte maar hoogwaardige scène-aanvulling bereikt. ScoreLiDAR stelt het gedistilleerde model in staat om aanzienlijk minder stappen te nemen na distillatie. Om de kwaliteit van de aanvulling te verbeteren, introduceren we ook een nieuwe Structurele Verlies, die het gedistilleerde model aanmoedigt om de geometrische structuur van de 3D LiDAR scène vast te leggen. Het verlies bevat een scène-gerelateerde term die de holistische structuur beperkt en een punt-gerelateerde term die de belangrijkste landmark-punten en hun onderlinge configuratie beperkt. Uitgebreide experimenten tonen aan dat ScoreLiDAR de aanvullingstijd aanzienlijk versnelt van 30.55 naar 5.37 seconden per frame (>5 keer) op SemanticKITTI en superieure prestaties behaalt in vergelijking met toonaangevende 3D LiDAR scène-aanvullingsmodellen. Onze code is openbaar beschikbaar op https://github.com/happyw1nd/ScoreLiDAR.
Het bouwen van realistische en animeerbare avatars vereist nog steeds minuten aan multi-view of monoculair zelfroterende video's, en de meeste methoden missen precieze controle over gebaren en expressies. Om deze grens te verleggen, pakken we de uitdaging aan om een geheel lichaam pratende avatar te construeren vanuit een enkele afbeelding. We stellen een nieuw pipeline voor dat twee kritieke problemen aanpakt: 1) complexe dynamische modellering en 2) generalisatie naar nieuwe gebaren en expressies. Om naadloze generalisatie te bereiken, maken we gebruik van recente pose-geleide beeld-naar-video diffusiemodellen om imperfecte videoframes te genereren als pseudo-labels. Om het dynamische modelleringsprobleem veroorzaakt door inconsistente en ruisende pseudo-video's te overwinnen, introduceren we een nauw gekoppelde 3DGS-mesh hybride avatar representatie en passen we verschillende belangrijke regularisaties toe om inconsistenties veroorzaakt door imperfecte labels te verminderen. Uitgebreide experimenten op diverse onderwerpen tonen aan dat onze methode het mogelijk maakt om een fotorealistische, nauwkeurig animeerbare en expressieve geheel lichaam pratende avatar te creëren van slechts een enkele afbeelding.
Recente ontwikkelingen in video's met grote multimodale modellen (LMM's) hebben aanzienlijk bijgedragen aan hun begrip van video en redeneervermogen. Echter, hun prestaties verminderen bij taken buiten de distributie (OOD) die ondervertegenwoordigd zijn in de trainingsdata. Traditionele methoden zoals fine-tuning op OOD-datasets zijn onpraktisch vanwege hoge computationele kosten. Terwijl In-context learning (ICL) met demonstratievoorbeelden veelbelovende generalisatieprestaties heeft getoond bij taaltaken en beeld-taaltaken zonder fine-tuning, ondervindt het toepassen van ICL op video-taaltaken uitdagingen vanwege de beperkte contextlengte in Video LMM's, aangezien video's langere tokenlengtes vereisen. Om deze problemen aan te pakken, stellen we VideoICL voor, een nieuw video in-context leersysteem voor OOD-taken dat een op gelijkenis gebaseerde relevante voorbeeldselectiestrategie introduceert en een op vertrouwen gebaseerde iteratieve inferentiebenadering. Dit maakt het mogelijk om de meest relevante voorbeelden te selecteren en ze te rangschikken op basis van gelijkenis, om te worden gebruikt voor inferentie. Als de gegenereerde reactie een laag vertrouwen heeft, selecteert ons systeem nieuwe voorbeelden en voert het opnieuw inferentie uit, waarbij de resultaten iteratief worden verfijnd totdat een reactie met hoog vertrouwen wordt verkregen. Deze aanpak verbetert de prestaties van OOD-video-begrip door de effectieve contextlengte te vergroten zonder hoge kosten te veroorzaken. De experimentele resultaten op meerdere benchmarks tonen aanzienlijke prestatieverbeteringen, vooral in domeinspecifieke scenario's, en leggen zo de basis voor bredere toepassingen van video-begrip. De code zal worden vrijgegeven op https://github.com/KangsanKim07/VideoICL
In dit artikel introduceren we een open-source Koreaans-Engels visie-taalmodel (VLM), VARCO-VISION. We hebben een stapsgewijze trainingsstrategie geïncorporeerd die een model in staat stelt zowel linguïstieke als visuele informatie te leren terwijl de kennis van het basismodel behouden blijft. Ons model vertoont uitstekende prestaties in uiteenlopende omgevingen die tweetalig begrip en generatie van afbeeldingstekst vereisen in vergelijking met modellen van vergelijkbare omvang. VARCO-VISION is ook in staat tot grounding, verwijzingen en OCR, waardoor de toepassingsmogelijkheden en potentiële toepassingen voor real-world scenario's worden uitgebreid. Naast het model publiceren we vijf Koreaanse evaluatiedatasets, waaronder vier gesloten en één open benchmarks. We verwachten dat onze mijlpaal de mogelijkheden zal vergroten voor AI-onderzoekers die VLM's willen trainen. VARCO-VISION is beschikbaar op https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Dit artikel introduceert MIDI, een nieuw paradigma voor het genereren van compositorische 3D-scènes uit een enkele afbeelding. In tegenstelling tot bestaande methoden die vertrouwen op reconstructie- of ophaaltechnieken of recente benaderingen die gebruikmaken van meertraps object-voor-object generatie, breidt MIDI vooraf getrainde modellen voor het genereren van afbeeldingen naar 3D-objecten uit naar multi-instance diffusiemodellen, waardoor het gelijktijdig genereren van meerdere 3D-instanties met nauwkeurige ruimtelijke relaties en hoge generaliseerbaarheid mogelijk is. In de kern bevat MIDI een nieuw mechanisme voor multi-instance aandacht, dat effectief inter-objectinteracties en ruimtelijke samenhang vastlegt binnen het generatieproces, zonder de noodzaak van complexe meerstapsprocessen. De methode maakt gebruik van gedeeltelijke objectafbeeldingen en globale scènecontext als invoer, waarbij objectvoltooiing rechtstreeks wordt gemodelleerd tijdens 3D-generatie. Tijdens training superviseren we effectief de interacties tussen 3D-instanties met een beperkte hoeveelheid scène-niveau gegevens, terwijl we enkelvoudige objectgegevens opnemen voor regulering, waardoor de vooraf getrainde generalisatiecapaciteit behouden blijft. MIDI toont state-of-the-art prestaties in het genereren van afbeeldingen naar scènes, gevalideerd door evaluaties op synthetische gegevens, gegevens van scènes in de echte wereld, en gestileerde scèneafbeeldingen gegenereerd door tekst-naar-afbeelding diffusiemodellen.
Recente ontwikkelingen in generatieve modellen hebben aanzienlijke verbeteringen gebracht in het synthetiseren van nieuwe weergaven (NVS) uit multi-view data. Bestaande methoden zijn echter afhankelijk van externe multi-view uitlijnprocessen, zoals expliciete pose schatting of pre-reconstructie, wat hun flexibiliteit en toegankelijkheid beperkt, vooral wanneer de uitlijning instabiel is door onvoldoende overlapping of occlusies tussen weergaven. In dit artikel stellen we NVComposer voor, een nieuwe benadering die de noodzaak voor expliciete externe uitlijning elimineert. NVComposer stelt het generatieve model in staat om impliciet ruimtelijke en geometrische relaties tussen meerdere conditionele weergaven af te leiden door twee sleutelelementen te introduceren: 1) een beeld-pose dual-stream diffusie model dat gelijktijdig doelnieuwe weergaven genereert en conditionele cameraposes, en 2) een geometrie-bewuste eigenschap uitlijningsmodule die geometrische aannames destilleert uit dichte stereo modellen tijdens training. Uitgebreide experimenten tonen aan dat NVComposer state-of-the-art prestaties behaalt in generatieve multi-view NVS taken, waarbij de afhankelijkheid van externe uitlijning wordt weggenomen en daarmee de toegankelijkheid van het model wordt verbeterd. Onze benadering toont aanzienlijke verbeteringen in synthese kwaliteit naarmate het aantal ongeposeerde invoerweergaven toeneemt, wat wijst op het potentieel voor meer flexibele en toegankelijke generatieve NVS systemen.
We introduceren NitroFusion, een fundamenteel andere benadering van enkelvoudige diffusie die hoogwaardige generatie bereikt door middel van een dynamisch adversarieel kader. Terwijl éénstapsmethoden dramatische snelheidsvoordelen bieden, lijden ze doorgaans aan kwaliteitsdegradatie in vergelijking met hun meerstaps tegenhangers. Net zoals een panel van kunstcritici uitgebreide feedback biedt door zich te specialiseren in verschillende aspecten zoals compositie, kleur en techniek, behoudt onze benadering een grote pool van gespecialiseerde discriminatorhoofden die gezamenlijk het generatieproces begeleiden. Elke discriminatorgroep ontwikkelt expertise in specifieke kwaliteitsaspecten op verschillende ruisniveaus, waardoor diverse feedback wordt gegeven die hoogwaardige enkelstaps generatie mogelijk maakt. Ons kader combineert: (i) een dynamische discriminatorpool met gespecialiseerde discriminatorgroepen om de generatiekwaliteit te verbeteren, (ii) strategische vernieuwingsmechanismen om overpassing van de discriminator te voorkomen, en (iii) globaal-lokale discriminatorhoofden voor kwaliteitsbeoordeling op meerdere schalen, en onvoorwaardelijke/voorwaardelijke training voor gebalanceerde generatie. Bovendien ondersteunt ons kader op unieke wijze flexibele implementatie door middel van bottom-up verfijning, waardoor gebruikers dynamisch kunnen kiezen tussen 1-4 denoisestappen met hetzelfde model voor directe kwaliteit-snelheid afwegingen. Via uitgebreide experimenten tonen we aan dat NitroFusion aanzienlijk beter presteert dan bestaande enkelstapsmethoden over meerdere evaluatiemetrics, waarbij het in het bijzonder uitblinkt in het behouden van fijne details en globale consistentie.
De huidige evaluatie van wiskundige vaardigheden in LLM's is beperkt, aangezien bestaande maatstaven ofwel relatief klein zijn, zich voornamelijk richten op elementaire en middelbare school problemen, of diversiteit in onderwerpen missen. Bovendien blijft de inclusie van visuele elementen in taken grotendeels onverkend. Om deze lacunes aan te pakken, introduceren we U-MATH, een nieuw benchmark van 1.100 ongepubliceerde open-eind universitair niveau problemen afkomstig van lesmateriaal. Het is gebalanceerd over zes kernvakken, met 20% multimodale problemen. Gezien de open-eind aard van U-MATH problemen, gebruiken we een LLM om de juistheid van gegenereerde oplossingen te beoordelen. Hiertoe brengen we mu-MATH uit, een dataset om de capaciteiten van LLM's in het beoordelen van oplossingen te evalueren. De evaluatie van algemene domein-, wiskunde-specifieke en multimodale LLM's benadrukt de uitdagingen die U-MATH met zich meebrengt. Onze bevindingen tonen aan dat LLM's slechts een maximale nauwkeurigheid van 63% behalen op op tekst gebaseerde taken, met zelfs een nog lagere 45% op visuele problemen. De beoordeling van oplossingen blijkt uitdagend voor LLM's, waarbij de beste LLM-beoordelaar een F1-score van 80% behaalt op mu-MATH.
De snelle vooruitgang van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijke invloed gehad op verschillende multimodale taken. Echter, deze modellen staan voor uitdagingen bij taken die ruimtelijk inzicht vereisen binnen 3D omgevingen. Inspanningen om MLLM's te verbeteren, zoals het opnemen van puntenwolkkenmerken, zijn gedaan, maar er blijft een aanzienlijke kloof bestaan tussen de aangeleerde representaties van de modellen en de inherente complexiteit van 3D scènes. Deze discrepantie komt grotendeels voort uit het trainen van MLLM's op voornamelijk 2D-gegevens, wat hun effectiviteit beperkt in het begrijpen van 3D-ruimtes. Om dit probleem aan te pakken, stellen we in dit artikel een nieuw generalistisch model voor, namelijk Video-3D LLM, voor 3D scènebegrip. Door 3D scènes te behandelen als dynamische video's en 3D-positie-encoding in deze representaties op te nemen, stemt onze Video-3D LLM video-representaties nauwkeuriger af op ruimtelijke contexten in de echte wereld. Bovendien hebben we een techniek voor maximale dekkingsgraadimplementatie toegepast om de balans tussen computationele kosten en prestatie-efficiëntie te optimaliseren. Uitgebreide experimenten tonen aan dat ons model state-of-the-art prestaties behaalt op verschillende 3D scènebegrip-benchmarks, waaronder ScanRefer, Multi3DRefer, Scan2Cap, ScanQA en SQA3D.
Het genereren van synthetische data met Grote Taalmodellen is een veelbelovend paradigma voor het aanvullen van natuurlijke data over bijna oneindig veel taken. Gezien deze variëteit zijn directe vergelijkingen tussen algoritmes voor synthetische data generatie zeldzaam, waardoor het moeilijk is om te begrijpen waar verbeteringen vandaan komen en welke knelpunten er bestaan. Wij stellen voor om algoritmes te evalueren aan de hand van de samenstelling van synthetische data die elk algoritme genereert op het gebied van datakwaliteit, diversiteit en complexiteit. We kiezen deze drie kenmerken vanwege hun belang in open-ended processen en de invloed die elk heeft op de mogelijkheden van downstream modellen. We vinden kwaliteit essentieel voor generalisatie van modellen binnen de distributie, diversiteit essentieel voor generalisatie buiten de distributie, en complexiteit gunstig voor beide. Verder benadrukken we het bestaan van kwaliteit-diversiteit trade-offs in trainingsdata en de downstream effecten op de prestaties van modellen. Vervolgens onderzoeken we het effect van verschillende componenten in de synthetische data pipeline op elk datakenmerk. Dit onderzoek stelt ons in staat om synthetische data generatie algoritmes te classificeren en te vergelijken op basis van de componenten die ze gebruiken en de resulterende effecten op de samenstelling van data QDC. Deze analyse strekt zich uit tot een bespreking van het belang van het balanceren van QDC in synthetische data voor efficiënte reinforcement learning en zelfverbeterende algoritmes. Analoog aan de QD trade-offs in trainingsdata, bestaan er vaak trade-offs tussen de kwaliteit van modeloutput en de diversiteit van output die de samenstelling van synthetische data beïnvloeden. We merken op dat veel modellen momenteel alleen worden geëvalueerd en geoptimaliseerd voor outputkwaliteit, waardoor de outputdiversiteit en het potentieel voor zelfverbetering beperkt worden. Wij betogen dat het balanceren van deze trade-offs essentieel is voor de ontwikkeling van toekomstige zelfverbeterende algoritmes en benadrukken een aantal werken die vooruitgang boeken in deze richting.
Interne kenmerken van grootschalige vooraf getrainde diffusiemodellen zijn onlangs vastgesteld als krachtige semantische beschrijvingen voor een breed scala aan taken. Werken die deze kenmerken gebruiken, moeten over het algemeen ruis toevoegen aan afbeeldingen voordat ze door het model worden geleid om de semantische kenmerken te verkrijgen, aangezien de modellen niet de meest bruikbare kenmerken bieden wanneer ze afbeeldingen krijgen met weinig tot geen ruis. We tonen aan dat deze ruis een kritieke impact heeft op de bruikbaarheid van deze kenmerken die niet kan worden verholpen door te werken met verschillende willekeurige ruis. We pakken dit probleem aan door een lichtgewicht, ongesuperviseerde fijnafstemmingsmethode te introduceren die diffusie-backbones in staat stelt om hoogwaardige, ruisvrije semantische kenmerken te leveren. We tonen aan dat deze kenmerken aanzienlijk beter presteren dan eerdere diffusiekenmerken in een breed scala van extractieopstellingen en taken, waarbij ze betere prestaties bieden dan zelfs op ensemble gebaseerde methoden tegen een fractie van de kosten.
Tekst fungeert als het belangrijkste controle-signaal bij videogeneratie vanwege zijn narratieve aard. Om tekstbeschrijvingen om te zetten in videoclips, lenen huidige videodiffusiemodellen kenmerken van tekstencoders, maar worstelen met beperkt tekstbegrip. Het recente succes van grote taalmodellen (LLM's) toont de kracht van decoder-only transformers, die drie duidelijke voordelen bieden voor tekst-naar-video (T2V) generatie, namelijk nauwkeurig tekstbegrip als gevolg van superieure schaalbaarheid, verbeelding voorbij de invoertekst mogelijk gemaakt door voorspelling van het volgende token, en flexibiliteit om gebruikersbelangen te prioriteren via instructietuning. Desalniettemin belemmert de kenmerkende distributiekloof die voortkomt uit de twee verschillende tekstmodelleringsparadigma's het directe gebruik van LLM's in gevestigde T2V-modellen. Dit werk pakt deze uitdaging aan met Mimir, een end-to-end trainingskader met een zorgvuldig op maat gemaakte tokenfuser om de uitvoer van tekstencoders en LLM's te harmoniseren. Een dergelijk ontwerp stelt het T2V-model in staat om volledig te profiteren van geleerde videoprioriteiten en tegelijkertijd te kapitaliseren op de tekstgerelateerde mogelijkheden van LLM's. Uitgebreide kwantitatieve en kwalitatieve resultaten tonen de effectiviteit van Mimir aan bij het genereren van hoogwaardige video's met uitstekend tekstbegrip, vooral bij het verwerken van korte bijschriften en het beheren van verschuivende bewegingen. Projectpagina: https://lucaria-academy.github.io/Mimir/
Het samenvoegen van heterogene open-source LLM's met verschillende architecturen en groottes kan potentieel de sterke punten van verschillende modellen integreren, maar bestaande fusiemethoden staan voor aanzienlijke uitdagingen, zoals woordenschatuitlijning en het samenvoegen van distributiematrices. Deze procedures zijn niet alleen complex, maar ook vatbaar voor het introduceren van ruis en fouten. In dit artikel stellen we een impliciete fusiemethode voor, Weighted-Reward Preference Optimization (WRPO), die gebruikmaakt van voorkeursoptimalisatie tussen de bron-LLM's en de doel-LLM om hun capaciteiten effectief over te dragen. WRPO elimineert de noodzaak voor woordenschatuitlijning en matrixfusie en kan efficiënt worden opgeschaald om verschillende LLM's te accommoderen. Om distributie-afwijkingen tussen de bron- en doel-LLM's aan te pakken, introduceert WRPO een progressieve aanpassingsstrategie die geleidelijk de afhankelijkheid van voorkeurvoorbeelden van de doel-LLM naar de bron-LLM's verplaatst. Uitgebreide experimenten op de MT-Bench, AlpacaEval-2 en Arena-Hard benchmarks tonen aan dat WRPO consequent beter presteert dan bestaande kennisfusiemethoden en verschillende fine-tuning baselines. Wanneer toegepast op LLaMA3-8B-Instruct als het doelmodel, behaalt WRPO een lengte-gecontroleerd winstpercentage van 55,9% tegen GPT-4-Preview-1106 op AlpacaEval-2 en een winstpercentage van 46,2% tegen GPT-4-0314 op Arena-Hard. Onze code is beschikbaar op https://github.com/SLIT-AI/WRPO.
Grote multimodale modellen (LMM's) hebben significante doorbraken bereikt met de vooruitgang van instructieafstemming. Echter, terwijl bestaande modellen afbeeldingen en video's op een holistisch niveau kunnen begrijpen, worstelen ze nog steeds met het begrip op instantieniveau dat een meer genuanceerd begrip en afstemming vereist. Instantieniveau begrip is cruciaal, omdat het zich richt op de specifieke elementen waarin we het meest geïnteresseerd zijn. Interessant genoeg tonen bestaande werken aan dat de toonaangevende LMM's sterke instantiebegripvaardigheden vertonen wanneer ze worden voorzien van expliciete visuele aanwijzingen. Gemotiveerd door dit, introduceren we een geautomatiseerd annotatiepijplijn ondersteund door GPT-4o om instantieniveau informatie uit afbeeldingen en video's te extraheren via expliciete visuele aanwijzingen voor instantiebegeleiding. Voortbouwend op deze pijplijn hebben we Inst-IT voorgesteld, een oplossing om LMM's te verbeteren in instantiebegrip via expliciete visuele promptinstructieafstemming. Inst-IT bestaat uit een benchmark om multimodaal instantieniveau begrip te diagnosticeren, een grootschalige instructie-afstemmingsdataset, en een continu instructie-afstemmings trainingsparadigma om effectief de ruimtelijk-temporele instantiebegripvaardigheden van bestaande LMM's te verbeteren. Experimentele resultaten tonen aan dat, met de boost van Inst-IT, onze modellen niet alleen uitstekende prestaties behalen op de Inst-IT Bench, maar ook significante verbeteringen laten zien over verschillende generieke afbeeldings- en videobegrip benchmarks. Dit benadrukt dat onze dataset niet alleen instantieniveau begrip verbetert, maar ook de algehele mogelijkheden van generiek afbeeldings- en videobegrip versterkt.
We introduceren LumiNet, een nieuw architectuur dat gebruikmaakt van generatieve modellen en latente intrinsieke representaties voor effectieve lichtoverdracht. Gegeven een bronafbeelding en een doelverlichtingsafbeelding, synthetiseert LumiNet een herbelichte versie van de bronscène die de verlichting van het doel vastlegt. Onze benadering levert twee belangrijke bijdragen: een gegevenscuratiestrategie van het op StyleGAN gebaseerde herbelichtingsmodel voor onze training, en een aangepaste diffusiegebaseerde ControlNet dat zowel latente intrinsieke eigenschappen van de bronafbeelding als latente extrinsieke eigenschappen van de doelafbeelding verwerkt. We verbeteren verder de lichtoverdracht door middel van een geleerde adapter (MLP) die de latente extrinsieke eigenschappen van het doel injecteert via kruislingse aandacht en fijnafstemming. In tegenstelling tot de traditionele ControlNet, die afbeeldingen genereert met conditionele kaarten vanuit een enkele scène, verwerkt LumiNet latente representaties vanuit twee verschillende afbeeldingen - waarbij de geometrie en albedo van de bron behouden blijven terwijl de verlichtingseigenschappen van het doel worden overgedragen. Experimenten tonen aan dat onze methode succesvol complexe lichtverschijnselen, waaronder spiegelende hooglichten en indirecte verlichting, overdraagt tussen scènes met verschillende ruimtelijke lay-outs en materialen, waarbij bestaande benaderingen op uitdagende binnenomgevingen worden overtroffen met enkel afbeeldingen als invoer.