Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Karakterbeeldanimatie, die hoogwaardige video's genereert vanuit een referentiebeeld en een doelhoudingreeks, heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. De meeste bestaande methoden zijn echter alleen van toepassing op menselijke figuren, die meestal niet goed generaliseren naar antropomorfe karakters die veel worden gebruikt in sectoren zoals gaming en entertainment. Onze diepgaande analyse suggereert dat deze beperking kan worden toegeschreven aan hun ontoereikende modellering van beweging, die niet in staat is om het bewegingspatroon van de sturende video te begrijpen en daarom star een houdingreeks oplegt aan het doelkarakter. Daarom stelt dit artikel Animate-X voor, een universeel animatiekader gebaseerd op LDM voor verschillende karaktertypen (gezamenlijk aangeduid als X), inclusief antropomorfe karakters. Om de bewegingsrepresentatie te verbeteren, introduceren we de Pose Indicator, die een uitgebreid bewegingspatroon van de sturende video vastlegt op zowel impliciete als expliciete wijze. De eerste maakt gebruik van CLIP visuele kenmerken van een sturende video om de essentie van de beweging te extraheren, zoals het algemene bewegingspatroon en de temporele relaties tussen bewegingen, terwijl de laatste de generalisatie van LDM versterkt door mogelijke invoer vooraf te simuleren die zich tijdens inferentie kunnen voordoen. Bovendien introduceren we een nieuwe Geanimeerde Antropomorfe Benchmark (A^2Bench) om de prestaties van Animate-X op universele en breed toepasbare animatiebeelden te evalueren. Uitgebreide experimenten tonen de superioriteit en effectiviteit van Animate-X aan in vergelijking met state-of-the-art methoden.
Met de snelle ontwikkeling van door AI gegenereerde inhoud kan de toekomstige internet overspoeld worden met synthetische gegevens, waardoor het steeds uitdagender wordt om authentieke en geloofwaardige multimodale gegevens te onderscheiden. Het detecteren van synthetische gegevens heeft daarom veel aandacht gekregen, en de prestaties van grote multimodale modellen (LMM's) in deze taak hebben aanzienlijke interesse gewekt. LMM's kunnen natuurlijke taalverklaringen geven voor hun authenticiteitsbeoordelingen, waardoor de verklaringsmogelijkheden van synthetische inhoudsdetectie worden verbeterd. Tegelijkertijd test de taak om echt en synthetische gegevens te onderscheiden effectief de perceptie, kennis en redeneervermogen van LMM's. Als reactie introduceren we LOKI, een nieuw benchmark ontworpen om de mogelijkheid van LMM's om synthetische gegevens over meerdere modaliteiten te detecteren te evalueren. LOKI omvat video, afbeelding, 3D, tekst en audio modaliteiten, bestaande uit 18K zorgvuldig samengestelde vragen over 26 subcategorieën met duidelijke moeilijkheidsgraden. De benchmark bevat grofkorrelige beoordelingen en meerkeuzevragen, evenals taken voor het selecteren van fijnkorrelige anomalieën en uitleg, waardoor een uitgebreide analyse van LMM's mogelijk is. We hebben 22 open-source LMM's en 6 gesloten-bronmodellen geëvalueerd op LOKI, waarbij hun potentieel als synthetische gegevensdetectoren werd benadrukt en ook enkele beperkingen in de ontwikkeling van LMM-capaciteiten aan het licht werden gebracht. Meer informatie over LOKI is te vinden op https://opendatalab.github.io/LOKI/
Onderlinge multimodale begrip en generatie, waardoor modellen zowel afbeeldingen als tekst in willekeurige volgordes kunnen produceren en interpreteren, zijn een cruciaal gebied geworden in multimodaal leren. Ondanks aanzienlijke vooruitgang blijft de evaluatie van deze capaciteit ontoereikend. Bestaande benchmarks kampen met beperkingen op het gebied van datagrootte, reikwijdte en evaluatiediepte, terwijl huidige evaluatiemetrics vaak kostbaar of vooringenomen zijn, en betrouwbaarheid missen voor praktische toepassingen. Om deze uitdagingen aan te pakken, introduceren we MMIE, een grootschalige kennisintensieve benchmark voor het evalueren van onderlinge multimodale begrip en generatie in Grote Visie-Taalmodellen (GVLM's). MMIE omvat 20K zorgvuldig samengestelde multimodale vragen, die 3 categorieën, 12 velden en 102 subvelden bestrijken, waaronder wiskunde, codering, natuurkunde, literatuur, gezondheid en kunst. Het ondersteunt zowel onderlinge invoer als uitvoer, en biedt een mix van meerkeuze- en open vraagformaten om diverse competenties te evalueren. Bovendien stellen we een betrouwbare geautomatiseerde evaluatiemetric voor, waarbij gebruik wordt gemaakt van een scoremodel dat is verfijnd met door mensen geannoteerde gegevens en systematische evaluatiecriteria, met als doel vooringenomenheid te verminderen en de evaluatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen de effectiviteit van onze benchmark en metrics aan bij het bieden van een uitgebreide evaluatie van onderlinge GVLM's. Specifiek evalueren we acht GVLM's, waarbij blijkt dat zelfs de beste modellen aanzienlijke ruimte voor verbetering laten zien, waarbij de meeste slechts matige resultaten behalen. We zijn van mening dat MMIE verdere vooruitgang zal stimuleren in de ontwikkeling van onderlinge GVLM's. We maken onze benchmark en code openbaar beschikbaar op https://mmie-bench.github.io/.
Het volgen van natuurlijke instructies is cruciaal voor de effectieve toepassing van Retrieval-Augmented Generation (RAG) systemen. Ondanks recente ontwikkelingen in Large Language Models (LLMs) blijft onderzoek naar het beoordelen en verbeteren van instructievolging (IF) binnen het RAG-domein beperkt. Om dit probleem aan te pakken, stellen we VIF-RAG voor, de eerste geautomatiseerde, schaalbare en verifieerbare synthetische pijplijn voor instructievolging in RAG systemen. We beginnen met het handmatig samenstellen van een minimaal aantal atomaire instructies (<100) en het ontwikkelen van combinatieregels om complexe instructies te synthetiseren en verifiëren voor een initiële set. Vervolgens gebruiken we begeleide modellen voor instructieherschrijving terwijl we tegelijkertijd code genereren om de kwaliteit van de instructies te automatiseren via een Python-uitvoerder. Ten slotte integreren we deze instructies met uitgebreide RAG- en algemene gegevensmonsters, opschalend naar een hoogwaardige VIF-RAG-QA dataset (>100k) via geautomatiseerde processen. Om de kloof in zelfevaluatie van instructievolging voor RAG systemen verder te overbruggen, introduceren we de FollowRAG Benchmark, die ongeveer 3K testmonsters bevat, die 22 categorieën van algemene instructiebeperkingen en vier op kennis gebaseerde QA datasets bestrijken. Dankzij het robuuste ontwerp van de pijplijn kan FollowRAG naadloos integreren met verschillende RAG benchmarks. Door gebruik te maken van FollowRAG en acht veelgebruikte IF- en fundamentele vaardigheden benchmarks voor LLMs, tonen we aan dat VIF-RAG aanzienlijk de prestaties van LLMs verbetert over een breed scala van algemene instructiebeperkingen, terwijl het effectief gebruik maakt van zijn mogelijkheden in RAG scenario's. Verder onderzoek biedt praktische inzichten voor het bereiken van IF-alignment in RAG systemen. Onze code en datasets zijn beschikbaar op https://FollowRAG.github.io.
We presenteren MEGA-Bench, een evaluatiesuite die multimodale evaluatie schaalt naar meer dan 500 real-world taken, om de zeer heterogene dagelijkse gebruiksscenario's van eindgebruikers aan te pakken. Ons doel is om te optimaliseren voor een set van hoogwaardige gegevensmonsters die een zeer diverse en rijke set multimodale taken bestrijken, terwijl we kosteneffectieve en nauwkeurige model evaluatie mogelijk maken. In het bijzonder hebben we 505 realistische taken verzameld die meer dan 8.000 monsters omvatten van 16 expert annotatoren om het multimodale takenlandschap uitgebreid te bestrijken. In plaats van deze problemen te unificeren in standaard meerkeuzevragen (zoals MMMU, MMBench en MMT-Bench), omarmen we een breed scala aan outputformaten zoals getallen, zinnen, code, \LaTeX, coördinaten, JSON, vrije vorm, enz. Om deze formaten te accommoderen, hebben we meer dan 40 metrieken ontwikkeld om deze taken te evalueren. In tegenstelling tot bestaande benchmarks, biedt MEGA-Bench een gedetailleerd capaciteitsrapport over meerdere dimensies (bijv. toepassing, invoertype, outputformaat, vaardigheid), waardoor gebruikers diepgaand kunnen interacteren met en visualiseren van modelcapaciteiten. We evalueren een breed scala aan voorhoede visie-taalmodellen op MEGA-Bench om hun capaciteiten over deze dimensies te begrijpen.
Recente ontwikkelingen in grote taalmodellen (LLM's) hebben geleid tot aanzienlijke doorbraken in wiskundige redeneervaardigheden. Bestaande benchmarks zoals GSM8K of MATH worden echter nu met een hoge nauwkeurigheid opgelost (bijv. OpenAI o1 behaalt 94,8% op het MATH-dataset), wat wijst op hun ontoereikendheid om deze modellen echt uit te dagen. Om deze kloof te overbruggen, stellen we een uitgebreide en uitdagende benchmark voor die specifiek is ontworpen om de wiskundige redeneervaardigheden van LLM's op Olympiade-niveau te beoordelen. In tegenstelling tot bestaande benchmarks gerelateerd aan Olympiades, richt onze dataset zich uitsluitend op wiskunde en omvat een uitgebreide verzameling van 4428 problemen op competitieniveau met rigoureuze menselijke annotatie. Deze problemen zijn zorgvuldig gecategoriseerd in meer dan 33 subdomeinen en beslaan meer dan 10 verschillende moeilijkheidsniveaus, waardoor een holistische beoordeling van de modelprestaties in Olympische wiskundige redenering mogelijk is. Bovendien hebben we een diepgaande analyse uitgevoerd op basis van deze benchmark. Onze experimentele resultaten tonen aan dat zelfs de meest geavanceerde modellen, OpenAI o1-mini en OpenAI o1-preview, moeite hebben met zeer uitdagende Olympiade-niveau problemen, met respectievelijk 60,54% en 52,55% nauwkeurigheid, waarbij significante uitdagingen in Olympiade-niveau wiskundige redenering worden benadrukt.
Generatieve modellen transformeren willekeurig geluid in afbeeldingen; hun inversie heeft tot doel afbeeldingen terug te transformeren naar gestructureerd geluid voor herstel en bewerking. Dit artikel behandelt twee belangrijke taken: (i) inversie en (ii) bewerking van een echte afbeelding met behulp van stochastische equivalenten van gestroomlijnde stroommodellen (zoals Flux). Hoewel Diffusiemodellen (DM's) recentelijk de generatieve modelleringswereld voor afbeeldingen hebben gedomineerd, presenteren hun inversies uitdagingen op het gebied van nauwkeurigheid en bewerkbaarheid als gevolg van niet-lineariteiten in drift en diffusie. Bestaande state-of-the-art DM inversiebenaderingen vertrouwen op training van extra parameters of optimalisatie van latente variabelen op testtijd; beide zijn in de praktijk kostbaar. Gestroomlijnde stromen (RF's) bieden een veelbelovend alternatief voor diffusiemodellen, maar hun inversie is onderbelicht gebleven. We stellen RF inversie voor met behulp van dynamische optimale controle afgeleid via een lineaire kwadratische regelaar. We bewijzen dat het resulterende vectorveld equivalent is aan een gestroomlijnde stochastische differentiaalvergelijking. Bovendien breiden we ons kader uit om een stochastische sampler te ontwerpen voor Flux. Onze inversiemethode maakt state-of-the-art prestaties mogelijk in inversie en bewerking zonder voorafgaande training, waarbij eerdere werken worden overtroffen in slag-naar-afbeelding synthese en semantische afbeeldingsbewerking, met grootschalige menselijke evaluaties die gebruikersvoorkeur bevestigen.
Het grootschalig trainen van multimodale modellen op gegevens verzameld van het web heeft een uitstekende bruikbaarheid aangetoond bij het verrijken van deze modellen met de benodigde wereldkennis om effectief te presteren op verschillende taken. Een nadeel van het verzamelen van gegevens van het web kan echter het potentiële verlies van de benchmarks zijn waarop de vaardigheden van deze modellen vaak worden geëvalueerd. Om te beschermen tegen besmetting van testgegevens en om daadwerkelijk de vaardigheden van deze basismodellen te testen, stellen we LiveXiv voor: een schaalbare evoluerende live benchmark gebaseerd op wetenschappelijke ArXiv-artikelen. LiveXiv heeft toegang tot domeinspecifieke manuscripten op elk willekeurig tijdstip en stelt voor om automatisch visuele vraag-antwoordparen (VQA) te genereren. Dit gebeurt zonder enige menselijke tussenkomst, met behulp van de multimodale inhoud in de manuscripten, zoals grafieken, diagrammen en tabellen. Bovendien introduceren we een efficiënte evaluatiebenadering die de prestaties van alle modellen op de evoluerende benchmark schat door evaluaties van slechts een subset van modellen. Dit vermindert de algehele evaluatiekosten aanzienlijk. We evalueren meerdere open en eigendomsrechtelijke Grote Multimodale Modellen (LMM's) op de eerste versie van onze benchmark, waarbij de uitdagende aard ervan wordt aangetoond en de ware vaardigheden van de modellen worden blootgelegd, zonder besmetting. Ten slotte hebben we, in ons streven naar hoge kwaliteit, een handmatig geverifieerde subset verzameld en geëvalueerd. Door de algehele resultaten te vergelijken met onze automatische annotaties, hebben we vastgesteld dat de prestatievariatie inderdaad minimaal is (<2,5%). Onze dataset is online beschikbaar op HuggingFace, en onze code zal hier beschikbaar zijn.
Retrieval-augmented generation (RAG) is een effectieve techniek die grote taalmodellen (LLMs) in staat stelt externe kennisbronnen te gebruiken voor generatie. Huidige RAG-systemen zijn echter uitsluitend gebaseerd op tekst, waardoor het onmogelijk is om visuele informatie zoals lay-out en afbeeldingen te gebruiken die een cruciale rol spelen in multi-modaliteitsdocumenten in de echte wereld. In dit artikel introduceren we VisRAG, dat dit probleem aanpakt door een vision-language model (VLM)-gebaseerde RAG-pijplijn op te zetten. In deze pijplijn wordt het document niet eerst geparseerd om tekst te verkrijgen, maar wordt het document direct ingebed met behulp van een VLM als een afbeelding en vervolgens opgehaald om de generatie van een VLM te verbeteren. In vergelijking met traditionele tekstgebaseerde RAG maximaliseert VisRAG het behoud en gebruik van de gegevensinformatie in de originele documenten, waardoor informatieverlies dat wordt geïntroduceerd tijdens het parseerproces wordt geëlimineerd. We verzamelen zowel open-source als synthetische gegevens om de ophaler in VisRAG te trainen en verkennen verschillende generatiemethoden. Experimenten tonen aan dat VisRAG beter presteert dan traditionele RAG in zowel de ophaal- als generatiestadia, met een prestatiewinst van 25-39% van begin tot eind ten opzichte van de traditionele tekstgebaseerde RAG-pijplijn. Verder onderzoek onthult dat VisRAG effectief is in het gebruik van trainingsgegevens en sterke generalisatiecapaciteiten aantoont, waardoor het een veelbelovende oplossing is voor RAG op multi-modaliteitsdocumenten. Onze code en gegevens zijn beschikbaar op https://github.com/openbmb/visrag.
In de afgelopen jaren zijn er opmerkelijke doorbraken geweest op het gebied van beeld-naar-video generatie. Echter, de 3D consistentie en camera bestuurbaarheid van gegenereerde frames zijn onopgelost gebleven. Recente studies hebben geprobeerd camera besturing in het generatieproces op te nemen, maar hun resultaten zijn vaak beperkt tot eenvoudige trajecten of missen de mogelijkheid om consistente video's te genereren vanuit meerdere verschillende camerapaden voor dezelfde scène. Om deze beperkingen aan te pakken, introduceren we Cavia, een nieuw raamwerk voor camera-bestuurbare, multi-view video generatie, dat in staat is om een invoerbeeld om te zetten in meerdere ruimtelijk-temporeel consistente video's. Ons raamwerk breidt de ruimtelijke en temporele aandachtsmodules uit naar view-geïntegreerde aandachtsmodules, waardoor zowel het gezichtspunt als de temporele consistentie verbeteren. Dit flexibele ontwerp maakt gezamenlijke training mogelijk met diverse samengestelde gegevensbronnen, waaronder statische video's op scène-niveau, synthetische multi-view dynamische video's op objectniveau, en monoculaire dynamische video's uit de echte wereld. Voor zover wij weten, is Cavia de eerste in zijn soort die de gebruiker in staat stelt om camera beweging nauwkeurig te specificeren terwijl objectbeweging wordt verkregen. Uitgebreide experimenten tonen aan dat Cavia state-of-the-art methoden overtreft op het gebied van geometrische consistentie en waargenomen kwaliteit. Projectpagina: https://ir1d.github.io/Cavia/
LLM's worden doorgaans getraind om gebruikersvragen te beantwoorden of instructies op te volgen op een vergelijkbare manier als hoe menselijke experts reageren. Echter, in het standaard afstemmingskader ontbreekt het hen aan het basisvermogen van expliciet denken voordat ze antwoorden. Denken is belangrijk voor complexe vragen die redenering en planning vereisen - maar kan worden toegepast op elke taak. We stellen een trainingsmethode voor om bestaande LLM's uit te rusten met dergelijke denkvermogens voor algemene instructieopvolging zonder gebruik van aanvullende menselijke gegevens. Dit bereiken we door een iteratieve zoek- en optimalisatieprocedure die de ruimte van mogelijke gedachtengeneraties verkent, waardoor het model kan leren hoe te denken zonder direct toezicht. Voor elke instructie worden de gedachte-kandidaten beoordeeld met behulp van een beoordelingsmodel om alleen hun antwoorden te evalueren, en vervolgens geoptimaliseerd via voorkeurs-optimalisatie. We tonen aan dat deze procedure leidt tot superieure prestaties op AlpacaEval en Arena-Hard, en voordelen laat zien van denken bij niet-redenerende categorieën zoals marketing, gezondheid en algemene kennis, naast meer traditionele redeneer- en probleemoplostaken.
Het begrijpen van fijnmazige temporele dynamiek is cruciaal voor multimodale videobegrip en -generatie. Vanwege het gebrek aan fijnmazige temporele annotaties lijken bestaande videobenchmarks voornamelijk op statische beeldbenchmarks en zijn ze niet competent om modellen voor temporeel begrip te evalueren. In dit artikel introduceren we TemporalBench, een nieuwe benchmark die is gewijd aan het evalueren van fijnmazig temporeel begrip in video's. TemporalBench bestaat uit ~10K video vraag-antwoordparen, afgeleid van ~2K hoogwaardige menselijke annotaties die de temporele dynamiek in videoclips beschrijven. Als gevolg hiervan biedt onze benchmark een uniek testplatform voor het evalueren van verschillende temporele begrips- en redeneervaardigheden zoals actiefrequentie, bewegingsmagnitude, gebeurtenisvolgorde, enz. Bovendien maakt het evaluaties mogelijk voor verschillende taken zoals zowel video-vraagbeantwoording als bijschriften, zowel begrip van korte als lange video's, evenals verschillende modellen zoals multimodale video-embeddingmodellen en tekstgeneratiemodellen. Resultaten tonen aan dat state-of-the-art modellen zoals GPT-4o slechts 38,5% nauwkeurigheid behalen bij het beantwoorden van vragen op TemporalBench, wat een aanzienlijk verschil (~30%) aantoont tussen mensen en AI in temporeel begrip. Bovendien merken we een kritisch struikelblok op voor meerkeuzevragen waarbij LLM's de subtiele veranderingen in negatieve bijschriften kunnen detecteren en een gecentraliseerde beschrijving als aanwijzing voor hun voorspelling kunnen gebruiken, waarbij we Multiple Binary Accuracy (MBA) voorstellen om een dergelijke vooringenomenheid te corrigeren. We hopen dat TemporalBench onderzoek kan stimuleren naar het verbeteren van de temporele redeneervaardigheden van modellen. Zowel de dataset als de evaluatiecode zullen beschikbaar worden gesteld.
Het toezicht houden op fijntuning (SFT) is cruciaal voor het afstemmen van Grote Taalmodellen (LLMs) op menselijke instructies. Het primaire doel tijdens SFT is het selecteren van een klein maar representatief subset van trainingsdata uit de grotere pool, zodat fijntuning met deze subset resultaten oplevert die vergelijkbaar zijn met of zelfs beter zijn dan die verkregen met behulp van de volledige dataset. De meeste bestaande technieken voor gegevensselectie zijn echter ontworpen voor datapoelen op kleine schaal, die niet voldoen aan de eisen van SFT-scenario's in de echte wereld. In dit artikel hebben we verschillende zelfscorende methoden gerepliceerd die niet afhankelijk zijn van externe modelassistentie op datasets op de schaal van twee miljoen, en ontdekten dat bijna alle methoden moeite hadden om aanzienlijk beter te presteren dan willekeurige selectie bij het omgaan met dergelijke datapoelen op grote schaal. Bovendien suggereren onze vergelijkingen dat, tijdens SFT, diversiteit in gegevensselectie belangrijker is dan simpelweg te focussen op gegevens van hoge kwaliteit. We hebben ook de beperkingen van verschillende huidige benaderingen geanalyseerd, waarbij we uitleggen waarom ze slecht presteren op datasets op grote schaal en waarom ze ongeschikt zijn voor dergelijke contexten. Ten slotte ontdekten we dat het filteren van gegevens op tokenlengte een stabiele en efficiënte methode biedt om resultaten te verbeteren. Deze aanpak, met name bij het trainen op lange tekstgegevens, blijkt zeer gunstig te zijn voor relatief zwakkere basismodellen, zoals Llama3.
Recente grote taalmodel (GTM)-gestuurde chatassistent systemen hebben geheugencomponenten geïntegreerd om gebruiker-assistent chatgeschiedenissen bij te houden, waardoor nauwkeurigere en gepersonaliseerde reacties mogelijk zijn. Echter, hun langetermijngeheugencapaciteiten in voortdurende interacties blijven onderbelicht. Dit artikel introduceert LongMemEval, een uitgebreide benchmark ontworpen om vijf kern langetermijngeheugen vaardigheden van chatassistenten te evalueren: informatie-extractie, multi-sessie redenering, temporale redenering, kennisupdates, en onthouding. Met 500 nauwkeurig samengestelde vragen ingebed in vrij schaalbare gebruiker-assistent chatgeschiedenissen, stelt LongMemEval een aanzienlijke uitdaging aan bestaande langetermijngeheugensystemen, waarbij commerciële chatassistenten en lang-context GTM's een nauwkeurigheidsdaling van 30% tonen bij het onthouden van informatie over voortdurende interacties. Vervolgens presenteren we een verenigd kader dat het langetermijngeheugendesign opsplitst in vier ontwerpkeuzes over de indexering, opvraging, en leesfasen. Gebaseerd op belangrijke experimentele inzichten stellen we verschillende geheugendesigns voor, waaronder sessie-decompositie voor het optimaliseren van de waardegranulariteit, feit-verrijkte sleuteluitbreiding voor het verbeteren van de indexstructuur, en tijd-bewuste zoekopdrachtuitbreiding voor het verfijnen van het zoekbereik. Experimentresultaten tonen aan dat deze optimalisaties zowel het geheugenherroepen als de daaropvolgende vraagbeantwoording op LongMemEval aanzienlijk verbeteren. Over het algemeen biedt onze studie waardevolle middelen en richtlijnen voor het verbeteren van de langetermijngeheugencapaciteiten van op GTM gebaseerde chatassistenten, waarmee de weg wordt vrijgemaakt naar meer gepersonaliseerde en betrouwbare conversatie-AI.
De opkomst van grote Vision-Language Modellen (VLM's) heeft de multimodale begripsvorming aanzienlijk bevorderd, waardoor een meer geavanceerde en nauwkeurige integratie van visuele en tekstuele informatie mogelijk is geworden over verschillende taken, waaronder het bijschriften van afbeeldingen en video's, visueel vraagbeantwoording en cross-modale opvraging. Ondanks de superieure capaciteiten van VLM's, ontbreekt het onderzoekers aan een alomvattend begrip van hun compositionele vermogen - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te produceren. Voorafgaande benchmarks bieden slechts een relatief ruwe evaluatie van compositioneel vermogen vanuit het perspectief van objecten, relaties en attributen, terwijl dieper redeneren over objectinteracties, tellen en complexe composities wordt verwaarloosd. Echter, compositioneel vermogen is een essentiële vaardigheid die coherente redenering en begrip over modaliteiten vergemakkelijkt voor VLM's. Om deze beperking aan te pakken, stellen we MMCOMPOSITION voor, een nieuw menselijk-geannoteerde benchmark voor het uitgebreid en nauwkeurig evalueren van de compositionele vermogens van VLM's. Onze voorgestelde benchmark dient als aanvulling op deze eerdere werken. Met MMCOMPOSITION kunnen we de compositionele vermogens van de gangbare VLM's kwantificeren en verkennen. Verrassend genoeg vinden we dat de compositionele vermogens van GPT-4o inferieur zijn aan het beste open-source model, en we analyseren de onderliggende redenen. Onze experimentele analyse onthult de beperkingen van VLM's in fijnmazige compositionele waarneming en redenering, en wijst op gebieden voor verbetering in het ontwerp en de training van VLM's. Bronnen beschikbaar op: https://hanghuacs.github.io/MMComposition/
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties laten zien bij verschillende taken door middel van leren in context. Voor complexe redeneertaken die stapsgewijs denken vereisen, heeft Chain-of-Thought (CoT) prompting indrukwekkende resultaten opgeleverd, vooral wanneer gecombineerd met zelfconsistentie. Desalniettemin blijven sommige taken bijzonder moeilijk voor LLM's om op te lossen. Tree of Thoughts (ToT) en Graph of Thoughts (GoT) zijn naar voren gekomen als alternatieven, waarbij het complexe probleem wordt opgedeeld in paden van deelproblemen. In dit artikel stellen we Tree of Problems (ToP) voor, een eenvoudigere versie van ToT, waarvan we vermoeden dat deze beter kan werken voor complexe taken die kunnen worden opgedeeld in identieke subtaken. Onze empirische resultaten tonen aan dat onze benadering beter presteert dan ToT en GoT, en bovendien beter presteert dan CoT bij complexe redeneertaken. Alle code voor dit artikel is openbaar beschikbaar op: https://github.com/ArmelRandy/tree-of-problems.
Het implementeren van lang-context grote taalmodellen (LLMs) is essentieel maar brengt aanzienlijke computationele en geheugen uitdagingen met zich mee. Het cachen van alle Sleutel en Waarde (KV) states over alle aandachtskoppen heen vereist aanzienlijk geheugen. Bestaande KV cache snoeimethoden beschadigen ofwel de lang-context capaciteiten van LLMs of bieden slechts beperkte efficiëntieverbeteringen. In dit artikel identificeren we dat slechts een fractie van aandachtskoppen, ook wel Retrieval Heads genoemd, cruciaal zijn voor het verwerken van lange contexten en volledige aandacht vereisen over alle tokens. Daarentegen vereisen alle andere koppen, die zich voornamelijk richten op recente tokens en aandachtspunten - aangeduid als Streaming Heads - geen volledige aandacht. Op basis van deze inzichten introduceren we DuoAttention, een framework dat alleen een volledige KV-cache toepast op retrieval heads, terwijl het een lichtgewicht, constante lengte KV-cache gebruikt voor streaming heads, wat zowel het decoderen als het vooraf vullen van het geheugen en de latentie van LLM's vermindert zonder de lang-context capaciteiten in gevaar te brengen. DuoAttention maakt gebruik van een lichtgewicht, optimalisatie-gebaseerd algoritme met synthetische data om retrieval heads nauwkeurig te identificeren. Onze methode vermindert de inferentiegeheugen voor lange context aanzienlijk met maximaal 2,55x voor MHA en 1,67x voor GQA-modellen, terwijl het decoderen versneld wordt met maximaal 2,18x en 1,50x en het vooraf vullen versneld wordt met maximaal 1,73x en 1,63x voor respectievelijk MHA en GQA-modellen, met minimaal verlies aan nauwkeurigheid in vergelijking met volledige aandacht. Opmerkelijk is dat DuoAttention in combinatie met kwantisatie Llama-3-8B decodering met een contextlengte van 3,3 miljoen mogelijk maakt op een enkele A100 GPU. De code is beschikbaar op https://github.com/mit-han-lab/duo-attention.
Humanoid robots die in staat zijn tot autonome werking in diverse omgevingen zijn al lang een doel voor robotici. Echter, autonome manipulatie door humanoïde robots is grotendeels beperkt gebleven tot één specifieke scène, voornamelijk vanwege de moeilijkheid om generaliseerbare vaardigheden te verwerven. Recente ontwikkelingen in 3D visuomotor beleidslijnen, zoals het 3D Diffusiebeleid (DP3), hebben belofte getoond in het uitbreiden van deze mogelijkheden naar wildere omgevingen. Echter, 3D visuomotor beleidslijnen vertrouwen vaak op camerakalibratie en puntwolksegmentatie, die uitdagingen met zich meebrengen voor implementatie op mobiele robots zoals humanoïden. In dit werk introduceren we het Verbeterde 3D Diffusiebeleid (iDP3), een nieuw 3D visuomotor beleid dat deze beperkingen elimineert door gebruik te maken van egocentrische 3D visuele representaties. We tonen aan dat iDP3 een levensgrote humanoïde robot in staat stelt om autonoom vaardigheden uit te voeren in diverse real-world scenario's, met alleen gegevens verzameld in het laboratorium. Video's zijn beschikbaar op: https://humanoid-manipulation.github.io
Grote taalmodellen hebben indrukwekkende prestaties aangetoond wanneer ze geïntegreerd worden met visiemodellen, zelfs waardoor videobegrip mogelijk wordt. Het evalueren van deze videomodellen brengt echter unieke uitdagingen met zich mee, waarvoor verschillende benchmarks zijn voorgesteld. In dit artikel tonen we aan dat de momenteel meest gebruikte video-taal benchmarks kunnen worden opgelost zonder veel temporale redenering te vereisen. We hebben drie belangrijke problemen geïdentificeerd in bestaande datasets: (i) statische informatie van enkele frames is vaak voldoende om de taken op te lossen, (ii) de tekst van de vragen en kandidaat-antwoorden is overdreven informatief, waardoor modellen correct kunnen antwoorden zonder te vertrouwen op visuele input, (iii) alleen wereldkennis kan veel van de vragen beantwoorden, waardoor de benchmarks een test van kennisreplicatie in plaats van visuele redenering zijn. Bovendien hebben we ontdekt dat open vraag-en-antwoord benchmarks voor videobegrip te kampen hebben met vergelijkbare problemen, terwijl het automatische evaluatieproces met LLM's onbetrouwbaar is, waardoor het een ongeschikt alternatief is. Als oplossing stellen we TVBench voor, een nieuw open-source videomeerkeuzevraag-en-antwoord benchmark, en tonen we aan door uitgebreide evaluaties dat het een hoog niveau van temporale begrip vereist. Verrassend genoeg vinden we dat de meeste recente state-of-the-art video-taalmodellen vergelijkbaar presteren met willekeurige prestaties op TVBench, waarbij alleen Gemini-Pro en Tarsier duidelijk deze basislijn overtreffen.
We maken gebruik van nieuwe tools uit mechanistische interpreteerbaarheid om te onderzoeken of de interne structuur van grote taalmodellen (LLM's) overeenkomt met de linguïstische structuren die aan de talen ten grondslag liggen waarop ze zijn getraind. In het bijzonder stellen we de volgende vragen: (1) wanneer twee talen dezelfde morfosyntactische processen gebruiken, behandelen LLM's deze dan met gedeelde interne schakelingen? en (2) wanneer twee talen verschillende morfosyntactische processen vereisen, behandelen LLM's deze dan met verschillende interne schakelingen? Met behulp van Engelse en Chinese meertalige en eentalige modellen analyseren we de interne schakelingen die betrokken zijn bij twee taken. We vinden bewijs dat modellen dezelfde schakeling gebruiken om hetzelfde syntactische proces te behandelen, ongeacht de taal waarin het voorkomt, en dat dit zelfs het geval is voor eentalige modellen die volledig onafhankelijk zijn getraind. Bovendien tonen we aan dat meertalige modellen taalspecifieke componenten (aandachtsmechanismen en feedforward-netwerken) gebruiken wanneer dat nodig is om linguïstische processen (bijv. morfologische markering) te behandelen die alleen in sommige talen voorkomen. Samen bieden onze resultaten nieuwe inzichten in hoe LLM's een afweging maken tussen het benutten van gemeenschappelijke structuren en het behouden van linguïstische verschillen wanneer ze belast zijn met het modelleren van meerdere talen tegelijk.
LayerNorm is een essentieel onderdeel in moderne grote taalmodellen (LLM's) om de training te stabiliseren en een soepele optimalisatie te garanderen. Het introduceert echter aanzienlijke uitdagingen op het gebied van mechanismische interpreteerbaarheid, onderdrukking van uitschieters, trouwe signaalpropagatie, en de complexiteit op het gebied van berekening en communicatie van privé-inferentie. Dit onderzoek verkent wenselijke activatiefuncties in normalisatievrije decoder-only LLM's. In tegenstelling tot de conventionele voorkeur voor de GELU in op transformatoren gebaseerde modellen, tonen onze empirische bevindingen een tegenovergestelde trend - ReLU presteert aanzienlijk beter dan GELU in modellen zonder LayerNorm, wat leidt tot een 8,2% verbetering in perplexiteit. We ontdekken een belangrijk probleem met GELU, waarbij vroege lagen te maken hebben met entropische overbelasting, wat leidt tot onderbenutting van de representatiecapaciteit van aandachtsmechanismen. Dit benadrukt dat zachtere activaties zoals GELU niet geschikt zijn voor architecturen zonder LayerNorm, terwijl de geometrische eigenschappen van ReLU - specialisatie in de invoerruimte en intra-klasse selectiviteit - leiden tot verbeterde leerdynamiek en betere informatiebehoud in afwezigheid van LayerNorm. Dit onderzoek biedt belangrijke inzichten voor het optimaliseren van transformer-architecturen waar LayerNorm aanzienlijke uitdagingen met zich meebrengt.
We introduceren Latente Actie Pretraining voor algemene Actiemodellen (LAPA), een ongesuperviseerde methode voor het vooraf trainen van Vision-Language-Action (VLA) modellen zonder grondwaarheid robotactielabels. Bestaande Vision-Language-Action modellen vereisen actielabels die doorgaans worden verzameld door menselijke teleoperators tijdens de voorafgaande training, wat de mogelijke gegevensbronnen en schaal aanzienlijk beperkt. In dit werk stellen we een methode voor om te leren van internet-schaal video's die geen robotactielabels hebben. We trainen eerst een actiekwantisatiemodel dat gebruikmaakt van een VQ-VAE-gebaseerd doel om discrete latente acties tussen beeldframes te leren, vervolgens pretrainen we een latente VLA-model om deze latente acties te voorspellen uit observaties en taakbeschrijvingen, en finetunen we ten slotte de VLA op kleine schaal robotmanipulatiegegevens om van latente naar robotacties te mappen. Experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande technieken die robotmanipulatiebeleid trainen vanuit grootschalige video's. Bovendien presteert het beter dan het state-of-the-art VLA-model dat is getraind met robotactielabels op manipulatietaken in de echte wereld die taalconditionering vereisen, generalisatie naar ongeziene objecten, en semantische generalisatie naar ongeziene instructies. Training alleen op menselijke manipulatievideo's toont ook positieve overdracht, waardoor het potentieel ontstaat om web-schaal gegevens te benutten voor robotica foundation model.