Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Pangu Ultra, een Large Language Model (LLM) met 135 miljard parameters en dichte Transformer-modules die zijn getraind op Ascend Neural Processing Units (NPU's). Hoewel het veld van LLM de afgelopen jaren ongekende vooruitgang heeft geboekt in het vergroten van de schaal en capaciteit van LLM's, blijft het trainen van zo'n grootschalig model aanzienlijke optimalisatie- en systeemuitdagingen met zich meebrengen. Om het trainingsproces te stabiliseren, introduceren we depth-scaled sandwich-normalisatie, die effectief verliespieken tijdens het trainen van diepe modellen elimineert. We pre-trainen ons model op 13,2 biljoen diverse en hoogwaardige tokens en verbeteren verder zijn redeneervermogen tijdens post-training. Om zo'n grootschalige training efficiënt uit te voeren, maken we gebruik van 8.192 Ascend NPU's met een reeks systeemoptimalisaties. Evaluaties op meerdere diverse benchmarks tonen aan dat Pangu Ultra de state-of-the-art capaciteiten van dichte LLM's zoals Llama 405B en Mistral Large 2 aanzienlijk verbetert, en zelfs competitieve resultaten behaalt met DeepSeek-R1, wiens sparse modelstructuur aanzienlijk meer parameters bevat. Onze verkenning toont aan dat Ascend NPU's in staat zijn om dichte modellen met meer dan 100 miljard parameters efficiënt en effectief te trainen. Ons model en systeem zullen beschikbaar zijn voor onze commerciële klanten.
We presenteren Kimi-VL, een efficiënt open-source Mixture-of-Experts (MoE) vision-language model (VLM) dat geavanceerde multimodale redeneervaardigheden, lang-contextbegrip en sterke agentmogelijkheden biedt - terwijl slechts 2,8B parameters in de taaldecoder worden geactiveerd (Kimi-VL-A3B). Kimi-VL toont sterke prestaties in uitdagende domeinen: als een algemeen VLM blinkt Kimi-VL uit in multi-turn agenttaken (bijv. OSWorld), waarbij het de vlaggenschipmodellen evenaart. Bovendien vertoont het opmerkelijke capaciteiten in diverse uitdagende vision-language taken, waaronder begrip van universiteitsniveau voor afbeeldingen en video's, OCR, wiskundig redeneren en multi-image begrip. In vergelijkende evaluaties concurreert het effectief met state-of-the-art efficiënte VLMs zoals GPT-4o-mini, Qwen2.5-VL-7B en Gemma-3-12B-IT, terwijl het GPT-4o in verschillende belangrijke domeinen overtreft. Kimi-VL maakt ook vooruitgang in het verwerken van lange contexten en het helder waarnemen. Met een uitgebreid contextvenster van 128K kan Kimi-VL diverse lange invoeren verwerken, waarbij het indrukwekkende scores behaalt van 64,5 op LongVideoBench en 35,1 op MMLongBench-Doc. De native-resolutie vision encoder, MoonViT, stelt het model in staat om ultra-hoge-resolutie visuele invoeren te zien en te begrijpen, waarbij het 83,2 op InfoVQA en 34,5 op ScreenSpot-Pro behaalt, terwijl het de rekenkosten voor veelvoorkomende taken laag houdt. Gebaseerd op Kimi-VL introduceren we een geavanceerde lang-denken variant: Kimi-VL-Thinking. Dit model, ontwikkeld door middel van lange chain-of-thought (CoT) supervised fine-tuning (SFT) en reinforcement learning (RL), vertoont sterke langetermijnredeneervaardigheden. Het behaalt scores van 61,7 op MMMU, 36,8 op MathVision en 71,3 op MathVista, terwijl het de compacte 2,8B geactiveerde LLM-parameters behoudt, waarmee het een nieuwe standaard zet voor efficiënte multimodale denkmodellen. Code en modellen zijn publiek toegankelijk op https://github.com/MoonshotAI/Kimi-VL.
Grote Redeneermodellen zoals DeepSeek-R1 markeren een fundamentele verschuiving in hoe LLM's complexe problemen benaderen. In plaats van direct een antwoord te produceren voor een gegeven invoer, creëert DeepSeek-R1 gedetailleerde meerstaps redeneerketens, waarbij het lijkt alsof het model "nadenkt" over een probleem voordat het een antwoord geeft. Dit redeneerproces is openbaar beschikbaar voor de gebruiker, wat eindeloze mogelijkheden biedt om het redeneergedrag van het model te bestuderen en het vakgebied van Thoughtology te openen. Uitgaande van een taxonomie van de basisbouwstenen van redeneren van DeepSeek-R1, onderzoeken onze analyses de impact en beheersbaarheid van de lengte van gedachten, het omgaan met lange of verwarrende contexten, culturele en veiligheidszorgen, en de status van DeepSeek-R1 ten opzichte van cognitieve fenomenen, zoals mensachtige taalverwerking en wereldmodellering. Onze bevindingen schetsen een genuanceerd beeld. Opmerkelijk is dat we aantonen dat DeepSeek-R1 een 'sweet spot' van redeneren heeft, waarbij extra inferentietijd de modelprestaties kan verslechteren. Bovendien constateren we een neiging van DeepSeek-R1 om hardnekkig te blijven piekeren over eerder verkende probleemformuleringen, wat verder onderzoek belemmert. We merken ook sterke veiligheidskwetsbaarheden op van DeepSeek-R1 in vergelijking met zijn niet-redenerende tegenhanger, wat ook veiligheidsafgestemde LLM's in gevaar kan brengen.
Mixture-of-Experts (MoE) Large Language Models (LLMs) lijden onder sterk suboptimale expertpaden—onze studie toont aan dat de naïeve expertselectie die tijdens het vooraf trainen wordt geleerd, een verrassende nauwkeurigheidskloof van 10-20% achterlaat voor verbetering. Gemotiveerd door deze observatie ontwikkelen we een nieuwe klasse van optimalisatiemethoden tijdens de testfase om de experts in verschillende lagen gezamenlijk te herwegen of "her-mixen" voor elk testsample. Omdat de grondwaarheid van het testsample onbekend is, stellen we voor om een surrogaatdoel te optimaliseren dat wordt gedefinieerd door de "succesvolle buren" van het sample uit een referentieset van samples. We introduceren drie surrogaten en algoritmen gebaseerd op modusvinden, kernelregressie en het gemiddelde verlies van vergelijkbare referentiesamples/taken. Om de kosten van het optimaliseren van hele paden te verminderen, passen we onze algoritmen alleen toe op de menggewichten van de kernexperts in kritieke lagen, wat vergelijkbare prestaties oplevert maar aanzienlijke rekenkracht bespaart. Dit leidt tot "Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)". We passen C3PO toe op twee recente MoE LLMs en onderzoeken het op zes veelgebruikte benchmarks. Het verbetert het basismodel consistent met 7-15% in nauwkeurigheid en overtreft veelgebruikte leerbaselines tijdens de testfase, zoals in-context leren en prompt/prefix tuning, met een grote marge. Bovendien stelt C3PO MoE LLMs met 1-3B actieve parameters in staat om LLMs van 7-9B parameters te overtreffen, waardoor de efficiëntievoordelen van MoE worden verbeterd. Onze grondige ablatiestudie werpt verder nieuw licht op het bereiken van verbetering tijdens de testfase op MoE.
Recente vooruitgang in diffusiemodellen heeft verschillende beeldgeneratietaken aanzienlijk verbeterd. De huidige mainstream aanpak blijft echter gericht op het bouwen van taakspecifieke modellen, die beperkte efficiëntie hebben bij het ondersteunen van een breed scala aan verschillende behoeften. Hoewel universele modellen proberen deze beperking aan te pakken, worden ze geconfronteerd met kritieke uitdagingen, waaronder generaliseerbare taakinstructies, geschikte taakverdelingen en een uniforme architectuurontwerp. Om deze uitdagingen aan te pakken, stellen we VisualCloze voor, een universeel beeldgeneratiekader dat een breed scala aan domeinspecifieke taken ondersteunt, generalisatie naar onbekende taken, de onbekende unificatie van meerdere taken en omgekeerde generatie mogelijk maakt. In tegenstelling tot bestaande methoden die vertrouwen op taalgebaseerde taakinstructies, wat leidt tot taakambiguïteit en zwakke generalisatie, integreren we visueel in-context leren, waardoor modellen taken kunnen identificeren aan de hand van visuele demonstraties. Tegelijkertijd belemmert de inherente schaarste van visuele taakverdelingen het leren van overdraagbare kennis tussen taken. Daarom introduceren we Graph200K, een grafisch gestructureerde dataset die verschillende onderling gerelateerde taken vaststelt, waardoor de taakdichtheid en overdraagbare kennis worden verbeterd. Bovendien ontdekken we dat onze uniforme beeldgeneratieformulering een consistent doel deelt met beeldinvulling, waardoor we de sterke generatieve prioriteiten van vooraf getrainde invullingsmodellen kunnen benutten zonder de architectuur aan te passen.
De vooruitgang in Chain-of-Thought (CoT) redenering heeft de mogelijkheden van grote taalmmodellen (LLMs) en grote visueel-taalmmodellen (LVLMs) aanzienlijk verbeterd. Er ontbreekt echter een rigoureus evaluatiekader voor video CoT-redenering. Bestaande videobenchmarks slagen er niet in om het redeneerproces adequaat te beoordelen en bloot te leggen of fouten voortkomen uit tekortkomingen in perceptie of redeneervaardigheden. Daarom introduceren we VCR-Bench, een nieuwe benchmark die is ontworpen om de Video Chain-of-Thought Redeneervaardigheden van LVLMs uitgebreid te evalueren. VCR-Bench bestaat uit 859 video's die een verscheidenheid aan video-inhoud en -duur beslaan, samen met 1.034 hoogwaardige vraag-antwoordparen. Elk paar is handmatig geannoteerd met een stapsgewijze CoT-redenering, waarbij elke stap is gelabeld om de associatie met perceptie- of redeneervaardigheden aan te geven. Bovendien ontwerpen we zeven verschillende taakdimensies en introduceren we de CoT-score om het gehele CoT-proces te beoordelen op basis van de stapsgewijs gelabelde CoT-redeneringen. Uitgebreide experimenten op VCR-Bench benadrukken aanzienlijke beperkingen in huidige LVLMs. Zelfs het best presterende model, o1, behaalt slechts een CoT-score van 62,8% en een nauwkeurigheid van 56,7%, terwijl de meeste modellen onder de 40% scoren. Experimenten tonen aan dat de meeste modellen lager scoren op perceptie dan op redeneerstappen, wat de belangrijkste bottleneck van LVLMs blootlegt in het verwerken van temporeel-ruimtelijke informatie voor complexe videoredenering. Een sterke positieve correlatie tussen de CoT-score en nauwkeurigheid bevestigt de geldigheid van ons evaluatiekader en onderstreept de cruciale rol van CoT-redenering bij het oplossen van complexe videoredeneertaken. We hopen dat VCR-Bench zal dienen als een gestandaardiseerd evaluatiekader en de daadwerkelijke tekortkomingen in complexe videoredeneertaken blootlegt.
De Instructievolgende (IF) vaardigheid meet hoe goed Multi-modale Grote Taalmodellen (MLLMs) precies begrijpen wat gebruikers hen vertellen en of ze het correct uitvoeren. Bestaande multimodale trainingsdata voor instructievolgen is schaars, de benchmarks zijn eenvoudig met atomische instructies, en de evaluatiestrategieën zijn onnauwkeurig voor taken die exacte uitvoerbeperkingen vereisen. Om dit aan te pakken, presenteren we MM-IFEngine, een effectieve pijplijn om hoogwaardige afbeelding-instructieparen te genereren. Onze MM-IFEngine pijplijn levert grootschalige, diverse en hoogwaardige trainingsdata MM-IFInstruct-23k op, die geschikt is voor Supervised Fine-Tuning (SFT) en uitgebreid wordt als MM-IFDPO-23k voor Direct Preference Optimization (DPO). We introduceren verder MM-IFEval, een uitdagende en diverse multimodale instructievolgende benchmark die (1) zowel compose-level beperkingen voor uitvoerresponsen als perceptie-level beperkingen gekoppeld aan de invoerafbeeldingen omvat, en (2) een uitgebreide evaluatiepijplijn die zowel regelgebaseerde beoordeling als een beoordelingsmodel incorporeert. We voeren SFT en DPO experimenten uit en tonen aan dat het finetunen van MLLMs op MM-IFInstruct-23k en MM-IFDPO-23k aanzienlijke verbeteringen oplevert op verschillende IF benchmarks, zoals MM-IFEval (+10,2%), MIA (+7,6%) en IFEval (+12,3%). De volledige data en evaluatiecode zullen worden vrijgegeven op https://github.com/SYuan03/MM-IFEngine.
Het bouwen van algemene modellen die de wereld effectief kunnen waarnemen via multimodale signalen is een lang gekoesterd doel. Huidige benaderingen omvatten het integreren van apart voorgetrainde componenten, zoals het verbinden van visuele encoders met LLM's en het voortzetten van multimodale training. Hoewel dergelijke benaderingen opmerkelijke steekproefefficiëntie vertonen, blijft het een open vraag of dergelijke late-fusie-architecturen inherent superieur zijn. In dit werk herzien we het ontwerp van native multimodale modellen (NMM's)—die vanaf de grond zijn getraind op alle modaliteiten—en voeren we een uitgebreide studie naar schaalwetten uit, waarbij we 457 getrainde modellen met verschillende architecturen en trainingsmengsels bestrijken. Ons onderzoek onthult geen inherent voordeel van late-fusie-architecturen ten opzichte van vroege-fusie-architecturen, die niet afhankelijk zijn van beeldencoders. Integendeel, vroege-fusie vertoont sterkere prestaties bij lagere parameteraantallen, is efficiënter om te trainen en is gemakkelijker te implementeren. Gemotiveerd door de sterke prestaties van de vroege-fusie-architecturen, laten we zien dat het incorporeren van Mixture of Experts (MoEs) modellen mogelijk maakt die modaliteitsspecifieke gewichten leren, wat de prestaties aanzienlijk verbetert.
3D amodale partsegmentatie—het ontbinden van een 3D-vorm in complete, semantisch betekenisvolle delen, zelfs wanneer deze verborgen zijn—is een uitdagende maar cruciale taak voor het creëren en begrijpen van 3D-inhoud. Bestaande methoden voor 3D-partsegmentatie identificeren alleen zichtbare oppervlaktepatches, wat hun bruikbaarheid beperkt. Geïnspireerd door 2D amodale segmentatie, introduceren we deze nieuwe taak in het 3D-domein en stellen we een praktische, tweestapsaanpak voor, waarbij we de belangrijkste uitdagingen aanpakken van het afleiden van verborgen 3D-geometrie, het behouden van globale vormconsistentie en het omgaan met diverse vormen met beperkte trainingsdata. Eerst maken we gebruik van bestaande 3D-partsegmentatie om initiële, onvolledige partsegmenten te verkrijgen. Vervolgens introduceren we HoloPart, een nieuw op diffusie gebaseerd model, om deze segmenten aan te vullen tot volledige 3D-delen. HoloPart maakt gebruik van een gespecialiseerde architectuur met lokale aandacht om fijnmazige partgeometrie vast te leggen en globale vormcontextaandacht om de algehele vormconsistentie te waarborgen. We introduceren nieuwe benchmarks gebaseerd op de ABO- en PartObjaverse-Tiny-datasets en tonen aan dat HoloPart aanzienlijk beter presteert dan state-of-the-art vormaanvulmethoden. Door HoloPart te integreren met bestaande segmentatietechnieken, behalen we veelbelovende resultaten op het gebied van 3D amodale partsegmentatie, wat nieuwe mogelijkheden opent voor toepassingen in geometriebewerking, animatie en materiaaltoewijzing.
In dit artikel presenteren we een effectieve methode om visueel redeneren te verbeteren met aanzienlijk minder trainingsvoorbeelden, waarbij we uitsluitend vertrouwen op zelfverbetering zonder kennisdistillatie. Onze belangrijkste inzicht is dat de moeilijkheidsgraad van trainingsgegevens tijdens reinforcement fine-tuning (RFT) cruciaal is. Geschikt uitdagende voorbeelden kunnen de redeneervaardigheden aanzienlijk verbeteren, zelfs wanneer de dataset klein is. Hoewel dit intuïtief lijkt, blijft de belangrijkste uitdaging het nauwkeurig kwantificeren van de moeilijkheidsgraad van voorbeelden om effectieve datafiltering mogelijk te maken. Hiertoe stellen we een nieuwe manier voor om Monte Carlo Tree Search (MCTS) te hergebruiken om dit te bereiken. Uitgaande van onze gecureerde 70k open-source trainingsvoorbeelden, introduceren we een MCTS-gebaseerde selectiemethode die de moeilijkheidsgraad van voorbeelden kwantificeert op basis van het aantal iteraties dat de VLMs nodig hebben om elk probleem op te lossen. Deze expliciete stap-voor-stap redenering in MCTS dwingt het model om langer na te denken en identificeert beter de voorbeelden die echt uitdagend zijn. We filteren en behouden 11k voorbeelden om RFT uit te voeren op Qwen2.5-VL-7B-Instruct, wat resulteert in ons uiteindelijke model, ThinkLite-VL. Evaluatieresultaten op acht benchmarks tonen aan dat ThinkLite-VL de gemiddelde prestaties van Qwen2.5-VL-7B-Instruct met 7% verbetert, waarbij slechts 11k trainingsvoorbeelden worden gebruikt zonder kennisdistillatie. Dit overtreft aanzienlijk alle bestaande 7B-niveau redeneer-VLMs, en onze redelijk vergelijkbare baselines die klassieke selectiemethoden gebruiken, zoals nauwkeurigheidsgebaseerde filtering. Opvallend is dat ThinkLite-VL-7B op MathVista een SoTA-nauwkeurigheid van 75,1 bereikt, waarmee Qwen2.5-VL-72B, GPT-4o en O1 worden overtroffen. Onze code, gegevens en model zijn beschikbaar op https://github.com/si0wang/ThinkLite-VL.
We presenteren een nieuw, open-source simulatiekader voor sociale netwerken, MOSAIC, waarbij generatieve taalagentschappen gebruikersgedrag voorspellen, zoals het leuk vinden, delen en markeren van content. Deze simulatie combineert LLM-agentschappen met een gerichte sociale grafiek om opkomende misleidende gedragingen te analyseren en een beter inzicht te krijgen in hoe gebruikers de waarheidsgetrouwheid van online sociale content bepalen. Door gebruikersrepresentaties te construeren op basis van diverse, fijnmazige persona's, maakt ons systeem multi-agent simulaties mogelijk die de verspreiding van content en engagementdynamieken op grote schaal modelleren. Binnen dit kader evalueren we drie verschillende strategieën voor contentmoderatie met gesimuleerde verspreiding van desinformatie, en we ontdekken dat deze niet alleen de verspreiding van niet-feitelijke content verminderen, maar ook het gebruikersengagement vergroten. Daarnaast analyseren we de trajecten van populaire content in onze simulaties en onderzoeken we of de gearticuleerde redeneringen van de simulatieagentschappen voor hun sociale interacties daadwerkelijk overeenkomen met hun collectieve engagementpatronen. We maken onze simulatiesoftware open-source om verder onderzoek binnen AI en sociale wetenschappen te stimuleren.
Ondanks de bestaande evolutie van Multimodale Grote Taalmodellen (MLLMs), blijft een niet te verwaarlozen beperking bestaan in hun moeite met visuele tekstverankering, vooral in tekstrijke afbeeldingen van documenten. Documentafbeeldingen, zoals gescande formulieren en infographics, benadrukken kritieke uitdagingen vanwege hun complexe lay-outs en tekstuele inhoud. Huidige benchmarks pakken deze uitdagingen echter niet volledig aan, aangezien ze zich voornamelijk richten op visuele verankering in natuurlijke afbeeldingen in plaats van tekstrijke documentafbeeldingen. Om deze kloof te overbruggen, introduceren we TRIG, een nieuwe taak met een nieuw ontworpen instructiedataset voor het benchmarken en verbeteren van de tekstrijke beeldverankeringscapaciteiten van MLLMs in documentvraag-antwoordtaken. Specifiek stellen we een OCR-LLM-mens-interactiepijplijn voor om 800 handmatig geannoteerde vraag-antwoordparen te creëren als benchmark en een grootschalige trainingset van 90$ synthetische data gebaseerd op vier diverse datasets. Een uitgebreide evaluatie van verschillende MLLMs op onze voorgestelde benchmark onthult aanzienlijke beperkingen in hun verankeringscapaciteit op tekstrijke afbeeldingen. Daarnaast stellen we twee eenvoudige en effectieve TRIG-methoden voor, gebaseerd op algemene instructieafstemming en plug-and-play efficiënte embedding, respectievelijk. Door MLLMs af te stemmen op onze synthetische dataset, verbeteren ze veelbelovend hun ruimtelijke redeneer- en verankeringscapaciteiten.
Bestaande benaderingen voor het beheersen van tekst-naar-beeld diffusiemodellen, hoewel krachtig, bieden geen expliciete 3D objectgerichte controle, zoals precieze controle over de oriëntatie van objecten. In dit werk pakken we het probleem aan van multi-object oriëntatiecontrole in tekst-naar-beeld diffusiemodellen. Dit maakt het mogelijk om diverse multi-object scènes te genereren met precieze oriëntatiecontrole voor elk object. Het kernidee is om het diffusiemodel te conditioneren met een set oriëntatiebewuste kompastokens, één voor elk object, samen met teksttokens. Een lichtgewicht encoder-netwerk voorspelt deze kompastokens op basis van de objectoriëntatie als invoer. Het model wordt getraind op een synthetische dataset van procedureel gegenereerde scènes, elk met één of twee 3D-assets op een effen achtergrond. Directe training van dit framework resulteert echter in slechte oriëntatiecontrole en leidt tot verstrengeling tussen objecten. Om dit te verhelpen, grijpen we in tijdens het generatieproces en beperken we de cross-attention maps van elke kompastoken tot de corresponderende objectregio's. Het getrainde model is in staat om precieze oriëntatiecontrole te bereiken voor a) complexe objecten die niet tijdens de training zijn gezien en b) multi-object scènes met meer dan twee objecten, wat wijst op sterke generalisatiecapaciteiten. Bovendien, wanneer gecombineerd met personalisatiemethoden, controleert onze methode precies de oriëntatie van het nieuwe object in diverse contexten. Onze methode bereikt state-of-the-art oriëntatiecontrole en tekstafstemming, gekwantificeerd met uitgebreide evaluaties en een gebruikersstudie.
We introduceren Geo4D, een methode om videodiffusiemodellen te hergebruiken voor monoculaire 3D-reconstructie van dynamische scènes. Door gebruik te maken van het sterke dynamische voorafgaande model dat door dergelijke videomodellen wordt vastgelegd, kan Geo4D worden getraind met alleen synthetische data, terwijl het goed generaliseert naar echte data op een zero-shot-manier. Geo4D voorspelt verschillende complementaire geometrische modaliteiten, namelijk punt-, diepte- en straal kaarten. Het gebruikt een nieuw multi-modale uitlijningsalgoritme om deze modaliteiten, evenals meerdere schuivende vensters, tijdens de inferentie uit te lijnen en te fuseren, waardoor een robuuste en nauwkeurige 4D-reconstructie van lange video's wordt verkregen. Uitgebreide experimenten over meerdere benchmarks tonen aan dat Geo4D de state-of-the-art methoden voor videodiepteschatting aanzienlijk overtreft, inclusief recente methoden zoals MonST3R, die ook zijn ontworpen om dynamische scènes te verwerken.
Huidige monoscopische 3D-detectoren worden beperkt door de beperkte diversiteit en schaal van real-world datasets. Hoewel data-augmentatie zeker helpt, is het bijzonder moeilijk om realistische, scènebewuste augmented data te genereren voor buitenomgevingen. De meeste huidige benaderingen voor synthetische datageneratie richten zich op realistische objectweergave door verbeterde renderingtechnieken. Wij tonen echter aan dat waar en hoe objecten worden geplaatst net zo cruciaal is voor het trainen van effectieve monoscopische 3D-detectoren. Het belangrijkste obstakel ligt in het automatisch bepalen van realistische plaatsingsparameters voor objecten - inclusief positie, afmetingen en richtingsuitlijning bij het introduceren van synthetische objecten in werkelijke scènes. Om dit aan te pakken, introduceren we MonoPlace3D, een nieuw systeem dat de 3D-scène-inhoud in overweging neemt om realistische augmentaties te creëren. Specifiek leert MonoPlace3D, gegeven een achtergrondscène, een verdeling over plausibele 3D-boundingboxes. Vervolgens renderen we realistische objecten en plaatsen ze volgens de locaties die zijn bemonsterd uit de geleerde verdeling. Onze uitgebreide evaluatie op twee standaarddatasets, KITTI en NuScenes, toont aan dat MonoPlace3D de nauwkeurigheid van meerdere bestaande monoscopische 3D-detectoren aanzienlijk verbetert, terwijl het zeer data-efficiënt is.
Het volgen van elk punt (TAP) in een video is een uitdagend computer vision-probleem met veel bewezen toepassingen in robotica, videobewerking en 3D-reconstructie. Bestaande methoden voor TAP zijn sterk afhankelijk van complexe, tracking-specifieke inductieve biases en heuristieken, wat hun algemeenheid en potentieel voor schaalbaarheid beperkt. Om deze uitdagingen aan te pakken, presenteren we TAPNext, een nieuwe aanpak die TAP behandelt als sequentiële gedecodeerde gemaskeerde tokens. Ons model is causaal, werkt volledig online en verwijdert tracking-specifieke inductieve biases. Hierdoor kan TAPNext werken met minimale latentie en wordt de temporele vensterverwerking die veel state-of-the-art trackers vereisen, overbodig. Ondanks zijn eenvoud bereikt TAPNext een nieuwe state-of-the-art trackingprestatie, zowel bij online als offline trackers. Tot slot presenteren we bewijs dat veel veelgebruikte trackingheuristieken van nature ontstaan in TAPNext door end-to-end training.