Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Chameleon, een familie van early-fusion token-gebaseerde gemengde modale modellen die in staat zijn om afbeeldingen en tekst in elke willekeurige volgorde te begrijpen en te genereren. We schetsen een stabiele trainingsaanpak vanaf het begin, een alignatierecept en een architectuurparameterisatie die is afgestemd op de early-fusion, token-gebaseerde, gemengde modale setting. De modellen worden geëvalueerd op een uitgebreid scala aan taken, waaronder visuele vraagbeantwoording, beeldbeschrijving, tekstgeneratie, beeldgeneratie en langlopende gemengde modale generatie. Chameleon toont brede en algemene capaciteiten, waaronder state-of-the-art prestaties in beeldbeschrijvingstaken, overtreft Llama-2 in teksttaken terwijl het concurreert met modellen zoals Mixtral 8x7B en Gemini-Pro, en voert niet-triviale beeldgeneratie uit, allemaal in één model. Het evenaart of overtreft ook de prestaties van veel grotere modellen, waaronder Gemini Pro en GPT-4V, volgens menselijke beoordelingen op een nieuwe evaluatie van langlopende gemengde modale generatie, waarbij de prompt of uitvoer gemengde sequenties van zowel afbeeldingen als tekst bevat. Chameleon markeert een significante stap voorwaarts in de geünificeerde modellering van volledige multimodale documenten.
Low-Rank Adaptation (LoRA) is een veelgebruikte, parameter-efficiënte methode voor het finetunen van grote taalmodelen. LoRA bespaart geheugen door alleen laag-rang verstoringen te trainen voor geselecteerde gewichtsmatrices. In dit werk vergelijken we de prestaties van LoRA en volledig finetunen op twee doelgebieden, programmeren en wiskunde. We beschouwen zowel het finetunen met instructies (ongeveer 100K prompt-responsparen) als het voortgezet pretrainen (ongeveer 10B ongestructureerde tokens) als gegevensregimes. Onze resultaten tonen aan dat LoRA in de meeste situaties aanzienlijk minder presteert dan volledig finetunen. Desalniettemin vertoont LoRA een gewenste vorm van regularisatie: het behoudt beter de prestaties van het basismodel op taken buiten het doelgebied. We laten zien dat LoRA sterkere regularisatie biedt in vergelijking met veelgebruikte technieken zoals gewichtsverval en dropout; het helpt ook om meer diverse generaties te behouden. We tonen aan dat volledig finetunen verstoringen leert met een rang die 10-100 keer groter is dan typische LoRA-configuraties, wat mogelijk een deel van de gerapporteerde verschillen verklaart. We sluiten af met het voorstellen van best practices voor finetunen met LoRA.
Vooruitgang in 3D-reconstructie heeft hoogwaardige 3D-captatie mogelijk gemaakt, maar vereist dat een gebruiker honderden tot duizenden afbeeldingen verzamelt om een 3D-scène te creëren. Wij presenteren CAT3D, een methode om alles in 3D te creëren door dit real-world captatieproces te simuleren met een multi-view diffusiemodel. Gegeven een willekeurig aantal invoerafbeeldingen en een set doel-nieuwe gezichtspunten, genereert ons model zeer consistente nieuwe aanzichten van een scène. Deze gegenereerde aanzichten kunnen worden gebruikt als invoer voor robuuste 3D-reconstructietechnieken om 3D-representaties te produceren die vanuit elk gezichtspunt in real-time kunnen worden weergegeven. CAT3D kan volledige 3D-scènes creëren in slechts één minuut en overtreft bestaande methoden voor 3D-scènecreatie met één afbeelding of enkele aanzichten. Bekijk onze projectpagina voor resultaten en interactieve demo's op https://cat3d.github.io.
Grote taalmodellen staan bekend om hun effectiviteit bij few-shot in-context learning (ICL). Recente vooruitgang in multimodale foundationmodellen heeft ongekend lange contextvensters mogelijk gemaakt, wat een kans biedt om hun vermogen te onderzoeken om ICL uit te voeren met veel meer demonstratievoorbeelden. In dit werk evalueren we de prestaties van multimodale foundationmodellen bij het schalen van few-shot naar many-shot ICL. We benchmarken GPT-4o en Gemini 1.5 Pro over 10 datasets die meerdere domeinen beslaan (natuurlijke beelden, medische beelden, remote sensing en moleculaire beelden) en taken (multi-class, multi-label en fijnmazige classificatie). We observeren dat many-shot ICL, inclusief tot bijna 2.000 multimodale demonstratievoorbeelden, leidt tot aanzienlijke verbeteringen in vergelijking met few-shot (<100 voorbeelden) ICL over alle datasets. Verder blijft de prestaties van Gemini 1.5 Pro log-lineair verbeteren tot het maximale aantal geteste voorbeelden op veel datasets. Gezien de hoge inferentiekosten die gepaard gaan met de lange prompts die nodig zijn voor many-shot ICL, onderzoeken we ook de impact van het batchgewijs verwerken van meerdere queries in één API-aanroep. We laten zien dat het batchgewijs verwerken van tot 50 queries kan leiden tot prestatieverbeteringen onder zero-shot en many-shot ICL, met aanzienlijke winsten in de zero-shot setting op meerdere datasets, terwijl de kosten en latentie per query drastisch worden verminderd. Ten slotte meten we de ICL-data-efficiëntie van de modellen, oftewel de snelheid waarmee de modellen leren van meer demonstratievoorbeelden. We constateren dat hoewel GPT-4o en Gemini 1.5 Pro vergelijkbare zero-shot prestaties behalen over de datasets, Gemini 1.5 Pro een hogere ICL-data-efficiëntie vertoont dan GPT-4o op de meeste datasets. Onze resultaten suggereren dat many-shot ICL gebruikers in staat zou kunnen stellen om multimodale foundationmodellen efficiënt aan te passen aan nieuwe toepassingen en domeinen. Onze codebase is publiekelijk beschikbaar op https://github.com/stanfordmlgroup/ManyICL.
Dit artikel introduceert Grounding DINO 1.5, een suite van geavanceerde open-set objectdetectiemodellen ontwikkeld door IDEA Research, die als doel heeft de "Edge" van open-set objectdetectie verder te brengen. De suite omvat twee modellen: Grounding DINO 1.5 Pro, een hoogwaardig model ontworpen voor sterkere generalisatiecapaciteit in een breed scala aan scenario's, en Grounding DINO 1.5 Edge, een efficiënt model geoptimaliseerd voor hogere snelheid die vereist is in veel toepassingen die edge-implementatie vereisen. Het Grounding DINO 1.5 Pro-model verbetert zijn voorganger door de modelarchitectuur op te schalen, een verbeterde visuele backbone te integreren en de trainingsdataset uit te breiden tot meer dan 20 miljoen afbeeldingen met groundingannotaties, waardoor een rijker semantisch begrip wordt bereikt. Het Grounding DINO 1.5 Edge-model, hoewel ontworpen voor efficiëntie met gereduceerde featureschalen, behoudt robuuste detectiecapaciteiten door te worden getraind op dezelfde uitgebreide dataset. Empirische resultaten tonen de effectiviteit van Grounding DINO 1.5 aan, waarbij het Grounding DINO 1.5 Pro-model een 54.3 AP behaalt op de COCO-detectiebenchmark en een 55.7 AP op de LVIS-minival zero-shot transferbenchmark, waarmee nieuwe records worden gevestigd voor open-set objectdetectie. Bovendien bereikt het Grounding DINO 1.5 Edge-model, wanneer geoptimaliseerd met TensorRT, een snelheid van 75.2 FPS terwijl het een zero-shot prestatie van 36.2 AP behaalt op de LVIS-minival benchmark, waardoor het geschikter wordt voor edge computing-scenario's. Modelvoorbeelden en demo's met API zullen worden vrijgegeven op https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
In dit werk herstellen we de onderliggende 3D-structuur van niet-geometrisch consistente scènes. We richten onze analyse op handgetekende afbeeldingen uit tekenfilms en anime. Veel tekenfilms worden door kunstenaars gemaakt zonder een 3D-renderingengine, wat betekent dat elke nieuwe afbeelding van een scène handmatig wordt getekend. De handgetekende afbeeldingen zijn meestal getrouwe weergaven van de wereld, maar alleen in kwalitatieve zin, omdat het voor mensen moeilijk is om meerdere perspectieven van een object of scène 3D-consistent te tekenen. Desalniettemin kunnen mensen gemakkelijk 3D-scènes waarnemen uit inconsistente invoer! In dit werk corrigeren we 2D-tekeninconsistenties om een plausibele 3D-structuur te herstellen, zodat de nieuw vervormde tekeningen consistent met elkaar zijn. Onze pijplijn bestaat uit een gebruiksvriendelijk annotatietool, camerapose-schatting en beeldvervorming om een dichte structuur te herstellen. Onze methode vervormt afbeeldingen om een perspectiefcameramodel te volgen, waardoor onze uitgelijnde resultaten kunnen worden aangesloten op reconstructiemethoden voor nieuwe-weergave-synthese om tekenfilms te ervaren vanuit gezichtspunten die nooit eerder zijn getekend. Onze projectpagina is https://toon3d.studio/.
We presenteren Dual3D, een nieuw tekst-naar-3D-generatieframework dat hoogwaardige 3D-assets genereert uit tekst in slechts 1 minuut. Het belangrijkste onderdeel is een dual-mode multi-view latent diffusiemodel. Gegeven de ruisachtige multi-view latenten, kan de 2D-modus deze efficiënt denoisen met een enkel latent denoising-netwerk, terwijl de 3D-modus een tri-plane neurale oppervlakte kan genereren voor consistente rendering-gebaseerde denoising. De meeste modules voor beide modi zijn afgestemd vanuit een vooraf getraind tekst-naar-beeld latent diffusiemodel om de hoge kosten van training vanaf nul te omzeilen. Om de hoge renderingkosten tijdens inferentie te overwinnen, stellen we de dual-mode toggling inferentiestrategie voor om slechts 1/10 denoisingstappen met de 3D-modus te gebruiken, waardoor succesvol een 3D-asset wordt gegenereerd in slechts 10 seconden zonder kwaliteitsverlies. De textuur van het 3D-asset kan verder worden verbeterd door ons efficiënte textuurverfijningsproces in korte tijd. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties levert terwijl de generatietijd aanzienlijk wordt verkort. Onze projectpagina is beschikbaar op https://dual3d.github.io.
Leren in simulatie en het overzetten van het geleerde beleid naar de echte wereld heeft het potentieel om generalistische robots mogelijk te maken. De belangrijkste uitdaging van deze aanpak is het aanpakken van simulatie-naar-realiteit (sim-to-real) verschillen. Eerdere methoden vereisen vaak domeinspecifieke kennis a priori. Wij stellen dat een rechtstreekse manier om dergelijke kennis te verkrijgen is door mensen te vragen om het uitvoeren van robotbeleid in de echte wereld te observeren en te assisteren. De robots kunnen dan leren van mensen om verschillende sim-to-real verschillen te overbruggen. Wij stellen TRANSIC voor, een data-gedreven aanpak om succesvolle sim-to-real overdracht mogelijk te maken op basis van een human-in-the-loop raamwerk. TRANSIC stelt mensen in staat om simulatiebeleid aan te vullen om verschillende ongemodelleerde sim-to-real verschillen holistisch te overwinnen door interventie en online correctie. Residueel beleid kan worden geleerd uit menselijke correcties en geïntegreerd worden met simulatiebeleid voor autonome uitvoering. Wij tonen aan dat onze aanpak succesvolle sim-to-real overdracht kan bereiken in complexe en contactrijke manipulatietaken zoals meubelmontage. Door de synergetische integratie van beleid geleerd in simulatie en van mensen, is TRANSIC effectief als een holistische aanpak om verschillende, vaak samen voorkomende sim-to-real verschillen aan te pakken. Het vertoont aantrekkelijke eigenschappen zoals schaalbaarheid met menselijke inspanning. Video's en code zijn beschikbaar op https://transic-robot.github.io/