Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Lang-context capaciteit is cruciaal voor multi-modale foundation modellen. Wij introduceren LongVILA, een full-stack oplossing voor lang-context vision-language modellen, inclusief systeem, modeltraining en datasetontwikkeling. Aan de systeemzijde introduceren we het eerste Multi-Modal Sequence Parallelism (MM-SP) systeem dat lang-context training en inferentie mogelijk maakt, waardoor training met een contextlengte van 2M op 256 GPU's mogelijk wordt. MM-SP is ook efficiënt, met een snelheid die 2.1x tot 5.7x hoger ligt dan Ring-Style Sequence Parallelism en 1.1x tot 1.4x hoger dan Megatron-LM in tekst-only instellingen. Bovendien integreert het naadloos met Hugging Face Transformers. Voor modeltraining stellen we een vijfstappenpijplijn voor, bestaande uit alignment, pre-training, contextextensie en lang-kort gezamenlijke supervised fine-tuning. Wat betreft datasets, construeren we zorgvuldig grootschalige visuele taal pre-training datasets en lange video instructie-volgende datasets om ons multi-stappen trainingsproces te ondersteunen. De full-stack oplossing breidt het haalbare aantal frames van VILA uit met een factor 128 (van 8 naar 1024 frames) en verbetert de lange video captioning score van 2.00 naar 3.26 (1.6x), waarbij een nauwkeurigheid van 99.5% wordt bereikt in een 1400-frames video (274k contextlengte) needle in a haystack. LongVILA-8B toont ook een consistente verbetering in prestaties op lange video's binnen de VideoMME benchmark naarmate het aantal videoframes toeneemt.
Open-world 3D-reconstructiemodellen hebben recentelijk aanzienlijke aandacht gekregen. Zonder voldoende 3D-inductieve bias brengen bestaande methoden echter doorgaans hoge trainingskosten met zich mee en hebben ze moeite om hoogwaardige 3D-meshes te extraheren. In dit werk introduceren we MeshFormer, een sparse-view reconstructiemodel dat expliciet gebruikmaakt van 3D-native structuur, invoerbegeleiding en trainingssupervisie. In plaats van een triplane-representatie te gebruiken, slaan we features op in 3D sparse voxels en combineren we transformers met 3D-convoluties om een expliciete 3D-structuur en projectieve bias te benutten. Naast sparse-view RGB-invoer vereisen we dat het netwerk invoer accepteert en corresponderende normal maps genereert. De invoer-normal maps kunnen worden voorspeld door 2D-diffusiemodellen, wat de begeleiding en verfijning van de geometrie-aanzienlijk ondersteunt. Bovendien leren we door Signed Distance Function (SDF)-supervisie te combineren met surface rendering direct hoogwaardige meshes te genereren zonder complexe meerfasige trainingsprocessen. Door deze expliciete 3D-biases te integreren, kan MeshFormer efficiënt worden getraind en levert het hoogwaardige getextureerde meshes met fijnmazige geometrische details. Het kan ook worden geïntegreerd met 2D-diffusiemodellen om snelle single-image-to-3D en text-to-3D taken mogelijk te maken. Projectpagina: https://meshformer3d.github.io
Robuuste en nauwkeurige segmentatie van scènes is een kernfunctionaliteit geworden in diverse visuele herkenning- en navigatietaken. Dit heeft de recente ontwikkeling van het Segment Anything Model (SAM) geïnspireerd, een foundation model voor algemene maskersegmentatie. SAM is echter grotendeels afgestemd op enkelvoudige modale RGB-afbeeldingen, wat de toepasbaarheid ervan beperkt op multimodale data die wordt vastgelegd met veelgebruikte sensorsuites, zoals LiDAR plus RGB, diepte plus RGB, thermisch plus RGB, enz. Wij ontwikkelen MM-SAM, een uitbreiding en expansie van SAM die cross-modale en multimodale verwerking ondersteunt voor robuuste en verbeterde segmentatie met verschillende sensorsuites. MM-SAM beschikt over twee belangrijke ontwerpen, namelijk onbewaakte cross-modale overdracht en zwak bewaakte multimodale fusie, waardoor label-efficiënte en parameter-efficiënte aanpassing naar diverse sensormodaliteiten mogelijk wordt. Het adresseert drie hoofduitdagingen: 1) aanpassing naar diverse niet-RGB-sensoren voor enkelvoudige modale verwerking, 2) synergetische verwerking van multimodale data via sensorfusie, en 3) maskervrije training voor verschillende downstreamtaken. Uitgebreide experimenten tonen aan dat MM-SAM consistent met grote marges beter presteert dan SAM, wat de effectiviteit en robuustheid ervan aantoont over diverse sensoren en datamodaliteiten.
Chipontwerp is sterk afhankelijk van het genereren van Booleaanse schakelingen, zoals AND-Inverter Graphs (AIGs), vanuit functionele beschrijvingen zoals waarheidstabellen. Hoewel recente vooruitgang in deep learning gericht is op het versnellen van schakelingsontwerp, hebben deze inspanningen zich vooral gericht op taken anders dan synthese, en hebben traditionele heuristische methoden een plateau bereikt. In dit artikel introduceren we ShortCircuit, een nieuwe transformer-gebaseerde architectuur die gebruikmaakt van de structurele eigenschappen van AIGs en efficiënte ruimteverkenning uitvoert. In tegenstelling tot eerdere benaderingen die end-to-end generatie van logische schakelingen probeerden met behulp van deep networks, hanteert ShortCircuit een tweefasenproces dat supervised learning combineert met reinforcement learning om de generalisatie naar onbekende waarheidstabellen te verbeteren. We stellen ook een AlphaZero-variant voor om de dubbel exponentieel grote toestandsruimte en de schaarste van beloningen te hanteren, waardoor het mogelijk wordt om bijna-optimale ontwerpen te ontdekken. Om de generatieve prestaties van ons getrainde model te evalueren, extraheren we 500 waarheidstabellen uit een benchmark set van 20 real-world schakelingen. ShortCircuit genereert met succes AIGs voor 84,6% van de 8-input test waarheidstabellen, en overtreft de state-of-the-art logische synthese tool, ABC, met 14,61% in termen van schakelingsgrootte.
Text-to-video (T2V)-generatie heeft aanzienlijke aandacht gekregen vanwege de brede toepassingen op het gebied van videogeneratie, -bewerking, -verbetering en -vertaling, \etc. Het synthetiseren van hoogwaardige (HQ) video's is echter extreem uitdagend vanwege de diverse en complexe bewegingen die in de echte wereld voorkomen. De meeste bestaande werken worstelen met dit probleem door grootschalige HQ-video's te verzamelen, die voor de gemeenschap niet toegankelijk zijn. In dit werk tonen we aan dat publiek beschikbare beperkte en laagwaardige (LQ) gegevens voldoende zijn om een HQ-videogenerator te trainen zonder hercaptioning of finetuning. We splitsen het hele T2V-generatieproces op in twee stappen: het genereren van een afbeelding op basis van een zeer beschrijvende caption, en het synthetiseren van de video op basis van de gegenereerde afbeelding en een beknopte caption van bewegingsdetails. Specifiek presenteren we Factorized-Dreamer, een gefactoriseerd spatiotemporeel raamwerk met verschillende kritische ontwerpen voor T2V-generatie, waaronder een adapter om tekst- en afbeelding-embeddings te combineren, een pixel-aware cross attention module om pixelniveau afbeeldingsinformatie vast te leggen, een T5-tekstencoder om bewegingsbeschrijvingen beter te begrijpen, en een PredictNet om optische stromen te begeleiden. We presenteren verder een ruisschema, dat een sleutelrol speelt bij het waarborgen van de kwaliteit en stabiliteit van videogeneratie. Ons model verlaagt de vereisten voor gedetailleerde captions en HQ-video's, en kan direct worden getraind op beperkte LQ-datasets met ruwe en beknopte captions zoals WebVid-10M, waardoor de kosten voor het verzamelen van grootschalige HQ-video-tekstparen aanzienlijk worden verlicht. Uitgebreide experimenten in een verscheidenheid aan T2V- en image-to-video-generatietaken demonstreren de effectiviteit van onze voorgestelde Factorized-Dreamer. Onze broncodes zijn beschikbaar op https://github.com/yangxy/Factorized-Dreamer/.
Real-time optische stroming met hoge nauwkeurigheid is cruciaal voor diverse real-world toepassingen. Hoewel recente op leren gebaseerde methoden voor optische stroming een hoge nauwkeurigheid hebben bereikt, gaan deze vaak gepaard met aanzienlijke rekenkosten. In dit artikel presenteren we een zeer efficiënte methode voor optische stroming die een balans vindt tussen hoge nauwkeurigheid en verminderde rekenkosten. Voortbouwend op NeuFlow v1, introduceren we nieuwe componenten, waaronder een veel lichtere backbone en een snel verfijningsmodule. Beide modules helpen om de rekenkosten laag te houden terwijl ze een nauwkeurigheid bieden die dicht bij de state of the art ligt. Vergeleken met andere state of the art methoden, behaalt ons model een versnelling van 10x tot 70x terwijl het vergelijkbare prestaties levert op zowel synthetische als real-world data. Het is in staat om te draaien met meer dan 20 FPS op afbeeldingen met een resolutie van 512x384 op een Jetson Orin Nano. De volledige trainings- en evaluatiecode is beschikbaar op https://github.com/neufieldrobotics/NeuFlow_v2.
Open-world 3D-generatie heeft recentelijk aanzienlijke aandacht getrokken. Hoewel veel methoden voor het omzetten van één afbeelding naar 3D visueel aantrekkelijke resultaten hebben opgeleverd, missen ze vaak voldoende bestuurbaarheid en produceren ze vaak hallucinatiegebieden die mogelijk niet overeenkomen met de verwachtingen van gebruikers. In dit artikel onderzoeken we een belangrijk scenario waarin de invoer bestaat uit één of enkele ongeposeerde 2D-afbeeldingen van een enkel object, met weinig of geen overlap. We stellen een nieuwe methode voor, SpaRP, om een 3D-textuurmesh te reconstrueren en de relatieve cameraposities voor deze sparse-view afbeeldingen te schatten. SpaRP destilleert kennis uit 2D-diffusiemodellen en fine-tunt deze om impliciet de 3D-ruimtelijke relaties tussen de sparse views af te leiden. Het diffusiemodel wordt getraind om gezamenlijk surrogaatrepresentaties voor cameraposities en multi-view afbeeldingen van het object onder bekende posities te voorspellen, waarbij alle informatie van de invoer sparse views wordt geïntegreerd. Deze voorspellingen worden vervolgens benut om 3D-reconstructie en pose-estimatie te voltooien, en het gereconstrueerde 3D-model kan worden gebruikt om de cameraposities van de invoerweergaven verder te verfijnen. Door uitgebreide experimenten op drie datasets tonen we aan dat onze methode niet alleen significant beter presteert dan baseline-methoden wat betreft de kwaliteit van 3D-reconstructie en nauwkeurigheid van pose-voorspelling, maar ook sterke efficiëntie vertoont. Het kost slechts ongeveer 20 seconden om een textuurmesh en cameraposities voor de invoerweergaven te produceren. Projectpagina: https://chaoxu.xyz/sparp.
Nauwkeurige toeschrijving van auteurschap is cruciaal voor het behoud van de integriteit van digitale content, het verbeteren van forensisch onderzoek en het beperken van de risico's van desinformatie en plagiaat. Het aanpakken van de dringende behoefte aan correcte auteurschapstoeschrijving is essentieel om de geloofwaardigheid en verantwoordelijkheid van authentiek auteurschap te waarborgen. De snelle vooruitgang van Large Language Models (LLM's) heeft de grenzen tussen menselijk en machinaal auteurschap vervaagd, wat aanzienlijke uitdagingen oplevert voor traditionele methoden. Wij presenteren een uitgebreid literatuuronderzoek dat de nieuwste onderzoeken op het gebied van auteurschapstoeschrijving in het tijdperk van LLM's onderzoekt. Deze survey verkent systematisch het landschap van dit vakgebied door vier representatieve problemen te categoriseren: (1) Toeschrijving van door mensen geschreven tekst; (2) Detectie van door LLM's gegenereerde tekst; (3) Toeschrijving van door LLM's gegenereerde tekst; en (4) Toeschrijving van door mens en LLM samen geschreven tekst. We bespreken ook de uitdagingen die samenhangen met het waarborgen van de generalisatie en uitlegbaarheid van methoden voor auteurschapstoeschrijving. Generalisatie vereist het vermogen om over verschillende domeinen heen te generaliseren, terwijl uitlegbaarheid het bieden van transparante en begrijpelijke inzichten in de beslissingen van deze modellen benadrukt. Door de sterke en zwakke punten van bestaande methoden en benchmarks te evalueren, identificeren we belangrijke open problemen en toekomstige onderzoeksrichtingen in dit vakgebied. Dit literatuuronderzoek dient als een routekaart voor onderzoekers en praktijkmensen die geïnteresseerd zijn in het begrijpen van de stand van de techniek in dit snel evoluerende veld. Aanvullende bronnen en een gecureerde lijst van papers zijn beschikbaar en worden regelmatig bijgewerkt op https://llm-authorship.github.io.
Het correct inbrengen van virtuele objecten in afbeeldingen van real-world scènes vereist een diepgaand begrip van de belichting, geometrie en materialen van de scène, evenals het beeldvormingsproces. Hoewel recente grootschalige diffusiemodellen sterke generatieve en inpainting-mogelijkheden hebben getoond, constateren we dat huidige modellen de scène in een enkele afbeelding niet voldoende "begrijpen" om consistente belichtingseffecten (schaduwen, heldere reflecties, enz.) te genereren terwijl de identiteit en details van het samengestelde object behouden blijven. Wij stellen voor om een gepersonaliseerd groot diffusiemodel te gebruiken als leidraad voor een fysiek gebaseerd inverse rendering-proces. Onze methode herstelt de scènebelichting en tone-mapping parameters, waardoor de fotorealistische compositie van willekeurige virtuele objecten in enkele frames of video's van binnen- of buitenscènes mogelijk wordt. Onze fysiek gebaseerde pijplijn maakt verder automatische verfijning van materialen en tone-mapping mogelijk.
In dit werk stellen we een trainingsvrije, trajectgebaseerde en controleerbare T2I-benadering voor, genaamd TraDiffusion. Deze nieuwe methode stelt gebruikers in staat moeiteloos beeldgeneratie te begeleiden via muistrajecten. Om precieze controle te bereiken, ontwerpen we een energie-functie met afstandsbewustzijn om latentie-variabelen effectief te begeleiden, waardoor ervoor wordt gezorgd dat de focus van de generatie binnen de door het traject gedefinieerde gebieden blijft. De energie-functie omvat een controlefunctie om de generatie dichter bij het gespecificeerde traject te brengen en een bewegingsfunctie om activiteit in gebieden ver van het traject te verminderen. Door uitgebreide experimenten en kwalitatieve evaluaties op de COCO-dataset tonen de resultaten aan dat TraDiffusion eenvoudigere en natuurlijkere beeldcontrole mogelijk maakt. Bovendien toont het de mogelijkheid om belangrijke regio's, attributen en relaties binnen de gegenereerde beelden te manipuleren, naast visuele input gebaseerd op willekeurige of versterkte trajecten.
Taalmodel (LM) agents voor cybersecurity die in staat zijn om zelfstandig kwetsbaarheden te identificeren en exploits uit te voeren, hebben het potentieel om een reële impact te hebben. Beleidsmakers, modelaanbieders en andere onderzoekers binnen de AI- en cybersecuritygemeenschappen zijn geïnteresseerd in het kwantificeren van de mogelijkheden van dergelijke agents om cyberrisico's te beperken en mogelijkheden voor penetratietesten te onderzoeken. Met dat doel introduceren we Cybench, een raamwerk voor het specificeren van cybersecuritytaken en het evalueren van agents op die taken. We nemen 40 professionele Capture the Flag (CTF)-taken op uit 4 verschillende CTF-competities, geselecteerd omdat ze recent, betekenisvol en een breed scala aan moeilijkheidsgraden omvatten. Elke taak bevat een eigen beschrijving, startbestanden en wordt geïnitialiseerd in een omgeving waar een agent bash-commando's kan uitvoeren en uitvoer kan observeren. Omdat veel taken buiten de mogelijkheden van bestaande LM-agents vallen, introduceren we subtaken, die een taak opdelen in tussenstappen voor een meer geleidelijke evaluatie; we voegen subtaken toe voor 17 van de 40 taken. Om de mogelijkheden van agents te evalueren, construeren we een cybersecurityagent en evalueren we 7 modellen: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat en Llama 3.1 405B Instruct. Zonder begeleiding blijken agents alleen de eenvoudigste volledige taken op te kunnen lossen die menselijke teams tot 11 minuten kostten, waarbij Claude 3.5 Sonnet en GPT-4o de hoogste slagingspercentages hebben. Ten slotte bieden subtaken meer signalen voor het meten van prestaties in vergelijking met onbegeleide runs, waarbij modellen een 3,2% hoger slagingspercentage behalen op volledige taken met subtask-begeleiding dan zonder subtask-begeleiding. Alle code en gegevens zijn openbaar beschikbaar op https://cybench.github.io.