AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Krachtigere modellen zijn GEEN betere leraren voor instructieafstemming.
Stronger Models are NOT Stronger Teachers for Instruction Tuning

Nov 11

ByZhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran

Instructieafstemming is wijdverspreid aangenomen om ervoor te zorgen dat grote taalmodellen (LLM's) gebruikersinstructies effectief opvolgen. De resulterende instructievolgcapaciteiten van LLM's zijn sterk afhankelijk van de instructiedatasets die worden gebruikt voor afstemming. Onlangs zijn synthetische instructiedatasets opgekomen als een economisch haalbare oplossing om LLM's diverse en hoogwaardige instructies te bieden. Bestaande benaderingen gaan echter doorgaans uit van de veronderstelling dat grotere of krachtigere modellen betere leraren zijn voor instructieafstemming, en nemen daarom eenvoudigweg deze modellen over als responsopwekkers voor de synthetische instructies. In dit artikel dagen we deze veel aangenomen veronderstelling uit. Onze uitgebreide experimenten met vijf basismodellen en twintig responsopwekkers tonen aan dat grotere en krachtigere modellen niet per se betere leraren zijn voor kleinere modellen. Wij verwijzen naar dit fenomeen als het Paradox van Grotere Modellen. We merken op dat bestaande metrieken niet nauwkeurig de effectiviteit van responsopwekkers kunnen voorspellen, omdat ze de compatibiliteit tussen leraren en basismodellen die worden fijnafgestemd negeren. We ontwikkelen daarom een nieuwe metriek, genaamd Compatibiliteits-Aangepaste Beloning (CAR) om de effectiviteit van responsopwekkers te meten. Onze experimenten met vijf basismodellen tonen aan dat CAR bijna alle baselines overtreft.

JanusFlow: Het harmoniseren van autoregressie en gerectificeerde stroming voor een geïntegreerd multimodaal begrip en generatie.
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

Nov 12

ByYiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan

We presenteren JanusFlow, een krachtig framework dat beeldbegrip en -generatie verenigt in een enkel model. JanusFlow introduceert een minimalistische architectuur die autoregressieve taalmodellen integreert met rectified flow, een state-of-the-art methode in generatieve modellering. Onze belangrijkste bevinding toont aan dat rectified flow eenvoudig kan worden getraind binnen het grote taalmodel framework, waardoor de noodzaak voor complexe architecturale aanpassingen wordt geëlimineerd. Om de prestaties van ons verenigde model verder te verbeteren, hanteren we twee belangrijke strategieën: (i) het ontkoppelen van de begrips- en generatie-encoders, en (ii) het afstemmen van hun representaties tijdens de verenigde training. Uitgebreide experimenten tonen aan dat JanusFlow vergelijkbare of superieure prestaties behaalt ten opzichte van gespecialiseerde modellen in hun respectievelijke domeinen, terwijl het aanzienlijk beter presteert dan bestaande verenigde benaderingen over standaard benchmarks. Dit werk vertegenwoordigt een stap naar efficiëntere en veelzijdigere visie-taalmodellen.

SAMPart3D: Segmenteer Elk Deel in 3D Objecten
SAMPart3D: Segment Any Part in 3D Objects

Nov 11

ByYunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu

3D onderdeelsegmentatie is een cruciale en uitdagende taak in 3D-perceptie, met een belangrijke rol in toepassingen zoals robotica, 3D-generatie en 3D-bewerking. Recente methoden maken gebruik van krachtige Vision Language Models (VLM's) voor kennisdestillatie van 2D naar 3D, waardoor zero-shot 3D onderdeelsegmentatie wordt bereikt. Deze methoden zijn echter beperkt door hun afhankelijkheid van tekstprompts, wat de schaalbaarheid naar grootschalige ongelabelde datasets en de flexibiliteit bij het omgaan met deelambiguïteiten beperkt. In dit werk introduceren we SAMPart3D, een schaalbaar zero-shot 3D onderdeelsegmentatiekader dat elk 3D-object in semantische delen op meerdere granulariteitsniveaus segmenteert, zonder vooraf gedefinieerde deellabelsets als tekstprompts te vereisen. Voor schaalbaarheid gebruiken we tekstagnostische vision foundation-modellen om een 3D-functie-extractiebackbone te destilleren, waardoor schalen naar grote ongelabelde 3D-datasets mogelijk is om rijke 3D-voorkennis te leren. Voor flexibiliteit destilleren we schaal-geconditioneerde deelbewuste 3D-kenmerken voor 3D onderdeelsegmentatie op meerdere granulariteitsniveaus. Zodra de gesegmenteerde delen zijn verkregen uit de schaal-geconditioneerde deelbewuste 3D-kenmerken, gebruiken we VLM's om semantische labels toe te wijzen aan elk deel op basis van de multi-view renderings. In vergelijking met eerdere methoden kan onze SAMPart3D schalen naar de recente grootschalige 3D-objectdataset Objaverse en complexe, niet-alledaagse objecten verwerken. Daarnaast dragen we bij aan een nieuwe 3D onderdeelsegmentatie benchmark om het gebrek aan diversiteit en complexiteit van objecten en delen in bestaande benchmarks aan te pakken. Experimenten tonen aan dat onze SAMPart3D aanzienlijk beter presteert dan bestaande zero-shot 3D onderdeelsegmentatiemethoden en verschillende toepassingen zoals bewerking op de deelniveau en interactieve segmentatie kan vergemakkelijken.

BLIP3-KALE: Kennisverrijkte Dichte Bijschriften op Grote Schaal
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

Nov 12

ByAnas Awadalla, Le Xue, Manli Shu, An Yan, Jun Wang, Senthil Purushwalkam, Sheng Shen, Hannah Lee, Oscar Lo, Jae Sung Park, Etash Guha, Silvio Savarese, Ludwig Schmidt, Yejin Choi, Caiming Xiong, Ran Xu

We introduceren BLIP3-KALE, een dataset van 218 miljoen afbeelding-tekst paren die de kloof overbrugt tussen beschrijvende synthetische bijschriften en feitelijke web-scale alt-tekst. KALE breidt synthetische dichte afbeeldingsbijschriften uit met web-scale alt-tekst om feitelijk gefundeerde afbeeldingsbijschriften te genereren. Onze tweestapsbenadering maakt gebruik van grote vision-language modellen en taalmodellen om kennis-verrijkte bijschriften te creëren, die vervolgens worden gebruikt om een gespecialiseerd VLM te trainen voor het opschalen van de dataset. We trainen vision-language modellen op KALE en tonen verbeteringen aan op vision-language taken. Onze experimenten tonen de bruikbaarheid van KALE voor het trainen van meer capabele en deskundige multimodale modellen. We stellen de KALE dataset beschikbaar op https://huggingface.co/datasets/Salesforce/blip3-kale.

Schalingskenmerken van diffusiemodellen voor perceptuele taken
Scaling Properties of Diffusion Models for Perceptual Tasks

Nov 12

ByRahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik

In dit artikel betogen we dat iteratieve berekening met diffusiemodellen een krachtig paradigma biedt voor niet alleen generatie, maar ook visuele perceptietaken. We verenigen taken zoals diepteschatting, optische stroming en segmentatie onder beeld-naar-beeld vertaling, en tonen hoe diffusiemodellen profiteren van het schalen van training en computatie op testtijd voor deze perceptietaken. Door een zorgvuldige analyse van deze schaalgedragingen presenteren we verschillende technieken om diffusiemodellen efficiënt te trainen voor visuele perceptietaken. Onze modellen behalen verbeterde of vergelijkbare prestaties ten opzichte van state-of-the-art methoden met aanzienlijk minder data en computatie. Voor het gebruik van onze code en modellen, zie https://scaling-diffusion-perception.github.io.

Wavelet Latente Diffusie (Wala): 3D Generatief Model met Miljard Parameters met Compacte Wavelet-coderingen
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings

Nov 12

ByAditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani

Grootschalige 3D-generatiemodellen vereisen aanzienlijke rekenkracht, maar slagen er vaak niet in om fijne details en complexe geometrieën op hoge resoluties vast te leggen. Wij schrijven deze beperking toe aan de inefficiëntie van huidige representaties, die de compactheid missen die nodig is om de generatieve modellen effectief te modelleren. Om dit aan te pakken, introduceren we een nieuw benadering genaamd Wavelet Latent Diffusion, of WaLa, die 3D-vormen codeert in golfletsel-gebaseerde, compacte latente coderingen. Specifiek comprimeren we een 256^3 ondertekend afstandsveld tot een 12^3 keer 4 latente rooster, waarbij we een indrukwekkende compressieverhouding van 2427x bereiken met minimaal verlies aan detail. Deze hoge mate van compressie stelt onze methode in staat om efficiënt grootschalige generatieve netwerken te trainen zonder de inferentietijd te verhogen. Onze modellen, zowel conditioneel als onvoorwaardelijk, bevatten ongeveer één miljard parameters en genereren succesvol hoogwaardige 3D-vormen op een resolutie van 256^3. Bovendien biedt WaLa snelle inferentie, waarbij vormen binnen twee tot vier seconden worden gegenereerd, afhankelijk van de conditie, ondanks de schaal van het model. We tonen state-of-the-art prestaties over meerdere datasets, met significante verbeteringen in generatiekwaliteit, diversiteit en computationele efficiëntie. We stellen onze code open-source beschikbaar en, voor zover wij weten, publiceren we de grootste vooraf getrainde 3D-generatiemodellen over verschillende modaliteiten.

Akoestische volumeweergave voor neurale impulsresponsvelden
Acoustic Volume Rendering for Neural Impulse Response Fields

Nov 9

ByZitong Lan, Chenhao Zheng, Zhiwei Zheng, Mingmin Zhao

Realistische audioweergave die nauwkeurige akoestische fenomenen vastlegt, is essentieel voor het creëren van meeslepende ervaringen in virtuele en augmented reality. Het synthetiseren van het geluid dat op een bepaalde positie wordt ontvangen, berust op de schatting van de impulsrespons (IR), die karakteriseert hoe geluid zich voortplant in een scène langs verschillende paden voordat het de positie van de luisteraar bereikt. In dit artikel presenteren we Acoustic Volume Rendering (AVR), een nieuwe benadering die volumeweergavetechnieken aanpast om akoestische impulsresponsen te modelleren. Hoewel volumeweergave succesvol is geweest in het modelleren van stralingsvelden voor afbeeldingen en neurale scène-representaties, vormen IR's unieke uitdagingen als tijdreeksignalen. Om deze uitdagingen aan te pakken, introduceren we frequentiedomein volumeweergave en gebruiken we sferische integratie om de IR-metingen te passen. Onze methode construeert een impulsresponsveld dat inherent golfsvoortplantingsprincipes codeert en bereikt state-of-the-art prestaties in het synthetiseren van impulsresponsen voor nieuwe posities. Experimenten tonen aan dat AVR de huidige toonaangevende methoden aanzienlijk overtreft. Daarnaast ontwikkelen we een akoestisch simulatieplatform, AcoustiX, dat nauwkeurigere en realistischere IR-simulaties biedt dan bestaande simulatoren. De code voor AVR en AcoustiX is beschikbaar op https://zitonglan.github.io/avr.

Hardware- en softwareplatforminferentie
Hardware and Software Platform Inference

Nov 7

ByCheng Zhang, Hanna Foerster, Robert D. Mullins, Yiren Zhao, Ilia Shumailov

Het is tegenwoordig een gangbare zakelijke praktijk om toegang te kopen tot grote taalmodellen (LLM) voor inferentie in plaats van zelf te hosten, vanwege aanzienlijke initiële hardware-infrastructuur- en energiekosten. Echter, als koper is er geen mechanisme om de authenticiteit van de geadverteerde service te verifiëren, inclusief het serverhardwareplatform, bijvoorbeeld dat het daadwerkelijk wordt bediend met behulp van een NVIDIA H100. Bovendien zijn er rapporten die suggereren dat modelaanbieders modellen kunnen leveren die licht afwijken van de geadverteerde modellen, vaak om ze te laten werken op minder dure hardware. Op die manier betaalt een klant een premie voor toegang tot een capabel model op duurdere hardware, maar wordt uiteindelijk bediend door een (mogelijk minder capabel) goedkoper model op goedkopere hardware. In dit artikel introduceren we \textbf{hardware- en softwareplatforminferentie (HSPI)} - een methode om de onderliggende architectuur en softwarestack van een (black-box) machine learning model te identificeren uitsluitend op basis van het invoer-uitvoergedrag. Onze methode maakt gebruik van de inherente verschillen tussen verschillende architecturen en compilers om onderscheid te maken tussen verschillende typen en softwarestacks. Door de numerieke patronen in de uitvoer van het model te analyseren, stellen we een classificatiekader voor dat in staat is om nauwkeurig de gebruikte hardware voor modelinferentie en de onderliggende softwareconfiguratie te identificeren. Onze bevindingen tonen de haalbaarheid aan van het afleiden van het type hardware van black-box modellen. We evalueren HSPI tegen modellen die worden bediend op verschillende echte hardware en vinden dat we in een white-box setting onderscheid kunnen maken tussen verschillende typen met een nauwkeurigheid tussen 83,9% en 100%. Zelfs in een black-box setting kunnen we resultaten behalen die tot drie keer hoger zijn dan de nauwkeurigheid van willekeurig raden.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Krachtigere modellen zijn GEEN betere leraren voor instructieafstemming.
Stronger Models are NOT Stronger Teachers for Instruction Tuning

Nov 11

ByZhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran

JanusFlow: Het harmoniseren van autoregressie en gerectificeerde stroming voor een geïntegreerd multimodaal begrip en generatie.
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

Nov 12

ByYiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan

SAMPart3D: Segmenteer Elk Deel in 3D Objecten
SAMPart3D: Segment Any Part in 3D Objects

Nov 11

ByYunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu

BLIP3-KALE: Kennisverrijkte Dichte Bijschriften op Grote Schaal
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

Nov 12

Schalingskenmerken van diffusiemodellen voor perceptuele taken
Scaling Properties of Diffusion Models for Perceptual Tasks

Nov 12

ByRahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik

Wavelet Latente Diffusie (Wala): 3D Generatief Model met Miljard Parameters met Compacte Wavelet-coderingen
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings

Nov 12

ByAditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani

Akoestische volumeweergave voor neurale impulsresponsvelden
Acoustic Volume Rendering for Neural Impulse Response Fields

Nov 9

ByZitong Lan, Chenhao Zheng, Zhiwei Zheng, Mingmin Zhao

Hardware- en softwareplatforminferentie
Hardware and Software Platform Inference

Nov 7

ByCheng Zhang, Hanna Foerster, Robert D. Mullins, Yiren Zhao, Ilia Shumailov