AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

BitNet b1.58 2B4T Technisch Rapport
BitNet b1.58 2B4T Technical Report

Apr 16

ByShuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

We introduceren BitNet b1.58 2B4T, het eerste open-source, native 1-bit Large Language Model (LLM) op de schaal van 2 miljard parameters. Getraind op een corpus van 4 biljoen tokens, is het model grondig geëvalueerd op benchmarks die taalbegrip, wiskundig redeneren, programmeervaardigheid en conversatievermogen omvatten. Onze resultaten tonen aan dat BitNet b1.58 2B4T prestaties levert die vergelijkbaar zijn met toonaangevende open-weight, full-precision LLM's van vergelijkbare grootte, terwijl het aanzienlijke voordelen biedt op het gebied van rekenkundige efficiëntie, waaronder een aanzienlijk verlaagd geheugengebruik, energieverbruik en decodeerlatentie. Om verder onderzoek en adoptie te vergemakkelijken, worden de modelgewichten vrijgegeven via Hugging Face, samen met open-source inferentie-implementaties voor zowel GPU- als CPU-architecturen.

ReTool: Reinforcement Learning voor Strategisch Gebruik van Tools in LLM's
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

Hoewel redeneermodellen (bijv. DeepSeek R1) die getraind zijn met reinforcement learning (RL), uitblinken in tekstueel redeneren, hebben ze moeite met scenario's die gestructureerd probleemoplossen vereisen, zoals geometrisch redeneren, beknopte berekeningen of het oplossen van complexe vergelijkingen – gebieden waar computationele tools zoals code-interpreters (CI) duidelijke voordelen laten zien. Om deze kloof te overbruggen, stellen we ReTool voor, dat langdurig redeneren versterkt met tool-geïntegreerd leren, inclusief twee belangrijke kenmerken: (1) dynamische afwisseling van real-time code-uitvoering binnen natuurlijke taalredeneerprocessen, en (2) een geautomatiseerd RL-paradigma dat beleidsuitvoeringen mogelijk maakt met real-time code-uitvoering over meerdere stappen en het model leert wanneer en hoe tools aan te roepen op basis van uitkomstfeedback. ReTool maakt gebruik van een systematisch trainingsframework, beginnend met synthetische cold-start data-generatie om code-aangevulde langdurige redeneersporen te produceren voor het finetunen van basismodellen. Vervolgens benut RL-training taakuitkomsten als beloningen om het toolgebruiksstrategie van het model iteratief te verfijnen, waardoor het autonoom optimale toolaanroepingspatronen kan ontdekken zonder menselijke voorkennis. Experimenten op de uitdagende MATH Olympiad-benchmark AIME tonen de superioriteit van ReTool aan: Ons 32B-model behaalt 67% nauwkeurigheid met 400 trainingsstappen, wat zowel in efficiëntie als prestaties beter is dan de tekstgebaseerde RL-baseline (40% nauwkeurigheid, 1080 stappen). Opmerkelijk is dat ReTool-32B in uitgebreide instellingen 72,5% nauwkeurigheid behaalt, wat OpenAI's o1-preview met 27,9% overtreft. Verdere analyse onthult opkomende gedragingen zoals code-zelfcorrectie, wat een 'aha-moment' signaleert waarin het model autonoom adaptief toolgebruik beheerst. Deze bevindingen benadrukken de belofte van uitkomstgedreven toolintegratie voor het bevorderen van complex wiskundig redeneren en bieden nieuwe inzichten in hybride neuro-symbolische systemen.

ColorBench: Kunnen VLMs de kleurrijke wereld zien en begrijpen? Een uitgebreide benchmark voor kleurperceptie, redeneren en robuustheid
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Apr 10

ByYijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

Kleur speelt een belangrijke rol in de menselijke waarneming en biedt meestal cruciale aanwijzingen bij visueel redeneren. Het is echter onduidelijk of en hoe vision-language modellen (VLMs) kleur kunnen waarnemen, begrijpen en benutten zoals mensen. Dit artikel introduceert ColorBench, een innovatieve benchmark die zorgvuldig is ontworpen om de capaciteiten van VLMs op het gebied van kleurbegrip te beoordelen, inclusief kleurwaarneming, redeneren en robuustheid. Door een reeks diverse testsituaties samen te stellen, met een basis in echte toepassingen, evalueert ColorBench hoe deze modellen kleuren waarnemen, betekenissen afleiden uit kleuraanwijzingen en consistente prestaties behouden onder verschillende kleurtransformaties. Door een uitgebreide evaluatie van 32 VLMs met verschillende taalmodellen en vision-encoders, onthult ons artikel enkele onontdekte bevindingen: (i) De schaalwet (grotere modellen zijn beter) geldt nog steeds op ColorBench, waarbij het taalmodel een belangrijkere rol speelt dan de vision-encoder. (ii) De prestatieverschillen tussen modellen zijn echter relatief klein, wat aangeeft dat kleurbegrip grotendeels is verwaarloosd door bestaande VLMs. (iii) CoT-redenering verbetert de nauwkeurigheid en robuustheid van kleurbegrip, hoewel het visiegerichte taken zijn. (iv) Kleuraanwijzingen worden inderdaad benut door VLMs op ColorBench, maar ze kunnen modellen ook misleiden in sommige taken. Deze bevindingen benadrukken de kritieke beperkingen van huidige VLMs en onderstrepen de noodzaak om kleurbegrip te verbeteren. Onze ColorBench kan dienen als een fundamenteel instrument voor het bevorderen van de studie naar menselijk niveau van kleurbegrip in multimodale AI.

SFT of RL? Een vroeg onderzoek naar het trainen van R1-achtige redeneerende grote visueel-taalmodelen
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Apr 10

ByHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

Dit werk herziet het dominante paradigma van supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL) voor het trainen van Large Vision-Language Models (LVLMs), en onthult een belangrijke bevinding: SFT kan het daaropvolgende RL aanzienlijk ondermijnen door het induceren van "pseudo-redeneerpaden" die worden nagebootst van expertmodellen. Hoewel deze paden kunnen lijken op de natuurlijke redeneerpaden van RL-modellen, omvatten ze vaak langdurige, aarzelende, minder informatieve stappen en incorrect redeneren. Om dit effect systematisch te bestuderen, introduceren we VLAA-Thinking, een nieuwe multimodale dataset die is ontworpen om redeneren in LVLMs te ondersteunen. Geconstrueerd via een zesstappenpijplijn die captioning, reasoning distillation, answer rewrite en verificatie omvat, bestaat VLAA-Thinking uit hoogwaardige, stapsgewijze visuele redeneersporen voor SFT, samen met een uitdagender RL-deel van dezelfde databron. Met behulp van deze dataset voeren we uitgebreide experimenten uit waarbij we SFT, RL en hun combinaties vergelijken. De resultaten tonen aan dat hoewel SFT modellen helpt om redeneerformats te leren, het vaak uitgelijnde modellen vastzet in imitatieve, rigide redeneermodi die verder leren belemmeren. Daarentegen bevordert onze RL-aanpak, gebaseerd op Group Relative Policy Optimization (GRPO) met een nieuwe gemengde beloningsmodule die zowel perceptie- als cognitiesignalen integreert, meer authentiek, adaptief redeneergedrag. Opmerkelijk is dat ons model VLAA-Thinker, gebaseerd op Qwen2.5VL 3B, de top-1 prestatie behaalt op de Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) onder LVLMs van 4B-schaal, en daarmee de vorige state-of-the-art met 1,8% overtreft. We hopen dat onze bevindingen waardevolle inzichten bieden bij de ontwikkeling van redeneerbare LVLMs en toekomstig onderzoek op dit gebied kunnen informeren.

Cobra: Efficiënte Lijnkunst Inkleuring met BRedere Referenties
Cobra: Efficient Line Art COlorization with BRoAder References

Apr 16

ByJunhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

De stripverhalenindustrie vereist referentiegebaseerde inkleuring van lijntekeningen met hoge nauwkeurigheid, efficiëntie, contextuele consistentie en flexibele controle. Een stripblad omvat vaak diverse personages, objecten en achtergronden, wat het inkleurproces complex maakt. Ondanks vooruitgang in diffusiemodellen voor beeldgeneratie, blijft hun toepassing in het inkleuren van lijntekeningen beperkt, met uitdagingen op het gebied van het verwerken van uitgebreide referentiebeelden, tijdrovende inferentie en flexibele controle. Wij onderzoeken de noodzaak van uitgebreide contextuele beeldbegeleiding op de kwaliteit van het inkleuren van lijntekeningen. Om deze uitdagingen aan te pakken, introduceren wij Cobra, een efficiënte en veelzijdige methode die kleuraanwijzingen ondersteunt en meer dan 200 referentiebeelden gebruikt terwijl een lage latentie wordt behouden. Centraal in Cobra staat een Causal Sparse DiT-architectuur, die gebruikmaakt van speciaal ontworpen positionele coderingen, causale sparse aandacht en Key-Value Cache om lange-context referenties effectief te beheren en kleuridentiteitsconsistentie te waarborgen. Resultaten tonen aan dat Cobra nauwkeurige inkleuring van lijntekeningen bereikt door uitgebreide contextuele referentie, wat de inferentiesnelheid en interactiviteit aanzienlijk verbetert, waardoor kritische industriële eisen worden vervuld. Wij hebben onze codes en modellen vrijgegeven op onze projectpagina: https://zhuang2002.github.io/Cobra/.

AlayaDB: De Datafundering voor Efficiënte en Effectieve Inferentie van LLM's met Lange Context
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Apr 14

ByYangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang

AlayaDB is een geavanceerd vectordatabase-systeem dat van oorsprong is ontworpen voor efficiënte en effectieve inferentie met lange contexten voor Large Language Models (LLM's) bij AlayaDB AI. Specifiek ontkoppelt het de KV-cache en aandachtberekening van de LLM-inferentiesystemen en integreert deze in een innovatief vectordatabase-systeem. Voor Model as a Service-aanbieders (MaaS) verbruikt AlayaDB minder hardwarebronnen en biedt het een hogere generatiekwaliteit voor diverse workloads met verschillende soorten Service Level Objectives (SLO's), vergeleken met bestaande alternatieve oplossingen (bijv. KV-cache-disaggregatie, retrieval-based sparse attention). De kern van AlayaDB is dat het de aandachtberekening en cachebeheer voor LLM-inferentie abstraheert naar een queryverwerkingsprocedure en de prestaties optimaliseert via een native query-optimizer. In dit werk demonstreren we de effectiviteit van AlayaDB via (i) drie use cases van onze industriële partners en (ii) uitgebreide experimentele resultaten op LLM-inferentiebenchmarks.

REPA-E: Het ontgrendelen van VAE voor end-to-end afstemming met latente diffusie Transformers
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Apr 14

ByXingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng

In dit artikel gaan we in op een fundamentele vraag: "Kunnen we latentie-diffusiemodellen samen met de variational auto-encoder (VAE) tokenizer end-to-end trainen?" Traditionele diep-lerenwijsheid stelt dat end-to-end training vaak de voorkeur verdient wanneer mogelijk. Echter, voor latentie-diffusietransformers wordt waargenomen dat end-to-end training van zowel VAE als diffusiemodel met standaard diffusieverlies niet effectief is, en zelfs leidt tot een verslechtering van de uiteindelijke prestaties. We laten zien dat hoewel diffusieverlies niet effectief is, end-to-end training mogelijk wordt gemaakt door de representation-alignment (REPA) loss — waardoor zowel VAE als diffusiemodel gezamenlijk kunnen worden afgesteld tijdens het trainingsproces. Ondanks zijn eenvoud toont het voorgestelde trainingsrecept (REPA-E) opmerkelijke prestaties; het versnelt de training van diffusiemodellen met meer dan 17x en 45x ten opzichte van REPA en standaard trainingsrecepten, respectievelijk. Interessant genoeg observeren we dat end-to-end afstemming met REPA-E ook de VAE zelf verbetert; wat leidt tot een verbeterde latentieruimtestructuur en betere downstream-generatieprestaties. Wat betreft de uiteindelijke prestaties stelt onze aanpak een nieuwe state-of-the-art; we behalen een FID van 1.26 en 1.83 met en zonder classifier-free guidance op ImageNet 256 x 256. Code is beschikbaar op https://end2end-diffusion.github.io.

MLRC-Bench: Kunnen taalagentschappen machine learning-onderzoeksuitdagingen oplossen?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Apr 13

ByYunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang

De bestaande evaluatie van grote taalmodel (LLM) agents op het gebied van wetenschappelijke ontdekking ontbreekt het aan objectieve referentiepunten en metrieken om de haalbaarheid van hun voorgestelde methoden te beoordelen. Om dit probleem aan te pakken, introduceren we MLRC-Bench, een benchmark die is ontworpen om te kwantificeren hoe effectief taalagents uitdagende Machine Learning (ML) Onderzoekscompetities kunnen aanpakken. Onze benchmark benadrukt open onderzoeksproblemen die nieuwe methodologieën vereisen, in tegenstelling tot recente benchmarks zoals OpenAI's MLE-Bench (Chan et al., 2024) en METR's RE-Bench (Wijk et al., 2024), die zich richten op goed gevestigde onderzoeks taken die grotendeels oplosbaar zijn door voldoende technische inspanning. In tegenstelling tot eerder werk, bijvoorbeeld AI Scientist (Lu et al., 2024b), dat de end-to-end agentische pijplijn evalueert door LLM-as-a-judge te gebruiken, meet MLRC-Bench de cruciale stappen van het voorstellen en implementeren van nieuwe onderzoeksmethoden en evalueert deze met nieuw voorgestelde rigoureuze protocollen en objectieve metrieken. Onze samengestelde reeks van 7 competitie taken onthult aanzienlijke uitdagingen voor LLM agents. Zelfs de best presterende geteste agent (gemini-exp-1206 onder MLAB (Huang et al., 2024a)) sluit slechts 9,3% van de kloof tussen de baseline en de scores van de beste menselijke deelnemers. Bovendien toont onze analyse een mismatch aan tussen de door LLM beoordeelde innovatie en hun daadwerkelijke prestaties op baanbrekende ML onderzoeksproblemen. MLRC-Bench is een dynamische benchmark, die is ontworpen om voortdurend te groeien met nieuwe ML competities om rigoureuze en objectieve evaluaties van AI's onderzoekscapaciteiten aan te moedigen.

SIFT-50M: Een grootschalige meertalige dataset voor fijnafstemming van spraakinstructies
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Apr 12

ByPrabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

We introduceren SIFT (Speech Instruction Fine-Tuning), een dataset van 50 miljoen voorbeelden die is ontworpen voor instructie-finetuning en pre-training van grote taalmodellen (LLMs) voor spraak en tekst. SIFT-50M is opgebouwd uit openbaar beschikbare spraakcorpora, die gezamenlijk 14.000 uur aan spraak bevatten, en maakt gebruik van LLMs samen met kant-en-klare expertmodellen. De dataset beslaat vijf talen en omvat een breed scala aan spraakbegrip evenals controleerbare spraakgeneratie-instructies. Met behulp van SIFT-50M trainen we SIFT-LLM, dat bestaande spraak-tekst LLMs overtreft op benchmarks voor instructievolging, terwijl het competitieve prestaties behaalt op fundamentele spraaktaken. Om verder onderzoek te ondersteunen, introduceren we ook EvalSIFT, een benchmarkdataset die specifiek is ontworpen om de instructievolgende capaciteiten van spraak-tekst LLMs te evalueren.

Robuuste en fijnmazige detectie van AI-gegenereerde teksten
Robust and Fine-Grained Detection of AI Generated Texts

Apr 16

ByRam Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq

Een ideaal detectiesysteem voor machinaal gegenereerde inhoud zou goed moeten werken op elke generator, aangezien er dagelijks steeds geavanceerdere LLM's (Large Language Models) worden ontwikkeld. Bestaande systemen hebben vaak moeite met het nauwkeurig identificeren van AI-gegenereerde inhoud bij kortere teksten. Bovendien zijn niet alle teksten volledig geschreven door een mens of een LLM, daarom hebben we ons meer gericht op gedeeltelijke gevallen, d.w.z. teksten die door mens en LLM samen zijn geschreven. Ons artikel introduceert een reeks modellen die zijn gebouwd voor de taak van tokenclassificatie en die zijn getraind op een uitgebreide verzameling van mens-machine samen geschreven teksten. Deze modellen presteerden goed op teksten uit onbekende domeinen, van onbekende generatoren, teksten van niet-moedertaalsprekers en teksten met adversariële invoer. We introduceren ook een nieuwe dataset van meer dan 2,4 miljoen van dergelijke teksten, voornamelijk samen geschreven door verschillende populaire propriëtaire LLM's in 23 talen. We presenteren ook de bevindingen van de prestaties van onze modellen op teksten uit elk domein en van elke generator. Aanvullende bevindingen omvatten een vergelijking van de prestaties tegenover elke adversariële methode, de lengte van de invoerteksten en de kenmerken van gegenereerde teksten in vergelijking met de originele door mensen geschreven teksten.

Syzygy van Gedachten: Verbetering van LLM CoT met de Minimale Vrije Resolutie
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Apr 13

ByChenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen

Chain-of-Thought (CoT) prompting verbetert het redeneervermogen van grote taalmodel- len (LLMs) door problemen op te delen in sequentiële stappen, waarbij menselijke logica wordt nagebootst en fouten worden verminderd. Complexe taken met uitgebreide oplos- singsruimtes en vage beperkingen overschrijden echter vaak de capaciteit van een enkele redeneerketen. Geïnspireerd door Minimal Free Resolution (MFR) in commutatieve alge- bra en algebraïsche meetkunde, stellen we Syzygy of Thoughts (SoT) voor—een nieuw framework dat CoT uitbreidt door aanvullende, onderling verbonden redeneerpaden te introduceren. SoT vangt diepere logische afhankelijkheden op, waardoor robuuster en gestructureerder probleemoplossing mogelijk wordt. MFR deconstrueert een module in een reeks vrije modules met minimale rang, wat een gestructureerde analytische aanpak biedt voor complexe systemen. Deze methode introduceert de concepten "Module", "Betti- getallen", "Vrijheid", "Afbeelding", "Exactheid" en "Minimaliteit", waardoor het oorspron- kelijke complexe probleem systematisch kan worden opgedeeld in logisch complete mini- male subproblemen, terwijl belangrijke probleemkenmerken behouden blijven en de rede- neerlengte wordt verkort. We hebben SoT getest op diverse datasets (bijv. GSM8K, MATH) en modellen (bijv. GPT-4o-mini, Qwen2.5), waarbij inferentienauwkeurigheid werd be- reikt die overeenkomt met of de mainstream CoT-standaarden overtreft. Daarnaast ver- betert onze aanpak, door het samplingproces af te stemmen op algebraïsche beperkingen, de schaalbaarheid van inferentietijd in LLMs, wat zowel transparant redeneren als hoge prestaties garandeert. Onze code zal publiekelijk beschikbaar zijn op https://github.com/ dlMARiA/Syzygy-of-thoughts.

Vivid4D: Verbetering van 4D-reconstructie uit monovideo's door video-inpainting
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Apr 15

ByJiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao

Het reconstrueren van 4D dynamische scènes uit toevallig vastgelegde monoscopische video's is waardevol maar zeer uitdagend, omdat elk tijdstip vanuit een enkel gezichtspunt wordt waargenomen. Wij introduceren Vivid4D, een nieuwe aanpak die de synthese van 4D monoscopische video's verbetert door waarnemingsgezichten uit te breiden - het synthetiseren van multiview-video's vanuit een monoscopische invoer. In tegenstelling tot bestaande methoden die uitsluitend gebruikmaken van geometrische voorkennis voor supervisie of generatieve voorkennis gebruiken terwijl ze geometrie negeren, integreren wij beide. Dit herformuleert gezichtsuitbreiding als een video-inpaintings taak, waarbij waargenomen gezichten worden vervormd naar nieuwe gezichtspunten op basis van monoscopische dieptekennis. Om dit te bereiken, trainen we een video-inpaintingsmodel op ongeposeerde webvideo's met synthetisch gegenereerde maskers die vervormingsocclusies nabootsen, waardoor een ruimtelijk en temporeel consistent invullen van ontbrekende gebieden wordt gegarandeerd. Om verdere onnauwkeurigheden in monoscopische dieptekennis te verminderen, introduceren we een iteratieve gezichtsuitbreidingsstrategie en een robuust reconstructieverlies. Experimenten tonen aan dat onze methode de monoscopische 4D-scènereconstructie en -completering effectief verbetert.

Naar het leren om alles in LiDAR te voltooien
Towards Learning to Complete Anything in Lidar

Apr 16

ByAyca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep

Wij stellen CAL (Complete Anything in Lidar) voor voor vormvoltooiing op basis van Lidar in ongestructureerde omgevingen. Dit is nauw verwant aan semantische/panoptische scènevoltooiing op basis van Lidar. Hedendaagse methoden kunnen echter alleen objecten voltooien en herkennen uit een gesloten vocabulaire dat is gelabeld in bestaande Lidar-datasets. In tegenstelling daartoe maakt onze zero-shot-benadering gebruik van de temporele context uit multi-modale sensorsequenties om objectvormen en semantische kenmerken van waargenomen objecten te extraheren. Deze worden vervolgens gedistilleerd in een model voor instantie-niveau voltooiing en herkenning dat uitsluitend op Lidar is gebaseerd. Hoewel we slechts gedeeltelijke vormvoltooiingen extraheren, ontdekken we dat ons gedistilleerde model leert om volledige objectvormen af te leiden uit meerdere van dergelijke gedeeltelijke waarnemingen in de dataset. We tonen aan dat ons model kan worden ingezet op standaard benchmarks voor Semantische en Panoptische Scènevoltooiing, objecten kan lokaliseren als (amodale) 3D begrenzingsvakken, en objecten kan herkennen die buiten vaste klassevocabulaires vallen. Onze projectpagina is te vinden op https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.

FreshStack: Het ontwikkelen van realistische benchmarks voor het evalueren van retrieval op technische documenten
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Apr 17

ByNandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

We introduceren FreshStack, een herbruikbaar framework voor het automatisch opbouwen van informatiezoekevaluatiebenchmarks (IR) op basis van door de gemeenschap gestelde vragen en antwoorden. FreshStack voert de volgende stappen uit: (1) automatische corpusverzameling uit code en technische documentatie, (2) nuggetgeneratie uit door de gemeenschap gestelde vragen en antwoorden, en (3) nugget-level ondersteuning, waarbij documenten worden opgehaald met behulp van een combinatie van zoektechnieken en hybride architecturen. We gebruiken FreshStack om vijf datasets te bouwen over snelgroeiende, recente en nicheonderwerpen om ervoor te zorgen dat de taken voldoende uitdagend zijn. Op FreshStack presteren bestaande zoekmodellen, wanneer ze out-of-the-box worden toegepast, aanzienlijk slechter dan orakelbenaderingen op alle vijf onderwerpen, wat wijst op veel ruimte voor verbetering van de IR-kwaliteit. Daarnaast identificeren we gevallen waarbij herrangschikkers de nauwkeurigheid van de eerste zoekfase niet duidelijk verbeteren (twee van de vijf onderwerpen). We hopen dat FreshStack toekomstig werk zal vergemakkelijken bij het construeren van realistische, schaalbare en niet-vervuilde IR- en RAG-evaluatiebenchmarks. FreshStack-datasets zijn beschikbaar op: https://fresh-stack.github.io.

BlockGaussian: Efficiënte grootschalige scèneweergave via adaptieve blokgebaseerde Gaussische splatting
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Apr 12

ByYongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou

De recente vooruitgang in 3D Gaussian Splatting (3DGS) heeft opmerkelijke potentie getoond in taken voor het synthetiseren van nieuwe gezichtspunten. Het divide-and-conquer paradigma heeft grootschalige scène-reconstructie mogelijk gemaakt, maar er blijven aanzienlijke uitdagingen bestaan in scène-partitionering, optimalisatie en samenvoegingsprocessen. Dit artikel introduceert BlockGaussian, een nieuw framework dat een inhoudsbewuste scène-partitioneringsstrategie en zichtbaarheidsbewuste blokoptimalisatie omvat om efficiënte en hoogwaardige grootschalige scène-reconstructie te bereiken. Specifiek houdt onze aanpak rekening met de variatie in inhoudscomplexiteit in verschillende regio's en balanceert het de rekenbelasting tijdens scène-partitionering, wat efficiënte scène-reconstructie mogelijk maakt. Om het toezichtsmismatchprobleem tijdens onafhankelijke blokoptimalisatie aan te pakken, introduceren we hulppunten tijdens individuele blokoptimalisatie om de grondwaarheid-toezicht af te stemmen, wat de reconstructiekwaliteit verbetert. Bovendien stellen we een pseudo-view geometriebeperking voor die effectief de weergradedegradatie vermindert die wordt veroorzaakt door luchtruimfloaters tijdens bloksamenvoeging. Uitgebreide experimenten op grootschalige scènes tonen aan dat onze aanpak state-of-the-art prestaties bereikt in zowel reconstructie-efficiëntie als weergavekwaliteit, met een 5x versnelling in optimalisatie en een gemiddelde PSNR-verbetering van 1.21 dB op meerdere benchmarks. Opmerkelijk is dat BlockGaussian de rekenvereisten aanzienlijk vermindert, waardoor grootschalige scène-reconstructie op een enkel 24GB VRAM-apparaat mogelijk wordt. De projectpagina is beschikbaar op https://github.com/SunshineWYC/BlockGaussian.

"Het is geen representatie van mij": Onderzoek naar accentbias en digitale uitsluiting in synthetische AI-stemdiensten
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Apr 12

ByShira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh

Recente ontwikkelingen in kunstmatige intelligentie (AI) op het gebied van spraakgeneratie en stemklonen hebben geleid tot natuurlijk klinkende spraak en nauwkeurige stemreplicatie, maar hun invloed op sociotechnische systemen in verschillende accenten en linguïstische kenmerken is nog niet volledig begrepen. Deze studie evalueert twee synthetische AI-stemdiensten (Speechify en ElevenLabs) via een mixed-methods-benadering met behulp van enquêtes en interviews om de technische prestaties te beoordelen en te onderzoeken hoe de ervaringen van gebruikers hun perceptie van accentvariatie in deze spraaktechnologieën beïnvloeden. Onze bevindingen onthullen verschillen in technische prestaties bij vijf regionale, Engelstalige accenten en laten zien hoe huidige spraakgeneratietechnologieën onbedoeld linguïstisch privilege en accentgerelateerde discriminatie kunnen versterken, wat mogelijk nieuwe vormen van digitale uitsluiting creëert. Over het algemeen benadrukt onze studie de noodzaak van inclusief ontwerp en regulering door bruikbare inzichten te bieden voor ontwikkelaars, beleidsmakers en organisaties om eerlijke en sociaal verantwoorde AI-spraaktechnologieën te waarborgen.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

BitNet b1.58 2B4T Technisch Rapport
BitNet b1.58 2B4T Technical Report

Apr 16

ByShuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

ReTool: Reinforcement Learning voor Strategisch Gebruik van Tools in LLM's
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

ColorBench: Kunnen VLMs de kleurrijke wereld zien en begrijpen? Een uitgebreide benchmark voor kleurperceptie, redeneren en robuustheid
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Apr 10

ByYijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

SFT of RL? Een vroeg onderzoek naar het trainen van R1-achtige redeneerende grote visueel-taalmodelen
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Apr 10

ByHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

Cobra: Efficiënte Lijnkunst Inkleuring met BRedere Referenties
Cobra: Efficient Line Art COlorization with BRoAder References

Apr 16

ByJunhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

AlayaDB: De Datafundering voor Efficiënte en Effectieve Inferentie van LLM's met Lange Context
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Apr 14

REPA-E: Het ontgrendelen van VAE voor end-to-end afstemming met latente diffusie Transformers
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Apr 14

ByXingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng

MLRC-Bench: Kunnen taalagentschappen machine learning-onderzoeksuitdagingen oplossen?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Apr 13

ByYunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang

SIFT-50M: Een grootschalige meertalige dataset voor fijnafstemming van spraakinstructies
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Apr 12

ByPrabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

Robuuste en fijnmazige detectie van AI-gegenereerde teksten
Robust and Fine-Grained Detection of AI Generated Texts

Apr 16

Syzygy van Gedachten: Verbetering van LLM CoT met de Minimale Vrije Resolutie
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Apr 13

ByChenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen

Vivid4D: Verbetering van 4D-reconstructie uit monovideo's door video-inpainting
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Apr 15

ByJiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao

Naar het leren om alles in LiDAR te voltooien
Towards Learning to Complete Anything in Lidar

Apr 16

ByAyca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep

FreshStack: Het ontwikkelen van realistische benchmarks voor het evalueren van retrieval op technische documenten
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Apr 17

ByNandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

BlockGaussian: Efficiënte grootschalige scèneweergave via adaptieve blokgebaseerde Gaussische splatting
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Apr 12

ByYongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou

"Het is geen representatie van mij": Onderzoek naar accentbias en digitale uitsluiting in synthetische AI-stemdiensten
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Apr 12

ByShira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh