HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

8 papers found

PixelHacker: Afbeelding Inpainting met Structurele en Semantische Consistentie
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

Image inpainting is een fundamenteel onderzoeksgebied tussen beeldbewerking en beeldgeneratie. Recente state-of-the-art (SOTA) methoden hebben nieuwe aandachtmechanismen, lichtgewicht architecturen en contextbewuste modellering onderzocht, waarbij indrukwekkende prestaties worden gedemonstreerd. Ze hebben echter vaak moeite met complexe structuren (bijv. textuur, vorm, ruimtelijke relaties) en semantiek (bijv. kleurconsistentie, objectherstel en logische correctheid), wat leidt tot artefacten en ongepaste generatie. Om deze uitdaging aan te pakken, ontwerpen we een eenvoudig maar effectief inpainting-paradigma genaamd latente categorieënbegeleiding, en stellen we verder een op diffusie gebaseerd model voor genaamd PixelHacker. Specifiek construeren we eerst een grote dataset met 14 miljoen beeld-maskerparen door voorgrond en achtergrond te annoteren (potentieel 116 en 21 categorieën respectievelijk). Vervolgens coderen we potentiële voorgrond- en achtergrondrepresentaties afzonderlijk via twee vaste grootte-embeddings, en injecteren we deze kenmerken intermitterend in het denoisingsproces via lineaire aandacht. Ten slotte verkrijgen we PixelHacker door voor te trainen op onze dataset en af te stemmen op open-source benchmarks. Uitgebreide experimenten tonen aan dat PixelHacker de SOTA overtreft op een breed scala aan datasets (Places2, CelebA-HQ en FFHQ) en opmerkelijke consistentie vertoont in zowel structuur als semantiek. Projectpagina op https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Efficiënte Redeneermodellen
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

We introduceren de Llama-Nemotron-serie van modellen, een open familie van heterogene redeneermodellen die uitstekende redeneervaardigheden, inferentie-efficiëntie en een open licentie voor zakelijk gebruik bieden. De familie is beschikbaar in drie formaten -- Nano (8B), Super (49B) en Ultra (253B) -- en presteert competitief met state-of-the-art redeneermodellen zoals DeepSeek-R1, terwijl het superieure inferentie-doorvoer en geheugenefficiëntie biedt. In dit rapport bespreken we het trainingsproces voor deze modellen, waarbij gebruik wordt gemaakt van neurale architectuurzoektochten vanuit Llama 3-modellen voor versnelde inferentie, kennisdistillatie en voortgezette pretraining, gevolgd door een redeneringsgerichte post-trainingsfase die uit twee hoofdonderdelen bestaat: supervised fine-tuning en grootschalige reinforcement learning. Llama-Nemotron-modellen zijn de eerste open-source modellen die een dynamische redeneringsschakelaar ondersteunen, waardoor gebruikers tijdens de inferentie kunnen schakelen tussen standaard chat- en redeneermodi. Om open onderzoek verder te ondersteunen en modelontwikkeling te vergemakkelijken, bieden we de volgende bronnen: 1. We geven de Llama-Nemotron redeneermodellen -- LN-Nano, LN-Super en LN-Ultra -- vrij onder de commercieel toestemming gevende NVIDIA Open Model License Agreement. 2. We geven de complete post-trainingsdataset vrij: Llama-Nemotron-Post-Training-Dataset. 3. We geven ook onze trainingscodebases vrij: NeMo, NeMo-Aligner en Megatron-LM.

Verbeteren van bewerkbaarheid in beeldgeneratie met laaggeheugen
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

De meeste beeldbewerkingstaken in de praktijk vereisen meerdere opeenvolgende bewerkingen om de gewenste resultaten te bereiken. Huidige bewerkingsmethoden, die voornamelijk zijn ontworpen voor wijzigingen aan één object, hebben moeite met opeenvolgende bewerkingen: met name het behouden van eerdere bewerkingen en het natuurlijk integreren van nieuwe objecten in de bestaande inhoud. Deze beperkingen belemmeren complexe bewerkingsscenario's aanzienlijk, waarbij meerdere objecten moeten worden aangepast terwijl hun contextuele relaties behouden blijven. Wij pakken deze fundamentele uitdaging aan via twee belangrijke voorstellen: het mogelijk maken van ruwe maskerinvoer die bestaande inhoud behoudt terwijl nieuwe elementen natuurlijk worden geïntegreerd, en het ondersteunen van consistente bewerkingen over meerdere wijzigingen heen. Ons framework bereikt dit door middel van laaggewijs geheugen, dat latente representaties en prompt-embeddings van eerdere bewerkingen opslaat. Wij stellen Background Consistency Guidance voor, dat gebruikmaakt van opgeslagen latente representaties om de samenhang van de scène te behouden, en Multi-Query Disentanglement in cross-attention, dat zorgt voor een natuurlijke aanpassing aan bestaande inhoud. Om onze methode te evalueren, presenteren we een nieuwe benchmarkdataset met semantische uitlijningsmetrieken en interactieve bewerkingsscenario's. Door middel van uitgebreide experimenten tonen we superieure prestaties aan bij iteratieve beeldbewerkingstaken met minimale gebruikersinspanning, waarbij alleen ruwe maskers nodig zijn terwijl hoogwaardige resultaten worden behouden gedurende meerdere bewerkingsstappen.

Voorbij One-Size-Fits-All: Inversie-Leren voor Zeer Effectieve NLG-Evaluatieprompts
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

Het evalueren van natural language generation (NLG)-systemen is uitdagend vanwege de diversiteit aan geldige uitvoer. Hoewel menselijke evaluatie de gouden standaard is, heeft het te kampen met inconsistenties, een gebrek aan standaardisatie en demografische vooroordelen, wat de reproduceerbaarheid beperkt. Evaluatie op basis van grote taalmodelen (LLM) biedt een schaalbare alternatief, maar is zeer gevoelig voor promptontwerp, waarbij kleine variaties kunnen leiden tot aanzienlijke verschillen. In dit werk stellen we een inversie-leermethode voor die effectieve omgekeerde afbeeldingen leert van modeluitvoer terug naar hun invoerinstructies, waardoor het automatisch genereren van zeer effectieve, modelspecifieke evaluatieprompts mogelijk wordt. Onze methode vereist slechts één evaluatievoorbeeld en elimineert de noodzaak van tijdrovende handmatige promptengineering, waardoor zowel de efficiëntie als de robuustheid worden verbeterd. Ons werk draagt bij aan een nieuwe richting voor robuustere en efficiëntere LLM-gebaseerde evaluatie.

Reële lacunes in onderzoek naar AI-bestuur
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

Op basis van 1.178 artikelen over veiligheid en betrouwbaarheid uit 9.439 artikelen over generatieve AI (januari 2020 - maart 2025), vergelijken we de onderzoeksoutput van toonaangevende AI-bedrijven (Anthropic, Google DeepMind, Meta, Microsoft en OpenAI) en AI-universiteiten (CMU, MIT, NYU, Stanford, UC Berkeley en de University of Washington). We constateren dat bedrijfsonderzoek naar AI zich steeds meer concentreert op pre-implementatiegebieden — modelalignment en testen & evaluatie — terwijl aandacht voor implementatiefaseproblemen zoals modelbias is afgenomen. Er bestaan aanzienlijke onderzoekslacunes in hoogrisico-implementatiedomeinen, waaronder gezondheidszorg, financiën, desinformatie, overtuigende en verslavende functies, hallucinaties en auteursrecht. Zonder verbeterde observeerbaarheid van geïmplementeerde AI, zou de groeiende concentratie bij bedrijven kennisachterstanden kunnen vergroten. Wij bevelen aan om de toegang van externe onderzoekers tot implementatiegegevens en systematische observeerbaarheid van AI-gedragingen in de markt uit te breiden.

CORG: Antwoorden genereren uit complexe, onderling verbonden contexten
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

In een real-world corpus komt kennis vaak terug in verschillende documenten, maar bevat deze vaak inconsistenties door ambiguïteit in benamingen, verouderde informatie of fouten, wat leidt tot complexe onderlinge relaties tussen contexten. Eerder onderzoek heeft aangetoond dat taalmodelen moeite hebben met deze complexiteiten, waarbij ze zich meestal richten op afzonderlijke factoren in isolatie. Wij classificeren deze relaties in vier typen: afleidend, ambigu, contrafeitelijk en gedupliceerd. Onze analyse toont aan dat geen enkele aanpak al deze onderlinge relaties tegelijkertijd effectief aanpakt. Daarom introduceren we Context Organizer (CORG), een raamwerk dat meerdere contexten organiseert in onafhankelijk verwerkte groepen. Dit ontwerp stelt het model in staat om efficiënt alle relevante antwoorden te vinden terwijl het ambiguïteit oplost. CORG bestaat uit drie belangrijke componenten: een grafiekconstructor, een herrangschikker en een aggregator. Onze resultaten tonen aan dat CORG prestaties en efficiëntie effectief in balans brengt, bestaande groeperingsmethoden overtreft en vergelijkbare resultaten behaalt als meer rekenintensieve, single-context benaderingen.

X-Cross: Dynamische integratie van taalmodelen voor cross-domein sequentiële aanbevelingen
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

Aangezien er dagelijks nieuwe producten op de markt komen, is het noodzakelijk dat aanbevelingssystemen zich snel kunnen aanpassen aan mogelijke nieuwe domeinen zonder uitgebreide hertraining te vereisen. Dit werk presenteert ``X-Cross'' -- een nieuw cross-domein sequentieel-aanbevelingsmodel dat producten in nieuwe domeinen aanbeveelt door verschillende domeinspecifieke taalmodelen te integreren; elk model is verfijnd met low-rank adapters (LoRA). Gegeven een aanbevelingsprompt, werkt X-Cross laag voor laag en verfijnt dynamisch de representatie van elk bron-taalmodel door kennis van alle andere modellen te integreren. Deze verfijnde representaties worden van de ene laag naar de volgende doorgegeven, waarbij de activaties van elke domeinadapter worden benut om ervoor te zorgen dat domeinspecifieke nuances behouden blijven terwijl aanpassingsvermogen over domeinen heen wordt mogelijk gemaakt. Door gebruik te maken van Amazon-datasets voor sequentiële aanbevelingen, bereikt X-Cross een vergelijkbare prestaties als een model dat is verfijnd met LoRA, terwijl slechts 25% van de aanvullende parameters wordt gebruikt. In cross-domein taken, zoals aanpassen van het Speelgoed-domein naar Gereedschap, Elektronica of Sport, toont X-Cross robuuste prestaties, terwijl ongeveer 50%-75% minder fine-tuning data nodig is dan LoRA om fine-tuning effectief te maken. Bovendien behaalt X-Cross een significante verbetering in nauwkeurigheid ten opzichte van alternatieve cross-domein baseline-modellen. Over het algemeen maakt X-Cross schaalbare en adaptieve cross-domein aanbevelingen mogelijk, vermindert het de rekenkundige overhead en biedt het een efficiënte oplossing voor omgevingen met beperkte data.

TeLoGraF: Temporele Logica Planning via Graf-gecodeerde Stroomafstemming
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Het leren oplossen van complexe taken met specificaties in signaal-temporele logica (STL) is cruciaal voor veel real-world toepassingen. Echter houden de meeste eerdere werken alleen rekening met vaste of geparametriseerde STL-specificaties vanwege het ontbreken van een diverse STL-dataset en encoders om temporele logica-informatie effectief te extraheren voor downstream taken. In dit artikel stellen we TeLoGraF voor, Temporal Logic Graph-encoded Flow, dat gebruikmaakt van Graph Neural Networks (GNN) encoders en flow-matching om oplossingen te leren voor algemene STL-specificaties. We identificeren vier veelgebruikte STL-sjablonen en verzamelen in totaal 200K specificaties met gekoppelde demonstraties. We voeren uitgebreide experimenten uit in vijf simulatieomgevingen, variërend van eenvoudige dynamische modellen in de 2D-ruimte tot hoogdimensionale 7DoF Franka Panda-robotarmen en Ant-quadruped-navigatie. De resultaten tonen aan dat onze methode andere baseline-methoden overtreft in de STL-satisfactiegraad. Vergeleken met klassieke STL-planningsalgoritmen is onze aanpak 10-100X sneller in inferentie en kan werken op elk systeemdynamiek. Daarnaast tonen we de mogelijkheid van onze grafencoderingmethode om complexe STL's op te lossen en de robuustheid tegen out-distribution STL-specificaties. Code is beschikbaar op https://github.com/mengyuest/TeLoGraF.

Llama-Nemotron: Efficiënte Redeneermodellen
Llama-Nemotron: Efficient Reasoning Models

May 2