Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Image inpainting is een fundamenteel onderzoeksgebied tussen beeldbewerking en beeldgeneratie. Recente state-of-the-art (SOTA) methoden hebben nieuwe aandachtmechanismen, lichtgewicht architecturen en contextbewuste modellering onderzocht, waarbij indrukwekkende prestaties worden gedemonstreerd. Ze hebben echter vaak moeite met complexe structuren (bijv. textuur, vorm, ruimtelijke relaties) en semantiek (bijv. kleurconsistentie, objectherstel en logische correctheid), wat leidt tot artefacten en ongepaste generatie. Om deze uitdaging aan te pakken, ontwerpen we een eenvoudig maar effectief inpainting-paradigma genaamd latente categorieënbegeleiding, en stellen we verder een op diffusie gebaseerd model voor genaamd PixelHacker. Specifiek construeren we eerst een grote dataset met 14 miljoen beeld-maskerparen door voorgrond en achtergrond te annoteren (potentieel 116 en 21 categorieën respectievelijk). Vervolgens coderen we potentiële voorgrond- en achtergrondrepresentaties afzonderlijk via twee vaste grootte-embeddings, en injecteren we deze kenmerken intermitterend in het denoisingsproces via lineaire aandacht. Ten slotte verkrijgen we PixelHacker door voor te trainen op onze dataset en af te stemmen op open-source benchmarks. Uitgebreide experimenten tonen aan dat PixelHacker de SOTA overtreft op een breed scala aan datasets (Places2, CelebA-HQ en FFHQ) en opmerkelijke consistentie vertoont in zowel structuur als semantiek. Projectpagina op https://hustvl.github.io/PixelHacker.
We introduceren de Llama-Nemotron-serie van modellen, een open familie van heterogene redeneermodellen die uitstekende redeneervaardigheden, inferentie-efficiëntie en een open licentie voor zakelijk gebruik bieden. De familie is beschikbaar in drie formaten -- Nano (8B), Super (49B) en Ultra (253B) -- en presteert competitief met state-of-the-art redeneermodellen zoals DeepSeek-R1, terwijl het superieure inferentie-doorvoer en geheugenefficiëntie biedt. In dit rapport bespreken we het trainingsproces voor deze modellen, waarbij gebruik wordt gemaakt van neurale architectuurzoektochten vanuit Llama 3-modellen voor versnelde inferentie, kennisdistillatie en voortgezette pretraining, gevolgd door een redeneringsgerichte post-trainingsfase die uit twee hoofdonderdelen bestaat: supervised fine-tuning en grootschalige reinforcement learning. Llama-Nemotron-modellen zijn de eerste open-source modellen die een dynamische redeneringsschakelaar ondersteunen, waardoor gebruikers tijdens de inferentie kunnen schakelen tussen standaard chat- en redeneermodi. Om open onderzoek verder te ondersteunen en modelontwikkeling te vergemakkelijken, bieden we de volgende bronnen: 1. We geven de Llama-Nemotron redeneermodellen -- LN-Nano, LN-Super en LN-Ultra -- vrij onder de commercieel toestemming gevende NVIDIA Open Model License Agreement. 2. We geven de complete post-trainingsdataset vrij: Llama-Nemotron-Post-Training-Dataset. 3. We geven ook onze trainingscodebases vrij: NeMo, NeMo-Aligner en Megatron-LM.
De meeste beeldbewerkingstaken in de praktijk vereisen meerdere opeenvolgende bewerkingen om de gewenste resultaten te bereiken. Huidige bewerkingsmethoden, die voornamelijk zijn ontworpen voor wijzigingen aan één object, hebben moeite met opeenvolgende bewerkingen: met name het behouden van eerdere bewerkingen en het natuurlijk integreren van nieuwe objecten in de bestaande inhoud. Deze beperkingen belemmeren complexe bewerkingsscenario's aanzienlijk, waarbij meerdere objecten moeten worden aangepast terwijl hun contextuele relaties behouden blijven. Wij pakken deze fundamentele uitdaging aan via twee belangrijke voorstellen: het mogelijk maken van ruwe maskerinvoer die bestaande inhoud behoudt terwijl nieuwe elementen natuurlijk worden geïntegreerd, en het ondersteunen van consistente bewerkingen over meerdere wijzigingen heen. Ons framework bereikt dit door middel van laaggewijs geheugen, dat latente representaties en prompt-embeddings van eerdere bewerkingen opslaat. Wij stellen Background Consistency Guidance voor, dat gebruikmaakt van opgeslagen latente representaties om de samenhang van de scène te behouden, en Multi-Query Disentanglement in cross-attention, dat zorgt voor een natuurlijke aanpassing aan bestaande inhoud. Om onze methode te evalueren, presenteren we een nieuwe benchmarkdataset met semantische uitlijningsmetrieken en interactieve bewerkingsscenario's. Door middel van uitgebreide experimenten tonen we superieure prestaties aan bij iteratieve beeldbewerkingstaken met minimale gebruikersinspanning, waarbij alleen ruwe maskers nodig zijn terwijl hoogwaardige resultaten worden behouden gedurende meerdere bewerkingsstappen.
Het evalueren van natural language generation (NLG)-systemen is uitdagend vanwege de diversiteit aan geldige uitvoer. Hoewel menselijke evaluatie de gouden standaard is, heeft het te kampen met inconsistenties, een gebrek aan standaardisatie en demografische vooroordelen, wat de reproduceerbaarheid beperkt. Evaluatie op basis van grote taalmodelen (LLM) biedt een schaalbare alternatief, maar is zeer gevoelig voor promptontwerp, waarbij kleine variaties kunnen leiden tot aanzienlijke verschillen. In dit werk stellen we een inversie-leermethode voor die effectieve omgekeerde afbeeldingen leert van modeluitvoer terug naar hun invoerinstructies, waardoor het automatisch genereren van zeer effectieve, modelspecifieke evaluatieprompts mogelijk wordt. Onze methode vereist slechts één evaluatievoorbeeld en elimineert de noodzaak van tijdrovende handmatige promptengineering, waardoor zowel de efficiëntie als de robuustheid worden verbeterd. Ons werk draagt bij aan een nieuwe richting voor robuustere en efficiëntere LLM-gebaseerde evaluatie.
Op basis van 1.178 artikelen over veiligheid en betrouwbaarheid uit 9.439 artikelen over generatieve AI (januari 2020 - maart 2025), vergelijken we de onderzoeksoutput van toonaangevende AI-bedrijven (Anthropic, Google DeepMind, Meta, Microsoft en OpenAI) en AI-universiteiten (CMU, MIT, NYU, Stanford, UC Berkeley en de University of Washington). We constateren dat bedrijfsonderzoek naar AI zich steeds meer concentreert op pre-implementatiegebieden — modelalignment en testen & evaluatie — terwijl aandacht voor implementatiefaseproblemen zoals modelbias is afgenomen. Er bestaan aanzienlijke onderzoekslacunes in hoogrisico-implementatiedomeinen, waaronder gezondheidszorg, financiën, desinformatie, overtuigende en verslavende functies, hallucinaties en auteursrecht. Zonder verbeterde observeerbaarheid van geïmplementeerde AI, zou de groeiende concentratie bij bedrijven kennisachterstanden kunnen vergroten. Wij bevelen aan om de toegang van externe onderzoekers tot implementatiegegevens en systematische observeerbaarheid van AI-gedragingen in de markt uit te breiden.
In een real-world corpus komt kennis vaak terug in verschillende documenten, maar bevat deze vaak inconsistenties door ambiguïteit in benamingen, verouderde informatie of fouten, wat leidt tot complexe onderlinge relaties tussen contexten. Eerder onderzoek heeft aangetoond dat taalmodelen moeite hebben met deze complexiteiten, waarbij ze zich meestal richten op afzonderlijke factoren in isolatie. Wij classificeren deze relaties in vier typen: afleidend, ambigu, contrafeitelijk en gedupliceerd. Onze analyse toont aan dat geen enkele aanpak al deze onderlinge relaties tegelijkertijd effectief aanpakt. Daarom introduceren we Context Organizer (CORG), een raamwerk dat meerdere contexten organiseert in onafhankelijk verwerkte groepen. Dit ontwerp stelt het model in staat om efficiënt alle relevante antwoorden te vinden terwijl het ambiguïteit oplost. CORG bestaat uit drie belangrijke componenten: een grafiekconstructor, een herrangschikker en een aggregator. Onze resultaten tonen aan dat CORG prestaties en efficiëntie effectief in balans brengt, bestaande groeperingsmethoden overtreft en vergelijkbare resultaten behaalt als meer rekenintensieve, single-context benaderingen.
Aangezien er dagelijks nieuwe producten op de markt komen, is het noodzakelijk dat aanbevelingssystemen zich snel kunnen aanpassen aan mogelijke nieuwe domeinen zonder uitgebreide hertraining te vereisen. Dit werk presenteert ``X-Cross'' -- een nieuw cross-domein sequentieel-aanbevelingsmodel dat producten in nieuwe domeinen aanbeveelt door verschillende domeinspecifieke taalmodelen te integreren; elk model is verfijnd met low-rank adapters (LoRA). Gegeven een aanbevelingsprompt, werkt X-Cross laag voor laag en verfijnt dynamisch de representatie van elk bron-taalmodel door kennis van alle andere modellen te integreren. Deze verfijnde representaties worden van de ene laag naar de volgende doorgegeven, waarbij de activaties van elke domeinadapter worden benut om ervoor te zorgen dat domeinspecifieke nuances behouden blijven terwijl aanpassingsvermogen over domeinen heen wordt mogelijk gemaakt. Door gebruik te maken van Amazon-datasets voor sequentiële aanbevelingen, bereikt X-Cross een vergelijkbare prestaties als een model dat is verfijnd met LoRA, terwijl slechts 25% van de aanvullende parameters wordt gebruikt. In cross-domein taken, zoals aanpassen van het Speelgoed-domein naar Gereedschap, Elektronica of Sport, toont X-Cross robuuste prestaties, terwijl ongeveer 50%-75% minder fine-tuning data nodig is dan LoRA om fine-tuning effectief te maken. Bovendien behaalt X-Cross een significante verbetering in nauwkeurigheid ten opzichte van alternatieve cross-domein baseline-modellen. Over het algemeen maakt X-Cross schaalbare en adaptieve cross-domein aanbevelingen mogelijk, vermindert het de rekenkundige overhead en biedt het een efficiënte oplossing voor omgevingen met beperkte data.
Het leren oplossen van complexe taken met specificaties in signaal-temporele logica (STL) is cruciaal voor veel real-world toepassingen. Echter houden de meeste eerdere werken alleen rekening met vaste of geparametriseerde STL-specificaties vanwege het ontbreken van een diverse STL-dataset en encoders om temporele logica-informatie effectief te extraheren voor downstream taken. In dit artikel stellen we TeLoGraF voor, Temporal Logic Graph-encoded Flow, dat gebruikmaakt van Graph Neural Networks (GNN) encoders en flow-matching om oplossingen te leren voor algemene STL-specificaties. We identificeren vier veelgebruikte STL-sjablonen en verzamelen in totaal 200K specificaties met gekoppelde demonstraties. We voeren uitgebreide experimenten uit in vijf simulatieomgevingen, variërend van eenvoudige dynamische modellen in de 2D-ruimte tot hoogdimensionale 7DoF Franka Panda-robotarmen en Ant-quadruped-navigatie. De resultaten tonen aan dat onze methode andere baseline-methoden overtreft in de STL-satisfactiegraad. Vergeleken met klassieke STL-planningsalgoritmen is onze aanpak 10-100X sneller in inferentie en kan werken op elk systeemdynamiek. Daarnaast tonen we de mogelijkheid van onze grafencoderingmethode om complexe STL's op te lossen en de robuustheid tegen out-distribution STL-specificaties. Code is beschikbaar op https://github.com/mengyuest/TeLoGraF.