AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

xGen-MM (BLIP-3): Een Familie van Open Grote Multimodale Modellen
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Aug 16

ByLe Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu

101

Dit rapport introduceert xGen-MM (ook bekend als BLIP-3), een raamwerk voor het ontwikkelen van Grote Multimodale Modellen (LMMs). Het raamwerk omvat zorgvuldig samengestelde datasets, een trainingsrecept, modelarchitecturen en een resulterende suite van LMMs. xGen-MM, kort voor xGen-MultiModal, breidt het Salesforce xGen-initiatief uit op het gebied van fundamentele AI-modellen. Onze modellen ondergaan rigoureuze evaluaties over een reeks taken, waaronder benchmarks voor zowel enkele als meerdere afbeeldingen. Onze vooraf getrainde basismodel vertoont sterke in-context leermogelijkheden en het instructie-afgestemde model toont competitieve prestaties onder open-source LMMs met vergelijkbare modelgroottes. Daarnaast introduceren we een veiligheidsafgestemd model met DPO, gericht op het verminderen van schadelijk gedrag zoals hallucinaties en het verbeteren van de veiligheid. We maken onze modellen, de samengestelde grootschalige datasets en onze fine-tuning codebase open source om verdere vooruitgang in LMM-onderzoek te bevorderen. Gerelateerde bronnen zullen beschikbaar zijn op onze projectpagina hierboven.

JPEG-LM: LLM's als beeldgeneratoren met canonieke codec-representaties
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Aug 15

ByXiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov

Recent werk op het gebied van beeld- en videogeneratie heeft zich gericht op het gebruik van de autoregressieve LLM-architectuur vanwege de algemene toepasbaarheid en de potentiële eenvoudige integratie in multimodale systemen. De kern van het toepassen van autoregressieve training in taalgeneratie op visuele generatie is discretisatie – het representeren van continue data zoals afbeeldingen en video's als discrete tokens. Gangbare methoden voor het discretiseren van afbeeldingen en video's omvatten het modelleren van ruwe pixelwaarden, die onpraktisch lang zijn, of vectorquantisatie, die ingewikkelde voorafgaande training vereist. In dit werk stellen we voor om afbeeldingen en video's direct te modelleren als gecomprimeerde bestanden die op computers zijn opgeslagen via standaard codecs (bijv. JPEG, AVC/H.264). Met behulp van de standaard Llama-architectuur zonder visiespecifieke aanpassingen, pretrainen we JPEG-LM vanaf nul om afbeeldingen te genereren (en AVC-LM om video's te genereren als proof of concept), door direct gecomprimeerde bestandsbytes in JPEG- en AVC-formaten uit te voeren. Evaluatie van beeldgeneratie toont aan dat deze eenvoudige en rechtstreekse aanpak effectiever is dan pixelgebaseerd modelleren en geavanceerde vectorquantisatie-baselines (waarbij onze methode een reductie van 31% in FID oplevert). Onze analyse laat zien dat JPEG-LM een speciaal voordeel heeft ten opzichte van vectorquantisatiemodellen bij het genereren van visuele elementen uit de lange staart. Over het algemeen tonen we aan dat het gebruik van standaard codec-representaties de barrières tussen taalgeneratie en visuele generatie kan verlagen, wat toekomstig onderzoek naar multimodale taal/beeld/video-LLM's vergemakkelijkt.

Automatisch Ontwerp van Agent-gebaseerde Systemen
Automated Design of Agentic Systems

Aug 15

ByShengran Hu, Cong Lu, Jeff Clune

Onderzoekers investeren aanzienlijke inspanningen in het ontwikkelen van krachtige algemene agents, waarbij Foundation Models worden gebruikt als modules binnen agentische systemen (bijv. Chain-of-Thought, Self-Reflection, Toolformer). De geschiedenis van machine learning leert ons echter dat handmatig ontworpen oplossingen uiteindelijk worden vervangen door geleerde oplossingen. Wij formuleren een nieuw onderzoeksgebied, Automated Design of Agentic Systems (ADAS), dat tot doel heeft krachtige ontwerpen van agentische systemen automatisch te creëren, inclusief het uitvinden van nieuwe bouwstenen en/of het combineren ervan op nieuwe manieren. Wij tonen verder aan dat er binnen ADAS een onontgonnen maar veelbelovende benadering bestaat waarbij agents in code kunnen worden gedefinieerd en nieuwe agents automatisch kunnen worden ontdekt door een meta-agent die steeds betere agents in code programmeert. Gezien het feit dat programmeertalen Turing Complete zijn, maakt deze benadering het in theorie mogelijk om elk mogelijk agentisch systeem te leren: inclusief nieuwe prompts, gereedschapsgebruik, controleflows en combinaties daarvan. Wij presenteren een eenvoudig maar effectief algoritme genaamd Meta Agent Search om dit idee te demonstreren, waarbij een meta-agent iteratief interessante nieuwe agents programmeert op basis van een steeds groeiend archief van eerdere ontdekkingen. Door uitgebreide experimenten in meerdere domeinen, waaronder programmeren, wetenschap en wiskunde, tonen wij aan dat ons algoritme progressief agents kan uitvinden met nieuwe ontwerpen die sterk superieur presteren in vergelijking met state-of-the-art handmatig ontworpen agents. Belangrijk is dat wij consistent het verrassende resultaat observeren dat agents die door Meta Agent Search zijn uitgevonden superieure prestaties behouden, zelfs wanneer ze worden overgedragen tussen domeinen en modellen, wat hun robuustheid en algemeenheid aantoont. Mits wij het veilig ontwikkelen, illustreert ons werk het potentieel van een spannende nieuwe onderzoeksrichting naar het automatisch ontwerpen van steeds krachtigere agentische systemen ten voordele van de mensheid.

Surgical SAM 2: Real-time Segment Anything in chirurgische video's door efficiënt frame snoeien
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

Aug 15

ByHaofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin

Segmentatie van chirurgische video's is een cruciale taak in computerondersteunde chirurgie en is essentieel voor het verbeteren van de chirurgische kwaliteit en patiëntresultaten. Recentelijk heeft het Segment Anything Model 2 (SAM2)-framework aanzienlijke vooruitgang geboekt in beeld- en videosegmentatie. SAM2 kampt echter met efficiëntieproblemen vanwege de hoge rekenkundige eisen die het verwerken van hoogresolutiebeelden en complexe, langetermijntemporele dynamiek in chirurgische video's met zich meebrengt. Om deze uitdagingen aan te pakken, introduceren we Surgical SAM 2 (SurgSAM-2), een geavanceerd model dat SAM2 combineert met een Efficient Frame Pruning (EFP)-mechanisme, om real-time segmentatie van chirurgische video's mogelijk te maken. Het EFP-mechanisme beheert het geheugenbank dynamisch door selectief alleen de meest informatieve frames te behouden, waardoor het geheugengebruik en de rekenkundige kosten worden verminderd terwijl een hoge segmentatienauwkeurigheid behouden blijft. Onze uitgebreide experimenten tonen aan dat SurgSAM-2 zowel de efficiëntie als de segmentatienauwkeurigheid aanzienlijk verbetert in vergelijking met het standaard SAM2. Opmerkelijk is dat SurgSAM-2 een 3x hogere FPS bereikt in vergelijking met SAM2, terwijl het ook state-of-the-art prestaties levert na fine-tuning met data van lagere resolutie. Deze vooruitgang positioneert SurgSAM-2 als een toonaangevend model voor chirurgische video-analyse, waardoor real-time segmentatie van chirurgische video's in omgevingen met beperkte middelen een haalbare realiteit wordt.

TurboEdit: Directe tekstgebaseerde beeldbewerking
TurboEdit: Instant text-based image editing

Aug 14

ByZongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman

We gaan in op de uitdagingen van precieze beeldinversie en ontwarde beeldbewerking in de context van few-step diffusiemodellen. We introduceren een op een encoder gebaseerde iteratieve inversietechniek. Het inversienetwerk wordt geconditioneerd op de invoerafbeelding en de gereconstrueerde afbeelding van de vorige stap, waardoor correctie van de volgende reconstructie richting de invoerafbeelding mogelijk wordt. We tonen aan dat ontwarde besturingen eenvoudig kunnen worden bereikt in het few-step diffusiemodel door te conditioneren op een (automatisch gegenereerde) gedetailleerde tekstprompt. Om de geïnverteerde afbeelding te manipuleren, bevriezen we de ruiskaarten en wijzigen we één attribuut in de tekstprompt (handmatig of via instructiegebaseerde bewerking aangestuurd door een LLM), wat resulteert in de generatie van een nieuwe afbeelding die vergelijkbaar is met de invoerafbeelding, maar met slechts één gewijzigd attribuut. Het kan verder de bewerkingssterkte beheersen en instructieve tekstprompts accepteren. Onze aanpak maakt realistische tekstgeleide beeldbewerkingen in realtime mogelijk, waarbij slechts 8 functionele evaluaties (NFEs) nodig zijn voor inversie (eenmalige kosten) en 4 NFEs per bewerking. Onze methode is niet alleen snel, maar overtreft ook aanzienlijk de state-of-the-art multi-step diffusiebewerkingstechnieken.

Fine-tuning van grote taalmodelen met mens-geïnspireerde leerstrategieën voor medische vraagbeantwoording
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

Aug 15

ByYushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi

Het trainen van grote taalmmodellen (LLM's) brengt aanzienlijke kosten met zich mee die gerelateerd zijn aan data, wat de ontwikkeling van data-efficiënte trainingsmethoden motiveert door middel van geoptimaliseerde data-ordening en -selectie. Mens-geïnspireerde leerstrategieën, zoals curriculumleren, bieden mogelijkheden voor efficiënte training door data te organiseren volgens gangbare menselijke leerpraktijken. Ondanks bewijs dat fine-tuning met curriculumleren de prestaties van LLM's voor taken op het gebied van natuurlijke taalverwerking verbetert, wordt de effectiviteit ervan doorgaans beoordeeld met behulp van één enkel model. In dit werk breiden we eerder onderzoek uit door zowel curriculumgebaseerde als niet-curriculumgebaseerde leerstrategieën te evalueren over meerdere LLM's, waarbij gebruik wordt gemaakt van door mensen gedefinieerde en geautomatiseerde datalabels voor medische vraagbeantwoording. Onze resultaten wijzen op een matige impact van het gebruik van mens-geïnspireerde leerstrategieën voor het fine-tunen van LLM's, met maximale nauwkeurigheidswinsten van 1,77% per model en 1,81% per dataset. Cruciaal is dat we aantonen dat de effectiviteit van deze strategieën aanzienlijk varieert tussen verschillende model-datasetcombinaties, wat benadrukt dat de voordelen van een specifieke mens-geïnspireerde strategie voor het fine-tunen van LLM's niet generaliseerbaar zijn. Daarnaast vinden we bewijs dat curriculumleren met door LLM's gedefinieerde vraagmoeilijkheid beter presteert dan door mensen gedefinieerde moeilijkheid, wat het potentieel onderstreept van het gebruik van model-gegenereerde maatstaven voor optimaal curriculumontwerp.

D5RL: Diverse Datasets voor Data-Gedreven Diepe Reinforcement Learning
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

Aug 15

ByRafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine

Offline reinforcement learning-algoritmen beloven datagedreven RL-methoden mogelijk maken die geen kostbare of gevaarlijke verkenning in de echte wereld vereisen en profiteren van grote vooraf verzamelde datasets. Dit kan op zijn beurt toepassingen in de echte wereld vergemakkelijken, evenals een meer gestandaardiseerde aanpak van RL-onderzoek. Bovendien kunnen offline RL-methoden effectieve initialisaties bieden voor online finetuning om uitdagingen met exploratie te overwinnen. Echter, het evalueren van vooruitgang in offline RL-algoritmen vereist effectieve en uitdagende benchmarks die eigenschappen van taken uit de echte wereld vastleggen, een reeks taakmoeilijkheden bieden, en een reeks uitdagingen dekken, zowel wat betreft de parameters van het domein (bijv. de lengte van de horizon, de schaarste van beloningen) als de parameters van de data (bijv. smalle demonstratiedata of brede verkenningsdata). Hoewel aanzienlijke vooruitgang in offline RL de afgelopen jaren mogelijk is gemaakt door eenvoudigere benchmarktaken, raken de meest gebruikte datasets steeds meer verzadigd in prestaties en kunnen ze eigenschappen van realistische taken niet weerspiegelen. Wij stellen een nieuwe benchmark voor offline RL voor die zich richt op realistische simulaties van robotmanipulatie- en locomotie-omgevingen, gebaseerd op modellen van echte robotische systemen, en bestaande uit een verscheidenheid aan databronnen, waaronder gescripte data, spelstijl-data verzameld door menselijke teleoperators, en andere databronnen. Onze voorgestelde benchmark omvat state-based en image-based domeinen, en ondersteunt zowel offline RL- als online finetuning-evaluatie, waarbij sommige taken specifiek zijn ontworpen om zowel pre-training als finetuning te vereisen. Wij hopen dat onze voorgestelde benchmark verdere vooruitgang zal faciliteren op zowel offline RL- als finetuning-algoritmen. Een website met code, voorbeelden, taken en data is beschikbaar op https://sites.google.com/view/d5rl/.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

xGen-MM (BLIP-3): Een Familie van Open Grote Multimodale Modellen
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Aug 16

101

JPEG-LM: LLM's als beeldgeneratoren met canonieke codec-representaties
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Aug 15

ByXiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov

Automatisch Ontwerp van Agent-gebaseerde Systemen
Automated Design of Agentic Systems

Aug 15

ByShengran Hu, Cong Lu, Jeff Clune

Surgical SAM 2: Real-time Segment Anything in chirurgische video's door efficiënt frame snoeien
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

Aug 15

ByHaofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin

TurboEdit: Directe tekstgebaseerde beeldbewerking
TurboEdit: Instant text-based image editing

Aug 14

ByZongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman

Fine-tuning van grote taalmodelen met mens-geïnspireerde leerstrategieën voor medische vraagbeantwoording
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

Aug 15

ByYushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi

D5RL: Diverse Datasets voor Data-Gedreven Diepe Reinforcement Learning
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

Aug 15

ByRafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine