ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Critic-V: VLM-critici helpen bij het opsporen van VLM-fouten in multimodaal redeneren.
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

Nov 27
ByDi Zhang, Jingdi Lei, Junxian Li, Xunzhi Wang, Yujie Liu, Zonglin Yang, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye, Wanli Ouyang, Dongzhan Zhou
41
2

Vision-language modellen (VLM's) hebben opmerkelijke vooruitgang geboekt in multimodale redeneertaken. Echter, ze genereren nog vaak onnauwkeurige of irrelevante reacties als gevolg van problemen zoals gehallucineerde beeldinterpretaties of ongeraffineerde redeneerpaden. Om deze uitdagingen aan te pakken, introduceren we Critic-V, een nieuw raamwerk geïnspireerd door het Actor-Critic paradigma om de redeneercapaciteit van VLM's te versterken. Dit raamwerk ontkoppelt het redeneerproces en het kritiekproces door twee onafhankelijke componenten te integreren: de Reasoner, die redeneerpaden genereert op basis van visuele en tekstuele invoer, en de Critic, die constructieve kritiek biedt om deze paden te verfijnen. In deze benadering genereert de Reasoner redeneerreacties volgens tekstuele aanwijzingen, die iteratief kunnen evolueren als een beleid op basis van feedback van de Critic. Dit interactieproces werd theoretisch aangedreven door een reinforcement learning raamwerk waarbij de Critic natuurlijke taalkritieken biedt in plaats van scalaire beloningen, waardoor meer genuanceerde feedback mogelijk is om de capaciteit van de Reasoner op complexe redeneertaken te verbeteren. Het Critic model wordt getraind met Direct Preference Optimization (DPO), waarbij gebruik wordt gemaakt van een voorkeursdataset van kritieken gerangschikt door Rule-based Reward (RBR) om zijn kritieke mogelijkheden te verbeteren. Evaluatieresultaten tonen aan dat het Critic-V raamwerk aanzienlijk beter presteert dan bestaande methoden, waaronder GPT-4V, op 5 van de 8 benchmarks, met name met betrekking tot redeneernauwkeurigheid en efficiëntie. Door een dynamisch op tekst gebaseerd beleid voor de Reasoner te combineren met constructieve feedback van de voorkeurs-geoptimaliseerde Critic, wordt een betrouwbaarder en contextgevoelig multimodaal redeneerproces mogelijk gemaakt. Onze benadering biedt een veelbelovende oplossing om de betrouwbaarheid van VLM's te verbeteren, waardoor hun prestaties in redeneer-intensieve multimodale toepassingen in de echte wereld, zoals autonoom rijden en belichaamde intelligentie, worden verbeterd.

2

TryOffDiff: Virtuele pasvorm via hoogwaardige kledingreconstructie met behulp van diffusiemodellen
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models

Nov 27
ByRiza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
29
8

Dit artikel introduceert Virtual Try-Off (VTOFF), een nieuw taakgericht op het genereren van gestandaardiseerde kledingafbeeldingen van enkele foto's van geklede individuen. In tegenstelling tot de traditionele Virtual Try-On (VTON), die modellen digitaal kleedt, heeft VTOFF als doel een canonieke kledingafbeelding te extraheren, wat unieke uitdagingen met zich meebrengt bij het vastleggen van kledingvorm, textuur en ingewikkelde patronen. Dit goed gedefinieerde doel maakt VTOFF bijzonder effectief voor het evalueren van reconstructiefideliteit in generatieve modellen. We presenteren TryOffDiff, een model dat Stable Diffusion aanpast met op SigLIP gebaseerde visuele conditionering om een hoge getrouwheid en detailbehoud te waarborgen. Experimenten op een aangepaste VITON-HD dataset tonen aan dat onze aanpak beter presteert dan basismethoden gebaseerd op pose-overdracht en virtueel passen met minder voor- en nabewerkingsstappen. Onze analyse onthult dat traditionele beeldgeneratiemetrics de reconstructiekwaliteit ontoereikend beoordelen, wat ons aanzet om te vertrouwen op DISTS voor een nauwkeurigere evaluatie. Onze resultaten benadrukken het potentieel van VTOFF om productafbeeldingen in e-commerce toepassingen te verbeteren, generatieve model evaluatie te bevorderen en toekomstig werk over hoogwaardige reconstructie te inspireren. Demo, code en modellen zijn beschikbaar op: https://rizavelioglu.github.io/tryoffdiff/

3

ChatGen: Automatische Tekst-naar-Afbeelding Generatie Vanuit Vrij Chatten
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Nov 26
ByChengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
24
3

Ondanks de aanzienlijke vooruitgang in tekst-naar-afbeelding (T2I) generatieve modellen, worden gebruikers vaak geconfronteerd met een trial-and-error uitdaging in praktijksituaties. Deze uitdaging ontstaat door de complexiteit en onzekerheid van tijdrovende stappen zoals het formuleren van geschikte prompts, het selecteren van passende modellen en het configureren van specifieke argumenten, waardoor gebruikers gedwongen worden tot arbeidsintensieve pogingen om gewenste afbeeldingen te verkrijgen. Dit artikel stelt Automatic T2I-generatie voor, dat tot doel heeft deze tijdrovende stappen te automatiseren, waardoor gebruikers simpelweg hun behoeften kunnen beschrijven op een vrije manier van chatten. Om dit probleem systematisch te bestuderen, introduceren we eerst ChatGenBench, een nieuw benchmark ontworpen voor Automatic T2I. Het bevat hoogwaardige gekoppelde gegevens met diverse vrije inputs, waardoor een uitgebreide evaluatie van automatische T2I-modellen over alle stappen mogelijk is. Bovendien, door Automatic T2I te erkennen als een complexe meerstaps redeneertaak, stellen we ChatGen-Evo voor, een meertraps evolutiestrategie die modellen progressief voorziet van essentiële automatiseringsvaardigheden. Door uitgebreide evaluatie over stapsgewijze nauwkeurigheid en beeldkwaliteit verbetert ChatGen-Evo aanzienlijk de prestaties ten opzichte van verschillende baselines. Onze evaluatie onthult ook waardevolle inzichten voor het bevorderen van automatische T2I. Al onze gegevens, code en modellen zullen beschikbaar zijn op https://chengyou-jia.github.io/ChatGen-Home

4

SelfSplat: Houdingvrij en 3D Vooraf Vrij Algemeen Toepasbaar 3D Gaussisch Splatting
SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting

Nov 26
ByGyeongjin Kang, Jisang Yoo, Jihyeon Park, Seungtae Nam, Hyeonsoo Im, Sangheon Shin, Sangpil Kim, Eunbyung Park
15
2

Wij stellen SelfSplat voor, een nieuw 3D Gaussisch Splatting model dat is ontworpen om pose-vrije en 3D-voorafgaande-vrije generaliseerbare 3D-reconstructie uit ongeposeerde multi-view afbeeldingen uit te voeren. Deze instellingen zijn inherent slecht bepaald vanwege het ontbreken van grondwaarheidsgegevens, geleerde geometrische informatie, en de noodzaak om nauwkeurige 3D-reconstructie te bereiken zonder fine-tuning, waardoor het moeilijk is voor conventionele methoden om hoogwaardige resultaten te behalen. Ons model pakt deze uitdagingen aan door expliciete 3D-representaties effectief te integreren met zelf-toezicht diepte- en pose schattingstechnieken, resulterend in wederzijdse verbeteringen in zowel pose nauwkeurigheid als 3D-reconstructiekwaliteit. Bovendien nemen we een matching-bewuste pose schattingsnetwerk en een diepte-verfijningsmodule op om geometrische consistentie over weergaven te verbeteren, wat zorgt voor meer nauwkeurige en stabiele 3D-reconstructies. Om de prestaties van onze methode te presenteren, hebben we deze geëvalueerd op grootschalige real-world datasets, waaronder RealEstate10K, ACID, en DL3DV. SelfSplat behaalt superieure resultaten ten opzichte van eerdere state-of-the-art methoden in zowel uiterlijk als geometrische kwaliteit, en toont ook sterke generalisatiecapaciteiten over datasets heen. Uitgebreide ablatie studies en analyses bevestigen ook de effectiviteit van onze voorgestelde methoden. Code en vooraf getrainde modellen zijn beschikbaar op https://gynjn.github.io/selfsplat/

5

Vrije^2Gids: Gradientvrije Padintegrale Controle voor het Verbeteren van Tekst-naar-Video Generatie met Grote Visie-Taalmodellen
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Nov 26
ByJaemin Kim, Bryan S Kim, Jong Chul Ye
13
2

Diffusiemodellen hebben indrukwekkende resultaten behaald in generatieve taken zoals tekst-naar-afbeelding (T2I) en tekst-naar-video (T2V) synthese. Het nauwkeurig uitlijnen van tekst in T2V generatie blijft echter een uitdaging vanwege de complexe temporele afhankelijkheid tussen frames. Bestaande op reinforcement learning (RL) gebaseerde benaderingen om tekstuitlijning te verbeteren vereisen vaak differentieerbare beloningsfuncties of zijn beperkt tot beperkte aanwijzingen, wat hun schaalbaarheid en toepasbaarheid belemmert. In dit artikel stellen we Free^2Guide voor, een nieuw gradientvrij kader voor het uitlijnen van gegenereerde video's met tekstaanwijzingen zonder extra modeltraining te vereisen. Door principes uit de padintegraalbesturing te benutten, benadert Free^2Guide begeleiding voor diffusiemodellen met behulp van niet-differentieerbare beloningsfuncties, waardoor de integratie van krachtige black-box Grote Visie-Taalmodellen (LVLM's) als beloningsmodel mogelijk is. Bovendien ondersteunt ons kader de flexibele samenvoeging van meerdere beloningsmodellen, inclusief grootschalige op afbeeldingen gebaseerde modellen, om de uitlijning synergetisch te verbeteren zonder aanzienlijke computationele overhead te veroorzaken. We tonen aan dat Free^2Guide de tekstuitlijning aanzienlijk verbetert over verschillende dimensies en de algehele kwaliteit van gegenereerde video's verbetert.

6

LangSleutel: Sleutelzinextractie voor Lange Documenten
LongKey: Keyphrase Extraction for Long Documents

Nov 26
ByJeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
12
2

In een tijdperk van informatieverzadiging is het handmatig annoteren van het uitgebreide en groeiende corpus van documenten en wetenschappelijke papers steeds onpraktischer. Geautomatiseerde sleutelwoordextractie pakt deze uitdaging aan door representatieve termen binnen teksten te identificeren. Echter, de meeste bestaande methoden richten zich op korte documenten (tot 512 tokens), waardoor er een hiaat ontstaat in het verwerken van documenten met een lange context. In dit artikel introduceren we LongKey, een nieuw framework voor het extraheren van sleutelwoorden uit uitgebreide documenten, dat een op een encoder gebaseerd taalmodel gebruikt om uitgebreide tekstsubtiliteiten vast te leggen. LongKey maakt gebruik van een max-pooling embedder om de representatie van sleutelwoordkandidaten te verbeteren. Getoetst op de uitgebreide LDKP datasets en zes diverse, ongeziene datasets, presteert LongKey consequent beter dan bestaande ongesuperviseerde en op taalmodellen gebaseerde sleutelwoordextractiemethoden. Onze bevindingen tonen de veelzijdigheid en superieure prestaties van LongKey aan, wat een vooruitgang betekent in sleutelwoordextractie voor verschillende tekstlengtes en domeinen.

7

AfriMed-QA: Een Pan-Afrikaanse, Multi-Specialty, Medische Vraag-en-Antwoord Benchmark Dataset
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

Nov 23
ByTobi Olatunji, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, Folafunmi Omofoye, Foutse Yuehgoh, Timothy Faniran, Bonaventure F. P. Dossou, Moshood Yekini, Jonas Kemp, Katherine Heller, Jude Chidubem Omeke, Chidi Asuzu MD, Naome A. Etori, Aimérou Ndiaye, Ifeoma Okoh, Evans Doe Ocansey, Wendy Kinara, Michael Best, Irfan Essa, Stephen Edward Moore, Chris Fourie, Mercy Nyamewaa Asiedu
4
3

Recente ontwikkelingen in de prestaties van grote taalmodellen (LLM) op medische meerkeuzevragen (MCQ) benchmarks hebben wereldwijd interesse gewekt bij zorgverleners en patiënten. Vooral in lage- en middeninkomenslanden (LMICs) met een acuut tekort aan artsen en een gebrek aan specialisten, bieden LLMs een potentieel schaalbare manier om de toegang tot gezondheidszorg te verbeteren en de kosten te verlagen. De effectiviteit van LLMs in de Global South, met name op het Afrikaanse continent, moet echter nog worden vastgesteld. In dit onderzoek introduceren we AfriMed-QA, het eerste grootschalige Pan-Afrikaanse Engelse multi-specialisme medische Vraag-Antwoord (QA) dataset, met 15.000 vragen (open en gesloten) afkomstig van meer dan 60 medische scholen in 16 landen, die 32 medische specialismen beslaan. We evalueren vervolgens 30 LLMs op meerdere assen, waaronder correctheid en demografische bias. Onze bevindingen tonen aanzienlijke prestatievariatie over specialismen en geografieën, waarbij de prestaties op MCQ duidelijk achterblijven bij USMLE (MedQA). We constateren dat biomedische LLMs minder presteren dan algemene modellen en dat kleinere LLMs die geschikt zijn voor edge-devices moeite hebben om een voldoende score te behalen. Interessant genoeg tonen menselijke evaluaties een consistente voorkeur van consumenten voor LLM-antwoorden en -verklaringen in vergelijking met clinici-antwoorden.

8

Morph: Een bewegingsvrij fysisch optimalisatiekader voor het genereren van menselijke beweging
Morph: A Motion-free Physics Optimization Framework for Human Motion Generation

Nov 22
ByZhuo Li, Mingshuang Luo, Ruibing Hou, Xin Zhao, Hao Liu, Hong Chang, Zimo Liu, Chen Li
2
1

Menselijke bewegingsgeneratie speelt een cruciale rol in toepassingen zoals digitale mensen en de controle van humanoïde robots. Echter, de meeste bestaande benaderingen negeren fysische beperkingen, wat leidt tot de frequente productie van fysiek onmogelijke bewegingen met opvallende artefacten zoals zweven en voetverschuiving. In dit artikel stellen we Morph voor, een Bewegingsvrije fysica-optimalisatiekader, bestaande uit een Bewegingsgenerator en een Bewegingsfysica-verfijningsmodule, om de fysieke plausibiliteit te verbeteren zonder te vertrouwen op kostbare bewegingsgegevens uit de echte wereld. Specifiek is de Bewegingsgenerator verantwoordelijk voor het leveren van grootschalige synthetische bewegingsgegevens, terwijl de Bewegingsfysica-verfijningsmodule deze synthetische gegevens gebruikt om een bewegingsimitator binnen een fysieke simulator te trainen, waarbij fysische beperkingen worden opgelegd om de ruisachtige bewegingen in een fysiek plausibele ruimte te projecteren. Deze fysiek verfijnde bewegingen worden op hun beurt gebruikt om de Bewegingsgenerator verder af te stemmen, waardoor de capaciteit ervan wordt verbeterd. Experimenten op zowel tekst-naar-beweging als muziek-naar-dans generatietaken tonen aan dat ons kader een motion generation kwaliteit van topniveau bereikt terwijl de fysieke plausibiliteit drastisch verbetert.

Nov 28
Nov 29
Dec 2