papers.title

papers.description

Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 durch ein vereinheitlichtes End-to-End-Modell
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

Traditionelle OCR-Systeme (OCR-1.0) können aufgrund der steigenden Nachfrage nach intelligenter Verarbeitung von künstlichen optischen Zeichen zunehmend nicht mehr den Bedürfnissen der Menschen gerecht werden. In diesem Artikel beziehen wir uns kollektiv auf alle künstlichen optischen Signale (z. B. Klartexte, mathematische/molekulare Formeln, Tabellen, Diagramme, Notenblätter und sogar geometrische Formen) als "Zeichen" und schlagen die Allgemeine OCR-Theorie zusammen mit einem herausragenden Modell namens GOT vor, um die Einführung von OCR-2.0 voranzutreiben. Der GOT, mit 580 Millionen Parametern, ist ein vereinheitlichtes, elegantes und End-to-End-Modell, bestehend aus einem hochkomprimierenden Encoder und einem Decoder mit langen Kontexten. Als ein OCR-2.0-Modell kann der GOT alle oben genannten "Zeichen" unter verschiedenen OCR-Aufgaben verarbeiten. Auf der Eingabeseite unterstützt das Modell üblicherweise verwendete Szenen- und Dokumentenbildstile in Schnitt- und Ganzseitenstilen. Auf der Ausgabeseite kann der GOT einfache oder formatierte Ergebnisse (Markdown/TikZ/Smiles/Kern) über eine einfache Eingabe generieren. Darüber hinaus verfügt das Modell über interaktive OCR-Funktionen, d. h. eine Erkennung auf Regionsebene, die durch Koordinaten oder Farben gesteuert wird. Darüber hinaus passen wir auch dynamische Auflösung und Mehrseiten-OCR-Technologien dem GOT an, um die Praktikabilität zu verbessern. In Experimenten liefern wir ausreichende Ergebnisse, um die Überlegenheit unseres Modells zu belegen.

OLMoE: Offene Mischung-von-Experten-Sprachmodelle
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

Wir stellen OLMoE vor, ein vollständig offenes, hochmodernes Sprachmodell, das auf einem spärlichen Mixture-of-Experts (MoE) basiert. OLMoE-1B-7B verfügt über 7 Milliarden (B) Parameter, nutzt jedoch nur 1B pro Eingabetoken. Wir trainieren es auf 5 Billionen Tokens vor und passen es weiter an, um OLMoE-1B-7B-Instruct zu erstellen. Unsere Modelle übertreffen alle verfügbaren Modelle mit ähnlicher Aktivierung von Parametern, und übertreffen sogar größere wie Llama2-13B-Chat und DeepSeekMoE-16B. Wir präsentieren verschiedene Experimente zum Training von MoE, analysieren die Routen in unserem Modell, die eine hohe Spezialisierung zeigen, und stellen alle Aspekte unserer Arbeit als Open-Source zur Verfügung: Modellgewichte, Trainingsdaten, Code und Logs.

Kvasir-VQA: Ein Datensatz für Text-Bild-Paare des Magen-Darm-Trakts
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

Wir stellen Kvasir-VQA vor, ein erweitertes Datenset, das aus den Datensets HyperKvasir und Kvasir-Instrument abgeleitet ist und mit Frage-Antwort-Annotationen angereichert wurde, um fortgeschrittene maschinelle Lernaufgaben in der gastroenterologischen Diagnostik zu erleichtern. Dieses Datenset umfasst 6.500 annotierte Bilder, die verschiedene Zustände des Gastrointestinaltrakts und chirurgische Instrumente abdecken, und unterstützt mehrere Fragetypen, darunter Ja/Nein, Auswahl, Lokation und numerische Zählung. Das Datenset ist für Anwendungen wie Bildbeschreibung, Visuelle Frage-Antwort (VQA), textbasierte Generierung synthetischer medizinischer Bilder, Objekterkennung und Klassifizierung vorgesehen. Unsere Experimente zeigen die Wirksamkeit des Datensets bei der Schulung von Modellen für drei ausgewählte Aufgaben und präsentieren signifikante Anwendungen in der medizinischen Bildanalyse und Diagnostik. Wir stellen auch Evaluationsmetriken für jede Aufgabe vor, die die Benutzerfreundlichkeit und Vielseitigkeit unseres Datensets hervorheben. Das Datenset und unterstützende Artefakte sind verfügbar unter https://datasets.simula.no/kvasir-vqa.

Langrezept: Rezept für effiziente Generalisierung von langen Kontexten in großen Sprachmodellen
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

Große Sprachmodelle (LLMs) stehen vor erheblichen Herausforderungen bei der Bewältigung von Aufgaben mit langem Kontext aufgrund ihrer begrenzten effektiven Kontextfenstergröße während des Pretrainings, was ihre Fähigkeit einschränkt, über erweiterte Sequenzen zu generalisieren. Gleichzeitig ist die Erweiterung des Kontextfensters in LLMs durch Post-Pretraining sehr ressourcenintensiv. Um dies zu bewältigen, stellen wir **LongRecipe** vor, eine effiziente Schulungsstrategie zur Erweiterung des Kontextfensters von LLMs, einschließlich einer wirkungsvollen Token-Analyse, einer Positionsindex-Transformation und Schulungsoptimierungsstrategien. Es simuliert lange Sequenzeingaben, während die Schulungseffizienz aufrechterhalten wird und das Verständnis des Modells für weitreichende Abhängigkeiten signifikant verbessert wird. Experimente mit drei Arten von LLMs zeigen, dass LongRecipe lange Sequenzen nutzen kann, während nur 30 % der Zielkontextfenstergröße benötigt werden und die Rechenressourcen für das Training um über 85 % im Vergleich zum Training mit vollständiger Sequenz reduziert werden. Darüber hinaus bewahrt LongRecipe auch die Fähigkeiten des ursprünglichen LLMs bei allgemeinen Aufgaben. Letztendlich *können wir das effektive Kontextfenster von Open-Source LLMs von 8k auf 128k erweitern und eine Leistung erzielen, die GPT-4 nahekommt, mit nur einem Tag dediziertem Training unter Verwendung einer einzelnen GPU mit 80G Speicher.* Unser Code ist unter folgendem [Link](https://github.com/zhiyuanhubj/LongRecipe) verfügbar.

DepthCrafter: Generierung konsistenter langer Tiefensequenzen für Open-World-Videos
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

Trotz signifikanter Fortschritte bei der monokularen Tiefenschätzung für statische Bilder bleibt die Schätzung der Tiefeninformation in Videos in der offenen Welt eine Herausforderung, da offene Welt Videos extrem vielfältig in Inhalt, Bewegung, Kamerabewegung und Länge sind. Wir stellen DepthCrafter vor, eine innovative Methode zur Erzeugung von zeitlich konsistenten Tiefensequenzen mit komplexen Details für offene Welt Videos, ohne zusätzliche Informationen wie Kamerapositionen oder optischen Fluss zu benötigen. DepthCrafter erzielt eine Generalisierungsfähigkeit für offene Welt Videos, indem ein Video-zu-Tiefe-Modell aus einem vortrainierten Bild-zu-Video-Diffusionsmodell trainiert wird, durch unsere sorgfältig entworfene dreistufige Trainingsstrategie mit den zusammengestellten gepaarten Video-Tiefendatensätzen. Unser Schulungsansatz ermöglicht es dem Modell, Tiefensequenzen mit variablen Längen gleichzeitig zu generieren, bis zu 110 Frames, und sowohl präzise Tiefendetails als auch eine reiche Inhaltsvielfalt aus realistischen und synthetischen Datensätzen zu gewinnen. Wir schlagen auch eine Inferenzstrategie vor, die extrem lange Videos durch segmentweise Schätzung und nahtloses Zusammenfügen verarbeitet. Umfassende Bewertungen auf mehreren Datensätzen zeigen, dass DepthCrafter unter Null-Shot-Einstellungen eine Spitzenleistung bei der Tiefenschätzung von offenen Welt Videos erzielt. Darüber hinaus erleichtert DepthCrafter verschiedene nachgelagerte Anwendungen, einschließlich tiefenbasierten visuellen Effekten und bedingter Videoerzeugung.

LinFusion: 1 GPU, 1 Minute, 16K Bild
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

Moderne Diffusionsmodelle, insbesondere solche, die einen auf Transformer basierenden UNet zur Rauschunterdrückung verwenden, verlassen sich stark auf Self-Attention-Operationen, um komplexe räumliche Beziehungen zu verwalten und damit beeindruckende Generierungsleistungen zu erzielen. Allerdings steht dieses bestehende Paradigma vor erheblichen Herausforderungen bei der Generierung von hochauflösenden visuellen Inhalten aufgrund seiner quadratischen Zeit- und Speicherkomplexität in Bezug auf die Anzahl der räumlichen Token. Um diese Einschränkung zu überwinden, zielen wir in diesem Artikel auf einen neuartigen linearen Aufmerksamkeitsmechanismus als Alternative ab. Wir beginnen unsere Erkundung speziell von kürzlich eingeführten Modellen mit linearer Komplexität, z. B. Mamba, Mamba2 und Gated Linear Attention, und identifizieren zwei Schlüsselfunktionen - Aufmerksamkeitsnormalisierung und nicht-kausale Inferenz -, die die Leistung bei der Generierung hochauflösender visueller Inhalte verbessern. Basierend auf diesen Erkenntnissen stellen wir ein verallgemeinertes lineares Aufmerksamkeitsparadigma vor, das als niedrigrangige Approximation eines breiten Spektrums beliebter linearer Token-Mixer dient. Um die Trainingskosten zu senken und vortrainierte Modelle besser zu nutzen, initialisieren wir unsere Modelle und destillieren das Wissen aus dem vortrainierten StableDiffusion (SD). Wir stellen fest, dass das destillierte Modell, genannt LinFusion, nach nur bescheidenem Training eine Leistung erbringt, die mit oder sogar über der des Original-SD liegt, während die Zeit- und Speicherkomplexität signifikant reduziert wird. Umfangreiche Experimente mit SD-v1.5, SD-v2.1 und SD-XL zeigen, dass LinFusion zufriedenstellende Zero-Shot Cross-Resolution-Generierungsleistungen erbringt und hochauflösende Bilder wie 16K-Auflösung generiert. Darüber hinaus ist es hochkompatibel mit vortrainierten SD-Komponenten wie ControlNet und IP-Adapter und erfordert keine Anpassungsbemühungen. Der Code ist verfügbar unter https://github.com/Huage001/LinFusion.

FLUX, das Musik spielt
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

Dieses Paper untersucht eine einfache Erweiterung der auf Diffusion basierenden rektifizierten Fluss-Transformer für die Text-zu-Musik-Generierung, die als FluxMusic bezeichnet wird. Im Allgemeinen übertragen wir zusammen mit dem Design im fortgeschrittenen Flux-Modell es in einen latenten VAE-Raum des Mel-Spektrums. Dies beinhaltet zunächst die Anwendung einer Sequenz unabhängiger Aufmerksamkeit auf den doppelten Text-Musik-Stream, gefolgt von einem gestapelten einzelnen Musik-Stream zur Vorhersage von gereinigten Patches. Wir verwenden mehrere vorab trainierte Text-Encoder, um hinreichend semantische Informationen der Untertitel zu erfassen sowie Flexibilität bei der Inferenz zu ermöglichen. Dazwischen wird grobe textuelle Information in Verbindung mit Zeitstempel-Einbettungen in einem Modulationsmechanismus genutzt, während feinkörnige textuelle Details mit der Musik-Patch-Sequenz als Eingaben konkateniert werden. Durch eine eingehende Studie zeigen wir, dass das Training mit rektifiziertem Fluss und einer optimierten Architektur etablierte Diffusionsmethoden für die Text-zu-Musik-Aufgabe signifikant übertrifft, wie durch verschiedene automatische Metriken und menschliche Präferenzbewertungen belegt wird. Unsere experimentellen Daten, der Code und die Modellgewichte sind öffentlich verfügbar unter: https://github.com/feizc/FluxMusic.

VideoLLaMB: Langzeit-Videoverständnis mit rekurrentem Gedächtnis Brücken
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

In jüngster Zeit haben Fortschritte bei groß angelegten Video-Sprachmodellen ein erhebliches Potenzial für Echtzeitplanung und detaillierte Interaktionen gezeigt. Ihre hohen Rechenanforderungen und die Knappheit an annotierten Datensätzen schränken jedoch ihre Praktikabilität für akademische Forscher ein. In dieser Arbeit stellen wir VideoLLaMB vor, ein neuartiges Framework, das zeitliche Speichertoken in Brückenschichten verwendet, um die Codierung von gesamten Videosequenzen neben historischen visuellen Daten zu ermöglichen, wodurch die semantische Kontinuität erhalten bleibt und die Leistung des Modells bei verschiedenen Aufgaben verbessert wird. Dieser Ansatz umfasst wiederkehrende Speichertoken und einen SceneTilling-Algorithmus, der Videos in unabhängige semantische Einheiten segmentiert, um die semantische Integrität zu bewahren. Empirisch übertrifft VideoLLaMB signifikant bestehende Video-Sprachmodelle und zeigt eine Verbesserung um 5,5 Punkte gegenüber seinen Konkurrenten in drei VideoQA-Benchmarks und 2,06 Punkte bei egozentrischer Planung. Umfassende Ergebnisse auf dem MVBench zeigen, dass VideoLLaMB-7B deutlich bessere Ergebnisse erzielt als frühere 7B-Modelle desselben LLM. Bemerkenswerterweise behält es eine robuste Leistung wie PLLaVA bei, selbst wenn die Videolänge um das Achtfache zunimmt. Darüber hinaus bestätigen die Ergebnisse des Frame-Retrievals auf unserem spezialisierten Benchmark Needle in a Video Haystack (NIAVH) die Fähigkeit von VideoLLaMB, spezifische Frames in langen Videos genau zu identifizieren. Unser SceneTilling-Algorithmus ermöglicht auch die direkte Generierung von Streaming-Video-Untertiteln, ohne dass zusätzliches Training erforderlich ist. In Bezug auf Effizienz unterstützt VideoLLaMB, das auf 16 Frames trainiert wurde, bis zu 320 Frames auf einer einzelnen Nvidia A100 GPU mit linearer GPU-Speicheranpassung, um sowohl hohe Leistung als auch Kosteneffizienz zu gewährleisten und somit eine neue Grundlage für Video-Sprachmodelle für Langformate in akademischen und praktischen Anwendungen zu schaffen.

Diffusionsrichtlinienoptimierung
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

Wir stellen Diffusion Policy Policy Optimization, DPPO, vor, ein algorithmisches Rahmenwerk, das bewährte Verfahren zur Feinabstimmung von diffusionsbasierten Richtlinien (z. B. Diffusion Policy) in kontinuierlichen Steuerungs- und Roboterlernaufgaben unter Verwendung der Richtliniengradientenmethode (PG) aus dem Bereich des verstärkenden Lernens einführt. PG-Methoden sind allgegenwärtig beim Training von RL-Richtlinien mit anderen Richtlinienparametrisierungen; dennoch wurde vermutet, dass sie für diffusionsbasierte Richtlinien weniger effizient sind. Überraschenderweise zeigen wir, dass DPPO die stärkste Gesamtleistung und Effizienz bei der Feinabstimmung in gängigen Benchmarks im Vergleich zu anderen RL-Methoden für diffusionsbasierte Richtlinien und auch im Vergleich zur PG-Feinabstimmung anderer Richtlinienparametrisierungen erzielt. Durch experimentelle Untersuchungen stellen wir fest, dass DPPO einzigartige Synergien zwischen der Feinabstimmung von RL und der Diffusionsparametrisierung nutzt, was zu strukturierter und auf dem Mannigfaltigkeitsraum liegender Exploration, stabilem Training und hoher Richtlinienrobustheit führt. Wir zeigen weiterhin die Stärken von DPPO in einer Vielzahl realistischer Szenarien, einschließlich simulierter Roboter-Aufgaben mit Pixelbeobachtungen, sowie durch den Null-Schuss-Einsatz von simulationsgeschulten Richtlinien auf Roboterhardware in einer langfristigen, mehrstufigen Manipulationsaufgabe. Webseite mit Code: diffusion-ppo.github.io

Kompositionelle 3D-bewusste Videogenerierung mit LLM Director
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

Durch den Einsatz leistungsstarker generativer Modelle und umfangreicher Internetdaten wurden bedeutende Fortschritte bei der Text-zu-Video-Erzeugung erzielt. Es bestehen jedoch weiterhin erhebliche Herausforderungen bei der präzisen Steuerung einzelner Konzepte innerhalb des generierten Videos, wie z.B. der Bewegung und dem Aussehen bestimmter Charaktere sowie der Bewegung von Blickpunkten. In dieser Arbeit schlagen wir ein neuartiges Paradigma vor, das jedes Konzept separat in einer 3D-Repräsentation generiert und diese dann mit Prioritäten aus Large Language Models (LLM) und 2D-Diffusionsmodellen zusammensetzt. Konkret besteht unser Schema aus drei Phasen: 1) Wir nutzen LLM als Regisseur, um die komplexe Abfrage zunächst in mehrere Teilanfragen zu zerlegen, die einzelne Konzepte im Video anzeigen (z.B. Szene, Objekte, Bewegungen), dann lassen wir LLM vortrainierte Expertenmodelle aufrufen, um entsprechende 3D-Repräsentationen der Konzepte zu erhalten. 2) Um diese Repräsentationen zu komponieren, fordern wir multimodale LLM auf, grobe Anleitungen zu den Skalen und Koordinaten von Trajektorien für die Objekte zu erstellen. 3) Um sicherzustellen, dass die generierten Frames der natürlichen Bildverteilung entsprechen, nutzen wir zusätzlich 2D-Diffusionsprioritäten und verwenden Score Distillation Sampling, um die Komposition zu verfeinern. Umfangreiche Experimente zeigen, dass unsere Methode hochwertige Videos aus Text mit vielfältiger Bewegung und flexibler Kontrolle über jedes Konzept generieren kann. Projektseite: https://aka.ms/c3v.

Kontextzuweisung: Die Zuordnung der Modellgenerierung zum Kontext
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

Wie nutzen Sprachmodelle die bereitgestellten Informationen als Kontext bei der Generierung einer Antwort? Können wir ableiten, ob eine bestimmte generierte Aussage tatsächlich auf dem Kontext beruht, eine Fehlinterpretation ist oder fabriziert wurde? Um diese Fragen zu beantworten, führen wir das Problem der Kontextzuweisung ein: das Herausfinden der Teile des Kontexts (falls vorhanden), die ein Modell dazu veranlasst haben, eine bestimmte Aussage zu generieren. Anschließend stellen wir ContextCite vor, eine einfache und skalierbare Methode zur Kontextzuweisung, die auf jedes vorhandene Sprachmodell angewendet werden kann. Abschließend präsentieren wir die Nützlichkeit von ContextCite anhand von drei Anwendungen: (1) Unterstützung bei der Überprüfung generierter Aussagen, (2) Verbesserung der Antwortqualität durch Beschneiden des Kontexts und (3) Erkennung von Vergiftungsangriffen. Den Code für ContextCite stellen wir unter https://github.com/MadryLab/context-cite zur Verfügung.

OD-VAE: Ein omni-dimensionaler Videokompressor zur Verbesserung des latenten Video-Diffusionsmodells
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

Variational Autoencoder (VAE), das Videos in latente Repräsentationen komprimiert, ist eine entscheidende vorangehende Komponente von Latent Video Diffusion Models (LVDMs). Bei gleicher Rekonstruktionsqualität sind die LVDMs umso effizienter, je ausreichender die Kompression des VAE für Videos ist. Allerdings nutzen die meisten LVDMs einen 2D-Bild-VAE, dessen Kompression für Videos nur in der räumlichen Dimension erfolgt und die zeitliche Dimension oft vernachlässigt wird. Wie man eine zeitliche Kompression für Videos in einem VAE durchführt, um prägnantere latente Repräsentationen zu erhalten, die eine genaue Rekonstruktion versprechen, wird selten erforscht. Um diese Lücke zu schließen, schlagen wir einen Omni-Dimensionen-Kompressions-VAE namens OD-VAE vor, der Videos sowohl zeitlich als auch räumlich komprimieren kann. Obwohl die umfassendere Kompression des OD-VAE eine große Herausforderung für die Video-Rekonstruktion darstellt, kann sie durch unser feines Design dennoch eine hohe Rekonstruktionsgenauigkeit erreichen. Um ein besseres Gleichgewicht zwischen der Qualität der Video-Rekonstruktion und der Kompressionsgeschwindigkeit zu erzielen, werden vier Varianten des OD-VAE vorgestellt und analysiert. Darüber hinaus wird eine neuartige Tail-Initialisierung entwickelt, um den OD-VAE effizienter zu trainieren, und eine neuartige Inferenzstrategie vorgeschlagen, um es dem OD-VAE zu ermöglichen, Videos beliebiger Länge mit begrenztem GPU-Speicher zu verarbeiten. Umfassende Experimente zur Video-Rekonstruktion und zur Videoerzeugung auf der Grundlage von LVDMs zeigen die Wirksamkeit und Effizienz unserer vorgeschlagenen Methoden.

Präzise Kompression von Text-zu-Bild-Diffusionsmodellen durch Vektorquantisierung
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

Text-zu-Bild-Diffusionsmodelle haben sich als ein leistungsstarkes Rahmenwerk für die hochwertige Bildgenerierung anhand von textuellen Vorgaben erwiesen. Ihr Erfolg hat die rasante Entwicklung von Diffusionsmodellen auf Produktionsniveau vorangetrieben, die kontinuierlich an Größe zunehmen und bereits Milliarden von Parametern enthalten. Als Ergebnis werden modernste Text-zu-Bild-Modelle in der Praxis immer weniger zugänglich, insbesondere in ressourcenbeschränkten Umgebungen. Die Post-Training-Quantisierung (PTQ) begegnet diesem Problem, indem sie die vortrainierten Modellgewichte in niedrigerwertige Darstellungen komprimiert. Aktuelle Diffusionsquantisierungstechniken stützen sich hauptsächlich auf gleichmäßige skalare Quantisierung, die eine anständige Leistung für die auf 4 Bits komprimierten Modelle bietet. Diese Arbeit zeigt, dass eine vielseitigere Vektorquantisierung (VQ) möglicherweise höhere Komprimierungsraten für groß angelegte Text-zu-Bild-Diffusionsmodelle erreichen kann. Speziell passen wir vektorbasierte PTQ-Methoden an aktuelle Milliarden-Maßstab Text-zu-Bild-Modelle (SDXL und SDXL-Turbo) an und zeigen, dass die Diffusionsmodelle mit 2B+ Parametern, die auf rund 3 Bits komprimiert sind, unter Verwendung von VQ eine ähnliche Bildqualität und textliche Ausrichtung wie bisherige 4-Bit-Kompressionstechniken aufweisen.

GenAgent: Aufbau von kollaborativen KI-Systemen mit automatisiertem Workflow - Generierung von Fallstudien zu ComfyUI.
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

Viel frühere KI-Forschung konzentrierte sich darauf, monolithische Modelle zu entwickeln, um ihre Intelligenz und Leistungsfähigkeit zu maximieren, mit dem Hauptziel, die Leistung bei spezifischen Aufgaben zu verbessern. Im Gegensatz dazu erforscht dieser Artikel einen alternativen Ansatz: kollaborative KI-Systeme, die Workflows nutzen, um Modelle, Datenquellen und Pipelines zu integrieren, um komplexe und vielfältige Aufgaben zu lösen. Wir stellen GenAgent vor, ein auf LLM basierendes Framework, das automatisch komplexe Workflows generiert und im Vergleich zu monolithischen Modellen eine größere Flexibilität und Skalierbarkeit bietet. Die Kerninnovation von GenAgent besteht darin, Workflows mit Code zu repräsentieren und Workflows schrittweise mit kollaborativen Agenten zu erstellen. Wir implementieren GenAgent auf der Plattform ComfyUI und schlagen einen neuen Benchmark, OpenComfy, vor. Die Ergebnisse zeigen, dass GenAgent in sowohl Lauf- als auch Aufgabenevaluierungen Basismethoden übertrifft und somit seine Fähigkeit zeigt, komplexe Workflows mit überlegener Effektivität und Stabilität zu generieren.

Follow-Your-Canvas: Hochauflösendes Video-Outpainting mit umfangreicher Inhaltsgenerierung
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

Dieses Paper untersucht die Ausbesserung von Videos mit höherer Auflösung durch umfangreiche Inhaltsgenerierung. Wir weisen auf häufige Probleme hin, mit denen bestehende Methoden konfrontiert sind, wenn sie versuchen, Videos weitgehend auszubessern: die Generierung von Inhalten von geringer Qualität und die Beschränkungen durch den GPU-Speicher. Um diesen Herausforderungen zu begegnen, schlagen wir eine auf Diffusion basierende Methode namens Follow-Your-Canvas vor. Sie baut auf zwei Kernkonzepten auf. Erstens verteilen wir die Aufgabe über räumliche Fenster und verschmelzen sie nahtlos anstatt der gängigen Praxis des "single-shot" Ausbesserung. Dies ermöglicht es uns, Videos jeder Größe und Auflösung auszubessern, ohne durch den GPU-Speicher begrenzt zu sein. Zweitens werden das Quellvideo und seine relative Positionierungsbeziehung in den Generierungsprozess jedes Fensters eingebracht. Dies führt dazu, dass das generierte räumliche Layout innerhalb jedes Fensters mit dem Quellvideo harmoniert. Die Kombination dieser beiden Konzepte ermöglicht es uns, Videos mit höherer Auflösung und reichhaltigen Inhalten zu generieren, während die räumliche und zeitliche Konsistenz erhalten bleibt. Follow-Your-Canvas zeichnet sich besonders bei der Ausbesserung von Videos im großen Maßstab aus, z. B. von 512x512 auf 1152x2048 (9x), und liefert dabei qualitativ hochwertige und ästhetisch ansprechende Ergebnisse. Es erzielt die besten quantitativen Ergebnisse bei verschiedenen Auflösungen und Skalierungen. Der Code ist auf https://github.com/mayuelala/FollowYourCanvas verfügbar.

Dichteadaptive Aufmerksamkeitsbasiertes Sprachnetzwerk: Verbesserung der Merkmalserfassung für psychische Störungen
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

Die sprachbasierte Depressionserkennung stellt aufgrund ihrer einzigartigen Manifestation bei verschiedenen Personen und der Datenknappheit erhebliche Herausforderungen für die automatisierte Erkennung dar. Um diesen Herausforderungen zu begegnen, stellen wir DAAMAudioCNNLSTM und DAAMAudioTransformer vor, zwei parameter-effiziente und erklärungsfähige Modelle zur Extraktion von Audio-Merkmalen und zur Depressionserkennung. DAAMAudioCNNLSTM bietet ein neuartiges CNN-LSTM-Framework mit einem Multi-Head Density Adaptive Attention Mechanism (DAAM), das dynamisch auf informative Sprachsegmente fokussiert. DAAMAudioTransformer, das einen Transformer-Encoder anstelle der CNN-LSTM-Architektur verwendet, integriert dasselbe DAAM-Modul für verbesserte Aufmerksamkeit und Interpretierbarkeit. Diese Ansätze verbessern nicht nur die Robustheit und Interpretierbarkeit der Erkennung, sondern erzielen auch eine Spitzenleistung: DAAMAudioCNNLSTM mit einem F1-Makro-Score von 0,702 und DAAMAudioTransformer mit einem F1-Makro-Score von 0,72 auf dem DAIC-WOZ-Datensatz, ohne auf zusätzliche Informationen wie Vokalpositionen und Sprecherinformationen während des Trainings/Validierung zurückzugreifen, wie es bei früheren Ansätzen der Fall war. Die signifikante Erklärbarkeit und Effizienz beider Modelle bei der Nutzung von Sprachsignalen zur Depressionserkennung stellen einen Fortschritt hin zu zuverlässigeren, klinisch nützlichen diagnostischen Werkzeugen dar und versprechen Fortschritte in der Sprach- und psychischen Gesundheitsversorgung. Um weitere Forschung in diesem Bereich zu fördern, stellen wir unseren Code öffentlich zur Verfügung.

Wissen, wann man fusionieren soll: Untersuchung der nicht-englischen hybriden Suche im juristischen Bereich
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

Die hybride Suche hat sich als eine effektive Strategie herausgestellt, um die Einschränkungen verschiedener Matching-Paradigmen auszugleichen, insbesondere in außerhalb des Domänenkontexts, wo bemerkenswerte Verbesserungen in der Abrufqualität beobachtet wurden. Allerdings konzentrieren sich bestehende Forschungsarbeiten hauptsächlich auf eine begrenzte Anzahl von Abrufmethoden, die ausschließlich in englischen domänenübergreifenden Datensätzen paarweise evaluiert werden. In dieser Arbeit untersuchen wir die Wirksamkeit der hybriden Suche über eine Vielzahl prominenter Abrufmodelle im unerforschten Bereich des Rechts in französischer Sprache und bewerten sowohl Zero-Shot- als auch In-Domänen-Szenarien. Unsere Ergebnisse zeigen, dass in einem Zero-Shot-Kontext die Verschmelzung verschiedener domänenübergreifender Modelle die Leistung im Vergleich zur Verwendung eines eigenständigen Modells konsistent verbessert, unabhängig von der Verschmelzungsmethode. Überraschenderweise stellen wir fest, dass die Verschmelzung die Leistung im Allgemeinen verringert, wenn die Modelle in der Domäne trainiert werden, im Vergleich zur Verwendung des besten einzelnen Systems, es sei denn, die Scores mit sorgfältig abgestimmten Gewichten verschmolzen werden. Diese neuen Erkenntnisse erweitern die Anwendbarkeit früherer Ergebnisse auf ein neues Feld und eine neue Sprache und tragen zu einem tieferen Verständnis der hybriden Suche in nicht-englischen spezialisierten Domänen bei.

Der MERIT-Datensatz: Modellierung und effiziente Darstellung interpretierbarer Transkripte.
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

Dieses Paper stellt das MERIT-Datenset vor, ein multimodales (Text + Bild + Layout) vollständig beschriftetes Datenset im Kontext von Schulberichten. Mit über 400 Labels und 33.000 Beispielen ist das MERIT-Datenset eine wertvolle Ressource für das Training von Modellen in anspruchsvollen Aufgaben des Verstehens von visuell-reichen Dokumenten (VrDU). Durch seine Natur (Schülernotenberichte) kann das MERIT-Datenset potenziell auf kontrollierte Weise Voreingenommenheiten enthalten, was es zu einem wertvollen Werkzeug macht, um Voreingenommenheiten zu bewerten, die in Sprachmodellen (LLMs) induziert werden. Das Paper skizziert den Generierungsprozess des Datensets und hebt seine Hauptmerkmale in den textuellen, visuellen, Layout- und Bias-Bereichen hervor. Um die Nützlichkeit des Datensets zu demonstrieren, präsentieren wir einen Leistungsvergleich mit Token-Klassifikationsmodellen, der zeigt, dass das Datenset selbst für modernste Modelle eine bedeutende Herausforderung darstellt und dass diese erheblich davon profitieren würden, wenn sie Beispiele aus dem MERIT-Datenset in ihre Vortrainingsphase einbeziehen würden.

PrivacyLens: Evaluierung des Datenschutznormbewusstseins von Sprachmodellen in Aktion
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

Da Sprachmodelle (LMs) weit verbreitet in personalisierten Kommunikationsszenarien (z. B. Versenden von E-Mails, Verfassen von Beiträgen in sozialen Medien) eingesetzt werden und über ein gewisses Maß an Autonomie verfügen, wird es zunehmend kritisch, sicherzustellen, dass sie gemäß den kontextbezogenen Datenschutznormen handeln. Die Quantifizierung des Datenschutzbewusstseins von LMs und des aufkommenden Datenschutzrisikos in LM-vermittelter Kommunikation ist jedoch aufgrund (1) der kontextuellen und langschwänzigen Natur von datenschutzrelevanten Fällen und (2) des Mangels an Bewertungsansätzen, die realistische Anwendungsszenarien erfassen, eine Herausforderung. Um diesen Herausforderungen zu begegnen, schlagen wir PrivacyLens vor, ein neuartiges Framework, das entwickelt wurde, um datenschutzsensible Ausgangspunkte in ausdrucksstarke Szenen und weiter in Agentenverläufe zu erweitern, um eine mehrstufige Bewertung von Datenschutzlecks in den Handlungen von LM-Agenten zu ermöglichen. Wir konkretisieren PrivacyLens mit einer Sammlung von in der Datenschutzliteratur verankerten Datenschutznormen und crowdsourceten Ausgangspunkten. Unter Verwendung dieses Datensatzes zeigen wir eine Diskrepanz zwischen der Leistung von LMs bei der Beantwortung von Sondierungsfragen und ihrem tatsächlichen Verhalten bei der Ausführung von Benutzeranweisungen in einem Agenten-Setup auf. State-of-the-Art LMs wie GPT-4 und Llama-3-70B geben in 25,68 % bzw. 38,69 % der Fälle sensible Informationen preis, selbst wenn sie mit datenschutzverbessernden Anweisungen konfrontiert werden. Wir zeigen auch die dynamische Natur von PrivacyLens, indem wir jeden Ausgangspunkt in mehrere Verläufe erweitern, um das Datenschutzrisiko von LMs zu überprüfen. Der Datensatz und der Code sind verfügbar unter https://github.com/SALT-NLP/PrivacyLens.

papers.title

papers.description

Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 durch ein vereinheitlichtes End-to-End-Modell
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang