HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Vision Transformers benötigen Register.
Vision Transformers Need Registers

Sep 28

ByTimothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

Transformer haben sich kürzlich als leistungsstarkes Werkzeug zum Erlernen visueller Repräsentationen erwiesen. In diesem Artikel identifizieren und charakterisieren wir Artefakte in den Feature-Maps von sowohl überwachten als auch selbstüberwachten ViT-Netzwerken. Diese Artefakte entsprechen Tokens mit hoher Norm, die während des Inferenzprozesses hauptsächlich in wenig informativen Hintergrundbereichen von Bildern auftreten und für interne Berechnungen umfunktioniert werden. Wir schlagen eine einfache, aber effektive Lösung vor, die darauf basiert, der Eingabesequenz des Vision Transformers zusätzliche Tokens bereitzustellen, um diese Rolle zu erfüllen. Wir zeigen, dass diese Lösung das Problem sowohl für überwachte als auch selbstüberwachte Modelle vollständig behebt, einen neuen State-of-the-Art für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben setzt, Objektentdeckungsmethoden mit größeren Modellen ermöglicht und vor allem zu glatteren Feature-Maps und Aufmerksamkeitskarten für die nachgelagerte visuelle Verarbeitung führt.

AnyMAL: Ein effizientes und skalierbares Any-Modality Augmented Language Model
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Sep 27

BySeungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar

Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitätssignale (d.h. Text, Bild, Video, Audio, IMU-Bewegungssensor) schlussfolgert und textuelle Antworten generiert. AnyMAL erbt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten der modernsten Large Language Models (LLMs), einschließlich LLaMA-2 (70B), und wandelt modalitätsspezifische Signale durch ein vortrainiertes Aligner-Modul in den gemeinsamen Textraum um. Um die Fähigkeiten des multimodalen LLMs weiter zu stärken, feintunen wir das Modell mit einem multimodalen Instruktionsdatensatz, der manuell gesammelt wurde, um diverse Themen und Aufgaben über einfache Frage-Antwort-Szenarien hinaus abzudecken. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatische Bewertungen umfasst, und demonstrieren state-of-the-art Leistungen in verschiedenen multimodalen Aufgaben.

DreamGaussian: Generatives Gaußsches Splatting für effiziente 3D-Inhaltserstellung
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Sep 28

ByJiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng

Jüngste Fortschritte in der 3D-Inhaltserstellung nutzen überwiegend optimierungsbasierte 3D-Generierung mittels Score Distillation Sampling (SDS). Obwohl vielversprechende Ergebnisse erzielt wurden, leiden diese Methoden oft unter einer langsamen Optimierung pro Probe, was ihre praktische Anwendbarkeit einschränkt. In diesem Artikel stellen wir DreamGaussian vor, ein neuartiges Framework zur 3D-Inhaltsgenerierung, das sowohl Effizienz als auch Qualität gleichzeitig erreicht. Unser zentraler Ansatz besteht darin, ein generatives 3D-Gaussian-Splatting-Modell zu entwickeln, das mit einer begleitenden Meshextraktion und Texturverfeinerung im UV-Raum kombiniert wird. Im Gegensatz zur Besetzungsreduzierung, die bei Neural Radiance Fields verwendet wird, zeigen wir, dass die progressive Verdichtung von 3D-Gaußschen Funktionen für 3D-Generierungsaufgaben deutlich schneller konvergiert. Um die Texturqualität weiter zu verbessern und nachgelagerte Anwendungen zu erleichtern, führen wir einen effizienten Algorithmus ein, der 3D-Gaußsche Funktionen in texturierte Meshes umwandelt, und wenden eine Feinabstimmungsphase an, um die Details zu verfeinern. Umfangreiche Experimente demonstrieren die überlegene Effizienz und konkurrenzfähige Generierungsqualität unseres vorgeschlagenen Ansatzes. Bemerkenswerterweise erzeugt DreamGaussian hochwertige texturierte Meshes in nur 2 Minuten aus einem Einzelbild und erreicht damit eine etwa 10-fache Beschleunigung im Vergleich zu bestehenden Methoden.

Qwen Technischer Bericht
Qwen Technical Report

Sep 28

ByJinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und ermöglichen natürliche Sprachverarbeitungsaufgaben, die zuvor als ausschließlich menschliche Fähigkeiten galten. In dieser Arbeit stellen wir Qwen vor, den ersten Teil unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Sprachmodellserie, die verschiedene Modelle mit unterschiedlichen Parametergrößen umfasst. Dazu gehören Qwen, die Basis-vortrainierten Sprachmodelle, und Qwen-Chat, die Chat-Modelle, die mit Techniken zur menschlichen Ausrichtung feinabgestimmt wurden. Die Basis-Sprachmodelle zeigen durchweg überlegene Leistungen bei einer Vielzahl von Downstream-Aufgaben, und die Chat-Modelle, insbesondere diejenigen, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, sind äußerst wettbewerbsfähig. Die Chat-Modelle verfügen über fortgeschrittene Fähigkeiten zur Werkzeugnutzung und Planung für die Erstellung von Agentenanwendungen und zeigen beeindruckende Leistungen, selbst im Vergleich zu größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code-Interpreters. Darüber hinaus haben wir spezialisierte Modelle für die Programmierung entwickelt, Code-Qwen und Code-Qwen-Chat, sowie mathematikorientierte Modelle, Math-Qwen-Chat, die auf Basis-Sprachmodellen aufbauen. Diese Modelle zeigen eine deutlich verbesserte Leistung im Vergleich zu Open-Source-Modellen und liegen nur knapp hinter proprietären Modellen zurück.

Text-zu-3D mit Gaußschem Splatting
Text-to-3D using Gaussian Splatting

Sep 28

ByZilong Chen, Feng Wang, Huaping Liu

In diesem Artikel präsentieren wir Gaussian Splatting basierte Text-zu-3D-Generierung (GSGEN), einen neuartigen Ansatz zur Erzeugung hochwertiger 3D-Objekte. Bisherige Methoden leiden unter ungenauer Geometrie und begrenzter Detailtreue aufgrund des Fehlens von 3D-Priorwissen und geeigneter Repräsentation. Wir nutzen 3D Gaussian Splatting, eine aktuelle state-of-the-art Repräsentation, um bestehende Schwächen zu beheben, indem wir den expliziten Charakter ausnutzen, der die Einbindung von 3D-Priorwissen ermöglicht. Konkret verfolgt unsere Methode eine progressive Optimierungsstrategie, die eine Geometrieoptimierungsphase und eine Erscheinungsverfeinerungsphase umfasst. In der Geometrieoptimierung wird eine grobe Repräsentation unter einem 3D-Geometrie-Prior zusammen mit dem üblichen 2D-SDS-Verlust etabliert, wodurch eine sinnvolle und 3D-konsistente grobe Form sichergestellt wird. Anschließend durchlaufen die erhaltenen Gaussians eine iterative Verfeinerung, um Details zu bereichern. In dieser Phase erhöhen wir die Anzahl der Gaussians durch kompaktheitsbasierte Verdichtung, um die Kontinuität zu verbessern und die Detailtreue zu steigern. Mit diesen Konzepten kann unser Ansatz 3D-Inhalte mit feinen Details und präziserer Geometrie erzeugen. Umfangreiche Auswertungen demonstrieren die Effektivität unserer Methode, insbesondere bei der Erfassung hochfrequenter Komponenten. Videoergebnisse sind unter https://gsgen3d.github.io verfügbar. Unser Code ist unter https://github.com/gsgen3d/gsgen zugänglich.

Effektive Skalierung von Foundation Models für lange Kontexte
Effective Long-Context Scaling of Foundation Models

Sep 27

ByWenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma

Wir präsentieren eine Reihe von LLMs mit langem Kontext, die effektive Kontextfenster von bis zu 32.768 Tokens unterstützen. Unsere Modellreihe wurde durch kontinuierliches Vortraining von Llama 2 mit längeren Trainingssequenzen und auf einem Datensatz aufgebaut, in dem lange Texte verstärkt berücksichtigt werden. Wir führen umfangreiche Evaluierungen in den Bereichen Sprachmodellierung, synthetische Kontextuntersuchungsaufgaben und einer Vielzahl von Forschungsbenchmarks durch. Bei den Forschungsbenchmarks erzielen unsere Modelle durchweg Verbesserungen bei den meisten regulären Aufgaben und signifikante Verbesserungen bei Aufgaben mit langem Kontext im Vergleich zu Llama 2. Bemerkenswerterweise kann die 70B-Variante bereits die Gesamtleistung von gpt-3.5-turbo-16k bei einer Reihe von Aufgaben mit langem Kontext übertreffen, und dies mit einem kosteneffizienten Instruction-Tuning-Verfahren, das keine von Menschen annotierten langen Instruktionsdaten erfordert. Neben diesen Ergebnissen bieten wir eine detaillierte Analyse der einzelnen Komponenten unserer Methode. Wir untersuchen die Positionskodierungen von Llama und diskutieren deren Grenzen bei der Modellierung langer Abhängigkeiten. Wir analysieren auch die Auswirkungen verschiedener Designentscheidungen im Vortrainingsprozess, einschließlich der Datenzusammensetzung und des Trainingscurriculums für Sequenzlängen – unsere Ablationsexperimente deuten darauf hin, dass das Vorhandensein einer Fülle langer Texte im Vortrainingsdatensatz nicht der Schlüssel zur Erzielung einer starken Leistung ist, und wir bestätigen empirisch, dass das kontinuierliche Vortraining mit langem Kontext effizienter und ähnlich effektiv ist im Vergleich zum Vortraining von Grund auf mit langen Sequenzen.

Tiefengeometrisiertes Karikaturlinien-Zwischenzeichnen
Deep Geometrized Cartoon Line Inbetweening

Sep 28

ByLi Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy

Wir beabsichtigen, ein bedeutendes, aber bisher wenig erforschtes Problem in der Anime-Branche anzugehen, nämlich das Inbetweening von Cartoon-Linienzeichnungen. Inbetweening beinhaltet die Erzeugung von Zwischenbildern zwischen zwei schwarz-weißen Linienzeichnungen und ist ein zeitaufwändiger und kostspieliger Prozess, der von Automatisierung profitieren kann. Bestehende Methoden zur Bildinterpolation, die auf der Übereinstimmung und Verzerrung ganzer Rasterbilder basieren, sind jedoch für das Inbetweening von Linien ungeeignet und erzeugen oft Unschärfeartefakte, die die komplexen Linienstrukturen beschädigen. Um die Präzision und Detailtreue der Linienzeichnungen zu bewahren, schlagen wir einen neuen Ansatz vor, AnimeInbet, der Rasterlinienzeichnungen in Graphen von Endpunkten geometrisiert und die Inbetweening-Aufgabe als ein Graph-Fusionsproblem mit Knoten-Neuplatzierung umformuliert. Unsere Methode kann effektiv die Sparsamkeit und einzigartige Struktur von Linienzeichnungen erfassen und gleichzeitig die Details während des Inbetweenings bewahren. Dies wird durch unsere neuartigen Module ermöglicht, d.h. die geometrische Einbettung von Knoten, einen Transformer für die Knotenkorrespondenz, einen effektiven Mechanismus für die Knoten-Neuplatzierung und einen Sichtbarkeitsvorhersager. Um unsere Methode zu trainieren, stellen wir MixamoLine240 vor, einen neuen Datensatz von Linienzeichnungen mit Ground-Truth-Vektorisierung und Übereinstimmungsetiketten. Unsere Experimente zeigen, dass AnimeInbet hochwertige, saubere und vollständige Zwischenlinienzeichnungen synthetisiert und bestehende Methoden quantitativ und qualitativ übertrifft, insbesondere bei Fällen mit großen Bewegungen. Daten und Code sind verfügbar unter https://github.com/lisiyao21/AnimeInbet.

Entmystifizierung der CLIP-Daten
Demystifying CLIP Data

Sep 28

ByHu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Contrastive Language-Image Pre-training (CLIP) ist ein Ansatz, der die Forschung und Anwendungen in der Computer Vision vorangetrieben hat und moderne Erkennungssysteme sowie generative Modelle beflügelt hat. Wir glauben, dass der Hauptfaktor für den Erfolg von CLIP seine Daten und nicht die Modellarchitektur oder das Vortrainingsziel sind. Allerdings liefert CLIP nur sehr begrenzte Informationen über seine Daten und deren Sammlung, was zu Arbeiten geführt hat, die darauf abzielen, CLIPs Daten durch Filterung mit seinen Modellparametern zu reproduzieren. In dieser Arbeit beabsichtigen wir, den Ansatz zur Datenkuratierung von CLIP aufzudecken und im Bestreben, ihn der Gemeinschaft zugänglich zu machen, Metadata-Curated Language-Image Pre-training (MetaCLIP) einzuführen. MetaCLIP nimmt einen Rohdatenpool und Metadaten (abgeleitet aus CLIPs Konzepten) und erzeugt eine ausgewogene Teilmenge über die Metadatenverteilung. Unsere experimentelle Studie isoliert rigoros das Modell und die Trainingsbedingungen und konzentriert sich ausschließlich auf die Daten. MetaCLIP, angewendet auf CommonCrawl mit 400 Millionen Bild-Text-Datenpaaren, übertrifft CLIPs Daten in mehreren Standardbenchmarks. Bei der Zero-Shot-Klassifikation auf ImageNet erreicht MetaCLIP eine Genauigkeit von 70,8 % und übertrifft damit CLIPs 68,3 % auf ViT-B-Modellen. Bei einer Skalierung auf 1 Milliarde Daten, bei gleichem Trainingsbudget, wird eine Genauigkeit von 72,4 % erreicht. Unsere Beobachtungen gelten über verschiedene Modellgrößen hinweg, was durch ViT-H, das 80,5 % erreicht, ohne jegliche zusätzlichen Optimierungen, veranschaulicht wird. Der Kuratierungscode und die Verteilung der Trainingsdaten auf Metadaten sind unter https://github.com/facebookresearch/MetaCLIP verfügbar.

AutoCLIP: Automatische Feinabstimmung von Zero-Shot-Klassifikatoren für Vision-Sprache-Modelle
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

Sep 28

ByJan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi

Klassifikatoren, die auf Vision-Sprache-Modellen wie CLIP basieren, haben bemerkenswerte Zero-Shot-Leistungen über eine breite Palette von Bildklassifizierungsaufgaben gezeigt. Frühere Arbeiten haben verschiedene Methoden untersucht, um automatisch Deskriptorsätze für jede Klasse basierend auf Prompt-Vorlagen zu erstellen, die von manuell konstruierten Vorlagen über Vorlagen, die von einem großen Sprachmodell stammen, bis hin zu Vorlagen aus zufälligen Wörtern und Zeichen reichen. Im Gegensatz dazu ist die Ableitung von Zero-Shot-Klassifikatoren aus den jeweiligen kodierten Klassendeskriptoren nahezu unverändert geblieben, d.h.: Klassifiziere in die Klasse, die die Kosinusähnlichkeit zwischen ihren gemittelten kodierten Klassendeskriptoren und dem kodierten Bild maximiert. Es kann jedoch suboptimal sein, alle Klassendeskriptoren gleich zu gewichten, wenn bestimmte Deskriptoren visuelle Hinweise auf einem gegebenen Bild besser abdecken als andere. In dieser Arbeit schlagen wir AutoCLIP vor, eine Methode zur automatischen Feinabstimmung von Zero-Shot-Klassifikatoren. AutoCLIP weist jeder Prompt-Vorlage pro Bild Gewichte zu, die aus Statistiken der Ähnlichkeiten zwischen Klassendeskriptoren und Bildern zum Zeitpunkt der Inferenz abgeleitet werden. AutoCLIP ist vollständig unüberwacht, hat einen sehr geringen Overhead und kann leicht in wenigen Codezeilen implementiert werden. Wir zeigen, dass AutoCLIP für eine breite Palette von Vision-Sprache-Modellen, Datensätzen und Prompt-Vorlagen die Baselines konsistent und um bis zu 3 Prozentpunkte in der Genauigkeit übertrifft.

MotionLM: Multi-Agent-Bewegungsvorhersage als Sprachmodellierung
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Sep 28

ByAri Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp

Zuverlässige Vorhersagen des zukünftigen Verhaltens von Verkehrsteilnehmern sind eine entscheidende Komponente für sicheres Planen in autonomen Fahrzeugen. Hier repräsentieren wir kontinuierliche Trajektorien als Sequenzen diskreter Bewegungs-Tokens und formulieren die Multi-Agenten-Bewegungsvorhersage als Sprachmodellierungsaufgabe in diesem Bereich. Unser Modell, MotionLM, bietet mehrere Vorteile: Erstens benötigt es keine Anker oder explizite latente Variablenoptimierung, um multimodale Verteilungen zu lernen. Stattdessen nutzen wir ein einziges standardmäßiges Sprachmodellierungsziel, das die durchschnittliche Log-Wahrscheinlichkeit über Sequenz-Tokens maximiert. Zweitens umgeht unser Ansatz nachträgliche Interaktionsheuristiken, bei denen die Trajektoriengenerierung einzelner Agenten vor der interaktiven Bewertung durchgeführt wird. Stattdessen erzeugt MotionLM gemeinsame Verteilungen über interaktive Zukunftsverläufe von Agenten in einem einzigen autoregressiven Dekodierungsprozess. Darüber hinaus ermöglicht die sequenzielle Faktorisierung des Modells zeitlich kausale bedingte Rollouts. Der vorgeschlagene Ansatz erreicht neue Spitzenleistungen in der Multi-Agenten-Bewegungsvorhersage auf dem Waymo Open Motion Dataset und belegt den ersten Platz auf der interaktiven Challenge-Rangliste.

RealFill: Referenzgesteuerte Generierung für authentische Bildergänzung
RealFill: Reference-Driven Generation for Authentic Image Completion

Sep 28

ByLuming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein

Jüngste Fortschritte in der generativen Bildverarbeitung haben Outpainting- und Inpainting-Modelle hervorgebracht, die hochwertige und plausible Bildinhalte in unbekannten Regionen erzeugen können. Allerdings sind die Inhalte, die diese Modelle halluzinieren, zwangsläufig nicht authentisch, da den Modellen der ausreichende Kontext über die tatsächliche Szene fehlt. In dieser Arbeit stellen wir RealFill vor, einen neuartigen generativen Ansatz zur Bildvervollständigung, der fehlende Bereiche eines Bildes mit den Inhalten füllt, die dort eigentlich vorhanden sein sollten. RealFill ist ein generatives Inpainting-Modell, das mithilfe weniger Referenzbilder einer Szene personalisiert wird. Diese Referenzbilder müssen nicht mit dem Zielbild ausgerichtet sein und können mit stark variierenden Blickwinkeln, Lichtverhältnissen, Blendenöffnungen oder Bildstilen aufgenommen werden. Nach der Personalisierung ist RealFill in der Lage, ein Zielbild mit visuell überzeugenden Inhalten zu vervollständigen, die der ursprünglichen Szene treu bleiben. Wir evaluieren RealFill anhand eines neuen Benchmarks zur Bildvervollständigung, der eine Reihe von vielfältigen und anspruchsvollen Szenarien abdeckt, und stellen fest, dass es bestehende Ansätze deutlich übertrifft. Weitere Ergebnisse finden Sie auf unserer Projektseite: https://realfill.github.io.

GPT-Fathom: Benchmarking von großen Sprachmodellen zur Entschlüsselung des evolutionären Weges zu GPT-4 und darüber hinaus
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Sep 28

ByShen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang

Mit der rasanten Entwicklung großer Sprachmodelle (LLMs) besteht ein dringender Bedarf an einem umfassenden Evaluationsframework, um deren Fähigkeiten und Grenzen zu bewerten. Bestehende LLM-Ranglisten beziehen sich oft auf in anderen Arbeiten berichtete Ergebnisse ohne konsistente Einstellungen und Prompts, was unbeabsichtigt die Auswahl bevorzugter Einstellungen und Prompts für bessere Ergebnisse fördern kann. In dieser Arbeit stellen wir GPT-Fathom vor, ein quelloffenes und reproduzierbares LLM-Evaluationsframework, das auf OpenAI Evals aufbaut. Wir evaluieren systematisch mehr als 10 führende LLMs sowie OpenAIs Legacy-Modelle anhand von über 20 sorgfältig ausgewählten Benchmarks in 7 Fähigkeitskategorien, alle unter einheitlichen Einstellungen. Unsere retrospektive Studie zu OpenAIs früheren Modellen bietet wertvolle Einblicke in den Entwicklungsweg von GPT-3 zu GPT-4. Derzeit ist die Gemeinschaft bestrebt zu verstehen, wie sich GPT-3 schrittweise zu GPT-4 verbessert, einschließlich technischer Details wie beispielsweise, ob das Hinzufügen von Code-Daten die Fähigkeit des LLMs zur logischen Schlussfolgerung verbessert, welche Aspekte der LLM-Fähigkeiten durch SFT und RLHF verbessert werden können, wie hoch die Alignment-Steuer ist, usw. Unsere Analyse beleuchtet viele dieser Fragen und zielt darauf ab, die Transparenz fortschrittlicher LLMs zu verbessern.

Vielfältige und abgestimmte Audio-zu-Video-Generierung durch Anpassung von Text-zu-Video-Modellen
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Sep 28

ByGuy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi

Wir betrachten die Aufgabe, vielfältige und realistische Videos zu generieren, die durch natürliche Audioaufnahmen aus einer Vielzahl von semantischen Klassen gesteuert werden. Für diese Aufgabe müssen die Videos sowohl global als auch zeitlich mit dem Eingabe-Audio abgestimmt sein: global, indem das Eingabe-Audio semantisch mit dem gesamten Ausgabe-Video verknüpft ist, und zeitlich, indem jedes Segment des Eingabe-Audios mit einem entsprechenden Segment des Videos assoziiert wird. Wir nutzen ein bestehendes textgesteuertes Video-Generierungsmodell und ein vortrainiertes Audio-Encoder-Modell. Die vorgeschlagene Methode basiert auf einem leichtgewichtigen Adapter-Netzwerk, das lernt, die audio-basierte Repräsentation auf die Eingabedarstellung abzubilden, die vom Text-zu-Video-Generierungsmodell erwartet wird. Dadurch ermöglicht es auch die Video-Generierung, die sowohl durch Text, Audio als auch, soweit wir feststellen können, erstmals durch Text und Audio gemeinsam gesteuert wird. Wir validieren unsere Methode umfassend an drei Datensätzen, die eine signifikante semantische Vielfalt von Audio-Video-Beispielen aufweisen, und schlagen zudem eine neuartige Bewertungsmetrik (AV-Align) vor, um die Abstimmung der generierten Videos mit den Eingabe-Audioaufnahmen zu bewerten. AV-Align basiert auf der Erkennung und dem Vergleich von Energiepeaks in beiden Modalitäten. Im Vergleich zu aktuellen State-of-the-Art-Ansätzen generiert unsere Methode Videos, die besser mit dem Eingabe-Sound abgestimmt sind, sowohl inhaltlich als auch auf der Zeitachse. Wir zeigen außerdem, dass die von unserer Methode erzeugten Videos eine höhere visuelle Qualität aufweisen und vielfältiger sind.

ConceptGraphs: Open-Vocabulary 3D-Szenengraphen für Wahrnehmung und Planung
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Sep 28

ByQiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull

Damit Roboter eine Vielzahl von Aufgaben ausführen können, benötigen sie eine 3D-Darstellung der Welt, die semantisch reichhaltig, aber dennoch kompakt und effizient für aufgabenorientierte Wahrnehmung und Planung ist. Neuere Ansätze haben versucht, Merkmale aus großen Vision-Language-Modellen zu nutzen, um Semantik in 3D-Darstellungen zu kodieren. Diese Ansätze neigen jedoch dazu, Karten mit Merkmalsvektoren pro Punkt zu erzeugen, die in größeren Umgebungen nicht gut skalieren und auch keine semantischen räumlichen Beziehungen zwischen Entitäten in der Umgebung enthalten, die für die nachgelagerte Planung nützlich wären. In dieser Arbeit schlagen wir ConceptGraphs vor, eine offene, graphstrukturierte Darstellung für 3D-Szenen. ConceptGraphs wird durch die Nutzung von 2D-Foundation-Modellen und die Fusion ihrer Ausgabe in 3D durch Multi-View-Assoziation erstellt. Die resultierenden Darstellungen generalisieren auf neue semantische Klassen, ohne dass große 3D-Datensätze gesammelt oder Modelle feinabgestimmt werden müssen. Wir demonstrieren den Nutzen dieser Darstellung durch eine Reihe von nachgelagerten Planungsaufgaben, die durch abstrakte (sprachliche) Anweisungen spezifiziert werden und komplexes Denken über räumliche und semantische Konzepte erfordern. (Projektseite: https://concept-graphs.github.io/ Erklärvideo: https://youtu.be/mRhNkQwRYnc)

Sprachmodelle in der Molekülentdeckung
Language models in molecular discovery

Sep 28

ByNikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born

Der Erfolg von Sprachmodellen, insbesondere transformer-basierten Architekturen, hat sich auf andere Domänen ausgeweitet und zur Entstehung von „wissenschaftlichen Sprachmodellen“ geführt, die auf kleine Moleküle, Proteine oder Polymere angewendet werden. In der Chemie tragen Sprachmodelle dazu bei, den Molekülentdeckungszyklus zu beschleunigen, wie vielversprechende jüngste Ergebnisse in der frühen Phase der Wirkstoffentwicklung belegen. Hier untersuchen wir die Rolle von Sprachmodellen in der Molekülentdeckung und betonen ihre Stärken im Bereich des de novo-Wirkstoffdesigns, der Eigenschaftsvorhersage und der Reaktionschemie. Wir heben wertvolle Open-Source-Software-Assets hervor und senken damit die Einstiegshürde in das Feld des wissenschaftlichen Sprachmodellierens. Schließlich skizzieren wir eine Vision für das zukünftige Moleküldesign, die eine Chatbot-Schnittstelle mit Zugang zu computergestützten Chemie-Tools kombiniert. Unser Beitrag dient als wertvolle Ressource für Forscher, Chemiker und KI-Enthusiasten, die verstehen möchten, wie Sprachmodelle bereits genutzt werden und in Zukunft genutzt werden können, um die chemische Entdeckung zu beschleunigen.

CCEdit: Kreative und kontrollierbare Videobearbeitung mittels Diffusionsmodellen
CCEdit: Creative and Controllable Video Editing via Diffusion Models

Sep 28

ByRuoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo

In dieser Arbeit präsentieren wir CCEdit, ein vielseitiges Framework, das entwickelt wurde, um die Herausforderungen des kreativen und kontrollierbaren Videoediting zu bewältigen. CCEdit berücksichtigt ein breites Spektrum an Benutzeranforderungen und ermöglicht eine verbesserte kreative Kontrolle durch einen innovativen Ansatz, der die Video-Struktur und das Erscheinungsbild entkoppelt. Wir nutzen die grundlegende ControlNet-Architektur, um die strukturelle Integrität zu bewahren, während wir gleichzeitig anpassungsfähige temporale Module nahtlos integrieren, die mit modernsten Personalisierungstechniken für die Text-zu-Bild-Generierung, wie DreamBooth und LoRA, kompatibel sind. Darüber hinaus führen wir referenzbasiertes Videoediting ein, das Benutzern ermöglicht, präzise kreative Kontrolle über das Videoediting durch den besser handhabbaren Prozess des Editierens von Schlüsselbildern auszuüben. Unsere umfangreichen experimentellen Auswertungen bestätigen die außergewöhnliche Funktionalität und die Bearbeitungsfähigkeiten des vorgeschlagenen CCEdit-Frameworks. Ein Demovideo ist verfügbar unter https://www.youtube.com/watch?v=UQw4jq-igN4.

Effektive Skalierung von Foundation Models für lange Kontexte
Effective Long-Context Scaling of Foundation Models

Sep 27