papers.title

papers.description

OpenCoder: Das offene Kochbuch für erstklassige Code-Großsprachmodelle
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Nov 7

BySiming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu

128

Große Sprachmodelle (LLMs) für Code sind in verschiedenen Bereichen unverzichtbar geworden, darunter Code-Generierung, Reasoning-Aufgaben und Agentensysteme. Während Open-Access-Code-LLMs zunehmend die Leistungsniveaus proprietärer Modelle erreichen, bleiben hochwertige Code-LLMs, die für rigorose wissenschaftliche Untersuchungen geeignet sind – insbesondere solche mit reproduzierbaren Datenverarbeitungspipelines und transparenten Trainingsprotokollen – begrenzt. Diese Knappheit ist auf verschiedene Herausforderungen zurückzuführen, darunter Ressourcenbeschränkungen, ethische Überlegungen und die Wettbewerbsvorteile, die mit der Weiterentwicklung von Modellen verbunden sind. Um diese Lücke zu schließen, stellen wir OpenCoder vor, ein erstklassiges Code-LLM, das nicht nur eine mit führenden Modellen vergleichbare Leistung erzielt, sondern auch als „offenes Kochbuch“ für die Forschungsgemeinschaft dient. Im Gegensatz zu den meisten früheren Bemühungen veröffentlichen wir nicht nur Modellgewichte und Inferenz-Code, sondern auch die reproduzierbaren Trainingsdaten, die vollständige Datenverarbeitungspipeline, rigorose experimentelle Ablationsergebnisse und detaillierte Trainingsprotokolle für offene wissenschaftliche Forschung. Durch diese umfassende Veröffentlichung identifizieren wir die Schlüsselkomponenten für den Aufbau eines erstklassigen Code-LLMs: (1) Code-optimierte heuristische Regeln für die Datenbereinigung und Methoden zur Datenbereinigung, (2) die Einbeziehung von Textkorpora, die mit Code in Verbindung stehen, und (3) hochwertige synthetische Daten in den Phasen des Annealing und des überwachten Feinabstimmens. Durch dieses Maß an Offenheit möchten wir den Zugang zu allen Aspekten eines erstklassigen Code-LLMs erweitern, wobei OpenCoder sowohl als leistungsstarkes Modell als auch als offene Grundlage dient, um die Forschung zu beschleunigen und reproduzierbare Fortschritte in der Code-KI zu ermöglichen.

BitNet a4.8: 4-Bit-Aktivierungen für 1-Bit-LLMs
BitNet a4.8: 4-bit Activations for 1-bit LLMs

Nov 7

ByHongyu Wang, Shuming Ma, Furu Wei

Aktuelle Forschungen zu 1-Bit Large Language Models (LLMs), wie BitNet b1.58, zeigen eine vielversprechende Richtung zur Reduzierung der Inferenzkosten von LLMs bei gleichzeitiger Beibehaltung ihrer Leistungsfähigkeit. In dieser Arbeit stellen wir BitNet a4.8 vor, das 4-Bit-Aktivierungen für 1-Bit-LLMs ermöglicht. BitNet a4.8 verwendet eine hybride Quantisierungs- und Sparsifizierungsstrategie, um die durch Ausreißerkanäle verursachten Quantisierungsfehler zu minimieren. Konkret nutzen wir 4-Bit-Aktivierungen für die Eingaben in die Aufmerksamkeits- und Feed-Forward-Netzwerkschichten, während Zwischenzustände sparsifiziert und anschließend mit 8-Bit quantisiert werden. Umfangreiche Experimente zeigen, dass BitNet a4.8 eine vergleichbare Leistung wie BitNet b1.58 bei gleichen Trainingskosten erzielt, jedoch durch die Aktivierung von 4-Bit-Kernen (INT4/FP4) eine schnellere Inferenz ermöglicht. Zudem aktiviert BitNet a4.8 nur 55 % der Parameter und unterstützt einen 3-Bit-KV-Cache, was die Effizienz der großflächigen Bereitstellung und Inferenz von LLMs weiter steigert.

DimensionX: Erstellen beliebiger 3D- und 4D-Szenen aus einem einzelnen Bild mit kontrollierbarer Video-Diffusion
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Nov 7

ByWenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang

In diesem Artikel stellen wir DimensionX vor, ein Framework, das darauf ausgelegt ist, fotorealistische 3D- und 4D-Szenen aus nur einem einzigen Bild mithilfe von Video-Diffusion zu generieren. Unser Ansatz beginnt mit der Erkenntnis, dass sowohl die räumliche Struktur einer 3D-Szene als auch die zeitliche Entwicklung einer 4D-Szene effektiv durch Sequenzen von Videobildern dargestellt werden können. Obwohl aktuelle Video-Diffusionsmodelle bemerkenswerte Erfolge bei der Erzeugung lebendiger visueller Inhalte gezeigt haben, stoßen sie an Grenzen, wenn es darum geht, 3D/4D-Szenen direkt zu rekonstruieren, da die räumliche und zeitliche Steuerbarkeit während der Generierung begrenzt ist. Um dies zu überwinden, schlagen wir ST-Director vor, das räumliche und zeitliche Faktoren in der Video-Diffusion entkoppelt, indem es dimensionsbewusste LoRAs aus dimensionsvarianten Daten lernt. Dieser kontrollierbare Video-Diffusionsansatz ermöglicht eine präzise Manipulation der räumlichen Struktur und der zeitlichen Dynamik, wodurch wir sowohl 3D- als auch 4D-Darstellungen aus sequenziellen Bildern durch die Kombination von räumlichen und zeitlichen Dimensionen rekonstruieren können. Zusätzlich führen wir, um die Lücke zwischen generierten Videos und realen Szenen zu schließen, einen trajektorienbewussten Mechanismus für die 3D-Generierung und eine identitätserhaltende Rauschunterdrückungsstrategie für die 4D-Generierung ein. Umfangreiche Experimente mit verschiedenen realen und synthetischen Datensätzen zeigen, dass DimensionX im Vergleich zu früheren Methoden überlegene Ergebnisse in der kontrollierbaren Videogenerierung sowie in der 3D- und 4D-Szenengenerierung erzielt.

Mixture-of-Transformers: Eine spärliche und skalierbare Architektur für Multi-Modale Foundation-Modelle
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Nov 7

ByWeixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin

Die Entwicklung großer Sprachmodelle (LLMs) hat sich auf multimodale Systeme ausgeweitet, die in der Lage sind, Text, Bilder und Sprache innerhalb eines einheitlichen Frameworks zu verarbeiten. Das Training dieser Modelle erfordert deutlich größere Datensätze und Rechenressourcen im Vergleich zu textbasierten LLMs. Um die Skalierungsherausforderungen zu bewältigen, führen wir Mixture-of-Transformers (MoT) ein, eine sparsame multimodale Transformer-Architektur, die die Vorabtrainingskosten erheblich reduziert. MoT entkoppelt die nicht-embeddingspezifischen Parameter des Modells nach Modalitäten – einschließlich Feed-Forward-Netzwerken, Aufmerksamkeitsmatrizen und Layer-Normalisierung – und ermöglicht so eine modalitätsspezifische Verarbeitung mit globaler Selbstaufmerksamkeit über die gesamte Eingabesequenz. Wir evaluieren MoT in verschiedenen Konfigurationen und Modellgrößen. Im Chameleon-7B-Setting (autoregressive Text- und Bildgenerierung) erreicht MoT die Leistung des dichten Basismodells mit nur 55,8 % der FLOPs. Bei der Erweiterung um Sprache erreicht MoT eine Sprachleistung, die mit dem dichten Basismodell vergleichbar ist, jedoch mit nur 37,2 % der FLOPs. Im Transfusion-Setting, bei dem Text und Bild mit unterschiedlichen Zielen trainiert werden, erreicht ein 7B-MoT-Modell die Bildmodalitätsleistung des dichten Basismodells mit einem Drittel der FLOPs, und ein 760M-MoT-Modell übertrifft ein 1,4B-dichtes Basismodell in wichtigen Bildgenerationsmetriken. Systemprofiling unterstreicht weiterhin die praktischen Vorteile von MoT, indem es die Bildqualität des dichten Basismodells in 47,2 % der Echtzeit und die Textqualität in 75,6 % der Echtzeit erreicht (gemessen auf AWS p4de.24xlarge-Instanzen mit NVIDIA A100 GPUs).

M3DocRAG: Multimodale Retrieval ist der Schlüssel für das Verständnis mehrseitiger und mehrdokumentiger Inhalte
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

Nov 7

ByJaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal

Dokumentenbasierte visuelle Frage-Antwort-Systeme (DocVQA), die Fragen zu Dokumenten beantworten, haben vielfältige Anwendungsmöglichkeiten. Bisherige Methoden konzentrieren sich auf die Verarbeitung von einseitigen Dokumenten mit multimodalen Sprachmodellen (MLMs) oder stützen sich auf textbasierte, retrievergestützte Generierung (RAG), die Textextraktionswerkzeuge wie optische Zeichenerkennung (OCR) nutzt. Allerdings gibt es Schwierigkeiten bei der Anwendung dieser Methoden in realen Szenarien: (a) Fragen erfordern oft Informationen aus verschiedenen Seiten oder Dokumenten, wobei MLMs viele lange Dokumente nicht verarbeiten können; (b) Dokumente enthalten häufig wichtige Informationen in visuellen Elementen wie Diagrammen, die von Textextraktionswerkzeugen ignoriert werden. Wir stellen M3DocRAG vor, ein neuartiges multimodales RAG-Framework, das flexibel verschiedene Dokumentkontexte (geschlossene und offene Domänen), Fragearten (einfache und mehrstufige Fragen) sowie Beweismodalitäten (Text, Diagramm, Abbildung usw.) berücksichtigt. M3DocRAG findet relevante Dokumente und beantwortet Fragen mithilfe eines multimodalen Retrievers und eines MLMs, sodass es effizient einzelne oder viele Dokumente verarbeiten kann, während visuelle Informationen erhalten bleiben. Da bisherige DocVQA-Datensätze Fragen im Kontext eines spezifischen Dokuments stellen, präsentieren wir auch M3DocVQA, einen neuen Benchmark zur Bewertung von offenen DocVQA-Szenarien mit über 3.000 PDF-Dokumenten und 40.000+ Seiten. In drei Benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA) zeigen empirische Ergebnisse, dass M3DocRAG mit ColPali und Qwen2-VL 7B eine überlegene Leistung gegenüber vielen starken Baselines erzielt, einschließlich state-of-the-art-Leistungen in MP-DocVQA. Wir bieten umfassende Analysen verschiedener Indexierungsmethoden, MLMs und Retrieval-Modelle. Schließlich zeigen wir qualitativ, dass M3DocRAG erfolgreich verschiedene Szenarien bewältigen kann, wie z. B. wenn relevante Informationen über mehrere Seiten verteilt sind oder wenn Antwortbeweise nur in Bildern existieren.

VideoGLaMM: Ein großes multimodales Modell für pixelgenaue visuelle Verankerung in Videos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Nov 7

ByShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan

Die feinkörnige Ausrichtung zwischen Videos und Text ist aufgrund der komplexen räumlichen und zeitlichen Dynamik in Videos eine Herausforderung. Bestehende videobasierte Large Multimodal Models (LMMs) bewältigen grundlegende Konversationen, haben jedoch Schwierigkeiten mit präziser Pixel-basierter Verankerung in Videos. Um dies zu adressieren, stellen wir VideoGLaMM vor, ein LMM, das für die feinkörnige Pixel-basierte Verankerung in Videos basierend auf benutzerdefinierten textuellen Eingaben entwickelt wurde. Unser Design verbindet nahtlos drei Schlüsselkomponenten: ein Large Language Model, einen dualen Vision-Encoder, der sowohl räumliche als auch zeitliche Details betont, und einen räumlich-zeitlichen Decoder für die präzise Maskengenerierung. Diese Verbindung wird durch anpassbare V-L- und L-V-Adapter ermöglicht, die eine enge Vision-Language (VL)-Ausrichtung gewährleisten. Die Architektur wird darauf trainiert, sowohl räumliche als auch zeitliche Elemente des Videoinhalts mit textuellen Anweisungen zu synchronisieren. Um die feinkörnige Verankerung zu ermöglichen, haben wir einen multimodalen Datensatz mit detaillierten visuell verankerten Konversationen mithilfe einer halbautomatischen Annotationspipeline erstellt, was zu einem vielfältigen Satz von 38k Video-QA-Triplets sowie 83k Objekten und 671k Masken führt. Wir evaluieren VideoGLaMM anhand von drei anspruchsvollen Aufgaben: Grounded Conversation Generation, Visual Grounding und Referring Video Segmentation. Die experimentellen Ergebnisse zeigen, dass unser Modell bestehende Ansätze in allen drei Aufgaben konsistent übertrifft.

Analyse der Sprache visueller Tokens
Analyzing The Language of Visual Tokens

Nov 7

ByDavid M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell

Mit der Einführung von Transformer-basierten Modellen für Aufgaben in den Bereichen Vision und Sprache, wie LLaVA und Chameleon, hat das Interesse an der diskreten tokenisierten Darstellung von Bildern erneut zugenommen. Diese Modelle behandeln Bildbereiche oft als diskrete Tokens, analog zu Wörtern in natürlicher Sprache, und lernen gemeinsame Ausrichtungen zwischen visueller und menschlicher Sprache. Es ist jedoch wenig über das statistische Verhalten dieser visuellen Sprachen bekannt – ob sie ähnlichen Häufigkeitsverteilungen, grammatikalischen Strukturen oder Topologien wie natürliche Sprachen folgen. In dieser Arbeit verfolgen wir einen an der natürlichen Sprache orientierten Ansatz zur Analyse diskreter visueller Sprachen und decken auffällige Ähnlichkeiten sowie grundlegende Unterschiede auf. Wir zeigen, dass visuelle Sprachen zwar Zipfschen Verteilungen folgen, eine höhere Token-Innovation jedoch zu größerer Entropie und geringerer Kompression führt, wobei Tokens überwiegend Objektteile repräsentieren, was auf eine intermediäre Granularität hinweist. Wir zeigen auch, dass visuelle Sprachen keine kohäsiven grammatikalischen Strukturen aufweisen, was zu höherer Perplexität und einer schwächeren hierarchischen Organisation im Vergleich zu natürlichen Sprachen führt. Schließlich demonstrieren wir, dass Vision-Modelle zwar enger mit natürlichen Sprachen übereinstimmen als andere Modelle, diese Übereinstimmung jedoch deutlich schwächer ist als die Kohäsion innerhalb natürlicher Sprachen. Durch diese Experimente zeigen wir, wie das Verständnis der statistischen Eigenschaften diskreter visueller Sprachen die Gestaltung effektiverer Computer-Vision-Modelle informieren kann.

Thanos: Verbesserung von Konversationsagenten durch Large Language Models mit integrierter Skill-of-Mind-Funktionalität
Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Nov 7

ByYoung-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi

Um die soziale Bindung zu Gesprächspartnern zu stärken, erwerben Menschen natürlicherweise die Fähigkeit, angemessen auf eine gegebene Situation zu reagieren, indem sie überlegen, welche Gesprächsfähigkeit für die Antwort am besten geeignet ist – einen Prozess, den wir als „Skill-of-Mind“ bezeichnen. Für konversationsbasierte Agenten, die auf großen Sprachmodellen (LLMs) basieren, ist die Planung geeigneter Gesprächsfähigkeiten, wie es Menschen tun, aufgrund der Komplexität sozialer Dialoge, insbesondere in interaktiven Szenarien, eine Herausforderung. Um dies zu adressieren, schlagen wir einen mit „Skill-of-Mind“ annotierten Konversationsdatensatz vor, genannt „Multifaceted Skill-of-Mind“, der mehrstufige und vielseitige Gesprächsfähigkeiten in verschiedenen interaktiven Szenarien (z. B. langfristig, beratend, aufgabenorientiert) umfasst, die in diversen sozialen Kontexten (z. B. Demografie, Persona, Faustregeln) verankert sind. Dieser Datensatz besteht aus etwa 100.000 Konversationen. Mit diesem Datensatz führen wir eine neue Familie von „Skill-of-Mind“-infundierten LLMs ein, genannt „Thanos“, mit Modellgrößen von 1B, 3B und 8B Parametern. Durch umfangreiche Experimente demonstrieren diese Modelle erfolgreich den „Skill-of-Mind“-Prozess und zeigen eine starke Generalisierbarkeit bei der Inferenz vielseitiger Fähigkeiten über eine Vielzahl von Domänen hinweg. Darüber hinaus zeigen wir, dass Thanos die Qualität der von LLM-basierten Konversationsagenten generierten Antworten signifikant verbessert und prosoziales Verhalten in menschlichen Bewertungen fördert.

SVDQunat: Absorption von Ausreißern durch Niedrigrang-Komponenten für 4-Bit-Diffusionsmodelle
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7

ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han

Diffusionsmodelle haben sich als äußerst effektiv bei der Erzeugung hochwertiger Bilder erwiesen. Allerdings erfordern diese Modelle mit zunehmender Größe deutlich mehr Speicher und leiden unter höherer Latenz, was erhebliche Herausforderungen für die Bereitstellung darstellt. In dieser Arbeit zielen wir darauf ab, Diffusionsmodelle zu beschleunigen, indem wir ihre Gewichte und Aktivierungen auf 4 Bit quantisieren. Bei einem derart aggressiven Niveau sind sowohl Gewichte als auch Aktivierungen hochsensibel, wodurch herkömmliche Post-Training-Quantisierungsmethoden für große Sprachmodelle wie Glättung unzureichend werden. Um diese Einschränkung zu überwinden, schlagen wir SVDQuant vor, ein neues 4-Bit-Quantisierungsparadigma. Im Gegensatz zur Glättung, die Ausreißer zwischen Gewichten und Aktivierungen umverteilt, absorbiert unser Ansatz diese Ausreißer mithilfe eines niedrigrangigen Zweigs. Zunächst konsolidieren wir die Ausreißer, indem wir sie von den Aktivierungen zu den Gewichten verschieben, und verwenden dann einen hochpräzisen niedrigrangigen Zweig, um die Gewichtsausreißer mit der Singulärwertzerlegung (SVD) aufzunehmen. Dieser Prozess erleichtert die Quantisierung auf beiden Seiten. Allerdings führt das unabhängige Ausführen des niedrigrangigen Zweigs in naiver Weise zu erheblichem Overhead aufgrund zusätzlicher Datenbewegungen von Aktivierungen, was den Quantisierungsgeschwindigkeitsvorteil zunichtemacht. Um dies zu beheben, entwickeln wir eine Inferenz-Engine namens Nunchaku, die die Kerne des niedrigrangigen Zweigs mit denen des niedrigbitigen Zweigs verschmilzt, um redundanten Speicherzugriff zu vermeiden. Sie kann auch nahtlos vorgefertigte niedrigrangige Adapter (LoRAs) unterstützen, ohne dass eine erneute Quantisierung erforderlich ist. Umfangreiche Experimente mit SDXL, PixArt-Sigma und FLUX.1 bestätigen die Wirksamkeit von SVDQuant bei der Bewahrung der Bildqualität. Wir reduzieren den Speicherverbrauch für die 12B FLUX.1-Modelle um das 3,5-fache und erreichen eine 3,0-fache Beschleunigung gegenüber der 4-Bit-Gewichtsquantisierungs-Baseline auf der 16GB Laptop-4090-GPU, was den Weg für interaktivere Anwendungen auf PCs ebnet. Unsere Quantisierungsbibliothek und Inferenz-Engine sind Open Source.

Nadeleinfädeln: Können LLMs Fäden durch nahezu millionenfache Heuhaufen verfolgen?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Nov 7

ByJonathan Roberts, Kai Han, Samuel Albanie

Mit der Erweiterung der Kontextgrenzen von Large Language Models (LLMs) vergrößert sich auch das Spektrum möglicher Anwendungen und nachgelagerter Funktionen. Bei vielen realen Aufgaben hängen Entscheidungen von Details ab, die über Sammlungen oft unterschiedlicher Dokumente verstreut sind, die größtenteils irrelevante Informationen enthalten. Langkontext-LLMs scheinen gut geeignet zu sein für diese Form der komplexen Informationsbeschaffung und des Schlussfolgerns, die traditionell als kostspielig und zeitaufwendig gilt. Obwohl die Entwicklung von Modellen mit längeren Kontexten in den letzten Jahren rasante Fortschritte gemacht hat, hinkt unser Verständnis davon, wie effektiv LLMs ihren Kontext nutzen, hinterher. Um dies zu adressieren, führen wir eine Reihe von Retrieval-Experimenten durch, die darauf abzielen, die Fähigkeiten von 17 führenden LLMs zu bewerten, wie beispielsweise ihre Fähigkeit, Informationsfäden durch das Kontextfenster zu verfolgen. Auffällig ist, dass wir feststellen, dass viele Modelle bemerkenswert threadsicher sind: Sie können gleichzeitig mehrere Fäden verfolgen, ohne signifikante Leistungseinbußen. Dennoch stellen wir bei vielen Modellen fest, dass die effektive Kontextgrenze deutlich kürzer ist als die unterstützte Kontextlänge, wobei die Genauigkeit mit zunehmender Größe des Kontextfensters abnimmt. Unsere Studie unterstreicht auch den wichtigen Punkt, dass Token-Zählungen verschiedener Tokenizer nicht direkt verglichen werden sollten – sie entsprechen oft erheblich unterschiedlichen Anzahlen geschriebener Zeichen. Wir veröffentlichen unseren Code und die Langkontext-Experimentaldaten.

DynaMem: Online dynamisches spatio-semantisches Gedächtnis für die mobile Manipulation in offenen Welten
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Nov 7

ByPeiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

Erhebliche Fortschritte wurden im Bereich der offenen Vokabular-Mobilmanipulation erzielt, bei der das Ziel darin besteht, dass ein Roboter Aufgaben in jeder Umgebung auf der Grundlage einer natürlichen Sprachbeschreibung ausführt. Die meisten derzeitigen Systeme gehen jedoch von einer statischen Umgebung aus, was die Anwendbarkeit des Systems in realen Szenarien einschränkt, in denen sich die Umgebung häufig aufgrund menschlicher Eingriffe oder der eigenen Aktionen des Roboters verändert. In dieser Arbeit stellen wir DynaMem vor, einen neuen Ansatz zur Mobilmanipulation in offenen Welten, der ein dynamisches räumlich-semantisches Gedächtnis zur Darstellung der Umgebung eines Roboters verwendet. DynaMem konstruiert eine 3D-Datenstruktur, um ein dynamisches Gedächtnis von Punktwolken zu pflegen, und beantwortet Anfragen zur Lokalisierung von Objekten mit offenem Vokabular mithilfe multimodaler LLMs oder offener Vokabular-Merkmale, die von modernsten Vision-Sprache-Modellen generiert werden. Dank DynaMem können unsere Roboter neue Umgebungen erkunden, nach Objekten suchen, die nicht im Gedächtnis gespeichert sind, und das Gedächtnis kontinuierlich aktualisieren, wenn sich Objekte in der Szene bewegen, erscheinen oder verschwinden. Wir führen umfangreiche Experimente mit den Stretch SE3-Robotern in drei realen und neun Offline-Szenen durch und erreichen eine durchschnittliche Erfolgsrate von 70 % beim Aufnehmen und Ablegen von nicht stationären Objekten, was mehr als eine Verdoppelung im Vergleich zu modernsten statischen Systemen darstellt. Unser Code sowie unsere Experiment- und Einsatzvideos sind Open Source und können auf unserer Projektwebsite eingesehen werden: https://dynamem.github.io/

RetrieveGPT: Kombination von Prompts und mathematischen Modellen zur verbesserten Code-Mixed-Informationsrückgewinnung
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Nov 7

ByAniket Deroy, Subhankar Maity

Code-Mixing, die Integration lexikalischer und grammatikalischer Elemente aus mehreren Sprachen innerhalb eines einzelnen Satzes, ist ein weit verbreitetes linguistisches Phänomen, das insbesondere in mehrsprachigen Gesellschaften häufig auftritt. In Indien führen Nutzer sozialer Medien häufig Code-Mixing-Gespräche in lateinischer Schrift, insbesondere unter Migrantengemeinschaften, die Online-Gruppen bilden, um relevante lokale Informationen auszutauschen. Dieser Artikel konzentriert sich auf die Herausforderungen der Extraktion relevanter Informationen aus Code-Mixing-Gesprächen, speziell innerhalb von in lateinischer Schrift transliteriertem Bengalisch, das mit Englisch gemischt ist. Diese Studie präsentiert einen neuartigen Ansatz zur Bewältigung dieser Herausforderungen, indem ein Mechanismus entwickelt wird, um automatisch die relevantesten Antworten aus Code-Mixing-Gesprächen zu identifizieren. Wir haben mit einem Datensatz experimentiert, der Anfragen und Dokumente von Facebook sowie Query-Relevance-Dateien (QRels) umfasst, um diese Aufgabe zu unterstützen. Unsere Ergebnisse demonstrieren die Effektivität unseres Ansatzes bei der Extraktion relevanter Informationen aus komplexen, Code-Mixing-digitalen Gesprächen und tragen damit zum breiteren Feld der natürlichen Sprachverarbeitung in mehrsprachigen und informellen Textumgebungen bei. Wir verwenden GPT-3.5 Turbo über Prompting sowie die sequenzielle Natur relevanter Dokumente, um ein mathematisches Modell zu formulieren, das dabei hilft, relevante Dokumente zu einer Anfrage zu identifizieren.

M3SciQA: Ein Multi-Modaler Multi-Dokument-Wissenschaftlicher QA-Benchmark zur Bewertung von Foundation-Modellen
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Nov 6

ByChuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan

Bestehende Benchmarks zur Bewertung von Foundation-Modellen konzentrieren sich hauptsächlich auf Aufgaben, die sich auf einzelne Dokumente und rein textbasierte Inhalte beschränken. Allerdings erfassen sie oft nicht vollständig die Komplexität von Forschungsabläufen, die typischerweise die Interpretation nicht-textueller Daten und die Informationsbeschaffung über mehrere Dokumente hinweg beinhalten. Um diese Lücke zu schließen, führen wir M3SciQA ein, einen multimodalen, multidokumentarischen Benchmark für wissenschaftliche Frage-Antwort-Aufgaben, der eine umfassendere Bewertung von Foundation-Modellen ermöglicht. M3SciQA besteht aus 1.452 von Experten annotierten Fragen, die 70 Paper-Cluster im Bereich der natürlichen Sprachverarbeitung abdecken, wobei jeder Cluster ein Hauptpapier sowie alle darin zitierten Dokumente umfasst. Dies spiegelt den Arbeitsablauf wider, ein einzelnes Paper zu verstehen, indem multimodale und multidokumentarische Daten erforderlich sind. Mit M3SciQA führen wir eine umfassende Bewertung von 18 Foundation-Modellen durch. Unsere Ergebnisse zeigen, dass aktuelle Foundation-Modelle im Vergleich zu menschlichen Experten bei der multimodalen Informationsbeschaffung und beim schlussfolgernden Denken über mehrere wissenschaftliche Dokumente hinweg noch erheblich schlechter abschneiden. Zudem untersuchen wir die Implikationen dieser Erkenntnisse für die zukünftige Weiterentwicklung der Anwendung von Foundation-Modellen in der multimodalen Analyse wissenschaftlicher Literatur.

GazeGen: Blickgesteuerte Benutzerinteraktion zur Erzeugung visueller Inhalte
GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Nov 7

ByHe-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung

Wir präsentieren GazeGen, ein Benutzerinteraktionssystem, das visuelle Inhalte (Bilder und Videos) für durch den Blick des Benutzers angezeigte Positionen generiert. GazeGen ermöglicht die intuitive Manipulation von visuellen Inhalten durch die Zielung von interessierenden Regionen mit dem Blick. Unter Verwendung fortschrittlicher Techniken in der Objekterkennung und generativen KI führt GazeGen blickgesteuertes Hinzufügen/Löschen, Neuplatzierung und Oberflächenmaterialänderungen von Bildobjekten durch und wandelt statische Bilder in Videos um. Kernstück von GazeGen ist der DFT Gaze (Distilled and Fine-Tuned Gaze) Agent, ein ultraleichtes Modell mit nur 281K Parametern, das präzise Echtzeit-Blickvorhersagen, angepasst an die Augen individueller Benutzer, auf kleinen Edge-Geräten durchführt. GazeGen ist das erste System, das die Erzeugung visueller Inhalte mit Echtzeit-Blickschätzung kombiniert, was ausschließlich durch DFT Gaze ermöglicht wird. Diese Echtzeit-Blickschätzung ermöglicht verschiedene Aufgaben zur Erzeugung visueller Inhalte, die alle durch den Blick des Benutzers gesteuert werden. Die Eingabe für DFT Gaze sind die Augenbilder des Benutzers, während die Eingaben für die Erzeugung visueller Inhalte die Ansicht des Benutzers und der vorhergesagte Blickpunkt von DFT Gaze sind. Um effiziente Blickvorhersagen zu erreichen, leiten wir das kleine Modell von einem großen Modell (10x größer) durch neuartige Wissensdestillations- und persönliche Anpassungstechniken ab. Wir integrieren Wissensdestillation mit einem maskierten Autoencoder und entwickeln ein kompaktes, aber leistungsstarkes Blickschätzungsmodell. Dieses Modell wird weiter mit Adaptern feinabgestimmt, wodurch hochpräzise und personalisierte Blickvorhersagen mit minimaler Benutzereingabe ermöglicht werden. DFT Gaze gewährleistet eine niedrige Latenz und präzise Blickverfolgung, die eine Vielzahl von blickgesteuerten Aufgaben unterstützt. Wir validieren die Leistung von DFT Gaze anhand der AEA- und OpenEDS2020-Benchmarks und demonstrieren einen geringen Winkelfehler bei der Blickschätzung und eine niedrige Latenz auf dem Edge-Gerät (Raspberry Pi 4). Darüber hinaus beschreiben wir Anwendungen von GazeGen, die seine Vielseitigkeit und Effektivität in verschiedenen Nutzungsszenarien verdeutlichen.

SG-I2V: Selbstgesteuerte Trajektorienkontrolle in der Bild-zu-Video-Generierung
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Nov 7

ByKoichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell

Methoden zur Bild-zu-Video-Generierung haben beeindruckende, fotorealistische Qualität erreicht. Die Anpassung spezifischer Elemente in generierten Videos, wie Objektbewegungen oder Kamerabewegungen, ist jedoch oft ein mühsamer Prozess von Versuch und Irrtum, z. B. durch das erneute Generieren von Videos mit verschiedenen Zufallsinitialisierungen. Neuere Techniken adressieren dieses Problem, indem ein vortrainiertes Modell feinabgestimmt wird, um Konditionierungssignale wie Begrenzungsrahmen oder Punktverläufe zu befolgen. Dennoch kann dieses Feinabstimmungsverfahren rechenintensiv sein und erfordert Datensätze mit annotierten Objektbewegungen, die schwer zu beschaffen sein können. In dieser Arbeit stellen wir SG-I2V vor, ein Framework für kontrollierbare Bild-zu-Video-Generierung, das selbstgesteuert ist – es bietet Null-Shot-Kontrolle, indem es sich ausschließlich auf das Wissen stützt, das in einem vortrainierten Bild-zu-Video-Diffusionsmodell vorhanden ist, ohne dass eine Feinabstimmung oder externes Wissen erforderlich ist. Unsere Null-Shot-Methode übertrifft unüberwachte Baselines und ist in Bezug auf visuelle Qualität und Bewegungsgenauigkeit mit überwachten Modellen vergleichbar.

Diff-2-in-1: Brückenschlag zwischen Generierung und dichter Wahrnehmung mit Diffusionsmodellen
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Nov 7

ByShuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang

Über die hochwertige Bildsynthese hinaus haben Diffusionsmodelle kürzlich vielversprechende Ergebnisse bei dichten visuellen Wahrnehmungsaufgaben gezeigt. Die meisten bestehenden Arbeiten behandeln Diffusionsmodelle jedoch als eigenständige Komponente für Wahrnehmungsaufgaben, indem sie entweder ausschließlich für vorgefertigte Datenaugmentierung oder lediglich als Merkmalsextraktoren eingesetzt werden. Im Gegensatz zu diesen isolierten und somit suboptimalen Ansätzen stellen wir ein einheitliches, vielseitiges, diffusionsbasiertes Framework vor, Diff-2-in-1, das sowohl die multimodale Datengenerierung als auch die dichte visuelle Wahrnehmung gleichzeitig bewältigen kann, durch eine einzigartige Nutzung des Diffusions-Denoisings-Prozesses. Innerhalb dieses Frameworks verbessern wir die diskriminative visuelle Wahrnehmung weiter durch multimodale Generierung, indem wir das Denoising-Netzwerk nutzen, um multimodale Daten zu erzeugen, die die Verteilung des ursprünglichen Trainingsdatensatzes widerspiegeln. Wichtig ist, dass Diff-2-in-1 die Nutzung der erzeugten vielfältigen und treuen Daten durch einen neuartigen selbstverbessernden Lernmechanismus optimiert. Umfassende experimentelle Auswertungen bestätigen die Wirksamkeit unseres Frameworks und zeigen konsistente Leistungsverbesserungen über verschiedene diskriminative Backbones sowie hochwertige multimodale Datengenerierung, die durch Realismus und Nützlichkeit gekennzeichnet ist.

papers.title

papers.description

OpenCoder: Das offene Kochbuch für erstklassige Code-Großsprachmodelle
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Nov 7

128

BitNet a4.8: 4-Bit-Aktivierungen für 1-Bit-LLMs
BitNet a4.8: 4-bit Activations for 1-bit LLMs

Nov 7

ByHongyu Wang, Shuming Ma, Furu Wei

DimensionX: Erstellen beliebiger 3D- und 4D-Szenen aus einem einzelnen Bild mit kontrollierbarer Video-Diffusion
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Nov 7

ByWenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang

Mixture-of-Transformers: Eine spärliche und skalierbare Architektur für Multi-Modale Foundation-Modelle
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Nov 7

ByWeixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin

M3DocRAG: Multimodale Retrieval ist der Schlüssel für das Verständnis mehrseitiger und mehrdokumentiger Inhalte
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

Nov 7

ByJaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal

VideoGLaMM: Ein großes multimodales Modell für pixelgenaue visuelle Verankerung in Videos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Nov 7

ByShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan

Analyse der Sprache visueller Tokens
Analyzing The Language of Visual Tokens

Nov 7

ByDavid M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell

Thanos: Verbesserung von Konversationsagenten durch Large Language Models mit integrierter Skill-of-Mind-Funktionalität
Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Nov 7

ByYoung-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi

SVDQunat: Absorption von Ausreißern durch Niedrigrang-Komponenten für 4-Bit-Diffusionsmodelle
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7

ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han

Nadeleinfädeln: Können LLMs Fäden durch nahezu millionenfache Heuhaufen verfolgen?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Nov 7

ByJonathan Roberts, Kai Han, Samuel Albanie

DynaMem: Online dynamisches spatio-semantisches Gedächtnis für die mobile Manipulation in offenen Welten
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Nov 7

ByPeiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

RetrieveGPT: Kombination von Prompts und mathematischen Modellen zur verbesserten Code-Mixed-Informationsrückgewinnung
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Nov 7

ByAniket Deroy, Subhankar Maity

M3SciQA: Ein Multi-Modaler Multi-Dokument-Wissenschaftlicher QA-Benchmark zur Bewertung von Foundation-Modellen
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Nov 6

ByChuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan

GazeGen: Blickgesteuerte Benutzerinteraktion zur Erzeugung visueller Inhalte
GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Nov 7

ByHe-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung

SG-I2V: Selbstgesteuerte Trajektorienkontrolle in der Bild-zu-Video-Generierung
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Nov 7

ByKoichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell

Diff-2-in-1: Brückenschlag zwischen Generierung und dichter Wahrnehmung mit Diffusionsmodellen
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Nov 7

ByShuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang