HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Sprachmodelle für die Bildverarbeitung sind blind.
Vision language models are blind

Jul 9

ByPooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Große Sprachmodelle mit Sehfähigkeiten (VLMs), z. B. GPT-4o und Gemini 1.5 Pro, treiben unzählige Bild-Text-Anwendungen an und erzielen hohe Punktzahlen in vielen Bildverstehens-Benchmarks. Dennoch stellen wir fest, dass VLMs bei 7 visuellen Aufgaben kläglich versagen, die für Menschen absurd einfach sind, wie z. B. (a) festzustellen, ob sich zwei Kreise überschneiden; (b) ob sich zwei Linien schneiden; (c) welcher Buchstabe in einem Wort umkreist ist; und (d) die Anzahl der Kreise in einem olympischen Logo zu zählen. Die schockierend schlechte Leistung der vier hochmodernen VLMs legt nahe, dass ihr Sehvermögen bestenfalls dem einer Person mit Kurzsichtigkeit ähnelt, die feine Details verschwommen sieht, und im schlimmsten Fall dem einer intelligenten Person, die blind ist und fundierte Vermutungen anstellt. Der Code ist verfügbar unter: https://vlmsareblind.github.io/

AgentInstruct: Auf dem Weg zum generativen Unterrichten mit agentischen Strömen
AgentInstruct: Toward Generative Teaching with Agentic Flows

Jul 3

ByArindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah

Synthetische Daten werden zunehmend wichtig, um die Entwicklung von Sprachmodellen, sowohl groß als auch klein, zu beschleunigen. Trotz mehrerer erfolgreicher Anwendungsfälle äußerten Forscher auch Bedenken hinsichtlich Modellkollaps und Nachteilen beim Imitieren anderer Modelle. Diese Diskrepanz kann darauf zurückgeführt werden, dass synthetische Daten in Qualität und Vielfalt variieren. Der effektive Einsatz von synthetischen Daten erfordert in der Regel erhebliche menschliche Anstrengungen bei der Kuratierung der Daten. Wir konzentrieren uns auf die Verwendung von synthetischen Daten für das Nachtraining, insbesondere auf das Erstellen von Daten durch leistungsstarke Modelle, um einem anderen Modell eine neue Fähigkeit oder Verhaltensweise beizubringen. Wir bezeichnen diese Einstellung als Generative Lehre. Wir stellen AgentInstruct vor, ein erweiterbares agentisches Framework zur automatischen Erstellung großer Mengen an vielfältigen und hochwertigen synthetischen Daten. AgentInstruct kann sowohl die Aufforderungen als auch die Antworten erstellen, indem es nur Rohdatenquellen wie Textdokumente und Code-Dateien als Ausgangspunkte verwendet. Wir demonstrieren die Nützlichkeit von AgentInstruct, indem wir einen Nachtrainingsdatensatz von 25 Millionen Paaren erstellen, um Sprachmodelle in verschiedenen Fähigkeiten wie Textbearbeitung, kreatives Schreiben, Werkzeugverwendung, Codierung, Leseverständnis usw. zu unterrichten. Der Datensatz kann zur Anpassung der Anweisungen an jedes Basismodell verwendet werden. Wir führen eine Nachschulung von Mistral-7b mit den Daten durch. Bei Vergleichen des resultierenden Modells Orca-3 mit Mistral-7b-Instruct (das dasselbe Basismodell verwendet), beobachten wir signifikante Verbesserungen in vielen Benchmarks. Zum Beispiel eine 40%ige Verbesserung bei AGIEval, eine 19%ige Verbesserung bei MMLU, eine 54%ige Verbesserung bei GSM8K, eine 38%ige Verbesserung bei BBH und eine 45%ige Verbesserung bei AlpacaEval. Darüber hinaus übertrifft es konsistent andere Modelle wie LLAMA-8B-Instruct und GPT-3.5-Turbo.

Internet der Agenten: Ein Netzwerk heterogener Agenten für kollaborative Intelligenz knüpfen
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Jul 9

ByWeize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

Der rasante Fortschritt großer Sprachmodelle (LLMs) hat den Weg für die Entwicklung hochfähiger autonomer Agenten geebnet. Allerdings haben bestehende Multi-Agenten-Frameworks oft Schwierigkeiten, vielfältige fähige Drittanbieter-Agenten zu integrieren, da sie auf Agenten innerhalb ihrer eigenen Ökosysteme beschränkt sind. Sie stehen auch vor Herausforderungen bei der Simulation verteilter Umgebungen, da die meisten Frameworks auf Ein-Gerät-Setups beschränkt sind. Darüber hinaus verlassen sich diese Frameworks oft auf fest codierte Kommunikationspipelines, was ihre Anpassungsfähigkeit an dynamische Aufgabenanforderungen einschränkt. Inspiriert vom Konzept des Internets schlagen wir das Internet der Agenten (IoA) vor, ein neuartiges Framework, das diese Einschränkungen durch Bereitstellung einer flexiblen und skalierbaren Plattform für LLM-basierte Multi-Agenten-Kollaboration angeht. IoA führt ein Agenten-Integrationsprotokoll, eine Architekturdesign ähnlich einem Instant Messaging und dynamische Mechanismen für Agententeambildung und Steuerung des Gesprächsflusses ein. Durch umfangreiche Experimente zu allgemeinen Assistenzaufgaben, verkörperten KI-Aufgaben und Abruf-erweiterten Generierungs-Benchmarks zeigen wir, dass IoA konsequent die State-of-the-Art-Baselines übertrifft und damit seine Fähigkeit zur Förderung effektiver Zusammenarbeit zwischen heterogenen Agenten unter Beweis stellt. IoA repräsentiert einen Schritt hin zur Verknüpfung verschiedener Agenten in einer internetähnlichen Umgebung, in der Agenten nahtlos zusammenarbeiten können, um eine höhere Intelligenz und Fähigkeiten zu erreichen. Unser Codebase wurde unter https://github.com/OpenBMB/IoA veröffentlicht.

Video-STaR: Selbsttraining ermöglicht die Feinabstimmung von Videoanweisungen mit jeder Art von Aufsicht.
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Jul 8

ByOrr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

Die Leistung von Large Vision Language Models (LVLMs) hängt von der Größe und Qualität ihrer Trainingsdatensätze ab. Bestehende Videounterweisungsabstimmungsdatensätze weisen aufgrund der Ableitung durch Aufforderung großer Sprachmodelle mit Videobeschriftungen zur Generierung von Frage-Antwort-Paaren oft einen Mangel an Vielfalt auf und sind daher hauptsächlich deskriptiv. In der Zwischenzeit existieren viele gekennzeichnete Videodatensätze mit vielfältigen Labels und Überwachung - jedoch stellen wir fest, dass ihre Integration in LVLMs nicht trivial ist. Hier präsentieren wir Video Self-Training mit augmentiertem Reasoning (Video-STaR), den ersten Ansatz zum Video-Selbsttraining. Video-STaR ermöglicht die Nutzung eines beliebigen gekennzeichneten Videodatensatzes zur Abstimmung von Videoanweisungen. In Video-STaR wechselt ein LVLM zwischen Anweisungsgenerierung und Feinabstimmung, was (I) die allgemeine Videoverarbeitung verbessert und (II) LVLMs an neue nachgelagerte Aufgaben mit vorhandener Überwachung anpasst. Während der Generierung wird ein LVLM aufgefordert, eine Antwort vorzuschlagen. Die Antworten werden dann nur auf diejenigen gefiltert, die die ursprünglichen Videolabels enthalten, und das LVLM wird anschließend auf dem generierten Datensatz neu trainiert. Indem nur auf generierten Antworten trainiert wird, die die korrekten Videolabels enthalten, nutzt Video-STaR diese vorhandenen Videolabels als schwache Überwachung für die Abstimmung von Videoanweisungen. Unsere Ergebnisse zeigen, dass Video-STaR-verbesserte LVLMs eine verbesserte Leistung in (I) allgemeiner Video-F&A aufweisen, wobei die TempCompass-Leistung um 10% verbessert wurde, und (II) bei nachgelagerten Aufgaben, wobei Video-STaR die Kinetics700-QA-Genauigkeit um 20% und die Aktionsqualitätsbewertung bei FineDiving um 15% verbesserte.

RodinHD: Hochauflösende 3D-Avatar-Erzeugung mit Diffusionsmodellen
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

Jul 9

ByBowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

Wir präsentieren RodinHD, das hochwertige 3D-Avatare aus einem Porträtbild generieren kann. Bestehende Methoden scheitern daran, feine Details wie Frisuren zu erfassen, was wir in diesem Papier angehen. Zunächst identifizieren wir ein übersehenes Problem des katastrophalen Vergessens, das auftritt, wenn Triplanes sequenziell auf viele Avatare angepasst werden, verursacht durch das gemeinsame Schema des MLP-Decoders. Um dieses Problem zu überwinden, führen wir eine neuartige Datenplanungsstrategie und einen Regularisierungsterm zur Gewichtskonsolidierung ein, der die Fähigkeit des Decoders zur Darstellung schärferer Details verbessert. Darüber hinaus optimieren wir den Leiteffekt des Porträtbildes, indem wir eine feiner abgestufte hierarchische Darstellung berechnen, die reichhaltige 2D-Texturhinweise erfasst, und sie über Kreuz-Aufmerksamkeitsschichten in das 3D-Diffusionsmodell auf mehreren Ebenen einspeisen. Nach dem Training an 46.000 Avataren mit einem für Triplanes optimierten Rauschplan kann das resultierende Modell 3D-Avatare mit deutlich besseren Details als bisherige Methoden generieren und sich auf Porträteingaben in freier Wildbahn generalisieren.

Anpassung von LLMs an Hebräisch: Enthüllung von DictaLM 2.0 mit erweiterter Vokabular- und Anleitungsfähigkeit.
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Jul 9

ByShaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

Das Training großer Sprachmodelle (LLMs) in Sprachen mit geringen Ressourcen wie Hebräisch birgt einzigartige Herausforderungen. In diesem Paper stellen wir DictaLM2.0 und DictaLM2.0-Instruct vor, zwei LLMs, die aus dem Mistral-Modell abgeleitet sind und auf einem umfangreichen Korpus von etwa 200 Milliarden Tokens sowohl in Hebräisch als auch in Englisch trainiert wurden. Die Anpassung eines vortrainierten Modells an eine neue Sprache erfordert spezialisierte Techniken, die sich deutlich von der Schulung eines Modells von Grund auf oder dem weiteren Training bestehender Modelle in gut ausgestatteten Sprachen wie Englisch unterscheiden. Wir skizzieren diese neuartigen Schulungsmethoden, die ein effektives Lernen und die Anpassung an die sprachlichen Eigenschaften des Hebräischen erleichtern. Darüber hinaus haben wir DictaLM2.0-Instruct an einem umfassenden Instruct-Datensatz feinabgestimmt, um seine Leistung bei aufgabenbezogenen Anweisungen zu verbessern. Um unsere Modelle rigoros zu bewerten, führen wir eine neue Benchmark-Suite für die Bewertung von Hebräisch LLM ein, die eine vielfältige Reihe von Aufgaben abdeckt, darunter Frage-Antwort, Sentiment-Analyse, Winograd-Schema-Herausforderung, Übersetzung und Zusammenfassung. Unsere Arbeit behandelt nicht nur die Feinheiten des Trainings von LLMs in Sprachen mit geringen Ressourcen, sondern schlägt auch einen Rahmen vor, der für die Anpassung anderer LLMs an verschiedene nicht-englische Sprachen genutzt werden kann und somit zum breiteren Bereich des mehrsprachigen NLP beiträgt.

MiraData: Ein umfangreiches Videodatenset mit langen Dauer und strukturierten Untertiteln.
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Jul 8

ByXuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Die hohe Bewegungsintensität und die langen, konsistenten Videos von Sora haben signifikanten Einfluss auf das Gebiet der Videogenerierung gehabt und eine beispiellose Aufmerksamkeit erregt. Allerdings sind die vorhandenen öffentlich verfügbaren Datensätze unzureichend für die Generierung von Sora-ähnlichen Videos, da sie hauptsächlich kurze Videos mit geringer Bewegungsintensität und knappen Bildunterschriften enthalten. Um diesen Problemen zu begegnen, schlagen wir MiraData vor, einen qualitativ hochwertigen Videodatensatz, der frühere Datensätze in Bezug auf Videodauer, Detailreichtum der Bildunterschriften, Bewegungsstärke und visuelle Qualität übertrifft. Wir kuratieren MiraData aus verschiedenen, manuell ausgewählten Quellen und verarbeiten die Daten sorgfältig, um semantisch konsistente Clips zu erhalten. GPT-4V wird eingesetzt, um strukturierte Bildunterschriften zu annotieren, die detaillierte Beschreibungen aus vier verschiedenen Perspektiven sowie eine zusammengefasste dichte Bildunterschrift bieten. Um die zeitliche Konsistenz und Bewegungsintensität bei der Videogenerierung besser zu bewerten, führen wir MiraBench ein, das bestehende Benchmarks durch die Hinzufügung von 3D-Konsistenz- und Tracking-basierten Bewegungsstärkemessungen verbessert. MiraBench umfasst 150 Bewertungsanfragen und 17 Metriken, die die zeitliche Konsistenz, Bewegungsstärke, 3D-Konsistenz, visuelle Qualität, Text-Video-Alignment und Verteilungsähnlichkeit abdecken. Um den Nutzen und die Wirksamkeit von MiraData zu demonstrieren, führen wir Experimente mit unserem auf DiT basierenden Videogenerierungsmodell, MiraDiT, durch. Die experimentellen Ergebnisse auf MiraBench zeigen die Überlegenheit von MiraData, insbesondere in Bezug auf die Bewegungsstärke.

BM25S: Um Größenordnungen schnellere lexikalische Suche durch eifriges spärliches Scoring.
BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Jul 4

ByXing Han Lù

Wir stellen BM25S vor, eine effiziente Python-basierte Implementierung von BM25, die nur von Numpy und Scipy abhängt. BM25S erreicht im Vergleich zum beliebtesten Python-basierten Framework eine bis zu 500-fache Beschleunigung, indem es BM25-Werte während des Indexierens eifrig berechnet und in dünnen Matrizen speichert. Es erzielt auch erhebliche Beschleunigungen im Vergleich zu hoch optimierten Java-basierten Implementierungen, die von beliebten kommerziellen Produkten verwendet werden. Schließlich reproduziert BM25S die genaue Implementierung von fünf BM25-Varianten basierend auf Kamphuis et al. (2020), indem es die eifrige Bewertung auf nicht-dünnen Varianten mit einer neuartigen Score-Shifting-Methode erweitert. Der Code ist unter https://github.com/xhluca/bm25s zu finden.

TheoremLlama: Die Transformation von allgemeinen LLMs in Lean4-Experten
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts

Jul 3

ByRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

Die Beweisführung mathematischer Theoreme mithilfe von computerüberprüfbaren formalen Sprachen wie Lean hat einen signifikanten Einfluss auf mathematisches Denken. Ein Ansatz zur formalen Beweisführung beinhaltet die Generierung vollständiger Beweise mithilfe großer Sprachmodelle (LLMs), die auf natürlichsprachlichen (NL) Beweisen basieren. Ähnliche Methoden haben vielversprechende Ergebnisse bei der Codegenerierung gezeigt. Die meisten modernen LLMs weisen jedoch aufgrund der Knappheit von abgestimmten NL- und Formalen Sprach- (FL) Beweisdaten eine suboptimale Leistung auf. Diese Knappheit führt zu einem Mangel an Methoden zur Schulung von LLMs und Techniken zur vollen Nutzung ihrer Fähigkeiten bei der Erstellung formaler Beweise. Um diese Herausforderungen anzugehen, schlägt dieser Artikel **TheoremLlama** vor, ein End-to-End-Framework zur Schulung eines allgemeinen LLMs, um ein Experte für Lean4 zu werden. Dieses Framework umfasst Methoden zur Generierung von NL-FL abgestimmten Datensätzen, Schulungsansätze für den LLM formalen Theorembeweiser und Techniken für das Schreiben von LLM Lean4-Beweisen. Unter Verwendung der Datensatzgenerierungsmethode stellen wir *Open Bootstrapped Theorems* (OBT) bereit, einen NL-FL abgestimmten und gebooteten Datensatz. Eine wichtige Innovation in diesem Framework ist die NL-FL-Bootstrapping-Methode, bei der NL-Beweise in Lean4-Code für Trainingsdatensätze integriert werden, um die NL-Beweisfähigkeit von LLMs für formales Denken zu nutzen. Das **TheoremLlama**-Framework erreicht kumulative Genauigkeiten von 36,48 % bzw. 33,61 % auf den MiniF2F-Validierungs- und Testdatensätzen und übertrifft damit die GPT-4-Basislinie von 22,95 % bzw. 25,41 %. Wir haben auch unsere Modell-Checkpoints und generierten Datensätze als Open Source veröffentlicht und werden in Kürze den gesamten Code öffentlich zugänglich machen.

Wissenszusammensetzung unter Verwendung von Aufgabenvektoren mit erlernter anisotroper Skalierung.
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

Jul 3

ByFrederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

Vorab trainierte Modelle erzeugen starke generische Repräsentationen, die über Feinabstimmung angepasst werden können. Der erlernte Gewichtsunterschied relativ zum vorab trainierten Modell, bekannt als Aufgabenvector, charakterisiert die Richtung und Schrittlänge der Feinabstimmung. Die Bedeutung von Aufgabenvectoren ist derart, dass einfache arithmetische Operationen an ihnen verwendet werden können, um vielfältige Repräsentationen aus verschiedenen Bereichen zu kombinieren. Diese Arbeit baut auf diesen Eigenschaften von Aufgabenvectoren auf und zielt darauf ab zu beantworten, (1) ob Komponenten von Aufgabenvectoren, insbesondere Parameterblöcke, ähnliche Eigenschaften aufweisen, und (2) wie solche Blöcke verwendet werden können, um die Wissenszusammensetzung und -übertragung zu verbessern. Zu diesem Zweck stellen wir aTLAS vor, einen Algorithmus, der Parameterblöcke mit unterschiedlichen erlernten Koeffizienten linear kombiniert, was zu anisotropem Skalieren auf der Aufgabenvectorebene führt. Wir zeigen, dass solche lineare Kombinationen die geringe intrinsische Dimensionalität vorab trainierter Modelle explizit ausnutzen, wobei nur wenige Koeffizienten die erlernbaren Parameter sind. Darüber hinaus nutzt die Zusammensetzung von Parameterblöcken die bereits erlernten Repräsentationen, wodurch die Abhängigkeit von großen Datenmengen reduziert wird. Wir zeigen die Wirksamkeit unserer Methode bei Aufgabendarstellung, Few-Shot-Erkennung und Anpassung zur Testzeit, mit überwachten oder unüberwachten Zielen. Insbesondere zeigen wir, dass (1) erlerntes anisotropes Skalieren es ermöglicht, dass Aufgabenvectoren stärker entkoppelt werden, was zu weniger Interferenzen bei der Zusammensetzung führt; (2) die Zusammensetzung von Aufgabenvectoren mit knappen oder gar keinen gelabelten Daten herausragt und weniger anfällig für Domänenverschiebungen ist, was zu einer besseren Verallgemeinerbarkeit führt; (3) das Mischen der informativsten Parameterblöcke über verschiedene Aufgabenvectoren vor dem Training den Speicherbedarf reduzieren und die Flexibilität der Wissensübertragung verbessern kann. Darüber hinaus zeigen wir das Potenzial von aTLAS als PEFT-Methode, insbesondere bei weniger Daten, und zeigen dessen Skalierbarkeit.

Rückblicklinse: Erkennung und Minderung von Kontext-Halluzinationen in großen Sprachmodellen unter Verwendung nur von Aufmerksamkeitskarten
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Jul 9

ByYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

Bei der Zusammenfassung von Artikeln oder der Beantwortung von Fragen zu einem Text können große Sprachmodelle (LLMs) Details erfinden und mit unbegründeten Antworten reagieren, die im Hinblick auf den Eingangskontext ungenau sind. Dieser Artikel beschreibt einen einfachen Ansatz zur Erkennung solcher kontextuellen Halluzinationen. Wir vermuten, dass kontextuelle Halluzinationen mit dem Ausmaß zusammenhängen, in dem ein LLM Informationen im bereitgestellten Kontext im Vergleich zu seinen eigenen Erzeugungen beachtet. Basierend auf dieser Intuition schlagen wir ein einfaches Halluzinationsdetektionsmodell vor, dessen Eingabemerkmale durch das Verhältnis der Aufmerksamkeitsgewichte auf den Kontext versus neu generierte Token (für jeden Aufmerksamkeitskopf) gegeben sind. Wir stellen fest, dass ein linearer Klassifizierer, der auf diesen Lookback-Verhältnismerkmalen basiert, genauso effektiv ist wie ein umfassenderer Detektor, der die gesamten verborgenen Zustände eines LLM oder ein textbasiertes Implikationsmodell verwendet. Der auf dem Lookback-Verhältnis basierende Detektor - Lookback Lens - lässt sich über Aufgaben und sogar Modelle hinweg übertragen, sodass ein Detektor, der auf einem 7B-Modell trainiert ist, auf ein größeres 13B-Modell angewendet werden kann (ohne erneute Schulung). Wir wenden diesen Detektor weiterhin an, um kontextuelle Halluzinationen zu mildern, und stellen fest, dass ein einfacher klassifizierergesteuerter Dekodierungsansatz die Menge an Halluzinationen reduzieren kann, beispielsweise um 9,6 % bei der XSum-Zusammenfassungsaufgabe.

Graphbasierte Bildbeschriftung: Verbesserung visueller Beschreibungen durch die Verknüpfung von Regionsbeschriftungen
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

Menschen beschreiben komplexe Szenen mit Kompositionalität, indem sie einfache Textbeschreibungen verwenden, die mit Links und Beziehungen angereichert sind. Während die Forschung im Bereich der Vision-Sprache darauf abzielte, Modelle mit Verständnisfähigkeiten für Kompositionalität zu entwickeln, spiegelt sich dies bisher nicht in den bestehenden Datensätzen wider, die größtenteils immer noch einfachen Text zur Beschreibung von Bildern verwenden. In dieser Arbeit schlagen wir eine neue Annotationsstrategie vor, die auf Graphen basiertes Bildbeschreibung (GBC), die ein Bild mithilfe einer beschrifteten Graphenstruktur beschreibt, mit Knoten verschiedener Typen. Die Knoten in GBC werden in einem ersten Schritt mithilfe von Objekterkennungs- und dichten Bildbeschreibungswerkzeugen erstellt, die rekursiv verschachtelt sind, um Entitätsknoten aufzudecken und zu beschreiben, die dann in einem zweiten Schritt durch Hervorheben, unter Verwendung neuer Knotentypen, miteinander verknüpft werden, um Kompositionen und Beziehungen zwischen Entitäten darzustellen. Da alle GBC-Knoten einfache Textbeschreibungen enthalten, behält GBC die Flexibilität der natürlichen Sprache bei, kann aber auch hierarchische Informationen in seinen Kanten codieren. Wir zeigen, dass GBC automatisch erstellt werden kann, indem handelsübliche multimodale LLMs und Open-Vocabulary-Erkennungsmodelle verwendet werden, indem ein neuer Datensatz, GBC10M, erstellt wird, der GBC-Annotationen für etwa 10 Millionen Bilder des CC12M-Datensatzes sammelt. Wir verwenden GBC10M, um den Reichtum der Knotenbeschriftungen aufzudecken, die von GBC erfasst wurden, wie mit dem CLIP-Training gemessen. Wir zeigen, dass die Verwendung von GBC-Knotenannotationen - insbesondere von denen, die in Kompositions- und Beziehungsknoten gespeichert sind - zu einer signifikanten Leistungssteigerung bei nachgelagerten Modellen im Vergleich zu anderen Datensatzformaten führt. Um die Möglichkeiten, die GBC bietet, weiter zu erkunden, schlagen wir auch einen neuen Aufmerksamkeitsmechanismus vor, der den gesamten GBC-Graphen nutzen kann, mit ermutigenden experimentellen Ergebnissen, die die zusätzlichen Vorteile der Einbeziehung der Graphenstruktur zeigen. Unsere Datensätze sind unter https://huggingface.co/graph-based-captions veröffentlicht.

VIMI: Verankerung der Videogenerierung durch multimodale Anweisungen
VIMI: Grounding Video Generation through Multi-modal Instruction

Jul 8

ByYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

Bestehende Text-zu-Video-Diffusionsmodelle stützen sich ausschließlich auf Text-Encoder für ihr Pretraining. Diese Einschränkung resultiert aus dem Fehlen von groß angelegten multimodalen Prompt-Video-Datensätzen, was zu einem Mangel an visueller Verankerung führt und ihre Vielseitigkeit und Anwendung in der multimodalen Integration einschränkt. Um dem entgegenzuwirken, konstruieren wir einen groß angelegten multimodalen Prompt-Datensatz, indem wir Abrufmethoden einsetzen, um In-Context-Beispiele mit den gegebenen Text-Prompts zu verknüpfen und dann eine Zwei-Stufen-Trainingsstrategie nutzen, um vielfältige Videoerstellungsaufgaben innerhalb desselben Modells zu ermöglichen. In der ersten Stufe schlagen wir ein multimodales bedingtes Videoerstellungsrahmenwerk für das Pretraining auf diesen erweiterten Datensätzen vor, um ein Grundmodell für verankerte Videoerstellung zu etablieren. Zweitens feinabstimmen wir das Modell aus der ersten Stufe auf drei Videoerstellungsaufgaben, die multimodale Anweisungen integrieren. Dieser Prozess verfeinert die Fähigkeit des Modells, vielfältige Eingaben und Aufgaben zu bewältigen, und gewährleistet eine nahtlose Integration multimodaler Informationen. Nach diesem Zwei-Stufen-Trainingsprozess zeigt VIMI multimodale Verständnisfähigkeiten, indem es kontextuell reiche und personalisierte Videos produziert, die auf den bereitgestellten Eingaben basieren, wie in Abbildung 1 gezeigt. Im Vergleich zu früheren visuell verankerten Videoerstellungsmethoden kann VIMI konsistente und zeitlich kohärente Videos mit großer Bewegung synthetisieren und dabei die semantische Kontrolle beibehalten. Schließlich erzielt VIMI auch Spitzenleistung bei der Text-zu-Video-Erstellung auf dem UCF101-Benchmark.

Von Schleifen zu Fehlern: Ausweichverhalten von Sprachmodellen bei Unsicherheit
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Jul 8

ByMaor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

Große Sprachmodelle (LLMs) zeigen oft unerwünschte Verhaltensweisen wie Halluzinationen und Sequenzwiederholungen. Wir schlagen vor, diese Verhaltensweisen als Ausweichreaktionen zu betrachten, die Modelle bei Unsicherheit zeigen, und untersuchen den Zusammenhang zwischen ihnen. Wir kategorisieren Ausweichverhaltensweisen - Sequenzwiederholungen, degenerierten Text und Halluzinationen - und analysieren sie eingehend in Modellen derselben Familie, die sich in der Anzahl der vorab trainierten Tokens, der Parameteranzahl oder der Einbeziehung von Anweisungsfolgetraining unterscheiden. Unsere Experimente zeigen eine klare und konsistente Reihenfolge von Ausweichverhaltensweisen entlang all dieser Achsen: Je fortgeschrittener ein LLM ist (d. h. auf mehr Tokens trainiert wurde, mehr Parameter hat oder an Anweisungsabfolgetuning teilnimmt), desto mehr verschiebt sich sein Ausweichverhalten von Sequenzwiederholungen über degenerierten Text zu Halluzinationen. Darüber hinaus wird dieselbe Reihenfolge auch innerhalb einer einzigen Generation beobachtet, selbst bei den leistungsstärksten Modellen; mit zunehmender Unsicherheit wechseln Modelle von der Erzeugung von Halluzinationen zu degeneriertem Text und dann zu Sequenzwiederholungen. Schließlich zeigen wir, dass gängige Dekodierungstechniken wie zufällige Abtastung zwar einige unerwünschte Verhaltensweisen wie Sequenzwiederholungen lindern können, aber schwerer zu erkennende Halluzinationen verstärken.

Wie wissen Sie das? Lehren von generativen Sprachmodellen, um auf biomedizinische Fragen zu verweisen.
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Jul 6

ByBojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević

Große Sprachmodelle (LLMs) sind in letzter Zeit zur führenden Quelle von Antworten auf Benutzerfragen online geworden. Trotz ihrer Fähigkeit, eloquente Antworten zu bieten, können ihre Genauigkeit und Zuverlässigkeit eine bedeutende Herausforderung darstellen. Dies trifft insbesondere auf sensible Bereiche wie die Biomedizin zu, wo ein höherer Bedarf an faktisch korrekten Antworten besteht. Dieser Artikel stellt ein biomedizinisches Abruf-erweitertes Generierungs (RAG)-System vor, das darauf abzielt, die Zuverlässigkeit der generierten Antworten zu verbessern. Das System basiert auf einem feinabgestimmten LLM für die referenzierte Fragebeantwortung, bei der relevante Abstracts aus PubMed abgerufen und dem Kontext des LLM als Eingabe über einen Hinweis übergeben werden. Die Ausgabe ist eine Antwort, die auf PubMed-Abstracts basiert, wobei jede Aussage entsprechend referenziert ist, um den Benutzern die Überprüfung der Antwort zu ermöglichen. Unser Abrufsystem erzielt eine absolute Verbesserung von 23% im Vergleich zur PubMed-Suchmaschine. Basierend auf der manuellen Bewertung einer kleinen Stichprobe erzielt unser feinabgestimmter LLM-Komponente vergleichbare Ergebnisse wie GPT-4 Turbo bei der Referenzierung relevanter Abstracts. Wir stellen den Datensatz, der zur Feinabstimmung der Modelle verwendet wurde, sowie die auf Mistral-7B-instruct-v0.1 und v0.2 basierenden feinabgestimmten Modelle öffentlich zur Verfügung.

LETS-C: Nutzung von Sprachembedding für die Klassifizierung von Zeitreihen
LETS-C: Leveraging Language Embedding for Time Series Classification

Jul 9

ByRachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

In jüngster Zeit haben Fortschritte im Bereich des Sprachmodellierens vielversprechende Ergebnisse gezeigt, wenn sie auf Zeitreihendaten angewendet werden. Insbesondere hat das Feinabstimmen vorab trainierter großer Sprachmodelle (LLMs) für Zeitreihenklassifizierungsaufgaben eine Spitzenleistung auf Standard-Benchmarks erreicht. Allerdings haben diese LLM-basierten Modelle einen signifikanten Nachteil aufgrund ihrer großen Modellgröße, mit Millionen von trainierbaren Parametern. In diesem Paper schlagen wir einen alternativen Ansatz vor, um den Erfolg des Sprachmodellierens im Bereich der Zeitreihen zu nutzen. Anstatt LLMs feinzutunen, nutzen wir ein Sprachembedding-Modell, um Zeitreihen einzubetten, und paaren dann die Einbettungen mit einem einfachen Klassifikationskopf, bestehend aus faltenden neuronalen Netzwerken (CNN) und mehrschichtigen Perzeptronen (MLP). Wir führten umfangreiche Experimente an etablierten Benchmark-Datensätzen für Zeitreihenklassifizierung durch. Wir haben gezeigt, dass LETS-C nicht nur die aktuelle Spitzenleistung in der Klassifikationsgenauigkeit übertrifft, sondern auch eine leichtgewichtige Lösung bietet, die im Durchschnitt nur 14,5% der trainierbaren Parameter im Vergleich zum Spitzenmodell verwendet. Unsere Ergebnisse legen nahe, dass die Nutzung von Sprachencodern zur Einbettung von Zeitreihendaten, kombiniert mit einem einfachen, aber effektiven Klassifikationskopf, eine vielversprechende Richtung für die Erzielung einer leistungsstarken Zeitreihenklassifizierung bei gleichzeitiger Beibehaltung einer leichtgewichtigen Modellarchitektur darstellt.

Graphbasierte Bildbeschriftung: Verbesserung visueller Beschreibungen durch die Verknüpfung von Regionsbeschriftungen
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi