HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Entpacken von SDXL Turbo: Interpretation von Text-zu-Bild-Modellen mit spärlichen Autoencodern
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders

Oct 28

ByViacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre

Sparse Autoencoder (SAE) sind zu einem Kernbestandteil bei der Rückentwicklung großer Sprachmodelle (LLMs) geworden. Bei LLMs wurde gezeigt, dass sie Zwischenrepräsentationen, die oft nicht direkt interpretierbar sind, in spärliche Summen interpretierbarer Merkmale zerlegen, was eine bessere Steuerung und nachfolgende Analyse ermöglicht. Allerdings fehlen ähnliche Analysen und Ansätze für Text-zu-Bild-Modelle. Wir haben die Möglichkeit untersucht, SAEs zu verwenden, um interpretierbare Merkmale für Text-zu-Bild-Diffusionsmodelle mit wenigen Schritten zu erlernen, wie z.B. SDXL Turbo. Zu diesem Zweck trainieren wir SAEs anhand der Aktualisierungen, die von Transformer-Blöcken innerhalb des denoising U-Net von SDXL Turbo durchgeführt werden. Wir stellen fest, dass ihre erlernten Merkmale interpretierbar sind, den Generierungsprozess kausal beeinflussen und Spezialisierung unter den Blöcken aufzeigen. Insbesondere finden wir einen Block, der hauptsächlich mit der Bildkomposition umgeht, einen, der hauptsächlich für das Hinzufügen lokaler Details verantwortlich ist, und einen für Farbe, Beleuchtung und Stil. Daher ist unsere Arbeit ein wichtiger erster Schritt hin zum besseren Verständnis der internen Strukturen generativer Text-zu-Bild-Modelle wie SDXL Turbo und zeigt das Potenzial der von SAEs im visuellen Bereich erlernten Merkmale auf. Der Code ist verfügbar unter https://github.com/surkovv/sdxl-unbox

Was passiert in den Schichten von LLMs, wenn sie für schnelles vs. langsames Denken trainiert werden: Eine Gradientenperspektive
What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Oct 31

ByMing Li, Yanhong Li, Tianyi Zhou

Was macht den Unterschied im Post-Training von LLMs aus? Wir untersuchen die Trainingsmuster verschiedener Schichten in großen Sprachmodellen (LLMs) durch die Linse des Gradienten, wenn sie mit verschiedenen Antworten und Ausgangsmodellen trainiert werden. Wir sind speziell daran interessiert, wie schnelles vs. langsames Denken die schichtweisen Gradienten beeinflusst, angesichts der jüngsten Beliebtheit des Trainings von LLMs auf Denkpfaden wie Ketten von Gedanken (CoT) und Prozessbelohnungen. In unserer Studie führt schnelles Denken ohne CoT zu größeren Gradienten und größeren Unterschieden der Gradienten zwischen den Schichten als langsames Denken (Detailiertes CoT), was auf die Lernstabilität durch Letzteres hinweist. Darüber hinaus sind vorab trainierte LLMs weniger von der Instabilität schnellen Denkens betroffen als instruktionsangepasste LLMs. Zusätzlich untersuchen wir, ob die Gradientenmuster die Korrektheit der Antworten widerspiegeln können, wenn verschiedene LLMs mit langsamen vs. schnellen Denkpfaden trainiert werden. Die Ergebnisse zeigen, dass die Gradienten langsamen Denkens korrekte und irrelevante Denkpfade unterscheiden können. Zum Vergleich führen wir ähnliche Gradientenanalysen bei nicht-denkbasierten Wissenserwerbsaufgaben durch, bei denen jedoch das triviale Erhöhen der Antwortlänge nicht zu ähnlichem Verhalten wie beim langsamen Denken führt. Unsere Studie stärkt das grundlegende Verständnis des LLM-Trainings und liefert neue Erkenntnisse über dessen Effizienz und Stabilität, die den Weg zur Entwicklung eines verallgemeinerbaren System-2-Agenten ebnen. Unser Code, Daten und Gradientenstatistiken sind unter folgendem Link verfügbar: https://github.com/MingLiiii/Layer_Gradient.

Ein auf Pointer-Netzwerken basierender Ansatz zur gemeinsamen Extraktion und Erkennung von Multi-Label-Multi-Class-Intentionen.
A Pointer Network-based Approach for Joint Extraction and Detection of Multi-Label Multi-Class Intents

Oct 29

ByAnkan Mullick, Sombit Bose, Abhilash Nandy, Gajula Sai Chaitanya, Pawan Goyal

In taskorientierten Dialogsystemen ist die Absichtserkennung entscheidend für die Interpretation von Benutzeranfragen und die Bereitstellung angemessener Antworten. Die bestehende Forschung befasst sich hauptsächlich mit einfachen Anfragen mit einer einzigen Absicht, wobei effektive Systeme zur Bewältigung komplexer Anfragen mit mehreren Absichten und zum Extrahieren unterschiedlicher Absichtsbereiche fehlen. Darüber hinaus fehlen mehrsprachige, multi-absichtliche Datensätze signifikant. Diese Studie behandelt drei kritische Aufgaben: das Extrahieren mehrerer Absichtsbereiche aus Anfragen, das Erkennen mehrerer Absichten und die Entwicklung eines mehrsprachigen, multi-label Absichtsdatensatzes. Wir stellen einen neuartigen multi-label multi-class Absichtserkennungsdatensatz (MLMCID-Datensatz) vor, der aus bestehenden Benchmark-Datensätzen zusammengestellt wurde. Wir schlagen auch eine auf Pointer-Netzwerken basierende Architektur (MLMCID) vor, um Absichtsbereiche zu extrahieren und mehrere Absichten mit groben und feingranulierten Labels in Form von Sechstupeln zu erkennen. Eine umfassende Analyse zeigt die Überlegenheit unseres auf Pointer-Netzwerken basierenden Systems gegenüber Basisansätzen in Bezug auf Genauigkeit und F1-Score über verschiedene Datensätze hinweg.

SelfCodeAlign: Selbstausrichtung für Code-Generierung
SelfCodeAlign: Self-Alignment for Code Generation

Oct 31

ByYuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang

Die Anweisungsabstimmung ist ein überwachter Feinabstimmungsansatz, der die Fähigkeit großer Sprachmodelle (LLMs) erheblich verbessert, menschlichen Anweisungen zu folgen. Wir schlagen SelfCodeAlign vor, die erste vollständig transparente und genehmigende Pipeline zur Selbstausrichtung von Code-LLMs ohne umfangreiche menschliche Annotationen oder Destillation. SelfCodeAlign verwendet dasselbe Basismodell für die Inferenz während des Datengenerierungsprozesses. Es extrahiert zunächst vielfältige Codierungskonzepte aus hochwertigen Seed-Schnipseln, um neue Aufgaben zu generieren. Anschließend werden mehrere Antworten pro Aufgabe ausgewählt, jede mit Testfällen gepaart und in einer Sandbox-Umgebung validiert. Abschließend werden bestandene Beispiele für die Anweisungsabstimmung ausgewählt. In unseren Hauptexperimenten verwenden wir SelfCodeAlign mit CodeQwen1.5-7B, um einen Datensatz von 74.000 Anweisungs-Antwort-Paaren zu generieren. Die Feinabstimmung auf diesem Datensatz führt zu einem Modell, das eine Passrate von 67,1 bei HumanEval+ erreicht und CodeLlama-70B-Instruct übertrifft, obwohl es zehnmal kleiner ist. Über alle Benchmarks hinweg übertrifft dieses feinabgestimmte Modell konsistent die ursprüngliche Version, die mit OctoPack trainiert wurde, der vorherigen State-of-the-Art-Methode für Anweisungsabstimmung ohne menschliche Annotationen oder Destillation. Darüber hinaus zeigen wir, dass SelfCodeAlign bei LLMs verschiedener Größen, von 3B bis 33B, wirksam ist und dass die Basismodelle von der Ausrichtung mit ihrer eigenen Datenverteilung profitieren können. Wir validieren weiterhin die Wirksamkeit jedes Bestandteils unserer Pipeline und zeigen, dass SelfCodeAlign sowohl die direkte Destillation von GPT-4o als auch führende auf GPT-3.5 basierende Destillationsmethoden wie OSS-Instruct und Evol-Instruct übertrifft. SelfCodeAlign hat auch zur Entwicklung von StarCoder2-Instruct geführt, dem ersten vollständig transparenten, genehmigten und selbstausgerichteten Code-LLM, das eine Spitzenleistung bei der Kodierung erzielt.

BitStack: Feinkörnige Größensteuerung für komprimierte große Sprachmodelle in variablen Speicherumgebungen
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments

Oct 31

ByXinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu

Große Sprachmodelle (LLMs) haben zahlreiche Anwendungen revolutioniert, doch ihre Bereitstellung wird nach wie vor durch Speicherbeschränkungen auf lokalen Geräten herausgefordert. Während Skalierungsgesetze die Fähigkeiten von LLMs verbessert haben, hat sich der Hauptengpass von der Leistungsfähigkeit auf die Verfügbarkeit verlagert, was die Notwendigkeit einer effizienten Speicherverwaltung betont. Traditionelle Komprimierungsmethoden wie Quantisierung erfordern oft vordefinierte Kompressionsverhältnisse und separate Komprimierungsprozesse für jede Einstellung, was die Bereitstellung in variablen Speicherumgebungen erschwert. In diesem Papier stellen wir BitStack vor, einen neuartigen, trainingsfreien Ansatz zur Gewichtskomprimierung, der Trade-offs auf Megabyte-Ebene zwischen Speicherverbrauch und Modellleistung ermöglicht. Durch die Nutzung von Gewichtszerlegung kann BitStack die Modellgröße dynamisch anpassen, mit minimalem Datenaustausch zwischen laufendem Speicher und Speichergeräten. Unser Ansatz zerlegt iterativ Gewichtsmatrizen unter Berücksichtigung der Bedeutung jedes Parameters, was zu einem etwa 1-Bit pro Parameter Restblock in jeder Zerlegungsiteration führt. Diese Blöcke werden sortiert und gestapelt im Speicher als grundlegende Übertragungseinheiten abgelegt, wobei je nach aktueller Speicherverfügbarkeit unterschiedliche Mengen geladen werden. Umfangreiche Experimente über eine Vielzahl von Aufgaben zeigen, dass BitStack trotz der fein abgestuften Größenkontrolle konsequent starke Quantisierungs-Baselines erreicht oder übertrifft, insbesondere bei extremen Kompressionsverhältnissen. Unseres Wissens nach handelt es sich hierbei um die erste zerlegungsbasierte Methode, die die Kluft zu praktischen Kompressionstechniken wie Quantisierung effektiv überbrückt. Der Code ist verfügbar unter https://github.com/xinghaow99/BitStack.

Die Rückübersetzung von Einschränkungen verbessert das komplexe Befolgen von Anweisungen großer Sprachmodelle.
Constraint Back-translation Improves Complex Instruction Following of Large Language Models

Oct 31

ByYunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li

Große Sprachmodelle (LLMs) haben Schwierigkeiten, Anweisungen mit komplexen Einschränkungen in Format, Länge usw. zu befolgen. In Übereinstimmung mit der herkömmlichen Anpassungspraxis von Anweisungen führen frühere Arbeiten eine Nachschulung an komplexen Anweisungs-Antwort-Paaren durch, die durch die Zuführung komplexer Anweisungen an fortgeschrittene LLMs erzeugt werden. Selbst fortgeschrittene LLMs können jedoch komplexe Anweisungen nicht gut befolgen, was die Qualität der generierten Daten einschränkt. In dieser Arbeit stellen wir fest, dass bestehende Datensätze implizit komplexe Einschränkungen enthalten und schlagen eine neuartige Datengenerierungstechnik vor, die als Rückübersetzung von Einschränkungen bezeichnet wird. Konkret nehmen wir die hochwertigen Anweisungs-Antwort-Paare in bestehenden Datensätzen und verwenden nur fortgeschrittene LLMs, um bereits von den Antworten auf die Anweisungen erfüllte komplexe Einschränkungen hinzuzufügen, was die Kosten und Datenrauschen auf natürliche Weise reduziert. In den Experimenten verwenden wir Llama3-70B-Instruct zur Rückübersetzung von Einschränkungen und erstellen einen hochwertigen Datensatz für komplexe Anweisungs-Antwort-Paare namens CRAB. Wir zeigen, dass eine Nachschulung auf CRAB die Fähigkeit verschiedener Grundgerüst-LLMs zur Befolgung komplexer Anweisungen verbessert, die anhand umfangreicher Anweisungs-Befolgungs-Benchmarks bewertet werden. Wir stellen weiterhin fest, dass die Rückübersetzung von Einschränkungen auch als nützliches zusätzliches Schulungsziel in der Nachschulung dient. Unser Code, Daten und Modelle werden veröffentlicht, um zukünftige Forschung zu erleichtern.

Sprachmodelle können sich selbst verlängern, um lange Texte zu generieren.
Language Models can Self-Lengthen to Generate Long Texts

Oct 31

ByShanghaoran Quan, Tianyi Tang, Bowen Yu, An Yang, Dayiheng Liu, Bofei Gao, Jianhong Tu, Yichang Zhang, Jingren Zhou, Junyang Lin

In den letzten Fortschritten bei Large Language Models (LLMs) wurde ihre Fähigkeit, lange Kontexte zu verarbeiten, signifikant verbessert, dennoch besteht eine bemerkenswerte Lücke bei der Generierung langer, ausgerichteter Ausgaben. Diese Einschränkung resultiert aus einer Trainingslücke, bei der das Vortraining keine effektiven Anweisungen für die Generierung von Langtexten bietet und die Post-Trainingsdaten hauptsächlich aus kurzen Frage-Antwort-Paaren bestehen. Aktuelle Ansätze wie Anweisungsrückübersetzung und Verhaltensimitation stehen vor Herausforderungen wie Datenqualität, Urheberrechtsfragen und Einschränkungen bei der Verwendung proprietärer Modelle. In diesem Papier stellen wir ein innovatives iteratives Schulungsframework namens Self-Lengthen vor, das ausschließlich auf dem intrinsischen Wissen und den Fähigkeiten von LLMs basiert, ohne die Notwendigkeit von Hilfsdaten oder proprietären Modellen. Das Framework besteht aus zwei Rollen: dem Generator und dem Erweiterer. Der Generator erstellt die erste Antwort, die dann vom Erweiterer aufgeteilt und erweitert wird. Dieser Prozess führt zu einer neuen, längeren Antwort, die zur iterativen Schulung sowohl des Generators als auch des Erweiterers verwendet wird. Durch diesen Prozess werden die Modelle schrittweise darauf trainiert, zunehmend längere Antworten zu verarbeiten. Experimente an Benchmarks und menschlichen Bewertungen zeigen, dass Self-Lengthen bestehende Methoden bei der Generierung von Langtexten übertrifft, wenn es auf führende Open-Source LLMs wie Qwen2 und LLaMA3 angewendet wird. Unser Code ist öffentlich verfügbar unter https://github.com/QwenLM/Self-Lengthen.

NeuZip: Speichereffizientes Training und Inferenz mit dynamischer Kompression von neuronalen Netzwerken
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Oct 28

ByYongchang Hao, Yanshuai Cao, Lili Mou

Die Leistung von neuronalen Netzwerken verbessert sich, wenn mehr Parameter verwendet werden. Die Modellgrößen sind jedoch durch den verfügbaren Speicher auf dem Gerät während des Trainings und der Inferenz begrenzt. Obwohl Techniken wie Quantisierung die Einschränkung lindern können, leiden sie unter Leistungsverschlechterung. In dieser Arbeit stellen wir NeuZip vor, ein neues Gewichtskomprimierungsschema, das auf der Entropie von Gleitkommazahlen in neuronalen Netzwerken basiert. Mit NeuZip sind wir in der Lage, eine speichereffizientes Training und Inferenz zu erreichen, ohne die Leistung zu beeinträchtigen. Bemerkenswert ist, dass wir den Speicherbedarf für das Training eines Llama-3 8B-Modells von 31 GB auf weniger als 16 GB signifikant reduzieren, während die Trainingsdynamik vollständig unverändert bleibt. Bei der Inferenz kann unsere Methode den Speicherverbrauch um mehr als die Hälfte reduzieren, während die Leistung nahezu verlustfrei erhalten bleibt. Unser Code ist öffentlich verfügbar.

AAAR-1.0: Bewertung des Potenzials Künstlicher Intelligenz zur Unterstützung von Forschung
AAAR-1.0: Assessing AI's Potential to Assist Research

Oct 29

ByRenze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin

Zahlreiche Studien haben die Leistungsfähigkeit von KI-Systemen, insbesondere von großen Sprachmodellen (LLMs), bei der Unterstützung alltäglicher Aufgaben wie dem Verfassen von E-Mails, dem Beantworten von Fragen und der Generierung kreativer Inhalte bewertet. Forscher stehen jedoch vor einzigartigen Herausforderungen und Möglichkeiten bei der Nutzung von LLMs für ihre eigene Arbeit, wie dem Brainstorming von Forschungsideen, dem Entwerfen von Experimenten und dem Verfassen oder Überprüfen von Papieren. In dieser Studie stellen wir AAAR-1.0 vor, einen Benchmark-Datensatz, der entwickelt wurde, um die Leistung von LLMs in drei grundlegenden, expertenintensiven Forschungsaufgaben zu bewerten: (i) EquationInference, die Überprüfung der Richtigkeit von Gleichungen basierend auf den kontextbezogenen Informationen in Papierbeiträgen; (ii) ExperimentDesign, das Entwerfen von Experimenten zur Validierung von Forschungsideen und Lösungen; (iii) PaperWeakness, die Identifizierung von Schwächen in Papierbeiträgen; und (iv) REVIEWCRITIQUE, die Feststellung, ob jeder Abschnitt in menschlichen Bewertungen mangelhaft ist oder nicht. AAAR-1.0 unterscheidet sich von früheren Benchmarks auf zwei wesentliche Arten: erstens ist er explizit forschungsorientiert, mit Aufgaben, die tiefgreifende Fachkenntnisse erfordern; zweitens ist er forschungsorientiert, indem er die Hauptaktivitäten widerspiegelt, denen Forscher täglich nachgehen. Eine Bewertung sowohl von Open-Source als auch von proprietären LLMs zeigt ihr Potenzial sowie ihre Grenzen bei der Durchführung anspruchsvoller Forschungsaufgaben auf. Wir werden AAAR-1.0 kontinuierlich zu neuen Versionen weiterentwickeln.

Lernen von Video-Repräsentationen ohne natürliche Videos
Learning Video Representations without Natural Videos

Oct 31

ByXueyang Yu, Xinlei Chen, Yossi Gandelsman

In diesem Paper zeigen wir, dass nützliche Video-Repräsentationen aus synthetischen Videos und natürlichen Bildern gelernt werden können, ohne natürliche Videos in das Training einzubeziehen. Wir schlagen eine Abfolge von Video-Datensätzen vor, die durch einfache generative Prozesse synthetisiert werden und eine wachsende Anzahl natürlicher Video-Eigenschaften modellieren (z.B. Bewegung, Beschleunigung und Formtransformationen). Die Leistung von Video-Modellen, die auf diesen generierten Datensätzen vorab trainiert wurden, steigt allmählich mit dem Fortschritt des Datensatzes. Ein VideoMAE-Modell, das auf unseren synthetischen Videos vorab trainiert wurde, schließt 97,2% der Leistungslücke bei der Aktionsklassifizierung von UCF101 zwischen dem Training von Grund auf und dem selbstüberwachten Vorabtraining mit natürlichen Videos und übertrifft das vorab trainierte Modell auf HMDB51. Die Einführung von Ausschnitten statischer Bilder in die Vorabtrainingsphase führt zu ähnlicher Leistung wie das UCF101-Vorabtraining und übertrifft das auf UCF101 vorab trainierte Modell bei 11 von 14 Out-of-Distribution-Datensätzen von UCF101-P. Durch die Analyse der Low-Level-Eigenschaften der Datensätze identifizieren wir Korrelationen zwischen Frame-Vielfalt, Frame-Ähnlichkeit zu natürlichen Daten und der nachgelagerten Leistung. Unser Ansatz bietet eine kontrollierbarere und transparentere Alternative zu den Prozessen der Videodatensammlung für das Vorabtraining.

Die Navigation des Unbekannten: Eine chatbasierte kollaborative Schnittstelle für personalisierte explorative Aufgaben.
Navigating the Unknown: A Chat-Based Collaborative Interface for Personalized Exploratory Tasks

Oct 31

ByYingzhe Peng, Xiaoting Qin, Zhiyang Zhang, Jue Zhang, Qingwei Lin, Xu Yang, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Der Aufstieg großer Sprachmodelle (LLMs) hat die Interaktion von Benutzern mit wissensbasierten Systemen revolutioniert, indem Chatbots in der Lage sind, umfangreiche Informationen zu synthetisieren und bei komplexen, explorativen Aufgaben zu unterstützen. LLM-basierte Chatbots haben jedoch oft Schwierigkeiten, personalisierte Unterstützung zu bieten, insbesondere wenn Benutzer mit vagen Anfragen beginnen oder über unzureichende Kontextinformationen verfügen. Dieser Artikel stellt den Kollaborativen Assistenten für Personalisierte Exploration (CARE) vor, ein System, das entwickelt wurde, um die Personalisierung bei explorativen Aufgaben zu verbessern, indem es ein Multi-Agenten-LLM-Framework mit einer strukturierten Benutzeroberfläche kombiniert. Die Benutzeroberfläche von CARE besteht aus einem Chat-Panel, einem Lösungs-Panel und einem Bedarfs-Panel, das eine iterative Anfrageverfeinerung und die dynamische Generierung von Lösungen ermöglicht. Das Multi-Agenten-Framework arbeitet zusammen, um sowohl explizite als auch implizite Benutzerbedürfnisse zu identifizieren und maßgeschneiderte, handlungsfähige Lösungen bereitzustellen. In einer Benutzerstudie mit 22 Teilnehmern bevorzugten die Benutzer CARE konsistent gegenüber einem Basis-LLM-Chatbot und lobten dessen Fähigkeit, die kognitive Belastung zu reduzieren, Kreativität zu fördern und maßgeschneiderte Lösungen bereitzustellen. Unsere Ergebnisse verdeutlichen das Potenzial von CARE, LLM-basierte Systeme von passiven Informationsabrufsystemen zu proaktiven Partnern bei der personalisierten Problemlösung und Exploration zu transformieren.

BenchX: Ein einheitlicher Benchmark-Rahmen für die Vorabtrainierung von medizinischen Vision-Sprache-Modellen an Brust-Röntgenaufnahmen
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

Oct 29

ByYang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh

Die medizinische Vision-Sprachvorbereitung (MedVLP) zeigt vielversprechende Ansätze beim Erlernen von generalisierbaren und übertragbaren visuellen Repräsentationen aus gepaarten und ungepaarten medizinischen Bildern und Berichten. MedVLP kann nützliche Merkmale für nachgelagerte Aufgaben bereitstellen und die Anpassung aufgabenbezogener Modelle an neue Setups mit weniger Beispielen erleichtern. Allerdings unterscheiden sich bestehende MedVLP-Methoden oft hinsichtlich Datensätzen, Vorverarbeitung und Feinabstimmungs-Implementierungen. Dies stellt große Herausforderungen bei der Bewertung dar, wie gut eine MedVLP-Methode auf verschiedene klinisch relevante Aufgaben verallgemeinert, aufgrund des Mangels an vereinheitlichten, standardisierten und umfassenden Benchmarks. Um diese Lücke zu schließen, schlagen wir BenchX vor, ein vereinheitlichtes Benchmark-Framework, das einen direkten Vergleich und eine systematische Analyse zwischen MedVLP-Methoden unter Verwendung öffentlicher Brust-Röntgen-Datensätze ermöglicht. Speziell besteht BenchX aus drei Komponenten: 1) Umfassende Datensätze, die neun Datensätze und vier medizinische Aufgaben abdecken; 2) Benchmark-Suiten zur Standardisierung der Datenvorverarbeitung, Trainings-Test-Aufteilungen und Parameterauswahl; 3) Vereinheitlichte Feinabstimmungsprotokolle, die heterogene MedVLP-Methoden für eine konsistente Aufgabenanpassung in Klassifizierung, Segmentierung und Berichterstellung aufnehmen. Durch die Nutzung von BenchX etablieren wir Baselines für neun hochmoderne MedVLP-Methoden und stellten fest, dass die Leistung einiger früher MedVLP-Methoden verbessert werden kann, um neuere zu übertreffen, was eine Überprüfung der Entwicklungen und Schlussfolgerungen aus früheren Arbeiten im Bereich MedVLP anregt. Unser Code ist verfügbar unter https://github.com/yangzhou12/BenchX.

DELTA: Dichte Effiziente Langstrecken-3D-Verfolgung für jedes Video
DELTA: Dense Efficient Long-range 3D Tracking for any video

Oct 31

ByTuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang

Die Verfolgung dichter 3D-Bewegungen aus monokularen Videos bleibt herausfordernd, insbesondere wenn eine Pixelgenauigkeit über lange Sequenzen angestrebt wird. Wir stellen \Approach vor, eine neuartige Methode, die effizient jedes Pixel im 3D-Raum verfolgt und eine präzise Bewegungsschätzung über gesamte Videos ermöglicht. Unser Ansatz nutzt einen gemeinsamen global-lokalen Aufmerksamkeitsmechanismus für die Verfolgung mit reduzierter Auflösung, gefolgt von einem auf Transformer basierenden Upsampler zur Erzielung hochauflösender Vorhersagen. Im Gegensatz zu bestehenden Methoden, die durch Rechenineffizienz oder spärliche Verfolgung begrenzt sind, bietet \Approach eine dichte 3D-Verfolgung im großen Maßstab, die über 8-mal schneller läuft als bisherige Methoden und dabei eine Spitzenpräzision erreicht. Darüber hinaus untersuchen wir den Einfluss der Tiefenrepräsentation auf die Verfolgungsleistung und identifizieren Log-Tiefe als die optimale Wahl. Umfangreiche Experimente zeigen die Überlegenheit von \Approach auf mehreren Benchmarks und erzielen neue Spitzenleistungen sowohl bei 2D- als auch bei 3D-dichten Verfolgungsaufgaben. Unsere Methode bietet eine robuste Lösung für Anwendungen, die eine feingranulare, langfristige Bewegungsverfolgung im 3D-Raum erfordern.

Lehren von verkörperten Verstärkungslernenden Agenten: Informativität und Vielfalt des Sprachgebrauchs
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use

Oct 31

ByJiajun Xi, Yinong He, Jianing Yang, Yinpei Dai, Joyce Chai

In realen Szenarien ist es wünschenswert, dass verkörperte Agenten die Fähigkeit haben, menschliche Sprache zu nutzen, um explizites oder implizites Wissen für Lernaufgaben zu erlangen. Trotz jüngster Fortschritte übernehmen die meisten früheren Ansätze einfache, auf niedrigem Niveau angesiedelte Anweisungen als Spracheingaben, die möglicherweise nicht die natürliche menschliche Kommunikation widerspiegeln. Es ist unklar, wie man eine vielfältige Sprachnutzung einbeziehen kann, um das Aufgabenerlernen zu erleichtern. Um diese Frage zu beantworten, untersucht diese Arbeit verschiedene Arten von Spracheingaben zur Unterstützung von Verstärkungslernen (RL) verkörperter Agenten. Genauer gesagt untersuchen wir, wie unterschiedliche Grade an Sprachinformativität (d. h. Rückmeldungen zu vergangenen Verhaltensweisen und zukünftige Anleitungen) und Diversität (d. h. Variationen von Sprachausdrücken) das Lernen und die Inferenz des Agenten beeinflussen. Unsere empirischen Ergebnisse, die auf vier RL-Benchmarks basieren, zeigen, dass Agenten, die mit vielfältigem und informativem Sprachfeedback trainiert wurden, eine verbesserte Verallgemeinerung und schnelle Anpassung an neue Aufgaben erreichen können. Diese Erkenntnisse unterstreichen die entscheidende Rolle der Sprachnutzung beim Unterrichten verkörperter Agenten in einer offenen Welt. Projektwebsite: https://github.com/sled-group/Teachable_RL

Minimale Entropie-Kopplung mit Engpass
Minimum Entropy Coupling with Bottleneck

Oct 29

ByM. Reza Ebrahimi, Jun Chen, Ashish Khisti

Dieses Papier untersucht ein neuartiges verlustbehaftetes Kompressionsframework, das unter logarithmischem Verlust arbeitet und entwickelt wurde, um Situationen zu bewältigen, in denen die Rekonstruktionsverteilung von der Ausgangsverteilung abweicht. Dieses Framework ist besonders relevant für Anwendungen, die eine gemeinsame Kompression und Wiederherstellung erfordern, sowie in Szenarien, die aufgrund von Verarbeitungsdifferenzen zu Verteilungsverschiebungen führen. Wir zeigen, dass die vorgeschlagene Formulierung das klassische Minimum-Entropie-Kopplungsframework durch Integration eines Engpasses erweitert, der ein kontrolliertes Maß an Stochastizität in der Kopplung ermöglicht. Wir untersuchen die Zerlegung des Minimum-Entropie-Kopplungs mit Engpass (MEC-B) in zwei separate Optimierungsprobleme: Entropie-begrenzte Informationsmaximierung (EBIM) für den Encoder und Minimum-Entropie-Kopplung (MEC) für den Decoder. Durch umfangreiche Analysen bieten wir einen gierigen Algorithmus für EBIM mit garantierter Leistung und charakterisieren die optimale Lösung in der Nähe funktionaler Abbildungen, was bedeutende theoretische Einblicke in die strukturelle Komplexität dieses Problems liefert. Darüber hinaus veranschaulichen wir die praktische Anwendung von MEC-B durch Experimente in Markov-Codierspielen (MCGs) unter Ratebeschränkungen. Diese Spiele simulieren ein Kommunikationsszenario innerhalb eines Markov-Entscheidungsprozesses, bei dem ein Agent eine komprimierte Nachricht von einem Sender zu einem Empfänger über seine Aktionen übertragen muss. Unsere Experimente verdeutlichen die Abwägungen zwischen MDP-Belohnungen und Empfängergenauigkeit bei verschiedenen Kompressionsraten und zeigen die Wirksamkeit unserer Methode im Vergleich zur konventionellen Kompressions-Baseline.

GlotCC: Ein offenes, umfassendes CommonCrawl-Korpus und eine Pipeline für Minderheitensprachen
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

Oct 31

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Der Bedarf an umfangreichen Textkorpora hat mit dem Aufkommen von vortrainierten Sprachmodellen zugenommen, insbesondere durch die Entdeckung von Skalierungsgesetzen für diese Modelle. Die meisten verfügbaren Korpora enthalten nur ausreichend Daten für Sprachen mit großen dominierenden Gemeinschaften. Es gibt jedoch kein Korpus, das (i) eine breite Palette von Minderheitensprachen abdeckt; (ii) von einer Open-Source reproduzierbaren Pipeline generiert wird; und (iii) streng von Rauschen gereinigt ist, was seine Verwendbarkeit vertrauenswürdig macht. Wir stellen GlotCC vor, ein sauberes, auf Dokumentenebene basierendes, 2TB umfassendes allgemeines Korpus, das aus CommonCrawl abgeleitet ist und mehr als 1000 Sprachen abdeckt. Wir stellen GlotCC und das zur Generierung verwendete System - einschließlich der Pipeline, des Spracherkennungsmodells und der Filter - der Forschungsgemeinschaft zur Verfügung. Korpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.

SelfCodeAlign: Selbstausrichtung für Code-Generierung
SelfCodeAlign: Self-Alignment for Code Generation

Oct 31

ByYuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang