HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

14 papers found

PerceptionDLM: Parallele Regionenwahrnehmung mit multimodalen Diffusions-Sprachmodellen
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte bei visuellen Wahrnehmungsaufgaben erzielt. Die meisten existierenden MLLMs basieren jedoch auf autoregressiver Generierung, was ihre Effizienz für Wahrnehmungsaufgaben einschränkt, die eine Beschreibung mehrerer Regionen erfordern. In dieser Arbeit schlagen wir PerceptionDLM vor, ein multimodales Diffusionssprachmodell, das für effiziente parallele Regionswahrnehmung optimiert ist. Aufbauend auf PerceptionDLM-Base, einer starken grundlegenden Baseline, die den neuesten Stand der Technik unter den quelloffenen Diffusions-MLLMs erreicht, nutzt unsere Architektur die parallele Decodierungsnatur von DLMs vollständig aus. Insbesondere führen wir effizientes Prompting und strukturierte Aufmerksamkeitsmaskierung ein, um die gleichzeitige Wahrnehmung mehrerer maskierter Regionen zu ermöglichen, sodass das Modell Regionsbeschreibungen parallel sowohl auf Sequenz- als auch auf Tokenebene generieren kann. Dieses Design verbessert die Inferenzeffizienz erheblich im Vergleich zu bestehenden Ansätzen, die Regionen sequenziell verarbeiten. Um die Parallelitätseigenschaft der visuellen Wahrnehmungsfähigkeit von DLMs systematisch zu evaluieren, konstruieren wir einen neuen Parallel Detailed Localized Captioning Benchmark (ParaDLC-Bench), indem wir den DLC-Bench auf mehrere Regionsmasken pro Bild skalieren, was eine gemeinsame Bewertung sowohl der Beschreibungsqualität als auch der Inferenzeffizienz ermöglicht. Experimente zeigen, dass PerceptionDLM wettbewerbsfähige Leistung in der Regionsbeschreibung beibehält und gleichzeitig erhebliche Geschwindigkeitsverbesserungen für Aufgaben mit mehreren Regionen erzielt. Unsere Ergebnisse unterstreichen das Potenzial multimodaler Diffusionssprachmodelle für effiziente, parallele visuelle Wahrnehmung. Nach unserem besten Wissen sind wir die Ersten, die eine parallele Regionsbeschreibung und -wahrnehmung durch die Nutzung der Vorteile von Diffusionssprachmodellen erreichen. Code, Modelle und Datensätze werden veröffentlicht.

MemSlides: Ein hierarchisches, gedächtnisgesteuertes Agenten-Framework für die personalisierte Folien-Generierung mit mehrschrittiger lokaler Revision
MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision

Jun 15

ByYe Jin, Yangyang Xu, Jun Zhu, Yibo Yang

Die personalisierte Präsentationsgenerierung erfordert mehr als die Konditionierung auf einen aktuellen Prompt oder eine Vorlage: Agenten müssen stabile Nutzerpräferenzen über verschiedene Aufgaben hinweg bewahren, neu eingeführte Präferenzen und Einschränkungen während mehrfacher Überarbeitungsrunden beibehalten und lokale Bearbeitungen zuverlässig durchführen. Wir schlagen MemSlides vor, ein hierarchisches Gedächtnisframework für personalisierte Präsentationsagenten, das das Langzeitgedächtnis vom Arbeitsgedächtnis trennt und das Langzeitgedächtnis weiter in ein Nutzerprofilgedächtnis und ein Werkzeuggedächtnis unterteilt. Das Nutzerprofilgedächtnis speichert absichtsabhängige Profile für die Personalisierung in Runde 0, das Arbeitsgedächtnis trägt aktive Präferenzen und Sitzungseinschränkungen über Überarbeitungsrunden hinweg, und das Werkzeuggedächtnis speichert wiederverwendbare Ausführungserfahrung für zuverlässige lokalisierte Bearbeitungen. MemSlides kombiniert dieses Gedächtnisdesign mit einer bereichsbezogenen, folienlokalen Überarbeitung, sodass gezielte Aktualisierungen auf die kleinste betroffene Region wirken, anstatt die gesamte Präsentation wiederholt zu regenerieren. In kontrollierten Experimenten verbessert das Nutzerprofilgedächtnis die Beurteilungen der Personenübereinstimmung in einer mehrpersonen- und mehrzweckbezogenen Profildatenbank, die Injektion des Werkzeuggedächtnisses verbessert das geschlossene Modifikationsverhalten in diagnostischen, paarweise abgestimmten Umgebungen, und qualitative Fälle veranschaulichen die Fähigkeit des Arbeitsgedächtnisses, Präferenzen über verschiedene Aufgaben hinweg zu übertragen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass eine effektive Personalisierung bei der Präsentationserstellung von der Trennung persistenter Nutzerprofile, sitzungsbezogenem Arbeitsgedächtnis und wiederverwendbarer Ausführungserfahrung während der Generierung und lokalisierten Überarbeitung abhängt.

GateMem: Benchmarking der Speicherverwaltung in Multi-Prinzipal-Agenten mit gemeinsamem Speicher
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

Jun 17

ByZhe Ren, Yibo Yang, Yimeng Chen, Zijun Zhao, Benshuo Fu, Zhihao Shu, Bingjie Zhang, Yangyang Xu, Dandan Guo, Shuicheng Yan

Memory-Benchmarks für LLM-Agenten gehen weitgehend von Einzelbenutzereinstellungen aus, sodass gemeinsame Assistenten für Krankenhäuser, Arbeitsplätze, Universitätsgelände und Haushalte untererforscht bleiben. In diesen Bereitstellungen schreiben mehrere Akteure in einen gemeinsamen Speicherpool und fragen ihn unter verschiedenen Rollen, Bereichen und Beziehungen ab, weshalb die Speicherqualität neben der Abruffähigkeit auch Governance erfordert. Wir stellen GateMem vor, einen Benchmark für Multi-Akteur-Agenten mit gemeinsamem Speicher. GateMem bewertet gemeinsam den Nutzen für legitime langfristige Anfragen mit Zustandsaktualisierungen, die Zugriffskontrolle über kontextuelle Autorisierungsgrenzen hinweg sowie das agentengerichtete aktive Vergessen nach expliziten Löschungsanfragen. Es umfasst medizinische, Büro-, Bildungs- und Haushaltsbereiche mit langen, mehrparteiischen Episoden, inkrementeller Speichereinspeisung, versteckten Kontrollpunkten, strukturierter Bewertung und Leck-Ziel-Annotationen. Über verschiedene Basislinien und Backbone-Modelle hinweg erreicht keine Methode gleichzeitig starken Nutzen, robuste Zugriffskontrolle und zuverlässiges Vergessen. Langkontext-Prompting erzielt oft die beste Governance-Punktzahl bei hohen Tokenkosten, während abrufbasierte Methoden und Methoden mit externem Speicher die Kosten senken, aber dennoch unbefugte oder gelöschte Informationen preisgeben. Diese Ergebnisse zeigen, dass aktuelle Memory-Agenten noch weit von einer zuverlässigen gemeinsamen institutionellen Bereitstellung entfernt sind.

Mehrfachschritt-reflektives Maskieren induziert logisches Denken in Mask-Diffusionsmodellen.
Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Jun 15

ByYanming Zhang, Yihan Bian, Jingyuan Qi, Yuguang Yao, Lifu Huang, Tianyi Zhou

Während das Schlussfolgern in autoregressiven Modellen (AR-Modellen) häufig durch Schlussfolgerungsketten und Reflexion erfolgt, basiert die Verbesserung vorheriger Ausgaben dennoch auf einer vollständig sequenziellen Generierung, selbst wenn nur lokale Änderungen erforderlich sind. Im Gegensatz dazu unterstützt der Maskierungsmechanismus in Maskendiffusionsmodellen (MDMs) auf natürliche Weise explizite lokale Änderungen an vorherigen Ausgaben, was eine selektive Verbesserung ermöglicht, ohne vorherige Antworten zu verwerfen und eine weitere von Grund auf neu zu generieren. Während diese Eigenschaft besser mit der Art und Weise übereinstimmt, wie Menschen Fehler durch iterative lokale Verbesserungen korrigieren, unterstützen bestehende MDMs keine mehrschrittige Maskierung und Entrauschung. Wir schlagen die Reflektierende Maskierung (RM) vor, die eine solche intrinsische Schlussfolgerungsfähigkeit in MDMs durch leichtgewichtiges Nachtraining hervorruft. RM bietet eine native Skalierung zur Testzeit, bei der ein MDM iterativ seine vorherigen Ausgaben auf der Grundlage eines sich entwickelnden Kontexts erneut aufruft und überarbeitet. Um Erkenntnisse aus vorherigen Schritten wie beim AR-Schlussfolgern zu nutzen, führen wir weiterhin die Historie-Referenz ein, einen parameterfreien Mechanismus, der während der Überarbeitung Zwischenentrauschungszustände nutzt. Unser Ansatz erfordert keine architektonischen Änderungen und ist leicht auf bestehende MDMs anwendbar. Über verschiedene Aufgaben und Modalitäten hinweg, einschließlich Textgenerierung, Sudoku und Bildbearbeitung, übertrifft die Reflektierende Maskierung durchgängig standardmäßige maskierungsbasierte Basislinien und zeigt eine starke Allgemeingültigkeit, was RM als grundlegendes Primitive für das Schlussfolgern auf MDMs positioniert.

MCompassRAG: Themenmetadaten als semantischer Kompass für das Retrieval auf Absatzebene
MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

Jun 16

ByAmirhossein Abaskohi, Raymond Li, Gaetano Cimino, Peter West, Giuseppe Carenini, Issam H. Laradji

Retrieval-Augmented-Generation(RAG)-Systeme hängen entscheidend davon ab, wie Dokumente in Chunks aufgeteilt und durchsucht werden. Feinkörnige Chunks können die Retrieval-Präzision verbessern, vergrößern jedoch den Suchraum, was zu höherer Latenz und höheren Kosten führt; größere Chunks reduzieren die Anzahl der Kandidaten, machen aber die dichte Ähnlichkeit weniger zuverlässig, da die Repräsentation jedes Chunks mehrere Themen vermischt und mehr semantisches Rauschen einführt. Dieser Kompromiss wird besonders in tiefgehenden Rechercheaufgaben limitierend, bei denen das Retrieval über große, heterogene Korpora hinweg sowohl schnell als auch präzise sein muss. Wir stellen MCompassRAG vor, ein metadatengeführtes Retrieval-Framework, das Signale auf Themenebene als semantischen Kompass zur Auswahl relevanter Evidenz nutzt. Anstatt sich nur auf die Kosinusähnlichkeit zwischen Anfragen und verrauschten Chunk-Embeddings zu verlassen, bereichert MCompassRAG die Chunk-Repräsentationen mit Themen-Metadaten im selben Embedding-Raum und trainiert einen leichten Retriever durch LLM-Teacher-Destillation. Zur Inferenzzeit führt MCompassRAG themenbewusstes Retrieval ohne zusätzliche LLM-Aufrufe durch, was sowohl die Effizienz als auch die Evidenzqualität verbessert. Über sechs komplexe Retrieval-Benchmarks hinweg verbessert MCompassRasp die Informationseffizienz (IE) um durchschnittlich 8,24 % bei einer mehr als fünffach geringeren Latenz im Vergleich zu den stärksten effizienten RAG-Baselines. Der Code ist verfügbar unter https://github.com/AmirAbaskohi/MCompassRAG.

SproutRAG: Aufmerksamkeitsgesteuerte Baumsuche mit progressiven Einbettungen für RAG mit langen Dokumenten
SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Jun 16

ByAmirhossein Abaskohi, Issam H. Laradji, Peter West, Giuseppe Carenini

Retrieval-augmented Generation (RAG)-Systeme müssen die Granularität der Abfrage mit der kontextuellen Kohärenz in Einklang bringen – eine Herausforderung, die bestehende Methoden durch LLM-gesteuertes Chunking, einstufige Kontexterweiterung oder hierarchische Zusammenfassung angehen. Diese Ansätze sind in unterschiedlichem Maße auf kostspielige LLM-Aufrufe während der Indizierung oder Abfrage angewiesen, beschränken die Kontextaggregation auf eine einzige Granularitätsebene oder führen durch Zusammenfassung zu Informationsverlust. Wir stellen SproutRAG vor, ein aufmerksamkeitsgesteuertes hierarchisches RAG-Framework, das diesen Zielkonflikt angeht, indem es satzweise Chunks in zunehmend größere, aber semantisch kohärente Einheiten organisiert und dabei gelernte Aufmerksamkeitsverknüpfungen zwischen Sätzen nutzt, um einen binären Chunking-Baum aufzubauen. Im Gegensatz zu früheren Ansätzen, die auf externe LLMs, feste Kontexterweiterung oder verlustbehaftete Zusammenfassung angewiesen sind, lernt SproutRAG, welche Aufmerksamkeitsköpfe und -schichten die semantische Dokumentenstruktur am besten erfassen, und ermöglicht so eine Multi-Granularitäts-Abfrage ohne zusätzliche LLM-Aufrufe oder komprimierte Zusammenfassungen. Zur Abfragezeit verwendet SproutRAG eine hierarchische Beam-Suche, um Kandidaten auf mehreren Granularitätsebenen abzurufen und so die Relevanz über mehrere Sätze hinweg über die flache Abfrage hinaus zu erfassen. Das Framework wird end-to-end mit einem gemeinsamen Ziel trainiert, das sowohl die Einbettungen als auch die Baumstruktur verbessert. Experimente mit vier Benchmarks aus den Bereichen Wissenschaft, Recht und offene Domänen zeigen, dass SproutRAG die Informationseffizienz (IE) im Durchschnitt um 6,1 % gegenüber der stärksten Baseline verbessert. Der Code ist unter https://github.com/AmirAbaskohi/SproutRAG verfügbar.

BrainG3N: Ein Dual-Purpose-Tokenizer für die kontrollierbare 3D-Gehirn-MRT-Generierung
BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation

Jun 17

ByMax Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

Dreidimensionale (3D) Gehirn-MRT ist zentral für die klinische Neurologie und Neuroonkologie, wo generative Modelle unterrepräsentierte Kohorten ergänzen, Krankheitsverläufe simulieren und datenschutzfreundlichen Datenaustausch unterstützen könnten. Die latente Diffusion war die bevorzugte Lösung zur Modellierung von Bilddaten, stellt jedoch zwei konkurrierende Anforderungen an den Tokenizer: Die Encoder-Embeddings müssen die klinischen Informationen bewahren, auf die nachgelagerte Aufgaben wirken, und der Decoder muss anatomisch getreue Volumen rekonstruieren. Bestehende rekonstruktionsgetriebene Tokenizer erreichen Letzteres auf Kosten des Ersteren. Um dies zu adressieren, führen wir einen vollständig volumetrischen Tokenizer auf Basis eines maskierten Autoencoders (MAE) für die latente Diffusion von 3D-Gehirn-MRT ein, der Encoder und Decoder entkoppelt: Ein eingefrorener 3D-MAE-Encoder erzeugt klinisch informative Embeddings, während ein dedizierter CNN-Decoder Voxel aus einer linearen Projektion dieser Embeddings rekonstruiert. Wir trainieren den Encoder auf 35.309 Volumen aus 18 öffentlichen Kohorten, die vier Modalitäten, zehn Krankheitskategorien und über 200 Akquisitionsstandorte umfassen, und demonstrieren seinen doppelten Nutzen in zwei Szenarien. Erstens übertrifft oder erreicht der Encoder in einem 23-Aufgaben-Benchmark mit linearer Auswertung den Stand der Technik (d. h. BrainIAC, BrainSegFounder und MedicalNet) bei 21 von 23 Aufgaben. Zweitens unterstützt ein bedingter Diffusionstransformator (DiT), der auf diesen klinisch informativen Embeddings trainiert wurde, sowohl die bedingte Generierung über sechs Variablen hinweg als auch patientenspezifische Längsschnittvorhersagen. Zusammen etablieren diese Ergebnisse einen einheitlichen 3D-Gehirn-MRT-Embedding-Raum, der sowohl für nachgelagerte klinische Aufgaben als auch für kontrollierbare Generierung geeignet ist.

GeneralVLA-2: Geometriebewusste Rekonstruktion und gesteuertes Gedächtnis für die Roboterplanung
GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning

Jun 16

ByHaoyu Wang, Guoqing Ma, Zeyu Zhang, Yandong Guo, Boxin Shi, Hao Tang

Generalistische Vision-Language-Action-Systeme benötigen objektzentrische 3D-Evidenz und wiederverwendbare Manipulationserfahrung, um zuverlässige Robotertrajektorien zu planen. GeneralVLA bietet eine hierarchische Schnittstelle zur Umwandlung von Sprach- und RGB-D-Beobachtungen in 3D-Endeffektor-Pfade, jedoch bestehen zwei Engpässe. Erstens kann die monokulare SAM3D-artige Objektrekonstruktion Pose und unsichtbare Geometrie halluzinieren, während die Manipulation von stabilen Objektformen profitiert, wenn kalibrierte Multi-View-Beobachtungen verfügbar sind. Zweitens ruft die ursprüngliche KnowledgeBank hauptsächlich semantisch ähnliche Ausschnitte ab und fügt neues Wissen hinzu, was die Kontrolle über Speicherqualität, Konflikte, Konfidenz und geometrische Relevanz erschwert. Zur Bewältigung der ersten Herausforderung führen wir GeoFuse-MV3D ein, einen geometriegestützten MV-SAM3D-Rekonstruktionszweig, der externe Geometriehinweise mit Eingabeansichts-Masken verifiziert, eine weiche Visual-Hull-Unterstützung anwendet, eine achsenweise Verfeinerung durchführt und nur die Geometrie fusioniert, während das Erscheinungsbild erhalten bleibt. Zur Bewältigung der zweiten Herausforderung erweitern wir KnowledgeBank zu einem verwalteten Langzeitspeichersystem mit expliziten Metadaten zu Qualität, Konfidenz, Lebenszyklus, Überprüfung und Konflikten, zusammen mit präzisionsorientiertem Abruf. Schließlich evaluieren wir den Rekonstruktionszweig auf GSO-30 und das Speichermodul auf Terminal-Bench 2.0 und SWE-Bench Verified; GeoFuse-MV3D verbessert sich gegenüber der MV-SAM3D-Baseline durch eine Reduzierung von CD und LPIPS um 2,20 % und 2,02 % bei gleichzeitiger Steigerung von PSNR und SSIM um 2,36 % und 1,03 %, und KnowledgeBank verbessert sich gegenüber ReasoningBank um 4,53 % auf Terminal-Bench SR und um 3,73 % auf SWE-Bench-Auflösungsrate bei gleichzeitiger Reduzierung von AS um 4,95 % bzw. 5,65 %. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Webseite: https://aigeeksgroup.github.io/GeneralVLA-2.

WorldLines: Benchmarking und Modellierung langfristiger zustandsbehafteter verkörperter Agenten
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

Jun 17

ByYehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen

Um Menschen über längere Zeiträume in realen Haushalten zu unterstützen, müssen verkörperte Agenten Benutzerroutinen, Weltzustände und vergangene Interaktionen speichern. Bestehende Benchmarks für Langzeitgedächtnis bewerten hauptsächlich sprachzentriertes Abrufen und Beantworten von Fragen, während verkörperte Benchmarks sich oft auf kurzzeitige Aufgabenausführung konzentrieren, ohne die Nutzung des Langzeitgedächtnisses in dynamischen Umgebungen zu testen. Wir führen WorldLines ein, einen projektgetriebenen Benchmark für langfristige verkörperte Haushaltsassistenz. Es konstruiert zeitlich ausgedehnte Haushaltsabläufe mit Dialogen, Aktionen, Ausführungsrückmeldungen sowie Objekt- und Gerätezustandsänderungen und wandelt diese in evidenzverknüpfte Proben für Memory QA und verkörperte Aufgabenplanung um. Darüber hinaus schlagen wir ObsMem vor, ein beobachterbasiertes Gedächtnisframework, das sichtbarkeitsbewusste Erinnerungen und aktionsnative Zustandsspuren für zustandsbewusste Entscheidungen aufrechterhält. Experimente zeigen anhaltende Herausforderungen bei teilweiser Beobachtbarkeit, überschriebenen Weltzuständen und der Übersetzung von Langzeitgedächtnis in verkörperte Pläne, während ObsMem eine stärkere Referenzarchitektur für dieses Umfeld bietet.

SpatialAvatar-0: Hochwertiger 4D-Kopfavatar mit mehrstufiger Rekonstruktion
SpatialAvatar-0: High-Quality 4D Head Avatar with Multi-Stage Reconstruction

Jun 14

ByYiran Wang, Zeyu Zhang, Yuanming Li, Ziming Wang, Yang Zhao

Hochwertige 4D-Kopfavatare aus einem oder wenigen Quellporträts sind zentral für Telepräsenz, AR/VR und die Interaktion mit digitalen Menschen. 3D Gaussian Splatting (3DGS) hat sich als dominierende Repräsentation etabliert, wobei sich zwei komplementäre Ansätze (generalisierbare Feed-Forward-Prädiktoren und probandenspezifische Verfeinerer) parallel weiterentwickeln. Bestehende Feed-Forward-Prädiktoren werden jedoch auf einer einzelnen Datenfamilie mit einer fest codierten Quellenanzahl trainiert und erben entsprechende Bereichsverzerrungen. Probandenspezifische Verfeinerer benötigen 300.000–600.000 Iterationen und stützen sich auf adaptive Verdichtung, die die übergeordneten Gauß-Layouts zerstört und so eine durchgängige gemeinsame Repräsentation beider Ansätze verhindert. Zur Überbrückung beider Ansätze schlagen wir SpatialAvatar-0 auf einer gemeinsamen FLAME-Mesh-gebundenen Gauß-Repräsentation vor: einen Feed-Forward-Generator mit einem parameterfreien K-Quellen-Mean-Pool und einen zweiphasigen Zeitplan von monokular-zeitlich zu multiview-räumlich, der einen Kollaps des Identitätspriors auf die kleinere Multiview-Menge verhindert. Wir führen ferner eine layoutsbewahrende probandenspezifische Verfeinerungsschleife mit 10.000 Iterationen ein, die die FLAME-Bindung und Gauß-Anzahl fixiert und die Verdichtung durch eine dreikomponentige Anti-Spike-Regularisierung ersetzt. Auf den domänenübergreifenden Zero-Shot-Benchmarks VFHQ/HDTF übertreffen wir den domäneninternen Spitzenreiter GAGAvatar um +1,5 dB PSNR, obwohl wir nie auf einer der Testdomänen trainiert haben. Auf dem monokularen SplattingAvatar-Benchmark führen wir in jeder gemeldeten Metrik und übertreffen den 300.000-Iterationen-GeoAvatar um +1,3 dB PSNR bei bis zu 60-mal kürzerer probandenspezifischer Zeitplanung im Vergleich zu gängigen SOTA-Baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.

Charakterisierung narrativer Inhalte in webumfassenden LLM-Vortrainingsdaten
Characterizing Narrative Content in Web-scale LLM Pretraining Data

Jun 17

ByTeagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak

Die narrative Zusammensetzung von web-scale LLM-Pretraining-Korpora bleibt weitgehend unerforscht, obwohl Erzählen eine grundlegende Form menschlicher Kommunikation ist. Wir stellen die erste detaillierte Studie zu narrativen Merkmalen in Dolma vor, einem offenen Pretraining-Korpus mit 3 Billionen Tokens. Aufbauend auf der Erzähltheorie entwickeln wir ein Framework, das drei Kernelemente der Erzählung umfasst (Handlungsträger, Schauplatz und Ereignisse), operationalisiert als 11 interpretierbare Dimensionen. Nach der Stichprobenziehung und Annotation eines vielfältigen Satzes von 400 Textpassagen feintunen und validieren wir NarraBERT, ein auf RoBERTa basierendes Modell zur feinkörnigen narrativen Vorhersage. Wir wenden NarraBERT auf 3 Millionen Textpassagen an, was zu einem neuen Datensatz, NarraDolma, führt. Wir stellen fest: (i) narrative Struktur ist im großen Maßstab über extrem heterogene Daten hinweg messbar, (ii) wir decken eine kontinuierliche, mehrdimensionale narrative Struktur auf, die Webtexten zugrunde liegt, und (iii) narrative Qualitäten sind ungleich über Pretraining-Quellen und Themen verteilt, und zwar auf eine Weise, die aktuelle Kuratierungspraktiken weder messen noch berücksichtigen. Unser Framework, Datensatz und unsere Analysen bieten eine Grundlage für das Verständnis, wie narrative Qualitäten in LLM-Pretraining-Daten verteilt sind, und für die Untersuchung, wie die Datenzusammensetzung narrative Reasoning-Aufgaben beeinflusst. Wir veröffentlichen NarraDolma und NarraBERT öffentlich.

StylisticBias: Einige wenige menschliche visuelle Hinweise verursachen die meisten sozialen Verzerrungen in MLLMs
StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

Jun 18

ByShaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner

Multimodale große Sprachmodelle (MLLMs) werden zunehmend in persönlich und gesellschaftlich folgenreichen Kontexten eingesetzt, doch die visuellen Hinweise, die die Urteile dieser Modelle über Menschen prägen, sind nach wie vor kaum verstanden. Bisherige Arbeiten vergleichen oft verschiedene (Gruppen von) Individuen, was es erschwert, Erscheinungseffekte von Identitätsunterschieden zu trennen. Wir führen StylisticBias ein, einen kontrollierten Benchmark zur Bewertung attributspezifischer sozialer Verzerrungen in MLLMs. Wir generieren 500 fotorealistische Basisgesichter und erstellen pro Gesicht etwa 50 Einzelattribut-Variationen, wodurch etwa 25.000 Bilder entstehen. Dieses Design hält die Identität konstant und ändert jeweils nur ein visuelles Attribut. Es ermöglicht uns zu messen, wie spezifische Hinweise die Modellurteile verschieben. Wir evaluieren sechs MLLMs in 25 binären sozialen Urteilsszenarien. Wir stellen fest, dass Alter und Körpertyp die stärksten Effekte auf Identitätsebene hervorrufen, während Modestil und andere visuelle Hinweise die größten attributspezifischen Verschiebungen bewirken. Weiterhin zeigen wir, dass etwa 15 Attribute für nahezu 80 % der Gesamtvariation verantwortlich sind, was darauf hindeutet, dass sich die Verzerrung auf eine kleine Menge visueller Hinweise konzentriert. Die Sensitivität ist am stärksten bei Urteilen, die semantisch mit dem Erscheinungsbild übereinstimmen, insbesondere bei sozioökonomischen und stilbezogenen Urteilen. Wir veröffentlichen StylisticBias als Benchmark für die feinkörnige Bewertung von Verzerrungen in multimodalen Modellen. Code und Datensatz: https://github.com/timo-cavelius/StylisticBias und https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.

Destillation von Beispielen in Aufgabeninstruktionen: Verbessertes In-Context-Lernen für reale B2B-Gespräche
Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

Jun 14

ByGuy Rotman, Adi Kopilov, Danit Berger Zalmanson, Omri Allouche

In-Context-Lernen (ICL) ist die Standardmethode für die Klassifikation mit geringen Ressourcen, doch ihre Wirksamkeit in spezialisierten Domänen ist weitgehend unerforscht. Wir befassen uns mit der Herausforderung der Klassifikation semantisch komplexer, mehrseitiger B2B-Gespräche, bei der traditionelles ICL erhebliche Einschränkungen aufweist, insbesondere wenn die Kontextlänge durch die Verkettung mehrerer Few-Shot-Beispiele zunimmt. Wir stellen den Call Playbook-Datensatz vor, der fünf Klassifikationsaufgaben umfasst, die aus realen B2B-Gesprächen zu zentralen Verkaufskonzepten abgeleitet wurden. Um die Kluft zwischen Leistung und praktischem Nutzen zu überbrücken, schlagen wir neuartige Methoden zur Wissensextraktion vor, die ausführliche Beispiele in kompakte, interpretierbare Darstellungen strukturierter Klassifikationskriterien und präziser Aufgabenbeschreibungen destillieren. Unser Ansatz erreicht eine Reduzierung des Token-Verbrauchs um 99 % und verbessert die makrogemittelte AUC im Vergleich zu traditionellem ICL um bis zu 7 %. Bemerkenswerterweise bleibt er bei wachsendem Kontext robust, während fortschrittliche Token-Kompressions-Baselines um über 9 F1-Punkte abfallen. Entscheidend ist, dass unser Framework eine direkte Verfeinerung der Klassifikationslogik ermöglicht und damit kritische Anforderungen an Transparenz, Effizienz und Benutzerinteraktion in realen NLP-Anwendungen adressiert.

Wann, Wo und Wie: Adaptives Binning für tabellarisches selbstüberwachtes Lernen
When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

Jun 18

ByDaehwan Kim, Haejun Chung, Ikbeom Jang

Medizinische Tabellendaten sind in der klinischen Forschung allgegenwärtig, doch Deep Learning für Tabellen wird noch wenig erforscht, da zuverlässige Label häufig eine kostspielige Expertenbewertung erfordern, obwohl strukturierte klinische Variablen routinemäßig in tabellarischer Form verfügbar sind. Selbstüberwachtes Lernen kann diese unbeschrifteten Tabellen nutzen, und aktuelle bin-basierte Voraufgaben bieten eine vielversprechende induktive Bias, aber bestehende Zielfunktionen legen eine feste globale Quantil-Diskretisierung fest und wenden merkmalsagnostische Überwachung an. Wir schlagen Adaptive Binning vor, eine trainingsadaptive Diskretisierungs-Voraufgabe für tabellarisches SSL, die die Diskretisierung mit dem Lernen durch einen merkmalsweisen Grob-zu-Fein-Lehrplan verbindet. Motiviert durch den spektralen Bias neuronaler Netze und die Prinzipien des Curriculumslernens verfeinert unsere Methode die Diskretisierung pro Merkmal schrittweise bei Plateau-Erkennung und wählt darstellungsbewusste Aufteilungen, um gleichzeitig die Werteraum-Konzentration und die Darstellungsraum-Kohärenz zu verbessern. Eine heterogenitätsbewusste Zielfunktion vereint kategoriale Rekonstruktion mit ordinaler Überwachung für numerische Merkmale, und Experimente mit öffentlichen medizinischen Tabellendatensätzen unter einheitlichen Evaluierungsprotokollen zeigen konsistente Verbesserungen bei Linear Probing und Fine-Tuning ohne datensatzspezifische Diskretisierungsabstimmung. Wir führen ferner einen medizinischen Tabellen-SSL-Benchmark mit standardisierten Protokollen ein, um reproduzierbare Fortschritte in diesem wenig erforschten Bereich zu unterstützen. Unser Code ist verfügbar unter https://github.com/labhai/Adaptive-Binning.

PerceptionDLM: Parallele Regionenwahrnehmung mit multimodalen Diffusions-Sprachmodellen
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Jun 17

ByYueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang, Jacky Mai, Yihan Wang, Haochen Wang, Jinbin Bai, Ling Yang, Yunhai Tong