Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper stellen wir Medical SAM 2 (MedSAM-2) vor, ein fortschrittliches Segmentierungsmodell, das das SAM 2-Framework nutzt, um sowohl 2D- als auch 3D-Medizinbildsegmentierungsaufgaben anzugehen. Indem MedSAM-2 die Philosophie übernimmt, medizinische Bilder als Videos zu betrachten, wendet es sich nicht nur an 3D-Medizinbilder, sondern erschließt auch die neue One-prompt Segmentation-Fähigkeit. Diese ermöglicht es Benutzern, nur eine oder eine spezifische Abbildung als Zielobjekt anzugeben, wonach das Modell autonom das gleiche Objekttyp in allen nachfolgenden Bildern segmentieren kann, unabhängig von den zeitlichen Beziehungen zwischen den Bildern. Wir haben MedSAM-2 über eine Vielzahl von medizinischen Bildgebungsmodalitäten evaluiert, darunter abdominale Organe, Sehnervenscheiben, Hirntumore, Schilddrüsenknoten und Hautläsionen, und es mit modernsten Modellen sowohl in traditionellen als auch interaktiven Segmentierungseinstellungen verglichen. Unsere Ergebnisse zeigen, dass MedSAM-2 nicht nur die Leistung bestehender Modelle übertrifft, sondern auch eine überlegene Verallgemeinerung über eine Reihe von medizinischen Bildsegmentierungsaufgaben aufweist. Unser Code wird veröffentlicht unter: https://github.com/MedicineToken/Medical-SAM2
Die groß angelegte selbstüberwachte Vorab-Schulung hat den Weg für ein Grundlagenmodell geebnet, um viele verschiedene Visionstasks zu bewältigen. Die meisten Vorab-Schulungsmethoden trainieren zur gleichen Zeit ein einzelnes Modell einer bestimmten Größe. Dennoch erfordern verschiedene Berechnungs- oder Speicherbeschränkungen in realen Szenarien erhebliche Anstrengungen, um eine Reihe von Modellen mit unterschiedlichen Größen zu entwickeln, die bereitgestellt werden können. Daher schlagen wir in dieser Studie ein neuartiges dreigleisiges selbstüberwachtes Schulungsrahmenwerk vor, das als POA (Pre-training Once for All) bezeichnet wird, um dieses oben genannte Problem anzugehen. Unser Ansatz führt einen innovativen elastischen Schülerzweig in ein modernes Selbst-Destillationsparadigma ein. Bei jedem Vorab-Schritt ziehen wir zufällig ein Subnetzwerk aus dem ursprünglichen Schüler, um den elastischen Schüler zu bilden, und trainieren alle Zweige auf selbstdestillierende Weise. Einmal vorab geschult, ermöglicht POA die Extraktion von vorab geschulten Modellen unterschiedlicher Größen für nachgelagerte Aufgaben. Bemerkenswerterweise erleichtert der elastische Schüler die gleichzeitige Vorab-Schulung mehrerer Modelle mit unterschiedlichen Größen, der auch als zusätzliches Ensemble von Modellen verschiedener Größen zur Verbesserung des Repräsentationslernens dient. Umfangreiche Experimente, einschließlich k-nächster Nachbarn, lineare Sondierungsbewertung und Bewertungen auf mehreren nachgelagerten Aufgaben, zeigen die Wirksamkeit und Vorteile unseres POA. Es erreicht Spitzenleistungen unter Verwendung von ViT, Swin Transformer und ResNet-Backbones und erzeugt ungefähr hundert Modelle mit unterschiedlichen Größen in einer einzigen Vorab-Sitzung. Der Code ist verfügbar unter: https://github.com/Qichuzyy/POA.
Entity Linking (EL) und Relation Extraction (RE) sind grundlegende Aufgaben im Bereich der natürlichen Sprachverarbeitung und dienen als entscheidende Komponenten in einer Vielzahl von Anwendungen. In diesem Paper schlagen wir ReLiK vor, eine Retriever-Reader-Architektur für sowohl EL als auch RE, bei der der Retriever-Modul bei einer Eingabetext die Identifizierung von Kandidatenentitäten oder -relationen übernimmt, die potenziell im Text erscheinen könnten. Anschließend ist der Reader-Modul damit beauftragt, die relevanten abgerufenen Entitäten oder Relationen zu unterscheiden und ihre Ausrichtung mit den entsprechenden Textstellen herzustellen. Bemerkenswert ist, dass wir eine innovative Eingaberepräsentation vorstellen, die die Kandidatenentitäten oder -relationen neben dem Text integriert, was es ermöglicht, Entitäten zu verknüpfen oder Relationen in einem einzigen Durchlauf zu extrahieren und die Kontextualisierungsfähigkeiten von vortrainierten Sprachmodellen voll auszuschöpfen, im Gegensatz zu früheren Retriever-Reader-basierten Methoden, die für jeden Kandidaten einen Durchlauf erfordern. Unsere Formulierung von EL und RE erzielt Spitzenleistungen sowohl in in-domain als auch in out-of-domain Benchmarks, während wir akademische Budgetschulung verwenden und eine bis zu 40-fache Inferenzgeschwindigkeit im Vergleich zu Mitbewerbern erreichen. Schließlich zeigen wir, wie unsere Architektur nahtlos für die Informationsextraktion (cIE), d.h. EL + RE, verwendet werden kann und einen neuen Stand der Technik durch den Einsatz eines gemeinsamen Readers festlegt, der gleichzeitig Entitäten und Relationen extrahiert.
Bei einer 3D-Mesh-Struktur streben wir danach, 3D-Texturen zu synthetisieren, die beliebigen textuellen Beschreibungen entsprechen. Aktuelle Methoden zur Generierung und Zusammenstellung von Texturen aus abgetasteten Ansichten führen häufig zu auffälligen Nähten oder übermäßiger Glättung. Um diese Probleme anzugehen, präsentieren wir TexGen, ein neuartiges Multi-View-Abtastungs- und Neubildungs-Framework für die Texturengenerierung, das ein vortrainiertes Text-zu-Bild-Diffusionsmodell nutzt. Für eine konsistente Abtastung der Ansichten pflegen wir zunächst eine Texturkarte im RGB-Raum, die durch den Entrauschungsschritt parametrisiert ist und nach jedem Abtastschritt des Diffusionsmodells aktualisiert wird, um die Ansichtsdiskrepanz schrittweise zu reduzieren. Eine auf Aufmerksamkeit basierende Multi-View-Abtaststrategie wird genutzt, um die Erscheinungsinformationen über die Ansichten hinweg zu übertragen. Zur Erhaltung von Texturdetails entwickeln wir eine Rauschneubildungstechnik, die bei der Schätzung von Rauschen hilft, Eingaben für nachfolgende Entrauschungsschritte generiert, wie durch die Textvorgabe und die aktuelle Texturkarte angeleitet. Durch eine umfangreiche Menge an qualitativen und quantitativen Bewertungen zeigen wir, dass unsere vorgeschlagene Methode eine signifikant bessere Texturqualität für vielfältige 3D-Objekte mit einem hohen Maß an Ansichtskonsistenz und reichen Erscheinungsdetails erzeugt und dabei aktuelle State-of-the-Art-Methoden übertrifft. Darüber hinaus kann unsere vorgeschlagene Texturgenerierungstechnik auch für die Texturbearbeitung unter Beibehaltung der ursprünglichen Identität angewendet werden. Weitere experimentelle Ergebnisse sind unter https://dong-huo.github.io/TexGen/ verfügbar.
Multimodale Modelle, die gleichzeitig Audio und Sprache verarbeiten, versprechen eine große Leistungsfähigkeit im Audiobereich und werden zunehmend im Musikbereich eingesetzt. Indem sie es Benutzern ermöglichen, über Text Abfragen zu stellen und Informationen zu einem bestimmten Audioeingang zu erhalten, haben diese Modelle das Potenzial, eine Vielzahl von Musikverständnis-Aufgaben über sprachbasierte Schnittstellen zu ermöglichen. Die Bewertung dieser Modelle stellt jedoch erhebliche Herausforderungen dar, und es ist unklar, wie ihre Fähigkeit, Musik-bezogene Eingaben korrekt zu interpretieren, effektiv mit aktuellen Methoden bewertet werden kann. Aus diesem Grund stellen wir MuChoMusic vor, einen Benchmark zur Bewertung des Musikverständnisses in multimodalen Sprachmodellen, die sich auf Audio konzentrieren. MuChoMusic umfasst 1.187 Multiple-Choice-Fragen, alle validiert von menschlichen Annotatoren, zu 644 Musiktiteln aus zwei öffentlich verfügbaren Musikdatensätzen und deckt eine Vielzahl von Genres ab. Die Fragen im Benchmark sind so konzipiert, dass sie Wissen und Denkfähigkeiten über mehrere Dimensionen hinweg bewerten, die grundlegende musikalische Konzepte und deren Beziehung zu kulturellen und funktionalen Kontexten abdecken. Durch die ganzheitliche Analyse, die der Benchmark ermöglicht, bewerten wir fünf Open-Source-Modelle und identifizieren mehrere Fallstricke, darunter eine übermäßige Abhängigkeit von der Sprachmodalität, was auf eine Notwendigkeit für eine bessere multimodale Integration hinweist. Die Daten und der Code sind Open Source.
Die Fähigkeit generativer großer Sprachmodelle (LLMs), kontextbezogenes Lernen durchzuführen, hat zu einer Vielzahl von Forschungsarbeiten geführt, die sich damit befassen, wie Modelle am besten für verschiedene Aufgaben des natürlichen Sprachverarbeitung angeregt werden können. In diesem Paper konzentrieren wir uns auf maschinelle Übersetzung (MT), eine Aufgabe, bei der sich gezeigt hat, dass kontextbezogene Übersetzungsbeispiele von Vorteil sind. Es wurden jedoch keine systematischen Studien veröffentlicht, die zeigen, wie die besten Beispiele ausgewählt werden können, und gemischte Ergebnisse wurden hinsichtlich der Nützlichkeit einer Auswahl basierend auf Ähnlichkeit im Vergleich zur zufälligen Auswahl berichtet. Wir präsentieren eine Studie, die mehrere LLMs und verschiedene Strategien zur Wiederherstellung von Beispielen im Kontext vergleicht, wobei mehrsprachige Satz-Einbettungen verwendet werden. Wir behandeln mehrere Sprachrichtungen, die unterschiedliche Sprachressourcen darstellen (Englisch in Französisch, Deutsch, Suaheli und Wolof). Im Gegensatz zu zuvor veröffentlichten Ergebnissen stellen wir fest, dass die Ähnlichkeit von Satz-Einbettungen die MT verbessern kann, insbesondere für Sprachrichtungen mit geringen Ressourcen, und diskutieren das Gleichgewicht zwischen Vielfalt und Qualität des Auswahl-Pools. Wir heben auch potenzielle Probleme bei der Bewertung von LLM-basierter MT hervor und schlagen ein angemesseneres Bewertungsprotokoll vor, das die COMET-Metrik an die Bewertung von LLMs anpasst. Der Code und die Ergebnisse sind frei verfügbar unter https://github.com/ArmelRandy/ICL-MT.
Wir präsentieren RelBench, einen öffentlichen Benchmark zur Lösung von prädiktiven Aufgaben über relationale Datenbanken mit Graph-Neuronalen-Netzwerken. RelBench bietet Datenbanken und Aufgaben aus verschiedenen Bereichen und Skalen und soll eine grundlegende Infrastruktur für zukünftige Forschung darstellen. Wir verwenden RelBench, um die erste umfassende Studie des Relationalen Tiefen Lernens (RDL) (Fey et al., 2024) durchzuführen, das graph-neuronale Netzwerkprädiktionsmodelle mit (tiefen) tabellarischen Modellen kombiniert, die initiale Entitätsrepräsentationen aus Rohdaten extrahieren. End-to-end gelernte RDL-Modelle nutzen das prädiktive Signal, das in Primär-Fremdschlüssel-Verknüpfungen codiert ist, voll aus und markieren eine signifikante Abkehr vom dominanten Paradigma des manuellen Merkmals-Engineerings in Kombination mit tabellarischen Modellen. Um RDL gründlich gegen diesen bisherigen Goldstandard zu bewerten, führen wir eine eingehende Benutzerstudie durch, bei der ein erfahrener Datenwissenschaftler für jede Aufgabe manuell Merkmale entwickelt. In dieser Studie lernt RDL bessere Modelle, während der menschliche Arbeitsaufwand um mehr als eine Größenordnung reduziert wird. Dies zeigt die Leistungsfähigkeit des Tiefen Lernens zur Lösung prädiktiver Aufgaben über relationale Datenbanken auf und eröffnet viele neue Forschungsmöglichkeiten, die durch RelBench ermöglicht werden.
Welche latenten Merkmale sind in den Repräsentationen von Sprachmodellen (LM) codiert? Aktuelle Arbeiten zur Schulung von dünn besetzten Autoencodern (SAEs) zur Entflechtung interpretierbarer Merkmale in LM-Repräsentationen haben signifikantes Potenzial gezeigt. Die Bewertung der Qualität dieser SAEs ist jedoch schwierig, da uns eine Sammlung von interpretierbaren Merkmalen fehlt, die wir von guten SAEs erwarten, dass sie wiederherstellen. Daher schlagen wir vor, den Fortschritt im interpretierbaren Wörterbuchlernen zu messen, indem wir im Umfeld von LMs arbeiten, die auf Schach- und Othello-Transkripten trainiert wurden. Diese Umgebungen beinhalten natürliche Sammlungen von interpretierbaren Merkmalen - zum Beispiel "es gibt einen Springer auf F3" - die wir in überwachte Metriken für die Qualität von SAEs umsetzen. Um den Fortschritt im interpretierbaren Wörterbuchlernen zu lenken, führen wir eine neue SAE-Trainingstechnik ein, p-Annealing, die die Leistung sowohl bei früheren unüberwachten Metriken als auch bei unseren neuen Metriken verbessert.