Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Transformer haben das maschinelle Lernen revolutioniert, doch ihre Funktionsweise bleibt vielen undurchsichtig. Wir präsentieren Transformer Explainer, ein interaktives Visualisierungstool, das für Nicht-Experten entwickelt wurde, um die Funktionsweise von Transformern durch das GPT-2-Modell zu erlernen. Unser Tool hilft Benutzern komplexe Transformer-Konzepte zu verstehen, indem es eine Modellübersicht integriert und reibungslose Übergänge zwischen Abstraktionsebenen mathematischer Operationen und Modellstrukturen ermöglicht. Es führt eine Live-GPT-2-Instanz lokal im Browser des Benutzers aus, was Benutzern ermöglicht, mit ihren eigenen Eingaben zu experimentieren und in Echtzeit zu beobachten, wie die internen Komponenten und Parameter des Transformers zusammenarbeiten, um die nächsten Token vorherzusagen. Unser Tool erfordert keine Installation oder spezielle Hardware und erweitert somit den Zugang der Öffentlichkeit zu modernen generativen KI-Techniken. Unser Open-Source-Tool ist verfügbar unter https://poloclub.github.io/transformer-explainer/. Eine Video-Demo ist verfügbar unter https://youtu.be/ECR4oAwocjs.
Große Vision-Sprach-Modelle (LVLMs) sind in der Lage, verschiedene Datentypen wie Bildgebung, Text und physiologische Signale zu verarbeiten und können in verschiedenen Bereichen eingesetzt werden. Im medizinischen Bereich haben LVLMs ein hohes Potenzial, um umfangreiche Unterstützung bei Diagnose und Behandlung zu bieten. Bevor dies geschieht, ist es entscheidend, Benchmarks zu entwickeln, um die Wirksamkeit von LVLMs in verschiedenen medizinischen Anwendungen zu bewerten. Aktuelle Benchmarks basieren häufig auf spezifischer Fachliteratur, die hauptsächlich auf einem einzelnen Bereich liegt und unterschiedliche Wahrnehmungsgranularitäten vermissen lässt. Daher stehen sie vor spezifischen Herausforderungen, darunter begrenzte klinische Relevanz, unvollständige Bewertungen und unzureichende Anleitung für interaktive LVLMs. Um diese Einschränkungen zu bewältigen, haben wir den GMAI-MMBench entwickelt, den umfassendsten allgemeinen medizinischen KI-Benchmark mit bislang gut kategorisierter Datenstruktur und multipler Wahrnehmungsgranularität. Er besteht aus 285 Datensätzen über 39 medizinische Bildgebungsmodalitäten, 18 klinisch-bezogenen Aufgaben, 18 Abteilungen und 4 Wahrnehmungsgranularitäten im Format einer visuellen Frage-Antwort (VQA). Darüber hinaus haben wir eine lexikalische Baumstruktur implementiert, die es Benutzern ermöglicht, Evaluationsaufgaben anzupassen, um verschiedenen Bewertungsbedürfnissen gerecht zu werden und die medizinische KI-Forschung und -Anwendungen wesentlich zu unterstützen. Wir haben 50 LVLMs evaluiert, und die Ergebnisse zeigen, dass selbst das fortschrittliche GPT-4o nur eine Genauigkeit von 52% erreicht, was auf erheblichen Verbesserungsbedarf hinweist. Darüber hinaus haben wir fünf wesentliche Unzulänglichkeiten in aktuellen modernsten LVLMs identifiziert, die angegangen werden müssen, um die Entwicklung besserer medizinischer Anwendungen voranzutreiben. Wir sind der Überzeugung, dass der GMAI-MMBench die Gemeinschaft dazu anregen wird, die nächste Generation von LVLMs in Richtung GMAI aufzubauen. Projektseite: https://uni-medical.github.io/GMAI-MMBench.github.io/
Die Generierung von 3D-Inhalten steht im Mittelpunkt vieler Computergrafikanwendungen, einschließlich Videospielen, Filmproduktion, virtueller und erweiterter Realität usw. In diesem Paper wird ein neuartiger Deep-Learning-Ansatz vorgeschlagen, um interaktive und spielbare 3D-Spielszenen automatisch zu generieren, alles basierend auf den lockeren Vorgaben des Benutzers wie beispielsweise einer handgezeichneten Skizze. Die skizzenbasierte Eingabe bietet einen natürlichen und bequemen Weg, um die Designabsicht des Benutzers im Inhalteerstellungsprozess zu vermitteln. Um die datenarme Herausforderung im Lernen zu umgehen (d. h. den Mangel an großen Trainingsdaten von 3D-Szenen), nutzt unsere Methode ein vortrainiertes 2D-Denoising-Diffusionsmodell, um ein 2D-Bild der Szene als konzeptionelle Richtlinie zu generieren. In diesem Prozess übernehmen wir den isometrischen Projektionsmodus, um unbekannte Kamerapositionen auszuschließen und gleichzeitig das Szenenlayout zu erhalten. Aus dem generierten isometrischen Bild verwenden wir eine vortrainierte Bildverstehensmethode, um das Bild in sinnvolle Teile wie Objekte über dem Boden, Bäume und Gebäude zu segmentieren und das 2D-Szenenlayout zu extrahieren. Diese Segmente und Layouts werden anschließend in einen prozeduralen Inhaltegenerierungs-Engine (PCG) eingespeist, wie beispielsweise eine 3D-Videospiel-Engine wie Unity oder Unreal, um die 3D-Szene zu erstellen. Die resultierende 3D-Szene kann nahtlos in eine Spielentwicklungsumgebung integriert werden und ist sofort spielbar. Umfangreiche Tests zeigen, dass unsere Methode effizient hochwertige und interaktive 3D-Spielszenen generieren kann, deren Layouts eng der Absicht des Benutzers folgen.
Die weit verbreitete Zugänglichkeit großer Sprachmodelle (LLMs) für die Allgemeinheit hat die Verbreitung maschinengenerierter Texte (MGTs) erheblich verstärkt. Fortschritte bei der Eingabe-Manipulation haben die Schwierigkeit verstärkt, den Ursprung eines Textes zu erkennen (menschlich verfasst vs. maschinengeneriert). Dies wirft Bedenken hinsichtlich des potenziellen Missbrauchs von MGTs auf, insbesondere in Bildungs- und akademischen Bereichen. In diesem Artikel präsentieren wir LLM-DetectAIve - ein System, das für die feinkörnige Erkennung von MGTs entwickelt wurde. Es ist in der Lage, Texte in vier Kategorien zu klassifizieren: menschlich geschrieben, maschinengeneriert, maschinengeschrieben-menschlich, und menschlich geschliffen-maschinengeschrieben. Im Gegensatz zu früheren MGT-Detektoren, die eine binäre Klassifizierung durchführen, bietet die Einführung von zwei zusätzlichen Kategorien in LLM-DetectAIve Einblicke in die unterschiedlichen Grade des LLM-Einsatzes während der Texterstellung. Dies könnte in einigen Bereichen nützlich sein, wie z.B. in der Bildung, wo jeglicher LLM-Einsatz normalerweise verboten ist. Experimente zeigen, dass LLM-DetectAIve die Autorenschaft von Textinhalten effektiv identifizieren kann und somit seine Nützlichkeit bei der Verbesserung der Integrität in Bildung, Wissenschaft und anderen Bereichen unterstreicht. LLM-DetectAIve ist öffentlich zugänglich unter https://huggingface.co/spaces/raj-tomar001/MGT-New. Das Video, das unser System beschreibt, ist unter https://youtu.be/E8eT_bE7k8c verfügbar.
Die Entwicklung von monolingualen Sprachmodellen für Sprachen mit geringen und mittleren Ressourcen wird weiterhin durch die Schwierigkeit bei der Beschaffung hochwertiger Trainingsdaten behindert. In dieser Studie präsentieren wir eine neuartige cross-linguale Vokabulartransferstrategie, die als Trans-Tokenisierung bezeichnet wird und darauf abzielt, diese Herausforderung zu bewältigen und eine effizientere Sprachanpassung zu ermöglichen. Unser Ansatz konzentriert sich darauf, ein monolinguales Sprachmodell mit hohen Ressourcen an eine unbekannte Zielsprache anzupassen, indem die Token-Einbettungen der Zielsprache durch einen gewichteten Durchschnitt semantisch ähnlicher Token-Einbettungen aus der Ausgangssprache initialisiert werden. Hierfür nutzen wir eine Übersetzungsressource, die sowohl die Ausgangs- als auch die Zielsprache abdeckt. Wir validieren unsere Methode mit den Tweeties, einer Reihe von trans-tokenisierten Sprachmodellen, und zeigen deren Wettbewerbsfähigkeit bei verschiedenen nachgelagerten Aufgaben in einer kleinen, aber vielfältigen Sprachenvielfalt. Darüber hinaus führen wir Hydra Sprachmodelle ein, Modelle mit mehreren austauschbaren Sprachmodellierungsköpfen und Einbettungstabellen, die die Fähigkeiten unserer Trans-Tokenisierungsstrategie weiter ausbauen. Durch die Entwicklung eines Hydra Sprachmodells auf Basis des mehrsprachigen Modells TowerInstruct haben wir ein hochmodernes maschinelles Übersetzungsmodell für Tatar entwickelt, auf eine Null-Schuss-Weise, wobei die Notwendigkeit hochwertiger paralleler Daten vollständig umgangen wird. Dieser Durchbruch ist besonders bedeutsam für Sprachen mit geringen Ressourcen wie Tatar, wo hochwertige parallele Daten schwer zu beschaffen sind. Indem wir die Daten- und Zeitanforderungen für das Training hochwertiger Modelle senken, ermöglicht unsere Trans-Tokenisierungsstrategie die Entwicklung von Sprachmodellen für eine breitere Palette von Sprachen, insbesondere für solche mit begrenzten Ressourcen. Wir hoffen, dass unsere Arbeit weitere Forschung und Zusammenarbeit auf dem Gebiet des cross-lingualen Vokabulartransfers anregen und zur Stärkung von Sprachen auf globaler Ebene beitragen wird.
Wir schlagen eine neue Methode vor, die sogenannte Anweisungs-Rückübersetzung, um hochwertige synthetische Daten zu erstellen, die auf Weltwissen basieren, um große Sprachmodelle (LLMs) auszurichten. Ausgehend von Dokumenten aus einem Webkorpus generieren und kuratieren wir synthetische Anweisungen unter Verwendung des Rückübersetzungsansatzes, der von Li et al. (2023a) vorgeschlagen wurde, und überarbeiten die Antworten, um ihre Qualität weiter zu verbessern, basierend auf den ursprünglichen Dokumenten. Feinabstimmung mit den resultierenden (rückübersetzten Anweisungen, überarbeiteten Antworten)-Paaren führt zu höheren Gewinnraten bei AlpacaEval als bei der Verwendung anderer gängiger Anweisungsdatensätze wie Humpback, ShareGPT, Open Orca, Alpaca-GPT4 und Self-instruct. Wir zeigen auch, dass das Überarbeiten der Antworten mit einem LLM eine bessere Leistung erbringt als die direkte Destillation, und die beiden generierten Textverteilungen weisen signifikante Unterschiede im Einbettungsraum auf. Eine weitere Analyse zeigt, dass unsere rückübersetzten Anweisungen von höherer Qualität sind als andere Quellen synthetischer Anweisungen, während unsere Antworten vielfältiger und komplexer sind als die durch Destillation erhaltenen. Insgesamt stellen wir fest, dass die Anweisungs-Rückübersetzung das Beste aus beiden Welten kombiniert - sie nutzt die Vielfalt und Menge an Informationen, die im Web zu finden sind, und gewährleistet gleichzeitig die Qualität der Antworten, die für eine effektive Ausrichtung erforderlich ist.
Hochleistungs-Multimodale Große Sprachmodelle (MLLMs) sind stark auf Datenqualität angewiesen. Diese Studie stellt einen neuartigen Datensatz namens Img-Diff vor, der entwickelt wurde, um die feinkörnige Bilderkennung in MLLMs zu verbessern, indem Erkenntnisse aus kontrastivem Lernen und Bildunterschiedsbeschriftung genutzt werden. Durch die Analyse von Objektunterschieden zwischen ähnlichen Bildern fordern wir Modelle heraus, sowohl übereinstimmende als auch unterschiedliche Komponenten zu identifizieren. Wir nutzen das Stable-Diffusion-XL-Modell und fortschrittliche Bildbearbeitungstechniken, um Paare ähnlicher Bilder zu erstellen, die Objektaustausche hervorheben. Unsere Methodik umfasst einen Difference Area Generator zur Identifizierung von Objektunterschieden, gefolgt von einem Difference Captions Generator für detaillierte Unterschiedsbeschreibungen. Das Ergebnis ist ein relativ kleiner, aber hochwertiger Datensatz von "Objektaustausch"-Beispielen. Wir verwenden den vorgeschlagenen Datensatz, um hochmoderne MLLMs wie MGM-7B feinzutunen, was umfassende Verbesserungen der Leistungswerte gegenüber SOTA-Modellen ergibt, die mit größeren Datensätzen trainiert wurden, in zahlreichen Bildunterschieds- und visuellen Frage-Antwort-Aufgaben. Beispielsweise übertreffen unsere trainierten Modelle deutlich die SOTA-Modelle GPT-4V und Gemini im MMVP-Benchmark. Darüber hinaus untersuchen wir alternative Methoden zur Generierung von Bildunterschiedsdaten durch "Objektentfernung" und führen eine gründliche Bewertung durch, um die Vielfalt, Qualität und Robustheit des Datensatzes zu bestätigen und mehrere Erkenntnisse zur Synthese eines solchen kontrastiven Datensatzes vorzustellen. Um weitere Forschung zu fördern und das Feld der multimodalen Datensynthese voranzutreiben sowie die grundlegenden Fähigkeiten von MLLMs zur Bildverarbeitung zu verbessern, veröffentlichen wir unsere Codes und den Datensatz unter https://github.com/modelscope/data-juicer/tree/ImgDiff.
Wir präsentieren Puppet-Master, ein interaktives Video-generatives Modell, das als Bewegungsprior für Teilniveau-Dynamik dienen kann. Zur Testzeit kann Puppet-Master, basierend auf einem einzelnen Bild und einer spärlichen Menge von Bewegungstrajectories (d. h. Ziehungen), ein Video synthetisieren, das realistische Teilniveau-Bewegungen darstellt, die den gegebenen Ziehinteraktionen treu bleiben. Dies wird durch Feinabstimmung eines groß angelegten, vorab trainierten Video-Diffusionsmodells erreicht, für das wir eine neue Konditionierungsarchitektur vorschlagen, um die Ziehsteuerung effektiv einzuspeisen. Darüber hinaus führen wir den All-to-First-Aufmerksamkeitsmechanismus ein, einen austauschbaren Ersatz für die weit verbreiteten räumlichen Aufmerksamkeitsmodule, der die Generierungsqualität signifikant verbessert, indem er Erscheinungs- und Hintergrundprobleme in bestehenden Modellen angeht. Im Gegensatz zu anderen bewegungsbedingten Video-Generatoren, die auf Videos aus freier Wildbahn trainiert sind und größtenteils ein ganzes Objekt bewegen, wird Puppet-Master aus Objaverse-Animation-HQ gelernt, einem neuen Datensatz kuratierter Teilniveau-Bewegungsclips. Wir schlagen eine Strategie vor, um automatisch suboptimale Animationen herauszufiltern und die synthetischen Renderings mit sinnvollen Bewegungstrajectories zu ergänzen. Puppet-Master generalisiert gut auf echte Bilder in verschiedenen Kategorien und übertrifft bestehende Methoden auf einem realen Benchmark auf eine Null-Schuss-Art und Weise. Weitere Ergebnisse finden Sie auf unserer Projektseite: vgg-puppetmaster.github.io.
Die Erkennung von menschlichen Köpfen, die Schätzung von Schlüsselpunkten und die Anpassung von 3D-Kopfmodellen sind wichtige Aufgaben mit vielen Anwendungen. Traditionelle Echtweltdatensätze leiden jedoch oft unter Voreingenommenheit, Datenschutz- und ethischen Bedenken und wurden in Laborumgebungen aufgezeichnet, was es für trainierte Modelle schwierig macht, zu verallgemeinern. Hier stellen wir VGGHeads vor - einen groß angelegten synthetischen Datensatz, der mit Diffusionsmodellen für die Erkennung von menschlichen Köpfen und die Schätzung von 3D-Meshes generiert wurde. Unser Datensatz umfasst über 1 Million hochauflösende Bilder, die jeweils mit detaillierten 3D-Kopf-Meshes, Gesichtslandmarken und Begrenzungsrahmen annotiert sind. Unter Verwendung dieses Datensatzes stellen wir eine neue Modellarchitektur vor, die in der Lage ist, Köpfe gleichzeitig zu erkennen und Kopf-Meshes aus einem einzigen Bild in einem Schritt zu rekonstruieren. Durch umfangreiche experimentelle Bewertungen zeigen wir, dass Modelle, die auf unseren synthetischen Daten trainiert sind, eine starke Leistung auf echten Bildern erzielen. Darüber hinaus macht die Vielseitigkeit unseres Datensatzes ihn für eine Vielzahl von Aufgaben anwendbar und bietet eine allgemeine und umfassende Darstellung von menschlichen Köpfen. Zusätzlich stellen wir detaillierte Informationen über die synthetische Datengenerierungspipeline bereit, die es ermöglichen, sie für andere Aufgaben und Bereiche wiederzuverwenden.
Die Verankerung natürlicher Sprache in physischen 3D-Umgebungen ist entscheidend für die Entwicklung von verkörpert künstlicher Intelligenz. Aktuelle Datensätze und Modelle für 3D-Visuelle Verankerung konzentrieren sich hauptsächlich auf die Identifizierung und Lokalisierung von Objekten anhand statischer, objektorientierter Beschreibungen. Diese Ansätze adressieren nicht ausreichend die dynamische und sequenzielle Natur der aufgabenorientierten Verankerung, die für praktische Anwendungen erforderlich ist. In dieser Arbeit schlagen wir eine neue Aufgabe vor: Aufgabenorientierte Sequenzielle Verankerung in 3D-Szenen, bei der ein Agent detaillierte Schritt-für-Schritt-Anweisungen befolgen muss, um tägliche Aktivitäten abzuschließen, indem er eine Sequenz von Zielobjekten in Innenräumen lokalisiert. Um diese Aufgabe zu erleichtern, stellen wir SG3D vor, einen Datensatz im großen Maßstab mit 22.346 Aufgaben und 112.236 Schritten in 4.895 realen 3D-Szenen. Der Datensatz wird unter Verwendung einer Kombination von RGB-D-Scans aus verschiedenen 3D-Szenendatensätzen und einer automatisierten Aufgabenerstellungspipeline erstellt, gefolgt von einer menschlichen Überprüfung zur Qualitätssicherung. Wir haben drei hochmoderne 3D-Visuelle Verankerungsmodelle an die sequenzielle Verankerungsaufgabe angepasst und ihre Leistung auf SG3D bewertet. Unsere Ergebnisse zeigen, dass diese Modelle zwar auf traditionellen Benchmarks gut abschneiden, jedoch erhebliche Herausforderungen bei der aufgabenorientierten sequenziellen Verankerung haben, was die Notwendigkeit weiterer Forschung in diesem Bereich unterstreicht.
Die molekulare Darstellung ist ein grundlegendes Element unseres Verständnisses der physikalischen Welt. Ihre Bedeutung reicht von den Grundlagen chemischer Reaktionen bis hin zur Gestaltung neuer Therapien und Materialien. Frühere maschinelle Lernmodelle für Moleküle haben Zeichenfolgen, Fingerabdrücke, globale Merkmale und einfache molekulare Graphen verwendet, die von Natur aus informationsarme Darstellungen sind. Mit zunehmender Komplexität von Vorhersageaufgaben muss die molekulare Darstellung jedoch hochwertigere Informationen kodieren. Diese Arbeit stellt einen neuartigen Ansatz vor, um quantenchemisch reiche Informationen über stereoelektronische Effekte in molekulare Graphen einzubringen. Wir zeigen, dass die explizite Hinzufügung stereoelektronischer Interaktionen die Leistung von maschinellen Lernmodellen für Moleküle signifikant verbessert. Darüber hinaus können stereoelektronik-infundierte Darstellungen mit einem maßgeschneiderten doppelten Graph-Neuronen-Netzwerk-Workflow erlernt und eingesetzt werden, was ihre Anwendung auf jede nachgelagerte maschinelle Lernaufgabe für Moleküle ermöglicht. Schließlich zeigen wir, dass die erlernten Darstellungen eine einfache stereoelektronische Bewertung zuvor unzugänglicher Systeme ermöglichen, wie z. B. ganzer Proteine, und somit neue Wege für die molekulare Gestaltung eröffnen.
Die Vorhersage des Programmverhaltens ohne Ausführung ist eine wesentliche und anspruchsvolle Aufgabe im Software Engineering. Traditionelle Modelle haben oft Schwierigkeiten, dynamische Abhängigkeiten und Interaktionen im Code zu erfassen. Dieses Papier stellt ein neuartiges maschinelles Lern-Framework namens CodeFlowrepresents vor, das Codeabdeckung vorhersagt und Laufzeitfehler durch das Lernen dynamischer Abhängigkeiten erkennt. Unter Verwendung von Kontrollflussgraphen (CFGs) stellt CodeFlowrepresents alle möglichen Ausführungspfade und die Beziehungen zwischen verschiedenen Anweisungen dar, um ein umfassendes Verständnis des Programmverhaltens zu bieten. Es erstellt CFGs zur Darstellung von Ausführungspfaden und lernt Vektorrepräsentationen für CFG-Knoten, um statische Kontrollflussabhängigkeiten zu erfassen. Darüber hinaus lernt es dynamische Abhängigkeiten durch Ausführungsspuren, die die Auswirkungen zwischen Anweisungen während der Ausführung widerspiegeln. Dieser Ansatz ermöglicht eine genaue Vorhersage der Codeabdeckung und die Identifizierung von Laufzeitfehlern. Empirische Bewertungen zeigen signifikante Verbesserungen in der Genauigkeit der Codeabdeckungsvorhersage und eine effektive Lokalisierung von Laufzeitfehlern, die aktuelle Modelle übertreffen.
Bei der Verwendung von Sprachmodellen (LMs) zur Lösung komplexer Probleme könnten Menschen Schwierigkeiten haben, die von den LMs generierten Lösungen zu verstehen und fehlerhafte zu korrigieren. Um Menschen bei der Reparatur zu unterstützen, schlagen wir vor, komplexe Lösungen automatisch in mehrere einfachere Teile zu zerlegen, die bestimmten Teilaufgaben entsprechen. Wir führen ein neues Ziel für das Lernen der Aufgabenzerlegung ein, das als assistiver Wert (AssistV) bezeichnet wird und die Machbarkeit und Geschwindigkeit für die Reparatur der zerlegten Lösung durch Menschen misst. Wir sammeln einen Datensatz von menschlichen Reparaturerfahrungen zu verschiedenen zerlegten Lösungen. Unter Verwendung der gesammelten Daten als In-Context-Beispiele lernen wir dann, zerlegte Lösungen zu kritisieren, zu verfeinern und zu rangieren, um den AssistV zu verbessern. Wir validieren unsere Methode anhand von Wettbewerbsprogrammieraufgaben: In 177 Stunden menschlicher Studie ermöglicht unsere Methode Nicht-Experten die Lösung von 33,3\% mehr Problemen, beschleunigt sie um das 3,3-fache und befähigt sie, mit unassistierten Experten gleichzuziehen.