Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Gebiet der medizinischen Diagnose hat durch das Aufkommen großer Sprachmodelle (LLMs) eine bedeutende Transformation erfahren, doch die Herausforderungen der Interpretierbarkeit innerhalb dieser Modelle bleiben weitgehend ungelöst. Diese Studie führt Chain-of-Diagnosis (CoD) ein, um die Interpretierbarkeit von LLM-basierten medizinischen Diagnosen zu verbessern. CoD verwandelt den diagnostischen Prozess in eine Diagnosekette, die den Denkprozess eines Arztes widerspiegelt und einen transparenten Argumentationsweg bietet. Darüber hinaus gibt CoD die Krankheitsvertrauensverteilung aus, um Transparenz in der Entscheidungsfindung zu gewährleisten. Diese Interpretierbarkeit macht die Modell-Diagnostik steuerbar und hilft bei der Identifizierung kritischer Symptome zur Untersuchung durch die Entropiereduzierung der Vertrauenswerte. Mit CoD haben wir DiagnosisGPT entwickelt, das in der Lage ist, 9604 Krankheiten zu diagnostizieren. Experimentelle Ergebnisse zeigen, dass DiagnosisGPT andere LLMs in diagnostischen Benchmarks übertrifft. Darüber hinaus bietet DiagnosisGPT Interpretierbarkeit und gewährleistet Steuerbarkeit in der diagnostischen Strenge.
Dieses Paper stellt keine neue Methode vor. Stattdessen bietet es einen faireren und umfassenderen Vergleich von KAN- und MLP-Modellen über verschiedene Aufgaben hinweg, einschließlich maschinelles Lernen, Computer Vision, Audiobearbeitung, natürliche Sprachverarbeitung und symbolische Formelrepräsentation. Spezifisch kontrollieren wir die Anzahl der Parameter und FLOPs, um die Leistung von KAN und MLP zu vergleichen. Unsere Hauptbeobachtung ist, dass MLP im Allgemeinen außer bei symbolischer Formelrepräsentation KAN übertrifft. Wir führen auch Ablationsstudien an KAN durch und stellen fest, dass sein Vorteil bei symbolischer Formelrepräsentation hauptsächlich von seiner B-Spline-Aktivierungsfunktion herrührt. Wenn B-Spline auf MLP angewendet wird, verbessert sich die Leistung bei symbolischer Formelrepräsentation signifikant und übertrifft oder entspricht der von KAN. Jedoch verbessert B-Spline in anderen Aufgaben, in denen MLP bereits besser als KAN ist, die Leistung von MLP nicht wesentlich. Darüber hinaus stellen wir fest, dass das Vergessen-Problem von KAN in einem standardmäßigen inkrementellen kontinuierlichen Lernszenario schwerwiegender ist als das von MLP, was sich von den Ergebnissen im KAN-Papier unterscheidet. Wir hoffen, dass diese Ergebnisse Einblicke für zukünftige Forschungen zu KAN und anderen MLP-Alternativen bieten. Projektlink: https://github.com/yu-rp/KANbeFair
In jüngster Zeit haben Fortschritte bei der Videogenerierung hauptsächlich auf Diffusionsmodellen für kurze Inhalte beruht. Diese Ansätze sind jedoch oft nicht in der Lage, komplexe Handlungsstränge zu modellieren und die Konsistenz der Charaktere über längere Zeiträume aufrechtzuerhalten, was für die Produktion von Langformvideos wie Filmen unerlässlich ist. Wir schlagen MovieDreamer vor, ein neuartiges hierarchisches Framework, das die Stärken von autoregressiven Modellen mit diffusionsbasiertem Rendern integriert, um die Generierung von Langzeitvideos mit komplexen Handlungsverläufen und hoher visueller Qualität zu erschließen. Unser Ansatz nutzt autoregressive Modelle für die globale narrative Kohärenz, indem er Sequenzen von visuellen Token vorhersagt, die anschließend durch diffusionsbasiertes Rendern in qualitativ hochwertige Videoframes umgewandelt werden. Diese Methode ähnelt den traditionellen Filmproduktionsprozessen, bei denen komplexe Geschichten in überschaubare Szenenaufnahmen zerlegt werden. Darüber hinaus verwenden wir ein multimodales Drehbuch, das Szenenbeschreibungen mit detaillierten Charakterinformationen und visuellem Stil anreichert, um Kontinuität und Charakteridentität über die Szenen hinweg zu verbessern. Wir präsentieren umfangreiche Experimente in verschiedenen Filmgenres, die zeigen, dass unser Ansatz nicht nur eine überlegene visuelle und narrative Qualität erreicht, sondern auch die Dauer des generierten Inhalts signifikant über die aktuellen Möglichkeiten hinaus ausdehnt. Homepage: https://aim-uofa.github.io/MovieDreamer/.
Die virtuelle Anprobe (VTON) hat sich zu einer wegweisenden Technologie entwickelt, die es Benutzern ermöglicht, mit Mode zu experimentieren, ohne jemals physisch Kleidung anprobieren zu müssen. Allerdings haben bestehende Methoden oft Schwierigkeiten, hochwertige und detailkonsistente Ergebnisse zu erzeugen. Während Diffusionsmodelle, wie die Stable Diffusion-Serie, ihre Fähigkeit zur Erstellung hochwertiger und fotorealistischer Bilder gezeigt haben, stoßen sie auf beträchtliche Herausforderungen in bedingten Generierungsszenarien wie VTON. Insbesondere haben diese Modelle Schwierigkeiten, ein Gleichgewicht zwischen Steuerung und Konsistenz beim Generieren von Bildern für virtuelle Kleidungsanproben aufrechtzuerhalten. OutfitAnyone begegnet diesen Einschränkungen, indem es ein zweisträngiges bedingtes Diffusionsmodell nutzt, das es ihm ermöglicht, Kleiderverformungen für realistischere Ergebnisse geschickt zu handhaben. Es zeichnet sich durch skalierbare Modulationsfaktoren wie Pose, Körperform und breite Anwendbarkeit aus, die von Anime bis hin zu Bildern aus der Wildnis reichen. Die Leistung von OutfitAnyone in verschiedenen Szenarien unterstreicht seine Nützlichkeit und Einsatzbereitschaft für den Einsatz in der realen Welt. Für weitere Details und animierte Ergebnisse besuchen Sie bitte https://humanaigc.github.io/outfit-anyone/.
Die Modelle zur Generierung von Text-zu-Video (T2V) haben sich signifikant weiterentwickelt, jedoch bleibt ihre Fähigkeit, verschiedene Objekte, Attribute, Aktionen und Bewegungen in einem Video zu komponieren, unerforscht. Frühere Text-zu-Video-Benchmarks vernachlässigen auch diese wichtige Fähigkeit für die Bewertung. In dieser Arbeit führen wir die erste systematische Studie zur kompositorischen Text-zu-Video-Generierung durch. Wir schlagen T2V-CompBench vor, den ersten Benchmark, der speziell für die kompositorische Text-zu-Video-Generierung entwickelt wurde. T2V-CompBench umfasst verschiedene Aspekte der Kompositionalität, einschließlich konsistenter Attributbindung, dynamischer Attributbindung, räumlicher Beziehungen, Bewegungsbindung, Aktionsbindung, Objektinteraktionen und generativer Numerik. Wir entwerfen sorgfältig Evaluierungsmetriken basierend auf MLLM-Metriken, Detektionsmetriken und Tracking-Metriken, die die Qualität der kompositorischen Text-zu-Video-Generierung besser widerspiegeln können, und zwar in sieben vorgeschlagenen Kategorien mit 700 Texteingaben. Die Wirksamkeit der vorgeschlagenen Metriken wird durch Korrelationen mit menschlichen Bewertungen verifiziert. Wir führen außerdem Benchmarks verschiedener Modelle zur generativen Text-zu-Video-Erstellung durch und führen eine eingehende Analyse über verschiedene Modelle und verschiedene kompositorische Kategorien durch. Wir stellen fest, dass die kompositorische Text-zu-Video-Generierung für aktuelle Modelle äußerst herausfordernd ist, und hoffen, dass unser Versuch Licht auf zukünftige Forschung in diese Richtung werfen wird.
Bestehende 3D-Datensätze und Modelle zur Interaktion von menschlichen Objekten (HOI) gleichen einfach globale Beschreibungen mit der langen HOI-Sequenz ab, ohne ein detailliertes Verständnis der Zwischenzustände und der Übergänge zwischen den Zuständen zu haben. In diesem Paper argumentieren wir, dass eine feinkörnige semantische Ausrichtung, die Zustandsbeschreibungen auf Zustandsebene nutzt, ein vielversprechendes Paradigma für das Erlernen semantisch reicher HOI-Repräsentationen bietet. Um dies zu erreichen, stellen wir Semantic-HOI vor, einen neuen Datensatz, der über 20K gepaarte HOI-Zustände mit feinkörnigen Beschreibungen für jeden HOI-Zustand und den Körperbewegungen, die zwischen zwei aufeinanderfolgenden Zuständen stattfinden, umfasst. Unter Nutzung des vorgeschlagenen Datensatzes entwerfen wir drei Zustands-HOI-Aufgaben, um eine feinkörnige semantische Ausrichtung innerhalb der HOI-Sequenz zu erreichen. Darüber hinaus schlagen wir ein vereinheitlichtes Modell namens F-HOI vor, das darauf ausgelegt ist, multimodale Anweisungen zu nutzen und dem Multi-modalen Large Language Model zu ermöglichen, vielfältige HOI-Aufgaben effizient zu bewältigen. F-HOI bietet mehrere Vorteile: (1) Es verwendet eine vereinheitlichte Aufgabenformulierung, die die Verwendung vielseitiger multimodaler Eingaben unterstützt. (2) Es gewährleistet Konsistenz in HOI über 2D-, 3D- und sprachliche Räume hinweg. (3) Es nutzt feinkörnige textuelle Überwachung für eine direkte Optimierung und vermeidet eine komplexe Modellierung von HOI-Zuständen. Umfangreiche Experimente zeigen, dass F-HOI HOI-Zustände effektiv mit feinkörnigen semantischen Beschreibungen abgleicht und geschickt Aufgaben des Verstehens, Schlussfolgerns, Generierens und Rekonstruierens bewältigt.
Mit Fortschritten bei der Datenverfügbarkeit und Rechenressourcen haben Multimodale Große Sprachmodelle (MLLMs) ihre Fähigkeiten in verschiedenen Bereichen gezeigt. Die quadratische Komplexität des Vision Encoders in MLLMs beschränkt jedoch die Auflösung von Eingabebildern. Die meisten aktuellen Ansätze mildern dieses Problem, indem sie hochauflösende Bilder in kleinere Teilbilder zuschneiden, die dann unabhängig voneinander vom Vision Encoder verarbeitet werden. Obwohl diese Teilbilder ausreichend lokale Details erfassen, fehlt es ihnen an globalem Kontext und sie interagieren nicht miteinander. Um diese Einschränkung zu überwinden, schlagen wir ein neues MLLM vor, INF-LLaVA, das für eine effektive Wahrnehmung von hochauflösenden Bildern konzipiert ist. INF-LLaVA integriert zwei innovative Komponenten. Erstens führen wir ein Dual-Perspektiven-Zuschneidemodul (DCM) ein, das sicherstellt, dass jedes Teilbild kontinuierliche Details aus lokaler Perspektive und umfassende Informationen aus globaler Perspektive enthält. Zweitens führen wir ein Dual-Perspektiven-Verbesserungsmodul (DEM) ein, um die gegenseitige Verbesserung globaler und lokaler Merkmale zu ermöglichen, wodurch INF-LLaVA hochauflösende Bilder effektiv verarbeiten kann, indem detaillierte lokale Informationen und umfassender globaler Kontext gleichzeitig erfasst werden. Umfangreiche Ablationsstudien bestätigen die Wirksamkeit dieser Komponenten, und Experimente an einem vielfältigen Benchmark-Set zeigen, dass INF-LLaVA bestehende MLLMs übertrifft. Der Code und das vortrainierte Modell sind unter https://github.com/WeihuangLin/INF-LLaVA verfügbar.
Trotz der Verfügbarkeit internationaler Preisgeldwettbewerbe, skalierten Fahrzeugen und Simulationsumgebungen wurde die Forschung zu autonomen Rennen und der Steuerung von Sportwagen, die nahe am Grenzbereich der Fahrphysik operieren, durch die hohen Kosten für den Fahrzeugerwerb und -management sowie die begrenzte physikalische Genauigkeit von Open-Source-Simulatoren begrenzt. In diesem Artikel schlagen wir eine Rennsimulation vor, die auf dem Simulator Assetto Corsa basiert, um autonome Fahralgorithmen, einschließlich verstärkendem Lernen (RL) und klassischer modellprädiktiver Regelung (MPC), in realistischen und anspruchsvollen Szenarien zu testen, zu validieren und zu vergleichen. Unsere Beiträge umfassen die Entwicklung dieser Simulation, mehrerer modernster Algorithmen, die auf die Rennumgebung zugeschnitten sind, sowie eines umfassenden Datensatzes, der von menschlichen Fahrern gesammelt wurde. Darüber hinaus bewerten wir Algorithmen im Offline-RL-Umfeld. Der gesamte erforderliche Code (einschließlich Umgebung und Benchmarks), Arbeitsbeispiele, Datensätze und Videos werden öffentlich freigegeben und sind unter folgendem Link zu finden: https://assetto-corsa-gym.github.io.
Die videobasierte Vortrainierung bietet ein enormes Potenzial für das Erlernen starker visueller Repräsentationen in bisher nicht dagewesenem Maßstab. In letzter Zeit haben maskenbasierte Videomodellierungsmethoden vielversprechende Skalierbarkeit gezeigt, jedoch reichen sie nicht aus, um höhere semantische Ebenen zu erfassen, da sie vordefinierte niedrigstufige Ziele wie Pixel rekonstruieren. Um dies zu bewältigen, präsentieren wir Sinkhorn-geführte Masken-Videomodellierung (SIGMA), eine neuartige Methode zur Videovortrainierung, die das Videomodell gemeinsam mit einem Zielmerkmalsraum unter Verwendung eines Projektionsnetzwerks lernt. Diese einfache Modifikation bedeutet jedoch, dass der reguläre L2-Rekonstruktionsverlust zu trivialen Lösungen führen wird, da beide Netzwerke gemeinsam optimiert werden. Als Lösung verteilen wir Merkmale von Raum-Zeit-Röhren gleichmäßig über eine begrenzte Anzahl erlernbarer Cluster. Indem wir dies als ein optimales Transportproblem darstellen, erzwingen wir eine hohe Entropie in den generierten Merkmalen über die Charge hinweg und bringen semantische und zeitliche Bedeutung in den Merkmalsraum ein. Die resultierenden Cluster-Zuweisungen werden als Ziele für eine symmetrische Vorhersageaufgabe verwendet, bei der das Videomodell die Cluster-Zuweisung des Projektionsnetzwerks vorhersagt und umgekehrt. Experimentelle Ergebnisse auf zehn Datensätzen über drei Benchmarks hinweg bestätigen die Wirksamkeit von SIGMA beim Erlernen performanterer, zeitlich bewussterer und robusterer Videorepräsentationen, die über die aktuellen Methoden hinausgehen. Unsere Projektwebsite mit dem Code ist verfügbar unter: https://quva-lab.github.io/SIGMA.
Die Bereitstellung von Sprachmodellen (LMs) erfordert, dass die Ausgaben sowohl von hoher Qualität sind als auch den Sicherheitsrichtlinien entsprechen. Obwohl Inference-Time Guardrails (ITG) Lösungen anbieten, die die Ausgabeverteilungen des Modells in Richtung Konformität verschieben, stellen wir fest, dass aktuelle Methoden Schwierigkeiten haben, Sicherheit und Hilfreichkeit auszubalancieren. ITG-Methoden, die nicht konforme Anfragen sicher behandeln, weisen eine geringere Hilfreichkeit auf, während solche, die Hilfreichkeit priorisieren, bei der Sicherheit Kompromisse eingehen. Wir bezeichnen diesen Kompromiss als "Guardrail Tax", analog zur "Alignment Tax". Um dies zu lösen, schlagen wir PrimeGuard vor, eine neuartige ITG-Methode, die strukturierten Kontrollfluss nutzt. PrimeGuard leitet Anfragen an verschiedene Selbstinstanzen des LM mit unterschiedlichen Anweisungen weiter, wobei es seine inhärenten Anweisungsfolgefähigkeiten und das kontextbezogene Lernen nutzt. Unser abstimmungsfreier Ansatz kompiliert dynamisch Richtlinien des Systemdesigners für jede Anfrage. Wir erstellen und veröffentlichen safe-eval, einen vielfältigen Sicherheitsbenchmark für Red-Teams. Umfangreiche Evaluierungen zeigen, dass PrimeGuard, ohne Feinabstimmung, die Guardrail Tax überwindet, indem es (1) die Resistenz gegen iterative Jailbreak-Angriffe signifikant erhöht und (2) Spitzenleistungen bei der Sicherheitsabsicherung erzielt, während (3) die Hilfreichkeitsergebnisse von Alignment-abgestimmten Modellen erreicht werden. Umfangreiche Evaluierungen zeigen, dass PrimeGuard, ohne Feinabstimmung, alle konkurrierenden Baselines übertrifft und die Guardrail Tax überwindet, indem der Anteil sicherer Antworten von 61% auf 97% erhöht und die durchschnittlichen Hilfreichkeitsergebnisse von 4,17 auf 4,29 bei den größten Modellen steigert, während die Erfolgsrate von Angriffen von 100% auf 8% reduziert wird. Die Implementierung von PrimeGuard ist verfügbar unter https://github.com/dynamofl/PrimeGuard und der safe-eval Datensatz ist verfügbar unter https://huggingface.co/datasets/dynamoai/safe_eval.
Die Anwendung von Vision-Sprach-Modellen (VLMs) hat beeindruckende Erfolge in verschiedenen Robotik-Aufgaben erzielt, aber es gibt nur wenige Untersuchungen für Grundlagenmodelle, die in der Navigation von Vierbein-Robotern verwendet werden. Wir stellen das Cross Anything System (CAS) vor, ein innovatives System, bestehend aus einem hochrangigen Denkmodul und einer nieder-rangigen Steuerungsrichtlinie, das es dem Roboter ermöglicht, komplexe 3D-Gelände zu durchqueren und die Zielposition zu erreichen. Für das hochrangige Denken und die Bewegungsplanung schlagen wir ein neuartiges algorithmisches System vor, das von einem VLM profitiert, mit einem Entwurf der Aufgabenzerlegung und einem Closed-Loop-Teilaufgaben-Ausführungsmechanismus. Für die nieder-rangige Fortbewegungssteuerung nutzen wir die Wahrscheinlichkeitsverteilungsauswahl (PAS) Methode, um eine Steuerungsrichtlinie durch Verstärkungslernen zu trainieren. Zahlreiche Experimente zeigen, dass unser gesamtes System genau und robust durch komplexe 3D-Gelände navigieren kann, und seine starke Verallgemeinerungsfähigkeit gewährleistet Anwendungen in vielfältigen Innen- und Außenszenarien sowie Geländen. Projektseite: https://cross-anything.github.io/